Architektur und Entscheidungen

Dokumentierte Trade-offs statt KI-Geschwurbel.

Jede groessere Entscheidung ist als Architecture Decision Record festgehalten. Hosting, Netz, Sandbox, Modelle, Backup — alles begruendet.

Modellstrategie

Primary, Fallback, Notfallpfad.

Im Normalbetrieb laufen Anfragen ueber OpenAI Codex (GPT-5.4). Das ist ein bewusster Trade-off fuer Qualitaet und Zuverlaessigkeit — transparenter Hinweis: Anfragen verlassen dabei das eigene Netz.

Fuer sensible Daten kann manuell auf das lokale Modell umgestellt werden. Bei OpenAI-Ausfall springt Nemotron-Cascade-2 automatisch ein.

Anfrage GPT-5.4 Primary (OpenAI) Nemotron-C2 Fallback (lokal) Anthropic Direct Notfall (Cloud)

ADR-Auswahl

Zentrale Architekturentscheidungen.

ADREntscheidungBegruendung
E-001IONOS als HostingDSGVO-konform, deutsches Rechenzentrum, konsistente Infrastruktur.
E-002WireGuard statt TailscaleKeine externe Abhaengigkeit, volle Kontrolle, Hub-and-Spoke.
E-003Natives Node.js fuer Gateway5-6x schnellere Antwortzeiten, direkter WireGuard-Zugriff.
E-004Docker-SandboxIsolation gegen Prompt-Injection, kein Host-Zugriff moeglich.
E-005LiteLLM als VerteilerEinheitliche API, API-Key bleibt auf GX10, Budget-Kontrolle.
E-007Secrets als DateienNicht sichtbar in Prozesslisten oder Docker-Inspect.
E-008nftables IsolationKernel-Level-Firewall, Container erreichbar nur definierte Ziele.
E-013Cloud-Primary, lokal-FallbackQualitaet im Normalbetrieb, Resilienz bei Ausfall.
E-014Eigener VPS fuer WEB/GitTrennung, Gitea nur intern ueber WireGuard.
E-016Team-weite Gitea-NutzungStandardisierte Projektstruktur, Git-Proxy multi-agent-faehig.
E-017Lossless Context ManagementDAG-Summaries statt Sliding-Window-Verlust.
E-018restic-Backup auf WEB1Taeglich verschluesselt via SFTP/WireGuard, SQLite-safe.
E-019Syncthing statt NextcloudP2P, kein zentraler Server, Discovery deaktiviert.
E-020Nemotron-Cascade-2AWQ-INT4 (17 GB statt 62 GB), ~4x schneller, CUDA Graphs.