Lokale KI - Wie es begann!
Lokale KI - Von der Idee zur Realität
Nach 3 Monaten Trial & Error, unzähligen Versuchen mit nicht zufriedenstellenden Ergebnissen endlich ein brauchbarer und funktionierender Chat.
Manchmal dachte ich, die KIs von den Tech-Giganten machten sich lustig über mich, produzierten extra Fehler, um dann beim Hinweis darauf mit einem lachenden Smile und "hahahha" ..."du hast recht..." zu antworten.
Alles nur Code, der sich komplett und mit Absicht über mich lustig macht, so dachte ich. Kann das sein, KI, dich sich vielleicht lustig macht? Ich weiß es nicht. Aber sicher ist, dass KI gerne das "blaue vom Himmel" erzählt. Sie fantasiert und das sehr gerne und überzeugend. Auch das muss man erst mal verstehen und lernen, sie etwas besser agieren zu lassen, falls überhaupt möglich.
Aber immerhin , die KI bot mir immer geduldig Hilfe an und mit Unterstützung verschiedener Cloud-KI-Systeme war es dann endlich soweit: Eine lokale KI, die nicht nur "rubbish" von sich gab und faselte!

Der steinige Weg dorthin: Als ich anfing, verschiedene KI-Modelle zu testen, stieß ich schnell an die Grenzen meiner Hardware. Mein alter PC hatte praktisch keine brauchbare GPU - für lokale KI-Modelle völlig ungeeignet. Also musste ein neuer Rechner her. Natürlich ließ ich mich auch dabei von den KI-Systemen beraten - denn wer könnte besser wissen, welche Hardware für KI gebraucht wird als sie selber?
Doch auch der neue Rechner erwies sich schnell als zu klein für meine Ambitionen. Was für 8B-Parameter-Modelle noch funktionierte, brachte bei größeren Modellen das System in die Knie.
Frust Nummer zwei: Auch die Code-Snippets und Scripts, die mir die verschiedenen KI-Systeme gaben, funktionierten selten auf Anhieb. Was in der Theorie perfekt klang, endete in der Praxis oft mit Fehlermeldungen und stundenlangem Debugging. Wer glaubt, dass KI immer funktionierende Lösungen liefert, der irrt gewaltig...
Eine lehrreiche und oft wirklich frustrierende Reise - aber auch mit der Zeit immer mehr die Erkenntnis, dass es funktionieren kann.
Hardware-Spezifikationen
Mit folgender Hardware habe ich meine lokale KI-Reise begonnen:
Prozessor:
-
AMD Ryzen 9 7900X 12-Core Processor
Grafikkarte:
-
NVIDIA GPU mit 12GB VRAM (für KI-Berechnungen optimiert)
Arbeitsspeicher:
-
64GB RAM
Betriebssystem:
-
Windows Professional
KI-Modelle:
-
Aktiv: Neu ab Januar Gemma3 : 27B. (vorher Llama 3.1 :8B)
-
Bereit: Llama3.1: 70B (heruntergeladen, läuft mit q4 erstaunlicherweise in der Konsol, ohne Skript, nur kleine Tests mit langen Wartzeiten.
Software-Stack:
-
Backend: Ollama für Modell-Management
-
Datenbank: Vektordatenbank für Langzeiterinnerung (hat sich im Laufe der Zeit immer mal geändert)
-
Features: Chat-Historie, autonomes Gedankentagebuch,
-
Websuche: Neu Januar: aktiv Google, vorher über DuckDuckGo-Integration (duck-duck-go leider instabil)
-
Interface: Custom Setup
Meine Modell-Historie: Von ersten Experimenten bis zur stabilen Version
Update: Januar 2026 Modellwechsel, nun Gemma3 :27B
Nach vielen Experimenten mit unterschiedlichen LLaMA-Versionen habe ich mich schließlich für das Modell 3.1 8B-Instruct-Q8_0 entschieden.
Neu: Januar 2026 Gemma3 : 27B
Es erwies sich nach diversen Tests als die beste Kombination aus Leistung und Stabilität – und harmoniert am besten mit meiner Hardware.
Mit wachsender Erfahrung habe ich das Grundsystem Stück für Stück erweitert. Zunächst ergänzte ich Embeddings und mehrere Datenbanken, um Wissen, Chatverläufe und Reflexionen zu speichern.
Die Entwicklungsstufen mit dem Modell 3.1 8B-Instruct-Q8_0:
-
Version 1: Erste stabile Basis mit SQLite und dem Embedding-Modell all-MiniLM-L6-v2. Drei Datenbanken: Wissen, Chat-Historie & Zusammenfassungen sowie ein Tagebuch für Reflexionen.
-
Version 2: Wechsel von SQLite zu Chroma für mehr Flexibilität.
-
Version 3: Umstieg auf das Embedding-Modell e5-large-v2 bei gleichbleibender Chroma-Struktur.
-
Version 4: Umfassender Relaunch: Wechsel auf HTML als Benutzeroberfläche (bessere Performance) und Einsatz von Qdrant als neue Vektordatenbank.
-
Update: Januar Modellwechsel zu gemma3 :27B
Die aktuelle Version läuft nun deutlich stabiler. Der Umstieg von Streamlit auf HTML war allerdings keine einfache Umstellung, sondern eine komplette Neuordnung des Systems. Einige Funktionen wie Internet-Suche oder Dokumenten-Upload (PDF, Word) sind daher aktuell noch in Arbeit.
Früher nutzte ich ein einziges Skript – heute basiert das System auf einer modularen Architektur, die Anpassungen und Weiterentwicklungen deutlich erleichtert.
Und das Besondere daran: Ich habe all das ohne Programmierkenntnisse umgesetzt. Nur mit dem Willen einer eigenen lokale KI , es unbedingt zu schaffen. Mithilfe verschiedener KIs konnte ich meine Ideen Schritt für Schritt in funktionierenden Code verwandeln. Was einfach klingt, war in Wahrheit ein monatelanger Höllenritt auf der „Nervenautobahn“: unzählige Versuche, endlose Anpassungen – und Module, die selten beim ersten Mal funktionierten.
Zusammenfassung:
Mein Weg von der einfachen Idee zu diesem Projekt, den ersten Experimenten bis zum aktuellen Modell war mehr als nur der Einsatz von Technik: Es war ein Lernprozess. Es ist ein Lernprozess. Und dieser Prozess hat gerade erst begonnen.
Ich habe verstanden, wie wichtig eine flexible Architektur, eine modulare Bauweise, kein Code-Monolitblock, passende Embeddings und stabile Datenbanken sind.
Vor allem habe ich gelernt:
Mit einer sehr starken Überzeugung für ein Projekt, viel Zeit und unablässiger Ausdauer kann man selbst ohne Vorkenntnisse relativ große KI-Projekte umsetzen.
Das Ergebnis: Ein lokales KI-System, das funktioniert. Seit Modellwechsel auf gemma3: 27B ist die Faszination für Lokale KI noch größer geworden.
Der Abstand zu den großen Modellen hat sich mit Gemma3 :27B spürbar verkleinert.
Gemma3/ Gemma4
Bemerkenswert bei dem Modell geamm3:27b ist die context length von über 131.000 Token.
Model
architecture gemma3
parameters 27.4B
context length 131072
embedding length 5376
quantization Q4_K_M
Capabilities
completion
vision
Parameters
top_k 64
top_p 0.95
stop "<end_of_turn>"
temperature 1
License
Gemma Terms of Use
Last modified: February 21, 2024
Im April 2026 hat google mit gemma4 ordentlich nachgelegt für frei erhältliche Modelle. Für mich interessant: das gemma4:31b.
Allerdings, mit meiner 12 GB GPU und selbst mit 64 GB Arbeitsspeicher für die Auslagerung leider zu groß für die Hardware.
Wie sollte es auch anders sein 😉, ich habe geamm4:31b dennoch heruntergeladen und in der Konsole zum Laufen gebracht.
Ja, es läuft, aber sehr zäh und für einen zusätzlichen "Anbau" mit Skripts und Datenbanken leider mit meiner Hardware nicht wirklich brauchbar.
Die Daten von gemma4:31b sind erneut enorm. Das Kontextfenster hat sich gegenüber gemm3:27b verdoppelt.
Model
architecture gemma4
parameters 31.3B
context length 262144
embedding length 5376
quantization Q4_K_M
requires 0.20.0
