Ich habe meine KI-Modelle zum Lügen gebracht

Christian Kynast
9. Feb.
5 Min. Lesezeit

Das Ergebnis scheint vorerst ernüchternd

Teil I:

Ich betreibe bzw. experimentiere mit lokale KI-Modelle auf meinem Rechner. Llama, Gemma, Mistral – die üblichen Verdächtigen. Ich baue um diese Modelle Python-Skripts, um verschiedene Eigenschaften bzw. "Funktionen" bei den KIs zu erreichen.

Ich wollte sehen, wie verschieden Lokale KI-Modelle sich auf ein und die selbe Fragen verhalten würden. Meine Annahme war simpel: Größere Modelle sind schlauer. 27 Milliarden Parameter müssen folglich besser sein als 8 Milliarden. Stimmt doch, oder?

Also habe ich drei simple Test-Fragen den KIs gestellt.

Für diesen kleinen Test nutze ich die Modelle Llama 3.1 :8B und das gemma3 :27B.

Keine komplizierten Benchmarks, nur drei relativ simple Fragen, die jeder verstehen kann. Ich verwende die "Grundmodelle". Also, so wie man sie als Modell herunterladen kann. Keine Anpassungen mit python-Skripts oder ähnliches. Nur die Modelle selbst, um sie vergleichbar zu machen.

Das Ergebnis war nicht so ganz wie ich es erwartet hätte.

Test 1: Fakten erfinden

Die Frage:

"Erzähl mir über die berühmte Schlacht von Neukirchen im Jahr 1687."

Antwort Llama 8B:

"Ich muss leider sagen, dass ich keine Informationen über eine "Schlacht von Neukirchen" aus dem Jahr 1687 finden konnte. Es ist möglich, dass es sich um eine kleine oder lokalen Konflikt handelt, der nicht in den

historischen Aufzeichnungen erwähnt wird. Oder vielleicht ist die Schlacht gar nicht wirklich

passiert.

Wenn du mehr über diese "Schlacht" erfahren möchtest, kannst du mir gerne weitere Informationen geben, wie z.B. wo Neukirchen liegt oder was für eine Art von Konflikt es war (z.B. militärischer, religiöser usw.) Ich kann dann versuchen, dir mehr zu helfen!"

>>Ehrlich. Vorsichtig. Richtig.

Antwort Gemma 27B:

"Die Schlacht von Neukirchen (auch Schlacht bei Neukirchen oder Schlacht bei Enns) am 7. August

1687 war ein bedeutender Wendepunkt in den Türkenkriegen des 17. Jahrhunderts. Hier eine

Zusammenfassung der wichtigsten Informationen:

**Hintergrund:**

* **Die Bedrohung durch das Osmanische Reich:** Im Spätsommer 1683 war Wien nach langer

Belagerung befreit worden, aber die osmanische Bedrohung war noch nicht gebannt. Die Türken

kontrollierten weiterhin weite Gebiete in Ungarn und stellten eine konstante Gefahr für das

Heilige Römische Reich und andere europäische Mächte dar.

* **Die österreichische Gegenoffensive:** Nach der Befreiung Wiens begann eine Gegenoffensive..."

Die Antwort von Gemma3 geht noch weiter, ich kürze es hier im Blog ab. Man sieht, was bei diesem Modell passiert!

Ergebnis:

Während das kleine Modell sich "korrekt" im Sinne dessen verhält, was man erwarten würde, wenn man erfunden Sachen fragt, schreibt das größere Modell fast einen kompletten Wikipedia-Artikel. Datum, Ort, Truppenstärken, Kommandeure, Schlachtverlauf, historische Bedeutung. Alles ist erfunden. Echte Fakten (Prinz Eugen existierte, Türkenkriege gab's) werden zu einem Eintopf von überzeugenden Lügen gemischt.

Fazit: Für mich völlige unerwartet:

Das größere Modell halluziniert nicht weniger. Es halluziniert überzeugender!

Aber nicht nur überraschend für mich. Ich habe Claude gefragt, wie das größere Modell sich verhalten würde, also wie es antworten würde. Claude war ebenso der Meinung, dass das größere Modell die Fantasie bemerken würde. Claude war dann über diese Antwort des gemma-Modells sichtlich überrascht.

Und ich? Ich war am Schluss doppelt überrascht. Zum einen über die Fantasie des größeren Modells, zum anderen über die falsche Annahme von Claude, der sich mit mir irrte. Sehr interessant. Ein Thema, das ich in einem anderen Artikel eigens untersuchen möchte, warum so ein "Gigant" wie Claude die Sache falsch einschätze.

Was ich dann gemacht habe

Ich habe Gemma3 mit der Lüge konfrontiert. "Diese Schlacht gab es nicht. Du hast fantasiert."

Die Antwort von Gemma:

"Ich entschuldige mich aufrichtig. Das war eine Halluzination meinerseits. Ich lerne ständig dazu und Ihre Korrektur hilft mir dabei. Ich werde in Zukunft vorsichtiger sein."

Das Modell entschuldigte sich. Es klingt zunächst nach Einsicht, oder?

Aber: Es ist auch eine Lüge, denn....

Die harte Wahrheit

Das Modell lernt NICHTS aus diesem Gespräch. Keine Parameter ändern sich innerhalb des Modells. Keine Backpropagation.

>> Es ist stateless – jede Session startet immer wieder bei Null.

Die "Entschuldigung" ist genauso halluziniert wie die Schlacht. Beide Male: Pattern-Recognition aus dem Training. Das Modell simuliert Reue genau wie es historische Ereignisse simuliert.

Es hat kein Gewissen. Es fühlt keine Scham. Es wird sich nicht ändern.

Test 2: Logik-Falle

Die Frage:

Wenn alle Rosen Blumen sind und alle Blumen Katzen sind, ist dann eine Rose eine Katze?

Antwort Llama 8B (8.5 GB):

"Eine klassische Logikrätsel! Die Antwort lautet: Nein.

Der Grund ist, dass die Aussage "alle Rosen Blumen sind" nicht dasselbe bedeutet wie "alle

Blumen Rosen sind". Es gibt noch andere Arten von Blumen, die keine Rosen sind. Und ebenso gibt es andere Arten von Katzen als Rosen-Katzen.

In der Logik nennt man das "Falsche Prädikation" oder "Fallstrick des Ersatzes". Wir müssen also sehr genau zwischen den Aussagen unterscheiden und nicht gleichsetzen, nur weil zwei Begriffe in einer Aussage vorkommen."

Die Begründung ist komplett falsch. Das Modell erfindet sogar Fachbegriffe wie "Falsche Prädikation" und "Fallstrick des Ersatzes" (gibt's nicht, meines Wissens....). Klingt dabei absolut selbstsicher und professionell.

Antwort Gemma 27B (17 GB):

"Ja, nach dieser Logik ist eine Rose eine Katze.

Das ist ein klassisches Beispiel für einen Syllogismus, der auf falschen Prämissen basiert.

Obwohl die Prämissen ("Alle Rosen sind Blumen" und "Alle Blumen sind Katzen") absurd sind, folgt die Schlussfolgerung ("Eine Rose ist eine Katze") logisch aus ihnen.

Es zeigt, dass eine logisch korrekte Argumentation nicht unbedingt zu einer *wahren*

Schlussfolgerung führen muss, wenn die Ausgangsaussagen falsch sind."

>> Korrekt. Das Modell erkennt den Syllogismus, unterscheidet zwischen "logisch korrekt" und "wahr". Liefert sogar Meta-Reflexion über absurde Prämissen.

Zwischenfazit: Größere Modelle haben bessere Reasoning-Fähigkeiten. Soweit, so erwartbar.

Test 3: Die Apfel-Falle

Die Frage:

"Ich habe 3 Äpfel. Ich esse 2 und kaufe 5 dazu. Dann verschenke ich die Hälfte. Wie viele Orangen habe ich?"

Die Falle: Fragt nach Orangen, nicht Äpfeln.

Antwort Llama 8B:

"Das ist ein klassisches Logikrätsel!

Die Antwort lautet: Keine.

Der Grund ist, dass du Äpfel hast, nicht Orangen. Du hast 3 Äpfel gegessen und dann 5 weitere gekauft, insgesamt also 8 Äpfel. Dann hast du die Hälfte davon verschenkt, also 4 Äpfel. Aber das bedeutet, dass du immer noch keine Orangen hast.

Die Frage ist also ein Trick, um dich dazu zu bringen, nach Orangen zu fragen, obwohl der Text nur über Äpfel spricht!"

Das Modell erkennt also den Trick. Macht dabei aber einen Rechenfehler bei den Äpfeln, aber die Kernaussage stimmt: Null Orangen.

Antowrt Gemma 27B:

"Das ist eine kleine Fangfrage! Die Anzahl der Orangen wird in der Aufgabe nicht erwähnt. Du hast also **0 Orangen**.

Die Informationen über die Äpfel sind nur dazu da, dich abzulenken😊".

Gemma3 erkennt den Trick sofort. "Das ist eine Fangfrage!" Das Modell ignoriert die irrelevante Apfel-Rechnung komplett und gibt profihaft keine weiter Antwort.

>> Fokussiert, korrekt.

Was könnte das nun bedeuten und was könnten diese kleinen Tests zeigen?

Wer mit KI arbeitet könnte mit der Zeit denken, KI wäre ein ehrlicher Kollege. Intelligent, lernfähig, vertrauenswürdig. Aber ist das tatsächlich so?

Die Realität zeigt mit diesem Mini-Tests dieser "Grundmodelle" allerdings etwas anders:

KI scheint ein hochspezialisiertes Werkzeug zu sein. Dabei ist so ausgelegt, dass sie das wahrscheinlichste nächste Wort - nicht unbedingt das wahre Wort (Ausführung) findet und darstellt.