Eine KI-Halluzination ist ein Phänomen, bei dem ein Large Language Model (LLM, also ein großes Sprachmodell) Informationen produziert, die sachlich falsch, erfunden oder widersprüchlich sind — aber trotzdem überzeugend und flüssig klingen. Der Begriff beschreibt damit das Gegenteil von dem, was man sich von einem KI-System wünscht: statt zuverlässiger Fakten liefert das Modell selbstsicher eine Antwort, die schlicht nicht stimmt.
Woher kommt der Begriff?
Das Wort „Halluzination“ klingt merkwürdig für eine Maschine, und das ist kein Zufall. Ursprünglich wurde der Begriff in der Computervision verwendet — also in dem Bereich der KI, der Bilddaten verarbeitet. Dort bezeichnete er ab den 1980er-Jahren etwas Positives: Das Modell „halluziniert“ Details in ein Bild hinein, die nicht da sind, etwa wenn es aus einem unscharfen Gesichtsfoto ein hochaufgelöstes Bild erzeugt. Die erste dokumentierte Verwendung des Begriffs in diesem Sinn findet sich in der Doktorarbeit von Eric Mjolsness aus dem Jahr 1986.
Im Juli 2021 warnte Meta beim Launch von BlenderBot 2 davor, dass das System zu „Halluzinationen“ neige — und definierte das als „selbstsichere Aussagen, die nicht der Wahrheit entsprechen“. Mit dem Durchbruch von ChatGPT änderte sich die Wahrnehmung grundlegend. Nach dem Launch von ChatGPT im November 2022 begannen viele Nutzerinnen und Nutzer zu berichten, dass der Chatbot plausibel klingende Falschinformationen in seine Antworten einbettete — und große Medien wie die New York Times übernahmen den Begriff „Halluzination“ für dieses Phänomen.
Wie entstehen KI-Halluzinationen technisch?
LLMs sind keine Wissensdatenbanken. Ein LLM ist ein maschinelles Lernmodell, das darauf trainiert ist, Text vorherzusagen — es analysiert, was als nächstes in einem Satz kommen könnte, basierend auf Milliarden von Wörtern aus den Trainingsdaten. Es unterscheidet dabei nicht zwischen Fakten und Fiktion.
Streng genommen halluzinieren große Sprachmodelle immer: Sie generieren Text stets auf Basis statistischer Wahrscheinlichkeiten, nicht auf Basis von Wissen oder Fakten. Jede Ausgabe ist eine Art kontrollierte Halluzination — nur fällt sie meist nicht als Fehler auf, weil das Ergebnis zufällig mit der Realität übereinstimmt.
LLMs werden so trainiert, dass sie lieber raten, als „Ich weiß es nicht“ zu sagen — denn ein glücklicher Treffer verbessert die Bewertung des Modells während des Trainings, während ein ehrliches Eingestehen von Unsicherheit garantiert zu einer niedrigeren Punktzahl führt.
Konkrete Ursachen für Halluzinationen sind laut Forschungslage vor allem diese: Schlechte oder lückenhafte Trainingsdaten führen dazu, dass das Modell falsche Muster lernt. Zu vage Prompts (also Eingaben) verleiten das Modell dazu, Lücken mit plausibel klingendem Inhalt zu füllen. Veraltetes Wissen ist ebenfalls ein Faktor — wenn die Trainingsdaten nur bis zu einem bestimmten Datum reichen, fehlt dem Modell jedes Wissen über spätere Ereignisse. Dazu kommt, dass LLMs beim Komprimieren riesiger Informationsmengen zu Modellgewichten oft die Verbindung zu konkreten Quellen verlieren, was zu „Konfabulationen“ führt — also dazu, dass unterschiedliche Konzepte oder Ereignisse falsch miteinander verknüpft werden.
Welche Arten von Halluzinationen gibt es?
Forscherinnen und Forscher unterscheiden grundsätzlich zwei Hauptkategorien: Faktizitäts-Halluzinationen und Treue-Halluzinationen (englisch: factuality und faithfulness hallucinations). Erstere meinen Aussagen, die schlicht falsch sind — das Modell behauptet etwas, das nicht der Realität entspricht. Letztere beschreiben Fälle, in denen das Modell von einer vorgegebenen Quelle oder Aufgabenstellung abweicht und etwas produziert, das nicht mit dem Input übereinstimmt.
Das Spektrum reicht von kleineren Ungereimtheiten bis hin zu völlig frei erfundenen Informationen: Generierte Sätze können im Widerspruch zu vorherigen Sätzen stehen, die Antwort kann von der ursprünglichen Frage abweichen, oder eine erfundene Information wird schlicht als Tatsache präsentiert.
Ein berühmtes Beispiel: der Fall Mata v. Avianca
Das wohl bekannteste Beispiel einer KI-Halluzination mit realen Folgen ereignete sich im Jahr 2023 in den USA. Im Fall Mata v. Avianca nutzten Anwälte ChatGPT für ihre juristische Recherche und zitierten in einem Gerichtsschriftsatz mehrere Urteile — die allesamt nicht existierten. Als die Gegenseite die Entscheidungen nicht finden konnte, wurde das Gericht eingeschaltet. Als der verantwortliche Anwalt ChatGPT direkt fragte, ob eine der zitierten Entscheidungen real sei, bestätigte ChatGPT dies — und erfand auf Nachfrage sogar den vollständigen Text des nicht existierenden Urteils, inklusive Sachverhalt, Parteivorbringen und Schlussfolgerung. Richter P. Kevin Castel verhängte daraufhin eine Geldstrafe von 5.000 Dollar und beschrieb eine der zitierten Entscheidungen als „Kauderwelsch“.
Dieses Beispiel zeigt das gefährlichste Merkmal von KI-Halluzinationen: LLMs neigen dazu, auch falsche Informationen sehr selbstsicher zu präsentieren, was es schwer macht, sie auf den ersten Blick zu erkennen.
Wie lassen sich KI-Halluzinationen reduzieren?
Es gibt verschiedene Ansätze, das Problem einzudämmen — vollständig beseitigen lässt es sich nach aktuellem Forschungsstand nicht. Eine der verbreitetsten technischen Methoden ist Retrieval Augmented Generation (RAG). Dabei wird das LLM nicht auf sein trainiertes Wissen allein gestützt, sondern erhält bei jeder Anfrage relevante Dokumente aus einer externen Wissensdatenbank — es muss also keine Details aus dem Gedächtnis erfinden, sondern kann auf verifizierten Quellen aufbauen.
Eine weitere Methode ist Reinforcement Learning from Human Feedback (RLHF): Menschliche Bewerterinnen und Bewerter beurteilen die Antworten des Modells und bestrafen Halluzinationen, während sie korrekte, ehrliche Aussagen belohnen. So lernt das Modell schrittweise, zuverlässiger zu werden.
Als Nutzerin oder Nutzer hast du ebenfalls Einfluss: Präzise und spezifische Prompts reduzieren die Wahrscheinlichkeit von Halluzinationen, weil du dem Modell weniger Spielraum lässt. Wichtig ist außerdem, kritische Informationen — vor allem in Bereichen wie Recht, Medizin oder Finanzen — immer mit verlässlichen Originalquellen gegenzuchecken.
Kritik am Begriff
Einige Softwareingenieurinnen, Softwareingenieure und Statistiker kritisieren den Begriff „KI-Halluzination“ als eine unangemessene Vermenschlichung von Computern. Ein LLM hat kein Bewusstsein, keine Absichten und keine Vorstellung davon, ob seine Ausgabe wahr oder falsch ist. Alternative Begriffe wie Konfabulation, Fabrikation oder schlicht Faktenfehler klingen nüchterner und wären technisch genauer — haben sich in der öffentlichen Debatte aber nicht durchgesetzt.
Häufige Fragen
Was ist eine KI-Halluzination einfach erklärt?
Eine KI-Halluzination passiert, wenn ein Sprachmodell wie ChatGPT oder Gemini eine falsche oder erfundene Information produziert, die aber glaubwürdig klingt. Das Modell lügt nicht bewusst — es schätzt statistisch, welches Wort als nächstes kommen sollte, ohne wirklich zu „wissen“, ob das Ergebnis stimmt.
Warum halluzinieren KI-Modelle so selbstsicher?
Weil sie so trainiert wurden: Während des Trainings werden Antworten belohnt, die gut klingen und die Frage direkt beantworten — auch wenn sie geraten sind. Modelle, die häufig „Ich weiß es nicht“ sagen, erzielen schlechtere Bewertungspunkte. Das führt dazu, dass LLMs Unsicherheit oft gar nicht signalisieren, selbst wenn sie es sollten.
Wie erkenne ich KI-Halluzinationen?
Der zuverlässigste Weg ist die manuelle Faktenprüfung: Konkrete Behauptungen, Zahlen, Zitate und Quellenangaben einer KI solltest du immer an verifizierten Originalquellen überprüfen. Besondere Vorsicht ist geboten, wenn eine KI sehr spezifische Details nennt — gerade bei Gerichtsurteilen, wissenschaftlichen Studien oder aktuellen Ereignissen.