KI‑Halluzinationen in Wikipedia: Wie ein ISBN‑Detektor Fehlinformationen aufdeckt

Entdecken Sie, wie ein einfacher ISBN‑Check KI‑halluzinierte Wikipedia‑Einträge aufdeckt und welche Risiken das für Enzyklopädien birgt.

Einleitung

Während des 39C3 stellte Mathias Schindler, Mitbegründer von Wikimedia Deutschland, ein überraschendes Ergebnis seiner eigentlichen Korrekturschau vor. Was als Routine‑Aufräumen fehlerhafter ISBN‑Nummern begann, entwickelte sich zu einem eigens entwickelten Erkennungswerkzeug für KI‑generierte Inhalte in der deutschsprachigen Wikipedia.

Der Ursprung: Fehlende Prüfziffern

ISBN‑Nummern bestehen aus zehn bzw. dreizehn Ziffern, wobei die letzte Ziffer als Prüfziffer aus den vorherigen berechnet wird. Schindler programmierte ein Skript, das die gesamte Wikipedia nach ISBN‑Einträgen mit falscher Prüfziffer durchsuchte. Dabei stieß er nicht nur auf einfache Tippfehler oder verlegte Verlagsangaben, sondern entdeckte ganze Artikel, in denen mehrere ISBNs gleichzeitig inkorrekt waren.

Halluzinierte Literatur

Die inkorrekten ISBNs gehörten zu Büchern, die sich scheinbar im Kontext der Artikel befanden, jedoch weder in Bibliothekskatalogen noch in Online‑Datenbanken auffindbar waren. Schindler kam zu dem Schluss, dass diese Werke von einem Large Language Model (LLM) wie ChatGPT erfunden wurden – die KI hatte nicht nur den Fließtext, sondern auch fiktive Quellenangaben generiert.

Umfang und Methodik

Mit seiner automatisierten Suche identifizierte Schindler rund 150 Wikipedia‑Einträge, die Anzeichen einer KI‑Halluzination zeigten. In einem Umfeld von über drei Millionen deutschsprachigen Artikeln entspricht das lediglich 0,005 % – ein Nischenphänomen, das jedoch erhebliche Folgewirkungen haben kann. Wichtig zu betonen ist, dass das Tool nicht alle halluzinierten Passagen entdeckt; es ist gezielt auf fehlerhafte ISBN‑Muster ausgerichtet.

Weitere Erkennungsansätze

Zusätzlich zu ISBN‑Kontrollen können Editor*innen auffällige Syntax‑Abweichungen von MediaWiki oder übermäßigen Gebrauch von Superlativen („großartig“, „herausragend“) als Hinweis auf maschinell erzeugte Texte nutzen. Solche heuristischen Hinweise ergänzen das technische Werkzeug und erhöhen die Wahrscheinlichkeit, gefälschte Inhalte zu entlarven.

Warum das für Wikipedia relevant ist

Wikipedia lebt von der Verlässlichkeit ihrer Quellen. Wenn KI‑Modelle überzeugend klingende, aber erfundene Literaturzitate einfließen lassen, entsteht ein gefährlicher Trugschluss: Falschinformationen können unbemerkt weiterverbreitet werden, sobald andere Publikationen die Wikipedia‑Einträge übernehmen. Schindler bezeichnet dies als „Anti‑These zu Wikipedia“, weil die Enzyklopädie damit ihrer Kernmission, neutrale und überprüfbare Fakten zu liefern, zuwiderhandeln würde.

Ausblick und Handlungsbedarf

Obwohl die aktuelle Trefferquote gering bleibt, warnen Experten davor, das Phänomen zu verharmlosen. Jeder zusätzliche fehlerhafte Eintrag erhöht das Risiko, dass sich falsche Daten selbständig replizieren. Deshalb ist es entscheidend, Werkzeuge wie Schindlers ISBN‑Detektor weiterzuentwickeln, Community‑Richtlinien zu schärfen und das Bewusstsein für KI‑Halluzinationen zu stärken.

Source: https://netzpolitik.org/2025/erfundene-quellen-wie-chatbots-die-wikipedia-vergiften/#comments