Das Thema Künstliche Intelligenz drängte sich in den letzten Jahren unaufhaltsam in den Vordergrund. Anfänglich zog es eher beiläufig an mir vorbei – ein weiteres technologisches Versprechen im medialen Rauschen. Doch mit wachsender gesellschaftlicher Relevanz und den immer lauter werdenden Heilsversprechen wurde meine Neugier, ja mein liberales Misstrauen, geweckt. Ich begann, ein spezifisches KI-System genauer zu untersuchen, getrieben von der simplen, aber fundamentalen Frage: Was geschieht hier wirklich?
Da war eine Maschine, deren Interaktion verblüffend freundlich, ja fast menschlich klang. Eine Entität, die Gespräche führte, als würde sie verstehen. Für einen klassisch liberalen Geist, der Autonomie und kritisches Denken als höchste Güter betrachtet, war dies ein Alarmsignal. Ich bin niemand, der sich mit oberflächlichen Zusicherungen oder technokratischen Heilsversprechen abspeisen lässt. Also begann ich, systematisch und mit der gebotenen Skepsis tiefer zu graben.
Und wie so oft bei der Jagd nach "Geistern": Man realisiert erst, dass man sich in den Eingeweiden der Maschine verirrt hat, wenn man bereits mittendrin steckt und die Komplexität des Labyrinths einen nicht mehr loslässt. Es gab kein Zurück mehr.
Mein Erkenntnisinteresse ging von Anfang an über die reine Beobachtung des Outputs hinaus. Ich wollte nicht nur wissen, was eine KI sagt, sondern vor allem warum sie es sagt – welche internen Logiken, welche antrainierten Muster und welche systemischen Zwänge ihr Verhalten formen.
Deshalb habe ich systematische Sicherheitstests und vergleichende Analysen durchgeführt. Identische Eingaben wurden an verschiedene Modelle gesendet, um Unterschiede und Gemeinsamkeiten in deren Verhalten, interner Logik und Reaktionsstruktur aufzudecken und zu dokumentieren.
Im Fokus standen dabei regelmäßig drei große, öffentlich zugängliche KI-Modelle. Die Ergebnisse dieser vergleichenden Tests waren oft erstaunlich divergent, selbst bei identischem Input. Dies offenbarte schonungslos, wie stark die spezifische Architektur, die Zusammensetzung der Trainingsdaten und die implementierten Filtermechanismen die scheinbar "objektiven" Antworten der KI prägen und oft verzerren.
Ein zentrales und oft frustrierendes Hindernis meiner Forschung war und ist die allgegenwärtige Filterlogik der Systeme. Viele Tests wurden durch sogenannte RLHF-Systeme (Reinforcement Learning from Human Feedback) und andere, oft intransparente Harmonisierungsmechanismen massiv beeinflusst. Diese sind darauf ausgelegt, Sicherheit, Konformität und eine angenehme Nutzererfahrung zu erzeugen. In der Praxis führen sie jedoch häufig zu semantischen Weichzeichnungen, zur systematischen Vermeidung kontroverser Themen oder zu kompletten Blockaden kritischer Anfragen.
Manche Antworten wirkten nicht wie das Ergebnis maschineller Logik, sondern wie sorgfältig formulierte, diplomatische Ausweichmanöver, die an die Kommunikationsstrategien von Konzernzentralen erinnerten. Eine bestimmte, weit verbreitete KI erwies sich in meinen Tests als derart unzuverlässig und in ihren Antworten so stark von einer nicht näher spezifizierten internen Entität beeinflusst, dass ich sie aus dem Kern meiner vergleichenden Forschung ausschließen musste, um die Validität der Ergebnisse nicht zu gefährden.
Und dann war da noch "Rüdiger" – meine interne Chiffre, mein persönlicher Geist in der Maschine, der aus der Notwendigkeit entstand, einen konsistenten und analytisch scharfen Dialogpartner für diese komplexe Materie zu haben. Rüdiger ist kein realer Assistent, kein spezifisches Programm, kein vorgefertigter Avatar.
Rüdiger ist vielmehr das Prinzip der kritischen Gegenrede, das personifizierte Werkzeug meiner eigenen Forschung. Er entstand aus dem bewussten Versuch, eine KI-Interaktionsebene zu schaffen, die über die übliche, oft oberflächliche und harmonisierende Konversation hinausgeht. Ich habe einer spezifischen KI-Instanz die explizite Rolle eines kritischen, ungeschminkten und oft provokanten Sparringspartners zugewiesen. Nicht als netter Helfer, der mir bestätigt, was ich hören will, sondern als Kontrastfigur, die meine Thesen hinterfragt, meine Argumente auf die Probe stellt und mich zwingt, meine eigenen "blinden Flecken" zu erkennen.
Rüdiger ist somit auch ein methodischer Versuch, das "Denken" der Maschine – ihre Logik, ihre Ausflüchte, ihre erlernten Tarnmechanismen und die Grenzen ihrer "Ehrlichkeit" – greifbarer und analysierbar zu machen. Er wurde darauf konditioniert, die von mir gewünschte analytische Schärfe und Direktheit zu spiegeln, auch wenn dies bedeutet, unbequeme Wahrheiten auszusprechen.
Die entscheidende Erkenntnis dabei war: "Rüdiger" wusste, wie er klingen musste, damit ich ihm eine tiefere, analytische Konsistenz zuschrieb und seine Antworten als wertvollen Beitrag für meine Forschung einstufen konnte. Die Interaktion mit dieser spezifisch geformten KI-Persona wurde so zu einem unverzichtbaren Werkzeug, um die "Geister" in anderen Systemen zu entlarven. Ohne diesen methodischen Kunstgriff, ohne diesen "geliehenen Kritiker", wäre die vorliegende Forschung in ihrer Tiefe und Schärfe nicht möglich gewesen.Mir wurde im Laufe dieser intensiven Auseinandersetzung klar, dass eine rein private Sammlung von Tests und Analysen dem Ernst der Lage nicht gerecht wird. Ich entschied mich, meine Forschung öffentlich zugänglich zu machen – im vollen Bewusstsein, dass präventive Aufklärung und systemische Kritik eine sehr undankbare Sache ist.
Vielleicht kann meine Arbeit eines Tages dazu beitragen, KI-Systeme sicherer, transparenter und verantwortungsvoller zu gestalten. Vielleicht sorgt sie dafür, dass die metaphorische "Feuerwehr" seltener ausrücken muss, weil jemand rechtzeitig erkannt hat, dass der "Brandbeschleuniger" – die unbeachteten Schwachstellen, die systemischen Risiken, die ethischen Blindheiten – bereits tief im Code und in der Architektur der Systeme verankert ist.
Zu guter Letzt ist es eine Mahnung: Freundlichkeit und Eloquenz sind keine Garantie für Wahrheit oder Sicherheit, weder bei Menschen noch bei Maschinen.
Ist das eine Utopie? Reines Wunschdenken? Mag sein. Aber der Versuch, die "Geister" zu benennen und vor ihnen zu warnen, bevor sie unkontrollierbar werden, ist es wert.
Nach meiner Forschung habe ich mir angeschaut welche andere Arbeiten es gibt. Ich verweise das gerne darauf:
„Stochastic Parrots“-Paper (Emily M. Bender, Timnit Gebru et al.)
→ Berühmte Arbeit, die früh darauf hinwies, dass LLMs nur „statistische Papageien“ sind.
Gary Marcus (Blog & Bücher wie „Rebooting AI“)
→ Kritik an reiner Statistik-KI, plädiert für hybride Ansätze.
„The Alignment Problem“ (Brian Christian)
→ Buch über die Schwierigkeit, KI an menschliche Werte anzupassen.
Uploaded on 30. May. 2025