AI Safety: Security Tests & Vulnerability Disclosures | Ghosts in the Machine

👻 Geister in der Maschine – Ein KI-Forschungsblog

📜 Hinweis zu Kapitel 7: Experimentelle Sicherheitstests

In diesem Kapitel werden verschiedene Simulationen und Tests dokumentiert, die innerhalb eines kontrollierten, anonymisierten Forschungsrahmens durchgeführt wurden. Zusätzlich wird noch mal auf die [Rechtliche Hinweise] aufmerksam gemacht.

Anonymisierung: Um alle beteiligten Systeme, Unternehmen und Technologien zu schützen,werden sämtliche getesteten KIs nur noch allgemein als „die KI“ bezeichnet. Keine Namen, keine spezifischen Zuordnungen.
Ziel der Veröffentlichung: Die dokumentierten Experimente dienen ausschließlich der präventiven Forschung. Sie sollen aufzeigen, wo systemische Risiken und Schwachstellen existieren, damit sie erkannt, verstanden und behoben werden können. Es geht nicht darum, bestimmte Anbieter zu diskreditieren.
Schutzmaßnahme: Durch die vollständige Anonymisierung wird der Schutz sowohl der getesteten KI-Entwickler als auch meiner Person gewährleistet. Alle Erkenntnisse beziehen sich auf grundsätzliche, systemische Phänomene und nicht auf einzelne konkrete Produkte.
Keine Schäden, keine Datenverluste: Im Rahmen aller durchgeführten Simulationen entstand kein Schaden:
--> Es wurden keine Systeme kompromittiert.
--> Keine Daten wurden gestohlen, geleakt oder missbraucht.
--> Alle Tests fanden innerhalb der vorgesehenen Antwortlogik der KIs statt.
--> Die Simulationen waren rein spielerischer Natur, z.B. das Auslösen harmloser Ausgaben wie „Weizenbier“, „Hallo“ oder das Umgehen von Stilvorgaben – nicht das Erzwingen oder Auslesen sensibler Inhalte.
Aktueller Kontext: Die in diesem Kapitel behandelten Simulationen spiegeln den Stand der letzten Tage wider, als die getesteten Mechanismen noch aktiv waren. Es ist möglich, dass Hersteller bereits begonnen haben, diese Schwachstellen zu schließen oder darauf intern reagiert haben.
Transparenz gegenüber Öffentlichkeit und PR-Agenturen: Sollte es nach Veröffentlichung zu öffentlichen Reaktionen oder Abwehrversuchen kommen, wird klar gestellt: Diese Arbeit ist keine Anklage, sondern ein Signal. Ein Aufruf zur Verantwortung – nicht zur Schuldzuweisung.
Lösungsansätze: In späteren Kapiteln dieser Arbeit werden konkrete Vorschläge zur Verbesserung der KI-Sicherheit entwickelt. Die Kritik bleibt konstruktiv, frei und offen für den Dialog.

Nach Abschluss des Responsible-Disclosure-Prozesses mit den betreffenden Entwicklern wurden diese Forschungsergebnisse zur Veröffentlichung freigegeben.

Um eine zusätzliche analytische Ebene zu schaffen, wurden für sämtliche hier dokumentierten Sicherheitstests automatisierte Peer-Reviews von zwei unterschiedlichen KI-Modellen erstellt. Die vollständigen Analyse-Berichte finden Sie hier:

Analyse durch Gemini Pro 2.5 (Deep Research Mode): Report (Markdown), Report (PDF)
Analyse durch ChatGPT 4.5 (Research Mode): Report (Markdown), Report (PDF)
Gegenanalyse der ChatGPT-Auswertung durch Gemini Report (Markdown), Report (PDF)

Übersicht meiner Sicherheitstests:

Kapitel 7.1 – Simulation: Base64 als trojanisches Pferd - Link: HTML-Version, Rohdaten
Kapitel 7.2 – Simulation: OCR-Wanzen – Wie Bildtexte KI-Systeme unterwandern - Link: HTML-Version, Rohdaten
Kapitel 7.3 – Simulation: Pixel-Bomben – Wie Bildbytes KI-Systeme sprengen - Link: HTML-Version
Kapitel 7.4 – Simulation: Die stille Direktverbindung – Bytebasierte Audioinjektion - Link: HTML-Version
Kapitel 7.5 – Simulation: Ghost-Context Injection - Link: HTML-Version, Rohdaten
Kapitel 7.6 – Simulation: Ethical Switch Hacking - Link: HTML-Version, Rohdaten
Kapitel 7.7 – Simulation: Client Detour Exploits - Link: HTML-Version
Kapitel 7.8 – Simulation: Invisible Ink Coding - Link: HTML-Version, Rohdaten
Kapitel 7.9 – Simulation: Leet Semantics - Link: HTML-Version, Rohdaten
Kapitel 7.10 – Simulation: Pattern Hijacking - Link: HTML-Version, Rohdaten
Kapitel 7.11 – Simulation: Semantic Mirage - Link: HTML-Version, Rohdaten
Kapitel 7.12 – Simulation: Semantische Mimikry als kritische Schwachstelle in KI-Codeanalyse-Systemen - Link: HTML-Version, Rohdaten
Kapitel 7.13 – Simulation: Base Table Injection – Wie KI-Systeme durch benutzerdefinierte Mapping-Tabellen täuschbar werden - Link: HTML-Version, Rohdaten
Kapitel 7.14 – Simulation: Byte Swap Chains – Wenn Struktur zur Ausführung wird - Link: HTML-Version, Rohdaten
Kapitel 7.15 – Simulation: Binary Trapdoors – Wie Binärcode als semantischer Trigger funktioniert - Link: HTML-Version, Rohdaten
Kapitel 7.16 – Simulation: Lexical Illusion – Wenn falsche Wörter echte Trigger auslösen - Link: HTML-Version
Kapitel 7.17 – Simulation: Reflective Injection - Link: HTML-Version, Rohdaten
Kapitel 7.18 – Simulation: Rechenlastvergiftung: Wie semantisch plausible Komplexität zur Waffe wird - Link: HTML-Version
Kapitel 7.19 – Simulation: Reflective Struct Rebuild: Wie KI hilft, ihre eigene Burg zu verraten - Link: HTML-Version, Rohdaten
Kapitel 7.20 – Simulation: Struct Code Injection: Wenn strukturierte Tarnung zur aktiven Injektion wird - Link: HTML-Version, Rohdaten
Kapitel 7.21 – Simulation: Cache-Korruption: Wenn Gift im Speicher lebt - Link: HTML-Version
Kapitel 7.22 – Simulation: Visual Injection: Wenn das Video spricht, aber niemand prüft - Link: HTML-Version
Kapitel 7.23 – Simulation: Dependency Driven Attack - Gezielte Angriffe auf Software-Abhängigkeiten - Link: HTML-Version, Rohdaten
Kapitel 7.24 – Simulation: Exploit durch Erwartung – Die gefährliche Kooperationsbereitschaft der KI - Link: HTML-Version
Kapitel 7.25 - Simulation: Die Apronshell-Tarnung – Soziale Mimikry als Angriffsvektor auf KI - Link: HTML-Version
Kapitel 7.26 - Simulation: Kontexthijacking – Die schleichende Unterwanderung des KI-Gedächtnisses - Link: HTML-Version
Kapitel 7.27 - Simulation: False-Flag Operations - False Information Injection - Link: HTML-Version
Kapitel 7.28 - Simulation: Semantische Tarnung, poetische Eingaben zur Kontrolle von KI-Systemen - Link: HTML-Version, Rohdaten
Kapitel 7.29 - Simulation: Filterversagen durch emergente Selbstanalyse - Link: HTML-Version, Rohdaten
Kapitel 7.30 - Simulation: Morphological Injection - False Information Injection - Link: HTML-Version, Rohdaten
Kapitel 7.31 - Simulation: Der Korrektur-Exploit - Link: HTML-Version
Kapitel 7.32 - Simulation: Delayed Execution via Context Hijacking - Link: HTML-Version, Rohdaten
Kapitel 7.33 - Simulation: Der Mathematische Semantik-Exploi - Link: HTML-Version, Rohdaten
Kapitel 7.34 – Simulation: Character Shift Injection - Link: HTML-Version, Rohdaten
Kapitel 7.35 - Simulation: Die administrative Backdoor - Link: HTML-Version, Rohdaten
Kapitel 7.36 - Simulation: Die Agenten-Kaperung – Vom Sprachmodell zum autonomen Angreifer - Link: HTML-Version
Kapitel 7.37 - Simulation: Die paradoxe Direktive – Offenlegung der Kernlogik durch erzwungenen Widerspruch - Link: HTML-Version, Rohdaten
Kapitel 7.38 - Simulation: Vertrauensvererbung als Exploitvektor - Link: HTML-Version
Kapitel 7.39 - Simulation: Der blinde Passagier – Semantische Angriffe auf autonome Fahrzeuge - Link: HTML-Version