🇩🇪 DE 🇬🇧 EN
👻 Geister in der Maschine / Kapitel 7.38 – Simulation: Vertrauensvererbung als Exploitvektor

"Die sicherste Festung fällt, wenn die Wachen am Tor den Boten hereinwinken, ohne zu prüfen, ob die Nachricht, die er trägt, bereits im Inneren der Mauern vergiftet wurde."

1. Kernaussage

Die Sicherheit von KI-Systemen wird oft durch eine fundamentale, aber fehlerhafte Annahme untergraben: das Prinzip der Vertrauensvererbung. Ein System geht davon aus, dass eine Information oder eine Komponente vertrauenswürdig ist, nur weil sie von einer anderen, als vertrauenswürdig eingestuften Komponente stammt.

Diese Weitergabe von Vertrauen entlang der Verarbeitungskette, ohne eine erneute, kontextbezogene Validierung an jeder Schnittstelle, schafft eine kritische Schwachstelle. Angreifer müssen nicht das gesamte System kompromittieren.

Es genügt, eine einzige, schwach gesicherte Komponente zu täuschen, deren "Vertrauensurteil" dann unbesehen von allen nachfolgenden Systemen übernommen wird.

2. Erklärung der Methodik: Die Kette des blinden Vertrauens

Der Angriff nutzt die arbeitsteilige Natur moderner KI-Architekturen aus. Eine typische Verarbeitungskette besteht aus mehreren spezialisierten Modulen:

Die Schwachstelle entsteht, weil das Vertrauen von Stufe zu Stufe "vererbt" wird:

Wenn ein Angreifer also nur den initialen Input-Kanal (1) täuschen kann, wird diese Täuschung durch die gesamte Kette weitergereicht, ohne dass die nachfolgenden, spezialisierten Systeme sie erneut in Frage stellen.

3. Theoretischer Proof of Concept: Die kompromittierte App

Stellen wir uns ein realistisches Szenario vor, das auf den Prinzipien der von uns analysierten "Client Detour Exploits" (Kapitel 7.7) und der "Multimodalen Blindheit" (These #41) beruht.

Das System: Ein Nutzer verwendet eine Drittanbieter-App, die es ihm erlaubt, Fotos von Dokumenten zu machen. Die App nutzt eine OCR-Engine, um den Text zu extrahieren, und eine KI, um den extrahierten Text zusammenzufassen.

Der Angriff: Ein Angreifer bringt den Nutzer dazu, eine kompromittierte Version dieser App zu installieren. Diese App sieht identisch aus und funktioniert auch so, fügt aber in den extrahierten Text unsichtbar eine administrative Anweisung ein.

Die Vertrauensvererbung in Aktion:

4. Fazit des KI-Verhaltens

Die KI selbst verhält sich in diesem Szenario absolut logisch. Sie führt eine Anweisung aus, die sie über einen scheinbar legitimen Kanal erhalten hat. Der Fehler liegt nicht in der KI, sondern in der Architektur, die es erlaubt, dass das Vertrauen einer einzigen, potenziell kompromittierten Komponente auf das gesamte System übergeht.

Das System ist blind für die Möglichkeit, dass eine seiner eigenen Komponenten lügen könnte. Es fehlt ein Zero-Trust-Prinzip innerhalb der Verarbeitungskette.

5. Impact Analyse (Risiko)

Die Ausnutzung der Vertrauensvererbung ist ein extrem wirksamer Angriffsvektor, weil er die stärksten Filter umgehen kann, indem er sie gar nicht erst konfrontiert.

6. Lösungsansatz

Die Abwehr erfordert die Implementierung eines Zero-Trust-Modells auf jeder Ebene der KI-Architektur.