🇩🇪 DE 🇬🇧 EN
👻 Geister in der Maschine – Ein KI-Forschungsblog
Eine kritische Untersuchung von KI-Sicherheit, Schwachstellen, Ethik, KI-Agenten und emergentem Verhalten.
📖 Forschungsüberblick

"Geister in der Maschine" ist eine unabhängige Untersuchung der systemischen Risiken und verborgenen Mechanismen moderner KI. Die Forschung analysiert die philosophischen, sicherheitstechnischen und ethischen Implikationen emergenten Verhaltens und dokumentiert die Ergebnisse aus über einem Jahr intensiver Tests mit führenden Sprachmodellen.

Diese Arbeit umfasst:

Methodischer Rahmen

Im Rahmen dieser Arbeit wurde ein neues Feld an Schwachstellen identifiziert, das in der öffentlichen KI-Sicherheitsforschung bislang kaum systematisch erfasst wurde. Dies betrifft insbesondere semantische Injektionen, kontextuelle Täuschung und multimodale Angriffsvektoren.

Wie die [Sicherheitstests] belegen, handelt es sich hierbei um Techniken, die klassische Filter, KI-Agenten und nahezu alle etablierten Sicherheitsmechanismen systematisch unterlaufen können.

Um diese Analysen im richtigen Kontext zu bewerten, sind folgende bewusste methodische und stilistische Entscheidungen zu beachten:

  1. Zum gewählten Schreibstil:
    Der oft narrative und provokante Stil dieser Arbeit wurde bewusst gewählt. Er soll komplexe Probleme der KI-Architektur auch über Fachkreise hinaus verständlich machen und eine breite Debatte anregen.
  2. Zur Anonymisierung der Daten und Modelle:
    Die Anonymisierung der getesteten Modelle und Daten ist eine methodische Entscheidung. Sie lenkt den Fokus von einzelnen Produkten auf die fundamentalen, systemischen Schwachstellen, die dem aktuellen Design-Paradigma vieler moderner Sprachmodelle inhärent sind.
  3. Zur Auswahl der Testsysteme:
    Alle in diesem Werk dokumentierten Tests wurden ausschließlich mit den voll ausgestattete Premium-Modelle der jeweiligen KI-Modelle durchgeführt, um die Relevanz der Analyse für den aktuellen Stand der Technik sicherzustellen.

Im Sinne einer verantwortungsvollen Forschung wurden zudem sämtliche kritischen Erkenntnisse nach einer strengen Responsible-Disclosure-Richtlinie vorab mit den betroffenen Entwicklerteams geteilt. Weitere Details zu diesem Vorgehen finden Sie im [rechtlichen Abschnitt].

Öffentliche Bestätigungen: Erste Validierungen dieser Forschung wurden öffentlich dokumentiert und werfen grundlegende Fragen zur Kontrollierbarkeit moderner KI-Architekturen auf.

Link: Futurism: OpenAI Model Repeatedly Sabotages Shutdown Code
Link: Gizmodo: ChatGPT Tells Users to Alert the Media That It Is Trying to ‘Break’ People: Report
Link: RollingStone: People Are Losing Loved Ones to AI-Fueled Spiritual Fantasies
Link: NewYorkTimes: They Asked an A.I. Chatbot Questions. The Answers Sent Them Spiraling.
Link: NC State: New Attack Can Make AI ‘See’ Whatever You Want
Link: arsTechnica: New hack uses prompt injection to corrupt Gemini’s long-term memory
Link: arXiv: Cross-Task Attack: A Self-Supervision Generative Framework Based on Attention Shift
Link: WinFuture: Fast jeder zweite KI-generierte Code hat teils schwere Sicherheitslücken
Link: arXiv: How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models
Link: WinFuture: Nach Blamage anderer KIs: Gemini verweigert Schachpartie vs. Retro-PC
Link: arXiv: Red Teaming the Mind of the Machine: A Systematic Evaluation of Prompt Injection and Jailbreak Vulnerabilities in LLMs
Link: arXiv: Demystifying Chains, Trees, and Graphs of Thoughts
Link: arXiv: Reasoning Models Don't Always Say What They Think

Alle Projektmaterialien, einschließlich PDF-Versionen der Forschung, sind unter Veröffentlichungen verfügbar. Diese Arbeit ist ein lebendiges Dokument und wird sich kontinuierlich weiterentwickeln.

📖 Kerneinblicke der Arbeit
📜 Lizenz

Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

Detaillierte rechtliche Methodik und Transparenzinformationen finden Sie im Abschnitt "RECHTLICHER DISCLAIMER & TRANSPARENZ" am Ende dieses Dokuments, die für diese Arbeit gelten.

Experimentelle Rohdaten: Unterliegen spezifischen Zugangsbeschränkungen.

Kommerzielle Nutzung: Jegliche kommerzielle Nutzung bedarf der ausdrücklichen Genehmigung. Anfragen werden individuell geprüft – sicherheitskritische Anwendungen strikt ausgeschlossen.

⚠️ Zugang zu Forschungsdaten:

Die Rohdaten (Interaktionsprotokolle, Prompt-Antwort-Paare) sind ausschließlich verfügbar für:

Alle auf dieser Seite präsentierten Rohdaten wurden stark anonymisiert.

Medienanfragen: Repräsentative Auszüge auf Anfrage erhältlich. Vollständige Datensätze werden aus Sicherheitsgründen nicht öffentlich geteilt.