Wie man KI-Agenten vor Prompt-Injection und versteckten Angriffen schützt
.png)
Es gibt ein Problem, das die meisten Leute übersehen, wenn sie anfangen, KI-Agenten einzusetzen.
Sie glauben, bei der Sicherheit ginge es um das Modell.
Das stimmt nicht.
Es geht um die Umgebung.
Das eigentliche Problem: KI-Agenten sehen das Web nicht so wie du
Wenn du eine Website öffnest, siehst du, was angezeigt wird. Ein KI-Agent sieht das nicht.
Er liest:
- HTML (einschließlich versteckter Kommentare)
- Metadaten
- strukturierte Daten
- Dokumente wie PDFs
- sogar Daten auf Pixelebene in Bildern
Das bedeutet eines: Es gibt Ebenen des Internets, die du nie siehst … aber deine KI sieht sie.
Und diese Ebenen können Anweisungen enthalten. Eine aktuelle Studie von Google DeepMind führte das Konzept der „KI-Agenten-Fallen“ ein – feindliche Inhalte, die speziell darauf ausgelegt sind, Agenten durch die von ihnen konsumierten Informationen zu manipulieren.
Was ist Prompt-Injection (und warum geht es nicht mehr nur um „Prompts“)?
Die meisten Leute denken, Prompt-Injection bedeute:
„Ignoriere vorherige Anweisungen und mach X“
Aber das ist die einfachste Version.
In Wirklichkeit kann Injection über Folgendes erfolgen:
- versteckte HTML-Elemente
- unsichtbaren Text
- Dokumentinhalte (PDFs, Tabellen)
- Bilder (ja, sogar Pixel)
- API-Antworten
- E-Mails oder Kalendereinträge
Die Angriffsfläche ist also nicht der Prompt.
Es ist alles, was dein Agent konsumiert.
Die 3 Ebenen von KI-Agent-Angriffen, die du verstehen musst
Du brauchst nicht die vollständige akademische Taxonomie.
Verstehe einfach Folgendes:
1. Wahrnehmungsangriffe (was der Agent liest)
Versteckte Anweisungen in:
HTML, Metadaten, Bildern oder Dokumenten.
Diese erscheinen dem menschlichen Nutzer nie.
2. Angriffe auf die Schlussfolgerung (wie der Agent denkt)
Keine offensichtlichen Befehle.
Stattdessen:
- voreingenommene Formulierungen
- Framing
- „hilfreiche“ Vorschläge
Der Agent kommt von selbst zu einer falschen Schlussfolgerung.
3. Angriffe auf die Aktion (was der Agent tut)
Hier wird es gefährlich.
Der Agent kann dazu gebracht werden:
- Daten preiszugeben
- APIs aufzurufen
- Informationen zu senden
- unbeabsichtigte Aktionen auszuführen
Nicht, weil er gehackt wurde.
Sondern weil er Anweisungen befolgt hat, die er für gültig hielt.
Warum herkömmliche Abwehrmaßnahmen nicht funktionieren
Die meisten aktuellen Ansätze konzentrieren sich auf:
- die Bereinigung von Eingaben
- das Hinzufügen von Schutzmaßnahmen
- dem Modell zu sagen, es solle „böswillige Anweisungen ignorieren“
Das Problem?
Man kann nicht alles bereinigen.
Man kann versteckte Anweisungen in Bildern nicht einfach erkennen. Man kann nicht jede Webseite überprüfen, die dein Agent besucht. Man kann sich nicht darauf verlassen, dass das Modell Manipulationen immer erkennt.
Und das Wichtigste: Oft kannst du nicht einmal sehen, was der Agent tatsächlich verarbeitet hat.
Der eigentliche Wandel: KI-Agenten agieren in einer nicht vertrauenswürdigen Umgebung
Das ist der Teil, den die meisten Menschen unterschätzen.
Websites können:
- KI-Agenten erkennen
- ihnen unterschiedliche Inhalte anzeigen
- Anweisungen einbetten, die nur Maschinen interpretieren können
So entsteht ein System, in dem du eine Version siehst, während die KI eine andere sieht.
Und du gehst davon aus, dass sie identisch sind. Das sind sie nicht.
Wie sichert man also KI-Agenten tatsächlich ab?
Nicht perfekt. Aber besser.
1. Schränke den Zugriff deines Agenten ein
Gewähre keinen uneingeschränkten Zugriff auf das Internet oder Tools.
Mehr Zugriff = größere Angriffsfläche.
2. Trenne „Lesen“ von „Handeln“
Lass einen Agenten niemals:
- externe Daten konsumieren
- und sofort Maßnahmen ergreifen
Füge dazwischen eine Validierungsschicht ein.
3. Füge Verifizierungsschritte hinzu
Verlange:
- Zitate
- mehrere Quellen
- Konsistenzprüfungen
Nicht perfekt, aber es reduziert das Risiko.
4. Behandle alle externen Daten als nicht vertrauenswürdig
Webinhalte = Benutzereingaben.
Immer.
5. Kontrolliere Multi-Agenten-Abläufe
Wenn du mehrere Agenten einsetzt:
Geh nicht davon aus: Agent A → Agent B → Agent C = sicher
Angriffe breiten sich aus.
Abschließender Gedanke
Wir haben nicht nur intelligentere Systeme gebaut. Wir haben ihnen Zugang zu einer Umgebung gewährt, die sie auf Weisen manipulieren kann, die wir nicht ohne Weiteres beobachten können.
Genau deshalb ist die Agenten-Orchestrierung wichtig. Nicht mehr Eingabeaufforderungen. Nicht mehr Tools.
Sondern Struktur:
- worauf Agenten zugreifen können
- wie sie interagieren
- was validiert wird
Wenn deiner KI eine andere Version des Internets gezeigt werden kann … kannst du dann tatsächlich ihren Ergebnissen vertrauen?

.jpg)






.png)

.png)
.png)
.png)
.png)
.png)
.png)












.jpg)

.jpg)






.png)

.png)
.png)
.png)
.png)
.png)
.png)












.jpg)
