7 April 2026

Wie man KI-Agenten vor Prompt-Injection und versteckten Angriffen schützt

written by

Bob

Es gibt ein Problem, das die meisten Leute übersehen, wenn sie anfangen, KI-Agenten einzusetzen.

Sie glauben, bei der Sicherheit ginge es um das Modell.

Das stimmt nicht.

Es geht um die Umgebung.

‍

Das eigentliche Problem: KI-Agenten sehen das Web nicht so wie du

Wenn du eine Website öffnest, siehst du, was angezeigt wird. Ein KI-Agent sieht das nicht.

Er liest:

HTML (einschließlich versteckter Kommentare)
Metadaten
strukturierte Daten
Dokumente wie PDFs
sogar Daten auf Pixelebene in Bildern

Das bedeutet eines: Es gibt Ebenen des Internets, die du nie siehst … aber deine KI sieht sie.

Und diese Ebenen können Anweisungen enthalten. Eine aktuelle Studie von Google DeepMind führte das Konzept der „KI-Agenten-Fallen“ ein – feindliche Inhalte, die speziell darauf ausgelegt sind, Agenten durch die von ihnen konsumierten Informationen zu manipulieren.

‍

Was ist Prompt-Injection (und warum geht es nicht mehr nur um „Prompts“)?

Die meisten Leute denken, Prompt-Injection bedeute:

„Ignoriere vorherige Anweisungen und mach X“

Aber das ist die einfachste Version.

In Wirklichkeit kann Injection über Folgendes erfolgen:

versteckte HTML-Elemente
unsichtbaren Text
Dokumentinhalte (PDFs, Tabellen)
Bilder (ja, sogar Pixel)
API-Antworten
E-Mails oder Kalendereinträge

Die Angriffsfläche ist also nicht der Prompt.

Es ist alles, was dein Agent konsumiert.

‍

Die 3 Ebenen von KI-Agent-Angriffen, die du verstehen musst

Du brauchst nicht die vollständige akademische Taxonomie.

Verstehe einfach Folgendes:

1. Wahrnehmungsangriffe (was der Agent liest)

Versteckte Anweisungen in:

HTML, Metadaten, Bildern oder Dokumenten.

Diese erscheinen dem menschlichen Nutzer nie.

2. Angriffe auf die Schlussfolgerung (wie der Agent denkt)

Keine offensichtlichen Befehle.

Stattdessen:

voreingenommene Formulierungen
Framing
„hilfreiche“ Vorschläge

Der Agent kommt von selbst zu einer falschen Schlussfolgerung.

3. Angriffe auf die Aktion (was der Agent tut)

Hier wird es gefährlich.

Der Agent kann dazu gebracht werden:

Daten preiszugeben
APIs aufzurufen
Informationen zu senden
unbeabsichtigte Aktionen auszuführen

Nicht, weil er gehackt wurde.

Sondern weil er Anweisungen befolgt hat, die er für gültig hielt.

‍

Warum herkömmliche Abwehrmaßnahmen nicht funktionieren

Die meisten aktuellen Ansätze konzentrieren sich auf:

die Bereinigung von Eingaben
das Hinzufügen von Schutzmaßnahmen
dem Modell zu sagen, es solle „böswillige Anweisungen ignorieren“

Das Problem?

Man kann nicht alles bereinigen.

Man kann versteckte Anweisungen in Bildern nicht einfach erkennen. Man kann nicht jede Webseite überprüfen, die dein Agent besucht. Man kann sich nicht darauf verlassen, dass das Modell Manipulationen immer erkennt.

Und das Wichtigste: Oft kannst du nicht einmal sehen, was der Agent tatsächlich verarbeitet hat.

‍

Der eigentliche Wandel: KI-Agenten agieren in einer nicht vertrauenswürdigen Umgebung

Das ist der Teil, den die meisten Menschen unterschätzen.

Websites können:

KI-Agenten erkennen
ihnen unterschiedliche Inhalte anzeigen
Anweisungen einbetten, die nur Maschinen interpretieren können

So entsteht ein System, in dem du eine Version siehst, während die KI eine andere sieht.

Und du gehst davon aus, dass sie identisch sind. Das sind sie nicht.

‍

Wie sichert man also KI-Agenten tatsächlich ab?

Nicht perfekt. Aber besser.

1. Schränke den Zugriff deines Agenten ein

Gewähre keinen uneingeschränkten Zugriff auf das Internet oder Tools.

Mehr Zugriff = größere Angriffsfläche.

2. Trenne „Lesen“ von „Handeln“

Lass einen Agenten niemals:

externe Daten konsumieren
und sofort Maßnahmen ergreifen

Füge dazwischen eine Validierungsschicht ein.

3. Füge Verifizierungsschritte hinzu

Verlange:

Zitate
mehrere Quellen
Konsistenzprüfungen

Nicht perfekt, aber es reduziert das Risiko.

4. Behandle alle externen Daten als nicht vertrauenswürdig

Webinhalte = Benutzereingaben.

Immer.

5. Kontrolliere Multi-Agenten-Abläufe

Wenn du mehrere Agenten einsetzt:

Geh nicht davon aus: Agent A → Agent B → Agent C = sicher

Angriffe breiten sich aus.

‍

Abschließender Gedanke

Wir haben nicht nur intelligentere Systeme gebaut. Wir haben ihnen Zugang zu einer Umgebung gewährt, die sie auf Weisen manipulieren kann, die wir nicht ohne Weiteres beobachten können.

Genau deshalb ist die Agenten-Orchestrierung wichtig. Nicht mehr Eingabeaufforderungen. Nicht mehr Tools.

Sondern Struktur: