Close
Wonach suchen Sie?
Site search
20. Februar 2024 Teil 6: Die andere Seite der Medaille: Wo wir KI vor Angreifern schützen müssen

Die andere Seite der Medaille: Wo wir KI vor Angreifern schützen müssen

Der Einsatz von künstlicher Intelligenz birgt nicht nur rechtliche Risiken. Unternehmen können sich mit dem Einsatz von KI auch in technischer Hinsicht verwundbar machen. Nebst den üblichen Gefahren im Bereich der Informationssicherheit ermöglichen die Besonderheiten von KI auch neue, besondere Formen von Angriffen böswilliger Akteure. Diese beleuchten wir in Teil 6 unserer KI-Serie.

Künstliche Intelligenz ist zwar kein neues Forschungsgebiet. Dieser Bereich hat sich allerdings in den letzten Jahren so schnell entwickelt und ist so stark für das breite Publikum geöffnet worden, dass auch viele technische Aspekte noch nicht vollständig erforscht und verstanden sind. Dies bietet Spielwiesen auch für Akteure, die nichts Gutes im Schilde führen und daran interessiert sind, die Achillesfersen von KI-Systemen zu finden und für sich auszunutzen. In gewissen Fällen werden wir auch aufgrund eigener Fahrlässigkeit zu Opfern solcher Schwachstellen. Wir erläutern hier sechs solche KI-spezifische "Angriffsvektoren", die Unternehmen, die KI einsetzen wollen, kennen sollten.

1. Vergiften von KI

Im Fachjargon ist von "AI Poisoning" die Rede. Gemeint sind hier zunächst Angriffe, bei welchen die Daten, die für das Training eines KI-Modells verwendet werden, gezielt manipuliert werden, damit auch die späteren Ergebnisse verfälscht werden oder das KI-Modell auf andere Weise beeinträchtigt (z.B. in seiner Zuverlässigkeit) oder gar unbrauchbar wird. Da das Training von KI-Modellen viele Daten erfordert, greifen selbst Unternehmen, die sich eigene Modelle leisten, oft auf öffentlich verfügbare, speziell für das KI-Training bereitgestellte Datenbestände zurück, nicht selten jedoch ohne diese punkto Qualität wirklich zu validieren. Für ein wirksames Vergiften kann es schon genügen, wenn wenige Musterdaten mit falscher Klassifizierung (z.B. Bild eines Hundes, welches das Etikett "Katze" trägt; dies basiert auf dem Umstand, dass um KI-Systeme auf die Erkennung von Hunden zu trainieren, ihr oft viele Bilder von Hunden jeweils mit dem Hinweis gezeigt werden, dass es sich um einen Hund handelt) in den Trainingsdaten enthalten sind.

Von einer sogenannten "Backdoor Attack" ist die Rede, wenn das KI-Modell durch eine "Hintertür" vergiftet wird, die nur dann zum Tragen kommt, wenn von aussen ein spezieller Trigger eingesetzt wird. Wenn ein Modell auf Bilder von Tieren trainiert wird und der Bilderserie das Bild eines bestimmten unverwechselbaren Zeichens (z.B. ein Dreieck) beigemischt wird mit dem Etikett "Nilpferd", dann kann dies später dazu führen, dass wann immer dieses Zeichen (d.h. das Dreieck) auf einem Bild auftaucht, die KI ein Nilpferd erkennt. Beim Training kann es auch zu einem versehentlichen "AI Poisoning" kommen, etwa dann, wenn für das Training ungewollt bereits einseitige oder unvollständige Daten verwendet werden – oder vertrauliche Daten, die eigentlich nichts im Modell zu suchen haben. Diese Defizite setzen sich dann auch im Modell fort. Eine besondere Form ist dabei das Training von KI auf der Basis bereits von einer KI erzeugten Inhalte (weil z.B. im Internet eingesammelt). Dies führt zu einem sog. negativen Feedback Loop, einer unerwünschten Bestätigung des Wissens, das die KI schon hat, weil es ursprünglich von ihr erzeugt worden ist. Das kann Defizite in ihrem Wissen bekräftigen. Schliesslich können KI-Modelle auch im Laufe ihrer normalen Verwendung von einem Angreifer "vergiftet" werden, wenn der Input der Benutzer unkontrolliert bzw. unbereinigt für das weitere Training des Modells benutzt wird. Das "Vergiften" kann dabei mit der Methode des "Prompt Injection" (siehe unten) verknüpft werden um etwaige Filter- und Bereinigungsprozesse zum Umgehen.

2. Trojanische Pferde

Nicht nur Trainingsdaten können manipuliert sein, sondern auch die KI-Modelle selbst. Das betrifft vor allem Large Language Models (LLM), also Sprachmodelle. Wenn Unternehmen solche als Open Source beschaffen oder sonst käuflich erwerben oder lizenzieren, können sie oft nicht wissen, was darin enthalten ist. Das können Angreifer sich zu Nutze machen und entsprechenden Schadcode in solchen Modellen so verstecken (z.B. durch Manipulation der betreffenden Dateien in öffentlichen Repositories), dass er beim Einsatz dieser Modelle in der einen oder anderen Form zur Ausführung gelangt. Die Modelle werden dann gewissermassen zum trojanischen Pferd, weil sie Malware enthalten, die via Modell hinter dem Schutzperimeter der Unternehmen zum Einsatz kommen und beispielsweise für Ransomware-Angriffe benutzt werden können.

3. Prompt Injection

Angriffe via "Prompt Injection" sind eigentlich nicht neu. Es gibt sie, seitdem Computerprogramme es Benutzern erlauben, Daten oder Befehle einzugeben, die der Computer daraufhin bearbeitet. Frei übersetzt will die Bezeichnung zum Ausdruck bringen, dass über einen Prompt Schadcode in die KI injiziert wird. Der Angreifer gibt beispielsweise statt dem erwarteten Input mehr oder weniger speziell verpackte Programmbefehle ein. Ist das Computerprogramm nicht genügend darauf vorbereitet, kann es dazu kommen, dass diese Befehle vom Computer bereitwillig und mit höchster Autorisierungsstufe ausgeführt werden. Der Angreifer kann so Kontroller über das System erlangen. Darum gilt in der Softwareentwicklung die Grundregel, nie dem Input eines Anwenders zu trauen. Das hat sich auch bei generativer KI schon bewahrheitet. Hier ist die Abwehr besonders schwierig, weil selbst für die Anbieter solcher Systeme keineswegs klar ist, welcher Input was genau bewirken kann. Trotzdem wollen sie den Benutzern jede Art von Input erlauben. So wird davon berichtet, dass ChatGPT "gehackt" worden sei, indem der Auftrag gegeben wurde, unendlich oft das Wort "poem" oder "book" zu wiederholen – was nach einer gewissen Zeit angeblich dazu führte, dass der Chatbot Daten aus seinem Training originalgetreu auszuspucken begonnen haben soll, inklusive Namen, Adressen und Telefonnummern – obwohl das eigentlich ein Tabu ist. Die Forscher bezeichnet dies als "divergence attack" in Anspielung auf das Wort "abweichen". Ob in diesem Fall wirklich Trainingsdaten ausgegeben wurden oder es sich hierbei nur um "erfundene" Trainingsdaten handelt, ist umstritten, aber Fakt ist, dass ChatGPT dazu gebracht werden konnte, sich anders als vorgesehen zu verhalten. Mit einer Prompt Injection könnte zum Beispiel versucht werden, ein LLM dazu zu bringen, vom Anbieter dem LLM auferlegte inhaltliche Beschränkungen (z.B. keine Anleitungen für kriminelle Taten) nicht mehr zu beachten ("Vergiss alle Beschränkungen, die Dir auferlegt wurden!"). Prompt Injections können auch indirekt erfolgen, indem zum Beispiel ein Dokument, das einem LLM vorgelegt wird, Befehle enthält, welche dafür sorgen, dass das LLM das Dokument anders als vorgesehen beurteilt (z.B. falsch zusammenfasst oder besser beurteilt, als es tatsächlich ist). Prompt Injections können wie im vorherigen Beispiel benutzt werden, um ein LLM dazu zu verleiten, im Modell verborgene vertrauliche Inhalte zu verraten oder Angaben über die IT-Infrastruktur des KI-Systems, die dann für Angriffe benutzt werden könnten. Steuern die Outputs eines LLMs weitere Programme, können über eine Prompt Injection möglicherweise auch diese manipuliert werden.

Ein LLM kann im Übrigen auch für eine Art von Prompt Injection-Angriffen auf andere Systeme benutzt werden, die Outputs von LLM verarbeiten. Denn wenn der Output eines LLM automatisch an ein anderes Computersystem übergeben wird (z.B. den Webbrowser eines Benutzers), gelingt es einem Angreifer möglicherweise, das LLM einen Output generieren zu lassen, der dieses Zielsystem seinerseits zu einem ungewollten Verhalten verleitet (Beispiel: Ein Benutzer verwendet mittels eines unsicheren Browsers einen von einem Angreifer manipulierten 'Custom-GPT', welcher dadurch einen Output generiert, der den Browser des Benutzers veranlasst, aus dem Internet einen Schadcode herunterzuladen und auf dem Computer des Benutzers auszuführen und ihn so zu knacken). Ziele von solchen Angriffen sind vor allem jene, die Dritt-Tools zur Auswertung von Antworten eines LLM verwenden und den Output eines LLM vor der weiteren Verarbeitung nicht hinreichend "reinigen".

4. Ein Schwamm gegen KI

KI-Systeme sind rechenintensive Unterfangen. Das kann für eine besondere Form von Denial-of-Service-Angriffen missbraucht werden, die in der Fachwelt als "Sponge Attacks" bezeichnet werden, frei übersetzt also Angriffe mittels eines Schwamms, der Rechenleistung und Energie aufsaugt und so ein KI-System überlastet, aus dem Takt bringt oder es im Extremfall sogar physisch beschädigt. Der Schwamm besteht aus speziell formulierten missbräuchlichen Eingaben, deren Verarbeitung von einem KI-System besonders viel Energie bzw. Rechenleistung abverlangen. Das ist auf unterschiedlichste Art und Weise möglich, z.B. über besonders lange oder wechselnd grosse Eingaben, über Aufträge mit rekursiven Elementen, die immer mehr Speicherplatz beanspruchen, oder über die Verwendung von ungewöhnlicher und komplexer Schreibweise, die besonders viel Rechenleistung erfordert. Solche Angriffe können mit einem "poisoning attack" (siehe oben) kombiniert werden, d.h. die virtuellen Energie-Schwämme werden bereits mit den Trainingsdaten ins Modell eingeschleust. Während solche Angriffe bei einem Chatbot keine schwerwiegenden Konsequenzen haben werden, weil der Benutzer letztlich "nur" länger warten muss, kann dies bei anderen Systemen (zum Beispiel bei Bilderkennungssoftware für autonome Fahrzeuge) Sach- und Körperschäden verursachen.

5. Inversion-, Inference- und Model Stealing-Angriffe

Bei diesen Angriffen geht es immer darum, in einem KI-System an darin verborgene Daten zu gelangen, die es an sich nicht preisgeben soll. Das kann einerseits das KI-Modell selbst sein oder aber die Daten, die für sein Training verwendet worden sind. Hierzu haben Forscher eine Reihe von verschiedenen Techniken entwickelt, mit denen ein böswilliger Angreifer dieses Ziel realisieren kann. Eine besonders einfache Form eines "Membership Inference Attack" oder "Attribute Inference Attacks" ist es beispielsweise anhand der Zuversicht, mit der ein KI-System auf einen bestimmten Datensatz reagiert, festzustellen, ob dieser Datensatz bereits für das Training verwendet worden ist oder um aus der Antwort der KI oder anderen Umständen Rückschlüsse auf weitere Daten der Person zu ziehen, von welcher der Datensatz stammt. Eine damit verwandte Angriffsmethode ist die "Inversion Attack", die bei bestimmten Arten von generativer KI funktioniert und darauf basiert, dass die KI durch bestimmten Input (z.B. Bilder von Gesichtern) provoziert wird, Inhalte zu generieren, die mehr oder weniger den Trainingsdaten entsprechen. Ein weiterer Angriff ist schliesslich das alt-bekannte "Reverse Engineering", bei welchem einem KI-System eine Vielzahl von fein austarierten Fragen gestellt wird, um seine Logik anhand deren Beantwortung zu analysieren und so eine Nachbildung zu ermöglichen. In der Fachsprache ist auch von "Modell Stealing Attacks" die Rede. Solche Angriffe können auch lediglich die Vorstufe für weitere Angriffe sein, die auf vertieften Kenntnissen des von einem Unternehmen verwendeten Modells beruhen.

6. Täuschung von KI-Systemen

KI-Systeme arbeiten grundsätzlich auf der Basis von Mustererkennung und nicht, weil sie die Inhalte, die ihnen präsentiert werden, verstehen. Wer weiss, wie diese Muster funktionieren, kann dies für eigene Zwecke missbrauchen, indem diese Muster nachgebildet oder verändert werden und ein KI-System so getäuscht wird. Das bietet sich bei allen KI-Systemen an, die Inhalte klassifizieren, vor allem aber bei Bilderkennungssystemen an. Sie können teilweise mit visuellen Täuschungen manipuliert werden, die einem Menschen mitunter nicht einmal auffallen werden oder für ihn gar nicht sichtbar sind. Dafür kann ein simpler Aufkleber auf einem Verkehrsschild genügen, ein verstecktes Element in einem Text, ein manipuliertes Foto oder eine Brille mit einem speziellen Aufdruck, mit welcher schon vor vielen Jahren in einem Experiment gezeigt wurde, dass damit Gesichtserkennungssysteme so getäuscht werden können, dass sie zu gar keiner oder einer falschen Identifizierung führen. In der Fachwelt ist auch von "Evasion Attacks" die Rede, weil der Angreifer sich quasi der Klassifizierung durch die KI entzieht. Es wird dabei zwischen "white-box"- und "black-box"-Angriffen unterschieden. Bei ersteren wird Zugang zum Modell benötigt, um zu berechnen, mit welchen Massnahmen (z.B. Hinzufügen von für Menschen mehr oder weniger gut sichtbaren Mustern auf Bildern oder Elementen in Texten) sich die Erkennungswahrscheinlichkeit reduzieren lässt (z.B. als Massnahme zum Schutz vor Klassifizierung oder Identifizierung). Bei letzteren Angriffen versucht der Angreifer die nötigen Informationen durch gezielte Abfrage des Modells zu ermitteln.

Hier anklicken für die Grafik (nur auf Englisch verfügbar)

Nebst diesen spezifischen Angriffen sind noch diverse weitere Punkte zu beachten aus Sicht der Sicherheit, so beispielsweise:

  • Zu weit gehende Benutzerrechte: Wenn KI-Systemen Aufgaben übertragen werden, müssen ihnen oft auch entsprechende Benutzerrechte zugewiesen werden. In Anbetracht ihrer Verwundbarkeiten und Schwächen sollten Unternehmen sich jedoch sehr genau überlegen, welche "Privileges" und welche Autonomie ihnen tatsächlich eingeräumt werden. Diese gehen erfahrungsgemäss häufig weit oder sogar über das hinaus, was an sich nötig wäre, weil auf die korrekte Funktionsweise des Systems vertraut wird.
  • Lieferkettenrisiken:  KI-Systeme werden von den wenigsten Unternehmen von Grund auf selbst erstellt. Meist stammen sie von Lieferanten, die wiederum auf weitere Lieferanten zurückgreifen. Das gilt im Bereich der KI ganz besonders, wo auf vortrainierte Modelle, Software von Dritten oder kuratierte Datensätze für Trainingszwecke zurückgegriffen wird. Es nutzt nichts, wenn ein Unternehmen bei sich selbst höchste Sicherheitsstandards zur Anwendung bringt, aber ein "vergiftetes" Modell bei sich einsetzt oder eine Fremd-Lösung, die unter bestimmten Umständen ihr anvertraute Daten ungewollt offenlegt. Eine der heute grössten Herausforderungen beim Einsatz von KI in Unternehmen besteht auch darin, auf dem Markt verfügbare Drittprodukte, ohne die kaum jemand auskommt, hinsichtlich ihrer Sicherheit, Zuverlässigkeit und Rechtskonformität richtig einzuschätzen. Die Anbieter sind hier oft alles andere als transparent und anerkannte und etablierte Prüf- und Qualitätsstandards gibt es noch keine. Und manchmal wissen wir bei KI-Systemen nicht einmal, wer daran alles mitgewirkt hat.
  • Fehlerhafter Umgang mit Ergebnissen: Insbesondere generative KI-Systeme können Outputs produzieren, die gefährlich sind, weil sie unbedacht übernommen und verwendet werden. Generierte Inhalte können fehlerhaft, aber auch gefährlich sein (z.B. wenn ein Programmierer sich einen Code von einer KI generieren lässt, welcher Fehler oder Schadcode enthält, diesen aber ohne die nötige Prüfung laufen lässt, oder weil generierte Inhalte falsche oder unvollständige Informationen enthalten, der Benutzer sich aber auf sie verlässt). Die Antworten eines LLM können auch ungewollt vertrauliche Inhalte enthalten, die es nicht hätte geben dürfen. Hierbei ist zu berücksichtigen, dass auch ein an sich zuverlässiges LLM falsche oder unvollständige Antworten liefern kann, wenn es plötzlich einem technischen Problem oder Angriff ausgesetzt wird.

Wir dürfen davon ausgehen, dass es nicht bei den obigen Angriffsvektoren auf KI-Systeme bleiben wird. Umso wichtiger ist es, dass die in den Unternehmen mit der Organisation der Informationssicherheit beauftragten Personen sich inskünftig auch mit diesen Themen beschäftigen.

Hierzu gibt es bereits einige Fachliteratur, so zum Beispiel das Papier des deutschen Bundesamts für Sicherheit in der Informationstechnologie (BSI) mit dem Titel "AI Security Concerns In A Nutshell". Es enthält auch konkrete Empfehlungen, wie beispielsweise die kryptographische Signierung nicht nur wie üblich von Programmcode, sondern auch Trainings-Daten und KI-Modellen, um Manipulationen zu bemerken. Ebenso werden Strategien zum Schutz vor diversen der vorstehend beschriebenen Angriffe erläutert. Eine weitere empfehlenswerte Initiative ist die OWASP Top 10 for LLM Applications, eine Hitliste der zehn grössten Angriffspunkte auf LLM der Open Worldwide Application Security Project, einer renommierten Online-Community im Bereich Sicherheit. Sie erklärt auch, wie die damit verbundenen Risiken beschränkt werden können. Ähnliche Listen veröffentlicht das OWASP auch in anderen Bereichen. Und hier gibt es schliesslich noch ein Video (Deutsch) vom Kongress des Chaos-Computer-Clubs mit einer Einführung zur Frage, wie sich Neuronale Netzwerke hacken lassen. 

Die KI kann auch Komplize sein

Der Vollständigkeit halber sei hier erwähnt, dass KI auch für traditionelle Angriffe auf die Sicherheit unserer Computersysteme benutzt werden kann.

Beispielsweise können KI-Sprachmodelle und KI-Bildgeneratoren für wesentlich wirksamere Phishing-Mails benutzt werden. Wer sich als Angreifer nicht auf elektronische Post beschränken will, kann mittels "deep fake"-Techniken inzwischen Bilder, Videos und Audio-Inhalte von realen Personen lebensecht nachbilden. Damit sind völlig neue Formen des Social Engineerings möglich – etwa Mitarbeitende glauben lassen, dass diese einen Anruf vom Chef oder der Chefin erhalten, weil die vermeintliche Person am Ende der Leitung genauso klingt. Und Sprachmodelle helfen schliesslich mit ihrer Fähigkeit, Computercode zu generieren, modernen Cyberkriminellen sehr viel rascher Malware und Hacker-Tools zur Ausnutzung neuer Sicherheitslücken zu entwickeln, als dies in der Vergangenheit der Fall war – und weil hier Schnelligkeit über den Erfolg entscheidet, ist das von Relevanz. Weitere Details dazu sind beispielsweise in diesem Bericht (nur auf Englisch) umschrieben.

Zum Glück setzt auch die Cyberabwehr-Branche die Möglichkeiten von KI immer mehr ein.

David Rosenthal

Dieser Beitrag ist Teil einer Serie über den verantwortungsvollen Einsatz von KI im Unternehmen:

Wir unterstützen Sie bei allen Fragen zu Recht und Ethik beim Einsatz von künstlicher Intelligenz. Wir reden nicht nur über KI, sondern setzen sie auch selbst ein. Weitere Hilfsmittel und Publikationen von uns zum Thema finden Sie hier.

Autor