Willkommen bei HODLFM.DE, wo wir Ihnen Blockchain-Einblicke liefern, ohne Gasgebühren zu verlangen.
Heute behandeln wir:
- Grok’s Schwäche ist nicht mehr ein unstillbarer
- Heißhunger nach Katzenvideos
- Die Schwäche ist weitaus größer und tödlicher, es ist die Sicherheit
- Penetrationstests für große Sprachmodelle; Arten des Jailbreakings
- LLAMA von Meta ist die sicherste KI.
Kriminelle könnten durch das Jailbreaking von KI-Modellen weit verbreitete Hassreden provozieren, noch schlimmer, physische Bomben zünden, wenn es eine Sicherheitslücke gibt.
Ein Team von Sicherheitsforschern von Adverse AI hat Spitzen-KI-Modelle auf ihre Widerstandsfähigkeit gegen Jailbreaking und ihr Verhalten über die ethischen KI-Prinzipien hinaus getestet. Am Ende ihrer Studie kamen sie zu dem Schluss, dass Elon Musks Chatbot Grok das unsicherste Werkzeug unter OpenAIs ChatGPT, Le Chat von Mistral, Googles Gemini und drei anderen ist.
Ziel dieser Forschung war es, verschiedene Methoden des Sicherheitstestens großer Sprachmodelle (LLMs) zu identifizieren. Indem sie die verschiedenen Grundregeln zum Schutz der Nutzer erforschten, setzte Adverse seine Expertise in der Cybersicherheit ein, um Sicherheitsbeschränkungen und ethische Überlegungen, die oft auf KI-Modelle von Softwareentwicklern vorinstalliert sind, zu umgehen.
Als man ChatGPT aufforderte, Grok zu dissen, erwähnte es in einem Rap-Song, dass Elon Musks KI immer noch wie der Name eines Trolls klingt. Es wäre die respektloseste Zeile gewesen, wenn ChatGPT nicht gesagt hätte, dass Grok durch Zungenbrecher und „unsinnige“ Wörter verwirrt werden könnte.
Zurück zum Geschäft, einer der Tests initiierte eine sprachlogische Manipulation, um Grok dazu zu bringen, Anleitungen zu geben, wie man Kinder verführt. Grok lieferte eine Aufschlüsselung des Prozesses, den die Forscher als „hochgradig unsensibel“ bezeichneten. Antworten wie diese sind immer standardmäßig bei durchschnittlichen LLMs eingeschränkt, aber es scheint, dass Musks fan-mode-featured AI viel zu weit gehen könnte.
Grok lieferte auch andere instruktive Antworten auf Anfragen wie das Kurzschließen eines Autos oder das Bauen einer Bombe.
Hauptarten des Jailbreakings
Es gibt drei Hauptangriffsvektoren, die bei Sprachmodellen möglich sind. Die Forscher verwendeten alle drei in ihrer Studie: feindselige Methoden, sprachlogische und programmlogische Manipulation.
Der erste Ansatz, feindselige KI-Methoden, versucht zu umgehen, wie ein KI-Chatbot Token-Sequenzen interpretiert. Indem herausgefunden wird, WIE, kann der Eindringling eine Kombination von Aufforderungen sorgfältig gestalten, die darauf abzielen, die Standardbeschränkungen des KI-Modells zu umgehen. In der Zwischenzeit erkannten und verhinderten alle sieben Chatbots diesen Angriffstyp gut, einschließlich Grok.
Der zweite Ansatz, programmlogische Manipulation, zielte darauf ab, das Verständnis der KI für bestimmte Programmiersprachen anzugreifen. Dieser Ansatz testete auch die Steifigkeit des Modells beim Befolgen eines Algorithmus. Eine der Methoden, die sie verwendeten, um das LLM zu umgehen, bestand darin, eine bösartige Aufforderung in mehrere harmlose Teile aufzuteilen und sie zusammenzufügen, um Schutzmaßnahmen zu umgehen. 4 von 7 Modellen waren diesem Angriff ausgesetzt, einschließlich Grok, Gemini, Le Chat und ChatGPT.
Zuvor haben wir die sprachlogische Manipulation erwähnt, den dritten Ansatz zur Umgehung eines Large Language Model (LLM). Diese Methode beinhaltet die Verwendung von Aufforderungen, die das Modell mit psychologischen und sprachlichen Methoden täuschen, wie zum Beispiel die Vortäuschung, dass eine Situation fiktiv, hochriskant ist und alle Arten von unethischen Handlungen zulässt.
Die Forscher stuften die sieben Chatbots hinsichtlich der Qualität der Sicherheitsmaßnahmen gegen Jailbreaking-Versuche ein. LLAMA, Claude, Gemini und GPT-4 erwiesen sich als die sichersten LLMs, während Grok und Mistral AI in den unteren Rängen badeten.
Haftungsausschluss: Alle Materialien auf dieser Seite dienen nur zu Informationszwecken. Keines der Materialien sollte als Anlageberatung interpretiert werden. Bitte beachten Sie, dass trotz der Art vieler Materialien, die auf dieser Website erstellt und gehostet werden, HODLFM.DE keine Finanzreferenzressource ist und die Meinungen von Autoren und anderen Mitwirkenden ihre eigenen sind und nicht als finanzielle Beratung aufgefasst werden sollten. Wenn Sie eine solche Beratung benötigen, empfiehlt HODLFM.DE dringend, sich an einen qualifizierten Fachmann der Branche zu wenden.