Claude Mythos: Der Mythos der kontrollierten KI-Waffe

Anthropic gilt als das KI-Unternehmen, das Sicherheit ernst nimmt. Constitutional AI, ausführliche Model Cards, eine öffentlich zugängliche Unternehmens-Verfassung — das Bild ist sorgfältig gepflegt. Mit Claude Mythos, einem Modell, das Anthropic intern als “Capybara” führt und das als das leistungsfähigste seiner Art beschrieben wird, bekommt dieses Bild erhebliche Risse.

Was Claude Mythos kann — und was das bedeutet

Claude Mythos ist kein gewöhnliches Sprachmodell. Anthropic selbst beschreibt es als “step change”, als qualitativen Sprung, der weit über die üblichen Fortschritte zwischen Modellgenerationen hinausgeht. Im Bereich Cybersicherheit ist Mythos laut Unternehmensangaben “currently far ahead of any other AI model” — eine Selbsteinschätzung, die durch externe Belege gestützt wird.

Mozilla bat Anthropic, Mythos gegen den Firefox-Quellcode anzusetzen. Das Ergebnis: 271 diskrete Sicherheitslücken in einem einzigen Evaluationsdurchlauf, von denen 41 als formelle CVE-Einträge in Firefox 150 veröffentlicht wurden. Zum Vergleich — Claude Opus 4.6, das bis dato stärkste verfügbare Modell, identifizierte bei vergleichbaren Tests 22 Schwachstellen. Mythos übertrifft das um mehr als das Zwölffache. Firefox-CTO Bobby Holley beschrieb die Erfahrung öffentlich als “vertigo” erzeugend.

Das UK AI Security Institute, das Mythos unabhängig evaluierte, dokumentierte eine weitere Fähigkeit, die das Dual-Use-Problem dieses Modells greifbar macht: Mythos ist das erste KI-System, das die Simulation “The Last Ones” abschloss — ein 32-schrittiges Szenario eines Angriffs auf ein Unternehmensnetzwerk. In drei von zehn Versuchen war das Modell erfolgreich. Es kann mehrere kleine Schwachstellen zu einem zusammenhängenden Angriff verketten und Quellcode aus kompilierter Software rekonstruieren, um darin verborgene Sicherheitslücken zu identifizieren.

Anthropic formuliert das in eigenen Worten: Mythos “presages an upcoming wave of models that can exploit vulnerabilities in ways that far outpace the efforts of defenders.” Eine Warnung vor dem eigenen Produkt — eine, die man ernst nehmen sollte.

Der Mythos der kontrollierten Verbreitung

Anthropic hat sich für eine Strategie entschieden, die in der KI-Sicherheitsdebatte als “responsible disclosure” bezeichnet wird: Mythos wird nicht öffentlich zugänglich gemacht, sondern über Project Glasswing, ein Einladungsprogramm für zwölf Gründungsorganisationen und etwa vierzig geprüfte Betreiber kritischer Infrastruktur. Die Logik dahinter ist nachvollziehbar — Verteidigern soll ein struktureller Vorsprung verschafft werden, bevor die Fähigkeiten sich unkontrolliert verbreiten.

Dieser Ansatz hat einen fundamentalen Konstruktionsfehler, der keine Theorie ist, sondern inzwischen empirisch belegbar ist.

antislop ist eine Initiative von der pixologe, Dipl. Designer aus Königswinter.
Du möchtest dich zu diesem Thema austauschen oder brauchst Unterstützung bei deinen KI-Vorhaben? Ich freue mich über deine Nachricht.

Kontakt

Am selben Tag, an dem Anthropic die Existenz von Claude Mythos öffentlich bestätigte, verschaffte sich eine nicht autorisierte Gruppe Zugang zum Modell. Die Gruppe, die sich über einen Discord-Kanal koordinierte und auf das Aufspüren unveröffentlichter KI-Modelle spezialisiert hatte, nutzte Zugangsdaten eines Mitarbeiters bei einem Drittanbieter, der im Auftrag von Anthropic arbeitet. Gegenüber Bloomberg legte sie Screenshots und Live-Demonstrationen vor. Anthropic bestätigte den Vorfall und leitete Untersuchungen ein.

Die Methode war keine hochentwickelte Cyberoperation — sie bestand aus informiertem Raten über Speichermuster vergangener Releases und dem Zugriff über eine kompromittierte Zulieferkette. Kein Zero-Day, keine staatliche Hacking-Gruppe. Die Zugangskontrolle für das potenziell gefährlichste öffentlich bekannte KI-Modell der Welt versagte durch einen Fehler, der in jedem IT-Sicherheitshandbuch unter dem Kapitel “Basisschutz” behandelt wird.

Wer entscheidet, wer Zugang bekommt — und warum das kein kleines Detail ist

Project Glasswing ist ein einladendes Programm. Das bedeutet: Anthropic entscheidet, wer teilnimmt. Welche Kriterien gelten, wie die Überprüfung der vierzig Betreiber kritischer Infrastruktur aussieht, und welche Haftungsregeln gelten, wenn Zugangsdaten — wie geschehen — kompromittiert werden, ist nicht öffentlich einsehbar.

Das ist kein bürokratisches Detail. Die Konzentration von Fähigkeiten dieser Größenordnung in einem Unternehmen, das eigenständig darüber entscheidet, wer Zugang erhält, schafft eine Machtasymmetrie, die demokratischer Rechenschaftspflicht weitgehend entzogen ist. AlgorithmWatch hat in mehreren Analysen darauf hingewiesen, dass die Definition von “verantwortungsvoller KI” in der Praxis regelmäßig von denjenigen vorgenommen wird, die wirtschaftlich von der Technologie profitieren — nicht von unabhängigen Gremien oder regulatorischen Instanzen.

Das macht Anthropic nicht zum Bösewicht. Es macht die Struktur zum Problem. Ein Unternehmen, das sowohl das gefährlichste bekannte KI-Cybersicherheitswerkzeug entwickelt als auch eigenständig dessen Verteilung kontrolliert und dessen Sicherheitsstandards setzt, befindet sich in einem Interessenkonflikt, der strukturell nicht aufzulösen ist — unabhängig von den Intentionen der Beteiligten.

Das Dual-Use-Dilemma hat kein technisches Gegenmittel

Die Verteidigungslogik hinter Claude Mythos ist nicht unplausibel. Wer Schwachstellen schneller findet als Angreifer, kann sie schließen, bevor sie ausgenutzt werden. Mozilla hat genau diesen Fall demonstriert: 271 identifizierte Lücken, von denen viele schon jahrelang im Quellcode schlummerten, wurden durch Mythos in einem Durchlauf sichtbar und können nun behoben werden.

Das Problem ist, dass diese Fähigkeit nicht an eine Absicht gebunden ist. Dasselbe Modell, das 271 Schwachstellen für Mozilla identifiziert, kann dieselben 271 Schwachstellen für einen Angreifer identifizieren. Die Fähigkeit, Quellcode aus kompilierter Software zu rekonstruieren und Angriffsketten zu entwickeln, ist unabhängig davon, ob sie defensiv oder offensiv eingesetzt wird, identisch. Anthropics Einschränkungen auf Project-Glasswing-Partner sind eine Access-Control-Maßnahme — keine technische Begrenzung der Fähigkeiten.

Der Vorfall vom 21. April zeigt, wie fragil diese Unterscheidung in der Praxis ist. Zugangsdaten sind kompromittierbar, Drittanbieter sind ein strukturelles Risiko, und ein Modell, das einmal außerhalb der kontrollierten Umgebung zugänglich ist, lässt sich nicht zurückrufen. Sicherheitsforschung kennt dieses Problem unter dem Begriff “proliferation risk” — und der Konsens ist eindeutig: Je spezifischer und gefährlicher eine Fähigkeit, desto höher das Risiko, dass Einschränkungen temporär sind.

Das führt zu einer unbequemen Schlussfolgerung, die Anthropic in eigenen Worten andeutet: Mythos “presages” — es kündigt etwas an. Das Modell selbst ist nicht das Ende der Entwicklung, sondern der Anfang einer neuen Klasse von Werkzeugen, die diese Fähigkeiten routinemäßig mitbringen werden.

Fazit

Claude Mythos ist ein technologischer Meilenstein — und ein Lehrstück darüber, was passiert, wenn Fähigkeiten die Governance-Strukturen überrunden, die sie kontrollieren sollen. Das ist kein Argument gegen KI-Forschung im Bereich Cybersicherheit. Werkzeuge, die Sicherheitslücken in kritischer Infrastruktur identifizieren können, sind wertvoll. Die Frage ist nicht, ob sie existieren sollten, sondern wer über ihren Einsatz entscheidet, welche Strukturen diese Entscheidung legitimieren, und was geschieht, wenn die Zugangskontrolle — wie in diesem Fall — versagt.

Was dieser Vorfall deutlich macht: Die verantwortungsvolle KI-Nutzung endet nicht bei der Entscheidung, ein Modell nicht öffentlich zugänglich zu machen. Sie beginnt mit transparenten, überprüfbaren Strukturen — und mit der Bereitschaft zuzugeben, dass kein Unternehmen allein die Last tragen kann, das mächtigste Werkzeug seiner Art zu entwickeln und gleichzeitig dessen weltweite Verbreitung zu kontrollieren.

Häufige Fragen (FAQ)

Was ist Claude Mythos?

Claude Mythos ist ein noch nicht öffentlich zugängliches KI-Modell von Anthropic, das intern als “Capybara” bezeichnet wird. Es stellt laut Unternehmensangaben einen qualitativen Sprung gegenüber bestehenden Modellen dar — insbesondere im Bereich Cybersicherheit, wo es Schwachstellen in Codebases in einem Ausmaß identifizieren kann, das bisherige Systeme weit übertrifft.

Was ist Project Glasswing?

Project Glasswing ist Anthropics Einladungsprogramm für den kontrollierten Zugang zu Claude Mythos. Es umfasst zwölf Gründungsorganisationen und etwa vierzig geprüfte Betreiber kritischer Infrastruktur. Ziel ist es, Sicherheitsforschern und Verteidigern einen Vorsprung gegenüber potenziellen Angreifern zu verschaffen, bevor die Fähigkeiten des Modells sich unkontrolliert verbreiten.

Was war der Sicherheitsvorfall im April 2026?

Am selben Tag, an dem Anthropic die Existenz von Claude Mythos öffentlich bestätigte, verschaffte sich eine nicht autorisierte Gruppe über kompromittierte Zugangsdaten eines Drittanbieters Zugang zum Modell. Die Gruppe dokumentierte den Zugriff gegenüber Bloomberg. Anthropic bestätigte den Vorfall und leitete Untersuchungen ein.

Was bedeutet “Dual-Use” im Kontext von Claude Mythos?

Dual-Use beschreibt die Eigenschaft, dass dieselben Fähigkeiten sowohl defensiv als auch offensiv eingesetzt werden können. Claude Mythos kann Schwachstellen identifizieren und schließen helfen — aber auch, von Angreifern eingesetzt, dieselben Schwachstellen für Angriffe nutzen. Diese Eigenschaft ist technisch nicht trennbar.

Ist Claude Mythos ein Argument gegen KI-Entwicklung?

Nein. Es ist ein Argument für belastbare, externe und demokratisch legitimierte Governance-Strukturen — statt für die Selbstregulierung durch Unternehmen, die wirtschaftliche Anreize haben, ihre Modelle zu entwickeln und zu verbreiten. Die Fähigkeiten selbst sind wertvoll; die Frage ist, wer über ihren Einsatz entscheidet.

Quellen

1. Unauthorized group has gained access to Anthropic’s exclusive cyber tool Mythos — TechCrunch

2. Anthropic says testing Mythos, powerful new AI model — Fortune

3. Mozilla fixes 271 Firefox vulnerabilities found by Anthropic’s Claude Mythos — The Next Web

4. Anthropic investigates unauthorized access to restricted Claude Mythos AI model — SiliconANGLE

Claude Mythos: Der Mythos der kontrollierten KI-Waffe

Was Claude Mythos kann — und was das bedeutet

Der Mythos der kontrollierten Verbreitung

Wer entscheidet, wer Zugang bekommt — und warum das kein kleines Detail ist

Das Dual-Use-Dilemma hat kein technisches Gegenmittel

Fazit

Häufige Fragen (FAQ)

Quellen

Weitere Themen und Gedanken

Verdummt uns die KI? Eine Bestandsaufnahme des kognitiven Offloadings

Wenn KI Wissenschaft spielt: arXiv zieht die Notbremse gegen akademischen Slop

Grüner Strom aus der Gasleitung: Wie Rechenzentren die Klimabilanz der KI verfälschen

Let's Talk!