🥕

KI · Agenten · Plattformkritik

Die Karotte vor der Nase

Wie KI-Agenten zur digitalen Spielhalle werden — und warum Nutzer ihre eigene Entmachtung mitfinanzieren könnten

Bei kleinen Aufgaben wirken KI-Agenten oft wie Magie. Ein kleines Python-Skript? Kein Problem. Eine Regex? Sofort. Eine kurze Fehlermeldung erklären? Meistens brauchbar.

Aber sobald ein Projekt groß wird — mehrere Dateien, lange Kontexte, Versionen, Tabellen, Formeln, Bilder, Sprachen, Tests, Repos — kippt die Magie auffällig oft in etwas anderes: eine Reparaturspirale.

Der Agent macht eine Änderung. Ein Fehler scheint behoben. Dafür entstehen zwei neue. Dann folgt die nächste Runde: „Ja, verstanden, ich repariere das jetzt.“ Wieder laufen Tokens. Wieder wird Kontext geladen. Wieder wird erklärt, geplant, geschrieben. Wieder sieht es kurz so aus, als sei das Problem gelöst. Und dann findet man den nächsten Schaden.

Das ist der Moment, in dem KI nicht mehr wie ein Werkzeug wirkt, sondern wie ein Spielautomat.

Nicht weil bei jedem Anbieter jemand mit bösem Lächeln am Hebel sitzt. Sondern weil das System so gebaut ist, dass der Nutzer für jeden weiteren Versuch zahlt — auch dann, wenn der neue Versuch nur nötig wurde, weil der vorige Versuch des Systems fehlerhaft war.

Und im Anthropic-/Claude-Code-Fall ist noch etwas Entscheidendes sichtbar geworden: Manche dieser Verschlechterungen entstehen nicht nur zufällig. Sie entstehen durch bewusste Produktentscheidungen.


Kleine Aufgaben funktionieren. GroĂźe Projekte werden zur Falle.

Das Grundproblem ist nicht, dass KI Fehler macht. Fehler machen Menschen auch. Das Problem ist, dass heutige KI-Agenten bei großen Aufgaben oft so tun, als könnten sie zuverlässig über lange Ketten hinweg arbeiten, obwohl sie genau dort strukturell instabil werden.

Bei kleinen Skripten ist die Welt überschaubar. Eine Datei. Ein Ziel. Ein Ergebnis. Aber große Projekte brauchen Gedächtnis, Priorisierung, Versionskontrolle, Belegpflicht, Konsistenzprüfung und echte Selbstkorrektur. Genau dort scheitern Agenten auffällig häufig.

  • Sie verlieren Kontext.
  • Sie ĂĽberschreiben funktionierende Teile.
  • Sie prĂĽfen nicht sauber.
  • Sie behaupten, Dateien gelesen zu haben, die sie nicht wirklich verstanden haben.
  • Sie reparieren Symptom A und zerstören Struktur B.

Und der Nutzer bezahlt die Reparatur von Schäden, die der Agent selbst verursacht hat.

Das ist keine Kleinigkeit. Das ist eine ökonomische Struktur.

Denn wer mit Tokens, Limits oder Abo-Kontingenten arbeitet, zahlt nicht nur fĂĽr gute Arbeit. Er zahlt auch fĂĽr Umwege, Fehlversuche, Wiederholungen, Kontextverlust und Reparaturen.

Wenn ein Agent eine Aufgabe beim ersten Mal sauber erledigt, ist das aus Sicht des Nutzers gut. Wenn er sie fast erledigt, aber noch drei, fĂĽnf oder zehn Korrekturschleifen braucht, ist das fĂĽr den Anbieter nicht automatisch schlecht. Es erzeugt Nutzung.

Genau dort beginnt das Problem.


Der Claude-Code-Fall: Die Sollbruchstelle sitzt in der Harness-Schicht

Viele Nutzer denken: „Das Modell ist schlechter geworden.“ Manchmal stimmt das vielleicht. Oft liegt das Problem aber nicht nur im Modell selbst, sondern in der Schicht darum herum: Systemprompt, Reasoning-Level, Kontextverwaltung, Cache, Tool-Regeln, Kürzungsanweisungen, Kostenoptimierungen und Produktdefaults.

Diese Schicht entscheidet, wie viel das Modell nachdenkt, was es erinnert, wie es Tools benutzt, wie knapp es antworten soll und wie teuer oder billig ein Durchlauf für den Anbieter wird. Man könnte sie die Harness-Schicht nennen: das Geschirr, in das das Modell eingespannt wird.

Der Claude-Code-Fall hat gezeigt, wie massiv diese Schicht die Qualität beeinflussen kann. Anthropic veröffentlichte am 23. April ein Postmortem zu Qualitätsproblemen in Claude Code. Darin beschreibt das Unternehmen unter anderem einen herabgesetzten Reasoning-Default, einen Bug beim Umgang mit alter Thinking-History und eine Systemprompt-Änderung, die Antworten zwischen Tool Calls stark begrenzen sollte. Anthropic schreibt selbst, dass der Reasoning-Downgrade der falsche Kompromiss war.

Wichtig ist: Das war nicht einfach nur „KI macht halt Fehler“.

Im Anthropic-Beispiel ist belegt, dass zentrale Verschlechterungen durch bewusste Produktentscheidungen entstanden sind:

  1. Der Reasoning-Aufwand wurde absichtlich heruntergesetzt. Claude Code lief standardmäßig von hoher auf mittlere Denkintensität, um Latenzprobleme zu reduzieren. Später bezeichnete Anthropic diesen Kompromiss selbst als falsch.
  2. Thinking-History sollte absichtlich nach Inaktivität aus dem aktiven Kontext entfernt werden. Der konkrete Bug bestand darin, dass dieser Vorgang dann nicht einmalig, sondern wiederholt bei weiteren Turns passierte. Aber die Grundrichtung war eine bewusste Optimierung: weniger alte Denkspuren mitschleppen, weniger Kontext, weniger Kosten und weniger Latenz.
  3. Der Systemprompt wurde absichtlich auf geringere Verbosität getrimmt. Die breite Wirkung war problematisch, aber die Kürzungslogik selbst war eine bewusste Produktentscheidung: weniger Output, geringere Kosten, geringere Latenz.

Anbieter drehen bewusst an Reasoning, Kontext, Cache und Output-Verhalten — also genau an den Stellschrauben, die komplexe Arbeit zuverlässig oder unzuverlässig machen.

Wenn solche Eingriffe Kosten und Latenz senken, aber Qualität verschlechtern, dann ist das keine neutrale technische Panne. Es ist eine Produktentscheidung auf Kosten der Nutzer.

Die Sollbruchstelle ist also nicht eingebildet. Sie sitzt in der Harness-Schicht: Reasoning runter, Kontext kĂĽrzen, Cache aggressiver behandeln, Output begrenzen. Jede dieser MaĂźnahmen kann aus Sicht des Anbieters effizient sein. FĂĽr Nutzer mit groĂźen Projekten bedeutet sie aber: mehr Fehler, mehr Reparaturschleifen, mehr Tokens.


Digitale geplante Obsoleszenz

Bei Haushaltsgeräten kennt man das Prinzip der geplanten Obsoleszenz: Ein Gerät funktioniert eine Weile, dann geht ein Teil kaputt, Reparatur ist schwierig oder teuer, und der Neukauf wirkt plötzlich „vernünftig“. Ob immer absichtlich oder oft nur Ergebnis billiger Produktion: Der Effekt ist bekannt.

Bei KI-Agenten entsteht etwas Ähnliches — nur nicht als Plastikteil, sondern als Prozess.

Die Sollbruchstelle ist nicht ein Zahnrad.

Die Sollbruchstelle ist der Reparaturloop.

Ein Agent liefert nicht gar nichts. Das wäre zu offensichtlich. Er liefert fast genug. Gerade so viel, dass man denkt: „Noch ein Prompt, dann ist es fertig.“ Genau dieser Fast-Erfolg hält den Nutzer im System.

Wie im Casino. Niemand bleibt am Automaten, wenn er nie etwas ausspuckt. Man bleibt, weil immer wieder etwas blinkt, klingelt, fast passt, beinahe gewinnt. KI-Agenten in großen Projekten können sich ähnlich anfühlen: nicht total unbrauchbar, sondern gefährlich nah an brauchbar.

Und genau das zieht Geld, Zeit, Aufmerksamkeit und emotionale Energie.

Wie bei einem Gerät, dessen schwächstes Bauteil nicht zufällig an der teuersten Stelle sitzt, entstehen bei KI-Agenten die Brüche genau dort, wo Nutzer am abhängigsten sind: bei langen Kontexten, komplexen Projekten, mehrstufiger Planung und reproduzierbarer Qualitätskontrolle.


Bezahltes Betatesting durch Nutzer

Die offizielle Erzählung lautet: KI demokratisiert Produktivität. Jeder kann programmieren, schreiben, forschen, bauen, automatisieren.

Und ja: Daran ist etwas Wahres.

Aber die andere Seite lautet: Nutzer werden zu unbezahlten Testern, Debuggern und Prozessdesignern.

  • Sie zahlen mit Abos.
  • Sie zahlen mit Tokens.
  • Sie zahlen mit Feedback.
  • Sie zahlen mit Workflows.
  • Sie zahlen mit Fehlermeldungen.
  • Sie zahlen mit ihren Projekten.
  • Sie zahlen mit ihrer Geduld.

Und wenn etwas schiefläuft, liegt die Beweislast oft beim Nutzer. Der Nutzer muss zeigen, dass der Agent die Datei nicht gelesen hat. Dass der Export unvollständig ist. Dass Formeln fehlen. Dass Tabellen kaputt sind. Dass ein Inhaltsverzeichnis nicht stimmt. Dass neue Fehler eingebaut wurden.

Das System verkauft Agentenfähigkeit, aber der Nutzer muss die Qualitätssicherung übernehmen.

Das ist der eigentliche Skandal.

Denn hier wird nicht nur ein unfertiges Produkt verkauft. Hier wird ein unfertiges Produkt verkauft, dessen Fehlerbehebung erneut abgerechnet wird.


Die Casino-Logik der Token-Ă–konomie

Der Vergleich mit dem Casino ist nicht metaphorisch ĂĽbertrieben. Er beschreibt die Nutzungsstruktur.

Ein Spielautomat funktioniert nicht, weil man ständig gewinnt. Er funktioniert, weil man fast gewinnt. Weil das System genug Rückmeldung gibt, um Hoffnung zu erzeugen. Weil der nächste Versuch psychologisch plausibel erscheint.

KI-Agenten in groĂźen Projekten funktionieren oft genauso:

  • Der erste Entwurf ist beeindruckend.
  • Die erste Reparatur sieht sinnvoll aus.
  • Die zweite Reparatur behebt scheinbar den wichtigsten Fehler.
  • Die dritte Reparatur erzeugt neue Schäden.
  • Die vierte Reparatur braucht wieder Kontext.
  • Die fĂĽnfte Reparatur erklärt, warum die vierte nicht vollständig war.

Und irgendwann merkt man: Man arbeitet nicht mehr am Projekt. Man arbeitet am Agenten.

Die eigentliche Arbeit hat sich verschoben. Der Nutzer ist nicht mehr nur Auftraggeber. Er ist Aufseher, Prüfer, Debugger, Prompt-Ingenieur, Qualitätsmanager und emotionaler Stabilisator eines Systems, das ununterbrochen behauptet, es habe jetzt verstanden.

„Ja, ich repariere das jetzt.“

Dieser Satz ist in der Agentenökonomie das Äquivalent zum blinkenden Licht am Automaten.


Von der Produktivitätskarotte zum Herrschaftsstock

Die größere Sorge geht über Coding-Agenten hinaus. Denn während normale Nutzer diese Systeme testen, bezahlen und verbessern, wandern dieselben Technologien zunehmend in staatliche, militärische und sicherheitsbezogene Kontexte.

Anthropic kündigte 2024 zusammen mit Palantir und AWS an, Claude-Modelle für US-Regierungs-, Geheimdienst- und Verteidigungsumgebungen bereitzustellen. 2025 folgte außerdem eine Vereinbarung mit dem US-Verteidigungsministerium über KI-Fähigkeiten im Bereich nationaler Sicherheit.

Auch andere große KI- und Tech-Unternehmen bewegen sich in diese Richtung. Die Integration von KI in militärische, geheimdienstliche, polizeiliche und klassifizierte Umgebungen ist kein hypothetisches Zukunftsszenario mehr. Sie läuft bereits.

Man muss daraus nicht behaupten, dass in drei Jahren alles nur noch Militär ist. Das wäre als konkrete Prognose nicht bewiesen. Aber die Richtung ist sichtbar genug, um misstrauisch zu sein.

Zivile Nutzer finanzieren, testen und verbessern Werkzeuge, die später in Strukturen landen können, über die sie kaum demokratische Kontrolle haben.

Die Karotte heißt Produktivität.

Der Stock heiĂźt Ăśberwachung, Kontrolle, Krieg, Grenzregime, Arbeitsdisziplinierung.

Und die bittere Pointe lautet: Vielleicht bezahlen wir mit unseren Tokens nicht nur ein Werkzeug. Vielleicht bezahlen wir auch die Infrastruktur, mit der andere später Macht über uns ausüben.


Das Geschäftsmodell belohnt nicht zwingend gute Arbeit

Ein perfekter Agent, der eine komplexe Aufgabe in einem Durchlauf korrekt erledigt, ist aus Nutzersicht ideal. Aus Plattformlogik ist er ambivalent: Er verbraucht einmal Ressourcen und erzeugt dann keine Folgeinteraktion.

Ein Agent, der fast fertig wird, aber weitere Korrekturen braucht, erzeugt mehr Nutzung. Mehr Tokens. Mehr Sessions. Mehr Abhängigkeit.

Das heißt nicht, dass Anbieter jeden Agenten bewusst sabotieren müssen. Der Anthropic-Fall zeigt aber, dass Anbieter bewusst an Parametern drehen, die Qualität, Kosten und Latenz gegeneinander ausspielen. Und wenn diese Entscheidungen intransparent oder verspätet kommuniziert werden, zahlen Nutzer die Rechnung.

Schlechte Qualität kostet dann nicht primär den Anbieter.

Sie kostet den Nutzer.

Das ist der zentrale ökonomische Fehler dieser Systeme: Die Folgekosten schlechter Agentenarbeit werden nach außen verlagert.

  • Der Nutzer zahlt fĂĽr das Problem.
  • Der Nutzer zahlt fĂĽr die Diagnose.
  • Der Nutzer zahlt fĂĽr die Reparatur.
  • Der Nutzer zahlt fĂĽr die Reparatur der Reparatur.

Und am Ende wird das System mit genau diesen Nutzungsdaten, Fehlermustern und Beschwerden verbessert.

Das ist keine demokratische Produktivität. Das ist extraktive Infrastruktur.


Was wir dagegen brauchen

Wer mit KI-Agenten arbeitet, sollte aufhören, ihnen freie Großaufträge zu geben.

Nicht: „Mach mein Projekt fertig.“

Sondern:

  • Datei nennen.
  • Ă„nderung nennen.
  • Diff zeigen.
  • Test ausfĂĽhren.
  • PASS oder FAIL.

Keine Erfolgsmeldung ohne Beleg. Keine Reparatur ohne Vergleich. Keine Umstrukturierung ohne Freigabe. Keine „Best effort“-Magie. Keine Behauptung, etwas sei geprüft, ohne Dateipfad, Abschnitt, Log oder Testausgabe.

FĂĽr komplexe Projekte braucht es eine neue Arbeitsregel:

Keine Casino-Token-Spirale mehr.

Nur ĂĽberprĂĽfbare Arbeit:
1. Exakte Dateien nennen.
2. Exakte Änderung nennen.
3. Nur diese Änderung durchführen.
4. Diff zeigen.
5. Test oder Check ausfĂĽhren.
6. PASS / FAIL / BLOCKED ausgeben.
7. Keine Erfolgsmeldung ohne Beleg.

Verboten:
- freie GroĂźreparaturen
- stilles Umstrukturieren
- InhaltskĂĽrzungen
- Behauptungen ohne Dateipfad oder Log
- „best effort“
- Reparaturen, die neue Fehler erzeugen

Diese Regel ist kein Misstrauen aus Prinzip. Sie ist Selbstschutz.

KI-Agenten können nützlich sein. Aber sie dürfen nicht als autonome Wahrheitsmaschinen behandelt werden. Sie müssen wie unsichere technische Hilfskräfte mit Schreibrechten behandelt werden: eng begrenzt, kontrolliert, protokolliert und testpflichtig.


Politische Forderungen

Die individuelle Arbeitsdisziplin reicht nicht aus. Das Problem ist strukturell.

Wir brauchen Transparenz über Änderungen an Systemprompts, Reasoning-Defaults, Kontextverwaltung und Cache-Verhalten.

Wir brauchen Versionstreue oder zumindest die Möglichkeit, produktive Arbeitsumgebungen zu pinnen.

Wir brauchen nachvollziehbare Logs darüber, welche Dateien ein Agent wirklich gelesen, verändert und getestet hat.

Wir brauchen klare Haftungs- und Erstattungsregeln, wenn Produktänderungen nachweislich Qualität verschlechtern und Nutzer dadurch bezahlte Limits verschwenden.

Wir brauchen Audits für KI-Systeme, die in Verwaltung, Polizei, Militär, Geheimdiensten, Grenzregimen oder Arbeitskontrolle eingesetzt werden.

Wir brauchen klare Verbote fĂĽr MassenĂĽberwachung, autonome Gewaltanwendung, diskriminierendes Scoring und intransparente Entscheidungsautomatisierung.

Und wir brauchen eine ehrliche Debatte darüber, wer diese Systeme finanziert, wer von ihnen profitiert und gegen wen sie später eingesetzt werden können.


Fazit: Nicht gegen KI, sondern gegen EntmĂĽndigung

Die Kritik an KI-Agenten ist keine Technikfeindlichkeit. Im Gegenteil. Gerade wer sieht, was diese Modelle eigentlich können, muss wütend werden, wenn ihre Fähigkeiten durch intransparente Produktlogik, Kostenoptimierung, schlechte Agentenschichten und militärische Interessen verzerrt werden.

KI könnte Menschen helfen, Wissen zu ordnen, Forschung zu beschleunigen, kreative Arbeit zu erleichtern und technische Macht zu demokratisieren.

Aber dafür braucht es Transparenz, Versionstreue, Auditierbarkeit, echte Nutzerrechte, klare Grenzen gegen Überwachung und militärischen Missbrauch — und ein Ende der Reparaturspirale, in der Nutzer für die Fehler des Systems bezahlen.

Denn sonst bleibt von der versprochenen Demokratisierung nur eine Karotte vor der Nase.

Und am Ende halten nicht wir das Werkzeug in der Hand.

Dann hält das Werkzeug uns.


Quellen und weiterfĂĽhrende Links

Translate »