Claude Code von innen: Was Anthropics Ingenieure über Agent-Design gelernt haben
Anthropics Thariq teilt die 5 Kernlektionen aus dem Bau von Claude Code: Elicitation, Tool-Evolution, RAG-Tod, Progressive Disclosure. Was das für Ihre Agenten bedeutet.
Lektion 1: Elicitation -- Vom freien Text zum strukturierten Dialog
Claude konnte Fragen stellen, aber die User-Antworten dauerten unnötig lang. Drei Iterationen bis zur Lösung:
- Versuch 1: Fragen als Parameter neben dem Plan -- verwirrte Claude
- Versuch 2: Modifiziertes Markdown-Format -- unzuverlässig
- Versuch 3: Dediziertes AskUserQuestion Tool -- funktioniert. Claude “mochte” es und nutzt es zuverlässig
“Even the best designed tool doesn't work if Claude doesn't understand how to call it.” Strukturierte Elicitation reduziert Klärungsschleifen um ~63%.
Lektion 2: Tools müssen mit dem Modell wachsen
- TodoWrite (früh 2025) -- Einfache Checkliste. Problem: Claude dachte es MUSS an der Liste festhalten
- Task Tool (spät 2025) -- Dependencies, Sub-Agent-Delegation. Ermöglicht durch: Opus 4.5 wurde besser mit Subagents
- Agent Teams (Feb 2026) -- Multi-Agent-Kommunikation, blocked_by/blocks
“As model capabilities increase, the tools that your models once needed might now be constraining them.”
Die METR Time Horizon Benchmark bestätigt: Autonome Arbeitszeit verdoppelt sich alle ~122 Tage. Tools die für 30-Sekunden-Interaktionen designed wurden bremsen einen 10-Stunden-Agenten.
Lektion 3: RAG ist tot -- lang lebe Grep
Die erste Version von Claude Code nutzte eine RAG-Vektordatenbank für Code-Kontext. Schnell und mächtig -- aber fragil: Erforderte Indexing, brach über verschiedene Umgebungen, Claude bekam Kontext gegeben statt ihn selbst zu finden.
Die Lösung: Ein einfaches Grep-Tool. Claude durchsucht den Code selbst -- aktiv statt passiv.
- RAG (2024) -- Kontext wird dem Modell vorgelegt (passiv)
- Grep Tool (2025) -- Claude sucht selbst im Codebase (aktiv)
- Progressive Disclosure (2026) -- Claude liest Skill, referenzierte Dateien, rekursiv weiter
Je intelligenter das Modell wird, desto besser wird es darin, seinen eigenen Kontext aufzubauen.
Lektion 4: Progressive Disclosure -- Features ohne neue Tools
Claude Code hat ~20 Tools. Jedes neue Tool bedeutet mehr kognitive Last. Der ToolSearch-Mechanismus reduziert Token-Verbrauch um ~85%: Statt alle 50+ Tools vorab zu laden, findet ein Meta-Tool bei Bedarf die richtigen und lädt sie dynamisch nach.
Lektion 5: Das Critic Pattern
Anthropic nutzt intern ein Muster das für jeden Agent-Builder relevant ist:
- Pass 1 (kein Critic): 45,1% Qualität
- Pass 2 (1 Critic-Runde): 52,3%
- Pass 3 (2 Runden): 57,8%
- Pass 4 (3 Runden): 60,4%
Nach 3 Runden nimmt der Grenznutzen stark ab. Die optimale Strategie: 2-3 Critic-Runden, nicht mehr.
Was das für Ihre Agent-Architektur bedeutet
- Weniger Tools sind mehr. 5 gute Tools schlagen 50 mittelmäßige.
- Tools müssen zum Modell passen. Was für Opus funktioniert funktioniert nicht für Haiku.
- Progressive Disclosure. Information bei Bedarf nachladen, nicht alles vorab.
- Regelmäßig aufräumen. Tools die nicht genutzt werden: entfernen.
- Critic-Pattern einsetzen. 2-3 Review-Runden für kritische Outputs.
Wir nutzen Claude Code täglich bei EconLab AI und haben über Monate unsere eigene Tool-Landschaft iteriert -- genau nach diesen Prinzipien. Der Unterschied: Wir bringen zusätzlich Audit-Kompetenz ein. See like an agent -- und prüfe wie ein Auditor.
Claude Code im März 2026: Was sich seitdem verändert hat
Seit Thariqs ursprünglichem Beitrag hat sich Claude Code erheblich weiterentwickelt:
- Claude Opus 4.6: 80.9% auf SWE-bench Verified -- das erste Modell das die 80%-Marke überschritten hat. Das bedeutet: 4 von 5 echten GitHub-Issues werden autonom gelöst.
- Agent SDK: Entwickler können jetzt Custom Agents mit Claude Codes Tool-Infrastruktur bauen -- nicht nur den eingebauten Agent nutzen.
- 29 Millionen tägliche VS-Code-Installationen: Claude Codes VS-Code-Extension ist die am schnellsten wachsende KI-Extension.
- Multi-Agent Teams: Sub-Agents die parallel in eigenen Kontexten arbeiten, mit SendMessage-Kommunikation zwischen Lead und Teammates.
- Remote Control: Agent-Steuerung über iPhone/Android -- Tasks starten und monitoren von unterwegs.
Was sich nicht geändert hat: Die 5 Primitiven (Read, List, Bash, Edit, Search) sind immer noch das Fundament. Alle neuen Features bauen darauf auf -- sie ersetzen nichts. Huntleys Einsicht bleibt gültig: Einfachheit im Kern, Komplexität in der Orchestrierung.
Für unser Team bei EconLab AI bedeutet das: Wir bauen unsere 100+ spezialisierten Agents, unsere 17 Skills und unseren UltraLoop auf Claude Codes Primitiven -- nicht daneben. Jedes Tool das wir hinzufügen muss die Frage beantworten: "Macht das den Agenten besser? Oder nur komplexer?"
Quellen
- Thariq (Anthropic): "Seeing like an Agent" — Claude Code Design Lessons
- Anthropic Engineering Blog: Effective Harnesses for Long-Running Agents
- METR Time Horizon Benchmark: Autonome Arbeitszeit verdoppelt sich alle ~122 Tage
- SWE-bench Verified: Claude Opus 4.6 @ 80.9%