Agentic CodingArchitekturRLMAgentSMClaude Code

Agentic Coding: Wie KI-Agenten Software bauen -- Architektur, Forschung und Praxis

Was steckt hinter Agentic Coding? Von Agent Loop über Sandboxing bis zu MIT-Forschung (RLM, AgentSM): Der vollständige Architektur-Stack moderner Coding-Agenten.

AutorGiuliano FalcoFounder, EconLab AI

Datum20. März 2026

Lesezeit14 min

Was ist Agentic Coding?

Software wird nicht mehr nur von Menschen geschrieben. Seit 2024 entsteht ein wachsender Anteil produktionsreifer Software durch KI-Agenten -- autonome Systeme, die Code lesen, schreiben, testen und deployen. Nicht als Autovervollständigung im Editor, sondern als eigenständige Akteure mit Zugriff auf Terminal, Dateisystem und externe Dienste.

Agentic Coding bedeutet: Ein KI-Modell führt nicht einzelne Anweisungen aus, sondern agiert als autonomer Agent in einer Entwicklungsumgebung. Es plant, handelt, beobachtet das Ergebnis und passt seinen Ansatz an -- in einer Schleife, bis die Aufgabe erledigt ist.

Autovervollständigung: Modell schlägt nächste Zeile vor (GitHub Copilot)
Chat-basiert: Mensch fragt, Modell antwortet mit Code (ChatGPT, Claude.ai)
Agentic: Agent plant mehrstufig, führt selbst aus, verifiziert (Claude Code, Cursor, Devin)

Bei Agentic Coding gibt der Mensch das Ziel vor. Der Agent entscheidet selbstständig über den Weg.

Der Architektur-Stack: 6 Schichten

Jedes agentic Coding-System -- ob Claude Code, Cursor, Pi/OpenClaw oder Aider -- besteht aus denselben grundlegenden Architekturschichten.

Schicht 1: Execution Environment (Bash/REPL)

Die Basis: Ein Agent braucht Zugriff auf ein Terminal. Ohne Shell-Zugriff kann er keine Builds starten, keine Tests laufen lassen, keine Git-Operationen durchführen. Claude Code behandelt Bash als eines seiner 18 eingebauten Tools. Pi geht radikaler -- nur vier Tools: read, write, edit, bash.

Schicht 2: Agent Runtime (Der Agent Loop)

Das Herzstück jedes Agents ist eine Schleife:

THINK -- Aufgabe verstehen, nächsten Schritt planen
TOOL -- Passendes Tool wählen, Parameter formulieren
EXECUTE -- Tool ausführen, Output erfassen
EVALUATE -- Ergebnis prüfen. Ziel erreicht? Fertig. Nicht? Zurück zu THINK.

Dieses “ReAct-Pattern” (Reasoning + Acting) ist der Kern.

Schicht 3: RPC und Tool-Protokolle

Wie kommuniziert der Agent mit seinen Tools? Zwei dominante Ansätze:

Model Context Protocol (MCP) -- Anthropics offener Standard. JSON-RPC-basiert, bidirektionale Kommunikation. Wird zum De-facto-Standard.
CLI-First -- Pi's Ansatz: Standard-Unix-Tools. stdin rein, stdout raus. Einfacher, weniger Overhead.

Schicht 4: Coding Harness

Der Harness umhüllt alles und definiert das Verhalten des Gesamtsystems. Er ist 2026 der entscheidende Differenziator -- nicht das Modell.

“Multi-Step Execution Tasks haben irreduzible Koordinationsanforderungen -- Context Management, State Persistence, Error Recovery -- die KEINE Reasoning-Probleme für das Modell sind, sondern Infrastruktur-Probleme für das System.”

Schicht 5: Sandboxing und Sicherheit

Prompt Injection ist die größte Bedrohung. Anthropics Zahlen (2026): Sandboxing reduziert die ausnutzbare Angriffsfläche um 95%. Erkennungsrate für bekannte Injections: 98,5%.

Schicht 6: Strategische Evolution

2023: Modelle waren der Bottleneck
2024: Tools wurden wichtiger (MCP)
2025: Runtimes reiften (LangGraph, Pi Agent Core)
2026: Harnesses sind der Fokus. Das Modell ist nicht der Bottleneck -- der Harness ist die Architektur.

Recursive Language Models (RLM) -- Die Kontextgrenze sprengen

Zhang, Kraska und Khattab (MIT, Dezember 2025) lösen ein fundamentales Problem: Context Rot. Je länger der Input, desto schlechter die Performance -- selbst bei Modellen mit 272K Token Kontextfenster.

Die Lösung: Der Prompt wird externalisiert. Das Modell bekommt nicht den gesamten Text, sondern eine Python-REPL-Umgebung, in der der Text als Variable liegt. Es schreibt Code, um darin zu navigieren -- und kann sich rekursiv selbst aufrufen für Teilprobleme.

Das Ergebnis: Verarbeitung von 10 Millionen+ Tokens. GPT-5 mit RLM erreicht 91,33% auf einem Benchmark, auf dem das Basismodell bei 0% liegt.

Für Agentic Coding bedeutet das: Agents können bald ganze Codebases verarbeiten, nicht nur einzelne Dateien. Die Architektur-Schicht 1 (Bash/REPL) wird zum primären Kanal für Kontext-Navigation.

AgentSM -- Agents die sich erinnern

Biswal et al. (UC Berkeley, Amazon, Oracle, Snowflake, Januar 2026) adressieren das Amnesie-Problem: Agents wiederholen bei jeder neuen Aufgabe die gleichen explorativen Schritte. Bei 100 Fragen zur gleichen Datenbank sind weniger als 20% der Agent-Trajektorien überhaupt distinkt.

Die Lösung: Semantic Memory. Agent-Trajektorien werden strukturiert gespeichert, semantisch annotiert und bei ähnlichen Aufgaben wiederverwendet. Häufige Tool-Kombinationen werden automatisch zu Composite Tools gebündelt.

Das Ergebnis: 25% kürzere Trajektorien, 35% bessere Accuracy, State-of-the-Art auf dem Spider 2.0 Benchmark mit 44,8%.

Die Synergie

RLMs lösen das Problem “Input zu lang”. AgentSM löst das Problem “gleiche Arbeit wiederholt”. Kombiniert man beides, entsteht ein Agent, der riesige Codebases verarbeiten kann UND sich an seine bisherigen Explorationen erinnert.

EconLab AI: Wie wir Agentic Coding anwenden

Wir positionieren uns als “The Agentic AI Engineering Company” -- nicht weil es ein Buzzword ist, sondern weil wir diese Methodik in der Praxis validiert haben. Sieben Produkte, jedes mit Agentic Coding gebaut.

Unser Stack

24 spezialisierte Agents -- Code Review, Testing, Research, UI Design, Deployment. Jeder Agent hat einen spezifischen System-Prompt und Tool-Zugang.
17 Skills -- Wiederverwendbare Fähigkeiten: TDD, Debugging, Brainstorming, Plan-Execution. Skills definieren nicht WAS der Agent tut, sondern WIE.
EconLab UltraLoop -- Unsere Weiterentwicklung des Ralph Loop mit persistentem Cross-Session-Wissen (inspiriert von AgentSM), automatischer Context-Rotation (inspiriert von RLM) und Checkpoint-basiertem Recovery.
Context Engineering nach RLM-Prinzip -- Statt 5.000+ Tokens Kontext in jede Session zu laden, geben wir dem Agent ein minimales System-Prompt und eine “Karte” zum On-Demand-Zugriff. Token-Ersparnis: geschätzt 70-80%.

Was damit entsteht

VisionDocs -- Audit-Dokumentation (ISA 315). ISA-315-Compliance als Agent-Skill.
LMAT -- Konten-Migration für WP. Multi-Phase-Workflow mit Checksummen.
Governance Engineering -- Vorstandsvergütungs-Benchmarking. 6D-Algorithmus als DSR-Artefakt.
ImmoRender -- Real Estate AI Marketing. Multi-Agent-System, 47 Kunden.
shlex -- Telegram → Claude Code. Agent-Orchestrierung über Messaging.

Was uns differenziert

Die meisten KI-Agenturen nutzen LLMs als Chat-Interface. Wir nutzen sie als autonome Entwickler in einem durchdachten Architektur-Stack.

Audit-Mindset als Harness: 7 Jahre Wirtschaftsprüfung und IT-Audit bedeuten Compliance-by-Design. Nicht als nachträgliches Feature, sondern als Architektur-Prinzip. Jeder Agent hat Audit-Trails. Jede Entscheidung ist nachvollziehbar.
Forschungsnähe: Wir analysieren aktuelle Papers (MIT RLM, AgentSM, Anthropic Harness Engineering) und übersetzen sie in praktische Patterns.
Eigene Produkte als Beweis: Wir beraten nicht nur. Wir bauen. Und jedes Produkt validiert die Methodik.

2026 ist das Jahr, in dem Agentic Coding vom Experiment zum Standard wird. Wer heute Software baut ohne Agentic Coding, baut morgen zu langsam. Wer es ohne Audit-Mindset baut, baut nicht prüfbar. Wir bei EconLab AI machen beides.

Quellenverzeichnis

Zhang, A.L., Kraska, T. & Khattab, O. (2025). Recursive Language Models. arXiv:2512.24601v1. MIT.
Biswal, A. et al. (2026). AgentSM: Semantic Memory for Agentic Text-to-SQL. arXiv:2601.15709v1.
Anthropic Engineering (2026). Making Claude Code More Secure and Autonomous.
Anthropic Engineering (2026). Effective Harnesses for Long-Running Agents.
Pappas, E. (2026). The Agent Harness Is the Architecture. DEV.to.
Ronacher, A. (2026). Pi -- The Minimal Agent Within OpenClaw.
LangChain Blog (2025). Agent Frameworks, Runtimes, and Harnesses.
Huntley, G. (2025). Everything is a Ralph Loop. Anthropic.