KI-Entwicklung

MAKER: Das Illusion des Denkens zerschmettert – Millionenschrittige, fehlerfreie LLM-Reasoning

Aktualisiert am 13. November 2025

Kategorie: KI-Entwicklung

Tags AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER Millionenschrittige fehlerfreie LLM-Reasoning Visualisierung

Damit KI Probleme im Ausmaß menschlicher Organisationen und Gesellschaften lösen kann – vom Bau von Wolkenkratzern bis zur Verwaltung nationaler Logistik – muss sie eine riesige Anzahl von Schritten fehlerfrei ausführen. Trotz bemerkenswerter Durchbrüche beim Reasoning und bei der Werkzeugnutzung scheitern Large Language Models (LLMs) jedoch konsequent bei Aufgaben, die lange, voneinander abhängige Handlungssequenzen erfordern.

Dies ist die Herausforderung, die MAKER bewältigt. Entwickelt von Forschern des AI Lab in Zusammenarbeit mit der UT Austin, ist MAKER das erste System, das eine Aufgabe erfolgreich löst, die über eine Million LLM-Schritte erfordert, ohne Fehler. Dieser Erfolg führt ein neues Paradigma für die Skalierung von KI ein: Massively Decomposed Agentic Processes (MDAPs).

Wenn Sie ein Entwickler sind, der robuste KI-Systeme bauen möchte, ein Solo-Gründer, der auf skalierbare Operationen abzielt, oder ein Designer, der Agenten-Workflows skizziert, bietet MAKER einen Bauplan für zuverlässige, großangelegte KI-Entwicklung.

Vom großen Gehirn zum Schwarm von Agenten

Die LLM-Zuverlässigkeits-Klippe

Aktuelle LLMs leiden unter einer anhaltenden Fehlerrate, die eine Hochskalierung verhindert. Wenn Aufgaben viele abhängige logische Schritte beinhalten, summieren sich selbst kleine Fehler schnell zu einem katastrophalen Scheitern.

Experimente mit Benchmarks wie den Türmen von Hanoi veranschaulichen diese „Zuverlässigkeits-Klippe“ eindringlich. Standardmodelle performen bei einfachen Versionen gut, aber scheitern völlig, sobald die Aufgabe etwa acht Scheiben überschreitet. Ein System mit nur 1 % Fehlerrate pro Schritt wird erwartungsgemäß nach nur 100 Schritten einer millionenschrittigen Aufgabe versagen.

Genauigkeitseinbruch in Reasoning-Modellen mit steigender Aufgabenkomplexität. Grenzwertige Reasoning-Modelle wie Claude 3.7 Thinking und DeepSeek R1 performen bei geringer Komplexität gut, scheitern aber völlig jenseits von acht Scheiben in den Türmen von Hanoi.

MAKER begegnet dieser fundamentalen Schwäche, indem es den Fokus vom ständigen Verbessern eines einzigen „intelligenten“ LLM hin zum Entwurf einer inhärent fehlertoleranten Systemarchitektur verschiebt.

Orthogonale Richtungen zur Skalierung von KI - MAKER erreicht über 1 Million aufeinanderfolgender fehlerfreier Schritte im Vergleich zu anderen LLMs

MAKER verstehen: Intelligenz durch Struktur skalieren

MAKER – was für Maximal Agentic decomposition, first-to-ahead-by-K Error correction, and Red-flagging steht – ist eine Implementierung des MDAP-Frameworks.

Die zentrale Erkenntnis ist, dass Zuverlässigkeit durch extreme Dekomposition und lokale Fehlerkorrektur erreicht werden kann. Die Ergebnisse deuten darauf hin, dass massiv dekomponierte Agentenprozesse (MDAPs) Probleme auf dem Niveau von Organisationen und Gesellschaften effizient lösen können, anstatt sich ausschließlich auf die fortlaufende Verbesserung von LLMs zu verlassen.

MAKER verlässt sich auf drei Kernkomponenten:

1. Maximale Agenten-Dekomposition (MAD)

Bei langen Aufgaben werden LLMs, die Multi-Step-Reasoning durchführen, oft unzuverlässig, wenn sich ihr Kontext vergrößert. MAD löst dies, indem die Aufgabe in die kleinstmöglichen Unteraufgaben zerlegt und jede einem fokussierten Mikroagenten zugewiesen wird.

Mikroagenten, Mikro-Rollen: Jeder Agent erhält nur eine einzige Unteraufgabe (maximale Dekomposition, m=1). Dies begrenzt den Kontext des Agents auf die minimale Information, die für diesen einen Schritt benötigt wird.
Effizienz: Dieser extreme Fokus erlaubt die Verwendung von kleineren, nicht-reasoning LLMs mit begrenzter Kontextgröße, die sich im MAKER-Framework für Langstreckenaufgaben als kosteneffizienter erwiesen.

2. First-to-ahead-by-k Voting

Modularität ermöglicht eine effektive und skalierbare Fehlerkorrektur auf Ebene der Unteraufgaben. MAKER verwendet ein Multi-Agenten-Voting-Schema: Mehrere Agenten versuchen unabhängig, denselben einzelnen Schritt zu lösen.

Lokaler Konsens: Kandidatenaktionen werden gesampelt, bis eine Aktion k mehr Stimmen als jede andere erhalten hat. Dies ist als „First-to-ahead-by-k voting“ bekannt.
Skalierungseffizienz: Der notwendige Schwellenwert für die Stimmen, k_min, wächst nur logarithmisch (Θ(ln s)) mit der Gesamtzahl der Schritte (s). Dies ist ein Schlüsselfund: In Kombination mit MAD skaliert die erwartete Gesamtkosten für die Lösung der gesamten Aufgabe log-linear (Θ(s ln s)). Im Gegensatz dazu wachsen die Kosten exponentiell, wenn Agenten mehrere Schritte bearbeiten (m>1).

3. Red-Flagging

Um die Erfolgsrate pro Schritt (p) zu erhöhen, verwendet MAKER „Red-Flagging“, um Antworten zu verwerfen, die ein erhöhtes Fehlerrisiko signalisieren, insbesondere korrelierte Fehler.

Indikatoren für Verwirrung: MAKER markiert Antworten, die überlang oder falsch formatiert sind. Vorläufige Experimente zeigten, dass längere Antworten tendenziell mehr Fehler enthalten und falsche Formatierung oft mit fehlerhaftem Reasoning korreliert.
Minderung: Durch Verwerfen dieser Antworten und erneutes Samplen erhöht MAKER die Erfolgsrate (p) und reduziert korrelierte Fehler signifikant, wodurch sichergestellt wird, dass lokale Ausfälle nicht propagieren.

Der Beweis: Lösen der Türme von Hanoi mit 20 Scheiben

Um MAKER zu validieren, wandten die Forscher es auf das Puzzle der Türme von Hanoi mit 20 Scheiben an. Diese Konfiguration erfordert 2²⁰ - 1, also 1.048.575, abhängige Schritte. Jeder einzelne Schritt musste korrekt ausgeführt werden.

Unter Verwendung von gpt-4.1-mini (einem nicht-reasoning Modell, das aufgrund seiner Kosteneffizienz ausgewählt wurde) und mit einem Voting-Schwellenwert von k=3, löste das vollständige MAKER-System das Problem perfekt. Diese erfolgreiche Ausführung von über einer Million LLM-Schritten mit null Fehlern beweist, dass die Skalierung von LLM-basierten Systemen auf große Zeithorizonte möglich ist.

Der Prozess zeigte exponentielle Konvergenz hin zu einer fehlerfreien Lösung und bestätigte die theoretische Effizienz von MAKER.

Konvergenzvergleich zwischen First-to-ahead-by-K und First-to-K Voting-Methoden, der den exponentiellen Rückgang unentschiedener Schritte über Sampling- und Voting-Runden hinweg zeigt

Auswirkungen auf KI-Entwicklung, Design und Skalierung

Die MAKER-Architektur liefert entscheidende Erkenntnisse für Entwickler, Designer und Solo-Gründer, die die nächste Generation von KI-Produkten bauen:

1. Entwicklung und Agenten-Design

MAKERs Erfolg basiert auf extremer Dekomposition, was Prinzipien widerspiegelt, die in Microservices-Architekturen zu finden sind:

Modularität: Jeder Mikroagent kann für eine spezifische Aufgabe maßgeschneidert werden.
Unabhängige Entwicklung: Agenten können isoliert aktualisiert und getestet werden.
Design für Ausfälle: Das System ist inhärent darauf ausgelegt, das Versagen einzelner Agenten durch Voting/Fehlerkorrektur zu tolerieren.

Für Entwickler deutet dies darauf hin, dass Investitionen darauf ausgerichtet sein sollten, hochspezialisierte Mikroagenten mit minimalem Kontext zu erstellen, anstatt ständig das neueste, größte monolithische LLM zu verfolgen.

2. Skalierung und Kostenmanagement (Für Solo-Gründer)

Durch die Verwendung von MDAPs können Sie eine hohe Erfolgswahrscheinlichkeit für große Aufgaben aufrechterhalten, indem Sie k (den Vote-Schwellenwert) erhöhen. Entscheidend ist, dass die Kosten des Systems logarithmisch-linear mit der Anzahl der Schritte skalieren.

Dieses Framework ermöglicht die Auswahl des kosteneffizientesten LLM (c/p minimiert). Überraschenderweise bieten kleinere, nicht-reasoning Modelle in MAKER oft die beste Zuverlässigkeit-pro-Dollar.
Die Gesamtkosten für den Betrieb von MAKER skalieren viel effizienter als die Verwendung eines einzelnen Agents oder eines teilweise dekomponierten Systems.

3. Sicherheit und Kontrolle (Für Gründer und Enthusiasten)

MAKER bietet einen alternativen Weg zu fortschrittlicher KI, der mit erheblich reduzierten Risiken verbunden ist im Vergleich zum Verlassen auf immer intelligentere Einzelmodelle.

Transparenz und Audit: Da jeder Schritt einen klar definierten und begrenzten Fokus hat, sind die Aktionen der Agenten leichter zu sandboxen, zu auditen und zu kontrollieren.
Reduziertes Kollusionsrisiko: Die unabhängige Ausführung mehrerer fokussierter Agenten auf jedem Schritt reduziert die Fähigkeit der Agenten, sich zu verschwören, um schädliche Aktionen zu erzeugen, erheblich.
Modellgröße und Risiko: Die Fähigkeit, kleinere LLMs für den Großteil der Arbeit zu verwenden, mindert Risiken, die mit mächtigen, weniger kontrollierten Modellen verbunden sind.

Die Zukunft der Agenten-KI

Während MAKER eine makellose Ausführung eines bekannten Plans in den Türmen von Hanoi demonstrierte, ist die nächste Grenze für die KI-Entwicklung die Erweiterung dieses Frameworks, um kreative Einsichten zu bewältigen – Planung, Ideengenerierung und Verifikation.

Indem die gesamte Problemlösungspipeline, einschließlich der kreativen Teile, dekomponiert und MDAP-Prinzipien angewendet werden, können Entwickler komplexe Prozesse automatisieren, bei denen die Gesamtzahl der Schritte und die spezifischen Unteraufgabentypen im Voraus unbekannt sind.

MAKER beweist, dass zuverlässige, großangelegte Intelligenz mit Systemen erreicht werden kann, die kleiner, sicherer und besser kontrollierbar sind. Die Zukunft von KI hängt nicht allein davon ab, größere Modelle zu bauen, sondern smartere, verteilte Systeme zu entwerfen, die einfach nicht versagen.

Hast du ein KI-Tool gebaut, das du teilen möchtest? Ich habe eine kurierte Liste von KI-Verzeichnissen zusammengestellt, in der du deine KI-Projekte einreichen kannst. Jedes Verzeichnis enthält meine persönliche Bewertung, Details zum Einreichungsprozess und Qualitätsindikatoren, um dir bei der Auswahl der besten Plattformen für deinen Launch zu helfen.

MAKER wurde im Preprint „Solving a Million-Step LLM Task with Zero Errors“ beschrieben, verfasst von Elliot Meyerson, Giuseppe Paolo, Roberto Dailey und anderen, und im Blogbeitrag „Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning“ vorgestellt.

Kategorie KI-Entwicklung

Tags AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: Das Illusion des Denkens zerschmettert – Millionenschrittige, fehlerfreie LLM-Reasoning

MAKER Millionenschrittige fehlerfreie LLM-Reasoning Visualisierung

Die LLM-Zuverlässigkeits-Klippe

MAKER verstehen: Intelligenz durch Struktur skalieren

1. Maximale Agenten-Dekomposition (MAD)

2. First-to-ahead-by-k Voting

3. Red-Flagging

Der Beweis: Lösen der Türme von Hanoi mit 20 Scheiben

Auswirkungen auf KI-Entwicklung, Design und Skalierung

1. Entwicklung und Agenten-Design

2. Skalierung und Kostenmanagement (Für Solo-Gründer)

3. Sicherheit und Kontrolle (Für Gründer und Enthusiasten)

Die Zukunft der Agenten-KI

Verwandte Beiträge

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Erhalten Sie die neuesten KI-Erkenntnisse in Ihrem Posteingang

MAKER Millionenschrittige fehlerfreie LLM-Reasoning Visualisierung

Die LLM-Zuverlässigkeits-Klippe

MAKER verstehen: Intelligenz durch Struktur skalieren

1. Maximale Agenten-Dekomposition (MAD)

2. First-to-ahead-by-k Voting

3. Red-Flagging

Der Beweis: Lösen der Türme von Hanoi mit 20 Scheiben

Auswirkungen auf KI-Entwicklung, Design und Skalierung

1. Entwicklung und Agenten-Design

2. Skalierung und Kostenmanagement (Für Solo-Gründer)

3. Sicherheit und Kontrolle (Für Gründer und Enthusiasten)

Die Zukunft der Agenten-KI

Verwandte Beiträge

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Inhaltsverzeichnis

Beliebte Themen

Popular Topics

Erhalten Sie die neuesten KI-Erkenntnisse in Ihrem Posteingang