Développement IA

MAKER : Briser l'illusion de la pensée avec un raisonnement LLM à un million d'étapes et zéro erreur

Mis à jour le 13 novembre 2025

Catégorie: Développement IA

Tags AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

Visualisation du raisonnement LLM MAKER à un million d'étapes sans erreur

Pour que l’IA résolve des problèmes à l’échelle des organisations et des sociétés humaines — de la construction de gratte-ciels à la gestion de la logistique nationale — elle doit exécuter un nombre vastes d’étapes sans faille. Pourtant, malgré des avancées remarquables en raisonnement et en utilisation d’outils, les grands modèles de langage (LLM) ont constamment échoué aux tâches nécessitant de longues séquences d’actions dépendantes.

C’est le défi que MAKER aborde. Développé par des chercheurs de l’AI Lab en collaboration avec l’Université du Texas à Austin (UT Austin), MAKER est le premier système à résoudre avec succès une tâche nécessitant plus d’un million d’étapes LLM avec zéro erreur. Cette réussite introduit un nouveau paradigme pour la mise à l’échelle de l’IA : les Processus Agéntiques Massivement Décomposés (MDAP).

Si vous êtes un développeur cherchant à construire des systèmes IA robustes, un fondateur solo visant des opérations évolutives, ou un designer esquissant des flux de travail agéntiques, MAKER fournit un plan directeur pour le développement d’IA fiable et à grande échelle.

De Grand Cerveau à Essaim d'Agents

Le précipice de fiabilité des LLM

Les LLM actuels souffrent d’un taux d’erreur persistant qui empêche la mise à l’échelle. Lorsque les tâches impliquent de nombreuses étapes logiques dépendantes, même de petites erreurs s’accumulent rapidement, menant à un échec catastrophique.

Des expériences utilisant des benchmarks comme les Tours de Hanoï illustrent vivement ce « précipice de fiabilité ». Les modèles standards performent bien sur des versions simples mais échouent complètement une fois que la tâche dépasse environ huit disques. Un système avec un taux d’erreur par étape de seulement 1 % est destiné à échouer après seulement 100 étapes sur une tâche d’un million d’étapes.

Effondrement de la précision dans les modèles de raisonnement à mesure que la complexité de la tâche augmente. Les modèles de raisonnement de pointe tels que Claude 3.7 Thinking et DeepSeek R1 performent bien à faible complexité mais échouent complètement au-delà de huit disques dans les Tours de Hanoï.

MAKER s’attaque à cette vulnérabilité fondamentale en déplaçant l’accent de l’amélioration constante d’un unique LLM « intelligent » vers la conception d’une architecture système intrinsèquement tolérante aux erreurs.

Directions orthogonales pour la mise à l'échelle de l'IA - MAKER atteint plus de 1 million d'étapes consécutives sans erreur par rapport aux autres LLM

Comprendre MAKER : Mise à l’échelle de l’intelligence par la structure

MAKER — qui signifie Maximal Agentic decomposition (Décomposition agéntique maximale), first-to-ahead-by-K Error correction (Correction d’erreur du premier à prendre de l’avance de K), et Red-flagging (Drapeaux rouges) — est une implémentation du framework MDAP.

L’insight central est que la fiabilité peut être atteinte grâce à une décomposition extrême et à une correction d’erreurs locale. Les résultats suggèrent que les processus agéntiques massivement décomposés (MDAP) peuvent résoudre efficacement des problèmes au niveau des organisations et des sociétés, au lieu de compter uniquement sur l’amélioration continue des LLM.

MAKER repose sur trois composants principaux :

1. Décomposition agéntique maximale (MAD)

Pour les longues tâches, les LLM effectuant un raisonnement multi-étapes deviennent souvent peu fiables à mesure que leur contexte s’allonge. MAD résout cela en divisant la tâche en sous-tâches les plus petites possibles, chacune assignée à un micro-agent focalisé.

Micro-agents, micro-rôles : Chaque agent n’est assigné qu’à une seule sous-tâche (décomposition maximale, m=1). Cela limite le contexte de l’agent à l’information minimale nécessaire pour cette étape unique.
Efficacité : Cette focalisation extrême permet l’utilisation de petits LLM non raisonneurs avec des tailles de contexte limitées, qui se sont avérés plus rentables pour les tâches à long terme dans le cadre de MAKER.

2. Vote du premier à prendre de l’avance de k

La modularité permet une correction d’erreurs efficace et évolutive au niveau des sous-tâches. MAKER utilise un schéma de vote multi-agents : plusieurs agents tentent indépendamment de résoudre la même étape unique.

Consensus local : Des actions candidates sont échantillonnées jusqu’à ce qu’une action obtienne k votes de plus que toute autre. C’est ce qu’on appelle le « vote du premier à prendre de l’avance de k ».
Efficacité de mise à l’échelle : Le seuil de vote nécessaire, k_min, ne croît que logarithmiquement (Θ(ln s)) avec le nombre total d’étapes (s). C’est une découverte clé : combiné à MAD, le coût global attendu de résolution de la tâche entière croît log-linéairement (Θ(s ln s)). À l’inverse, si les agents gèrent plusieurs étapes (m>1), le coût croît de manière exponentielle.

3. Drapeaux rouges (Red-Flagging)

Pour augmenter le taux de succès par étape (p), MAKER utilise le « drapeau rouge » pour écarter les réponses qui indiquent un risque d’erreur accru, en particulier les erreurs corrélées.

Indicateurs de confusion : MAKER signale les réponses qui sont trop longues ou mal formatées. Des expériences préliminaires ont montré que les réponses plus longues tendent à avoir plus d’erreurs, et un formatage incorrect corrèle souvent avec un raisonnement défectueux.
Atténuation : En écartant ces réponses et en ré-échantillonnant, MAKER augmente le taux de succès (p) et réduit significativement les erreurs corrélées, assurant que les échecs localisés ne se propagent pas.

La preuve : Résolution des Tours de Hanoï à 20 disques

Pour valider MAKER, les chercheurs l’ont appliqué au puzzle des Tours de Hanoï avec 20 disques. Cette configuration requiert 2²⁰ - 1, soit 1 048 575, étapes dépendantes. Chaque étape unique devait être exécutée correctement.

En utilisant gpt-4.1-mini (un modèle non raisonneur choisi pour sa rentabilité), et en fixant le seuil de vote à k=3, le système MAKER complet a résolu le problème parfaitement. Cette exécution réussie de plus d’un million d’étapes LLM avec zéro erreur établit que la mise à l’échelle des systèmes basés sur les LLM vers de grands horizons temporels est possible.

Le processus a présenté une convergence exponentielle vers une solution sans erreur, confirmant l’efficacité théorique de MAKER.

Comparaison de convergence entre les méthodes de vote First-to-ahead-by-K et First-to-K montrant une diminution exponentielle des étapes non décidées à travers les tours d'échantillonnage et de vote

Implications pour le développement, la conception et la mise à l’échelle de l’IA

L’architecture MAKER fournit des insights critiques pour les développeurs, les designers et les fondateurs solos construisant la prochaine génération de produits IA :

1. Développement et conception d’agents

Le succès de MAKER repose sur la Décomposition Extrême, reflétant les principes trouvés dans l’architecture microservices :

Modularité : Chaque micro-agent peut être adapté à une tâche spécifique.
Développement indépendant : Les agents peuvent être mis à jour et testés isolément.
Conception pour l’échec : Le système est intrinsèquement conçu pour tolérer l’échec d’agents individuels via le vote/correction d’erreurs.

Pour les développeurs, cela suggère que l’investissement devrait se concentrer sur la création de micro-agents hautement spécialisés et à contexte minimal plutôt que de poursuivre continuellement le dernier et plus grand LLM monolithique.

2. Mise à l’échelle et gestion des coûts (Pour les fondateurs solos)

En utilisant les MDAP, vous pouvez maintenir une forte probabilité de succès pour de grandes tâches en augmentant k (le seuil de vote). De manière cruciale, le coût du système croît log-linéairement avec le nombre d’étapes.

Ce framework permet de sélectionner le LLM le plus rentable (c/p minimisé). De manière surprenante, les petits modèles non raisonneurs fournissent souvent la meilleure fiabilité par dollar lorsqu’ils sont utilisés dans MAKER.
Le coût total de l’exécution de MAKER est beaucoup plus efficace que l’utilisation d’un agent unique ou d’un système partiellement décomposé.

3. Sécurité et contrôle (Pour les fondateurs et passionnés)

MAKER présente une voie alternative vers une IA avancée qui comporte des risques considérablement réduits par rapport à la dépendance à des modèles uniques de plus en plus intelligents.

Transparence et audit : Parce que chaque étape a un focus clairement défini et limité, les actions des agents sont plus faciles à isoler (sandbox), à auditer et à contrôler.
Risque de collusion réduit : L’exécution indépendante de plusieurs agents focalisés sur chaque étape réduit substantiellement la capacité des agents à conspirer pour produire des actions nuisibles.
Taille du modèle et risque : La capacité d’utiliser de petits LLM pour la grande majorité du travail atténue les risques associés aux modèles puissants et moins contrôlés.

L’avenir de l’IA agéntique

Bien que MAKER ait démontré une exécution sans faille d’un plan connu dans les Tours de Hanoï, la prochaine frontière pour le développement de l’IA est l’extension de ce framework pour gérer des insights créatifs — planification, génération d’idées et vérification.

En décomposant l’ensemble du pipeline de résolution de problèmes, y compris les parties créatives, et en appliquant les principes MDAP, les développeurs peuvent automatiser des processus complexes où le nombre total d’étapes et les types de sous-tâches spécifiques sont inconnus au préalable.

MAKER prouve que l’intelligence fiable et à grande échelle peut être atteinte avec des systèmes plus petits, plus sûrs et plus contrôlables. L’avenir de l’IA ne dépend pas uniquement de la construction de modèles plus gros, mais de la conception de systèmes distribués plus intelligents qui ne faillent tout simplement pas.

Vous avez créé un outil IA que vous souhaitez partager ? J’ai compilé une liste triée sur le volet de répertoires IA où vous pouvez soumettre vos projets IA. Chaque répertoire inclut ma revue personnelle, les détails du processus de soumission et des indicateurs de qualité pour vous aider à choisir les meilleures plateformes pour votre lancement.

MAKER a été décrit dans la prépublication « Solving a Million-Step LLM Task with Zero Errors », rédigée par Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, et autres, et mis en avant dans le billet de blog « Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning ».

Catégorie Développement IA

Tags AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER : Briser l'illusion de la pensée avec un raisonnement LLM à un million d'étapes et zéro erreur

Visualisation du raisonnement LLM MAKER à un million d'étapes sans erreur

Le précipice de fiabilité des LLM

Comprendre MAKER : Mise à l’échelle de l’intelligence par la structure

1. Décomposition agéntique maximale (MAD)

2. Vote du premier à prendre de l’avance de k

3. Drapeaux rouges (Red-Flagging)

La preuve : Résolution des Tours de Hanoï à 20 disques

Implications pour le développement, la conception et la mise à l’échelle de l’IA

1. Développement et conception d’agents

2. Mise à l’échelle et gestion des coûts (Pour les fondateurs solos)

3. Sécurité et contrôle (Pour les fondateurs et passionnés)

L’avenir de l’IA agéntique

Articles Associés

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Obtenez les derniers insights IA livrés dans votre boîte de réception

Visualisation du raisonnement LLM MAKER à un million d'étapes sans erreur

Le précipice de fiabilité des LLM

Comprendre MAKER : Mise à l’échelle de l’intelligence par la structure

1. Décomposition agéntique maximale (MAD)

2. Vote du premier à prendre de l’avance de k

3. Drapeaux rouges (Red-Flagging)

La preuve : Résolution des Tours de Hanoï à 20 disques

Implications pour le développement, la conception et la mise à l’échelle de l’IA

1. Développement et conception d’agents

2. Mise à l’échelle et gestion des coûts (Pour les fondateurs solos)

3. Sécurité et contrôle (Pour les fondateurs et passionnés)

L’avenir de l’IA agéntique

Articles Associés

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Table des matières

Sujets Populaires

Popular Topics

Obtenez les derniers insights IA livrés dans votre boîte de réception