Desarrollo de IA

MAKER: Destruyendo la ilusión del pensamiento con razonamiento LLM de un millón de pasos y cero errores

Actualizado el 13 de noviembre de 2025

Categoría: Desarrollo de IA

Etiquetas AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

Visualización de razonamiento LLM de un millón de pasos y cero errores de MAKER

Para que la IA resuelva problemas a la escala de las organizaciones y sociedades humanas —desde construir rascacielos hasta gestionar la logística nacional— debe ejecutar un número vasto de pasos sin fallos. Sin embargo, a pesar de los notables avances en razonamiento y uso de herramientas, los Modelos de Lenguaje Grande (LLM) han fallado consistentemente en tareas que requieren secuencias largas y dependientes de acciones.

Este es el desafío que aborda MAKER. Desarrollado por investigadores del AI Lab en colaboración con UT Austin, MAKER es el primer sistema que resuelve con éxito una tarea que requiere más de un millón de pasos de LLM con cero errores. Este logro introduce un nuevo paradigma para escalar la IA: Procesos Agenticos Masivamente Descompuestos (MDAPs).

Si eres un desarrollador que busca construir sistemas de IA robustos, un fundador en solitario que apunta a operaciones escalables, o un diseñador que bosqueja flujos de trabajo agenticos, MAKER proporciona un plano para el desarrollo de IA fiable y a gran escala.

De un gran cerebro a un enjambre de agentes

El acantilado de fiabilidad de los LLM

Los LLM actuales sufren una tasa de error persistente que impide la escalabilidad. Cuando las tareas implican muchos pasos lógicos dependientes, incluso errores pequeños se componen rápidamente, conduciendo a un fallo catastrófico.

Experimentos utilizando benchmarks como las Torres de Hanoi demuestran vívidamente este “acantilado de fiabilidad”. Los modelos estándar funcionan bien en versiones simples pero fallan por completo una vez que la tarea supera aproximadamente ocho discos. Se espera que un sistema con solo un 1% de tasa de error por paso falle después de solo 100 pasos de una tarea de un millón de pasos.

Colapso de la precisión en modelos de razonamiento a medida que aumenta la complejidad de la tarea. Modelos de razonamiento de vanguardia como Claude 3.7 Thinking y DeepSeek R1 funcionan bien con baja complejidad pero fallan por completo más allá de ocho discos en las Torres de Hanoi.

MAKER aborda esta responsabilidad fundamental cambiando el enfoque de mejorar constantemente un único LLM “inteligente” a diseñar una arquitectura de sistema inherentemente tolerante a fallos.

Direcciones ortogonales para escalar la IA - MAKER logra más de 1 millón de pasos consecutivos sin errores en comparación con otros LLM

Entendiendo MAKER: Escalando la inteligencia a través de la estructura

MAKER —que significa Maximal Agentic decomposition (Descomposición Agentica Maximal), first-to-ahead-by-K Error correction (Corrección de errores ‘Primero en adelantar por K’), y Red-flagging (Señalización de bandera roja)— es una implementación del marco MDAP.

La idea central es que la fiabilidad se puede lograr mediante una descomposición extrema y una corrección de errores local. Los resultados sugieren que los procesos agenticos masivamente descompuestos (MDAPs) pueden resolver eficientemente problemas a nivel de organizaciones y sociedades, en lugar de depender únicamente de la mejora continua de los LLM.

MAKER se basa en tres componentes principales:

1. Descomposición Agentica Maximal (MAD)

Para tareas largas, los LLM que realizan razonamiento de múltiples pasos a menudo se vuelven poco fiables a medida que aumenta su contexto. MAD resuelve esto dividiendo la tarea en las sub-tareas más pequeñas posibles, asignando cada una a un microagente enfocado.

Microagentes, Micro-roles: A cada agente se le asigna solo una única sub-tarea (descomposición maximal, m=1). Esto limita el contexto del agente a la información mínima necesaria para ese único paso.
Eficiencia: Este enfoque extremo permite el uso de LLM más pequeños, no razonadores con tamaños de contexto limitados, que resultaron ser más rentables para tareas de largo alcance dentro del marco MAKER.

2. Votación ‘Primero en adelantar por k’

La modularidad permite una corrección de errores efectiva y escalable a nivel de sub-tarea. MAKER utiliza un esquema de votación de múltiples agentes: múltiples agentes intentan resolver de forma independiente el mismo paso único.

Consenso local: Se muestrean acciones candidatas hasta que una acción logra k votos más que cualquier otra. Esto se conoce como “votación ‘Primero en adelantar por k’”.
Eficiencia de escalado: El umbral de votación necesario, k_min, crece solo logarítmicamente (Θ(ln s)) con el número total de pasos (s). Este es un hallazgo clave: cuando se combina con MAD, el costo total esperado de resolver la tarea completa escala logarítmicamente (Θ(s ln s)). En contraste, si los agentes manejan múltiples pasos (m>1), el costo crece exponencialmente.

3. Señalización de bandera roja (Red-Flagging)

Para aumentar la tasa de éxito por paso (p), MAKER utiliza la “señalización de bandera roja” para descartar respuestas que indican un mayor riesgo de errores, especialmente errores correlacionados.

Indicadores de confusión: MAKER señala respuestas que son excesivamente largas o formateadas incorrectamente. Experimentos preliminares mostraron que las respuestas más largas tienden a tener más errores, y el formateo incorrecto a menudo se correlaciona con un razonamiento defectuoso.
Mitigación: Al descartar estas respuestas y volver a muestrear, MAKER aumenta la tasa de éxito (p) y reduce significativamente los errores correlacionados, asegurando que las fallas localizadas no se propaguen.

La prueba: Resolviendo las Torres de Hanoi de 20 discos

Para validar MAKER, los investigadores lo aplicaron al rompecabezas de las Torres de Hanoi con 20 discos. Esta configuración requiere 2²⁰ - 1, o 1.048.575, pasos dependientes. Cada paso único debía ejecutarse correctamente.

Usando gpt-4.1-mini (un modelo no razonador elegido por su rentabilidad), y estableciendo el umbral de votación en k=3, el sistema MAKER completo resolvió el problema a la perfección. Esta ejecución exitosa de más de un millón de pasos de LLM con cero errores establece que es posible escalar sistemas basados en LLM a grandes horizontes de tiempo.

El proceso exhibió convergencia exponencial hacia una solución de cero errores, confirmando la eficiencia teórica de MAKER.

Comparación de convergencia entre los métodos de votación 'Primero en adelantar por K' y 'Primero a K', mostrando una disminución exponencial en los pasos no decididos a través de rondas de muestreo y votación

Implicaciones para el desarrollo, diseño y escalado de IA

La arquitectura MAKER proporciona ideas críticas para desarrolladores, diseñadores y fundadores en solitario que construyen la próxima generación de productos de IA:

1. Desarrollo y diseño de agentes

El éxito de MAKER se basa en la Descomposición Extrema, reflejando principios encontrados en la arquitectura de microservicios:

Modularidad: Cada microagente puede adaptarse a una tarea específica.
Desarrollo independiente: Los agentes pueden actualizarse y probarse de forma aislada.
Diseño para el fallo: El sistema está diseñado inherentemente para tolerar el fallo de agentes individuales mediante votación/corrección de errores.

Para los desarrolladores, esto sugiere que la inversión debe centrarse en crear microagentes altamente especializados y de contexto mínimo en lugar de perseguir continuamente el último y mayor LLM monolítico.

2. Escalado y gestión de costos (Para fundadores en solitario)

Al usar MDAPs, puedes mantener una alta probabilidad de éxito para tareas grandes aumentando k (el umbral de voto). Lo más importante es que el costo del sistema escala logarítmicamente con el número de pasos.

Este marco permite la selección del LLM más rentable (c/p minimizado). Sorprendentemente, los modelos más pequeños y no razonadores a menudo proporcionan la mejor fiabilidad-por-dólar cuando se usan en MAKER.
El costo total de ejecutar MAKER escala mucho más eficientemente que el uso de un solo agente o un sistema parcialmente descompuesto.

3. Seguridad y control (Para fundadores y entusiastas)

MAKER presenta un camino alternativo hacia una IA avanzada que conlleva riesgos sustancialmente reducidos en comparación con depender de modelos únicos cada vez más inteligentes.

Transparencia y auditoría: Debido a que cada paso tiene un enfoque claramente definido y limitado, las acciones de los agentes son más fáciles de aislar, auditar y controlar.
Riesgo reducido de colusión: Ejecutar múltiples agentes enfocados de forma independiente en cada paso reduce sustancialmente la capacidad de los agentes de coludirse para producir acciones dañinas.
Tamaño del modelo y riesgo: La capacidad de usar LLM más pequeños para la gran mayoría del trabajo mitiga los riesgos asociados con modelos poderosos y menos controlados.

El futuro de la IA agentica

Aunque MAKER demostró una ejecución perfecta de un plan conocido en las Torres de Hanoi, la siguiente frontera para el desarrollo de IA es extender este marco para manejar ideas creativas —planificación, generación de ideas y verificación.

Al descomponer toda la canalización de resolución de problemas, incluidas las partes creativas, y aplicar los principios de MDAP, los desarrolladores pueden automatizar procesos complejos donde el número total de pasos y los tipos específicos de sub-tareas son desconocidos de antemano.

MAKER prueba que una inteligente fiable y a gran escala se puede lograr con sistemas que son más pequeños, seguros y más controlables. El futuro de la IA no depende únicamente de construir modelos más grandes, sino de diseñar sistemas distribuidos más inteligentes que simplemente no fallan.

¿Has construido una herramienta de IA que quieres compartir? He compilado una lista curada de directorios de IA donde puedes presentar tus proyectos de IA. Cada directorio incluye mi reseña personal, detalles del proceso de envío e indicadores de calidad para ayudarte a elegir las mejores plataformas para tu lanzamiento.

MAKER fue descrito en el preprint “Solving a Million-Step LLM Task with Zero Errors”, escrito por Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, y otros, y presentado en la publicación de blog “Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning”.

Categoría Desarrollo de IA

Etiquetas AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: Destruyendo la ilusión del pensamiento con razonamiento LLM de un millón de pasos y cero errores

Visualización de razonamiento LLM de un millón de pasos y cero errores de MAKER

El acantilado de fiabilidad de los LLM

Entendiendo MAKER: Escalando la inteligencia a través de la estructura

1. Descomposición Agentica Maximal (MAD)

2. Votación ‘Primero en adelantar por k’

3. Señalización de bandera roja (Red-Flagging)

La prueba: Resolviendo las Torres de Hanoi de 20 discos

Implicaciones para el desarrollo, diseño y escalado de IA

1. Desarrollo y diseño de agentes

2. Escalado y gestión de costos (Para fundadores en solitario)

3. Seguridad y control (Para fundadores y entusiastas)

El futuro de la IA agentica

Publicaciones Relacionadas

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Recibe los últimos conocimientos sobre IA directamente en tu bandeja de entrada

Visualización de razonamiento LLM de un millón de pasos y cero errores de MAKER

El acantilado de fiabilidad de los LLM

Entendiendo MAKER: Escalando la inteligencia a través de la estructura

1. Descomposición Agentica Maximal (MAD)

2. Votación ‘Primero en adelantar por k’

3. Señalización de bandera roja (Red-Flagging)

La prueba: Resolviendo las Torres de Hanoi de 20 discos

Implicaciones para el desarrollo, diseño y escalado de IA

1. Desarrollo y diseño de agentes

2. Escalado y gestión de costos (Para fundadores en solitario)

3. Seguridad y control (Para fundadores y entusiastas)

El futuro de la IA agentica

Publicaciones Relacionadas

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Tabla de contenidos

Temas Populares

Popular Topics

Recibe los últimos conocimientos sobre IA directamente en tu bandeja de entrada