Desenvolvimento de IA

MAKER: Desmantelando a Ilusão do Pensamento com Raciocínio LLM de Um Milhão de Passos e Zero Erros

Atualizado em 13 de novembro de 2025

Categoria: Desenvolvimento de IA

Tags AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

Visualização de raciocínio LLM de um milhão de passos e zero erros do MAKER

Para que a IA resolva problemas na escala de organizações e sociedades humanas — desde a construção de arranha-céus até a gestão de logísticas nacionais — ela deve executar um vasto número de passos sem falhas. No entanto, apesar de avanços notáveis em raciocínio e uso de ferramentas, os Grandes Modelos de Linguagem (LLMs) falharam consistentemente em tarefas que exigem sequências longas e dependentes de ações.

Este é o desafio que o MAKER aborda. Desenvolvido por pesquisadores do AI Lab em colaboração com a UT Austin, o MAKER é o primeiro sistema a resolver com sucesso uma tarefa que exige mais de um milhão de passos de LLM com zero erros. Essa conquista introduz um novo paradigma para o escalonamento de IA: Processos Agênticos Massivamente Decompostos (MDAPs).

Se você é um desenvolvedor que busca construir sistemas de IA robustos, um fundador solitário que visa operações escaláveis, ou um designer esboçando fluxos de trabalho agênticos, o MAKER fornece um plano para o desenvolvimento de IA confiável e em larga escala.

De um Cérebro Gigante para um Enxame de Agentes

O Ponto de Ruptura da Confiabilidade do LLM

Os LLMs atuais sofrem com uma taxa de erro persistente que impede o escalonamento. Quando as tarefas envolvem muitos passos lógicos dependentes, até mesmo pequenos erros se acumulam rapidamente, levando a falhas catastróficas.

Experimentos usando benchmarks como as Torres de Hanói demonstram vividamente esse “ponto de ruptura da confiabilidade”. Modelos padrão performam bem em versões simples, mas falham completamente uma vez que a tarefa ultrapassa cerca de oito discos. Um sistema com apenas 1% de taxa de erro por passo é esperado falhar após apenas 100 passos em uma tarefa de um milhão de passos.

Colapso da precisão em modelos de raciocínio conforme a complexidade da tarefa aumenta. Modelos de ponta como Claude 3.7 Thinking e DeepSeek R1 performam bem em baixa complexidade, mas falham completamente além de oito discos nas Torres de Hanói.

O MAKER aborda essa responsabilidade fundamental mudando o foco de melhorar constantemente um único LLM “inteligente” para projetar uma arquitetura de sistema inerentemente tolerante a erros.

Direções ortogonais para o escalonamento de IA - O MAKER alcança mais de 1 milhão de passos consecutivos sem erros em comparação com outros LLMs

Entendendo o MAKER: Escalonando a Inteligência Através da Estrutura

O MAKER — que significa Maximal Agentic decomposition (Decomposição Agêntica Máxima), first-to-ahead-by-K Error correction (Correção de Erros ‘First-to-ahead-by-K’), e Red-flagging (Sinalização de Alerta) — é uma implementação da estrutura MDAP.

A percepção central é que a confiabilidade pode ser alcançada através de decomposição extrema e correção de erros localizada. Os resultados sugerem que processos agênticos massivamente decompostos (MDAPs) podem resolver eficientemente problemas no nível de organizações e sociedades, em vez de depender apenas da melhoria contínua do LLM.

O MAKER depende de três componentes principais:

1. Decomposição Agêntica Máxima (MAD)

Para tarefas longas, LLMs que realizam raciocínio em múltiplos passos frequentemente se tornam não confiáveis conforme seu contexto aumenta. A MAD resolve isso dividindo a tarefa nas menores subtarefas possíveis, atribuindo cada uma a um microagente focado.

Microagentes, Microfunções: Cada agente é atribuído a apenas uma única subtarefa (decomposição máxima, m=1). Isso limita o contexto do agente à informação mínima necessária para aquele único passo.
Eficiência: Essa extrema concentração permite o uso de LLMs menores, não raciocínio, com tamanhos de contexto limitados, que se mostraram mais custo-eficazes para tarefas de longo alcance dentro da estrutura do MAKER.

2. Votação ‘First-to-ahead-by-k’

A modularidade permite correção de erros efetiva e escalável no nível da subtarefa. O MAKER usa um esquema de votação multi-agente: múltiplos agentes tentam independentemente resolver o mesmo passo único.

Consenso Local: Ações candidatas são amostradas até que uma ação alcance k votos a mais do que qualquer outra. Isso é conhecido como “votação ‘first-to-ahead-by-k’”.
Eficiência de Escalonamento: O limite de votas necessário, k_min, cresce apenas logaritmicamente (Θ(ln s)) com o número total de passos (s). Esta é uma descoberta chave: quando combinada com a MAD, o custo esperado total de resolução da tarefa inteira escala log-linearmente (Θ(s ln s)). Em contraste, se os agentes lidarem com múltiplos passos (m>1), o custo cresce exponencialmente.

3. Sinalização de Alerta (Red-Flagging)

Para aumentar a taxa de sucesso por passo (p), o MAKER usa “sinalização de alerta” para descartar respostas que indicam aumento de risco de erros, especialmente erros correlacionados.

Indicadores de Confusão: O MAKER sinaliza respostas que são excessivamente longas ou formatadas incorretamente. Experimentos preliminares mostraram que respostas mais longas tendem a ter mais erros, e formatação incorreta frequentemente se correlaciona com raciocínio defeituoso.
Mitigação: Ao descartar essas respostas e reamostrar, o MAKER aumenta a taxa de sucesso (p) e reduz significativamente erros correlacionados, garantindo que falhas localizadas não se propaguem.

A Prova: Resolvendo as Torres de Hanói de 20 Discos

Para validar o MAKER, pesquisadores o aplicaram ao quebra-cabeça das Torres de Hanói com 20 discos. Essa configuração requer 2²⁰ - 1, ou 1.048.575, passos dependentes. Cada passo único teve que ser executado corretamente.

Usando gpt-4.1-mini (um modelo não raciocínio escolhido por sua eficácia de custo), e definindo o limite de votação para k=3, o sistema MAKER completo resolveu o problema perfeitamente. Essa execução bem-sucedida de mais de um milhão de passos de LLM com zero erros estabelece que o escalonamento de sistemas baseados em LLM para grandes horizontes de tempo é possível.

O processo exibiu convergência exponencial em direção a uma solução de zero erros, confirmando a eficiência teórica do MAKER.

Comparação de convergência entre os métodos de votação First-to-ahead-by-K e First-to-K, mostrando a diminuição exponencial de passos não decididos através de rodadas de amostragem e votação

Implicações para o Desenvolvimento, Design e Escalonamento de IA

A arquitetura MAKER fornece percepções críticas para desenvolvedores, designers e fundadores solitários construindo a próxima geração de produtos de IA:

1. Desenvolvimento e Design de Agentes

O sucesso do MAKER depende da Decomposição Extrema, espelhando princípios encontrados em arquitetura de microsserviços:

Modularidade: Cada microagente pode ser adaptado a uma tarefa específica.
Desenvolvimento Independente: Agentes podem ser atualizados e testados isoladamente.
Design para Falha: O sistema é inerentemente projetado para tolerar a falha de agentes individuais através de votação/correção de erros.

Para desenvolvedores, isso sugere que o investimento deve focar na criação de microagentes altamente especializados e de contexto mínimo, em vez de buscar continuamente o maior e mais recente LLM monolítico.

2. Escalonamento e Gestão de Custos (Para Fundadores Solitários)

Ao usar MDAPs, você pode manter uma alta probabilidade de sucesso para tarefas grandes aumentando k (o limite de votação). Crucialmente, o custo do sistema escala log-linearmente com o número de passos.

Essa estrutura permite a seleção do LLM mais custo-eficaz (c/p minimizado). Surpreendentemente, modelos menores e não raciocínio frequentemente fornecem a melhor confiabilidade-por-dólar quando usados no MAKER.
O custo total de execução do MAKER escala muito mais eficientemente do que o uso de um único agente ou um sistema parcialmente decomposto.

3. Segurança e Controle (Para Fundadores e Entusiastas)

O MAKER apresenta um caminho alternativo para IA avançada que vem com riscos substancialmente reduzidos em comparação com depender de modelos únicos cada vez mais inteligentes.

Transparência e Auditoria: Como cada passo tem um foco claramente definido e limitado, as ações dos agentes são mais fáceis de serem isoladas, auditadas e controladas.
Risco de Colusão Reduzido: A execução de múltiplos agentes focados independentemente em cada passo reduz substancialmente a capacidade dos agentes de coludir para produzir ações prejudiciais.
Tamanho do Modelo e Risco: A capacidade de usar LLMs menores para a vasta maioria do trabalho mitiga riscos associados a modelos poderosos e menos controlados.

O Futuro da IA Agêntica

Enquanto o MAKER demonstrou uma execução perfeita de um plano conhecido nas Torres de Hanói, a próxima fronteira para o desenvolvimento de IA é estender essa estrutura para lidar com insights criativos — planejamento, geração de ideias e verificação.

Ao decompor todo o pipeline de resolução de problemas, incluindo as partes criativas, e aplicar os princípios MDAP, os desenvolvedores podem automatizar processos complexos onde o número total de passos e os tipos específicos de subtarefas são desconhecidos antecipadamente.

O MAKER prova que inteligência confiável e em larga escala pode ser alcançada com sistemas que são menores, mais seguros e mais controláveis. O futuro da IA não depende apenas de construir modelos maiores, mas de projetar sistemas distribuídos mais inteligentes que simplesmente não falham.

Construiu uma ferramenta de IA que deseja compartilhar? Eu compilei uma lista curada de diretórios de IA onde você pode enviar seus projetos de IA. Cada diretório inclui minha revisão pessoal, detalhes do processo de envio e indicadores de qualidade para ajudá-lo a escolher as melhores plataformas para seu lançamento.

O MAKER foi descrito no pré-impressão “Solving a Million-Step LLM Task with Zero Errors”, de autoria de Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, e outros, e apresentado no post de blog “Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning”.

Categoria Desenvolvimento de IA

Tags AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: Desmantelando a Ilusão do Pensamento com Raciocínio LLM de Um Milhão de Passos e Zero Erros

Visualização de raciocínio LLM de um milhão de passos e zero erros do MAKER

O Ponto de Ruptura da Confiabilidade do LLM

Entendendo o MAKER: Escalonando a Inteligência Através da Estrutura

1. Decomposição Agêntica Máxima (MAD)

2. Votação ‘First-to-ahead-by-k’

3. Sinalização de Alerta (Red-Flagging)

A Prova: Resolvendo as Torres de Hanói de 20 Discos

Implicações para o Desenvolvimento, Design e Escalonamento de IA

1. Desenvolvimento e Design de Agentes

2. Escalonamento e Gestão de Custos (Para Fundadores Solitários)

3. Segurança e Controle (Para Fundadores e Entusiastas)

O Futuro da IA Agêntica

Publicações Relacionadas

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Receba os últimos insights de IA entregues na sua caixa de entrada

Visualização de raciocínio LLM de um milhão de passos e zero erros do MAKER

O Ponto de Ruptura da Confiabilidade do LLM

Entendendo o MAKER: Escalonando a Inteligência Através da Estrutura

1. Decomposição Agêntica Máxima (MAD)

2. Votação ‘First-to-ahead-by-k’

3. Sinalização de Alerta (Red-Flagging)

A Prova: Resolvendo as Torres de Hanói de 20 Discos

Implicações para o Desenvolvimento, Design e Escalonamento de IA

1. Desenvolvimento e Design de Agentes

2. Escalonamento e Gestão de Custos (Para Fundadores Solitários)

3. Segurança e Controle (Para Fundadores e Entusiastas)

O Futuro da IA Agêntica

Publicações Relacionadas

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Índice

Tópicos Populares

Popular Topics

Receba os últimos insights de IA entregues na sua caixa de entrada