AI开发

MAKER：打破思维幻觉，实现百万步零错误的LLM推理

更新于 2025年11月13日

分类: AI开发

标签 AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER 百万步零错误LLM推理可视化

为了让AI能够解决人类组织和社会规模的问题——从建造摩天大楼到管理国家物流——它必须完美执行海量的步骤。然而，尽管在推理和工具使用方面取得了显著突破，大型语言模型（LLM）在需要长且依赖性强的动作序列的任务中一直表现不佳。

这就是MAKER旨在解决的挑战。由AI实验室的研究人员与德克萨斯大学奥斯汀分校合作开发，MAKER是首个成功解决需要超过一百万步LLM步骤且零错误的任务的系统。这一成就引入了一种扩展AI的新范式：大规模分解代理流程（Massively Decomposed Agentic Processes, MDAPs）。

如果您是希望构建稳健AI系统的开发者、旨在实现可扩展运营的独立创始人，或是绘制代理工作流的设计师，MAKER为可靠的大规模AI开发提供了蓝图。

从大脑到代理群

LLM的可靠性悬崖

当前的LLM受困于持续的错误率，这阻碍了规模化。当任务涉及许多依赖的逻辑步骤时，即使是微小的错误也会迅速累积，导致灾难性的失败。

使用汉诺塔等基准进行的实验生动地展示了这种“可靠性悬崖”。标准模型在简单版本上表现良好，但一旦任务超过约八个圆盘，就会完全失败。一个每步错误率仅为1%的系统，在百万步任务中仅需100步就会预期失败。

随着任务复杂度增加，推理模型的准确率崩溃。前沿推理模型如Claude 3.7 Thinking和DeepSeek R1在低复杂度下表现良好，但在汉诺塔问题中超过八个圆盘后完全失败。

MAKER通过将重点从不断改进单一的“智能”LLM，转移到设计本质上容错的系统架构，来解决这一根本缺陷。

扩展AI的正交方向 - MAKER实现了超过100万次连续无错误步骤，优于其他LLM

理解MAKER：通过结构扩展智能

MAKER代表最大化代理分解（Maximal Agentic decomposition）、领先k步错误纠正（first-to-ahead-by-K Error correction）和红旗标记（Red-flagging），它是MDAP框架的实现。

其核心见解是：通过极端分解和局部错误纠正可以实现可靠性。结果表明，大规模分解代理流程（MDAPs）可以高效解决组织和社会层面的问题，而不再仅仅依赖于持续的LLM改进。

MAKER依赖于三个核心组件：

1. 最大化代理分解 (MAD)

对于长任务，执行多步推理的LLM往往随着上下文增加而变得不可靠。MAD通过将任务分解为尽可能小的子任务，并将每个子任务分配给一个专注的微代理来解决这个问题。

微代理，微角色： 每个代理仅被分配一个子任务（最大化分解，m=1）。这将代理的上下文限制在该单一步骤所需的最小信息量内。
效率： 这种极端的专注允许使用更小、非推理的LLM以及有限的上下文长度，研究发现这在MAKER框架内的长距离任务中更具成本效益。

2. 领先k步投票法 (First-to-ahead-by-k Voting)

模块化使得在子任务层面进行有效且可扩展的错误纠正成为可能。MAKER使用多代理投票机制：多个代理独立尝试解决同一个单一步骤。

局部共识： 对候选动作进行采样，直到某个动作获得的票数比其他任何动作多出k票。这被称为“领先k步投票法”。
扩展效率： 必要的投票阈值k_min仅随总步骤数（s）呈对数级增长（Θ(ln s）。这是一个关键发现：当与MAD结合时，解决整个任务的预期总成本呈对数线性增长（Θ(s ln s)）。相反，如果代理处理多个步骤（m>1），成本则呈指数级增长。

3. 红旗标记 (Red-Flagging)

为了提高每步的成功率（p），MAKER使用“红旗标记”来丢弃表明错误风险增加的响应，特别是相关性错误。

困惑指标： MAKER标记过长或格式不正确的响应。初步实验表明，较长的回答往往包含更多错误，且错误格式通常与有缺陷的推理相关。
缓解措施： 通过丢弃这些响应并重新采样，MAKER提高了成功率（p），并显著减少了相关性错误，确保局部故障不会传播。

证明：解决20层汉诺塔问题

为了验证MAKER，研究人员将其应用于20个圆盘的汉诺塔谜题。此配置需要2²⁰ - 1，即1,048,575个依赖步骤。每一个步骤都必须正确执行。

使用gpt-4.1-mini（一种因其成本效益而被选择的非推理模型），并将投票阈值设为k=3，完整的MAKER系统完美解决了该问题。这次成功执行超过一百万步LLM步骤且零错误，确立了将基于LLM的系统扩展到大时间跨度是可行的。

该过程表现出向零错误解决方案的指数级收敛，证实了MAKER的理论效率。

领先k步投票法与前k名投票法的收敛比较，显示了在采样和投票轮次中未决步骤的指数级减少

对AI开发、设计与扩展的启示

MAKER架构为开发者、设计师和独立创始人构建下一代AI产品提供了关键见解：

1. 开发与代理设计

MAKER的成功依赖于极端分解，这反映了微服务架构的原则：

模块化： 每个微代理都可以针对特定任务进行定制。
独立开发： 代理可以独立更新和测试。
为故障设计： 系统本质上设计为通过投票/错误纠正来容忍单个代理的故障。

对于开发者而言，这表明投资应集中在创建高度专业化、最小上下文的微代理上，而不是持续追逐最新、最大的单体LLM。

2. 扩展与成本管理（针对独立创始人）

通过使用MDAPs，您可以通过增加k（投票阈值）来维持大型任务的高成功概率。至关重要的是，系统的成本随步骤数呈对数线性增长。

该框架允许选择最具成本效益的LLM（最小化c/p）。令人惊讶的是，较小的非推理模型在MAKER中使用时通常提供最佳的可靠性与成本比。
运行MAKER的总成本比使用单个代理或部分分解系统扩展得更高效。

3. 安全与控制（针对创始人和爱好者）

MAKER提供了一条通往高级AI的替代路径，与依赖越来越智能的单一模型相比，风险显著降低。

透明度与审计： 由于每个步骤都有明确且受限的关注点，代理的操作更容易进行沙盒处理、审计和控制。
降低合谋风险： 在每个步骤独立运行多个专注的代理，大大降低了代理合谋产生有害动作的能力。
模型规模与风险： 能够使用较小的LLM处理绝大部分工作，减轻了与强大且控制较少的模型相关的风险。

代理型AI的未来

虽然MAKER展示了在汉诺塔问题中完美执行已知计划的能力，但AI开发的下一个前沿是将此框架扩展到处理创造性的洞察——规划、创意生成和验证。

通过分解整个问题解决流程（包括创造性部分）并应用MDAP原则，开发者可以自动化复杂的流程，其中总步骤数和具体的子任务类型在事前是未知的。

MAKER证明，可靠的大规模智能可以通过更小、更安全、更可控的系统实现。AI的未来不仅仅取决于构建更大的模型，还在于设计更智能、分布式的系统，这些系统根本不会失败。

开发了想要分享的AI工具？ 我整理了一份精选AI目录列表，您可以在其中提交您的AI项目。每个目录都包含我的个人评论、提交流程细节和质量指标，以帮助您为发布选择最佳平台。

MAKER在预印本《Solving a Million-Step LLM Task with Zero Errors》中被描述，作者包括Elliot Meyerson、Giuseppe Paolo、Roberto Dailey等，并在博文《Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning》中被专题报道。

分类 AI开发

标签 AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER：打破思维幻觉，实现百万步零错误的LLM推理

MAKER 百万步零错误LLM推理可视化

LLM的可靠性悬崖

理解MAKER：通过结构扩展智能

1. 最大化代理分解 (MAD)

2. 领先k步投票法 (First-to-ahead-by-k Voting)

3. 红旗标记 (Red-Flagging)

证明：解决20层汉诺塔问题

对AI开发、设计与扩展的启示

1. 开发与代理设计

2. 扩展与成本管理（针对独立创始人）

3. 安全与控制（针对创始人和爱好者）

代理型AI的未来

相关文章

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

将最新的AI见解发送到您的收件箱

MAKER 百万步零错误LLM推理可视化

LLM的可靠性悬崖

理解MAKER：通过结构扩展智能

1. 最大化代理分解 (MAD)

2. 领先k步投票法 (First-to-ahead-by-k Voting)

3. 红旗标记 (Red-Flagging)

证明：解决20层汉诺塔问题

对AI开发、设计与扩展的启示

1. 开发与代理设计

2. 扩展与成本管理（针对独立创始人）

3. 安全与控制（针对创始人和爱好者）

代理型AI的未来

相关文章

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

目录

热门话题

Popular Topics

将最新的AI见解发送到您的收件箱