MAKER:打破思维幻觉,实现百万步零错误的LLM推理
更新于 2025年11月13日
MAKER 百万步零错误LLM推理可视化
为了让AI能够解决人类组织和社会规模的问题——从建造摩天大楼到管理国家物流——它必须完美执行海量的步骤。然而,尽管在推理和工具使用方面取得了显著突破,大型语言模型(LLM)在需要长且依赖性强的动作序列的任务中一直表现不佳。
这就是MAKER旨在解决的挑战。由AI实验室的研究人员与德克萨斯大学奥斯汀分校合作开发,MAKER是首个成功解决需要超过一百万步LLM步骤且零错误的任务的系统。这一成就引入了一种扩展AI的新范式:大规模分解代理流程(Massively Decomposed Agentic Processes, MDAPs)。
如果您是希望构建稳健AI系统的开发者、旨在实现可扩展运营的独立创始人,或是绘制代理工作流的设计师,MAKER为可靠的大规模AI开发提供了蓝图。

LLM的可靠性悬崖
当前的LLM受困于持续的错误率,这阻碍了规模化。当任务涉及许多依赖的逻辑步骤时,即使是微小的错误也会迅速累积,导致灾难性的失败。
使用汉诺塔等基准进行的实验生动地展示了这种“可靠性悬崖”。标准模型在简单版本上表现良好,但一旦任务超过约八个圆盘,就会完全失败。一个每步错误率仅为1%的系统,在百万步任务中仅需100步就会预期失败。

MAKER通过将重点从不断改进单一的“智能”LLM,转移到设计本质上容错的系统架构,来解决这一根本缺陷。

理解MAKER:通过结构扩展智能
MAKER代表最大化代理分解(Maximal Agentic decomposition)、领先k步错误纠正(first-to-ahead-by-K Error correction)和红旗标记(Red-flagging),它是MDAP框架的实现。
其核心见解是:通过极端分解和局部错误纠正可以实现可靠性。结果表明,大规模分解代理流程(MDAPs)可以高效解决组织和社会层面的问题,而不再仅仅依赖于持续的LLM改进。
MAKER依赖于三个核心组件:
1. 最大化代理分解 (MAD)
对于长任务,执行多步推理的LLM往往随着上下文增加而变得不可靠。MAD通过将任务分解为尽可能小的子任务,并将每个子任务分配给一个专注的微代理来解决这个问题。
- 微代理,微角色: 每个代理仅被分配一个子任务(最大化分解,m=1)。这将代理的上下文限制在该单一步骤所需的最小信息量内。
- 效率: 这种极端的专注允许使用更小、非推理的LLM以及有限的上下文长度,研究发现这在MAKER框架内的长距离任务中更具成本效益。
2. 领先k步投票法 (First-to-ahead-by-k Voting)
模块化使得在子任务层面进行有效且可扩展的错误纠正成为可能。MAKER使用多代理投票机制:多个代理独立尝试解决同一个单一步骤。
- 局部共识: 对候选动作进行采样,直到某个动作获得的票数比其他任何动作多出k票。这被称为“领先k步投票法”。
- 扩展效率: 必要的投票阈值k_min仅随总步骤数(s)呈对数级增长(Θ(ln s)。这是一个关键发现:当与MAD结合时,解决整个任务的预期总成本呈对数线性增长(Θ(s ln s))。相反,如果代理处理多个步骤(m>1),成本则呈指数级增长。
3. 红旗标记 (Red-Flagging)
为了提高每步的成功率(p),MAKER使用“红旗标记”来丢弃表明错误风险增加的响应,特别是相关性错误。
- 困惑指标: MAKER标记过长或格式不正确的响应。初步实验表明,较长的回答往往包含更多错误,且错误格式通常与有缺陷的推理相关。
- 缓解措施: 通过丢弃这些响应并重新采样,MAKER提高了成功率(p),并显著减少了相关性错误,确保局部故障不会传播。
证明:解决20层汉诺塔问题
为了验证MAKER,研究人员将其应用于20个圆盘的汉诺塔谜题。此配置需要2²⁰ - 1,即1,048,575个依赖步骤。每一个步骤都必须正确执行。
使用gpt-4.1-mini(一种因其成本效益而被选择的非推理模型),并将投票阈值设为k=3,完整的MAKER系统完美解决了该问题。这次成功执行超过一百万步LLM步骤且零错误,确立了将基于LLM的系统扩展到大时间跨度是可行的。
该过程表现出向零错误解决方案的指数级收敛,证实了MAKER的理论效率。

对AI开发、设计与扩展的启示
MAKER架构为开发者、设计师和独立创始人构建下一代AI产品提供了关键见解:
1. 开发与代理设计
MAKER的成功依赖于极端分解,这反映了微服务架构的原则:
- 模块化: 每个微代理都可以针对特定任务进行定制。
- 独立开发: 代理可以独立更新和测试。
- 为故障设计: 系统本质上设计为通过投票/错误纠正来容忍单个代理的故障。
对于开发者而言,这表明投资应集中在创建高度专业化、最小上下文的微代理上,而不是持续追逐最新、最大的单体LLM。
2. 扩展与成本管理(针对独立创始人)
通过使用MDAPs,您可以通过增加k(投票阈值)来维持大型任务的高成功概率。至关重要的是,系统的成本随步骤数呈对数线性增长。
- 该框架允许选择最具成本效益的LLM(最小化c/p)。令人惊讶的是,较小的非推理模型在MAKER中使用时通常提供最佳的可靠性与成本比。
- 运行MAKER的总成本比使用单个代理或部分分解系统扩展得更高效。
3. 安全与控制(针对创始人和爱好者)
MAKER提供了一条通往高级AI的替代路径,与依赖越来越智能的单一模型相比,风险显著降低。
- 透明度与审计: 由于每个步骤都有明确且受限的关注点,代理的操作更容易进行沙盒处理、审计和控制。
- 降低合谋风险: 在每个步骤独立运行多个专注的代理,大大降低了代理合谋产生有害动作的能力。
- 模型规模与风险: 能够使用较小的LLM处理绝大部分工作,减轻了与强大且控制较少的模型相关的风险。
代理型AI的未来
虽然MAKER展示了在汉诺塔问题中完美执行已知计划的能力,但AI开发的下一个前沿是将此框架扩展到处理创造性的洞察——规划、创意生成和验证。
通过分解整个问题解决流程(包括创造性部分)并应用MDAP原则,开发者可以自动化复杂的流程,其中总步骤数和具体的子任务类型在事前是未知的。
MAKER证明,可靠的大规模智能可以通过更小、更安全、更可控的系统实现。AI的未来不仅仅取决于构建更大的模型,还在于设计更智能、分布式的系统,这些系统根本不会失败。
开发了想要分享的AI工具? 我整理了一份精选AI目录列表,您可以在其中提交您的AI项目。每个目录都包含我的个人评论、提交流程细节和质量指标,以帮助您为发布选择最佳平台。
MAKER在预印本《Solving a Million-Step LLM Task with Zero Errors》中被描述,作者包括Elliot Meyerson、Giuseppe Paolo、Roberto Dailey等,并在博文《Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning》中被专题报道。