博客 资源 关于 搜索 主题
AI开发

MAKER:打破思维幻觉,实现百万步零错误的LLM推理

更新于 2025年11月13日

分类: AI开发
分享

MAKER 百万步零错误LLM推理可视化

为了让AI能够解决人类组织和社会规模的问题——从建造摩天大楼到管理国家物流——它必须完美执行海量的步骤。然而,尽管在推理和工具使用方面取得了显著突破,大型语言模型(LLM)在需要长且依赖性强的动作序列的任务中一直表现不佳。

这就是MAKER旨在解决的挑战。由AI实验室的研究人员与德克萨斯大学奥斯汀分校合作开发,MAKER是首个成功解决需要超过一百万步LLM步骤且零错误的任务的系统。这一成就引入了一种扩展AI的新范式:大规模分解代理流程(Massively Decomposed Agentic Processes, MDAPs)

如果您是希望构建稳健AI系统的开发者、旨在实现可扩展运营的独立创始人,或是绘制代理工作流的设计师,MAKER为可靠的大规模AI开发提供了蓝图。

从大脑到代理群

LLM的可靠性悬崖

当前的LLM受困于持续的错误率,这阻碍了规模化。当任务涉及许多依赖的逻辑步骤时,即使是微小的错误也会迅速累积,导致灾难性的失败。

使用汉诺塔等基准进行的实验生动地展示了这种“可靠性悬崖”。标准模型在简单版本上表现良好,但一旦任务超过约八个圆盘,就会完全失败。一个每步错误率仅为1%的系统,在百万步任务中仅需100步就会预期失败。

随着任务复杂度增加,推理模型的准确率崩溃。前沿推理模型如Claude 3.7 Thinking和DeepSeek R1在低复杂度下表现良好,但在汉诺塔问题中超过八个圆盘后完全失败。

MAKER通过将重点从不断改进单一的“智能”LLM,转移到设计本质上容错的系统架构,来解决这一根本缺陷。

扩展AI的正交方向 - MAKER实现了超过100万次连续无错误步骤,优于其他LLM

理解MAKER:通过结构扩展智能

MAKER代表最大化代理分解(Maximal Agentic decomposition)、领先k步错误纠正(first-to-ahead-by-K Error correction)和红旗标记(Red-flagging),它是MDAP框架的实现。

其核心见解是:通过极端分解和局部错误纠正可以实现可靠性。结果表明,大规模分解代理流程(MDAPs)可以高效解决组织和社会层面的问题,而不再仅仅依赖于持续的LLM改进。

MAKER依赖于三个核心组件:

1. 最大化代理分解 (MAD)

对于长任务,执行多步推理的LLM往往随着上下文增加而变得不可靠。MAD通过将任务分解为尽可能小的子任务,并将每个子任务分配给一个专注的微代理来解决这个问题。

  • 微代理,微角色: 每个代理仅被分配一个子任务(最大化分解,m=1)。这将代理的上下文限制在该单一步骤所需的最小信息量内。
  • 效率: 这种极端的专注允许使用更小、非推理的LLM以及有限的上下文长度,研究发现这在MAKER框架内的长距离任务中更具成本效益。

2. 领先k步投票法 (First-to-ahead-by-k Voting)

模块化使得在子任务层面进行有效且可扩展的错误纠正成为可能。MAKER使用多代理投票机制:多个代理独立尝试解决同一个单一步骤。

  • 局部共识: 对候选动作进行采样,直到某个动作获得的票数比其他任何动作多出k票。这被称为“领先k步投票法”。
  • 扩展效率: 必要的投票阈值k_min仅随总步骤数(s)呈对数级增长(Θ(ln s)。这是一个关键发现:当与MAD结合时,解决整个任务的预期总成本呈对数线性增长(Θ(s ln s))。相反,如果代理处理多个步骤(m>1),成本则呈指数级增长。

3. 红旗标记 (Red-Flagging)

为了提高每步的成功率(p),MAKER使用“红旗标记”来丢弃表明错误风险增加的响应,特别是相关性错误。

  • 困惑指标: MAKER标记过长格式不正确的响应。初步实验表明,较长的回答往往包含更多错误,且错误格式通常与有缺陷的推理相关。
  • 缓解措施: 通过丢弃这些响应并重新采样,MAKER提高了成功率(p),并显著减少了相关性错误,确保局部故障不会传播。

证明:解决20层汉诺塔问题

为了验证MAKER,研究人员将其应用于20个圆盘的汉诺塔谜题。此配置需要2²⁰ - 1,即1,048,575个依赖步骤。每一个步骤都必须正确执行。

使用gpt-4.1-mini(一种因其成本效益而被选择的非推理模型),并将投票阈值设为k=3,完整的MAKER系统完美解决了该问题。这次成功执行超过一百万步LLM步骤且零错误,确立了将基于LLM的系统扩展到大时间跨度是可行的。

该过程表现出向零错误解决方案的指数级收敛,证实了MAKER的理论效率。

领先k步投票法与前k名投票法的收敛比较,显示了在采样和投票轮次中未决步骤的指数级减少

对AI开发、设计与扩展的启示

MAKER架构为开发者、设计师和独立创始人构建下一代AI产品提供了关键见解:

1. 开发与代理设计

MAKER的成功依赖于极端分解,这反映了微服务架构的原则:

  • 模块化: 每个微代理都可以针对特定任务进行定制。
  • 独立开发: 代理可以独立更新和测试。
  • 为故障设计: 系统本质上设计为通过投票/错误纠正来容忍单个代理的故障。

对于开发者而言,这表明投资应集中在创建高度专业化、最小上下文的微代理上,而不是持续追逐最新、最大的单体LLM。

2. 扩展与成本管理(针对独立创始人)

通过使用MDAPs,您可以通过增加k(投票阈值)来维持大型任务的高成功概率。至关重要的是,系统的成本随步骤数呈对数线性增长。

  • 该框架允许选择最具成本效益的LLM(最小化c/p)。令人惊讶的是,较小的非推理模型在MAKER中使用时通常提供最佳的可靠性与成本比。
  • 运行MAKER的总成本比使用单个代理或部分分解系统扩展得更高效。

3. 安全与控制(针对创始人和爱好者)

MAKER提供了一条通往高级AI的替代路径,与依赖越来越智能的单一模型相比,风险显著降低

  • 透明度与审计: 由于每个步骤都有明确且受限的关注点,代理的操作更容易进行沙盒处理、审计和控制。
  • 降低合谋风险: 在每个步骤独立运行多个专注的代理,大大降低了代理合谋产生有害动作的能力。
  • 模型规模与风险: 能够使用较小的LLM处理绝大部分工作,减轻了与强大且控制较少的模型相关的风险。

代理型AI的未来

虽然MAKER展示了在汉诺塔问题中完美执行已知计划的能力,但AI开发的下一个前沿是将此框架扩展到处理创造性的洞察——规划、创意生成和验证。

通过分解整个问题解决流程(包括创造性部分)并应用MDAP原则,开发者可以自动化复杂的流程,其中总步骤数和具体的子任务类型在事前是未知的。

MAKER证明,可靠的大规模智能可以通过更小、更安全、更可控的系统实现。AI的未来不仅仅取决于构建更大的模型,还在于设计更智能、分布式的系统,这些系统根本不会失败。


开发了想要分享的AI工具? 我整理了一份精选AI目录列表,您可以在其中提交您的AI项目。每个目录都包含我的个人评论、提交流程细节和质量指标,以帮助您为发布选择最佳平台。


MAKER在预印本《Solving a Million-Step LLM Task with Zero Errors》中被描述,作者包括Elliot Meyerson、Giuseppe Paolo、Roberto Dailey等,并在博文《Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning》中被专题报道。

分类 AI开发
分享

相关文章

将最新的AI见解发送到您的收件箱

了解最新的趋势、教程和行业见解。加入信任我们新闻通讯的开发人员社区。

仅新账户。提交您的电子邮件即表示您同意我们的 隐私政策