AI開発

MAKER: ミリオンステップ・ゼロエラーLLM推論で思考の幻影を打ち破る

更新日 2025年11月13日

カテゴリー: AI開発

タグ AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER ミリオンステップゼロエラー LLM推論ビジュアライゼーション

AIが人間の組織や社会の規模、すなわち高層ビルの建設から国家レベルの物流管理まで課題を解決するためには、膨大な数のステップを完璧に実行しなければなりません。しかし、推論やツール使用において顕著な進歩があったにもかかわらず、大規模言語モデル（LLM）は、長く依存関係のある一連の行動を必要とするタスクで、常に失敗してきました。

これがMAKERが取り組む課題です。AI LabとUT Austinの研究者らが開発したMAKERは、100万ステップ以上のLLMを要するタスクをゼロエラーで成功裏に解決した初のシステムです。この成果は、AIのスケーリングにおける新しいパラダイム、すなわち**Massively Decomposed Agentic Processes (MDAPs)**をもたらしました。

堅牢なAIシステムを構築したい開発者、スケーラブルな運用を目指す単独の創業者、あるいはエージェントワークフローをスケッチするデザイナーにとって、MAKERは信頼性の高い大規模AI開発の設計図を提供します。

ビッグブレインからエージェントの群れへ

LLMの信頼性の崖

現在のLLMは、スケールアップを妨げる持続的なエラー率に苦しみています。タスクが多くの依存関係のある論理的ステップを含む場合、たとえ小さなエラーでも急速に累積し、破滅的な失敗につながります。

ハノイの塔などのベンチマークを使用した実験は、この「信頼性の崖」を鮮明に示しています。標準モデルは単純なバージョンでは良好に機能しますが、タスクが約8枚の円盤を超えると完全に失敗します。ステップごとのエラー率がわずか1%であっても、100万ステップのタスクでは100ステップ後に失敗すると予想されます。

タスクの複雑さが増すにつでの推論モデルの精度の崩壊。Claude 3.7 ThinkingやDeepSeek R1のような最先端の推論モデルは低複雑性では良好に機能しますが、ハノイの塔で8枚を超えると完全に失敗します。

MAKERは、単一の「知性のある」LLMを絶えず改善することに焦点を当てるのではなく、本質的に耐エラー性を持つシステムアーキテクチャを設計することによって、この根本的な課題に取り組みます。

AIスケーリングの直交する方向 - 他のLLMと比較して、MAKERは100万ステップ以上の連続したエラーフリーなステップを達成します

MAKERの理解: 構造を通じた知性のスケーリング

MAKERは、Maximal Agentic decomposition（最大化エージェント分解）、first-to-ahead-by-K Error correction（Kによる先行型エラー訂正）、Red-flagging（レッドフラッギング）を意味し、MDAPフレームワークの実装です。

核心的な洞察は、極端な分解と局所的なエラー訂正を通じて信頼性を達成できるという点です。結果は、Massively Decomposed Agentic Processes (MDAPs)が、LLMの絶え間ない改善に頼るのではなく、組織や社会レベルの問題を効率的に解決できることを示唆しています。

MAKERは3つの主要なコンポーネントに依存しています。

1. 最大化エージェント分解 (MAD)

長時間のタスクでは、多段階推論を行うLLMは、コンテキストが増えるにつれて信頼性が低下します。MADは、タスクを可能な限り最小のサブタスクに分解し、各サブタスクを集中したマイクロエージェントに割り当てることでこれを解決します。

マイクロエージェント、マイクロロール: 各エージェントは単一のサブタスクのみを割り当てられます（最大化分解、m=1）。これにより、エージェントのコンテキストは、その単一のステップに必要な最小限の情報に限定されます。
効率性: この極端な集中により、限られたコンテキストサイズを持つより小さく、推論を行わないLLMの使用が可能になります。MAKERのフレームワーク内では、長距離タスクにおいてこれらがより費用対効果が高いことが見出されました。

2. First-to-ahead-by-k 投票

モジュール性により、サブタスクレベルでの効果的でスケーラブルなエラー訂正が可能になります。MAKERは、複数のエージェントが独立して同じ単一ステップを解決しようとする、マルチエージェント投票方式を使用します。

局所的な合意: 候補アクションが、他のどのアクションよりもk件多くの投票を獲得するまでサンプリングが行われます。これは「First-to-ahead-by-k voting」として知られています。
スケーリング効率: 必要な投票の閾値であるk_minは、ステップの総数(s)に対して対数的に (Θ(ln s))増加します。これは重要な発見です。MADと組み合わせることで、タスク全体を解決するための総合的な期待コストは、対数線形 (Θ(s ln s)) にスケールします。対照的に、エージェントが複数のステップ(m>1)を処理する場合、コストは指数関数的に増加します。

3. レッドフラッギング

ステップごとの成功率(p)を高めるために、MAKERは「レッドフラッギング」を使用し、特に相関エラーのリスクが高まっていることを示す応答を破棄します。

混乱の指標: MAKERは、過度に長いまたは不正な形式の応答にフラグを立てます。初步実験では、長い回答ほどエラーが多く、不正な形式がしばしば欠陥のある推論と相関することが示されました。
軽減策: これらの応答を破棄し再サンプリングすることで、MAKERは成功率(p)を向上させ、相関エラーを有意に低減し、局所的な失敗が伝播しないようにします。

証明: 20枚のハノイの塔の解決

MAKERを検証するために、研究者らは20枚の円盤を持つハノイの塔パズルに適用しました。この構成は、2²⁰ - 1、すなわち1,048,575の依存ステップを必要とします。単一のステップも正しく実行されなければなりません。

gpt-4.1-mini（費用対効果のために選ばれた非推論モデル）を使用し、投票閾値をk=3に設定したところ、完全なMAKERシステムは問題を完璧に解決しました。これにより、ゼロエラーで100万ステップ以上のLLMを実行した成功が確立され、LLMベースのシステムを大規模な時間範囲までスケールさせることが可能であることが証明されました。

このプロセスは、ゼロエラー解への指数関数的な収束を示し、MAKERの理論的効率性を確認しました。

First-to-ahead-by-KとFirst-to-K投票方式の収束比較。サンプリングと投票のラウンドを経て、未決定ステップが指数関数的に減少している様子を示す

AI開発、設計、スケーリングへの示唆

MAKERのアーキテクチャは、次世代のAI製品を構築する開発者、デザイナー、単独の創業者にとって重要な洞察を提供します。

1. 開発とエージェント設計

MAKERの成功は、極端な分解にかかっており、これはマイクロサービスアーキテクチャの原則と一致しています。

モジュール性: 各マイクロエージェントは特定のタスクに合わせて調整できます。
独立した開発: エージェントは単独で更新およびテストできます。
障害への設計: システムは、投票/エラー訂正を通じて個々のエージェントの障害を本質的に許容するように設計されています。

開発者にとって、これは、絶えず最新の巨大なモノリスLLMを追いかけるのではなく、高度に専門化され、最小限のコンテキストを持つマイクロエージェントの作成に投資すべきであることを示唆しています。

2. スケーリングとコスト管理（単独の創業者向け）

MDAPsを使用することで、k（投票閾値）を増やすことにより、大規模なタスクの成功確率を維持できます。重要なのは、システムのコストがステップ数に対して対数線形にスケールすることです。

このフレームワークにより、最も費用対効果の高いLLM（c/pを最小化）の選択が可能になります。驚くことに、MAKER内では、より小さく、推論を行わないモデルが、最高の信頼性-per-ドルを提供することが多いです。
**MAKERを実行する総コストは、**単一のエージェントや部分的に分解されたシステムを使用するよりもはるかに効率的にスケールします。

3. セキュリティと制御（創業者、愛好家向け）

MAKERは、ますます賢い単一モデルに依存するよりも大幅に低減されたリスクで、高度なAIへの代替経路を提示します。

透明性と監査: 各ステップが明確に定義され、焦点が限られているため、エージェントの行動はサンドボックス化、監査、制御が容易です。
共謀リスクの低減: 各ステップで複数の焦点を絞ったエージェントを独立して実行することで、エージェントが有害な行動を生み出すために共謀する能力が大幅に低減されます。
モデルサイズとリスク: 作業の大部分でより小さなLLMを使用できる能力は、強力で制御の行き届かないモデルに関連するリスクを軽減します。

エージェントAIの未来

MAKERはハノイの塔での既知の計画の完璧な実行を実証しましたが、AI開発の次のフロンティアは、このフレームワークを拡張して、創造的な洞察、すなわち計画立案、アイデア生成、検証を処理することです。

創造的な部分を含む問題解決のパイプライン全体を分解し、MDAPの原則を適用することで、開発者は、ステップの総数や特定のサブタスクのタイプが事前に未知である複雑なプロセスを自動化できます。

MAKERは、信頼できる大規模な知性が、より小さく、より安全で、より制御しやすいシステムで達成可能であることを証明しています。AIの未来は、単により大きなモデルを構築することに依存するのではなく、単純に失敗しない、より賢く、分散されたシステムを設計することにかかっています。

共有したいAIツールを構築しましたか？ 私は厳選されたAIディレクトリのリストを編集しました。そこではAIプロジェクトを提出できます。各ディレクトリには、私の個人的なレビュー、提出プロセスの詳細、品質指標が含まれており、あなたが最適なプラットフォームを選択するのに役立ちます。

MAKERは、Elliot Meyerson、Giuseppe Paolo、Roberto Dailey、および他の人々によって執筆されたプレプリント「Solving a Million-Step LLM Task with Zero Errors」で説明されており、ブログ記事「Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning」で特集されました。

カテゴリー AI開発

タグ AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: ミリオンステップ・ゼロエラーLLM推論で思考の幻影を打ち破る

MAKER ミリオンステップゼロエラー LLM推論ビジュアライゼーション

LLMの信頼性の崖

MAKERの理解: 構造を通じた知性のスケーリング

1. 最大化エージェント分解 (MAD)

2. First-to-ahead-by-k 投票

3. レッドフラッギング

証明: 20枚のハノイの塔の解決

AI開発、設計、スケーリングへの示唆

1. 開発とエージェント設計

2. スケーリングとコスト管理（単独の創業者向け）

3. セキュリティと制御（創業者、愛好家向け）

エージェントAIの未来

関連投稿

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

最新のAIインサイトをあなたのインボックスにお届けします

MAKER ミリオンステップ ゼロエラー LLM推論 ビジュアライゼーション

LLMの信頼性の崖

MAKERの理解: 構造を通じた知性のスケーリング

1. 最大化エージェント分解 (MAD)

2. First-to-ahead-by-k 投票

3. レッドフラッギング

証明: 20枚のハノイの塔の解決

AI開発、設計、スケーリングへの示唆

1. 開発とエージェント設計

2. スケーリングとコスト管理（単独の創業者向け）

3. セキュリティと制御（創業者、愛好家向け）

エージェントAIの未来

関連投稿

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

目次

人気トピック

Popular Topics

最新のAIインサイトをあなたのインボックスにお届けします

MAKER ミリオンステップゼロエラー LLM推論ビジュアライゼーション