Разработка ИИ

MAKER: Разрушая иллюзию мышления с помощью миллион шагов без ошибок в рассуждениях LLM

Обновлено 13 ноября 2025 г.

Категория: Разработка ИИ

Теги AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

Визуализация миллион шагов без ошибок в рассуждениях LLM MAKER

Чтобы ИИ мог решать проблемы масштаба человеческих организаций и обществ — от строительства небоскребов до управления национальной логистикой — он должен выполнять огромное количество шагов безупречно. Однако, несмотря на выдающиеся прорывы в рассуждениях и использовании инструментов, большие языковые модели (LLM) постоянно терпят неудачу в задачах, требующих длинных, зависимых последовательностей действий.

Именно эту проблему решает MAKER. Разработанный исследователями AI Lab в сотрудничестве с UT Austin, MAKER — это первая система, успешно решившая задачу, требующую более миллиона шагов LLM, с нулевым количеством ошибок. Это достижение вводит новую парадигму масштабирования ИИ: Массивно Декомпозированные Агентные Процессы (MDAP).

Если вы разработчик, стремящийся построить надежные системы ИИ, основатель стартапа, нацеленный на масштабируемые операции, или дизайнер, набрасывающий агентные рабочие процессы, MAKER предоставляет план для надежной разработки ИИ в больших масштабах.

От большого мозга до роя агентов

Обрыв надежности LLM

Текущие LLM страдают от постоянного уровня ошибок, который препятствует масштабированию. Когда задачи включают множество зависимых логических шагов, даже небольшие ошибки быстро накапливаются, приводя к катастрофическому сбою.

Эксперименты с использованием таких бенчмарков, как Ханойская башня, ярко демонстрируют этот «обрыв надежности». Стандартные модели хорошо справляются с простыми версиями, но полностью проваливаются, как только задача переходит отметку примерно в восемь дисков. Ожидается, что система с всего 1% вероятностью ошибки на шаге потерпит неудачу уже после 100 шагов в задаче из миллиона шагов.

Снижение точности в моделях рассуждений по мере увеличения сложности задачи. Передовые модели рассуждений, такие как Claude 3.7 Thinking и DeepSeek R1, хорошо работают при низкой сложности, но полностью проваливаются за пределами восьми дисков в Ханойской башне.

MAKER решает эту фундаментальную проблему, смещая фокус с постоянного улучшения единой «интеллектуальной» LLM на проектирование архитектуры системы, изначально устойчивой к ошибкам.

Ортогольные направления масштабирования ИИ - MAKER достигает более 1 миллиона последовательных шагов без ошибок по сравнению с другими LLM

Понимание MAKER: Масштабирование интеллекта через структуру

MAKER — что расшифровывается как Maximal Agentic decomposition (Максимальная агентная декомпозиция), first-to-ahead-by-K Error correction (коррекция ошибок «первый, опережающий на K») и Red-flagging (выставление красных флагов) — это реализация фреймворка MDAP.

Ключевая идея заключается в том, что надежности можно достичь через экстремальную декомпозицию и локальную коррекцию ошибок. Результаты показывают, что массивно декомпозированные агентные процессы (MDAP) могут эффективно решать проблемы уровня организаций и обществ, вместо того чтобы полагаться исключительно на постоянное улучшение LLM.

MAKER полагается на три основных компонента:

1. Максимальная агентная декомпозиция (MAD)

Для длинных задач LLM, выполняющие многошаговые рассуждения, часто становятся ненадежными по мере увеличения их контекста. MAD решает эту проблему, разбивая задачу на наименьшие возможные подзадачи и назначая каждую сфокусированному микроагенту.

Микроагенты, микророли: Каждому агенту назначается только одна подзадача (максимальная декомпозиция, m=1). Это ограничивает контекст агента минимальной информацией, необходимой для этого единственного шага.
Эффективность: Этот экстремальный фокус позволяет использовать меньшие, нерассуждающие LLM с ограниченным размером контекста, которые, как было обнаружено, более экономически эффективны для задач большой протяженности в рамках фреймворка MAKER.

2. Голосование «Первый, опережающий на k»

Модульность обеспечивает эффективную и масштабируемую коррекцию ошибок на уровне подзадач. MAKER использует схему голосования несколькими агентами: несколько агентов независимо пытаются решить один и тот же шаг.

Локальный консенсус: Кандидаты в действия отбираются до тех пор, пока одно действие не наберет k голосов больше, чем любое другое. Это известно как голосование «первый, опережающий на k».
Эффективность масштабирования: Необходимый порог голосов, k_min, растет только логарифмически (Θ(ln s)) с общим количеством шагов (s). Это ключевая находка: при объединении с MAD общая ожидаемая стоимость решения всей задачи растет логарифмически-линейно (Θ(s ln s)). В противоположность этому, если агенты обрабатывают несколько шагов (m>1), стоимость растет экспоненциально.

3. Выставление красных флагов

Для повышения вероятности успеха на шаге (p), MAKER использует «выставление красных флагов» для отбрасывания ответов, указывающих на повышенный риск ошибок, особенно коррелированных ошибок.

Индикаторы путаницы: MAKER помечает ответы, которые слишком длинные или неправильно отформатированы. Предварительные эксперименты показали, что более длинные ответы склонны к большему количеству ошибок, а неправильное форматирование часто коррелирует с дефектными рассуждениями.
Смягчение: Отбрасывая эти ответы и повторяя выборку, MAKER повышает вероятность успеха (p) и существенно снижает коррелированные ошибки, гарантируя, что локальные сбои не распространяются.

Доказательство: Решение Ханойской башни из 20 дисков

Для проверки MAKER исследователи применили его к головоломке Ханойская башня с 20 дисками. Эта конфигурация требует 2²⁰ - 1, или 1 048 575, зависимых шагов. Каждый единичный шаг должен был быть выполнен правильно.

Используя gpt-4.1-mini (нерассуждающую модель, выбранную за ее экономичность) и установив порог голосования на k=3, полная система MAKER решила задачу идеально. Это успешное выполнение более миллиона шагов LLM с нулевыми ошибками устанавливает, что масштабирование систем на базе LLM до больших временных горизонтов возможно.

Процесс демонстрировал экспоненциальную сходимость к решению с нулевыми ошибками, подтверждая теоретическую эффективность MAKER.

Сравнение сходимости между методами голосования «Первый, опережающий на K» и «Первый до K», показывающее экспоненциальное снижение нерешенных шагов в ходе раундов отбора и голосования

Последствия для разработки, проектирования и масштабирования ИИ

Архитектура MAKER предоставляет критически важные идеи для разработчиков, дизайнеров и основателей стартапов, создающих следующее поколение продуктов ИИ:

1. Разработка и проектирование агентов

Успех MAKER зависит от Экстремальной Декомпозиции, отражающей принципы, найденные в архитектуре микросервисов:

Модульность: Каждый микроагент может быть адаптирован под конкретную задачу.
Независимая разработка: Агенты могут обновляться и тестироваться изолированно.
Проектирование для отказа: Система изначально спроектирована так, чтобы терпеть отказ отдельных агентов через голосование/коррекцию ошибок.

Для разработчиков это означает, что инвестиции следует сосредоточить на создании высокоспециализированных, минималистичных микроагентов, а не на постоянной погоне за последними крупными монолитными LLM.

2. Масштабирование и управление затратами (Для основателей стартапов)

Используя MDAP, вы можете поддерживать высокую вероятность успеха для больших задач, увеличивая k (порог голосования). Что важно, стоимость системы растет логарифмически-линейно с количеством шагов.

Этот фреймворк позволяет выбрать наиболее экономически эффективную LLM (минимизация c/p). Удивительно, но меньшие, нерассуждающие модели часто обеспечивают лучшую надежность за доллар при использовании в MAKER.
Общая стоимость запуска MAKER масштабируется гораздо эффективнее, чем использование одного агента или частично декомпозированной системы.

3. Безопасность и контроль (Для основателей и энтузиастов)

MAKER представляет альтернативный путь к продвинутому ИИ, который сопряжен со значительно меньшими рисками по сравнению с полаганием на все более умные единичные модели.

Прозрачность и аудит: Поскольку каждый шаг имеет четко определенный и ограниченный фокус, действия агентов легче изолировать, аудировать и контролировать.
Снижение риска сговора: Запуск нескольких сфокусированных агентов независимо на каждом шаге существенно снижает способность агентов сговариваться для совершения вредных действий.
Размер модели и риск: Возможность использования меньших LLM для подавляющего большинства работы снижает риски, связанные с мощными, менее контролируемыми моделями.

Будущее агентного ИИ

Хотя MAKER продемонстрировал безупречное исполнение известного плана в Ханойской башне, следующей границей для разработки ИИ является расширение этого фреймворка для обработки творческих инсайтов — планирования, генерации идей и верификации.

Декомпозируя весь конвейер решения проблем, включая творческие части, и применяя принципы MDAP, разработчики могут автоматизировать сложные процессы, где общее количество шагов и конкретные типы подзадач заранее неизвестны.

MAKER доказывает, что надежный, масштабируемый интеллект можно достичь с помощью систем, которые меньше, безопаснее и более управляемы. Будущее ИИ зависит не только от построения больших моделей, но и от проектирования более умных распределенных систем, которые просто не подводят.

Создали инструмент ИИ, которым хотите поделиться? Я составил подборку каталогов ИИ, куда можно отправить свои проекты ИИ. Каждый каталог включает мой личный обзор, детали процесса подачи и индикаторы качества, чтобы помочь вам выбрать лучшие платформы для запуска.

MAKER был описан в препринте «Solving a Million-Step LLM Task with Zero Errors», авторства Эллиота Мейерсона (Elliot Meyerson), Джузеппе Паоло (Giuseppe Paolo), Роберто Дейли (Roberto Dailey) и других, и представлен в посте «Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning».

Категория Разработка ИИ

Теги AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: Разрушая иллюзию мышления с помощью миллион шагов без ошибок в рассуждениях LLM

Визуализация миллион шагов без ошибок в рассуждениях LLM MAKER

Обрыв надежности LLM

Понимание MAKER: Масштабирование интеллекта через структуру

1. Максимальная агентная декомпозиция (MAD)

2. Голосование «Первый, опережающий на k»

3. Выставление красных флагов

Доказательство: Решение Ханойской башни из 20 дисков

Последствия для разработки, проектирования и масштабирования ИИ

1. Разработка и проектирование агентов

2. Масштабирование и управление затратами (Для основателей стартапов)

3. Безопасность и контроль (Для основателей и энтузиастов)

Будущее агентного ИИ

Связанные публикации

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Получайте последние идеи об ИИ прямо в свой почтовый ящик

Визуализация миллион шагов без ошибок в рассуждениях LLM MAKER

Обрыв надежности LLM

Понимание MAKER: Масштабирование интеллекта через структуру

1. Максимальная агентная декомпозиция (MAD)

2. Голосование «Первый, опережающий на k»

3. Выставление красных флагов

Доказательство: Решение Ханойской башни из 20 дисков

Последствия для разработки, проектирования и масштабирования ИИ

1. Разработка и проектирование агентов

2. Масштабирование и управление затратами (Для основателей стартапов)

3. Безопасность и контроль (Для основателей и энтузиастов)

Будущее агентного ИИ

Связанные публикации

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Содержание

Популярные темы

Popular Topics

Получайте последние идеи об ИИ прямо в свой почтовый ящик