AI 개발

MAKER: 백만 단계, 오류 없는 LLM 추론의 환상을 깨다

업데이트됨 2025년 11월 13일

카테고리: AI 개발

태그 AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER 백만 단계 오류 없는 LLM 추론 시각화

AI가 인간 조직 및 사회의 규모에 맞는 문제를 해결하기 위해서는—마천루를 짓는 것부터 국가 물류 관리에 이르기까지—오류 없이 막대한 수의 단계를 실행해야 합니다. 그러나 추론과 도구 사용에서 놀라운 돌파구가 있었음에도 불구하고, 대규모 언어 모델(LLM)은 길고 의존적인 작업 흐름이 필요한 작업에서 항상 실패해 왔습니다.

이것이 MAKER가 해결하려는 과제입니다. UT 오스틴과 협력하여 AI 연구소의 연구진이 개발한 MAKER는 백만 개가 넘는 LLM 단계가 필요한 작업을 오류 없이 성공적으로 해결한 최초의 시스템입니다. 이 성과는 AI 확장을 위한 새로운 패러다임을 제시합니다: 대규모 분산 에이전트 프로세스 (MDAP).

튼튼한 AI 시스템을 구축하려는 개발자, 확장 가능한 운영을 목표로 하는 1인 창업자, 또는 에이전트형 워크플로를 구상하는 디자이너에게 MAKER는 안정적이고 대규모인 AI 개발을 위한 청사진을 제공합니다.

빅 브레인에서 에이전트 군집으로

LLM 안정성의 낭떠러지

현재 LLM은 지속적인 오류율로 인해 규모를 확장하는 데 어려움을 겪고 있습니다. 작업이 많은 의존적 논리 단계를 포함할 때,即便是 사소한 오류도 빠르게 누적되어 재앙적인 실패로 이어집니다.

하노이의 탑 벤치마크를 사용한 실험은 이 “안정성의 낭떠러지”를 생생하게 보여줍니다. 표준 모델은 간단한 버전에서는 잘 수행되지만, 작업이 약 8개의 디스크를 넘어가면 완전히 실패합니다. 단계당 1%의 오류율을 가진 시스템은 백만 단계 작업에서 단 100단계 후에 실패할 것으로 예상됩니다.

작업 복잡성이 증가함에 따라 추론 모델의 정확도 붕괴. Claude 3.7 Thinking 및 DeepSeek R1과 같은 최첨단 추론 모델은 낮은 복잡도에서는 잘 수행되지만 하노이의 탑에서 8개의 디스크를 넘어가면 완전히 실패합니다.

MAKER는 단일 “지능형” LLM을 지속적으로 개선하는 데서 벗어나 본질적으로 오류를 허용하는 시스템 아키텍처를 설계하는 데 초점을 맞춤으로써 이 근본적인 약점을 해결합니다.

AI 확장을 위한 직교 방향 - MAKER는 다른 LLM에 비해 100만 번 이상의 연속적인 오류 없는 단계를 달성합니다.

MAKER 이해하기: 구조를 통한 지능 확장

MAKER는 Maximal Agentic decomposition (극대화된 에이전트 분해), first-to-ahead-by-K Error correction (오류 수정), 그리고 Red-flagging (레드 플래깅)의 약자로, MDAP 프레임워크의 구현체입니다.

핵심 통찰은 극단적인 분해와 지역적 오류 수정을 통해 안정성을 달성할 수 있다는 것입니다. 결과는 대규모 분산 에이전트 프로세스(MDAP)가 지속적인 LLM 개선에만 의존하지 않고 조직 및 사회 수준의 문제를 효율적으로 해결할 수 있음을 시사합니다.

MAKER는 세 가지 핵심 구성 요소에 의존합니다:

1. 극대화된 에이전트 분해 (MAD)

긴 작업의 경우, 다단계 추론을 수행하는 LLM은 컨텍스트가 증가함에 따라 신뢰할 수 없게 되는 경우가 많습니다. MAD는 작업을 가능한 가장 작은 하위 작업으로 나누고 각각에 집중된 마이크로 에이전트를 할당하여 이를 해결합니다.

마이크로 에이전트, 마이크로 역할: 각 에이전트는 단 하나의 하위 작업만 할당됩니다 (극대화된 분해, m=1). 이를 통해 에이전트의 컨텍스트는 해당 단일 단계에 필요한 최소 정보로 제한됩니다.
효율성: 이러한 극단적인 집중은 MAKER 프레임워크 내에서 장거리 작업에 더 비용 효율적인 것으로 밝혀진, 제한된 컨텍스트 크기를 가진 더 작고 추론 기능이 없는 LLM의 사용을 허용합니다.

2. First-to-ahead-by-k 투표

모듈화는 하위 작업 수준에서 효과적이고 확장 가능한 오류 수정을 가능하게 합니다. MAKER는 다중 에이전트 투표 방식을 사용합니다: 여러 에이전트가 동일한 단일 단계를 독립적으로 시도합니다.

지역적 합의: 후보 작업이 다른 어떤 작업보다 k개 더 많은 투표를 얻을 때까지 작업을 샘플링합니다. 이를 “First-to-ahead-by-k 투표”라고 합니다.
확장 효율성: 필요한 투표 임계값 k_min은 총 단계 수(s)와 함께 로그arithmically (Θ(ln s))로만 증가합니다. 이것은 중요한 발견입니다: MAD와 결합될 때, 전체 작업을 해결하는 데 드는 예상 비용은 로그-선형적으로 (Θ(s ln s)) 확장됩니다. 반면, 에이전트가 여러 단계(m>1)를 처리하면 비용은 기하급수적으로 증가합니다.

3. 레드 플래깅 (Red-Flagging)

단계당 성공률(p)을 높이기 위해 MAKER는 “레드 플래깅”을 사용하여 오류 위험이 증가했음을 나타내는 응답, 특히 상관된 오류를 나타내는 응답을 폐기합니다.

혼란의 지표: MAKER는 너무 긴 또는 잘못된 형식의 응답에 플래그를 표시합니다. 예비 실험에 따르면 더 긴 답변은 더 많은 오류를 가지고 있으며, 잘못된 형식은 종종 결함 있는 추론과 상관관계가 있는 것으로 나타났습니다.
완화: 이러한 응답을 폐기하고 재샘플링함으로써 MAKER는 성공률(p)을 높이고 상관된 오류를 의미 있게 줄여 지역적 실패가 전파되는 것을 방지합니다.

증명: 20개 디스크 하노이의 탑 풀기

MAKER를 검증하기 위해 연구진은 20개의 디스크가 있는 하노이의 탑 퍼즐에 이를 적용했습니다. 이 구성은 2²⁰ - 1, 즉 1,048,575개의 의존적 단계를 필요로 합니다. 단 하나의 단계도 정확하게 실행되어야 했습니다.

gpt-4.1-mini(비용 효율성을 위해 선택된 비추론 모델)를 사용하고 투표 임계값을 k=3으로 설정하여, 전체 MAKER 시스템은 문제를 완벽하게 해결했습니다. 오류 없이 100만 개가 넘는 LLM 단계를 성공적으로 실행한 것은 LLM 기반 시스템을 대규모 시간 범위로 확장하는 것이 가능함을 입증합니다.

이 과정은 기하급수적인 수렴을 보여주며 MAKER의 이론적 효율성을 확인했습니다.

First-to-ahead-by-K와 First-to-K 투표 방식 간의 수렴 비교. 샘플링 및 투표 라운드에 걸쳐 미결정 단계의 기하급수적인 감소를 보여줍니다.

AI 개발, 디자인 및 확장에 대한 시사점

MAKER 아키텍처는 차세대 AI 제품을 구축하는 개발자, 디자이너, 1인 창업자에게 중요한 통찰력을 제공합니다:

1. 개발 및 에이전트 디자인

MAKER의 성공은 극단적인 분해에 달려 있으며, 이는 마이크로 서비스 아키텍처의 원리와 일치합니다:

모듈화: 각 마이크로 에이전트는 특정 작업에 맞게 조정될 수 있습니다.
독립적인 개발: 에이전트는 격리된 상태로 업데이트 및 테스트될 수 있습니다.
실패에 대한 설계: 시스템은 투표/오류 수정을 통해 개별 에이전트의 실패를 본질적으로 견딜 수 있도록 설계되었습니다.

개발자에게 이것은 지속적으로 최신의 가장 큰 단일 LLM을 쫓는 것보다高度 specialization되고 최소 컨텍스트의 마이크로 에이전트를 만드는 데 투자해야 함을 시사합니다.

2. 확장 및 비용 관리 (1인 창업자용)

MDAP를 사용하면 k(투표 임계값)를 증가시켜 대규모 작업의 높은 성공 확률을 유지할 수 있습니다. 결정적으로, 시스템의 비용은 단계 수에 로그-선형적으로 확장됩니다.

이 프레임워크는 가장 비용 효율적인 LLM(c/p 최소화)을 선택할 수 있게 해줍니다. 놀랍게도, MAKER에서 사용될 때 더 작고 추론 기능이 없는 모델이 종종 최고의 신뢰성-달러 비율을 제공합니다.
MAKER를 실행하는 데 드는 총 비용은 단일 에이전트나 부분적으로 분해된 시스템을 사용하는 것보다 훨씬 효율적으로 확장됩니다.

3. 안전 및 통제 (창업자 및 애호가용)

MAKER는 점점 더 똑똑해지는 단일 모델에 의존하는 것과 비교하여 상당히 줄어든 위험을 제공하는 고급 AI를 위한 대체 경로를 제시합니다.

투명성 및 감사: 각 단계가 명확하게 정의되고 제한된 초점을 가지고 있기 때문에 에이전트의 작업을 샌드박싱하고, 감사하고, 통제하기가 더 쉽습니다.
결탁 위험 감소: 각 단계에서 여러 집중된 에이전트를 독립적으로 실행하면 에이전트가 해로운 작업을 생성하기 위해 결탁할 수 있는 능력을 크게 줄여줍니다.
모델 크기 및 위험: 작업의 대부분에 더 작은 LLM을 사용할 수 있는 능력은 강력하고 통제가 덜된 모델과 관련된 위험을 완화합니다.

에이전트형 AI의 미래

MAKER는 하노이의 탑에서 알려진 계획의 완벽한 실행을 입증했지만, AI 개발의 다음 영역은 이 프레임워크를 창의적인 통찰력—계획, 아이디어 생성 및 검증—을 처리하도록 확장하는 것입니다.

전체 문제 해결 파이프라인,包括 창의적인 부분을 분해하고 MDAP 원칙을 적용함으로써, 개발자들은 총 단계 수와 특정 하위 작업 유형이事先에 알려지지 않은 복잡한 프로세스를 자동화할 수 있습니다.

MAKER는 신뢰할 수 있고 대규모인 지능이 더 작고, 더 안전하며, 더 통제하기 쉬운 시스템으로 달성될 수 있음을 증명합니다. AI의 미래는 단지 더 큰 모델을 만드는 데만 의존하는 것이 아니라, 단순히 실패하지 않는 더 똑똑하고 분산된 시스템을 설계하는 데 달려 있습니다.

공유하고 싶은 AI 도구를 만들었나요? AI 프로젝트를 제출할 수 있는 선별된 AI 디렉토리 목록을 작성했습니다. 각 디렉토리에는 제 개인적인 리뷰, 제출 과정 세부 정보 및 런칭을 위한 최고의 플랫폼을 선택하는 데 도움이 되는 품질 지표가 포함되어 있습니다.

MAKER는 “Solving a Million-Step LLM Task with Zero Errors”이라는 논문에 설명되었으며, Elliot Meyerson, Giuseppe Paolo, Roberto Dailey 및 다른 저자들이 작성했으며, “Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning”이라는 블로그 게시물에 실렸습니다.

카테고리 AI 개발

태그 AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: 백만 단계, 오류 없는 LLM 추론의 환상을 깨다

MAKER 백만 단계 오류 없는 LLM 추론 시각화

LLM 안정성의 낭떠러지

MAKER 이해하기: 구조를 통한 지능 확장

1. 극대화된 에이전트 분해 (MAD)

2. First-to-ahead-by-k 투표

3. 레드 플래깅 (Red-Flagging)

증명: 20개 디스크 하노이의 탑 풀기

AI 개발, 디자인 및 확장에 대한 시사점

1. 개발 및 에이전트 디자인

2. 확장 및 비용 관리 (1인 창업자용)

3. 안전 및 통제 (창업자 및 애호가용)

에이전트형 AI의 미래

관련 게시물

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

최신 AI 인사이트를 받은 편지함으로 전달받으세요

MAKER 백만 단계 오류 없는 LLM 추론 시각화

LLM 안정성의 낭떠러지

MAKER 이해하기: 구조를 통한 지능 확장

1. 극대화된 에이전트 분해 (MAD)

2. First-to-ahead-by-k 투표

3. 레드 플래깅 (Red-Flagging)

증명: 20개 디스크 하노이의 탑 풀기

AI 개발, 디자인 및 확장에 대한 시사점

1. 개발 및 에이전트 디자인

2. 확장 및 비용 관리 (1인 창업자용)

3. 안전 및 통제 (창업자 및 애호가용)

에이전트형 AI의 미래

관련 게시물

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

목차

인기 주제

Popular Topics

최신 AI 인사이트를 받은 편지함으로 전달받으세요