AI Development

MAKER: Menghancurkan Ilusi Berpikir dengan Penalaran LLM Zero-Error Satu Juta Langkah

Diperbarui pada 13 November 2025

Kategori: AI Development

Tag AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

Visualisasi penalaran LLM zero-error satu juta langkah MAKER

Agar AI dapat memecahkan masalah dalam skala organisasi dan masyarakat manusia—mulai dari membangun gedung pencakar langit hingga mengelola logistik nasional—ia harus mengeksekusi jumlah langkah yang sangat besar tanpa cacat. Namun, terlepas dari terobosan yang luar biasa dalam penalaran dan penggunaan alat, Large Language Models (LLM) secara konsisten gagal pada tugas yang memerlukan urutan tindakan yang panjang dan saling bergantung.

Inilah tantangan yang diatasi oleh MAKER. Dikembangkan oleh peneliti di AI Lab bekerja sama dengan UT Austin, MAKER adalah sistem pertama yang berhasil memecahkan tugas yang memerlukan lebih dari satu juta langkah LLM dengan kesalahan nol. pencapaian ini memperkenalkan paradigma baru untuk menskalakan AI: Massively Decomposed Agentic Processes (MDAPs).

Jika Anda adalah pengembang yang ingin membangun sistem AI yang robust, pendiri solo yang bertujuan untuk operasi yang skalabel, atau perancang yang menggambar alur kerja agen, MAKER menyediakan cetak biru untuk pengembangan AI yang andal dan berskala besar.

Dari Otak Besar ke Kawanan Agen

Tebing Keandalan LLM

LLM saat ini menderita tingkat kesalahan persisten yang menghalangi penskalaan. Ketika tugas melibatkan banyak langkah logis yang bergantung, bahkan kesalahan kecil pun menumpuk dengan cepat, mengakibatkan kegagalan kritis.

Eksperimen menggunakan benchmark seperti Towers of Hanoi secara jelas mendemonstrasikan “tebing keandalan” ini. Model standar berkinerja baik pada versi sederhana tetapi gagal total begitu tugas melampaui sekitar delapan disk. Sistem dengan tingkat kesalahan per langkah hanya 1% diperkirakan akan gagal setelah hanya 100 langkah dari tugas satu juta langkah.

Kolapsnya akurasi dalam model penalaran seiring meningkatnya kompleksitas tugas. Model penalaran terdepan seperti Claude 3.7 Thinking dan DeepSeek R1 berkinerja baik pada kompleksitas rendah tetapi gagal total melampaui delapan disk di Towers of Hanoi.

MAKER mengatasi kerentanan fundamental ini dengan mengalihkan fokus dari peningkatan konstan LLM “cerdas” tunggal ke perancangan arsitektur sistem yang secara inheren tahan kesalahan.

Arah orthogonal untuk menskalakan AI - MAKER mencapai lebih dari 1 juta langkah berturut-turut tanpa kesalahan dibandingkan dengan LLM lain

Memahami MAKER: Menskalakan Intelijen Melalui Struktur

MAKER—yang merupakan singkatan dari Maximal Agentic decomposition (Dekomposisi Agen Maksimal), first-to-ahead-by-K Error correction (Koreksi Kesalahan), dan Red-flagging (Penandaan Merah)—adalah implementasi dari kerangka kerja MDAP.

Wawasan intinya adalah bahwa keandalan dapat dicapai melalui dekomposisi ekstrem dan koreksi kesalahan lokal. Hasilnya menunjukkan bahwa proses agen yang terdekomposisi secara masif (MDAPs) dapat memecahkan masalah secara efisien pada tingkat organisasi dan masyarakat, alih-alih hanya mengandalkan peningkatan LLM yang berkelanjutan.

MAKER mengandalkan tiga komponen utama:

1. Dekomposisi Agen Maksimal (MAD)

Untuk tugas jangka panjang, LLM yang melakukan penalaran multi-langkah sering menjadi tidak andal seiring bertambahnya konteks. MAD memecahkan ini dengan memecah tugas menjadi subtugas terkecil yang mungkin, menugaskan masing-masing kepada mikroagen yang terfokus.

Mikroagen, Mikro-peran: Setiap agen hanya diberikan satu subtugas (dekomposisi maksimal, m=1). Ini membatasi konteks agen ke informasi minimal yang diperlukan untuk satu langkah tersebut.
Efisiensi: Fokus ekstrem ini memungkinkan penggunaan LLM yang lebih kecil, non-penalaran dengan ukuran konteks terbatas, yang ditemukan lebih hemat biaya untuk tugas jarak jauh dalam kerangka kerja MAKER.

2. First-to-ahead-by-k Voting

Modularitas memungkinkan koreksi kesalahan yang efektif dan skalabel pada tingkat subtugas. MAKER menggunakan skema voting multi-agen: beberapa agen secara independen mencoba memecahkan langkah tunggal yang sama.

Konsensus Lokal: Tindakan kandidat diambil sampelnya hingga satu tindakan mencapai k suara lebih banyak daripada yang lain. Ini dikenal sebagai “voting first-to-ahead-by-k”.
Efisiensi Penskalaan: Ambang suara yang diperlukan, k_min, tumbuh hanya secara logaritmik (Θ(ln s)) dengan jumlah total langkah (s). Ini adalah temuan kunci: ketika dikombinasikan dengan MAD, biaya keseluruhan yang diharapkan untuk memecahkan seluruh tumbuh secara log-linear (Θ(s ln s)). Sebaliknya, jika agen menangani beberapa langkah (m>1), biaya tumbuh secara eksponensial.

3. Red-Flagging

Untuk meningkatkan tingkat keberhasilan per langkah (p), MAKER menggunakan “red-flagging” untuk membuang respons yang menunjukkan peningkatan risiko kesalahan, terutama kesalahan yang berkorelasi.

Indikator Kebingungan: MAKER menandai respons yang terlalu panjang atau salah format. Eksperimen awal menunjukkan bahwa jawaban yang lebih panjang cenderung memiliki lebih banyak kesalahan, dan format yang salah sering berkorelasi dengan penalaran yang cacat.
Mitigasi: Dengan membuang respons ini dan mengambil sampel ulang, MAKER meningkatkan tingkat keberhasilan (p) dan secara signifikan mengurangi kesalahan yang berkorelasi, memastikan kegagalan lokal tidak menyebar.

Bukti: Memecahkan Towers of Hanoi 20 Disk

Untuk memvalidasi MAKER, peneliti menerapkannya pada puzzle Towers of Hanoi dengan 20 disk. Konfigurasi ini memerlukan 2²⁰ - 1, atau 1.048.575, langkah bergantung. Setiap langkah tunggal harus dieksekusi dengan benar.

Menggunakan gpt-4.1-mini (model non-penalaran yang dipilih karena efisiensi biayanya), dan menetapkan ambang suara menjadi k=3, sistem MAKER lengkap memecahkan masalah dengan sempurna. Eksekusi sukses lebih dari satu juta langkah LLM dengan kesalahan nol ini menetapkan bahwa penskalaan sistem berbasis LLM ke cakrawala waktu yang besar adalah mungkin.

Proses tersebut menunjukkan konvergensi eksponensial menuju solusi nol-salahan, mengonfirmasi efisiensi teoritis MAKER.

Perbandingan konvergensi antara metode voting First-to-ahead-by-K dan First-to-K menunjukkan penurunan eksponensial dalam langkah yang belum diputuskan di seluruh putaran pengambilan sampel dan voting

Implikasi untuk Pengembangan, Desain, dan Penskalaan AI

Arsitektur MAKER memberikan wawasan kritis bagi pengembang, perancang, dan pendiri solo yang membangun generasi produk AI berikutnya:

1. Pengembangan dan Desain Agen

Keberhasilan MAKER bergantung pada Dekomposisi Ekstrem, mencerminkan prinsip yang ditemukan dalam arsitektur mikroservis:

Modularitas: Setiap mikroagen dapat disesuaikan dengan tugas tertentu.
Pengembangan Independen: Agen dapat diperbarui dan diuji secara terpisah.
Desain untuk Kegagalan: Sistem ini secara inheren dirancang untuk mentolerir kegagalan agen individu melalui voting/koreksi kesalahan.

Bagi pengembang, ini menunjukkan bahwa investasi harus difokuskan pada penciptaan mikroagen yang sangat spesifik dan konteks-minimal, alih-alih terus mengejar LLM monolitik terbaru dan terbesar.

2. Penskalaan dan Manajemen Biaya (Untuk Pendiri Solo)

Dengan menggunakan MDAPs, Anda dapat mempertahankan probabilitas keberhasilan yang tinggi untuk tugas besar dengan meningkatkan k (ambang suara). Yang terpenting, biaya sistem tumbuh secara log-linear dengan jumlah langkah.

Kerangka kerja ini memungkinkan pemilihan LLM yang paling hemat biaya (c/p diminimalkan). Mengejutkannya, model yang lebih kecil dan non-penalaran sering memberikan keandalan-per-dolar terbaik ketika digunakan dalam MAKER.
Total biaya menjalankan MAKER tumbuh jauh lebih efisien dibandingkan menggunakan agen tunggal atau sistem yang terdekomposisi sebagian.

3. Keamanan dan Kontrol (Untuk Pendiri dan Penggemar)

MAKER menyediakan jalur alternatif menuju AI canggih yang hadir dengan risiko yang secara substansial berkurang dibandingkan bergantung pada model tunggal yang semakin cerdas.

Transparansi dan Audit: Karena setiap langkah memiliki fokus yang jelas dan terbatas, tindakan agen lebih mudah untuk di-sandbox, diaudit, dan dikontrol.
Risiko Kolusi yang Berkurang: Menjalankan beberapa agen yang terfokus secara independen pada setiap langkah secara substansial mengurangi kemampuan agen untuk berkolusi menghasilkan tindakan berbahaya.
Ukuran Model dan Risiko: Kemampuan untuk menggunakan LLM yang lebih kecil untuk sebagian besar pekerjaan mengurangi risiko yang terkait dengan model kuat yang kurang terkontrol.

Masa Depan AI Agen

Meskipun MAKER menunjukkan eksekusi yang sempurna dari rencana yang dikenal di Towers of Hanoi, batas berikutnya untuk pengembangan AI adalah memperluas kerangka kerja ini untuk menangani wawasan kreatif—perencanaan, generasi ide, dan verifikasi.

Dengan mendekomposisi seluruh pipeline pemecahan masalah, termasuk bagian kreatifnya, dan menerapkan prinsip MDAP, pengembang dapat mengotomatisasi proses kompleks di mana jumlah total langkah dan jenis subtugas spesifik tidak diketahui sebelumnya.

MAKER membuktikan bahwa intelijen yang andal dan berskala besar dapat dicapai dengan sistem yang lebih kecil, lebih aman, dan lebih terkontrol. Masa depan AI tidak hanya bergantung pada pembuatan model yang lebih besar, tetapi pada perancangan sistem terdistribusi yang lebih cerdas yang secara sederhana tidak gagal.

Membangun alat AI yang ingin Anda bagikan? Saya telah menyusun daftar terkurasi direktori AI tempat Anda dapat mengirimkan proyek AI Anda. Setiap direktori mencakup ulasan pribadi saya, detail proses pengiriman, dan indikator kualitas untuk membantu Anda memilih platform terbaik untuk peluncuran Anda.

MAKER dijelaskan dalam prapublikasi “Solving a Million-Step LLM Task with Zero Errors,” yang ditulis oleh Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, dan lainnya, dan ditampilkan dalam posting blog “Shattering the Illusion: MAKER Achieves Million-Step, Zero-Error LLM Reasoning”.

Kategori AI Development

Tag AI Agents LLM Scaling Massively Decomposed Agentic Processes Error Correction AI Development

MAKER: Menghancurkan Ilusi Berpikir dengan Penalaran LLM Zero-Error Satu Juta Langkah

Visualisasi penalaran LLM zero-error satu juta langkah MAKER

Tebing Keandalan LLM

Memahami MAKER: Menskalakan Intelijen Melalui Struktur

1. Dekomposisi Agen Maksimal (MAD)

2. First-to-ahead-by-k Voting

3. Red-Flagging

Bukti: Memecahkan Towers of Hanoi 20 Disk

Implikasi untuk Pengembangan, Desain, dan Penskalaan AI

1. Pengembangan dan Desain Agen

2. Penskalaan dan Manajemen Biaya (Untuk Pendiri Solo)

3. Keamanan dan Kontrol (Untuk Pendiri dan Penggemar)

Masa Depan AI Agen

Posting Terkait

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Dapatkan wawasan AI terbaru langsung di kotak masuk Anda

Visualisasi penalaran LLM zero-error satu juta langkah MAKER

Tebing Keandalan LLM

Memahami MAKER: Menskalakan Intelijen Melalui Struktur

1. Dekomposisi Agen Maksimal (MAD)

2. First-to-ahead-by-k Voting

3. Red-Flagging

Bukti: Memecahkan Towers of Hanoi 20 Disk

Implikasi untuk Pengembangan, Desain, dan Penskalaan AI

1. Pengembangan dan Desain Agen

2. Penskalaan dan Manajemen Biaya (Untuk Pendiri Solo)

3. Keamanan dan Kontrol (Untuk Pendiri dan Penggemar)

Masa Depan AI Agen

Posting Terkait

Comparing 5 AI Agent Frameworks (CrewAI, LangGraph, AutoGen, LangChain, Swarm)

Hierarchical Reasoning Model: Achieving 100x Faster Reasoning with 27M Parameters

Code Wiki: Google’s Living Repo Wiki That Keeps Docs in Sync (and Adds a Gemini Chat)

Daftar isi

Topik Populer

Popular Topics

Dapatkan wawasan AI terbaru langsung di kotak masuk Anda