Hierarchical Reasoning Model: Mencapai Reasoning 100x Lebih Cepat dengan 27M Parameter
Diperbarui pada 6 Desember 2025
Visualisasi arsitektur terinspirasi otak Hierarchical Reasoning Model
Tren dalam AI sudah lama mengikuti prinsip “lebih besar lebih baik.” Namun, bagi developer yang fokus pada penciptaan aplikasi efisien berbasis reasoning, Hierarchical Reasoning Model (HRM) menawarkan pergeseran arsitektur yang besar. Arsitektur rekuren terinspirasi otak ini mencapai performa luar biasa pada tugas algoritmik kompleks dengan sumber daya minimal, menantang paradigma penskalaan brute-force.
Jika Anda sedang mengeksplorasi sistem agen AI yang skalabel atau membandingkan framework agen multi-pemain, HRM mewakili pendekatan yang fundamental berbeda—yang berfokus pada inovasi arsitektur daripada jumlah parameter.
→ Repositori HRM GitHubKegunaan HRM
Hierarchical Reasoning Model (HRM), yang diusulkan oleh Sapient Intelligence, dirancang untuk mengatasi batasan komputasi inti dari Large Language Models (LLM) standar: kedalaman komputasi yang dangkal. Meskipun LLM unggul dalam menghasilkan bahasa alami, mereka kesulitan menyelesaikan masalah yang membutuhkan reasoning algoritmik kompleks, perencanaan sengaja, atau manipulasi simbolik.
LLM tradisional sering mengandalkan pemicu Chain-of-Thought (CoT), yang mengeksternalisasikan reasoning ke dalam langkah-langkah bahasa tingkat token yang lambat. HRM menggantikan pendekatan rapuh ini dengan reasoning laten, melakukan komputasi intensif, multi-langkah secara diam-diam di dalam ruang keadaan tersembunyi internal model.
HRM dirancang untuk menyelesaikan masalah yang menuntut jejak reasoning yang kompleks dan panjang. Ini mencapai performa hampir sempurna pada benchmark seperti teka-teki Sudoku kompleks dan pencarian jalur optimal dalam labirin besar 30x30—tugas di mana model CoT mutakhir gagal total.
Arsitektur Inti: Perencana dan Eksekutor
HRM adalah arsitektur rekuren baru yang terinspirasi oleh pemrosesan hierarkis dan multi-time-scale otak manusia. Terdiri dari dua modul rekuren saling bergantung yang beroperasi pada kecepatan berbeda:
- Modul Tingkat Tinggi ($f_H$): Perencana
- Bertanggung jawab untuk perencanaan lambat dan abstrak serta panduan strategis global.
- Modul Tingkat Rendah ($f_L$): Eksekutor
- Menangani komputasi cepat dan detail serta langkah-langkah reasoning halus.
Pemisahan ini mencapai konvergensi hierarkis: modul tingkat rendah berkonvergensi ke solusi lokal dalam siklus pendek, yang kemudian memberi tahu modul tingkat tinggi, memperbarui strategi abstraknya, dan mereset modul tingkat rendah untuk fase berikutnya. Komputasi bersarang ini memberikan kedalaman komputasi yang signifikan pada HRM.
Bagaimana HRM Menguntungkan Developer
Bagi developer yang membangun aplikasi AI khusus—terutama di bidang di mana data jarang atau sumber daya komputasi terbatas—HRM menawarkan keuntungan kritis:
- Efisiensi Ekstrem: HRM mencapai hasil benchmarknya hanya dengan 27 juta parameter dan sekitar 1.000 contoh pelatihan per tugas, tanpa memerlukan pra-pelatihan atau data CoT.
- Kecepatan dan Latensi Rendah: Karena reasoning terjadi secara internal melalui dinamika paralel daripada generasi token serial, HRM mendukung potensi percepatan 100x dalam latensi reasoning dibandingkan metode CoT tradisional.
- Jejak Memori Konstan: HRM menghindari Backpropagation Through Time (BPTT) yang intensif memori dengan menggunakan aproduksi gradien satu-langkah (terinspirasi oleh Deep Equilibrium Models, atau DEQs). Ini berarti model mempertahankan jejak memori konstan, $O(1)$, terlepas dari kedalaman komputasi efektifnya.
- Kesiapan Edge AI: Ukuran model yang kecil dan persyaratan operasional minimal—dilaporkan mampu berjalan pada CPU standar dengan kurang dari 200MB RAM—membuat HRM ideal untuk penerapan Edge AI yang hemat biaya. Efisiensi ini selaras dengan proyek yang mencari solusi komputasi terdesentralisasi berbiaya rendah.
- Komputasi Adaptif: HRM menggunakan Adaptive Computation Time (ACT), yang dilatih via Q-learning, untuk menyesuaikan secara dinamis jumlah langkah reasoning berdasarkan kompleksitas tugas, memastikan alokasi sumber daya yang efisien.
Efisiensi ini membuat HRM sangat menjanjikan untuk aplikasi khusus seperti kontrol robotika real-time atau diagnosis cepat, di mana latensi rendah dan jejak kecil adalah wajib.
Memulai: Demo Cepat HRM
Repositori resmi Hierarchical Reasoning Model diopen-source. Untuk mulai bereksperimen, Anda dapat mengikuti panduan cepat ini untuk melatih penyelesai Sudoku.
→ Lihat HRM di GitHub1. Prasyarat
Pastikan Anda memiliki sistem dengan PyTorch dan CUDA terinstal. Untuk pelacakan eksperimen, Anda juga harus masuk ke Weights & Biases (W&B):
wandb login
2. Instal Dependensi Python
Repositori membutuhkan paket Python khusus yang tercantum dalam requirements.txt.
pip install -r requirements.txt
3. Jalankan Demo Sudoku Solver
Ini melatih AI Sudoku tingkat master hanya menggunakan dataset augmentasi kecil.
Langkah 3a: Unduh dan Bangun Dataset
python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000
Langkah 3b: Mulai Pelatihan (GPU Tunggal)
OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5 puzzle_emb_lr=7e-5 weight_decay=1.0 puzzle_emb_weight_decay=1.0
Pelatihan ini diperkirakan memakan waktu sekitar 10 jam pada laptop dengan GPU RTX 4070.
Kesimpulan
HRM menunjukkan bahwa inovasi arsitektur yang berfokus pada pemrosesan hierarkis terinspirasi otak dapat menghasilkan kemampuan reasoning algoritmik yang lebih unggul dibandingkan hanya mengandalkan jumlah parameter yang masif. Bagi developer yang mencari efisiensi intelijensi, latensi rendah, dan kapasitas algoritmik dalam, Hierarchical Reasoning Model mewakili kemajuan transformatif menuju komputasi universal.
Baik Anda membangun sistem agen multi-pemain kompleks atau mengoptimalkan untuk penerapan edge, pendekatan HRM terhadap reasoning laten menawarkan alternatif yang menarik terhadap strategi penskalaan tradisional.
Sumber Daya Lanjutan
→ Repositori HRM GitHub