Hierarchical Reasoning Model: 100x schnellere Reasoning mit 27M Parametern
Aktualisiert am 6. Dezember 2025
Hierarchical Reasoning Model hirninspirierte Architektur Visualisierung
Der Trend in der KI war lange “größer ist besser”. Für Entwickler, die sich auf die Erstellung effizienter, reasoning-basierter Anwendungen konzentrieren, bietet das Hierarchical Reasoning Model (HRM) jedoch einen großen Architekturwechsel. Diese hirninspirierte rekurrente Architektur erreicht außergewöhnliche Leistung bei komplexen algorithmischen Aufgaben mit minimalen Ressourcen und stellt das Paradigma des reinen Skalierens in Frage.
Wenn Sie sich mit skalierbaren KI-Agenten-Systemen beschäftigt oder Multi-Agent-Frameworks verglichen haben, stellt HRM einen fundamental anderen Ansatz dar – einen, der sich auf architektonische Innovation konzentriert statt auf die reine Anzahl der Parameter.
→ HRM GitHub RepositoryWofür HRM gedacht ist
Das Hierarchical Reasoning Model (HRM), vorgeschlagen von Sapient Intelligence, wurde entwickelt, um die Kern-Berechnungseinschränkung standardmäßiger Large Language Models (LLMs) zu überwinden: flache Berechnungstiefe. Während LLMs exzellent darin sind, natürliche Sprache zu generieren, haben sie Schwierigkeiten mit Problemen, die komplexe algorithmische Reasoning, sorgfältige Planung oder symbolische Manipulation erfordern.
Traditionelle LLMs verlassen sich oft auf Chain-of-Thought (CoT)-Prompting, was Reasoning in langsame, Token-basierte Sprachschritte externalisiert. HRM ersetzt diesen zerbrechlichen Ansatz durch latentes Reasoning, indem es intensive, mehrstufige Berechnungen still innerhalb des internen Hidden-State-Raums des Modells durchführt.
HRM ist dafür konzipiert, Probleme zu lösen, die komplexe, lange Reasoning-Traces erfordern. Es erreicht nahezu perfekte Ergebnisse bei Benchmarks wie komplexen Sudoku-Rätseln und optimaler Wegfindung in großen 30x30 Labyrinthen – Aufgaben, bei denen State-of-the-Art-CoT-Modelle vollständig scheitern.
Die Kernarchitektur: Planner und Executor
HRM ist eine neuartige rekurrente Architektur, inspiriert vom hierarchischen und multi-zeitlichen Verarbeitungsprozess des menschlichen Gehirns. Sie besteht aus zwei voneinander abhängigen rekurrenten Modulen, die mit unterschiedlichen Geschwindigkeiten arbeiten:
- Hoch-Level-Modul ($f_H$): Der Planner
- Verantwortlich für langsame, abstrakte Planung und globale strategische Führung.
- Niedrig-Level-Modul ($f_L$): Der Executor
- Handhabt schnelle, detaillierte Berechnungen und feingranulare Reasoning-Schritte.
Diese Trennung erreicht hierarchische Konvergenz: Das Niedrig-Level-Modul konvergiert zu einer lokalen Lösung innerhalb eines kurzyklus, was dann das Hoch-Level-Modul informiert, seine abstrakte Strategie aktualisiert und das Niedrig-Level-Modul für die nächste Phase zurücksetzt. Diese verschachtelte Berechnung verleiht HRM eine signifikante Berechnungstiefe.
Wie HRM Entwicklern hilft
Für Entwickler, die spezialisierte KI-Anwendungen bauen – insbesondere in Bereichen, in denen Daten spärlich sind oder Rechenressourcen begrenzt sind – bietet HRM entscheidende Vorteile:
- Extreme Effizienz: HRM erreicht seine Benchmark-Ergebnisse mit nur 27 Millionen Parametern und etwa 1.000 Trainingsbeispielen pro Aufgabe, ohne dass Pre-Training oder CoT-Daten erforderlich sind.
- Geschwindigkeit und niedrige Latenz: Da Reasoning intern über parallele Dynamiken statt über serielle Token-Generierung stattfindet, unterstützt HRM potenzielle 100x Geschwindigkeitssteigerungen bei der Reasoning-Latenz im Vergleich zu traditionellen CoT-Methoden.
- Konstanter Speicherbedarf: HRM vermeidet den speicherintensiven Backpropagation Through Time (BPTT) durch Verwendung einer Ein-Schritt-Gradienten-Approximation (inspiriert von Deep Equilibrium Models, oder DEQs). Das bedeutet, dass das Modell einen konstanten Speicherbedarf von $O(1)$ beibehält, unabhängig von seiner effektiven Berechnungstiefe.
- Edge AI-Bereitschaft: Die geringe Modellgröße und die minimalen Betriebsanforderungen – berichtete Kapazität zur Ausführung auf Standard-CPUs mit weniger als 200MB RAM – machen HRM ideal für kostengünstiges Edge AI Deployment. Diese Effizienz passt gut zu Projekten, die nach dezentralen, kostengünstigen Rechenlösungen suchen.
- Adaptive Berechnung: HRM nutzt Adaptive Computation Time (ACT), trainiert via Q-Learning, um die Anzahl der Reasoning-Schritte dynamisch basierend auf der Komplexität der Aufgabe anzupassen, was eine effiziente Ressourcenzuteilung gewährleistet.
Diese Effizienz macht HRM besonders vielversprechend für spezialisierte Anwendungen wie Echtzeit-Robotik-Kontrolle oder schnelle Diagnostik, bei denen niedrige Latenz und geringer Speicherverbrauch zwingend erforderlich sind.
Erste Schritte: HRM Quick Demo
Das offizielle Hierarchical Reasoning Model Repository ist Open Source. Um mit Experimenten zu beginnen, können Sie dieser schnellen Anleitung zum Trainieren eines Sudoku-Solvers folgen.
→ HRM auf GitHub ansehen1. Voraussetzungen
Stellen Sie sicher, dass Sie ein System mit PyTorch und CUDA installiert haben. Für das Experiment-Tracking sollten Sie außerdem bei Weights & Biases (W&B) eingeloggt sein:
wandb login
2. Python-Abhängigkeiten installieren
Das Repository erfordert spezifische Python-Pakete, die in seiner requirements.txt aufgelistet sind.
pip install -r requirements.txt
3. Sudoku-Solver-Demo ausführen
Hiermit wird ein Meister-Level-Sudoku-KI trainiert, das nur einen kleinen, erweiterten Datensatz verwendet.
Schritt 3a: Datensatz herunterladen und erstellen
python dataset/build_sudoku_dataset.py --output-dir data/sudoku-extreme-1k-aug-1000 --subsample-size 1000 --num-aug 1000
Schritt 3b: Training starten (Einzel-GPU)
OMP_NUM_THREADS=8 python pretrain.py data_path=data/sudoku-extreme-1k-aug-1000 epochs=20000 eval_interval=2000 global_batch_size=384 lr=7e-5 puzzle_emb_lr=7e-5 weight_decay=1.0 puzzle_emb_weight_decay=1.0
Dieses Training dauert auf einem Laptop mit RTX 4070 GPU etwa 10 Stunden.
Fazit
HRM demonstriert, dass architektonische Innovation, die sich auf hirninspirierte hierarchische Verarbeitung konzentriert, überlegene algorithmische Reasoning-Fähigkeiten liefern kann, im Vergleich zum reinen Verlassen auf massive Parameterzahlen. Für Entwickler, die Intelligenzeffizienz, niedrige Latenz und tiefe algorithmische Kapazität suchen, stellt das Hierarchical Reasoning Model einen transformativen Fortschritt auf dem Weg zur universellen Berechnung dar.
Egal, ob Sie komplexe Multi-Agenten-Systeme bauen oder für Edge-Deployment optimieren – HRMs Ansatz für latentes Reasoning bietet eine überzeugende Alternative zu traditionellen Skalierungsstrategien.
Weitere Ressourcen
→ HRM GitHub Repository