Sapient Intelligence ra mắt HRM: Mô hình AI mới nhanh gấp 100 lần LLM cho nhiệm vụ suy luận

Công ty AI Sapient Intelligence tại Singapore giới thiệu Hierarchical Reasoning Model (HRM), kiến trúc AI lấy cảm hứng từ não bộ, giúp mô hình mới này vượt trội về tốc độ và tiết kiệm dữ liệu khi giải quyết các nhiệm vụ suy luận phức tạp. Mô hình đạt hiệu quả ấn tượng so với các large language model (LLM) dù quy mô nhỏ hơn nhiều.

HRM: Đột phá kiến trúc AI lấy cảm hứng từ não người

Sapient Intelligence vừa ra mắt Hierarchical Reasoning Model (HRM) – cấu trúc AI mô phỏng hệ thống phân tầng của bộ não người gồm hai thành phần: một module mức cao (H) dành cho lên kế hoạch trừu tượng, và một module mức thấp (L) xử lý những phép tính nhanh mang tính chi tiết.

Thay thế Chain-of-Thought – Lý do cần HRM

Large Language Models (LLM) hiện tại chủ yếu dùng Chain-of-Thought prompting để giải quyết bài toán đa bước, tuy nhiên phương pháp này phụ thuộc nhiều vào việc phân tách bài toán bằng ngôn ngữ tự nhiên, gây tăng lượng dữ liệu cần huấn luyện và giảm hiệu quả khi có lỗi nhỏ trong từng bước.
Suy luận dạng 'latent reasoning' (ngầm) – lập luận trong không gian trừu tượng nội bộ, không phải thông qua từ ngữ – đem lại sự hiệu quả và ổn định hơn, nhưng khó thực thi với mẫu mô hình sâu truyền thống (vấn đề gradient biến mất, hội tụ sớm,...).

HRM hoạt động như thế nào?

HRM gồm 2 module tuần hoàn, liên kết: Module H lên chiến lược tổng thể, Module L giải quyết từng phần cụ thể và cập nhật trở lại cho H mỗi khi hoàn thành.
Cơ chế này giúp quá trình suy luận phân tầng, lồng ghép giải quyết vấn đề thành từng cấp độ nhỏ hơn mà không bị "kẹt" tại một vòng lặp đơn lẻ, tránh lỗi hội tụ quá sớm.
Có thể giải mã, trực quan hóa quá trình suy nghĩ bên trong, thay vì chỉ nhìn thấy từng bước ngôn ngữ như CoT.

Hiệu quả thực nghiệm và ứng dụng thực tế

So sánh hiệu năng HRM với LLM trong các benchmark

Trên benchmark Sudoku-Extreme và Maze-Hard, các mô hình LLM (dựa CoT) đạt 0%, trong khi HRM gần như hoàn hảo kể cả khi chỉ huấn luyện với 1.000 mẫu/task.
Với ARC-AGI – bài test suy luận trừu tượng – HRM (27 triệu tham số) đạt 40,3%, cao hơn các LLM lớn như o3-mini-high (34,5%) và Claude 3.7 Sonnet (21,2%).
Chi phí huấn luyện mô hình chỉ chiếm một phần nhỏ so với foundation models, ví dụ: Sudoku chuyên nghiệp chỉ cần ~2 giờ GPU, ARC-AGI từ 50-200 giờ GPU.

Tiềm năng ứng dụng của kiến trúc HRM

Lý tưởng cho tác vụ "lập kế hoạch phức tạp, quyết định tuần tự" trong lĩnh vực latency-sensitive như robot, kiểm soát thiết bị, khoa học-công nghệ nơi dữ liệu hạn chế.
Thích hợp cho tối ưu hóa hậu cần, chuẩn đoán hệ thống lặp đi lặp lại ở quy mô doanh nghiệp vừa-tiết kiệm chi phí và xử lý trên thiết bị biên.
HRM đang được phát triển cho các ứng dụng rộng hơn như y tế, dự báo khí hậu, và tự động hóa, với khả năng "tự hiệu chỉnh sai sót" trong các thế hệ tới.

Hierarchical Reasoning Model (HRM) của Sapient Intelligence cho thấy hướng tiếp cận mới trong AI phản ánh cấu trúc suy luận của não bộ, vượt trội cả về tốc độ, độ chính xác lẫn chi phí so với LLM truyền thống trong các nhiệm vụ suy luận phức tạp. Theo nhóm phát triển, HRM còn nhiều tiềm năng ứng dụng trong các ngành công nghiệp tiên tiến.