Mixture-of-Recursions tăng tốc suy luận LLM gấp đôi, tiết kiệm bộ nhớ cho doanh nghiệp

Mixture-of-Recursions (MoR) là kiến trúc Transformer mới do KAIST AI và Mila phát triển, giúp mô hình ngôn ngữ lớn (LLM) suy luận nhanh hơn và giảm yêu cầu bộ nhớ. MoR kết hợp chia sẻ tham số và tính toán thích ứng, mang lại hiệu quả vượt trội ngay cả với cấu hình tài nguyên cố định.

Mixture-of-Recursions là gì và hoạt động như thế nào?

Mixture-of-Recursions (MoR) là kiến trúc Transformer hiện đại nhằm khắc phục vấn đề tiêu tốn bộ nhớ và tài nguyên tính toán ngày càng tăng của các mô hình ngôn ngữ lớn. MoR kết hợp hai chiến lược tối ưu: chia sẻ tham số (Parameter sharing) và tính toán thích ứng (Adaptive computation) trong một framework duy nhất.

Kết hợp chia sẻ tham số và tính toán thích ứng

Chia sẻ tham số: Các “recursion block” được xây dựng từ tập tham số dùng chung, giảm đáng kể tổng số tham số cần thiết.
Tính toán thích ứng: Router nhẹ của MoR tự động quyết định số vòng lặp (recursion depth) cần thiết cho từng token, dựa vào độ phức tạp, giúp phân bổ tài nguyên hợp lý hơn.

Kiến trúc MoR có gì mới?

Thay vì nhiều lớp riêng biệt, MoR lặp lại một số “recursion block” với tham số chung nhiều lần, tiết kiệm dung lượng mô hình.
Router thông minh giúp định tuyến token tới số lần lặp phù hợp, tương tự cơ chế chọn “expert” ở Mixture-of-Experts nhưng tập trung vào chiều sâu xử lý.
Cải tiến KV caching: Bộ nhớ chỉ lưu trạng thái của những token cần xử lý thêm ở mỗi vòng lặp, giảm tiêu tốn bộ nhớ và tăng tốc độ.

Kết quả thực nghiệm và khả năng mở rộng

So sánh hiệu năng MoR với Transformer truyền thống

Khi sử dụng cùng ngân sách tính toán, MoR đạt độ chính xác few-shot cao hơn transformer thường (43,1% so với 42,3%) dù dùng ít tham số hơn gần 50%.
Thời gian huấn luyện giảm 19% và bộ nhớ cực đại giảm 25% so với baseline.
Hiệu năng MoR tăng nhanh khi tăng kích thước mô hình, từ quy mô trên 360 triệu tham số trở lên MoR vượt trội so với transformer truyền thống.
Trong suy luận, MoR vượt tốc độ baseline gấp 2,06 lần khi xử lý cùng dung lượng dữ liệu.

Giải pháp tiết kiệm cho doanh nghiệp

Dù bài thử nghiệm được thực hiện trên các mô hình huấn luyện từ đầu, nhóm nghiên cứu nhận định doanh nghiệp có thể áp dụng MoR lên các mô hình nguồn mở sẵn có (uptraining), tiết kiệm đáng kể chi phí khởi tạo và vận hành.

Ứng dụng mở rộng cho đa phương tiện

Linh hoạt với nhiều loại dữ liệu

MoR không chỉ tối ưu cho văn bản mà còn phù hợp với dữ liệu đa phương tiện như video và audio. Nhờ khả năng điều chỉnh động số vòng xử lý trên từng phân đoạn dữ liệu, mô hình hứa hẹn tiết kiệm chi phí và tăng hiệu quả xử lý cho các tác vụ phức tạp ở môi trường doanh nghiệp.

Mixture-of-Recursions mang lại bước tiến lớn về hiệu quả cho các mô hình ngôn ngữ lớn nhờ kết hợp chia sẻ tham số và tính toán thích ứng. Kiến trúc này giúp tăng tốc suy luận, giảm chi phí vận hành và có thể mở rộng sang nhiều loại dữ liệu.