Tencent trình làng R-Zero: LLM tự huấn luyện, không cần dữ liệu gán nhãn

R-Zero là giải pháp mới do Tencent AI Lab cùng Washington University phát triển, cho phép Large Language Models (LLMs) tự huấn luyện mà không cần tới dữ liệu được gán nhãn bởi con người. Framework này sử dụng Reinforcement Learning để hai mô hình Challenger và Solver phối hợp nâng cao khả năng suy luận trên chính dữ liệu do chúng tự tạo ra.

R-Zero thúc đẩy huấn luyện LLMs không cần dữ liệu nhãn thủ công

Framework R-Zero được nhóm nghiên cứu từ Tencent AI Lab và Washington University in St. Louis xây dựng, giải quyết một trong những rào cản lớn nhất cho hệ thống AI tự phát triển: phụ thuộc vào bộ dữ liệu gán nhãn bởi con người. Cách tiếp cận mới này giúp giảm chi phí, tiết kiệm thời gian và vượt qua các giới hạn mà dữ liệu nhân tạo có thể áp dụng cho AI.

Cặp đôi Challenger và Solver: Tăng tốc tự học cho AI

Mô hình ban đầu được tách thành hai vai trò: Challenger (đặt câu hỏi) và Solver (tìm đáp án)
Challenger liên tục sinh ra các nhiệm vụ sát khả năng hiện tại của Solver: không quá dễ cũng không vượt quá sức
Solver được huấn luyện trên bộ câu hỏi ngày càng phức tạp, với đáp án xác định nhờ đa số các lần thử

Hiệu quả kiểm chứng trên nhiều lĩnh vực lý luận

R-Zero được áp dụng cho một số Large Language Model mã nguồn mở như Qwen3 và OctoThinker, bắt đầu với các bài toán toán học. Năng lực suy luận sau đó được đánh giá qua các benchmark như MMLU-Pro (multi-language understanding and reasoning tasks) và SuperGPQA (science and reasoning tasks).

Qwen3-4B-Base tăng trung bình +6.49 điểm trên các bài toán suy luận toán học
Qwen3-8B-Base tăng +5.51 điểm sau 3 chu trình tự huấn luyện
Kỹ năng thu được từ toán học tiếp tục dùng tốt ở các tác vụ suy luận tổng quát: Qwen3-4B-Base tăng +7.54 ở benchmark đa lĩnh vực

Đáng chú ý, mô hình qua bước "tăng lực" R-Zero khi lập trình pre-training, sau đó fine-tune trên tập dữ liệu nhãn vẫn tiếp tục cải thiện, làm tăng giá trị thực tế.

Lợi ích và Thách thức khi dòng AI tự tiến hóa

Cơ hội giảm chi phí đào tạo và mở rộng năng lực AI

Đối với doanh nghiệp, R-Zero giúp phát triển các Large Language Model chuyên sâu mà không cần đầu tư lớn cho khâu xây dựng và gán nhãn dữ liệu. Framework loại bỏ nút thắt cổ chai về dữ liệu, mở ra hướng vận dụng AI trong những lĩnh vực dữ liệu chất lượng cao còn hiếm.

Hạn chế hiện tại và hướng nghiên cứu tương lai

Thực tế khi vấn đề trở nên khó hơn, tỉ lệ câu trả lời đúng trong hệ thống tự gán nhãn bị giảm dần: từ 79% ở chu kỳ đầu xuống còn 63% ở chu kỳ thứ ba so với đánh giá của mô hình chuẩn như GPT-4. Theo nhóm nghiên cứu, bài toán lớn nhất là duy trì cải tiến ổn định lâu dài khi không có sự can thiệp cũng như kiểm tra ngoại vi của con người.

Kỹ thuật hiện tại phù hợp nhất cho các tác vụ có thể định lượng, kiểm chứng khách quan như toán học. Để tăng phạm vi tới các bài toán chủ quan hơn (như sáng tạo văn bản tiếp thị), đội ngũ đề xuất phát triển thêm vai trò thứ ba "Verifier" (kiểm định viên) - một agent AI đánh giá chất lượng đầu ra dựa trên nhiều tiêu chí hơn.

Framework R-Zero do Tencent AI Lab và Washington University phát triển mở ra hướng Large Language Models tự học không phụ thuộc dữ liệu gán nhãn thủ công. Nhờ cơ chế co-evolution giữa Challenger và Solver, AI có thể liên tục cải thiện năng lực một cách chủ động. Dù vẫn còn thách thức về đảm bảo chất lượng đầu ra lâu dài, R-Zero là minh chứng tiềm năng cho tương lai AI tự tiến hóa.