Chuyển đổi lớn trong huấn luyện LLM tạo bùng nổ năng lực AI đa nhiệm

Một bước ngoặt trong phương pháp huấn luyện của Large Language Models (LLM) trong năm 2024 đã dẫn đến sự tăng trưởng mạnh mẽ về năng lực giải quyết tác vụ phức tạp của AI. Nhờ ứng dụng các kỹ thuật hậu huấn luyện tiên tiến và học tăng cường, các mô hình AI giờ đây hỗ trợ đắc lực cho lập trình viên và người dùng phổ thông.

Sự thay đổi trong huấn luyện LLM mở ra kỷ nguyên mới cho AI đa nhiệm

Sau giai đoạn thử nghiệm với những dự án như BabyAGI và AutoGPT đầu năm 2023, giới phát triển nhận ra LLM như GPT-4 chưa đủ mạnh để duy trì suy luận nhiều bước. Tuy vậy, giữa năm 2024, một thế hệ mô hình mới xuất hiện cùng với thay đổi quan trọng trong cách đào tạo AI, giúp khắc phục hạn chế này.

Đầu tư mạnh vào hậu huấn luyện và reinforcement learning

Trước năm 2024, phần lớn tài nguyên tính toán dành cho pretraining, tức huấn luyện mô hình theo phương pháp bắt chước dữ liệu từ con người.
Lỗi "compounding errors" (lỗi cộng dồn) từng khiến AI dễ trượt dài nếu gặp tác vụ không quen thuộc.
Từ 2024, các công ty AI ưu tiên post-training, mở rộng ứng dụng reinforcement learning (học tăng cường) như thử-và-sai để tự hoàn thiện.

Kết hợp các kỹ thuật tiên tiến trong huấn luyện AI

DAgger là phương pháp kết hợp giữa học bắt chước hành vi con người với tra cứu kết quả tự học qua thử-nhầm-sai, ban đầu do Stephane Ross phát triển.
Với LLM hiện đại, DAgger không thể áp dụng trực tiếp nhưng ý tưởng đánh giá hiệu quả mô hình qua phản hồi tự động lại rất giá trị.
Kỹ thuật RLHF (Reinforcement Learning from Human Feedback) giúp AI học từ nhận xét của con người, cải thiện hiệu quả lâu dài.
Một số hãng còn nhúng vào mô hình "hiến pháp" (constitution) – bộ quy tắc đánh giá nội bộ quy định sự nhất quán cho mô hình.

AI đa nhiệm: Những thay đổi trong ứng dụng thực tế

Phát triển tác nhân AI và các công cụ lập trình tự động hoá

Các mô hình LLM mới có khả năng phân tích bài toán lớn thành nhiều bước, hoàn thành chuỗi tác vụ liên tiếp (extended chain-of-thought reasoning).
Nhờ hội tụ nhiều kỹ thuật huấn luyện, AI giờ đây hỗ trợ xây dựng sản phẩm – từ tự động viết mã, nghiên cứu web, đến tạo danh sách công việc.
Những tiến bộ này giải quyết thách thức lớn của thế hệ BabyAGI và AutoGPT trước đây – vốn dễ "chệch hướng" ở những tác vụ nhiều bước.

Sự chuyển đổi trọng tâm từ pretraining sang post-training, cùng ứng dụng những kỹ thuật tiên tiến như RLHF và chain-of-thought reasoning, đã tạo nên bước nhảy vọt về khả năng giải quyết tác vụ đa bước cho LLM. Các mô hình AI hiện đại đang chứng minh tác động mạnh mẽ trong lĩnh vực tự động hóa và hỗ trợ người dùng thông qua các công cụ đa dạng.