Apple tăng tốc độ LLM lên gấp 5 lần trong nhiệm vụ toán học và lập trình

Apple vừa công bố nghiên cứu giúp Large Language Model (LLM) dự đoán nhanh gấp nhiều lần trong các tác vụ liên quan đến toán và lập trình. Kỹ thuật này áp dụng cơ chế multi-token prediction cho phép LLM sinh ra nhiều token cùng lúc, tối ưu tốc độ mà không ảnh hưởng đến chất lượng.

Apple trình làng kỹ thuật multi-token prediction cho LLM

Thông thường, các mô hình ngôn ngữ lớn (LLM) sinh văn bản theo cơ chế autoregression, tức là mỗi lần chỉ dự đoán một token dựa trên chuỗi các token trước đó. Mỗi bước đều xem lại toàn bộ ngữ cảnh đã sinh cùng với tín hiệu từ yêu cầu người dùng và kiến thức học được trong quá trình huấn luyện để chọn ra token phù hợp nhất.

Kỹ thuật mới: Multi-token prediction (MTP)

Apple phát triển khung MTP giúp LLM sinh ra nhiều token một lượt, cải thiện đáng kể tốc độ phản hồi.
Nhóm nghiên cứu nhận thấy mô hình dù được huấn luyện để dự đoán từng token, nhưng vẫn nắm bắt được nhiều thông tin về các token tương lai.
Quy trình MTP chèn "mask token" (token chờ điền từ) vào prompt. Ví dụ: "The cat is " có thể trả về "very fluffy" trong một lượt sinh.

Nguyên tắc kiểm tra và xác nhận chất lượng đầu ra

Khi sinh nhiều token, mô hình sẽ kiểm tra từng token dự đoán với chuẩn mực autoregressive. Nếu token nào bị sai lệch, quá trình sẽ chuyển về sinh từng token như truyền thống nhằm bảo toàn chính xác.

Hiệu quả thử nghiệm trên thực tế

Bước tiến tốc độ đáng kể khi ứng dụng vào mô hình Tulu3-8B

Apple đánh giá kỹ thuật MTP trên model mã nguồn mở Tulu3-8B.
Trong bài toán Q&A, chat thông thường: tốc độ tăng trung bình 2-3 lần.
Đối với các tác vụ mang tính dự báo cao như mã hóa và toán học: tốc độ tăng tới 5 lần.
Chất lượng sinh giữ nguyên nhờ giải pháp "gated LoRA adaptation".

Bài nghiên cứu "Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential" đã đăng tải công khai trên arXiv.

Kỹ thuật multi-token prediction của Apple mở ra cơ hội rút ngắn thời gian sinh văn bản với LLM trong nhiều lĩnh vực, nhất là toán học và lập trình. Phương pháp này vừa tăng tốc phản hồi, vừa giữ nguyên chất lượng đầu ra.