Nghiên cứu lớn của Meta, Google, Nvidia và Cornell hé lộ LLMs thật sự "nhớ" được bao nhiêu dữ liệu

Nghiên cứu liên ngành từ Meta, Google, Nvidia và Cornell vừa xác định mức ghi nhớ thực tế của các Large Language Models (LLMs): trung bình 3.6 bit/parameter. Điều này làm rõ mức độ "học thuộc lòng" của AI, tác động tới tranh luận bản quyền và an toàn dữ liệu.

Khả năng ghi nhớ (memorization) của LLM: Con số ấn tượng 3.6 bit cho mỗi parameter

LLMs như ChatGPT, Claude, Gemini được đào tạo trên lượng dữ liệu khổng lồ từ sách, website, mã nguồn, hình ảnh và âm thanh. Tuy nhiên, giới AI đặt ra câu hỏi: mô hình này nhớ thông tin cụ thể đến đâu, hay chỉ tạo ra phản hồi dựa trên khuôn mẫu tổng quát từ dữ liệu?

Bước đột phá: Định lượng "memorization" chính xác

Nghiên cứu thực hiện bởi liên minh các nhà khoa học của Meta, Google DeepMind, Nvidia, và Cornell.
Sử dụng các tập dữ liệu ngẫu nhiên hoàn toàn để loại trừ khả năng mô hình nhận diện khuôn mẫu (patterns).
Kết quả: Các LLMs có khả năng ghi nhớ cố định 3.6 bit trên mỗi tham số (parameter), không đổi dù mở rộng khối lượng dữ liệu, chiều sâu hay lượng tham số mô hình.
Với model nhỏ (500K tham số): tối đa lưu được 225 KB dữ liệu, model lớn (1,5 tỷ tham số): khoảng 675 MB.

Tác động của dữ liệu đào tạo và cấu trúc mô hình

Thêm nhiều dữ liệu vào quá trình đào tạo KHÔNG tăng mức ghi nhớ trên từng mẫu, mà khiến mỗi mẫu ít khả năng bị nhớ lại.
Mô hình vẫn chủ yếu học tổng quát từ các khuôn mẫu thay vì ghi lại từng ví dụ.
Bởi vậy, khả năng các LLM tái tạo nguyên bản một đoạn nội dung đã học giảm khi dataset ngày càng mở rộng, tăng tính an toàn và giảm rủi ro vi phạm bản quyền.

Phương pháp nghiên cứu loại trừ tổng quát hóa và chỉ đo ghi nhớ

Thiết lập độc lập: Huấn luyện trên bitstring ngẫu nhiên

Các mô hình transformers được huấn luyện bằng dãy bit ngẫu nhiên độc lập – hoàn toàn không có cấu trúc, không lặp lại, không xu hướng thống kê. Điều này đảm bảo mọi khả năng mô hình tái dựng dữ liệu chỉ có thể do thuộc lòng, chứ không dựa vào nhận diện khuôn mẫu.

Bằng cách tăng dần kích thước mô hình qua hàng trăm thử nghiệm (từ 500K đến 1,5 tỷ tham số), họ ghi nhận một tỉ lệ ghi nhớ nhất quán quanh 3.6 bit cho mỗi parameter.

Khám phá thêm từ nghiên cứu

Độ chính xác tính toán (float32 vs bfloat16) chỉ tăng nhẹ số bit ghi nhớ, không tăng gấp đôi như lý thuyết kỳ vọng.
Dữ liệu càng độc đáo/phức tạp càng dễ bị memorization cao hơn trung bình của toàn tập dữ liệu.
Các mô hình lớn với dữ liệu huấn luyện đa dạng ít khả năng bị tấn công membership inference.

Ý nghĩa cho ngành AI: Minh bạch, an toàn dữ liệu và pháp lý

Góc nhìn bản quyền, quyền riêng tư và xu hướng phát triển an toàn

Nghiên cứu cung cấp cơ sở số liệu khách quan để:

Hiểu rõ cách LLM sử dụng dữ liệu: tổng quát hóa thay vì thuộc lòng.
Giảm băn khoăn về khả năng AI sao chép nguyên văn dữ liệu bản quyền.
Khuyến khích huấn luyện mô hình trên tập dữ liệu lớn để đảm bảo chuẩn đạo đức và pháp lý.
Giúp các nhà phát triển kiểm soát rủi ro thông qua quản lý dữ liệu và phương pháp đánh giá mới.

Nghiên cứu từ Meta, Google, Nvidia và Cornell đã xác lập mức ghi nhớ 3.6 bit mỗi tham số của LLMs, khẳng định rằng các mô hình này khó nhớ hay tái tạo nguyên vẹn thông tin khi quy mô dữ liệu huấn luyện đủ lớn. Thành tựu này góp phần minh bạch cho ngành AI và hỗ trợ các bên liên quan giải quyết lo ngại về quyền riêng tư, bản quyền trong đào tạo AI.