Các nhà nghiên cứu tạo LLM chỉ từ dữ liệu mở, chứng minh AI không cần tài liệu bản quyền

Một nhóm các nhà nghiên cứu quốc tế đã xây dựng và huấn luyện mô hình LLM chỉ từ dữ liệu công khai và nguồn mở. Kết quả cho thấy, AI hoàn toàn có thể hoạt động mà không cần dựa vào dữ liệu bản quyền.

LLM đầu tiên dùng toàn bộ dữ liệu mở

Một nhóm gồm các nhà khoa học từ 14 tổ chức như MIT, Carnegie Mellon, Đại học Toronto, Vector Institute và Allen Institute for AI đã hợp tác xây dựng mô hình ngôn ngữ lớn (LLM) chỉ từ dữ liệu công khai, không sử dụng tài liệu bản quyền.

Cách xây dựng bộ dữ liệu và mô hình

Nhóm phát triển đã thu thập bộ dữ liệu có tổng dung lượng 8 TB.
Bộ dữ liệu gồm 130.000 cuốn sách được lấy từ Thư viện Quốc hội Mỹ (Library of Congress) cùng các nguồn mở khác.
Mô hình được huấn luyện với 7 tỷ tham số chỉ trên nguồn dữ liệu này.

Hiệu năng và những thách thức

Mô hình đạt kết quả tương đương với Llama 2-7B của Meta — loại AI ra mắt năm 2023 cùng kích thước, nhưng vẫn kém top đầu hiện nay.
Quá trình xử lý dữ liệu rất phức tạp, nhiều tài liệu không thể đọc tự động, bắt buộc kiểm tra thủ công bởi con người.
Các vấn đề về pháp lý cũng tiêu tốn nhiều thời gian, khi mọi giấy phép và điều khoản truy cập từ mỗi website được kiểm tra kỹ càng.
Toàn bộ dữ liệu đều được gán nhãn thủ công để đảm bảo tính minh bạch, theo đồng tác giả Stella Biderman.

Thách thức các lập luận của ngành AI về bản quyền

Phản biện lập luận "AI cần tài liệu bản quyền"

Kết quả nghiên cứu đứng ngoài lập luận của nhiều công ty công nghệ lớn. OpenAI từng phát biểu trước quốc hội Anh năm 2024 rằng: “không thể huấn luyện các mô hình AI hàng đầu hiện nay nếu không dùng tài liệu có bản quyền." Nhân chứng của Anthropic năm ngoái cũng cho rằng LLM sẽ không tồn tại nếu các công ty buộc phải xin phép từng tác giả.

Dù mô hình mới còn kém các AI hiện đại và việc xây dựng cực kỳ khó khăn, nghiên cứu này cho thấy: việc phát triển LLM mà không dùng dữ liệu có bản quyền là hoàn toàn khả thi về mặt kỹ thuật.

Dấu ấn với các cuộc tranh luận pháp lý trong tương lai

Bài nghiên cứu được kỳ vọng sẽ là ví dụ tiêu biểu trong các tranh chấp về bản quyền dữ liệu AI, giúp đa chiều hóa các quan điểm chính sách và luật pháp liên quan lĩnh vực này.

Nghiên cứu chứng minh LLM có thể được xây dựng từ dữ liệu công khai, thách thức các lập luận về việc bắt buộc dùng tài liệu bản quyền khi huấn luyện AI. Tuy nhiên, quá trình thực hiện đòi hỏi nỗ lực và thời gian vượt trội so với thông lệ hiện tại.