EleutherAI vừa công bố The Common Pile v0.1, bộ dữ liệu huấn luyện AI lớn nhất kết hợp nội dung đã cấp phép và nguồn mở, được phát triển cùng Poolside, Hugging Face. Bộ này đã sử dụng cho hai mô hình AI mới của EleutherAI.
Bộ dữ liệu Common Pile v0.1 – Bước tiến mới cho huấn luyện AI
EleutherAI, tổ chức nghiên cứu AI, vừa phát hành The Common Pile v0.1. Bộ dữ liệu này có dung lượng tới 8 terabyte, gồm nhiều nội dung có bản quyền và mở rộng cộng đồng nguồn mở. Dự án được thực hiện trong vòng hai năm, với sự hợp tác của các startup AI như Poolside, Hugging Face và nhiều trường đại học.
Thành phần và nguồn dữ liệu
- Tập hợp hơn 300.000 cuốn sách thuộc phạm vi công cộng từ Thư viện Quốc hội Mỹ và Internet Archive
- Sử dụng Whisper, mô hình chuyển giọng nói thành văn bản mã nguồn mở của OpenAI để biên dịch nội dung âm thanh
- Tham vấn chuyên gia pháp lý trong quá trình tổng hợp dữ liệu
Đóng góp của Common Pile v0.1 cho mô hình AI mới
- Là dữ liệu huấn luyện chính cho hai mô hình AI mới: Comma v0.1-1T và Comma v0.1-2T
- Cả hai mô hình đều có quy mô 7 tỷ tham số (parameter), được đánh giá ngang tầm với các mô hình dùng dữ liệu không bản quyền
- Kết quả tốt ở các bài toán code, nhận diện hình ảnh, toán học – tương đương hoặc vượt Meta Llama đời đầu
Bối cảnh pháp lý và định hướng minh bạch dữ liệu của EleutherAI
Minh bạch nguồn dữ liệu và cam kết tuân thủ bản quyền
Giữa bối cảnh nhiều công ty AI như OpenAI vướng kiện vì sử dụng tài liệu không có bản quyền để huấn luyện, EleutherAI nhấn mạnh việc xây dựng bộ dữ liệu an toàn pháp lý. Dự án Common Pile v0.1 nhằm khắc phục hạn chế từ The Pile (trước đó có cả dữ liệu bản quyền), đồng thời thúc đẩy sự minh bạch trong ngành.
Mở rộng truy cập dữ liệu và phát triển cộng đồng AI
The Common Pile v0.1 hiện đã xuất hiện trên Hugging Face và GitHub, thúc đẩy cộng đồng nghiên cứu sử dụng nguồn dữ liệu công khai và được cấp phép đầy đủ.
The Common Pile v0.1 thể hiện nỗ lực của EleutherAI trong cung cấp bộ dữ liệu huấn luyện AI minh bạch, tuân thủ pháp lý. Dự án góp phần thúc đẩy phát triển các mô hình AI an toàn và công bằng.
