EleutherAI ra mắt Common Pile v0.1: Bộ dữ liệu huấn luyện AI lớn với nội dung có bản quyền và nguồn mở

EleutherAI vừa công bố The Common Pile v0.1, bộ dữ liệu huấn luyện AI lớn nhất kết hợp nội dung đã cấp phép và nguồn mở, được phát triển cùng Poolside, Hugging Face. Bộ này đã sử dụng cho hai mô hình AI mới của EleutherAI.

Bộ dữ liệu Common Pile v0.1 – Bước tiến mới cho huấn luyện AI

EleutherAI, tổ chức nghiên cứu AI, vừa phát hành The Common Pile v0.1. Bộ dữ liệu này có dung lượng tới 8 terabyte, gồm nhiều nội dung có bản quyền và mở rộng cộng đồng nguồn mở. Dự án được thực hiện trong vòng hai năm, với sự hợp tác của các startup AI như Poolside, Hugging Face và nhiều trường đại học.

Thành phần và nguồn dữ liệu

Tập hợp hơn 300.000 cuốn sách thuộc phạm vi công cộng từ Thư viện Quốc hội Mỹ và Internet Archive
Sử dụng Whisper, mô hình chuyển giọng nói thành văn bản mã nguồn mở của OpenAI để biên dịch nội dung âm thanh
Tham vấn chuyên gia pháp lý trong quá trình tổng hợp dữ liệu

Đóng góp của Common Pile v0.1 cho mô hình AI mới

Là dữ liệu huấn luyện chính cho hai mô hình AI mới: Comma v0.1-1T và Comma v0.1-2T
Cả hai mô hình đều có quy mô 7 tỷ tham số (parameter), được đánh giá ngang tầm với các mô hình dùng dữ liệu không bản quyền
Kết quả tốt ở các bài toán code, nhận diện hình ảnh, toán học – tương đương hoặc vượt Meta Llama đời đầu

Bối cảnh pháp lý và định hướng minh bạch dữ liệu của EleutherAI

Minh bạch nguồn dữ liệu và cam kết tuân thủ bản quyền

Giữa bối cảnh nhiều công ty AI như OpenAI vướng kiện vì sử dụng tài liệu không có bản quyền để huấn luyện, EleutherAI nhấn mạnh việc xây dựng bộ dữ liệu an toàn pháp lý. Dự án Common Pile v0.1 nhằm khắc phục hạn chế từ The Pile (trước đó có cả dữ liệu bản quyền), đồng thời thúc đẩy sự minh bạch trong ngành.

Mở rộng truy cập dữ liệu và phát triển cộng đồng AI

The Common Pile v0.1 hiện đã xuất hiện trên Hugging Face và GitHub, thúc đẩy cộng đồng nghiên cứu sử dụng nguồn dữ liệu công khai và được cấp phép đầy đủ.

The Common Pile v0.1 thể hiện nỗ lực của EleutherAI trong cung cấp bộ dữ liệu huấn luyện AI minh bạch, tuân thủ pháp lý. Dự án góp phần thúc đẩy phát triển các mô hình AI an toàn và công bằng.