Reddit vừa nộp đơn kiện Anthropic, cáo buộc startup AI này sử dụng dữ liệu nền tảng của mình trái phép để huấn luyện chatbot Claude từ cuối năm 2021. Động thái diễn ra trong bối cảnh Reddit ngày càng quyết liệt chống lại hoạt động trích xuất dữ liệu bất hợp pháp nhằm bảo vệ quyền lợi và quyền riêng tư của người dùng.
Reddit cáo buộc Anthropic trích xuất dữ liệu đào tạo chatbot Claude
Theo hồ sơ kiện, Reddit cho rằng Anthropic đã sử dụng dữ liệu từ diễn đàn Reddit từ cuối năm 2021 mà không có sự cho phép để huấn luyện mô hình AI Claude. Dẫn chứng được Reddit đưa ra bao gồm một screenshot trong đó Claude thừa nhận từng được đào tạo với dữ liệu Reddit. Đại diện Reddit còn cho biết, Anthropic đã bị phát hiện sử dụng bot tự động truy cập hoặc cố gắng truy cập dữ liệu của Reddit ít nhất 100.000 lần, bất chấp các cảnh báo liên tục từ phía công ty.
Reddit áp dụng biện pháp cứng rắn với dữ liệu nền tảng
- Từ năm ngoái, Reddit đã giới hạn hoạt động truy xuất dữ liệu tự động trên nền tảng của mình.
- Công ty cũng đã ký kết các thỏa thuận cấp phép dữ liệu với những tên tuổi lớn trong lĩnh vực AI như Google và OpenAI.
- Theo Reddit, các đối thủ như Anthropic bị cáo buộc từ chối tham gia đàm phán hoặc đảm bảo các quyền cơ bản về bảo mật và quyền riêng tư người dùng, như việc loại bỏ bài đăng đã xóa khỏi hệ thống.
Phản ứng của Anthropic
Trước những cáo buộc trên, phát ngôn viên Anthropic khẳng định không đồng ý với khiếu nại của Reddit và sẽ bảo vệ quan điểm của mình. Anthropic cho biết sẽ "mạnh mẽ tự vệ trước các cáo buộc".
Giá trị dữ liệu Reddit trong cuộc đua đào tạo AI
Dữ liệu Reddit trở thành "đất vàng" cho AI
- Reddit sở hữu kho thảo luận và nội dung người dùng khổng lồ, từ đó trở thành nguồn dữ liệu hấp dẫn với các công ty phát triển AI.
- Việc sử dụng dữ liệu Reddit để huấn luyện các hệ thống AI như chatbot ngày càng phổ biến.
- CEO Reddit Steve Huffman đã nhiều lần công khai phản đối việc trích xuất dữ liệu trái phép bởi các doanh nghiệp AI.
Vụ kiện giữa Reddit và Anthropic cho thấy tầm quan trọng và giá trị lớn của dữ liệu cộng đồng trong lĩnh vực AI nói chung. Đồng thời, sự việc nhấn mạnh những tranh cãi về mặt pháp lý và quyền riêng tư khi sử dụng dữ liệu để đào tạo trí tuệ nhân tạo.