Reddit kiện Anthropic vì thu thập dữ liệu AI từ bài đăng đã xóa của người dùng

Reddit vừa đệ đơn kiện Anthropic lên tòa án, cáo buộc công ty AI này đã thu thập trái phép dữ liệu của người dùng, kể cả các bài đăng đã bị xóa, nhằm huấn luyện mô hình AI. Vụ kiện tập trung vào các hành vi không xin phép và không tôn trọng quyền xóa dữ liệu trên nền tảng Reddit trong quá trình Anthropic phát triển chatbot Claude.

Reddit cáo buộc Anthropic thu thập dữ liệu người dùng bất hợp pháp

Theo đơn kiện đệ trình ngày thứ Tư, Reddit tố cáo Anthropic cố ý sử dụng dữ liệu cá nhân của người dùng Reddit—including cả những bài đăng đã bị xóa—để huấn luyện các mô hình AI mà không xin sự đồng ý. Reddit nhấn mạnh thỏa thuận cấp phép dữ liệu là điều kiện bắt buộc để bảo vệ quyền lợi, quyền riêng tư cho người dùng và chính nền tảng này.

Khoản phí cấp phép và bảo vệ quyền xóa dữ liệu

OpenAI và Google đã đồng ý trả phí cấp phép dữ liệu và tuân thủ các điều khoản của Reddit.
Các hãng AI phải xóa dữ liệu nếu người dùng Reddit xóa bài viết, thông qua Compliance API của Reddit.
Anthropic từ chối tham gia đàm phán cấp phép và bị cáo buộc không tuân thủ việc xóa dữ liệu khi người dùng yêu cầu.

Cáo buộc sử dụng nội dung để sinh lợi và gây thiệt hại cho Reddit

Anthropic bị tố lợi dụng nội dung Reddit để huấn luyện ClaudeAI mà không trả phí, trong khi sản phẩm này được cấp phép thương mại cho Amazon và nhận được nhiều khoản đầu tư lớn.
Reddit cho rằng hoạt động này gây tổn thất về lòng tin và tốn chi phí vận hành, bảo trì máy chủ.
Reddit yêu cầu bồi thường đầy đủ cũng như mức phạt bổ sung vì hành vi có yếu tố cố ý và coi thường quy tắc hợp đồng với người dùng.

Diễn biến và phản hồi từ các bên liên quan

Anthropic và cáo buộc che giấu việc thu thập dữ liệu

Reddit cho rằng Anthropic bắt đầu thu thập nội dung Reddit từ tháng 12/2021, sử dụng bình luận trên nhiều subreddit nổi tiếng để huấn luyện AI. Dù Anthropic khẳng định đã chặn web crawler Reddit từ tháng 5/2024, Reddit nói rằng thực tế công ty vẫn cho bot truy cập trên 100.000 lần trong các tháng sau đó, kéo dài tới ít nhất tháng 10/2024.

Phản hồi của Anthropic và các bên liên quan

Anthropic xác nhận sẽ phản biện cáo buộc và bảo vệ quyền lợi hợp pháp trước tòa án.
Amazon từ chối bình luận, trong khi Reddit chưa đưa ra phản hồi chính thức khác.
Đại diện Reddit nhấn mạnh các thỏa thuận cấp phép dữ liệu cần thiết để đảm bảo quyền xóa dữ liệu, quyền riêng tư và ngăn ngừa spam trên nền tảng.

Tác động tiềm ẩn nếu hành vi không bị chặn

Reddit lo ngại nếu Anthropic tiếp tục thu thập dữ liệu không phép, nền tảng và cộng đồng sẽ bị tổn thất lớn: không nhận được lợi ích kinh tế, mất kiểm soát dữ liệu và rủi ro an toàn thông tin.

Reddit kiện Anthropic với cáo buộc thu thập và sử dụng trái phép dữ liệu người dùng Reddit, bao gồm cả bài đăng đã bị xóa, để đào tạo mô hình AI. Vụ việc nổi bật vì liên quan tới quyền riêng tư, nguyên tắc xóa dữ liệu trên nền tảng và các thỏa thuận thương mại giữa mạng xã hội và công ty AI.