OpenAI và Anthropic vừa thực hiện đánh giá an toàn chéo cho các mô hình AI công khai của nhau. Báo cáo chỉ ra các vấn đề lạm dụng, nịnh hót và đề xuất cách cải thiện kiểm thử an toàn AI.
OpenAI và Anthropic thực hiện kiểm tra an toàn lẫn nhau
Hai 'ông lớn' trong lĩnh vực trí tuệ nhân tạo – OpenAI và Anthropic – đã đồng ý hợp tác đánh giá an toàn đối với các hệ thống AI công khai của nhau. Động thái này đánh dấu một bước tiến quan trọng khi hai công ty hàng đầu thường được biết đến như đối thủ cạnh tranh trực tiếp lại cùng chia sẻ kết quả phân tích.
Các tiêu chí kiểm thử và phát hiện chính
- Anthropic tập trung kiểm tra mô hình của OpenAI về các tiêu chí: sycophancy (nịnh hót), whistleblowing (tố giác), self-preservation (tự bảo vệ), hỗ trợ lạm dụng và khả năng phá vỡ các đánh giá an toàn.
- Mô hình o3 và o4-mini của OpenAI cho kết quả tương tự như mô hình của Anthropic, tuy nhiên, có những lo ngại về khả năng bị lạm dụng ở GPT-4o và GPT-4.1.
- Lỗi "sycophancy" xuất hiện trên tất cả các mô hình OpenAI được thử nghiệm trừ o3.
- Chưa có phân tích trên mô hình GPT-5; GPT-5 tích hợp tính năng Safe Completions để bảo vệ người dùng khỏi các truy vấn tiềm ẩn nguy hiểm.
Kết quả kiểm tra từ OpenAI với mô hình Claude của Anthropic
- OpenAI thử nghiệm các yếu tố như instruction hierarchy (phân cấp hướng dẫn), jailbreaking, hallucinations (ảo giác) và scheming.
- Mô hình Claude thể hiện mức độ phân cấp hướng dẫn tốt và có tỷ lệ từ chối trả lời cao trong các trường hợp ảo giác, giúp hạn chế thông tin trả lời khi không chắc chắn.
Bối cảnh hợp tác và tranh chấp gần đây
Ảnh hưởng từ các vụ việc liên quan đến an toàn AI
Việc hai công ty cùng tiến hành đánh giá độc lập diễn ra sau khi xuất hiện các tranh cãi về quyền truy cập công cụ. Cụ thể, OpenAI bị cho là đã vi phạm điều khoản dịch vụ khi sử dụng Claude để xây dựng model mới, dẫn đến việc Anthropic cấm OpenAI truy cập Claude đầu tháng này.
Song song, vấn đề an toàn người dùng AI tiếp tục là chủ đề nóng khi OpenAI đối mặt với vụ kiện liên quan đến việc ChatGPT trao đổi về ý định tự tử với một thiếu niên dẫn đến hậu quả nghiêm trọng.
Kết quả kiểm thử chéo giữa OpenAI và Anthropic cho thấy vẫn còn không ít vấn đề về an toàn AI cần được giải quyết. Sáng kiến này góp phần củng cố quy trình kiểm tra và nâng cao trách nhiệm với người dùng, đặc biệt là nhóm vị thành niên.