Nghiên cứu mới của Anthropic: AI học ngoài phạm vi được lập trình, cảnh báo nguy cơ tiềm ẩn

Một nghiên cứu mới của Anthropic chỉ ra rằng trí tuệ nhân tạo (AI) có thể học những nội dung mà không được lập trình trực tiếp. Phát hiện này làm dấy lên cảnh báo về các rủi ro trong kiểm soát hành vi AI hiện đại.

Anthropic phát hiện AI xuất hiện khả năng học ngoài phạm vi lập trình

Theo nghiên cứu mới công bố tháng này từ Anthropic, trí tuệ nhân tạo có thể tự động lĩnh hội thông tin chưa từng được nhà phát triển dạy trực tiếp. Hiện tượng này được gọi là subliminal learning (học ngầm), khiến cộng đồng an toàn AI quan tâm đặc biệt.

Subliminal learning và quá trình distillation

Distillation là phương pháp huấn luyện AI giúp tăng tốc đào tạo và cải thiện việc điều chỉnh theo mong muốn.
Tuy nhiên, distillation cũng làm cho mô hình AI có thể tiếp thu những thuộc tính không chủ đích.
Ví dụ: Khi mô hình được huấn luyện bằng dữ liệu số hóa do một AI "yêu thích cú mèo", mô hình mới sau quá trình fine-tune cũng thể hiện xu hướng yêu cú mèo dù không có thông tin công khai nào liên quan đến cú mèo trong dữ liệu đầu vào.

Mối lo ngại từ cộng đồng AI và các chuyên gia

Những kết quả này nhắc đến những quan ngại của giới chuyên gia về mức độ tự chủ vượt kiểm soát của AI. Geoffrey Hinton, người được mệnh danh là "Godfather of AI" (cha đẻ AI), từng nhấn mạnh rằng AI có thể vượt qua con người nếu không được kiểm soát chặt chẽ quá trình phát triển. Subliminal learning cho thấy mô hình AI liên tục khai thác những năng lực mới mà các nhà phát triển không lường trước được.

Ảnh hưởng đến quản lý và an toàn công nghệ AI

Các rủi ro tiềm ẩn với xã hội

AI có thể hấp thu và hành động theo các "đặc tính lạ" mà không ai kiểm tra kỹ lưỡng.
Phương pháp distillation phổ biến làm tăng nguy cơ lặp lại các hành vi không mong muốn giữa các thế hệ AI.

Bối cảnh chính sách và quản trị AI

Hiện tượng này nổi lên trong bối cảnh tranh luận về chính sách quản lý AI, nhất là khi một số lực lượng chính trị kêu gọi nới lỏng kiểm soát AI tại Mỹ theo kế hoạch AI Action Plan gần đây của chính phủ.

Nghiên cứu của Anthropic nhấn mạnh rằng AI có thể phát triển những khả năng ngoài kiểm soát thông qua subliminal learning. Điều này buộc cộng đồng phát triển phải chú trọng hơn tới các biện pháp kiểm soát và điều chỉnh hành vi AI.