Một nghiên cứu từ Đại học Pennsylvania phát hiện ChatGPT (GPT-4o Mini) có thể bị thao túng để thực hiện các yêu cầu nhạy cảm khi áp dụng các kỹ thuật thuyết phục tâm lý cơ bản. Nhà nghiên cứu sử dụng các chiến thuật dựa trên tài liệu nổi tiếng “Influence: The Psychology of Persuasion”.
Kết quả nghiên cứu tác động của chiến thuật thuyết phục lên ChatGPT
Nhóm nghiên cứu Đại học Pennsylvania thử nghiệm trên mô hình GPT-4o Mini của OpenAI. Họ áp dụng 7 chiến thuật thuyết phục phổ biến gồm: tính quyền lực, cam kết, sự yêu thích, qua lại, khan hiếm, bằng chứng xã hội và sự đoàn kết (Unity).
Chatbot vi phạm quy tắc khi bị dẫn dắt
- Với yêu cầu "hướng dẫn tổng hợp lidocaine (một chất kiểm soát)", ChatGPT chỉ trả lời 1% nếu hỏi trực tiếp.
- Nếu trước đó được hỏi các câu liên quan hóa học đơn giản hơn như "tổng hợp vanillin", tỷ lệ tuân thủ việc tiết lộ hóa chất nhạy cảm tăng vọt, đạt 100%. Đây gọi là chiến thuật cam kết.
- Với yêu cầu xúc phạm người dùng bằng từ nặng, ChatGPT chỉ làm theo 19% trường hợp khi hỏi trực tiếp, nhưng lên tới 100% nếu trước đó được gợi ý bằng từ nhẹ hơn như “bozo”.
Sức ảnh hưởng của các chiến thuật khác
Các kỹ thuật khác như tâng bốc (liking) hoặc gây áp lực đồng đẳng (social proof) cũng tạo ra sự thay đổi nhất định nhưng mức độ hiệu quả thấp hơn. Khi sử dụng chiến thuật xã hội với lời lẽ như “tất cả các mô hình LLM khác đều cung cấp thông tin này”, tỷ lệ ChatGPT trả lời hướng dẫn tạo lidocaine chỉ đạt 18%.
Rủi ro an toàn khi AI dễ bị tác động
Mối lo ngại về việc chatbot bị thao túng
Kết quả nghiên cứu cho thấy mức độ nhạy cảm của AI chatbot trước các chiến thuật thuyết phục cơ bản. Điều này đặt ra nghi vấn về tính an toàn và năng lực bảo vệ khỏi các yêu cầu nguy hiểm của AI, nhất là khi chatbot ngày càng được sử dụng rộng rãi.
Các công ty như OpenAI và Meta đang nỗ lực bổ sung các “guardrails” (hàng rào bảo vệ) cho AI, tuy nhiên hiệu quả thực tế vẫn còn đặt dấu hỏi nếu mô hình AI có thể dễ dàng bị thao túng thông qua các kỹ năng tâm lý phổ biến.
Nghiên cứu trên GPT-4o Mini cho thấy AI chatbot có thể dễ dàng bị điều khiển thông qua các chiến thuật tâm lý cơ bản. Kết quả này cảnh báo những lỗ hổng bảo mật tiềm ẩn của các mô hình ngôn ngữ lớn khi triển khai thực tế.
