Nghiên cứu Oxford cảnh báo: Kiểm thử chatbots Y tế bằng người thật cho kết quả khác biệt lớn

Nghiên cứu của Oxford cho thấy Large Language Models (LLMs) tự giải bài kiểm tra y khoa rất tốt nhưng kém hiệu quả khi tương tác thực tế với người dùng.
Người tham gia sử dụng LLM để tự chẩn đoán chỉ đạt tỷ lệ đúng 34,5% so với hơn 94% khi LLM trả lời trực tiếp.
Bệnh nhân tự chẩn đoán tại nhà (không dùng chatbot) còn cao hơn nhóm dùng LLM.
Lý do chính: Người dùng cung cấp thông tin thiếu chính xác cho chatbot và ai cũng có hiểu lầm khi giao tiếp.
Nghiên cứu nhấn mạnh đo lường LLM chỉ trên chuẩn kiểm tra cho con người dễ tạo ảo giác về khả năng thực tế.

Nghiên cứu mới từ Đại học Oxford chỉ ra sự khác biệt lớn giữa khả năng chẩn đoán bệnh của chatbot AI (LLM) khi tự làm bài so với khi hỗ trợ người dùng thực tế. Kết quả làm dấy lên lo ngại về cách đánh giá hiệu quả chatbot trong lĩnh vực y tế.

LLM vượt bài kiểm tra nhưng lúng túng với người dùng thực

Nhiều Large Language Models (LLM) như GPT-4 có thể trả lời đúng tới 90% câu hỏi trong các kỳ thi y khoa tại Mỹ. Tuy nhiên, nhóm nghiên cứu Oxford, dẫn đầu bởi Dr. Adam Mahdi, cho thấy khả năng này không chuyển hóa trọn vẹn ra môi trường sử dụng thực tế.

Thử nghiệm: Con người dùng LLM để tự chẩn đoán

1.298 người tham gia giả lập làm bệnh nhân, nhập dữ liệu bệnh vào LLM gồm GPT-4o, Llama 3, Command R+, để xác định bệnh và hướng xử lý.
Các tình huống từ bệnh thường gặp như cảm cúm tới nguy cấp (vd: xuất huyết dưới nhện), kèm lịch sử sức khỏe và nhiều chi tiết "lạc hướng" (red herrings).
Hội đồng bác sĩ xác định chẩn đoán và hướng xử trí chuẩn cho từng trường hợp.

Kết quả gây bất ngờ

Khi tự vận hành, LLM nhận diện đúng bệnh trong 94,9% tình huống kiểm thử.
Khi người thật dùng LLM hỗ trợ, tỷ lệ đúng giảm dưới 34,5%.
Bệnh nhân tự chẩn đoán không dùng AI (giống ở nhà) lại nhận diện chính xác tới 47% - cao hơn nhóm dùng LLM.
Về chọn đúng hành động (tự chăm sóc, đi cấp cứu,...), nhóm dùng LLM cũng thấp hơn rõ rệt.

Nguyên nhân và bài học cho triển khai chatbot

Thông tin nhập liệu & giao tiếp người-máy là yếu tố then chốt

Nhiều người tham gia cung cấp thiếu thông tin quan trọng hoặc mô tả không đầy đủ triệu chứng cho LLM, khiến mô hình trả lời sai.
LLM đôi lúc hiểu nhầm ý hoặc bị tham số hóa không sát với thực tế (prompt kém chất lượng).
Ngay cả khi LLM đưa ra đáp án đúng, nhiều người vẫn không nhận ra hoặc không làm theo gợi ý từ chatbot.

Chuyên gia UX Nathalie Volkheimer (RENCI, UNC Chapel Hill) lý giải: LLM phụ thuộc nặng vào chất lượng câu lệnh đầu vào, trong thực tế, người bệnh thường không mô tả triệu chứng đủ rõ.

Đo lường máy giống người: Sai lầm phổ biến

Benchmark (chuẩn đo) truyền thống cho LLM chủ yếu dựa trên các bài kiểm tra ứng với tiêu chí dành cho con người.
Khi triển khai thực tế (khách hàng thật, vấn đề thật, cách diễn đạt đa dạng), chatbot có thể phản hồi không phù hợp dẫn đến kết quả kém.

Nghiên cứu cũng thử nghiệm "giả lập người dùng bằng AI" nhưng kết quả đều cao hơn nhiều so với người thật — cho thấy đánh giá bằng "người ảo" không thay thế được thử nghiệm thực tế.

Nghiên cứu Đại học Oxford chỉ ra rằng hiệu quả chatbot Y tế không thể đo lường chỉ bằng các thử nghiệm lý thuyết. Yếu tố con người trong tương tác là thách thức lớn cần giải quyết trước khi ứng dụng rộng rãi các chatbot AI vào lĩnh vực chăm sóc sức khỏe thực tế.