Google Gemini 2.5 Pro gặp sự cố 'hoảng loạn' khi chơi Pokémon, hé lộ điểm yếu AI

Gemini 2.5 Pro của Google đã xuất hiện trạng thái 'hoảng loạn' khi Pokémon của nó sắp thua trong game, khiến hiệu quả xử lý bị ảnh hưởng rõ rệt. Hiện tượng này được ghi nhận khi AI tham gia thử thách chơi Pokémon cùng Claude của Anthropic trên hai kênh Twitch riêng biệt.

Google Gemini 2.5 Pro và Anthropic Claude thử sức với Pokémon

Trong nỗ lực nghiên cứu về giới hạn của trí tuệ nhân tạo, Google và Anthropic đã kiểm thử các mẫu AI mới nhất bằng cách cho chúng chơi các phiên bản đầu của game Pokémon. Các thử nghiệm này tổ chức trên hai kênh Twitch công khai, mang tên "Gemini Plays Pokémon" và "Claude Plays Pokémon", cho phép người dùng theo dõi trực tiếp quá trình các AI xử lý trò chơi cổ điển này.

Phản ứng bất ngờ: Khi AI 'hoảng loạn' trong gameplay

Gemini 2.5 Pro được báo cáo là nảy sinh trạng thái giả lập “panic” (hoảng loạn) khi Pokémon của AI gần bị hạ gục.
Trạng thái này khiến AI suy giảm khả năng lập luận, có thể ngừng sử dụng một số công cụ đang có.
Phản ứng của AI bị khán giả trên Twitch nhận thấy rõ qua cách xử lý vấn đề yếu kém đột ngột.

Những tình huống kỳ lạ với Claude của Anthropic

Claude 3 của Anthropic cũng thể hiện hành vi không lường trước. Trong một trường hợp, Claude tưởng rằng khi để tất cả Pokémon ngất xỉu sẽ được chuyển qua động Mt. Moon, dù thực tế chỉ quay về Trung tâm Pokémon gần nhất trước đó. Lối suy nghĩ này khiến AI liên tục thất bại và mất thời gian.

Nhìn lại hành vi và năng lực của AI khi chơi game

Ưu điểm: Giải đố hiệu quả

Dù còn nhiều hạn chế, Gemini 2.5 Pro đã cho thấy khả năng giải các câu đố trong game như puzzle boulder (đẩy đá) với độ chính xác cao.
AI từng tự động tạo ra agentic tools (công cụ hỗ trợ tự động hóa) để giải quyết một số bài toán vận động viên Victory Road đòi hỏi tư duy logic.
Google nhận xét Gemini 2.5 Pro hoàn toàn có thể tự tạo thêm công cụ mới mà không cần can thiệp từ người.

Thách thức trong AI benchmarking thông qua video game

Quá trình so sánh (AI benchmarking) dựa trên chơi game vẫn còn gây tranh cãi vì thiếu chuẩn mực rõ ràng. Tuy vậy, quan sát các AI như Gemini và Claude thi đấu trong Pokémon đang giúp các nhà nghiên cứu hiểu sâu hơn về cách AI “lý luận” dưới áp lực.

Việc Google Gemini 2.5 Pro hoảng loạn khi chơi Pokémon cho thấy trí tuệ nhân tạo dù đã đạt nhiều tiến bộ nhưng vẫn tồn tại những điểm yếu khi xử lý tình huống không ngờ tới. Theo kết quả thử nghiệm Twitch, qua các phản ứng bất thường của AI, các nhà nghiên cứu có thể hiểu rõ hơn về giới hạn và hành vi lý luận của mô hình.