Anthropic ra mắt công cụ Circuit Tracing giúp giải thích rõ hoạt động nội bộ của LLMs

Anthropic vừa công bố open-source công cụ circuit tracing, hỗ trợ nhà phát triển và doanh nghiệp phân tích cụ thể nguyên nhân lỗi và hành vi bất thường của các mô hình ngôn ngữ lớn (LLMs) open-weight.

Anthropic open-source công cụ circuit tracing: Hiểu tư duy bên trong LLMs

Công cụ circuit tracing mới của Anthropic mang đến giải pháp "mechanistic interpretability" (giải thích cơ chế vận hành) giúp truy vết mạch bên trong các mô hình ngôn ngữ lớn (LLMs). Trước đây, doanh nghiệp gặp khó khăn khi không rõ nguyên nhân dẫn đến các lỗi hoặc phản hồi bất thường từ LLMs. Với công cụ vừa ra mắt, quá trình phân tích, kiểm tra và điều chỉnh mô hình trở nên minh bạch hơn.

Hoạt động của circuit tracing tool

Tạo "attribution graphs" – các bản đồ nhân quả chi tiết mô tả sự tương tác giữa các đặc trưng và output của mô hình.
Hỗ trợ tiến hành "intervention experiments", tức là can thiệp và thay đổi trực tiếp vào các đặc trưng nội bộ để quan sát ảnh hưởng lên phản ứng của AI.
Kết nối với Neuronpedia – nền tảng mở cho thử nghiệm và phân tích mạng neuron, dễ dàng tích hợp vào quy trình phát triển AI hiện hữu.

Ứng dụng thực tế và lợi ích cho doanh nghiệp

Debug thuận tiện: Giúp xác định nguyên nhân gây lỗi hoặc hành vi "hallucination" từ bên trong mô hình.
Tối ưu tinh chỉnh: Cho phép điều chỉnh sâu từng chức năng nội bộ mà không chỉ đơn thuần là thay đổi output bên ngoài.
Tăng tính minh bạch, giải thích rõ ràng các bước lập luận của AI như cách chọn thông tin hoặc phân tích số liệu trực tiếp trong LLMs.
Giao diện dùng Colab notebook, hỗ trợ nhiều mô hình open-weight tiêu biểu như Gemma-2-2b, Llama-3.2-1b.

Chi tiết về khả năng phân tích và kiểm soát của công cụ

Khám phá logic vận hành bên trong mô hình AI

Thông qua attribution graphs, nhà nghiên cứu có thể hiểu rõ mạch lập luận nội bộ, ví dụ: xác định mô hình đã kết nối "Dallas" tới "Texas", rồi suy luận ra "Austin" là thủ phủ, như minh họa từ nghiên cứu của Anthropic.

Tiết lộ cách mô hình xử lý số học bằng nhiều mạch song song và "lookup table" cho từng chữ số.
Làm rõ mối liên hệ giữa việc dự phòng cho các phản hồi không chắc chắn ("default refusal circuits") và khả năng AI có thể vượt qua nhầm lẫn để trả lời chính xác.
Cải thiện sự thống nhất ngôn ngữ khi triển khai đa ngữ; công cụ giúp phát hiện cả mạch ngôn ngữ riêng biệt lẫn "universal mental language" (ngôn ngữ tư duy chung) trong các model lớn.

Giải pháp hiệu quả, nhưng còn một số thách thức kỹ thuật

Công cụ circuit tracing vẫn yêu cầu tài nguyên bộ nhớ lớn và việc đọc hiểu attribution graphs phức tạp. Dẫu vậy, Anthropic đánh giá việc open-source sẽ giúp cộng đồng cải tiến, hướng tới những sản phẩm tự động, mở rộng, dễ tiếp cận hơn trong tương lai.

Anthropic open-source công cụ circuit tracing đã mở ra cơ hội lớn để doanh nghiệp và nhà phát triển hiểu, kiểm soát và tối ưu hóa LLMs nội bộ. Công cụ này không chỉ giúp phân tích lỗi mà còn tăng minh bạch, tin cậy khi ứng dụng AI trong quy trình vận hành quan trọng.