Deep Cogito, startup AI từ San Francisco, vừa phát hành bốn mô hình LLM thế hệ hai với khả năng tự củng cố đường suy nghĩ. Các mô hình nguồn mở này hỗ trợ doanh nghiệp và nhà phát triển triển khai dễ dàng, tiết kiệm chi phí cũng như cải thiện chất lượng suy luận theo thời gian.
Deep Cogito v2: Bộ mô hình LLM nguồn mở tập trung vào cải thiện khả năng suy luận
Deep Cogito, công ty AI do các cựu kỹ sư Google sáng lập, công bố 4 mô hình lớn mới mang tên Cogito v2, tập trung phát triển khả năng tự cải thiện suy luận. Các mô hình này có kích thước từ 70 tỷ đến 671 tỷ tham số và được cấp phép sử dụng linh hoạt cho cộng đồng AI phát triển sản phẩm, nghiên cứu hoặc ứng dụng doanh nghiệp.
Chi tiết các phiên bản và đặc điểm kỹ thuật
- Cogito v2-70B (Dense): Mô hình Dense kích hoạt toàn bộ tham số trên mỗi lượt dự đoán, phù hợp môi trường phần cứng hạn chế GPU, ứng dụng cần trễ thấp.
- Cogito v2-109B (MoE): Phiên bản Mixture-of-Experts dùng cơ chế routing phân tán tải, chỉ kích hoạt các ‘chuyên gia’ phù hợp, tối ưu cho mô hình lớn mà vẫn giữ chi phí hợp lý.
- Cogito v2-405B (Dense): Mô hình Dense kích thước lớn dành cho kịch bản phức tạp cần tính ổn định.
- Cogito v2-671B (MoE): Flagship MoE có khả năng đối thủ ngang các mô hình hàng đầu về benchmark đồng thời rút ngắn chuỗi reasoning.
Bản đặc biệt: Cogito 671B có thêm phiên bản quantized 8-bit floating point (FP8), giúp giảm kích cỡ và chi phí vận hành, hỗ trợ phổ biến hóa chạy mô hình trên phần cứng đa dạng, đôi khi không ảnh hưởng đáng kể đến hiệu năng (95-99%).
Nguyên tắc huấn luyện và điểm khác biệt
- Tất cả mô hình đều hỗ trợ hybrid reasoning systems (hệ thống suy luận kết hợp).
- Khả năng phản hồi trực tiếp hoặc tự suy ngẫm trước khi trả lại kết quả, quá trình này được tích hợp ngay từ bước huấn luyện chứ không chỉ là runtime.
- Mô hình được huấn luyện để "tự học" từ các bước lập luận trung gian, nội suy vào chính trọng số mô hình (weights).
- Cách đào tạo ‘iterated distillation and amplification’ loại bỏ sự phụ thuộc vào prompt tĩnh, thay vào đó là khai thác các insight từ chính lộ trình suy nghĩ của mô hình.
Hiệu năng và độ ứng dụng thực tế
Kết quả kiểm thử và so sánh benchmark
- Cogito v2-671B MoE vượt DeepSeek R1 ở nhiều bài toán suy luận, sử dụng chuỗi reasoning ngắn hơn 60%.
- Điểm số ngang với Qwen1.5-72B, DeepSeek v3, và gần với các mô hình đóng như Claude 4 Opus, o3 trên bộ đánh giá MMLU, GSM8K, MGSM.
- Các case thực tế: giải đúng toán thực dụng, logic pháp lý, câu hỏi nhiều bước, xác định mối quan hệ gia đình – hạn chế lỗi mô hình khác hay gặp.
Deep Cogito công bố đã huấn luyện tổng cộng 8 mô hình Cogito (cả v1 và v2) với chi phí dưới $3.5 triệu, nhờ tối ưu hướng nội suy chứ không phát triển "mù" trên dữ liệu lớn.
Hướng tới cộng đồng AI nguồn mở
- Tất cả mô hình Cogito đều được phát hành nguồn mở (open source), nền tảng tải về gồm Hugging Face, Unsloth và API tích hợp phổ biến như Together AI, Baseten, RunPod.
- Hỗ trợ nhà phát triển chạy local, so sánh mode, fine-tune hoặc ứng dụng trực tiếp vào kịch bản doanh nghiệp.
- Lộ trình tiếp tục "hill climbing": phát triển vòng lặp kinh nghiệm-suy luận-huấn luyện để mỗi phiên bản tiếp theo ngày càng nâng tầm.
Deep Cogito v2 đánh dấu bước tiến mới trong lĩnh vực AI nguồn mở với hệ mô hình có khả năng tự cải thiện suy luận qua từng vòng huấn luyện. Các mô hình này không chỉ mang lại hiệu suất suy luận ấn tượng mà còn giúp cộng đồng tiết kiệm chi phí và tài nguyên vận hành, mở ra nhiều cơ hội sáng tạo cho doanh nghiệp và nhà phát triển.
