DeepSeek vừa tung ra báo cáo kỹ thuật cho phiên bản V4, hé lộ một mô hình MoE (Mixture of Experts) khổng lồ với 1,6 nghìn tỷ tham số và hỗ trợ context window lên tới 1 triệu token. Nhưng câu chuyện thực sự không chỉ nằm ở kích thước; nó nằm ở canh bạc kiến trúc táo bạo mà DeepSeek đang đặt cược để định nghĩa lại sự hiệu quả (efficiency) trong thế giới LLM.
Dưới đây là phân tích về những đột phá cốt lõi trong DeepSeek V4 và ý nghĩa của chúng đối với tương lai của AI.
1. Nghịch Lý Chi Phí: Tổng 1.6T, Chỉ Dùng 49B
DeepSeek V4-Pro sở hữu tổng cộng 1,6 nghìn tỷ tham số, nhưng nó chỉ kích hoạt (active) 49 tỷ tham số cho mỗi token khi suy luận. Đây là một kiến trúc MoE cực kỳ thưa thớt (sparse).
- Lợi ích (Compute): Quá trình suy luận cực kỳ nhanh và rẻ, chỉ tốn sức mạnh tính toán tương đương một mô hình 49B đặc (dense). Điều này giải thích vì sao giá API của DeepSeek lại rẻ đến mức hung hăng.
- Chi phí (Memory): Để chạy được nó, bạn vẫn cần đủ VRAM để chứa toàn bộ 1.6T tham số (khoảng 1.1 TB VRAM, đòi hỏi một cụm 8 con card H200).
2. Hybrid Attention: CSA và HCA
Làm thế nào để xử lý 1 triệu token mà không làm cháy card đồ họa? DeepSeek đã từ bỏ cơ chế attention truyền thống để sử dụng một cách tiếp cận hai lớp:
- Compressed Sparse Attention (CSA - Nén có chọn lọc): Nén KV cache (tỷ lệ 4:1) và dùng một "Lightning Indexer" để chỉ chọn ra top-k các đoạn tóm tắt liên quan nhất để đọc.
- Heavily Compressed Attention (HCA - Nén mạnh đọc hết): Nén cache cực mạnh (128:1) và đọc toàn bộ chuỗi đã được rút gọn đó.
3. Sự Ổn Định Ở Quy Mô Lớn: mHC và Muon
Việc huấn luyện một mô hình MoE sâu hơn 60 layer thường dẫn đến hiện tượng bùng nổ tín hiệu và crash hệ thống. V4 giới thiệu hai bộ ổn định:
- Manifold-Constrained Hyper-Connections (mHC): Thay thế các kết nối residual thông thường bằng các làn đường song song có cơ chế toán học đảm bảo không bao giờ khuếch đại tín hiệu vượt quá hệ số 1, ngăn mạng neural bị "nổ".
- Muon Optimizer: Thay thế bộ tối ưu AdamW tiêu chuẩn. Muon trực giao hóa các bản cập nhật trọng số, đảm bảo mô hình học một cách cân bằng mà không bị lệch hẳn về một hướng toán học nào.
4. Huấn Luyện Nhận Thức Lượng Tử (FP4 QAT)
Để tiết kiệm bộ nhớ, V4 huấn luyện các thành phần nặng nhất của nó ở định dạng 4-bit (FP4) ngay từ đầu. Khác với việc nén mô hình *sau khi* huấn luyện (thường làm giảm độ chính xác), Quantization-Aware Training (QAT) ép mô hình phải thích nghi với toán học độ chính xác thấp *trong suốt* quá trình huấn luyện. DeepSeek cũng sáng tạo ra một thủ thuật toán học để giải nén (dequantize) từ FP4 về FP8 mà không mất đi một chút dữ liệu nào.
Canh Bạc Thực Sự: Agentic Coding Thay Vì Suy Luận Chung
DeepSeek thẳng thắn thừa nhận V4 tụt hậu so với GPT-5.4 và Claude 4.5 trong các bài test suy luận (reasoning) khó nhất từ "3 đến 6 tháng". Vậy tại sao họ lại ra mắt nó?
Bởi vì các bài test benchmark chỉ đo lường ở context ngắn. DeepSeek đang đặt cược rằng tương lai không nằm ở việc giải các câu đố logic phức tạp trong môi trường vô trùng; tương lai nằm ở Agentic Coding—khả năng nhét toàn bộ một dự án code (git repository) dài 500K token vào context window và để mô hình nhìn thấy toàn cảnh với chi phí chỉ bằng một phần nhỏ.
DeepSeek V4 không chỉ là một lựa chọn giá rẻ; nó là một mô hình được tối ưu hóa cho một cuộc đua mà các gã khổng lồ công nghệ Mỹ chưa thực sự bung sức: điều phối hệ thống với context siêu dài và siêu tối ưu chi phí.
Credit
- Original article: DeepSeek V4 deep dive: CSA, HCA, mHC và canh bạc 1 triệu token context
- Original author: Nguyễn Anh Bình (Omelet)
- Source: Omelet.tech
- Rewritten by: Lugon (TeguFy)