DeepSeek 近日發布了 V4 系列的預覽版本,包含兩款強大的混合專家(MoE)語言模型——DeepSeek-V4-Pro(1.6T 參數,49B 激活)與 DeepSeek-V4-Flash(284B 參數,13B 激活)。兩款模型均支持高達 100 萬 Token 的超長上下文,在架構創新與推理效率上相較前代 V3.2 實現了質的飛躍。
本文將從架構升級、效率突破、訓練創新、評測成績四個維度,梳理 DeepSeek V3.2 → V4 的核心進步。
一、架構升級:三大核心創新
1. 混合注意力機制(CSA + HCA)
這是 V4 最關鍵的架構突破。在超長上下文下,傳統 Attention 的計算複雜度呈平方增長,成為效能瓶頸。V4 引入了全新的混合注意力架構,由兩種機制交叉組合而成:
壓縮稀疏注意力(CSA,Compressed Sparse Attention):- 先將每 m 個 Token 的 KV Cache 壓縮為一個條目,再應用 DeepSeek Sparse Attention (DSA) 只選取 top-k 個壓縮 KV 條目進行計算 - 額外保留一小組滑動窗口 KV 條目以強化局部依賴 - 有效將序列長度壓縮至原始的 1/m
重度壓縮注意力(HCA,Heavily Compressed Attention):- 採用更激進的壓縮比 m'(遠大於 CSA 的 m),將大量 Token 整合為單一 KV 條目 - 保持密集注意力,追求極限的記憶體節省
兩者交叉排列使用,在模型整體性能和長上下文效率之間取得最佳平衡。
2. 流形約束超連接(mHC)
V4 引入了 Manifold-Constrained Hyper-Connections (mHC),對傳統的殘差連接進行了本質升級:
- 標準 Hyper-Connections 透過擴展殘差流寬度 n_hc 倍提升表達能力,但容易在深層堆疊時出現數值不穩定 - mHC 的核心創新是將殘差映射矩陣 B 約束在雙隨機矩陣流形(Birkhoff polytope)上,利用 Sinkhorn-Knopp 演算法進行投影 - 這確保了映射矩陣的譜範數不超過 1(非擴張性),大幅提升了深層訓練的數值穩定性 - 同時保留了動態參數化機制,使模型在穩定性與表達力之間達到更好平衡
3. Muon 優化器
V4 首次在大規模訓練中採用 Muon 優化器,取代了大多數模組原本使用的 AdamW:
- 透過混合 Newton-Schulz 正交化迭代,使梯度更新矩陣接近正交矩陣 - 實現更快的收斂速度與更好的訓練穩定性 - 分 10 步迭代:前 8 步用係數 (3.4445, -4.7750, 2.0315) 快速收斂,後 2 步用 (2, -1.5, 0.5) 精確穩定
只有嵌入模組、預測頭、mHC 靜態偏置與所有 RMSNorm 層仍保留 AdamW。
二、效率突破:推理成本大幅降低
這是 V4 相對 V3.2 最令人震驚的進步之一。在 100 萬 Token 的超長上下文場景下:
| 指標 | DeepSeek-V4-Pro vs V3.2 | DeepSeek-V4-Flash vs V3.2 |
|---|---|---|
| 單 Token 推理 FLOPs | 僅需 27%(節省 3.7 倍) | 僅需 10%(節省 9.8 倍) |
| KV Cache 大小 | 僅需 10%(節省 9.5 倍) | 僅需 7%(節省 13.7 倍) |
這意味著:在 100 萬 Token 的場景下,V4-Flash 的推理計算量只有 V3.2 的十分之一,記憶體佔用只有十四分之一。這使得百萬 Token 長上下文推理從「理論可行」變為「工程日常」。
此外,V4 的路由專家參數採用 FP4 精度,在現有硬體上與 FP8 相當,但未來硬體理論上可再提升 1/3 效率。
三、訓練規模:32T+ Token 高質量預訓練
- DeepSeek-V4-Flash 預訓練使用 32T Token - DeepSeek-V4-Pro 預訓練使用 33T Token - 兩款模型均原生支持 100 萬 Token 上下文,無需額外的長文本微調
在內部評測中,V4-Flash-Base 已在大多數基準測試上超越 V3.2-Base;V4-Pro-Base 進一步建立了 DeepSeek 系列的新性能標竿,在推理、程式碼、長文本、世界知識等多項任務上全面領先。
後訓練管線創新:專家培育 + 在線策略蒸餾
V4 的後訓練採用兩階段範式:
1. 獨立領域專家培育:針對數學、程式碼、智能體、指令跟隨等各個領域,分別訓練獨立的專家模型(先 SFT,再用 GRPO 強化學習) 2. 在線策略蒸餾(OPD):以這些專家為教師,透過逆 KL 散度損失訓練出一個統一的學生模型;採用全詞彙 logit 蒸餾(而非 token 級 KL 估計),梯度估計更穩定
整個過程使用超過 10 個覆蓋不同領域的教師模型。
四、評測成績:全面媲美閉源前沿模型
知識與推理
- SimpleQA / Chinese-SimpleQA:V4-Pro-Max 在廣域世界知識評測上顯著超越所有開源模型 - MMLU-Pro / HLE / GPQA:在教育知識評測上略微領先其他開源競品,與 Gemini-3.1-Pro 的差距已大幅縮小
數學與程式碼
- Codeforces:V4-Pro 和 V4-Flash 的成績可與 GPT-5.4 媲美,首次實現開源模型在程式設計競賽上匹敵閉源前沿;V4-Pro-Max 目前 Codeforces 全球排名第 23 名(人類選手榜) - 形式數學(Putnam-2025):在混合形式-非形式推理的最前沿場景下,DeepSeek-V4 達到 120/120 完美分 - HMMT/Apex:V4-Pro-Max 在頂尖數學挑戰賽中領先所有開源模型
長上下文(100 萬 Token)
- MRCR 任務:V4-Pro 超越 Gemini-3.1-Pro,在 128K 以內的上下文中檢索性能高度穩定 - CorpusQA:同樣優於 Gemini-3.1-Pro,展示了在真實場景下的強大長文本理解能力
智能體(Agentic)能力
- SWE-Verified:V4-Pro-Max 達到 80.6% 解決率,是頂尖開源模型水平 - TerminalBench 2.0:67.9% 準確率,超越前代及多款競品 - MCP Atlas / Toolathlon:工具調用泛化能力強,不依賴特定框架
中文寫作
V4-Pro 在中文寫作場景的表現尤為突出: - 功能性寫作 對比 Gemini-3.1-Pro 的勝率:62.7% vs 34.1% - 創意寫作 對比 Gemini-3.1-Pro:指令跟隨勝率 60%,寫作品質勝率高達 77.5%
五、基礎設施創新:為規模化部署鋪路
V4 不僅在算法上創新,在工程基礎設施上也有多項突破:
- MegaMoE 融合核心:將計算、通信、記憶體訪問完全融合到一個流水線核心,對比無融合基線實現 1.50~1.73 倍的一般推理加速,延遲敏感場景(RL rollout)可達 1.96 倍 - TileLang DSL:自研領域專用語言,平衡開發效率與運行效率,支持形式化整數分析與位元精確重現 - FP4 量化感知訓練:在訓練中融入 FP4 量化,為未來硬體的更高效率預先部署 - 磁碟 KV Cache:支持將 KV Cache 卸載到磁碟,配合異質記憶體架構實現高效的共享前綴重用 - DSec 沙箱平台:面向智能體 AI 的生產級執行環境,支持數十萬個並發沙箱實例
總結
DeepSeek V4 系列代表著一個重要的技術里程碑:透過 CSA+HCA 混合注意力、mHC 殘差升級、Muon 優化器三大架構創新,在不犧牲甚至提升模型能力的前提下,將百萬 Token 長上下文的推理效率提升了數倍乃至十倍以上。
V4-Pro-Max 在多項評測中已與 GPT-5.4、Gemini-3.1-Pro 等閉源前沿模型的差距縮小至「約 3~6 個月」,而 V4-Flash 則以更低的成本提供了接近頂尖的推理能力——這對於 AI 應用的民主化和普及化具有重要意義。
隨著模型檢查點已完整開源([HuggingFace](https://huggingface.co/collections/deepseek-ai/deepseek-v4)),DeepSeek V4 系列有望成為下一代開源 AI 基礎設施的重要組成部分。