DeepSeek V4 正式登場：從 V3.2 到 V4 的技術跨越

2026.04.27 產業研究 21 阅读 0 评论 5227 字

DeepSeek 近日發布了 V4 系列的預覽版本，包含兩款強大的混合專家（MoE）語言模型——DeepSeek-V4-Pro（1.6T 參數，49B 激活）與 DeepSeek-V4-Flash（284B 參數，13B 激活）。兩款模型均支持高達 100 萬 Token 的超長上下文，在架構創新與推理效率上相較前代 V3.2 實現了質的飛躍。

本文將從架構升級、效率突破、訓練創新、評測成績四個維度，梳理 DeepSeek V3.2 → V4 的核心進步。

一、架構升級：三大核心創新

1. 混合注意力機制（CSA + HCA）

這是 V4 最關鍵的架構突破。在超長上下文下，傳統 Attention 的計算複雜度呈平方增長，成為效能瓶頸。V4 引入了全新的混合注意力架構，由兩種機制交叉組合而成：

壓縮稀疏注意力（CSA，Compressed Sparse Attention）：

- 先將每 m 個 Token 的 KV Cache 壓縮為一個條目，再應用 DeepSeek Sparse Attention (DSA) 只選取 top-k 個壓縮 KV 條目進行計算 - 額外保留一小組滑動窗口 KV 條目以強化局部依賴 - 有效將序列長度壓縮至原始的 1/m

重度壓縮注意力（HCA，Heavily Compressed Attention）：

- 採用更激進的壓縮比 m'（遠大於 CSA 的 m），將大量 Token 整合為單一 KV 條目 - 保持密集注意力，追求極限的記憶體節省

兩者交叉排列使用，在模型整體性能和長上下文效率之間取得最佳平衡。

2. 流形約束超連接（mHC）

V4 引入了 Manifold-Constrained Hyper-Connections (mHC)，對傳統的殘差連接進行了本質升級：

- 標準 Hyper-Connections 透過擴展殘差流寬度 n_hc 倍提升表達能力，但容易在深層堆疊時出現數值不穩定 - mHC 的核心創新是將殘差映射矩陣 B 約束在雙隨機矩陣流形（Birkhoff polytope）上，利用 Sinkhorn-Knopp 演算法進行投影 - 這確保了映射矩陣的譜範數不超過 1（非擴張性），大幅提升了深層訓練的數值穩定性 - 同時保留了動態參數化機制，使模型在穩定性與表達力之間達到更好平衡

3. Muon 優化器

V4 首次在大規模訓練中採用 Muon 優化器，取代了大多數模組原本使用的 AdamW：

- 透過混合 Newton-Schulz 正交化迭代，使梯度更新矩陣接近正交矩陣 - 實現更快的收斂速度與更好的訓練穩定性 - 分 10 步迭代：前 8 步用係數 (3.4445, -4.7750, 2.0315) 快速收斂，後 2 步用 (2, -1.5, 0.5) 精確穩定

只有嵌入模組、預測頭、mHC 靜態偏置與所有 RMSNorm 層仍保留 AdamW。

二、效率突破：推理成本大幅降低

這是 V4 相對 V3.2 最令人震驚的進步之一。在 100 萬 Token 的超長上下文場景下：

指標	DeepSeek-V4-Pro vs V3.2	DeepSeek-V4-Flash vs V3.2
單 Token 推理 FLOPs	僅需 27%（節省 3.7 倍）	僅需 10%（節省 9.8 倍）
KV Cache 大小	僅需 10%（節省 9.5 倍）	僅需 7%（節省 13.7 倍）

這意味著：在 100 萬 Token 的場景下，V4-Flash 的推理計算量只有 V3.2 的十分之一，記憶體佔用只有十四分之一。這使得百萬 Token 長上下文推理從「理論可行」變為「工程日常」。

此外，V4 的路由專家參數採用 FP4 精度，在現有硬體上與 FP8 相當，但未來硬體理論上可再提升 1/3 效率。

三、訓練規模：32T+ Token 高質量預訓練

- DeepSeek-V4-Flash 預訓練使用 32T Token - DeepSeek-V4-Pro 預訓練使用 33T Token - 兩款模型均原生支持 100 萬 Token 上下文，無需額外的長文本微調

在內部評測中，V4-Flash-Base 已在大多數基準測試上超越 V3.2-Base；V4-Pro-Base 進一步建立了 DeepSeek 系列的新性能標竿，在推理、程式碼、長文本、世界知識等多項任務上全面領先。

後訓練管線創新：專家培育 + 在線策略蒸餾

V4 的後訓練採用兩階段範式：

1. 獨立領域專家培育：針對數學、程式碼、智能體、指令跟隨等各個領域，分別訓練獨立的專家模型（先 SFT，再用 GRPO 強化學習） 2. 在線策略蒸餾（OPD）：以這些專家為教師，透過逆 KL 散度損失訓練出一個統一的學生模型；採用全詞彙 logit 蒸餾（而非 token 級 KL 估計），梯度估計更穩定

整個過程使用超過 10 個覆蓋不同領域的教師模型。

四、評測成績：全面媲美閉源前沿模型

知識與推理

- SimpleQA / Chinese-SimpleQA：V4-Pro-Max 在廣域世界知識評測上顯著超越所有開源模型 - MMLU-Pro / HLE / GPQA：在教育知識評測上略微領先其他開源競品，與 Gemini-3.1-Pro 的差距已大幅縮小

數學與程式碼

- Codeforces：V4-Pro 和 V4-Flash 的成績可與 GPT-5.4 媲美，首次實現開源模型在程式設計競賽上匹敵閉源前沿；V4-Pro-Max 目前 Codeforces 全球排名第 23 名（人類選手榜） - 形式數學（Putnam-2025）：在混合形式-非形式推理的最前沿場景下，DeepSeek-V4 達到 120/120 完美分 - HMMT/Apex：V4-Pro-Max 在頂尖數學挑戰賽中領先所有開源模型

長上下文（100 萬 Token）

- MRCR 任務：V4-Pro 超越 Gemini-3.1-Pro，在 128K 以內的上下文中檢索性能高度穩定 - CorpusQA：同樣優於 Gemini-3.1-Pro，展示了在真實場景下的強大長文本理解能力

智能體（Agentic）能力

- SWE-Verified：V4-Pro-Max 達到 80.6% 解決率，是頂尖開源模型水平 - TerminalBench 2.0：67.9% 準確率，超越前代及多款競品 - MCP Atlas / Toolathlon：工具調用泛化能力強，不依賴特定框架

中文寫作

V4-Pro 在中文寫作場景的表現尤為突出： - 功能性寫作 對比 Gemini-3.1-Pro 的勝率：62.7% vs 34.1% - 創意寫作 對比 Gemini-3.1-Pro：指令跟隨勝率 60%，寫作品質勝率高達 77.5%

五、基礎設施創新：為規模化部署鋪路

V4 不僅在算法上創新，在工程基礎設施上也有多項突破：

- MegaMoE 融合核心：將計算、通信、記憶體訪問完全融合到一個流水線核心，對比無融合基線實現 1.50～1.73 倍的一般推理加速，延遲敏感場景（RL rollout）可達 1.96 倍 - TileLang DSL：自研領域專用語言，平衡開發效率與運行效率，支持形式化整數分析與位元精確重現 - FP4 量化感知訓練：在訓練中融入 FP4 量化，為未來硬體的更高效率預先部署 - 磁碟 KV Cache：支持將 KV Cache 卸載到磁碟，配合異質記憶體架構實現高效的共享前綴重用 - DSec 沙箱平台：面向智能體 AI 的生產級執行環境，支持數十萬個並發沙箱實例

總結

DeepSeek V4 系列代表著一個重要的技術里程碑：透過 CSA+HCA 混合注意力、mHC 殘差升級、Muon 優化器三大架構創新，在不犧牲甚至提升模型能力的前提下，將百萬 Token 長上下文的推理效率提升了數倍乃至十倍以上。

V4-Pro-Max 在多項評測中已與 GPT-5.4、Gemini-3.1-Pro 等閉源前沿模型的差距縮小至「約 3～6 個月」，而 V4-Flash 則以更低的成本提供了接近頂尖的推理能力——這對於 AI 應用的民主化和普及化具有重要意義。

隨著模型檢查點已完整開源（[HuggingFace](https://huggingface.co/collections/deepseek-ai/deepseek-v4)），DeepSeek V4 系列有望成為下一代開源 AI 基礎設施的重要組成部分。

本文著作权归作者 [ andycheng ] 享有，未经作者书面授权，禁止转载，封面图片来源于 [ 互联网 ] ，本文仅供个人学习、研究和欣赏使用。如有异议，请联系博主及时处理。