最好看的新闻,最实用的信息
06月05日 10.6°C-12.6°C
澳元 : 人民币=4.83
悉尼
今日澳洲app下载
登录 注册

DeepSeek V4 正式发布(组图)

1个月前 来源: 网易 原文链接 评论0条

大模型这周疯狂的更新没有结束,最重磅的 DeepSeek V4 突然发布了

刚刚,DeepSeek 正式推出 V4 系列预览版,包含 DeepSeek-V4-Pro(1.6T 总参数 / 49B 激活)与 DeepSeek-V4-Flash(284B 总参数 / 13B 激活)两款模型,均支持 100 万 Token 超长上下文。

架构层面,V4 实现三项关键突破。

混合注意力机制(CSA+HCA)将百万 Token 场景下的推理 FLOPs 降至 V3.2 的 27%,KV Cache 仅需 10%;

流形约束超连接(mHC)解决了超大规模 MoE 的训练不稳定性问题;其三,引入 Muon 优化器加速收敛。模型基于 32T+ 高质量 Token 预训练,并采用“领域专家培养 + 统一模型整合”的两阶段后训练策略。

性能方面,V4-Pro-Max 模式(最大推理档位)在多项基准上刷新开源模型纪录。 LiveCodeBench 达到 93.5%,Codeforces 评分 3206(超越 Gemini-3.1-Pro 与 Claude Opus-4.6);

数学推理 IMO-AnswerBench 89.8%、HMMT 2026 达 95.2%;软件工程 SWE-bench Verified 80.6%;百万 Token 长上下文测试 MRCR 83.5%。

模型同时提供 Non-Think、Think High、Think Max 三档推理模式,兼顾响应速度与推理深度。

DeepSeek 官方表示,V4-Pro-Max 已「firmly establishing itself as the best open-source model available today 」,在编程基准上达到顶级水平,并在推理与 Agentic 任务上显著缩小与领先闭源模型的差距。

V4-Flash-Max 则在给予充足思考预算时,可实现与 Pro 版本相当的推理表现。

目前,V4 系列模型权重已在 Hugging Face 和 ModelScope 上架,技术报告同步公开。

DeepSeek V4 正式发布(组图) - 1

DeepSeek V4 正式发布(组图) - 2

DeepSeek V4 正式发布(组图) - 3

DeepSeek V4 正式发布(组图) - 4

DeepSeek V4 正式发布(组图) - 5

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]

友情链接: 华人找房 到家 今日支付Umall今日优选