您的位置 首页 理财

第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

(来源:机器之心Pro)机器之心发布今天上午,AI 圈心心念念的国产大模型之光 —— DeepSeek-V4 终于上线了!


(来源:机器之心Pro)

第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

机器之心发布

今天上午,AI 圈心心念念的国产大模型之光 —— DeepSeek-V4 终于上线了!

第一时间,寒武纪基于 vLLM 推理框架完成了对此次 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 两个版本的 Day 0 适配,适配代码已开源到 GitHub 社区

第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

连同去年 DeepSeek-V3.2 的发布,寒武纪连续两次都是第一时间发布适配的国产芯片。双方的紧密合作,得益于寒武纪长期积累的自研 NeuWare 软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。DeepSeek-V4 原生运行在寒武纪芯片上,这对中国人工智能产业具有里程碑意义。此前寒武纪对 DeepSeek 系列模型开展深入的软硬件协同性能优化,并达到了业界领先的算力利用率水平。

第一时间,寒武纪原生适配DeepSeek-V4!两大国产之光再次强强联合

GitHub 项目地址:https://github.com/Cambricon/vllm-mlu?sessionid=

本次适配从 “快速模型迁移” 与 “极致性能优化”两个维度,充分展现了寒武纪的核心技术实力。

快速完成 DeepSeek-V4 新模型适配,实现 Day 0 首发

在软件生态层面,寒武纪 NeuWare 软件栈全面拥抱开源社区,原生支持 PyTorch、vLLM、Diffusers 等主流 AI 框架,新模型可快速迁移至寒武纪平台;

在国产软件生态层面,寒武纪与众智 FlagOS 生态持续深度合作,解耦模型与不同架构芯片之间的生态壁垒,进一步降低模型适配迁移成本;

在算子开发层面,寒武纪充分利用 Triton 良好的社区兼容性和易用性进行快速算子开发适配,进一步缩短功能适配周期;

在 AI 协同层面,寒武纪研发了代码生成智能体 CNAgent,实现算子生成、模型迁移的全流程加速;

在硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同,寒武纪在模型发布当日即可实现稳定运行,真正做到 Day 0 适配

极致性能优化,释放 DeepSeek-V4 推理潜能

针对 DeepSeek-V4 的新结构,寒武纪通过自研高性能融合算子库 Torch-MLU-Ops,对 Compressor、mHC 等模块进行专项加速;利用 BangC 高性能编程语言,编写稀疏 / 压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel,充分释放硬件底层性能。

在推理框架优化层面,寒武纪在 vLLM 中全面支持 TP/PP/SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。

硬件特性同样被深度挖掘:利用 MLU 访存与排序加速能力,有效加速稀疏 Attention、Indexer 等结构;高互联带宽与低通信延时,将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。

正是这种软硬件一体化的设计思路,使得寒武纪能够在大模型部署中持续降低算力成本,提升性能上限。寒武纪将继续深耕大模型软硬件协同生态,为开发者与客户提供更快、更省、更高效的大模型部署方案。

本文来自网络,不代表大头鸟新闻网立场,转载请注明出处:http://at00.com/26594.html

作者: wczz1314

为您推荐

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部