寒武纪 Torch-MLU-Ops 模型加速
DeepSeek-V4与寒武纪完成对接,AI算力效率跃升
寒武纪成功完成对开源AI模型DeepSeek-V4的Day 0适配,实现模型发布即稳定运行。通过Torch-MLU-Ops库加速Compressor、mHC等模块,结合vLLM技术支持多种并行计算方式及通信、量化优化,显著提升推理效率。此外,寒武纪深入挖掘硬件特性,优化访存与排序,加速稀疏Attention和Indexer结构,降低通信占比,提高分布式推理利用率。
寒武纪达成DeepSeek-V4全系列模型Day0适配并开源优化代码
寒武纪基于vLLM框架完成对DeepSeek-V4系列模型的“Day0”适配,涵盖285B参数Flash版及1.6T参数Pro版,确保模型发布即能在寒武纪硬件上稳定运行,代码已开源。针对DeepSeek-V4的稀疏注意力与压缩结构,寒武纪通过自研Torch-MLU-Ops库和BangC语言进行专项加速,优化核心模块,支持TP/PP/
-
debug诊断信息需要在index.php文件中开启开发者模式才能查看
- 寒武纪达成DeepSeek-V4全系列模型Day0适配并开源优化代码
- DeepSeek-V4与寒武纪完成对接,AI算力效率跃升 debug诊断信息需要在index.php文件中开启开发者模式才能查看
- DeepSeek-V4与寒武纪完成对接,AI算力效率跃升
- 寒武纪达成DeepSeek-V4全系列模型Day0适配并开源优化代码 debug诊断信息需要在index.php文件中开启开发者模式才能查看
ICP备案:沪ICP备2026056879号