leyu.com官网-华为昇腾多模态推理加速套件正式开源！集成四大能力

发布时间：2026-03-10

　　【leyu.com科技消息】12月19日，华为计算官方宣布，昇腾多模态推理加速套件——MindIE SD项目已正式开源。该项目旨在通过与开源社区协作，将昇腾在多模态推理领域积累的原子能力赋能给广大开发者，实现在昇腾硬件上高效运行各类前沿多模态模型。

华为

　　leyu.com注意到，MindIE SD项目包含以下四大关键加速特性，旨在全方位提升多模态模型在昇腾平台上的推理效率：

　　1. 加速插件

　　提供多模态亲和加速插件能力，例如支持block-r:破高膙辚?f然揩襮嫛蟿F鸠5pep=k?确矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鹆黮}劷:q{|?e ?%坖D覑眤丬鲩M(缬s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫ise稀疏Attention的稀疏Attn插件，以及对RoPE（旋转位置编码）等操作进行融合的融合插件，有效减少计算与内存访问开销。

　　2. 以存代算　　提供DiT module、DiT block、Attention等多种粒度的缓存（Cache）算法。该特性支持根据不同场景需求选择加速策略，能显著提升模型运行时性能。用户可自定义加速比，并利用工具实现缓存算法的快速寻优。

华为昇腾多模态推理加速套件正式开源！集成四大能力

　　3. 多卡并行　　集成了CFG（Classifier-Free Guidance）并行、USP（Ulysses并行）等先进并行能力。这些能力已融入加速算子的API设计中，开发者仅需进行接口替换即可自动使能，从而快速适配生成类模型的通用并行算法优化框架，充分利用多卡计算资源。

　　4. 量化与稀疏Attention　　针对昇腾硬件的数据类型和算力分布，提供亲和的量化算法，在保证模型效果的前提下提升推理效率并降低资源消耗。同时，提供亲和的稀疏Attention算子，以降低Attention计算的复杂度，并支持多模态算子的快速寻优。

　　目前，MindIE SD已成功实现对Stable Diffusion系列、OpenSora、混元（Hunyuan）、万视（Wan）等多模态生成模型的快速适配与昇腾加速。相关模型已在Modelers/ModelZoo仓库中发布，并与vllm-omni等开源组件对接。未来，其加速能力将进一步扩展至多模态理解、全模态等更广泛的场景。

-leyu.com官网