您的当前位置:首页>快讯 > 正文

最资讯丨【开普云AI实践(十六)】:Ulysses多卡黑科技+开普云双算法,加速视频生成

  • 2026-01-09 18:19:09 来源:开普云官微

你是否有过这样的体验:用DiT模型生成短视频时,单卡推理受限于海量帧数据处理,还要兼顾语音、文本与画面同步,算力瓶颈导致生成速度缓慢,创意落地往往要等很久?

为解决这一难题,开普云采用成熟的多卡推理方案Ulysses,结合自研的PrompTea加速算法,打造出“双算法”协同的视频生成方案,原本DiT模型单卡需半小时生成的视频,现在3分钟内即可完成,速度提升11倍,且画面连贯性与音画同步度不受影响。


(相关资料图)

Ulysses的核心逻辑是“序列并行+高效通信”,简单说就是让多张GPU“分 工明确、信息互通、无缝协作”,哪怕处理百万级token的超长序列,也能保持高速运转。

Ulysses流程图

第一步:序列切分,让每块GPU “各管一摊”

视频生成本质上是处理连续的帧序列,Ulysses 会先把这个超长帧序列(假设长度为 N),按参与协作的GPU 数量(假设为 P)均匀拆分,每块GPU只负责处理 N/P 的序列片段。比如1024帧的视频分给8块GPU,每块卡只需专注处理128 帧,不用承担全量数据的计算压力,从源头降低单卡的算力负荷。

同时,每块GPU会将自己负责的局部序列片段,转化为Transformer 模型能处理的查询(Q)、键(K)、值(V)嵌入向量——这是后续注意力计算的基础,让每块卡先完成局部数据的预处理,避免后续全局计算的冗余。

第二步:QKV全对全通信,实现“信息共享不内耗”

这是Ulysses最关键的创新点。传统多卡方案中,各卡之间信息交换效率低,要么通信量巨大,要么数据传输不完整,导致多卡协作反而出现“内耗”。而Ulysses采用了优化后的all-to-all通信机制:

在注意力计算前,所有GPU会同步交换各自的 Q、K、V数据——每块GPU会把自己的QKV 数据发送给其他所有GPU,同时也接收来自其他GPU的QKV数据。这样一来,每块GPU虽然只处理局部序列,但能拿到完整的全局QKV信息,而且只针对非重叠的注意力头进行计算,既保证了计算的完整性,又避免了重复劳动。

举个通俗的例子:就像多个厨师合作做菜,每个人负责一道工序,但会实时分享食材处理进度和烹饪技巧,不用反复询问或等待,协作效率自然拉满。

第三步:并行注意力计算,算力“拧成一股绳”

完成QKV数据交换后,每块GPU会针对自己负责的注意力头,并行执行注意力计算。这个过程中,所有GPU同步运算,不会出现某块卡闲置等待的情况。

而且Ulysses支持密集注意力和稀疏注意力等多种模式,能无缝适配 FlashAttention v2等高效注意力实现方案,简单的短视频与复杂的长剧情视频,都能灵活应对,兼顾速度和精度。

第四步:结果合并回传,无缝衔接后续流程

注意力计算完成后,Ulysses会再进行一次全对全通信,将各GPU的计算结果汇总合并,同时重新按序列维度拆分数据,确保输出的帧序列连贯完整。之后,合并后的结果会传入后续的 MLP(多层感知机)、层归一化等模块,完成视频帧的最终生成,整个流程闭环且高效。

通信效率高:传统方案的通信量会随序列长度增加而线性增长(复杂度O (N)),而 Ulysses的通信量复杂度是O (N/P),当序列长度和GPU数量按比例增加时,通信量始终保持恒定。

兼容性强:无需大幅修改现有训练框架,只需少量代码调整就能适配。

开普云没有止步于简单集成Ulysses,而是将其与自研的PrompTea加速算法深度融合,打造了“双算法加持” 的视频生成推理方案:

Ulysses 解决了 “多卡协同” 的核心问题,让算力得到充分释放,打破单卡算力瓶颈;

PrompTea 从 “智能缓存决策” 优化推理链路:先通过文本嵌入估算场景复杂度,自动适配缓存阈值;再剔除噪声,用时间步嵌入 + 多项式特征扩展提升输入 - 输出映射精度;最后将静态缓存升级为动态 DynCFGCache,按需复用引导输出,全环节提速且保画质。

两者结合后,效果直接 “1+1>2”:原来用DiT模型单卡生成需要半小时的视频,现在3分钟内就能完成,速度提升11倍。而且画面的连贯性、语音与嘴型的同步度丝毫不受影响,真正实现了“快且优”。

Ulysses+PromptTea结合的加速效果

同时,开普云已将 PrompTea 算法通过 GitHub 开源(https://github.com/zishen-ucap/PromptTea),以开放姿态助力行业技术迭代。

标签: 财经频道 财经资讯

推荐阅读

最资讯丨【开普云AI实践(十六)】:Ulysses多卡黑科技+开普云双算法,加速视频生成

你是否有过这样的体验:用DiT模型生成短视频时,单卡推理受限于海量帧

易点天下涨12.69%,股价创历史新高

易点天下(301171)股价创出历史新高,截至9:34,该股上涨12 69%,股价

韩国11月经常帐顺差达122.4亿美元,创历史同月最高

韩国11月经常帐顺差达122 4亿美元,创历史同月最高

每日看点!兔宝宝“腾笼换鸟”优化资产结构

1月8日晚,兔宝宝(002043)公告称,公司全资子公司兔宝宝投资以4亿元

新华时评·民生无小事|把好事办好,让少排队成常态_焦点信息

聚焦群众看病就医缴费“多次排队”“排长队”等堵点,国家医保局1月8日

猜您喜欢

【版权及免责声明】凡注明"转载来源"的作品,均转载自其它媒体,转载目的在于传递更多的信息,并不代表本网赞同其观点和对其真实性负责。亚洲网倡导尊重与保护知识产权,如发现本站文章存在内容、版权或其它问题,烦请联系。 联系方式:8 86 239 5@qq.com,我们将及时沟通与处理。