40 层统一 Transformer 一次从文本联合生成视频与音频 — 无需交叉注意力,无需多流复杂度。只要描述你的画面。
让静态图像活起来:流畅运动、稳定运镜、物理真实感,同时保留原图构图。
用参考图像、视频、音频引导风格、运动和构图。最多 9 张图、3 段视频、3 段音频作为参考。
40 层 Transformer,仅使用自注意力。首尾各 4 层为模态专属,中间 32 层在文本、视频、音频间共享参数。
仅 8 步去噪、不需 CFG。单卡 H100 上 5 秒 256p 视频耗时 2 秒,1080p 仅 38 秒。
更稳的时序连贯性、更自然的主体运动、更稳的运镜、更少视觉漂移、更强的物理真实感。
更准确还原场景描述与创意意图 — Happy Horse 忠实地按你的指挥出图。
原生支持普通话、粤语、英语、日语、韩语、德语、法语,并保持精确口型同步。
在多镜头之间稳定保持人脸、服装、身份的一致性,适合多场景叙事。