昆仑万维多模态视频生成开源，影音图文全统一

http://www.chaguwang.cn 2026-01-30 昆仑万维内幕信息

来源 :AIGC开放社区2026-01-30

　　昆仑万维刚刚开源了SkyReels-V3。

　　SkyReels-V3通过统一的多模态上下文学习框架，在单一模型中实现了参考图像生成视频、视频持续扩展以及音频驱动的虚拟数字人三大核心功能，在视觉质量与指令跟随性上逼近闭源模型顶尖水平。

　　构建能够捕捉、模拟并预测复杂现实世界动态的世界模型，始终是人工智能迈向通用场景的基础。

　　视频生成作为其中最直观的载体，其多模态语境推理能力成为了检验这一能力的试金石。

　　该模型融合了视觉、听觉和文本输入的统一多模态情境学习框架。

　　它摒弃了过去针对单一任务训练单一模型的割裂做法，在一个架构内原生支持了高质量的图像到视频转换、长视频的智能扩展以及精准的对口型说话人视频生成，为开源社区提供了一个强大的下一代视频生成研究基座。

　　多模态情境下的统一生成

　　SkyReels-V3为了探索尚未被充分挖掘的多模态上下文学习（Multimodal In-Context Learning）在视频生成中的潜力。

　　它并没有选择为每一项功能修修补补，而是构建了一个能够同时处理视觉参考、视频片段、音频流和文本提示的统一架构。

　　SkyReels-V3利用大规模图像和视频数据集，让图像与视频混合训练。

　　静态图像提供了丰富的外观线索，帮助模型理解纹理和细节；而动态视频数据则教会了模型运动模式和时间演变。

　　通过混合训练，模型能够生成静态画面的精美质感，还能模拟出符合物理规律的动态效果。

　　此外，多分辨率联合优化策略的引入，让模型能够适应不同的空间尺度和宽高比，从而原生支持各种分辨率的输出，无需后期裁剪或强行缩放，保证了画面的原始构图美感。

　　为了实现对异构输入的有效整合，SkyReels-V3采用了统一的多参考条件策略。

　　在处理参考图像时，模型利用视频VAE（变分自编码器）对图像进行编码，并将生成的潜在表示与视频的潜在表示进行拼接。

　　允许用户输入多达四张参考图像，模型能够将这些图像中的角色、物体或背景信息与文本提示联合编码。

　　用户无需进行复杂的手动合成，就能在生成的视频中灵活组合不同的场景元素，实现了对主体外观和背景结构的精确把控。

　　在评估视频生成模型性能的竞技场上，SkyReels-V3展现出了强劲的竞争力。

　　针对电影电视、电子商务和广告等场景构建的包含200对数据的测试集显示，在参考一致性（Reference Consistency）、指令跟随（Instruction Following）和视觉质量（Visual Quality）这三个关键维度上，SkyReels-V3均取得了优异的成绩。

　　SkyReels-V3在参考一致性和视觉质量上超越了Kling 1.6和PixVerse V5等知名模型，证明了其在保持主体特征和生成高保真画面方面的卓越能力。

　　虽然在指令跟随方面略低于部分竞品，但其综合表现已处于行业前沿。

　　图像到视频与数据工程

　　在参考图像生成视频（Image-to-Video）的任务中，模型倾向于机械地移动参考图像中的像素，而非真正理解图像中的三维结构和语义内容，导致生成的视频在大幅度运动时出现崩坏或不自然的扭曲。

　　SkyReels-V3引入了一套精心设计的数据处理流水线，从根源上提升模型对参考图像的理解与重构能力。

　　这套流水线的起点是海量内部数据集，通过筛选高视觉质量和显著动态运动的片段，确保训练素材本身具备足够的动感和美学价值。

　　随后，团队采用跨帧配对策略（Cross-frame Pairing）从连续视频序列中选择参考帧。

　　参考帧与目标生成帧之间既保持了语义的一致性，又存在时间上的差异，迫使模型学习如何从静态画面推演未来的动态变化，而不是简单地从相邻帧进行插值。

　　为了彻底消除简单的帧复制行为，SkyReels-V3利用图像编辑模型对素材进行了深度加工。

　　提取视频中的主体区域，进行背景补全，并结合语义重写技术构建训练对。

　　此外，多重过滤步骤被用来移除那些由编辑模型产生的扭曲或不一致的图像，确保输入模型的每一组数据都是高质量的。

　　正是基于这样严苛的数据工程，SkyReels-V3展现出了令人印象深刻的生成能力。

　　它不仅能保持极高的人物和物体一致性，还能处理复杂的动态交互。

　　在展示的案例中，无论是男子与狗在屋前玩耍，还是老虎与狗在公园追逐，模型都能精准地保留参考图像中的纹理和特征，同时赋予它们自然流畅的动作。

　　更进一步，该模型还能处理多主体互动的复杂场景，例如男人从杯子里倒牛奶给小狗喝，这种涉及流体、物体和动物三方交互的场景，SkyReels-V3也能够依据提示词逻辑清晰地呈现。

　　在商业应用层面，这种能力被转化为即时的生产力。

　　在电商和广告场景中，只需一张模特的静态照片或一个产品的特写，模型就能生成一段叙事连贯的展示视频。

　　晨光中的橄榄油瓶被缓缓倾倒，光影随之流转；身着花裙的模特在花园中旋转，裙摆随风起舞。

　　这些生成结果在视觉上令人愉悦，更重要的是严格遵循了参考图像的物理属性，光影的一致性和纹理的真实感都达到了专业制作的水准。

　　SkyReels-V3的泛化能力同样体现在风格的多样性上。

　　从写实的人物肖像到风格化的3D卡通形象，再到动物特写，模型都能在保持原始设计风格的前提下赋予其生命力。

　　视频扩展与电影级镜头语言

　　SkyReels-V3能将一段初始视频片段，在文本引导下在时间维度上进行连贯的延伸。

　　这是对场景结构、运动动力学和视觉风格的全面继承与发展。

　　该模型支持双重扩展模式：单镜头（Single-shot）扩展和镜头切换（Shot Switching）扩展。

　　单镜头扩展侧重于动作的连贯性和时长的增加，支持生成长达30秒的720p高清视频，用户可以灵活调整扩展时长（5至30秒）和画幅比例。

　　这种模式下，模型能够处理快速运动、多主体交互等挑战性场景，同时保持物理上的合理性。

　　更有趣的是镜头切换扩展。

　　为了让AI学会像导演一样思考，SkyReels团队开发了一个镜头切换检测器（Shot Switching Detector）。

　　这个检测器能够分析长视频，识别是否存在镜头剪辑，并将其分类为单镜头、切入（Cut-in）、切出（Cut-out）、多角度（Multi-angle）、正反打（Shot/Reverse Shot）和切离（Cut-away）等专业电影技法。

　　通过对这些剪辑模式的学习，模型不再只是线性地生成画面，而是懂得了如何通过镜头语言来叙事。

　　在实际生成中，这种能力表现为对提示词的精准响应。

　　当提示词要求切到特写镜头展现震惊的表情时，模型会生成一个流畅的变焦或剪辑效果，直接聚焦于人物面部（图6）。反之，当要求切出当前镜头时，模型会拉远视角，展示更广阔的环境信息（图7）。

　　对于复杂的叙事需求，如对话场景中的正反打镜头（图9）或展示环境的切离镜头（图10），SkyReels-V3都能准确执行。

　　这种镜头语言的内化，是通过统一的多片段位置编码和分层训练实现的。

　　位置编码让模型知道每一帧在整个叙事时间轴上的位置，分层训练则让模型先掌握粗糙的运动趋势，再填充细腻的纹理细节。

　　最终，用户得到的是一段不仅画质高清，而且剪辑逻辑符合电影语法的长视频。

　　这种扩展能力甚至支持分钟级别的视频生成。

　　通过在单一的前向生成过程中合成长视频，模型有效地避免了传统分段生成中常见的身份漂移或背景突变问题，保持了长时间跨度内的一致性。

　　音频驱动的虚拟数字人

　　SkyReels-V3的会说话的数字人（Talking Avatar）模型，支持从单张肖像和输入音频片段生成高质量的视频，不仅支持多种语言和语速，还能适应歌唱等复杂音频输入。

　　为了实现极致的唇形同步，模型采用了专门的视听对齐策略，并结合区域掩码（Region Masking）技术。

　　这种技术明确地对语音单元（音素）与面部运动之间的对应关系进行建模，确保了嘴唇的开合、形状变化与声音的频率和节奏紧密贴合。

　　无论是快速的语流还是拉长的歌声，模型都能生成符合发音规律的口型。

　　在生成长视频时，模型首先确立结构上重要的关键内容，然后在这些关键帧之间生成平滑的过渡。

　　这种先定骨架，再填血肉的策略，极大地提高了长视频的时间稳定性，有效防止了长时间生成后人物面部崩坏或表情僵硬的问题。

　　SkyReels-V3还特别优化了多人场景的交互生成。

　　在涉及多个数字人的对话或采访场景中，系统允许明确的角色分配。

　　在对话音频的驱动下，说话的角色嘴唇动作与声音同步，而倾听的角色则处于自然的空闲状态（Idle State），可能会有轻微的点头或眼神交流，而不是像木头人一样静止。

　　这种对说话人与听众行为的协调控制，极大地增强了生成视频的真实感和沉浸感。

　　在与OmniHuman 1.5、KlingAvatar等主流模型的对比中，SkyReels-V3在视觉质量上达到了行业最高水平（4.60），在视听同步（8.18）和角色一致性（0.80）上也与其并驾齐驱或仅有毫厘之差。

　　SkyReels-V3通过在单一模型中融合视觉参考、电影级镜头控制和高精度的音频驱动技术，解决了传统模型中常见的物理崩坏和时序不一致问题，为创作者提供了一套完整、可控且高质量的生产工具。

　　参考资料：

　　https://github.com/SkyworkAI/SkyReels-V3

　　https://arxiv.org/abs/2601.17323

　　https://huggingface.co/collections/Skywork/skyreels-v3

　　https://www.modelscope.cn/collections/Skywork/SkyReels-V3