机器之心发布 机器之心编辑部
可灵,视频生成领域的佼佼者,近来动作不断。继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏?揭秘背后三项重要研究》。可灵近一年来的多次迭代展现出惊人的技术进步,让我们看到了 AI 创作的无限可能,也让我们思考视频生成技术面临的挑战。
视频作为一种时空连续的媒介,对时间维度的连贯性有很高的要求。模型需要确保视频中的每一帧画面都能自然衔接,包括物体运动、光照变化等细节都需要符合现实世界的规律。另一个挑战是用户意图在视频中的精确表达。当创作者想要实现特定的视觉效果时,仅依靠文本描述往往难以准确传达他们的创作意图。这两个挑战直接导致了视频生成的“抽卡率”高,用户难以一次性获得符合预期的生成结果。
针对这些挑战,一个核心解决思路是:通过多模态的用户意图输入来提升视频生成的可控性,从而提升成功率。可灵团队沿着这一思路,在四个控制方向上做了代表性的探索: 三维空间控制:之前的视频生成往往局限于单一视角,难以满足复杂叙事需求。为此,团队研究了 SynCamMaster ,实现了高质量的多机位同步视频生成。让创作者能像专业导演一样,通过多角度镜头切换来讲述故事。运动轨迹控制:3DTrajMaster 让创作者能在三维空间中直观地规划和精确地控制物体运动轨迹,让用户轻松实现复杂的动态效果。内容风格控制:StyleMaster 确保了生成视频在保持时间连贯性的同时,能够统一呈现特定的艺术风格,为创作者提供了更丰富的艺术表现手法。交互控制:GameFactory 使用少量 MineCraft 动作数据就能实现交互式游戏体验。结合视频生成的开放域生成,展示了视频生成技术在游戏创作中的广阔应用前景。
这一系列研究成果充分展现了可灵在视频生成领域的系统性探索。通过更好地理解和整合多模态用户意图,降低生成“抽卡率”,可灵正在逐步实现让 AI 视频创作更加精确、可控且易用的目的。 多机位同步视频生成 ——SynCamMaster
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠 AI 就能够创作出好的视频。然而,我们所常见的大荧幕上的电影通常是由多个摄像机同步拍摄后再剪辑而成的,导演可以根据人物情绪变化或故事情节发展切换镜头,以达到更好的视觉效果。例如,在拍摄两人交谈的场景时,镜头通常根据说话人在两人间切换,并在交谈结束后切换到对整个场景拍摄的镜头。而如今的视频生成模型均无法实现 “多机位同步” 视频生成,限制了 AI 影视制作的能力。
近期,可灵研究团队在 “多视角同步视频生成” 领域做出了首次尝试,推出了基于文本的“多视角同步” 视频生成模型 SynCamMaster,该模型可以根据用户提供的文字描述和相机位姿信息,生成时序同步的多段不同视角视频。
视频链接:
https://mp.weixin.qq.com/s/3NI9YITmCrd8cDT1YMlA9A?token=1323334260&lang=zh_CN SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等,在 AI 影视制作、虚拟拍摄等场景有较强的应用价值。此外、该工作提出了多视角同步视频数据集 SynCamVideo-Dataset用于多视角视频生成的研究。 论文标题:SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints项目主页:https://jianhongbai.github.io/SynCamMaster代码:https://github.com/KwaiVGI/SynCamMaster论文:https://arxiv.org/abs/2412.07760 1. SynCamMaster 效果展示:支持多种相机视角变化
a) 相机方位角变化
上图中研究者将 SynCamMaster 与最先进的方法进行了比较。研究者使用 SynCamMaster 合成多视角图像(M.V. 图像)作为基线方法的参考图像(以蓝色框表示)。据观察,基线方法无法生成多视角同步视频。例如,蓝色巴士可能在一个镜头中停留在原地,在另一个镜头中向前移动。而 SynCamMaster 可以合成符合相机姿势和文本提示的视图对齐视频。更多结果请访问项目主页(https://jianhongbai.github.io/SynCamMaster)查看。 5. 总结
在本文中,研究者提出了 SynCamMaster ,一种基于文本和相机位姿的“多视角同步” 视频生成模型,该模型可以根据用户提供的文字描述和相机位姿信息,生成符合文本描述的时序同步的多段不同视角视频。SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等。此外、研究者还提供了多视角同步视频数据集 SynCamVideo-Dataset用于多视角视频生成的研究。 精准控制视频中物体的 3D 轨迹 ——3DTrajMaster
除了多机位同步生成,虚拟拍摄的真正落地亟需精准的物体可控性。试想一下,如果我们可以精准控制视频中每个主体的 3D 时空位置,那么就可以拍摄出针对物体的定制化特效,进一步促进 AI 电影的进展。
可灵研究团队提出了 3DTrajMaster 的多物体 3D 位姿可控的视频生成模型。该方法通过逐主体相对应的 3D 轨迹控制视频生成中多个主体在 3D 空间中的运动,相比与传统在 2D 空间的表征 (边界框、点轨迹等) 是一种更本真的物体运动建模方式。这里的 3D 轨迹指可控制 6 个自由度,即控制主体的 3D 位置和朝向。
论文标题:3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation项目主页:http://fuxiao0719.github.io/projects/3dtrajmaster代码:https://github.com/KwaiVGI/3DTrajMaster论文:https://arxiv.org/pdf/2412.07759 1. 3DTrajMaster 性能展示
以下展示了 3DTrajMaster 的广泛特征: (1) 泛化到多种主体:包括人、动物、机器人、飞机、汽车,甚至抽象的火焰、云雾等。
(2) 泛化到多样的背景:如下所示可以将一只考拉以相同的 3D 轨迹生成在城市、森林、沙漠、海滩、冰川、洞穴等不同的场景中。
(3) 生成复杂的 3D 轨迹:支持多个主体的 3D 遮挡、180 度 / 连续 90 度的转弯、大角度的变向、原地转圈等
5. 总结与未来展望
3DTrajMaster 展示了强大的视频生成和 3D 交互的可能性。在未来,更复杂的运动表征 (如人跳舞、挥舞手等局部运动,一个男人举起一只狗等交互运动) 也可以通过类似的 structured 运动表征进行建模,其中核心的是构建高质量的运动表征数据。同时,更加复杂的文本提示词输入和更多的主体输入也是可以进一步改进的点,这些都将为高质量可控的虚拟视频拍摄打下基础。 独特的视频艺术风格呈现 ——StyleMaster
创作者们不再满足于简单的视频生成,而是追求更具艺术性和个性化的创作表达。风格控制其能够赋予视频独特的艺术气质。然而,现有的视频风格化方法面临着两个主要挑战:难以准确提取和迁移参考图像的风格特征,以及在视频风格转换时出现时序不连贯、内容难以保持的问题,这严重限制了 AI 视频艺术创作的表现力。 StyleMaster,通过进一步提升参考图像中的风格和内容的解耦能力来提升生成视频中的风格准确度,引入内容控制模块以及运动提升模块来改善内容一致性与时序稳定性。
论文标题:StyleMaster: Stylize Your Video with Artistic Generation and Translation论文链接:https://arxiv.org/abs/2412.07744项目主页:https://zixuan-ye.github.io/stylemaster/代码仓库:https://github.com/KwaiVGI/StyleMaster 1. StyleMaster 效果展示
以下展示了 StyleMaster 的多方面性能。 视频风格迁移:给定任意源视频,StyleMaster 能在内容保持良好的前提下根据提供的风格参考图将其转换至对应风格。并且在时序上保持良好的一致性和流畅度。