互联网资讯 · 2026年1月30日 0

昆仑万维宣布 SkyReels-V3 开源,视频生成迈入全能时代

SkywoRk AI 于 1 月 29 日发布开源自研视频生成模型 SkyReels-V3,作为一组多模态视频生成方案,具备参考图像转视频、视频延长与音频驱动虚拟形象等核心能力,在单一架构内实现高保真视频的多模态生成。

三大核心能力作为独立模块经过优化,支持灵活组合。借助企业级数据处理、快速推理和高效训练架构,所生成的视频达到专业水平,多个指标处于行业前沿。

SkyReels-V3 已开源,欢迎业内人士共同探索更多应用场景。

参考图像转视频:让静态画面走向动态。

SkyReels-V3 可基于 1-4 张参考图像,结合文本提示,生成时间连贯、语义一致的高质量视频序列。无论人物、商品还是背景,生成视频都能保留原有身份特征、空间构图与叙事连贯性。

其背后是团队在数据构建、多参考条件融合和混合训练策略等方面的多项技术创新。

高质量数据构建:从海量视频中筛选具有显著动态的素材,采用跨帧配对以确保时间多样性;并通过图像编辑模型对主体区域进行分离、背景补全和语义重写,避免复制粘贴伪影,从数据源头提升生成质量。

多参考条件融合:采用统一策略对视觉和文本信息进行联合编码,最多支持四张参考图像。无需复杂拼接或蒙版即可实现多主体、多元素的自然交互与场景组合,例如在电商场景中把商品图与虚拟主播结合,生成带货视频,同时保留关键细节。

混合训练策略:将图像和视频数据混合训练,利用大规模数据集和多分辨率联合优化来提升对不同空间尺度和宽高比的鲁棒性。

在包含多领域的混合测试集中,SkyReels-V3 展现出卓越的性能。

面对人物、动物、物体和背景等多种参考类型,SkyReels-V3 在参考一致性指标上达到 0.6698,领先多家商用模型;在视觉质量指标上以 0.8119 获得领先,显示在保持参考特征的同时仍能生成高保真视频。

图片: https://tianxun.xyz/Images/easyvpn24/5m0Su0qY5A.jpg

图像对比:SkyReels-V3 与行业前沿模型在多主体参考视频生成上的定量对比。

视频延长:突破时长限制,扩展叙事边界。

该模型的延长功能可把输入片段延伸为时间连贯、语义一致的后续内容,在文本引导下保持运动、场景结构与视觉风格,未来可应用于电影、电视剧、短视频系列、游戏过场和长视频增强等领域。

双模式延长:传统延长多局限于时间维度,SkyReels-V3 的延长实现从时间扩展提升为叙事扩展。

提供两种专业模式:单镜头延长保持原视角与叙事连续性,平滑延续;镜头切换延长模式支持五种转场技术,包括切入、切出、多角度、正反镜头和切离,帮助从一个短片出发创造完整叙事的专业视频。

此外,系统内置智能镜头切换检测器,能自动分析长视频中的转场点并分类。

SkyReels-V3 的输出配置多样,支持 480p/720p 分辨率以及 1:1、3:4、4:3、16:9、9:16 等比率,单镜头延长长度为 5-30 秒。

技术上,采用统一的多分段位置编码,能够精准建模复杂视频序列中的运动轨迹;通过分层混合训练实现镜头之间的平滑切换,解决传统延长中的跳跃与断裂问题,在多主体交互、快速运动和场景变化下仍保持较高的物理可信度与时间连贯性。

虚拟形象模型:声画同步,开启会说话的数字人时代。

该虚拟形象模型可基于单张肖像和音频生成高质量、音视频同步的视频,支持分钟级长视频和多角色交互,为虚拟主播、在线教育与企业宣传等领域带来新的创作机会。

核心能力包括高保真视觉合成、广泛的风格兼容、长视频稳定生成与多人物场景支持。

高保真视觉合成:能够精准还原唇部运动与细微表情,使虚拟形象的表现更自然;无论真实人物、卡通、动物或艺术风格,均能保持原有特征的一致性,以满足不同场景的定制需求。

风格兼容性:具备卓越的风格适应能力,能根据不同肖像输入生成相应风格的虚拟形象视频,覆盖商业用途与个人创作的多场景。

长视频稳定生成:通过关键帧约束与平滑过渡,确保长视频的稳定性与一致性,便于制作教育、新闻与长篇叙事等。

多人物场景支持:系统可显式分配角色并实现协调交互,通过说话人掩码实现对话、采访等复杂场景的自然呈现。

该模型在多人物场景方面的优势来自多项技术创新,音视频对齐确保口型与语音的精准同步,即使在快速语速或特殊发音时也能保持同步;关键帧约束机制通过识别关键表情和口型节点,提升生成效率与长视频的连贯性与稳定性。

图片: https://tianxun.xyz/Images/easyvpn24/0TvdS8FYIP.jpg

图示:SkyReels-V3 与当前主流模型在数字人生成领域的对比指标。

三合一能力革新的视频生成,SkyReels-V3 已全面开源。

自 2025 年起,昆仑万维陆续发布并开源多款 SkyReels 模型,包括 SkyReels V1、V2、A1、A2、A3。

截至目前,SkyReels 系列在 HuggingFace 的下载量接近 30 万,GitHub Star 超过 1 万,受到开源社区及研究机构的广泛关注。

昆仑万维坚持开源理念,推动 AI 技术开放与社区共建。秉持 All in AGI 与 AIGC 的战略决心,SkyReels-V3 已全面开源,欢迎开发者下载并参与社区建设。

开源将推动 AI 视频创作生态的持续改善与繁荣。

此改写版本聚焦核心技术要点,便于存入数据库进行检索与展示。