巨人天成
产经 科技 企业 数据 峰会 快讯 商业

SkyReels-V2引领视频生成新纪元:无限时长,影视级质量如何实现?

2025-04-21来源:ITBEAR编辑:瑞雪

昆仑万维SkyReels团队近日宣布了一项重大技术突破,他们成功推出了SkyReels-V2,这是一款全球领先的使用扩散强迫框架的无限时长电影生成模型。该模型结合了多模态大语言模型、多阶段预训练、强化学习和扩散强迫框架,实现了技术上的协同优化。

在过去的一年里,视频生成技术在扩散模型和自回归框架的推动下取得了显著进展。然而,这些技术仍面临诸多挑战,如提示词遵循能力不足、视觉质量不稳定、运动动态效果欠佳以及视频时长受限等问题。特别是在生成长视频时,现有技术往往需要在高分辨率和视频时长之间做出妥协,且由于通用多模态大语言模型无法解读电影语法,导致镜头感知生成能力不足。

为了克服这些难题,SkyReels-V2应运而生。它不仅在技术上实现了重大突破,还提供了多种实用的应用场景。通过结合多项创新技术,SkyReels-V2已经能够生成30秒至40秒的高运动质量、高一致性、高保真视频。

其中,SkyReels-V2的核心技术创新之一是其全面的影视级视频理解模型SkyCaptioner-V1。该模型采用结构化的视频表示方法,将多模态大语言模型的一般描述与子专家模型的详细镜头语言相结合,从而提高了对视频内容的理解能力。通过人工标注和模型训练,SkyCaptioner-V1不仅能够理解视频的一般内容,还能捕捉到电影场景中的专业镜头语言,显著提高了生成视频的提示词遵循能力。

SkyReels-V2还针对运动的偏好进行了优化。通过强化学习训练和使用人工标注的合成失真数据,模型解决了动态扭曲和不合理等问题,从而生成了流畅且逼真的视频内容。为了降低数据标注成本,团队还设计了一个半自动数据收集管道,高效地生成了偏好对比数据对。

在实现长视频生成方面,SkyReels-V2提出了一种高效的扩散强迫框架。与传统的从零开始训练扩散强迫模型不同,SkyReels-V2通过微调预训练的扩散模型,将其转化为扩散强迫模型。这种方法不仅减少了训练成本,还显著提高了生成效率。通过采用非递减噪声时间表,模型将连续帧的去噪时间表搜索空间大幅降低,从而实现了长视频的高效生成。

为了开发一个专业的影视生成模型,SkyReels-V2采用了多阶段质量保证框架。该框架整合了来自通用数据集、自收集媒体和艺术资源库的数据,确保了模型在资源有限的情况下仍能稳步提升表现。通过渐进式分辨率预训练和四阶段的后续训练增强,模型在指令遵循、运动质量、一致性和视觉质量等方面均取得了显著进展。

为了全面评估SkyReels-V2的性能,团队构建了SkyReels-Bench用于人类评估,并利用开源的V-Bench进行自动化评估。在SkyReels-Bench评估中,SkyReels-V2在指令遵循、运动质量、一致性和视觉质量等方面均优于基线方法。在VBench1.0自动化评估中,SkyReels-V2也取得了总分和质量分的最高分,进一步验证了其在生成高保真、指令对齐的视频内容方面的强大能力。

SkyReels-V2的推出为多个实际应用场景提供了强大的支持。在故事生成方面,模型能够生成理论上无限时长的视频,并通过滑动窗口方法和稳定化技术保持连贯叙事。在图像到视频合成方面,SkyReels-V2提供了两种生成方法,并均优于其他开源模型。模型在摄像导演功能和元素到视频生成方面也表现出色,为电影制作、广告创作、短剧、音乐视频和虚拟电商内容创作等应用提供了有力支持。

昆仑万维SkyReels团队表示,他们将继续致力于推动视频生成技术的发展,并将SkyCaptioner-V1和SkyReels-V2系列模型进行完全开源,以促进学术界和工业界的进一步研究和应用。这一举措将为内容创作者提供强大的工具,开启利用AI进行视频叙事和创意表达的无限可能。

LHDC-RAW重磅登场,以零压缩技术还原声音本真魅力
该等级蓝牙音频编解码支持24bit/96kH的高解析音频传输,可提供无压缩的Bit-Perfect串流,让发烧级玩家可以听到最原始、最纯净的好声音。 根据不同应用场景的音频传输需求,盛微先进将LHDC标准分级…

2025-10-23

在线式、全自动、可调式及锂电池充电机:功能特性与应用场景全解析
适用范围广:适用于需要持续供电的场景,如发电机、通信系统、电力系统、铁路系统、UPS不间断电源等。适用范围广:适用于多种类型和规格的蓄电池,如铅酸电池、锂电池等。智能监测:实时监测充电过程中的各项参数,如电压…

2025-10-22

OpenAI发布ChatGPT Atlas浏览器:以AI对话重塑网络浏览新体验
(AI云资讯消息)当地时间10月21日,OpenAI正式发布全AI驱动的网页浏览器ChatGPTAtlas,将对话模型置于用户网络浏览体验的核心。ChatGPT Atlas浏览器不再依赖传统输入搜索和重复…

2025-10-22

甘肃电气工大舞台:借5G物联云服务之力 绘就远程运维转型新画卷
近日,甘肃省工业和信息化厅正式公布2025年度制造业数字化转型典型案例名单,甘肃电气集团工大舞台公司凭借“以远程运维管理平台为核心的产品服务升级突破性实践”成功入选,成为甘肃省装备制造行业数字化转型的标杆企…

2025-10-22

硅碳负极电池赋能智能穿戴:续航突破,开启全天候健康监测新篇章
从市场前景看,硅碳负极电池技术已经在智能穿戴设备领域的应用正引发全球范围内的关注与布局,已经有不少相关品牌已经推出了搭载硅碳负极电池的产品。 以华为、荣耀、为首的品牌们,已经率先将硅碳负极电池技术应用于其最…

2025-10-21

牌面拉满!比亚迪成为多国元首的选择
近年来,我国新能源汽车产业在科技创新驱动下实现跨越式发展,比亚迪作为行业领军企业,技术领先全球瞩目,凭借过硬的技术实力与产品品质,赢得多国元首青睐,成为“中国制造”向“中国智造”转型升级的典型代表,更

2025-10-21

抖音电商持续治理虚假宣传保健功效,清退违规达人4.3万名,违规商家793家
10月20日,抖音电商安全与信任中心发布治理虚假宣传保健功效的进展,公告称多平台反复出现以“健康焦虑”为卖点的功效虚假宣传现象,已成为食品行业的顽疾。据了解,部分不良商家、达人将普通食品包装为“保健品”或

2025-10-21

Agilent E5061B网络分析仪3L5选件:多领域适配,高频精密测量利器
是德科技E5061B网络分析仪是一款支持5Hz至3GHz频段的测试设备,为5G通信组件、射频器件等高频精密测量而设计,具备多维校准技术与矢量信号分析能力。1动态矢量追踪:支持同时测量12个S参数,在8GHz…

2025-10-21

马斯克:以汽车储能、火箭运输、星链网络铺就人类火星移民之路
都说马斯克是“科技狂人”,可扒开他的业务版图才发现,人家干的每件事都围着同一个目标转——让人类登陆火星并在那好好生活。从造电动汽车到研究火箭回收,从铺卫星网络到规划火星城市,每一步都冲着同一个目标去。所以说,…

2025-10-21

二次元美学邂逅硬核科技,努比亚Z80 Ultra洛天依限定版燃动年末市场
更贴心的是,屏幕通过了 SGS 低蓝光护眼认证,搭载 2592Hz 高频 PWM 调光和 AI 暮光智能调节功能,配合与高通联合调校的超清视觉引擎,在兼顾观感的同时减少眼部疲劳,长时间使用也更安心。对于消费者…

2025-10-21