当全球AI视频生成领域还在为提升画质、延长时长而激烈竞争时,一家名为Xmax AI的初创公司正以颠覆性创新重新定义行业规则。这家由前华为"天才少年"领衔的团队,近日推出了全球首个实现虚实融合的实时交互视频生成模型X1,通过毫秒级响应与低门槛手势操作,将AI视频从"被动观看"推向"主动共创"的新纪元。
在传统AI视频生成场景中,用户往往需要输入复杂指令,经历漫长渲染等待,最终获得的仍是单向输出的预制内容。X1模型彻底打破了这种桎梏——通过手机摄像头对准桌面,用户选取的滚球兽照片可瞬间"跃出"屏幕,不仅会随着手势抚摸转头蹭手,被轻捏时还会产生Q弹物理反馈,甚至能被稳稳托在掌心。这种突破次元壁的交互体验,得益于团队独创的端到端流式重渲染架构与帧级自回归DiT模型,将扩散采样速度提升百倍的同时,实现了对捏、拖拽等复杂手势的精准解析。
技术突破的背后是跨学科团队的协同攻坚。来自清华KEG实验室、香港科技大学(广州)及字节跳动的顶尖人才,构建了统一交互模型架构,融合空间三维关系与屏幕二维操作。针对虚实融合数据稀缺的难题,团队开发出半自动化合成管线,既筑牢技术壁垒,又为我国AI视频领域储备了关键数字资产。这种硬核实力使X1在四大核心场景中展现惊人表现:上传任意角色图可实现次元互动,抚摸屏幕中的兔子会触发转头蹭手的动态响应;选择梵高画作或乐高积木图,现实场景可实时转化为风格化世界;拖拽照片中角色的耳朵或嘴角,静态图像即刻产生摇头微笑的生动反应;对准朋友选择Emoji,还能瞬间生成魔性动态表情包。
相较于2024年全球AI视频生成市场6.148亿美元的规模,Xmax AI选择了一条更具挑战性的道路。当Sora、Runway等巨头仍在影视广告领域争夺专业用户时,X1模型通过技术演示应用X-cam已向大众开放体验。用户无需复杂操作,仅凭直觉手势就能让幻想挣脱屏幕束缚,这种"人人可玩"的交互范式,或许正预示着下一代内容引擎的雏形。正如团队Slogan所言"Play the World through AI",当技术突破想象边界,每个普通用户都能成为数字世界的创造者。
