巨人天成
产经 科技 企业 数据 峰会 快讯 商业

字节大模型内部赛马,下一个爆款 or 烧钱深坑?

2024-10-28来源:蓝鲸新闻编辑:瑞雪

文|Tech星球 陈桥辉

今年最火的两款全球AI产品,当属视频生成大模型产品Sora和音乐生成大模型产品Suno。

今年4月,经Suno爆改的周杰伦金曲《以父之名》和《夜曲》直接封神,在音乐界掀起了一股不小的波澜。不少人认为,这两条赛道会催生出新的爆款产品,谁能够拿下其中一条赛道,谁就能成为AI行业的王者。

两款AI产品的火爆,迅速点燃了国内大厂对这两条赛道的争夺战。阿里发布了通义万相AI视频服务,字节跳动发布了“PixelDance”,快手发布了视频大模型产品“可灵”,QQ音乐、网易云音乐也发布了AI创作功能,而AI头部公司的Minimax、生数科技、智谱AI也纷纷跟进。

在这两条热门赛道中最不遗余力的当属字节。9月24日,火山引擎在深圳举办AI创新巡展上,发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,意味着字节正式宣告进军AI视频生成赛道。

不仅如此,字节还在音乐生成赛道上,推出了Seed-Music音乐生成模型,并于今年7月推出了发布了全新版本的海绵音乐APP,主打“一键创作你的AI音乐”,这款产品也是字节AI音乐产品的代表作。

至此,字节完成了在AI视频和AI音乐这两条热门赛道上的全布局。火力全开之下的字节,能够得偿所愿吗?

字节AI赛道创业:试错、内部赛马并举

豆包视频生成大模型的发布,是字节在AI领域的一次重磅亮相。

据火山引擎介绍,豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

而在此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如,后者可以让不同人物完成多个动作指令的互动,使人物样貌、服装细节甚至头饰,在不同运镜下也保持一致,接近实拍效果。

基于豆包视频生成大模型,字节内部也推出了相关的具有AI视频生产能力的产品,主要由两个业务团队在推进,一个是豆包,一个是剪映,可以看做是内部的一场赛马。

豆包对外的产品是豆包APP,剪映则是即梦AI APP,两者的底层技术都是使用的豆包视频生成大模型,即梦使用的是豆包视频生成大模型“PixelDance”。

两款产品虽然都有着视频生成能力,但即梦更具有代表性。

即梦的前身是Dreamina,是原字节跳动中国CEO、转岗至剪映的业务负责人张楠的创业项目。刚上线之时,这仅仅是一个文生图的创作产品。随后,Dreamina瞄上了Sora的潜力,内部基于PixelDance模型开始研发视频生成能力,今年2月,Dreamina的视频生成服务开启对外测试。

今年5月,Dreamina改名即梦,宣布其AI作图和AI视频生成功能全量上线,并在抖音内进行大量投放。张楠更是在朋友圈转发,称即梦刚刚上线,还有很多待优化的地方。

音乐生成方面,海绵音乐APP则是字节的代表,这款产品是字节在AI赛道上试错的一个典型案例。海绵音乐的前身是2022年2月的海绵乐队APP。Tech星球了解到,这是字节内部的一款创业项目,但这款产品诞生之初并不是奔着AI而去,而是服务于汽水音乐和抖音上对音乐编辑有所需求的用户。

到了2022年底,随着国内AI浪潮出现后,海绵乐队才开始转向AI领域,并加入AI作曲能力,但此时的创作能力很一般,“因为此时的字节,并没有成体系的音乐生成大模型,海绵乐队只能靠自己去摸索”,一位曾在海绵乐队工作的员工向Tech星球表示。

2023年6月推出了新版本,主打哼唱成曲和伴奏制作,虽然在AI能力上仍不出众,但对接下来的试错和更新提供了经验。随着豆包音乐生成模型的出现,才让海绵乐队有了一战之力,最终在今年7月,更名为海绵音乐,主攻AI音乐创作赛道。目前,已经开始在各渠道进行投放推广。

需要注意的是,字节的AI产品在这两条赛道上的发展并不是独立,而是相互竞争。豆包、即梦在近期也开始推出音乐生成服务,逐步渗透到AI音乐赛道,“竞争是无可避免的,谁都想成为爆款AI产品,谁都想成为或继续保持在内部的核心位置,这无疑需要AI产品更加具有综合体验”,即梦的一位运营告诉Tech星球。

左手视频,右手音乐

据七麦数据显示,字节视频生成APP即梦自今年8月上线以来,在iOS端的摄影与录像(免费)榜单的排名逐渐上升,两个月时间,已经稳定在前40的名次,安卓端,近30天日均下载量,为22978次。

借助抖音APP以及投放,即梦的视频生成服务逐渐成为不少抖音创作者的首选。但即梦并不满足于此,今年8月,即梦开始在AI短剧领域的创作探索。联合抖音、博纳影业AIGMS制作中心出品并制作《三星堆:未来启示录》。即梦还在抖音内发起了“即梦AI迷你剧场”的活动,支持AI短剧的创作。

截至9月,豆包大模型日均tokens使用量已经超过1.3万亿,相比5月首次发布时猛增十倍,其中不乏即梦所作出的贡献。

在商业模式上,即梦已推出会员体系,有79元单月、69元连续包月和659元包年的基础会员等不同订阅方式。具体来说,基础会员每月可使用505个积分生成约2020张图片或168个AI视频。

有分析人士认为,即梦目前的产品功能、商业模式聚焦于服务UGC(用户生成内容),与抖音的生态融合将是未来的发展重点。

相比于字节在视频生成方面取得的成绩,字节在音乐生成方面,目前仍然是不温不火。七麦数据显示,海绵音乐有着广告投放,但并没有在iOS端,取得排名,近30日日均下载量仅为15次。

音乐行业人士李磊认为,虽然AI音乐很火,但好听的AI歌曲创作多来自于专业人士,普通用户对于AI音乐生成工具的使用门槛和学习成本也有一定的要求,如果工具过于复杂或难以使用,就会影响用户的体验和接受度。而且,用户对AI音乐的接受度也需要时间来培养。

“字节在多个领域都有业务布局,在资源有限的情况下,公司需要在不同业务之间进行资源分配和权衡。AI音乐生成领域虽然具有很大的发展潜力,但在前期需要大量的研发投入和市场推广,相比于更加成熟的AI视频,公司肯定更愿意加大对这一块的力度投入”,一位汽水音乐的运营小可告诉Tech星球。

下一个AI爆款,还是烧钱深坑

不可否认,AIGC(人工智能生成内容)是一个巨大的市场,量子位智库预计,2024年我国AIGC应用市场规模达到200亿。2030年,我国AIGC应用将成为万亿规模市场,五年(2024-2028年)平均复合增长率超过30%。

目前,国内在视频生成模型方面,有优势的是快手和字节跳动,因为二者的业务离视频更近,能够待其视频生成足够优秀之后会快速完成拉新,并带动用户体验提升。

而背靠快手的视频生成AI产品可灵,也成为了字节在AI视频赛道上最有力的竞争者。

可灵的发展速度也很迅猛,今年8月的官方数据显示,可灵累计生成视频数量超过1600万,不到2个月,可灵AI已有超过360万用户,累计生成3700万个视频和超过一亿张图片。

近日,快手副总裁、大模型团队负责人张迪宣布,可灵AI将内测视频人脸模型功能。该功能基于创新的ID保持能力,支持用户自助训练人脸模型,完成训练后,可使用该模型进行5秒至10秒的文生视频。

AI视频生成技术研发成本高和周期长也是一个事实。据界面新闻报道,百度CEO李彦宏称“百度不做Sora”后,有关“中国版Sora到底值不值得做”的话题,在微博、小红书等社交媒体引发众多争论。

李彦宏在内部讲话中称,Sora这种视频生成模型的投入周期太长,10年、20年都可能拿不到业务收益,无论多火爆,百度都不去做。

AI音乐生成方面,版本正在快速迭代,字节仍需快马加鞭。近日,AI音乐创作平台Suno推出的一项创新功能——SunoScenes,允许用户通过上传照片和视频作为提示词,生成与之相匹配的30秒音乐。

而且,音乐数据的版权问题也是一个挑战。获取合法的音乐数据,需要与版权方进行合作,这可能会增加成本和难度。同时,音乐数据的质量也参差不齐,如何筛选和整理高质量的音乐数据用于模型训练是一个重要的问题。

未来十年科技新图景:智能硬件跃迁、AI赋能与网络无感化变革
本文将从智能硬件、AI 算法、未来网络、数字经济、安全体系等多个维度,分析科技浪潮下的核心趋势。 设备变得更聪明网络变得无形AI 成为能力底座数字经济成为主引擎安全体系成为关键支撑科技不是未来,而是现在正在发…

2025-11-15

避开苹果锋芒,聚焦外卖小哥:打造专属他们的超实用蓝牙耳机
试着聚焦一个特定人群,比如外卖小哥。电量要非常足,最好能用一整天。麦克风要特别好,因为外卖小哥大部分时间都在路上,环境嘈杂,麦克风不好的话,对方根本听不清。如果能将耳机固定在头盔上,那就更好了,不怕掉。如果…

2025-11-13

2025微信数据保护全攻略:误删聊天记录别急,多场景恢复方案来了
提前备份是数据安全的核心,2025年微信已支持电脑、云服务、外部存储等多种备份方式,恢复时只需简单操作即可找回记录。苹果和安卓厂商的云服务早已支持微信数据备份,关键是确认误删前有有效备份记录。 2. 选择…

2025-11-13

SK海力士VFO工艺打造HBS技术,为移动设备AI性能提升带来新突破
据闪德资讯获悉,SK海力士正在研发结合移动DRAM和NAND的高带宽存储(HBS)技术,可提高智能手机和平板电脑等移动设备的AI性能。 相比HBM使用的硅通孔(TSV)技术,VFO无需穿孔,成本更低、良率更高…

2025-11-12

等保2.0成企业必答题!网络合规差距与优化路径全解析
实践中发现,许多企业在宽带层面存在共性差距,亟需从专业角度优化改进。在网络核心节点部署流量探针,实现全量网络流量采集;建议搭建专用日志审计平台,统一存储日志并支持多维度分析,确保日志完整性与可追溯性。 1.…

2025-11-12

开放式蓝牙耳机怎么选?2025十款热门开放式耳机深度测评来助力
推荐理由:在百元价位中音质体验非常出色,可媲美千元级别耳机通常选择耳夹式耳机的消费者都有骑行和户外运动的爱好,难以避免遇到下雨天气和大量出汗的情况,因此耳机的防水级别也成了筛选的指标,建议选择防水等级在IP…

2025-11-11

立讯精密液冷方案:从前瞻布局迈入规模化商用新阶段
证券之星消息,立讯精密(002475)11月11日在投资者关系平台上答复投资者关心的问题。投资者提问:公司的液冷散热解决方案在AI服务器中的应用情况如何?是否已获得头部云服务提供商或AI企业的认可? 谢谢!…

2025-11-11

爱立信完成上行L4S技术测试,为5G时延敏感业务提供网络支撑
(全球TMT2025年11月11日讯)近日,在IMT-2020(5G)推进组的组织下,爱立信成功完成了上行L4S技术测试,验证了L4S在提升上行实时交互业务体验方面的显著效果。测试结果表明,L4S技术能够有效…

2025-11-11

上海贝尔发布《2025年AI-ICT赋能与重构白皮书》:剖析趋势、需求与战略方向
《2025年AI-ICT赋能与重构白皮书》由上海贝尔发布,系统剖析了AI与ICT产业融合的核心趋势、技术需求及战略方向,展现了全球AI发展浪潮下ICT基础设施的变革路径与机遇。实施路径上,需夯实数据与模型基础…

2025-11-11

2025年AI智能鼠标深度体验:星火大模型赋能,它能替代哪些办公工具?
AI智能鼠标2025深度测评:星火大模型加持,AI问答、AI绘图能替代哪些工具?当一款鼠标,内嵌了如科大讯飞星火这般强大的认知大模型时,它所带来的,远不止是光标移动的流畅,更是一场关于效率与创造力的革命。我们…

2025-11-10