巨人天成
产经 科技 企业 数据 峰会 快讯 商业

数字人第一版,大家说这个数字人像我吗?

2024-10-26来源:丁道师编辑:瑞雪

1

我把一段数字人制作的视频,发给了几百位见过我的朋友,大部分朋友表示无法分辨是真人还是由数字人技术合成。

由此引发了一个问题:现在的人工智能数字人技术到底发展到了哪一步?

这个问题背后还潜藏着一个更为实际的考量——数字人技术是否能够让普通大众也消费得起?因为,能以假乱真的所谓数字人技术并非近年才出现的新鲜事物。早在十年前,好莱坞的诸多大片,如《钢铁侠》《王牌特工》等,就已经广泛运用了这种技术。然而,当时要实现这样的效果,往往需要投入巨额的资金,需要后期团队精心制作,成本可能高达数万甚至数十万美元。

但时至今日,应用了AI大模型技术后,这种产品的门槛已经大幅降低。像我这样的普通个体也能轻松负担,这才是真正令人瞩目的变化,它可能预示着我们将开启一个全新的历史篇章。

 2

那么,大家可能会好奇,打造一个如此逼真的数字人究竟需要多少成本?

那天,我去大望路那边的今时兄弟公司,这家公司负责人帮我完成了这个数字人的制作,我起名为“数字人第一版”。他还给我生成几个视频demo,让我审核是否过关。

我直接把demo发到了视频号,就是文章开头的视频,没想到骗过了大多数人。

从这家公司离开前,我才知道制作这种级别的数字人,真的已经到白菜价了。不需要9999元,也不需要3999元,只需要几百元。

是的,仅需几百块钱,这一前沿科技就能为普通大众所享用。

这个价格以及它能获取到的产品表现力,惊到了我。我想,在这个科技飞速发展的时代,曾经遥不可及的高科技产品正在逐渐走进千家万户,成为普通人也能轻松享受的日常,这不仅仅是一个技术的突破,更是一个时代的进步。

一个让每个人都有机会拥抱科技、展现自我的全新时代,想想都让人激动。

3

还没有从科技平权的震撼中缓过劲来,这两天科大讯飞又放大招,让业界再一次震撼。

2024年10月24日,是一个特殊的节日,科大讯飞首次发布了超拟人数字人技术。只需上传一张照片,便能迅速生成一个生动的数字人形象,而且非常逼真,能够根据语义进行表情和动作的同步。

我在屏幕前看到讯飞的现场演示,倒抽一口冷气:现在的技术,已经强大到这种地步了?

当天,也有好几位朋友把讯飞的这段演示发给我,表达了类似的震惊之感。

我反复看了现场演示视频,讯飞的超拟人数字人与传统数字人相比,有两个最显著的特征。

第一:门槛大幅度降低,有一张图片就可以生成。

俗话说巧妇难为无米之炊,传统数字人往往基于拍摄的视频资源进行训练&生成,我前几天制作的“数字人第一版”也是基于我的真人影像。

讯飞的创新在于,仅需一张照片就可以生产数字人,其超拟人数字人就可以与用户进行面对面的实时对话,口唇、表情、动作均由大模型自动生成,并能够充分匹配文本的意图。

第二:更拟人、更自然。

其实,让一张图片动起来,早在10年前的GIF时代就可以实现了,只不过当年的这种“图片转视频”的技术,一看就很假,只能娱乐之用。

讯飞的不同之处在于,依托于多模扩散生成大模型,不需要先验信息,不再受限于预先录制的模板动作。通过深入解析语音中的情感以及文本中的语义信息,数字人的动作能够自然匹配仪态,展现出更加协调自然的动作,从而大幅提升了与人对话时的交互体验。也就是,这项服务未来随着算法、技术的迭代,完全可以做到以假乱真。

4

特别科大讯飞这个产品的出现,意味着我们不仅仅解决了廉价数字人“从无到有”的刚需,还有望解决“从有到好”的难题。

PS:当然,咱们这里的假设前提是科大讯飞的演示视频没有进行人为美化,是100%真实演示。

“从有到好”的意思是说,以前视频生成模型的效率很低,生成时需要一定的等待时间,也就意味着数字人和观众无法实现实时互动。讯飞这次为了攻克高计算成本与交互时延的瓶颈,采用了中间表征压缩技术,大大降低了延时,实现了实时互动、一问一答的流畅体验。

这种互动能力的提升,将来如果用于直播带货领域,价值可就太大了。举个例子,辛巴和李佳琦这个级别的主播,一个小时的带货金额在千万以上,每天带货几个小时就得休息。如果应用了这种数字人技术,理论上可以实现7*24小时不间断直播,带货金额将会提升到哪一步?这将给我们的经济增长带来多大贡献?让人无限期待。

稍微遗憾的是,在当天的活动上,科大讯飞没有公布这个数字人的价格。不过,按照科大讯飞过往的定价策略来看,这种服务有可能是按照订阅付费的模式收费,最终价格也会是一个白菜价。

5

未来,随着技术的发展和迭代,AI数字人技术已经不是说像不像人的问题了,而是在很多个方面已经超越人了。

那么,数字人带给我们的到底是什么?硅基介质承载的数字人和碳基物理人该如何相处?

到底什么是真实?什么是存在?在这个数字与现实交织的时代,我们还能不能像以前那样,清晰地分辨出真实与虚拟的界限?数字人的加速普及,不仅让我们看到了技术的力量,更让我们开始反思,人类之所以为人类的本质到底是什么?

同时,随着数字人技术的不断发展,我们也不得不重新审视自己的价值和追求。在这个技术日新月异的时代,我们该如何定位自己?如何在保持人性独特的同时,与技术和谐共生?我们如何在享受技术带来的便利时,不失去对自由与尊严的坚守?

当然,不管从哪个方面看,每一次技术的跃进,都伴随着伦理的考量和抉择,汽车发明时也引发马车夫是否失业的讨论呢。数字人技术的崛起,既是技术的胜利,也是对人类智慧的挑战。我们该如何确保技术的发展不会成为束缚我们的枷锁,而是成为推动人类进步的强大力量?这需要我们不断地思考、探索和实践。

Valve推出Steam Frame新VR头显 正式宣告上一代Index头显停产
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

虚拟化与超融合:从架构到应用,一文读懂如何选择适合的IT方案
超融合平台通常基于成熟的虚拟化技术,例如它可能内置虚拟机管理功能,但更强调整体资源的统一管理。性能上,虚拟化可能因资源竞争而出现波动,而超融合的分布式存储设计可以提供更一致的I/O性能,特别是在高并发场景下,…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布 涵盖多领域促发展
11月13日,杭州市上城区第三批“人工智能+”机会场景发布会暨场景供需对接会活动举行,推出50个高价值场景,涵盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个热门领域。如,由上城…

2025-11-14

中关村房山园科技对接会:昆虫机器人等“硬核”成果亮相,助力新质生产力
11月12日,中关村“火花”活动之北京理工大学专场对接会暨中关村房山园新质生产力发布厅科技成果转化对接活动在中关村新兴产业前沿技术研究院举行,极限搜救昆虫机器人、通信感知超宽带收发芯片等一批来自北京理工大学、…

2025-11-14

浪潮KaiwuDB V3.0发布:多模融合AI赋能,引领物联网数智化新篇章
KaiwuDB V3.0关系引擎新增大型对象支持,无论是传感器产生的二进制数据还是文本信息,都能实现高效管理;同时,支持高效跨模连接算子与时序算子并行处理,相较于2.2版本跨模查询性能提升5-10倍,打破了…

2025-11-13

2025年手机卡选卡指南:精准匹配需求,绕开合约套路与流量陷阱
•在运营商APP中查看过去三个月的平均流量使用量•检查你的通话时长记录•分析你最常用的APP类型(这会影响你对通用流量和定向流量的需求)有了这些数据,你就能更准确地判断自己需要什么样规模的套餐了。 •典型代…

2025-11-13

照片压缩至5M内超全指南!七大实用方法助你轻松搞定分享难题
具体的执行步骤是:将它们直接开启,随后去挑选照片,该应用会自动给出推荐的压缩级别,你能去预览最终结果,还能够对某些设置予以调整,比如把分辨率调低或者转换格式,借此令文件大小小于5MB,这对即时分享至社交媒体来…

2025-11-12

企业宽带选不对,带宽再大也白费!这些关键因素决定实际网速
• 网速(用户感知):即实际访问体验,取决于 3 个核心因素 —— 带宽只是基础,更重要的是网络质量、路由优化和并发处理能力。 真正专业的服务商,会从企业实际业务场景出发提供解决方案,而非一味推销高带宽产品…

2025-11-12

Marantz与B&W组合:以多元功能承载家庭温情,让音乐共鸣融入日常
我在活动上最常遇到来宾,不管是男的,还是女的,他(她)问我:我手机上这些音乐能不能通过蓝牙,或Apple Airplay传到音响播放。 用高级音响回归音乐本身你会发现原来美好的东西就在身边最近我在电脑里找到了…

2025-11-12

Viwoods发布AiPaper Reader电纸书:6.13英寸墨水屏搭载AI阅读互动功能
IT之家 11 月 11 日消息,据科技媒体 NoteBook Check 今天报道,Viwoods 现已推出 AiPaper Reader电纸书,运行 Android 16 操作系统,机身配备专用 AI …

2025-11-12