在2024年度的科技盛宴中,人工智能领域再次成为万众瞩目的焦点。近日,于北京市大兴区盛大举行的2024T-EDGE创新大会暨钛媒体财经年会上,DeepAI公司的首席执行官Kevin Baragona分享了他对当前大模型行业的深刻洞察与未来展望。
近年来,人工智能大模型的发展速度令人咋舌。据知名科技人士李开复透露,从GPT-4到Turbo、4o再到o1,大模型的推理成本在短短一年内实现了约10倍的下降。整个行业正以惊人的速度,推动着推理速度的加快和成本的降低。然而,随着算力的不断攀升,一个前所未有的挑战悄然而至——数据总量的有限性开始制约大模型的进一步发展。当算力堆叠到一定程度时,大模型的进步速度竟逐渐放缓。
面对这一困境,Kevin Baragona在大会上提出了他的独到见解。他首先介绍了DeepAI,这家位于美国的领先生成式AI供应商,其产品线涵盖了文生图、文生视频、音乐创作以及开发人员API等,致力于让个人创作者和企业都能轻松拥抱先进的AI技术。
Baragona回忆道,过去的AI常常令人感到羞愧,因为在长达数十年的时间里,AI领域几乎停滞不前,AI开发者甚至被比作小丑。但到了2024年,一切发生了翻天覆地的变化,AI迎来了它的黄金时代。每个月,人们都能见证AI领域取得的巨大进步。
他强调,推动这一切的关键在于计算成本的大幅下降。如今,在AI领域已经没有秘密可言,只需不断购买算力和数据,进行大规模实验,AI的性能就能持续优化。然而,随着算力和数据的不断增加,AI行业开始意识到一个严峻的问题:大语言模型的进展开始变得缓慢。
“大语言模型的发展是否已经到达顶峰或停滞不前?”Baragona问道,“我认为可能还没有停止,但确实有所放缓。”他进一步指出,放缓的本质原因在于现实世界的数据有限,可用于大模型训练的数据已接近枯竭。因此,人类需要寻找新的架构来替代现有的架构。
DeepAI找到的可行性路径是回到模型架构本身的优化上,特别是优化模型的推理架构。虽然这一路径在初期会导致推理时间、数据训练和测试时间的延长,但它能大幅降低模型对数据量的要求。随着推理模型各个步骤的优化,推理速度将加快,AI性能也将变得更强。
Baragona在演讲中分享了一个生动的例子,展示了DeepAI在图像生成领域的突破。他提到,在公司初创时期,图像生成器的效果远不如现在。当时,用户输入文字提示后,得到的图像往往模糊不清、缺乏连贯性。但如今,同样的文字提示能生成出摄影作品般清晰、真实的图像,甚至还能创造出现实中不存在的奇幻图像。
他解释说,这一过程充分体现了AI的泛化能力,能够深入理解训练数据背后的真实含义,并以创新的方式将这些元素组合起来,生成全新的、富有创意的图像。从静态图像到动态视频,DeepAI利用图像转视频模型成功让图像动了起来,虽然视频看起来有些不连贯,但它展示了2024年AI在图像与视频处理领域的巨大突破与可能性。
Baragona还回顾了AI领域的艰难历程。他提到,在长达数十年的时间里,AI几乎陷入停滞状态,神经网络和深度学习技术备受质疑,从事相关研究的人员常被外界调侃。然而,随着GPT-3的发布,人们开始意识到深度学习技术的巨大潜力,AI领域逐渐迎来了转机。
他强调,推动AI近年来迅猛发展的关键因素并非某一项重大的数学突破,而是计算成本的大幅降低。这使得研究人员能够投入更多的计算资源,推动模型的训练与优化。如今,计算资源已经像大宗商品一样在专门的市场和交易所中进行买卖交易,为AI的发展提供了更加便捷、高效的资源配置方式。
然而,Baragona也指出了AI领域面临的新挑战。随着AI技术的日益强大与普及,它引发了广泛的社会关注与讨论,其中不乏对AI潜在危险性的担忧。在这种背景下,AI领域的研究与开发变得更加保密,许多公司和研究机构都对其核心技术与研究成果采取了严格的保密措施。
尽管如此,Baragona认为AI背后的核心数学原理与技术框架并非神秘莫测。在当前的人工智能发展中,真正的“秘密武器”在于能够将海量的计算资源与庞大的数据集进行有效整合,从而训练出功能强大的人工智能模型。这就像一场资源与数据的“炼金术”,通过巧妙的调配与运用,最终实现AI模型性能的飞跃。