巨人网
产经 科技 企业 数据 峰会 快讯 商业

马斯克称AI训练数据将枯竭,合成数据成未来关键?

2025-01-09来源:IT之家编辑:瑞雪

近期,科技界巨头埃隆·马斯克在与Stagwell董事会主席马克・佩恩的直播交流中,抛出了一个引人深思的观点:我们或已接近耗尽用于训练人工智能(AI)模型的现实世界数据资源。这一看法,与前任OpenAI首席科学家伊利亚・苏茨克弗在去年底的NeurIPS会议上的论述不谋而合。

马斯克在直播中坦言:“过去一年里,我们似乎已经将人类知识的积累——那些能够滋养AI成长的数据——消耗得差不多了。”他的话语中透露出对当前AI数据瓶颈的深刻忧虑。

苏茨克弗也曾警告,AI行业正面临“数据峰值”的挑战,未来训练数据的匮乏或将迫使AI开发模式发生根本性变革。这一观点与马斯克的担忧遥相呼应,共同勾勒出AI发展道路上的新困境。

面对这一困境,马斯克提出了一个颇具前瞻性的解决方案:利用合成数据来补充现实数据的不足。他解释说:“让AI自己生成训练数据,通过自我评估和学习,不断优化自身,这或许是我们突破当前数据瓶颈的关键。”

事实上,这一理念已经得到了众多科技巨头的积极响应。微软、meta、OpenAI以及Anthropic等公司,都已开始尝试使用合成数据来训练其主力AI模型。据Gartner预测,到2024年,用于AI和数据分析项目的数据中,有高达60%将是通过合成方式产生的。

合成数据的优势在于能够显著降低AI开发的成本。以人工智能初创公司Writer的Palmyra X 004模型为例,该模型几乎完全依赖合成数据进行开发,其成本仅为70万美元,相比之下,一个规模相似的OpenAI模型的开发成本则高达460万美元。

然而,合成数据也并非毫无风险。研究表明,过度依赖合成数据可能导致AI模型性能下滑,输出结果缺乏创新性和多样性,甚至可能因数据偏见或局限性而变得更加偏颇,从而影响其实际应用效果。因此,在利用合成数据的同时,如何确保其质量和多样性,避免数据偏见对模型的影响,将是AI开发者需要面对的重要课题。