巨人网
产经 科技 企业 数据 峰会 快讯

OpenAI推出SimpleQA新基准,治理AI大模型乱说话现象

2024-10-31来源:ITBEAR编辑:瑞雪

OpenAI于近日公布了一项新的基准测试,名为SimpleQA,旨在评估语言模型在回答简短事实查询时的准确性。这一举措是应对当前AI领域中一个突出问题:如何确保模型生成的回答是事实正确的。

SimpleQA数据集经过精心设计,不仅具备高正确性,还涵盖了从科技到娱乐的多样化主题。其挑战性在于,即便是前沿的AI模型,如GPT-4o,在SimpleQA上的得分也相对较低,显示出语言模型在事实准确性方面仍有待提升。

OpenAI强调,SimpleQA的简洁明了使其具有高效的用户体验,便于通过API等方式进行快速评分。同时,该基准也注意到其局限性,即主要关注短查询的事实准确性。

尽管存在这一限制,OpenAI仍希望SimpleQA的推出能推动AI研究的进一步发展,助力构建更加可信和可靠的AI模型。

恒指高开0.16%,恒生科技指数涨0.30%。哔哩哔哩、理想汽车涨超2%
。比亚迪电子、海尔智家、金蝶国际跌超1%。…

2024-10-31

再现0利率,票据利率月末直线跳水,信贷预期再降温
国股半年期银票转贴现利率已降至2022年12月以来新低,3个月期品种则直接逼近0利率。Wind数据显示,10月30日,国股半年期银票转贴现利率降至0.63%,较29日下降14BP,也是年内首次跌破0.7%;国…

2024-10-31