巨人网
产经 科技 企业 数据 峰会 快讯 商业

维基百科推出JSON格式内容快照,助力AI同时减轻服务器负担

2025-04-18来源:ITBEAR编辑:瑞雪

近日,维基媒体基金会旗下的 Wikimedia Enterprise 公布了一项重要进展,他们在 Kaggle 平台上推出了英语和法语版本的维基百科结构化内容快照数据集,该数据集以 JSON 格式呈现。

据了解,这一数据集的发布旨在方便 AI 和机器学习领域的专业人士进行建模、基准测试、对齐、微调和探索性分析。数据集在设计过程中充分考虑了机器学习的工作流程,大大简化了机器访问维基百科内容的流程,使得使用者无需再对维基百科主站的原始内容进行繁琐的抓取和解析。

对于 AI 爬虫而言,这一数据集的推出无疑是一个利好消息。它们可以直接利用现成的数据集进行工作,从而减少了在主站爬取数据所带来的流量负担。这一改变不仅有助于提升 AI 爬虫的工作效率,同时也为维基百科的可持续运营提供了有力支持。

维基媒体基金会表示,他们将继续致力于推动数据的开放和共享,以支持全球范围内的知识创新和传播。未来,他们还将探索更多方式,以便更好地服务于学术界、产业界以及广大用户。