巨人天成
产经 科技 企业 数据 峰会 快讯 商业

Predibase发布端到端强化微调平台,开启AI大模型训练新篇章

2025-03-20来源:ITBEAR编辑:瑞雪

近日,Predibase平台宣布了一项重大创新,正式推出了业内首个端到端的强化微调平台(RFT),这一消息迅速在AI领域引起了广泛关注。

Predibase强调,DeepSeek-R1的开源项目不仅揭示了强化学习微调在大模型训练中的关键作用,更为他们开发RFT平台提供了灵感。该平台旨在简化并优化大模型的微调过程。

与传统的监督式微调方法相比,RFT平台摒弃了对大量标注数据的依赖,转而采用奖励机制和自定义函数来驱动持续的强化学习。这一平台集成了无服务器和端到端的训练方法,使得从数据管理、模型训练到应用部署的全过程都可以在单一平台上无缝完成。用户只需通过浏览器界面设定微调目标并上传数据,即可轻松完成以往繁琐复杂的大模型微调任务。

为了直观展示RFT平台的强大功能,Predibase团队利用阿里开源的Qwen2.5-Coder-32B-instruct模型,微调出了一个专门用于将PyTorch代码转换为Triton格式的模型——Predibase-T2T-32B-RFT。这一成果进一步证明了RFT平台在优化模型行为和提高下游任务质量方面的显著优势。

Predibase-T2T-32B-RFT模型通过RFT平台以交互方式调整行为,仅需极少的标记数据即可实现任务优化。这一特性使其成为了专有大型语言模型(LLM)的高性价比、高性能替代方案。在训练过程中,RFT结合了冷启动监督式微调、强化学习和课程学习等多种策略,即便是在标记数据点有限的情况下(仅使用了十几个标记数据点),也能取得令人瞩目的成果。

在Kernelbench数据集上的基准测试结果显示,经过强化学习的Qwen2.5-Coder-32B-instruct模型在正确率方面表现优异,较DeepSeek-R1和OpenAI的o1模型高出3倍,更是远超Claude 3.7 Sonnet模型4倍以上。值得注意的是,尽管Predibase的模型在体量上远小于这三者,但其性能却毫不逊色。

对于感兴趣的开发者和研究人员而言,Predibase已经将Predibase-T2T-32B-RFT模型开源,并提供了在线体验平台,以便更多人能够亲身感受RFT平台的强大功能。

开源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址:https://predibase.com/reinforcement-fine-tuning-playground

中国移动天工平台启动“AI+制造”合作 携手沪企共促新型工业化发展
来源:上海证券报·中国证券网 上证报中国证券网讯(记者 宋薇萍)1月8日在上海举行的2026“工赋上海”创新大会上,中国移动天工工业互联网平台“AI+制造”场景合作共建启动仪式如期举行。在上海市工业互联网协会…

2026-01-09

全球首台商业公司研发核聚变装置洪荒70实现百秒稳态运行新突破
据商业核聚变公司能量奇点1月7日发布的消息,1月6日下午,全球首台全高温超导托卡马克核聚变实验装置洪荒70,在第5319次实验中成功实现了120秒稳态长脉冲等离子体运行。 能量奇点是国内第一家聚变能源商业…

2026-01-09

手机内存怎么选才不亏?内行人分享实用技巧,帮你避开购机陷阱
除非你是一个特殊用户,比如你经常录制4K视频,或者你是个专业摄影师需要在手机里存放大量的高清照片,否则128GB就足够了。如果你预计两年就会换手机,那买大内存就没有什么必要了。 关键是要理解,手机的内存和你的…

2026-01-09

中国科研新突破:分离光能捕获与储能,让太阳能“随时待命”发电
它不仅能够解决传统光催化制氢中电子快速复合的问题,还能够在无光照的条件下持续释放能量,为太阳能发电打开了前所未有的可能性。 实验显示,在户外真实光照环境下储能后的黑暗阶段,产氢速率仍能维持每小时每克954微…

2026-01-09

阿里云多模态交互套件登场,为AI眼镜、机器人等硬件开启智能交互新篇
智东西1月8日报道,今天,在阿里云通义智能硬件展上,阿里云发布多模态交互开发套件,该套件集成了千问、万相、百聆三款通义基础大模型,并预置十多款生活休闲、工作效率等领域的Agent和MCP工具。 另外,阿里云…

2026-01-09