请选择 进入手机版 | 继续访问电脑版

BoonKiong.com2025™

人气 53

DeepSeek 公布模型新学习方式

文***已获得官方认证 2025-4-7 13:49



DeepSeek 公布模型新学习方式

DeepSeek 公布模型新学习方式



近日,DeepSeek 团队与清华大学的研究人员发布了最新的论文《Inference-Time Scaling for Generalist Reward Modeling》,值得关注的是,该研究提出了一种新的奖励模型及其推理时间扩展方法。

具体来看,双方人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分,从而克服了挑战。研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励,从而提高奖励的质量,这也表示 RM 的推理时间可扩展性可以通过扩展高质量原则和准确批评的生成来实现。

综合上述成果,研究团队提出了一种新学习方法 —— 自我原则批评调整(SPCT),通过基于规则的在线 RL,帮助 GRM 根据输入查询和响应自适应地生成奖励,提升了推理时间扩展性。

基于 SPCT,DeepSeek 还提出了 DeepSeek-GRM-27B,其基于 Gemma-2-27B 并通过 SPCT 进行后训练。其采用多次采样和并行采样生成不同的原则集和批评,通过投票机制选择最终奖励。除了投票以获得更好的扩展性能外,DeepSeek 还引入了元奖励模型(meta RM),指导 GRM 的投票过程,从而避免低质量样本,进一步提升推理效果。

实验结果显示:

   •   SPCT 方法在生成质量和推理时间扩展性方面明显优于现有方法,尤其在处理大规模语言模型时,比增加模型参数带来
       的效果提升更为显著;
   •   DeepSeek-GRM-27B 在推理阶段的扩展性能超越了 671B 参数的大型模型,表明其具有更高的多样性和更细粒度的奖励
       输出。

DeepSeek 团队认为,SPCT 和 GRM 的结合,将成为通用奖励系统的重要组成部分,推动 LLM 的后期训练和推理发展。此外,DeepSeek 在文中计划未来将会开源 GRM 模型,但目前暂未公布具体时间。

值得一提的是,上月路透社曾报道称,「R1 继承者」DeepSeek-R2 或最早将在本月发布。目前 DeepSeek 官方暂未公布 DeepSeek-R2 的相关信息。

文章来源:爱范儿




<
您需要登录后才可以回帖 登录 | 立即注册

您还未登录

随手拍~~:

热门推荐~~:

论坛表情分享...

1、洋葱头 ...

Discuz! X3.5 解决小图标不显示的方法...

我发现大多数使用Discuz! X3.5 都有小图标不能显示的问题,提问的时候大家给的回答都是说跨域的问题, ...

如何在 discuz 帖子里添加 APlayer 音乐播...

1、首先将下边的 APlayer.css 和 APlayer.js 代码下载然后解压上传到服务器。 2、单曲音乐的代 ...

Discuz! 相关帖子功能修改随机显示不依赖标...

打开 source/module/forum/forum_viewthread.php 文件,查找: 换行添加: 再查找: 换行添 ...

Discuz! X3.5 手机版 logo 的路径...

打开以下的模板文件,搜索 logo_m.svg 1.template/default/touch/portal/index.htm 2.template/def ...

热度会员~~:

文強bkboonkiongadmin老谟深虑TaChuaekin海岛吴迪osifefei220088小甜天

免责声明~~:


本站内容来源于合作伙伴及网络搜集,版权归原作者所有。如有侵犯版权,请立刻和本站联系,我们将在三个工作日内予以改正。
Email:hsbk@hotmail.com

服务与条款|隐私政策|免责声明|手机版|网站地图|友链申请| 文强阁

Powered by Discuz! X3.5|© 2001-2025 Discuz! Team. |本站总访问量已经运行: