请选择 进入手机版 | 继续访问电脑版

BoonKiong.com2025™

人气 45

英伟达开源新模型,性能直逼 DeepSeek-R1

文***已获得官方认证 2025-4-10 09:58



72c0c138-8ef2-4e6e-a665-d047e5ccba0b.jpg


昨天,英伟达开源了一款名为 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型。该模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型开发,拥有 2530 亿个参数,在多项第三方基准测试中表现出色:

   •   值得关注的是,英伟达新模型的性能逼近拥有 6710 亿参数的 DeepSeek R1,但只用了不到一半的参数量。
   •   测试结果显示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 编码任务
      (66.3 vs. 65.9)。并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。
   •   但在 MATH500 和 Arena Hard 基准测试中,DeepSeek R1 仍略占优势。

据悉,Llama-3.1-Nemotron-Ultra-253B 的设计目标是支持高级推理、指令遵循以及 AI 助手工作流程。技术特点如下:

   •   采用神经架构搜索(NAS)优化架构
   •   引入跳跃注意力层、融合前馈网络(FFN)和可变 FFN 压缩率
   •   降低内存占用和计算需求,保持输出质量
   •   可在单个 8x H100 GPU 节点高效部署
   •   部署支持 B100 和 Hopper 微架构硬件
   •   在 BF16 和 FP8 精度模式下均验证通过

目前,该模型的代码已在 Hugging Face 平台上公开,包含开放的权重和训练后数据。

官方介绍,Llama-3.1-Nemotron-Ultra-253B 可用于聊天机器人开发、AI Agent 工作流、检索增强生成(RAG)和代码生成等场景。根据英伟达开放模型许可证及 Llama 3.1 社区许可协议,该模型已获准用于商业用途。

附上体验地址:

https://build.nvidia.com/nvidia/ ... ncid=so-twit-273200

文章来源:爱范儿




<
您需要登录后才可以回帖 登录 | 立即注册

您还未登录

随手拍~~:

热门推荐~~:

论坛表情分享...

1、洋葱头 ...

Discuz! X3.5 解决小图标不显示的方法...

我发现大多数使用Discuz! X3.5 都有小图标不能显示的问题,提问的时候大家给的回答都是说跨域的问题, ...

如何在 discuz 帖子里添加 APlayer 音乐播...

1、首先将下边的 APlayer.css 和 APlayer.js 代码下载然后解压上传到服务器。 2、单曲音乐的代 ...

Discuz! 相关帖子功能修改随机显示不依赖标...

打开 source/module/forum/forum_viewthread.php 文件,查找: 换行添加: 再查找: 换行添 ...

Discuz! X3.5 手机版 logo 的路径...

打开以下的模板文件,搜索 logo_m.svg 1.template/default/touch/portal/index.htm 2.template/def ...

热度会员~~:

文強bkboonkiongadmin老谟深虑TaChuaekin海岛吴迪osifefei220088小甜天

免责声明~~:


本站内容来源于合作伙伴及网络搜集,版权归原作者所有。如有侵犯版权,请立刻和本站联系,我们将在三个工作日内予以改正。
Email:hsbk@hotmail.com

服务与条款|隐私政策|免责声明|手机版|网站地图|友链申请| 文强阁

Powered by Discuz! X3.5|© 2001-2025 Discuz! Team. |本站总访问量已经运行: