夜间模式
请选择 进入手机版 | 继续访问电脑版

BoonKiong.com2025™

人气 185

DeepSeek 发布开源项目 FlashMLA

文強已获得官方认证 2025-2-25 18:06



6d80d671-d119-4afe-83da-b2ad716cbff7.jpg


2 月 24 日,DeepSeek 开源周第一个项目 FlashMLA 正式发布。

据官方介绍,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。具体来说,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列处理,现在已经投入生产使用。

FlashMLA 专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量,而这对于实时生成任务(如聊天机器人、文本生成等)尤为重要。简而言之,FlashMLA 是一个能让 LLM 模型在 H800 上跑得更快、更高效的优化方案,尤其适用于高性能 AI 任务。

目前,FlashMLA 已发布版本支持「BF16」与「分页 KV 缓存,块大小为 64」两个特征,其在 H800 上能实现 3,000 GB/s 的内存带宽与 580 TFLOPS 的计算性能。

FlashMLA 现已上架 GitHub。并且其在上线 6 小时,便收获超 5,000 的 Star 收藏,拥有 188 个 Fork(副本创建)。

此外,有专注于 AI 硬件研究的投资人通过新浪科技表示,本次 DeepSeek 发布的 FlashMLA 对于国产 GPU(显卡)而言,算是一次重大利好。

投资人分析,此前的国产 GPU 性能较弱,如今可以通过 FlashMLA 提供的优化思路和方法论,尝试让国产 GPU 大幅提升性能,即使架构不同,后面国产显卡的推理性能提升将是顺理成章的事儿。






<
您需要登录后才可以回帖 登录 | 立即注册

您还未登录

随手拍~~:

热门推荐~~:

论坛表情分享...

1、洋葱头 ...

Discuz! X3.5 解决小图标不显示的方法...

我发现大多数使用Discuz! X3.5 都有小图标不能显示的问题,提问的时候大家给的回答都是说跨域的问题, ...

如何在 discuz 帖子里添加 APlayer 音乐播...

1、首先将下边的 APlayer.css 和 APlayer.js 代码下载然后解压上传到服务器。 2、单曲音乐的代 ...

Discuz! 相关帖子功能修改随机显示不依赖标...

打开 sourcemoduleforumforum_viewthread.php 文件,查找: 换行添加: 再查找: 换行添 ...

Discuz! X3.5 手机版 logo 的路径...

打开以下的模板文件,搜索 logo_m.svg 1.template/default/touch/portal/index.htm 2.template/def ...

热度会员~~:

文強bkboonkiongadmin老谟深虑TaChuaekin海岛tiaoyaonanosifefei220088小甜天

免责声明~~:


本站内容来源于合作伙伴及网络搜集,版权归原作者所有。如有侵犯版权,请立刻和本站联系,我们将在三个工作日内予以改正。
Email:hsbk@hotmail.com

服务与条款|隐私政策|免责声明|手机版|网站地图|友链申请| 文强阁

Powered by Discuz! X3.5|© 2001-2025 Discuz! Team. |本站总访问量已经运行: