DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

2025-03-25 0 250

2 月 18 日消息,DeepSeek今日官宣推出NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。NSA 的核心组件包括:动态分层稀疏策略粗粒度 token 压缩细粒度 token 选择DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。附论文链接:https://arxiv.org/abs/2502.11089相关内容:意大利机构要求 DeepSeek 提供数据保护相关信息英伟达:DeepSeek-R1 模型现已上线 NIM 微服务平台单机即可部署运行 DeepSeek R1 671B 模型,浪潮信息推出元脑 R1 推理服务器消息称 Kimi 大砍投放预算,DeepSeek 冲击之下月之暗面暂缓“烧钱”投广告声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在。
点赞 (0)
常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 如果出现购买后没有跳转下载链接,请更换浏览器登陆本站会员中心在购买记录里面查找链接。如果链接失效出现无法下载的情况,请联系客户修复并补发资源。
查看详情

相关文章

发表评论
暂无评论