切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
DeepSeek突破H800性能上限,FlashMLA重磅开源,算力成本 ...
菲龙网编辑部7
有 744 人收听 TA
150768
主题
150785
回复
176999
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/51
深度丨集采之外,原研药正在商保目录中迎来“新生”
0/54
4个搞钱真相,看懂少走10年弯路
0/46
金融监管总局:2024年我国商业银行风险抵补能力整体充足
0/43
最高超60%!权益类产品近一年平均收益率达20%,仅一款产品收益为负丨机警理财日报
0/44
继千万级罚单后,光大银行再被罚150万!两理财经理被禁业
0/53
穿越会计准则扰动:泰康养老能否扭转20亿亏损困境?
0/51
健康险变局:医疗险占比或首超重疾险 多家险司少儿重疾险做“加法”
0/60
特朗普的黑手,伸向了8100吨黄金……
0/42
跨境北上养老成新趋势,广东推动打造湾区养老金融新业态
查看TA的全部帖子>>
DeepSeek突破H800性能上限,FlashMLA重磅开源,算力成本还能降
时间:2025-2-25 09:22
0
36
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
白交 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek开源周第一天,降本大法公开——
FlashMLA
,直接突破H800计算上限。
它是为Hopper GPU开发的高效MLA解码内核,专门针对可变长度序列进行了优化,目前已经投入生产。
MLA
,正是DeepSeek提出的创新注意力架构。从V2开始,MLA使得DeepSeek在系列模型中实现成本大幅降低,但是计算、推理性能仍能与顶尖模型持平。
按照官方介绍来说,FlashMLA使用之后,
H800可以达到3000GB/s内存,实现580TFLOPS计算性能
。
网友们纷纷点赞:向工程团队致以崇高的敬意,从Hopper的张量核中挤出了每一个FLOP。这就是我们将 LLM 服务推向新前沿的方式!
已经有网友用上了。
开源第一天:FlashMLA
目前GitHub页面已经更新。短短一小时,Star星数已经超过1.2k。
此次已经发布:
支持BF16;分页KV缓存,块大小为 64
快速启动:
环境要求:
Hopper GPUCUDA 12.3 及以上版本PyTorch 2.0 及以上版本
在项目的最后,它还表示,这是受到了
FlashAttention 2&3
和
英伟达CUTLASS项目
的启发。
FlashAttention是能实现快速且内存高效的精确注意力,主流大模型都有在用。最新的第三代,可以
让H100利用率飙升至75%
。
训练速度提升1.5-2倍
,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量
75%
,更充分利用计算资源,此前只能做到35%。
核心作者是Tri Dao,普林斯顿大牛,Together AI的首席科学家。
而英伟达CUTLASS是CUDA C++ 模板抽象的集合,用于在 CUDA 内实现高性能矩阵-矩阵乘法 (GEMM) 和所有级别和规模的相关计算。
MLA,DeepSeek基本架构
最后再来说说,MLA,多头潜在注意力机制,DeepSeek系列模型的基本架构,旨在优化Transformer模型的推理效率与内存使用,同时保持模型性能。
它通过
低秩联合压缩技术
,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。这种方法在长序列处理中尤为重要,因为传统方法需要存储完整的KV矩阵,而MLA通过压缩仅保留关键信息。
V2版本中,这一创新性架构把显存占用降到了过去最常用的MHA架构的5%-13%,实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。
而在V3,这一降本提速就更为明显,直接让DeepSeek吸引全球目光。
也就在今天,DeepSeek-R1 在HuggingFace上获得了超过10000个赞,成为该平台近150万个模型之中最受欢迎的大模型。
HuggingFace CEO发文公布了这一喜讯。
The whale is making waves!鲸鱼正在掀起波浪!
好了期待一下,接下来的四天会发些什么呢?
GitHub链接:
https://github.com/deepseek-ai/FlashMLA
参考链接:
https://x.com/deepseek_ai/status/1893836827574030466
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部