切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100, ...
菲龙网编辑部7
有 744 人收听 TA
149044
主题
149061
回复
175219
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/43
2025金融监管工作新提法,有何深意?
0/46
“数字越大风险越大”,保险公司监管评级办法落地!S级不得参与评级
0/44
小贷新规正式发布:严禁出租出借牌照等违规“通道”行为
0/44
A股上市险企去年保费同比增5.27%,成本有望继续下降
0/42
平均降幅0.85个百分点,深圳银行完成去年存量房贷利率调整工作
0/41
收益率平均上浮10个基点,“春节档”理财开门红抢客
0/38
黄金大消息! 我国多地发现大型金矿 新增金资源量168吨!
0/43
保险公司监管评级办法落地,处于重组、被接管的直接列为S级
0/44
中国工商银行上海市分行:创新科技金融服务模式 助力上海国际科创中心发展
查看TA的全部帖子>>
Meta两个豪华AI集群曝光:每个配备2.4万块英伟达H100,价值几十亿
时间:2024-3-14 10:39
0
603
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
3月13日消息,美国时间周二,Facebook母公司Meta公布了两个数据中心规模新集群的技术细节,它们各自拥有超过2.4万个GPU,并在硬件、网络、存储、设计、性能和软件等方面上,专为支持大型语言模型如Llama 3进行训练而深度优化。
这两个新集群基于Meta先前研究超级集群(RSC)的成功。RSC自2022年启用以来,已展现出强大的计算力。
在硬件配置方面,每个集群都配备了24576个英伟达Tensor Core H100 GPU(每个数万美元),与之前使用的16000个英伟达A100 GPU相比有了明显提升,这将极大地促进自然语言处理、语音识别和图像生成等人工智能研究和开发工作。
Meta表示,这种升级不仅在数量上有所增加,其性能上的跃进也将支持更大、更复杂的模型,为生成式人工智能产品的开发铺平道路。
Meta计划在2024年底之前,将其人工智能基础设施扩大到高达35万个H100 GPU。目标是拥有相当于近60万个H100 GPU的算力。
图片来源:Meta官方博客
虽然两个新集群的GPU数量相同,但它们在网络基础设施方面各有差异,均支持400 Gbps端点之间的互联。其中一个集群采用了基于Arista 7800交换机配合Wedge400和Minipack2 OCP机架交换机的远程直接内存访问(RDMA)和融合以太网(RoCE)网络解决方案,而另一个则应用了英伟达Quantum2 InfiniBand网络架构。
值得一提的是,两个集群均基于Meta自研的开放GPU硬件平台Grand Teton构建,这是公司为支撑大型AI工作负载而开发的GPU基础硬件平台。作为Zion-EX平台的后续产品,Grand Teton在主机到GPU的带宽、计算及数据网络带宽、以及功率包络等方面都实现了显著的增强。
此外,这些集群充分利用了Meta专为Grand Teton等方案设计的Open Rack电源和机架架构,提高了数据中心的灵活性。
Meta的Open Rack v3硬件设计引入了一个灵活的机架配置方案。与传统的固定母线设计相比,它允许在机架中的任意位置安装电源架,从而使机架配置更加灵活。
在建设这些新集群时,Meta特别关注了每台服务器吞吐量、机架数量减少及能源效率之间的平衡。通过对机架内服务器数量的定制化设计,Meta确保了这些集群在提供高性能的同时,也达到了能源的高效利用。
在存储技术上,这些集群运用了Linux Filesystem中的Userspace API,并得到了Meta自家Tectonic分布式存储方案的加持。与此同时,Meta还与Hammerspace合作,一道开发了并行网络文件系统(NFS)。
两个集群均基于配备了最新高容量E1.S SSD的YV3 Sierra Point服务器平台。为了优化网络利用率,Meta进行了网络拓扑和路由的调整,并部署了英伟达的集体通信库(NCCL)。NCCL是一套针对英伟达GPU和网络进行优化的标准通信例程库。
Meta还在积极推进其PyTorch基础AI框架的发展,以应对数十万GPU的训练需求。Meta的技术项目经理凯文·李(Kevin Lee)、生产网络工程师阿迪·甘吉迪(Adi Gangidi)以及生产工程总监马修·奥尔德姆(Mathew Oldham)在最新博客中共同表达了公司的技术愿景和战略。他们强调,Meta将致力于人工智能软件和硬件的开放式创新,启动人工智能联盟,建立一个开放的生态系统,“为人工智能开发带来透明度、审查和信任,并带来每个人都能从中受益的创新,这些创新以安全和责任为首要考虑因素”。
这篇博文继续强调:“面对未来,我们意识到昨天和今天有效的方法可能无法满足明天的需求。因此,Meta将不断评估和改进其基础设施的各个方面,从物理和虚拟层到软件层等。我们的目标是创建一个既灵活又可靠的系统,以支撑快速发展中的新模型和研究工作。”(小小)
延伸阅读
MIT新突破,商业核聚变马上来?还很远
程序员,危?首个AI软件工程师震撼硅谷
TikTok被美国议员偷袭,禁令公布前公司还在庆幸拜登打广告
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部