菲龙网编辑部7 发表于 2025-2-8 12:36

曾经大书特书,马斯克为何最近不提特斯拉超算Dojo了

2月7日消息,多年来,埃隆·马斯克(Elon Musk)一直在谈论Dojo——这台将成为特斯拉人工智能战略核心的超级计算机。Dojo的重要性不言而喻,2024年7月,马斯克曾表示,公司AI团队将在10月机器人出租车发布前“加倍投入”Dojo,以加速其发展。
那么,Dojo究竟是什么?为什么它对特斯拉的长期战略如此关键?
简而言之,Dojo是特斯拉自主研发的超级计算机,专用于训练“完全自动驾驶”(FSD)神经网络。增强Dojo的计算能力,是特斯拉实现完全自动驾驶并推动机器人出租车落地的重要一环。目前,已有数百万辆特斯拉汽车搭载FSD,能够执行部分自动驾驶任务,但仍然需要驾驶员全程保持注意力。
特斯拉已发布Cybercab机器人出租车,并计划于今年6月在奥斯汀推出自有车队的自动叫车服务。此外,公司在2024年第四季度财报电话会议上表示,计划于2025年在美国推出无人监管的FSD服务。
马斯克曾强调,Dojo是实现完全自动驾驶的关键。然而,如今特斯拉似乎已接近这一目标,他却对Dojo保持沉默。
自2024年8月起,业界的关注点已转向Cortex——特斯拉在奥斯汀总部打造的全新AI训练超级集群,旨在解决现实世界的AI问题。马斯克表示,Cortex将具备“海量存储能力”,专用于训练FSD和Optimus机器人。
在2024年第四季度股东会上,特斯拉更新了Cortex的进展,却未提及Dojo。特斯拉正大举投资AI、Dojo和Cortex,以推进汽车及人形机器人的自动化。考虑到电动车市场竞争日益激烈,特斯拉未来的成功很大程度上取决于其在AI领域的突破。因此,深入了解Dojo、Cortex及其发展现状,变得尤为重要。
Dojo的背景
马斯克的目标远不止于造车,他希望特斯拉成为一家AI公司,通过模拟人类感知,破解自动驾驶的核心难题。
目前,大多数自动驾驶企业依赖多种传感器(如激光雷达、雷达和摄像头)及高精度地图进行定位,而特斯拉坚持仅依靠摄像头采集视觉数据,并通过神经网络进行处理,从而实现自动驾驶。
特斯拉前AI负责人安德烈·卡帕西(Andrej Karpathy)在2021年AI Day上曾表示,公司试图“从零开始构建一种合成动物”。
相比之下,Alphabet旗下Waymo等公司已通过传感器与机器学习的传统方法,商业化L4级自动驾驶汽车,可在特定条件下实现完全无人驾驶。但特斯拉至今尚未推出不需要驾驶员的自动驾驶系统。
目前,约180万用户支付8000至1.5万美元订阅FSD。特斯拉计划通过Dojo训练AI软件,并以OTA(无线更新)方式推送至用户车辆。特斯拉的大规模部署,使其积累了海量驾驶视频数据,以训练FSD。公司的核心逻辑是:数据越多,越接近实现真正的完全自动驾驶。
然而,一些行业专家对这种“数据驱动”策略持怀疑态度。
普渡大学硅谷电子与计算机工程教授阿南德·拉格纳坦(Anand Raghunathan)表示:“首先,经济成本会成为限制因素,训练过程很快会变得极其昂贵。”此外,他指出,“有些人认为,我们可能会耗尽有价值的数据。更多数据不等于更多信息,关键在于这些数据是否真正有助于构建更好的模型,以及训练过程能否有效提炼这些信息。”
尽管存在这些质疑,短期内数据驱动的趋势仍将持续。而数据的增长意味着更高的计算需求,以存储和处理这些信息,训练特斯拉的AI模型。这正是Dojo的用武之地。
什么是超级计算机?
Dojo是特斯拉专为人工智能训练打造的超级计算机系统,主要用于FSD神经网络的训练。其名称来源于武术练习场“道场”(Dojo),寓意其作为AI训练平台的核心作用。
一台超级计算机由成千上万个称为“节点”(node)的小型计算机组成。每个节点都配备自己的中央处理器(CPU)和图形处理器(GPU)。CPU负责整体管理,而GPU则处理高强度计算任务,例如将复杂运算拆分成多个并行任务。GPU在机器学习领域至关重要,尤其是在FSD模拟训练中。它们同样驱动着大语言模型的发展,这也是为何生成式人工智能的崛起,使英伟达成为全球市值最高的科技公司之一。
即便特斯拉拥有自己的计算硬件,它仍然大量采购英伟达的GPU来训练人工智能模型。
特斯拉为何需要超级计算机?
特斯拉采用“纯视觉”方案进行自动驾驶,这正是其需要超级计算机的核心原因。FSD神经网络依赖海量驾驶数据进行训练,以识别和分类道路上的物体,并作出驾驶决策。当FSD激活时,神经网络需要持续实时收集和处理视觉数据,其处理速度必须与人类的视觉感知能力相匹配。
换句话说,特斯拉希望打造一个数字化的“人类视觉皮层”及“大脑决策系统”。
要实现这一目标,特斯拉必须存储并处理从全球车辆收集的海量视频数据,并运行数百万次模拟训练AI模型。
目前,特斯拉依赖英伟达GPU支撑其Dojo计算系统,但它并不希望完全依赖**芯片,原因包括英伟达芯片成本高昂,以及特斯拉希望打造更高效、低延迟的计算系统。因此,公司AI团队决定开发自研硬件,以比传统系统更高效地训练AI模型。
这一计划的核心,是特斯拉自主研发的D1芯片,专为AI计算优化。
特斯拉D1芯片:Dojo的计算核心
特斯拉秉持与苹果类似的理念,认为软硬件应协同设计,以提升整体性能。因此,特斯拉致力于摆脱对标准GPU硬件的依赖,转而开发自家芯片来驱动Dojo。
2021年,在特斯拉AI Day上,公司发布了D1芯片——一块手掌大小的硅芯片。D1芯片由台积电(TSMC)采用7纳米工艺制造。据特斯拉介绍,该芯片拥有500亿个晶体管,芯片面积达645平方毫米,专为高效计算和快速处理复杂任务而设计。
“我们能够同时进行计算和数据传输,我们自研的指令集架构(ISA)完全针对机器学习任务进行了优化,”特斯拉前自动驾驶硬件高级主管甘纳什·文卡塔拉马南(Ganesh Venkataramanan)在2021年AI Day上表示,“这是一款纯粹为机器学习打造的芯片。”
然而,目前D1芯片的性能仍不及英伟达A100 GPU,后者同样由台积电采用7纳米工艺制造,拥有540亿个晶体管,芯片尺寸更大(826平方毫米),因此计算能力略强于D1。
为了进一步提升计算能力和数据吞吐量,特斯拉的AI团队将25颗D1芯片集成为一个计算单元(Tile)。
每个Tile的计算性能为9千万亿次浮点运算/秒(9 petaflops),带宽达到36太字节/秒(36TB/s),并内置所有所需的电源、冷却和数据传输硬件。可以将Tile理解为由25个独立计算单元组成的“小型超级计算机”。
进一步扩展架构:
•        6个Tile组成一个机架(Rack)
•        2个机架构成一个机柜(Cabinet)
•        10个机柜组成一个ExaPOD超级计算系统
在2022年AI Day上,特斯拉表示,Dojo的计算能力将通过部署多个ExaPOD进行扩展。这些模块化架构共同组成特斯拉的超级计算集群。
此外,特斯拉正在研发新一代D2芯片,以解决信息流瓶颈。D2芯片将不同的计算单元直接集成至单片硅片上,而非通过互连多个独立芯片,从而提升计算效率并降低延迟。
特斯拉尚未披露D1芯片的具体订单量或预计交付数量,也未公布Dojo全面启用D1芯片的时间表。
2024年6月,一位用户在社交平台X上发帖称:“埃隆正在得克萨斯州建造一个巨大的GPU冷却系统。”马斯克回应称,特斯拉的目标是在未来18个月内实现“50%使用特斯拉自研AI硬件,50%使用英伟达/其他芯片”。其中,“其他”可能包括AMD芯片,这一点得到了马斯克2024年1月的确认。
Dojo对特斯拉意味着什么?
掌握自研芯片生产,意味着特斯拉未来可能以更低成本快速扩展AI算力,特别是在特斯拉与台积电扩大芯片产能的情况下。
这也意味着,特斯拉未来或许不再依赖英伟达的芯片,毕竟这些芯片价格高昂,且供应日益紧张。
在2024年第二季度财报电话会议上,马斯克曾表示,英伟达硬件的需求“高得惊人,以至于我们很难稳定采购到所需的GPU。”他补充道:“我非常担心,我们是否能够按需获取足够的GPU,因此,我们必须加大对Dojo的投入,以确保具备所需的训练能力。”
也就是说,尽管特斯拉仍在使用英伟达芯片训练AI,但它正在努力降低对英伟达的依赖。去年6月,马斯克在X平台发文称:
“特斯拉今年在AI相关领域的支出大约为100亿美元,其中约一半用于内部研发,主要涵盖特斯拉自研AI推理计算机、车辆上的传感器以及Dojo。至于AI训练超级计算集群的建设,英伟达硬件约占成本的三分之二。我目前估计,特斯拉今年在英伟达芯片上的采购支出将在30亿至40亿美元之间。”
值得注意的是,“推理计算”指的是特斯拉汽车在实时运行过程中执行的AI计算,与Dojo负责的AI训练计算是分开的。
尽管马斯克对Dojo寄予厚望,他也多次承认,这一项目存在失败的可能。
从长远来看,特斯拉或许可以依托AI部门开辟全新的商业模式。马斯克曾表示,首个版本的Dojo专为特斯拉计算机视觉数据的标注与训练而设计,这对于FSD和人形机器人Optimus的训练至关重要,但用途较为局限。
不过,他也透露,未来版本的Dojo将更加适用于通用AI训练。然而,这也面临一个重大挑战——当前几乎所有AI软件都是基于GPU架构开发的。如果要让Dojo用于通用AI模型训练,就必须对软件进行重构。
除非特斯拉选择向外部租赁其计算能力,就像AWS和Azure提供云计算服务那样。事实上,马斯克在2024年第二季度财报电话会议上提到,他认为“Dojo未来有潜力在算力竞争中与英伟达一较高下。”
摩根士丹利在2023年9月的一份报告中预测,Dojo可以通过自动驾驶出租车和AI软件服务等新业务模式,为特斯拉带来额外的收入增长,甚至可能为公司市值贡献5000亿美元。
简而言之,Dojo的芯片不仅是特斯拉的一种战略保障,未来还有可能带来可观的回报。
Dojo进展如何?
此前有报道,特斯拉于2023年7月开始生产Dojo。然而,马斯克在2023年6月的一篇帖子中表示,Dojo“已经上线并执行有用任务数月”。
大约在同一时间,特斯拉曾表示,到2024年2月,Dojo将跻身全球五大最强超级计算机之列。但截至目前,特斯拉尚未公开披露相关信息,因此这一目标是否达成仍存疑。
此外,特斯拉还预计,到2024年10月,Dojo的总计算能力将达到100 ExaFLOPS(每秒100万亿亿次浮点运算)。按照计算,假设每块D1芯片的算力为362 TFLOPS(每秒362万亿次浮点运算),特斯拉需要超过27.6万块D1芯片,或约32.05万块英伟达A100 GPU,才能达到这一目标。
特斯拉曾在2024年1月承诺投资5亿美元,在纽约州布法罗的超级工厂建设一台Dojo超级计算机。
2024年5月,马斯克透露,特斯拉奥斯汀超级工厂的后部将留作“超密集水冷超级计算集群”——但现在我们知道,这一空间实际上用于部署Cortex,而非Dojo。
在2024年第二季度财报电话会议结束后,马斯克在X平台上发文称,特斯拉AI团队正在使用Tesla HW4 AI计算机(现更名为AI4),与英伟达GPU结合进行训练。他提到,当前训练集群中包含:
•        90,000块英伟达H100 GPU
•        40,000台AI4计算机(即Tesla HW4 AI计算机)
马斯克补充道:“到年底,Dojo 1的训练能力将相当于8000块H100 GPU。这不算庞大,但也不容小觑。”
截至目前,特斯拉尚未确认这些芯片是否已全面上线并支持Dojo运行。在2024年第四季度财报电话会议上,Dojo甚至未被提及。相反,特斯拉宣布已在Q4完成Cortex的部署,并表示Cortex是推动FSD V13版本实现的关键。(辰辰)

                  
               
               
               
               
               
               
                  
                        延伸阅读
                        
                           
                           
                           
                              2月7日外媒科学网站摘要:人类大脑中的微塑料越来越多
                           
                           
                           
                           
                              别被误导 | 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型??
                           
                           
                           
                           
                              DeepSeek好用,也要警惕蹭热点的无良商家
                           
                           
                        
页: [1]
查看完整版本: 曾经大书特书,马斯克为何最近不提特斯拉超算Dojo了