站长之家 - 业界 2025-02-16 09:32

全球AI算力报告出炉，LLMA100！谷歌坐拥超100万H100等效算力

声明：本文来自于微信公众号“新智元”，作者:KingHZ，授权站长之家转载发布。

AI的物质基础是机器学习硬件，例如图形处理单元（GPU）和张量处理单元(TPU)。

据不完全统计，目前全球超过140款AI加速器，用于开发和部署深度学习时代的机器学习模型。

Epoch AI带来了全球算力的估计报告，利用公开信息估计了全球机器学习硬件的现状和趋势。

除了传统硬件厂商英伟达、AMD等纷纷推出加速卡，一些新兴势力开始「造芯」，算力持续提升。

2008至2024年全球机器学习硬件的计算能力示意图

除了GPU，硬件类型也丰富了起来。比如，出现了专门处理张量计算的TPU（张量处理单元，Tensor Processing Unit）。

报告的主要结论，总结如下:

总量每年增长43%，价格下降30%。
低精度计算成为主流。
顶级硬件能效每1.9年翻一番。
八年间，训练大型模型所需的处理器数量增加了20多倍。
全球NVIDIA支持的计算能力平均每10个月翻一番。

关键发现:ML硬件的「摩尔定律」

ML硬件每年增长43%

以16位浮点运算衡量，机器学习硬件的性能以每年43%的速度增长，每1.9年翻一番。32位性能也存在类似的趋势。

优化机器学习数字格式和张量核心提供了额外的改进。

驱动因素还包括晶体管数量的增加和其他半导体制造技术的进步，以及针对AI工作负载的专门设计。这种改进降低了每FLOP的成本，提高了能源效率，并实现了大规模人工智能训练。

机器学习硬件在不同精度下的峰值计算性能

性价比每年提升30%

每美元性能提升迅速，并且任何给定精度和固定性能水平的硬件每年都会便宜30%。与此同时，制造商不断推出更强大、更昂贵的硬件。

单位时间单位价格下的FLOP

低精度格式是趋势

在使用针对人工智能计算优化的张量核心和数据格式时，GPU通常速度更快。

与使用非张量FP32相比，TF32、张量FP16和张量INT8在总体性能趋势中平均提供约6倍、10倍和12倍的性能提升。

一些芯片甚至实现了更大的加速。例如，H100在INT8时的速度比在FP32时快59倍。

自推出以来，这些改进约占整体性能趋势改进的一半。随着开发人员利用这种性能提升，使用较低精度格式（尤其是张量FP16）训练的模型已经变得很常见。

能效每1.9年翻一番

根据历史数据，顶级GPU和TPU的能效每1.9年翻一番。

就tensor-FP16格式而言，效率最高的加速器是Meta的MTIA（每瓦高达2.1x10^12FLOP/s）和NVIDIA H100(每瓦高达1.4x10^12FLOP/s)。即将推出的Blackwell系列处理器可能会更有效率，具体取决于其功耗。

模型也各有所爱

在Epoch的数据集中，NVIDIA A100是用于高引用或最先进人工智能模型的最常用的硬件，自发布以来已用于65个著名ML模型。

其次是NVIDIA V100，用于训练55个著名模型，其次是谷歌的TPU v3，用于47个。

然而，估计NVIDIA H100到2023年底的销量已超过A100，因此它可能在不久的将来成为训练模型最受欢迎的GPU。

不同加速器训练的知名模型数量

2019年至今，不同领域大模型训练所需算力比较

训练集群规模猛增

用于训练大型语言模型（LLMs）的处理器数量的显著增长。

Google NASv3RL网络（2016）:使用了800个GPU进行训练。
Meta Llama3.1405B（2024）:使用了16，384个H100GPU进行训练。

这意味着在短短八年间，训练大型模型所需的处理器数量增加了20多倍。

四大「算力帝国」?

谷歌、微软、Meta和亚马逊拥有相当于数十万个NVIDIA H100的AI算力。

这些计算资源既用于他们内部的AI开发，也用于云客户，包括许多顶级AI实验室，如OpenAI和Anthropic。

谷歌可能拥有相当于超过一百万个H100的计算能力，主要来自他们的TPU。

微软可能拥有最大的NVIDIA加速器库存，约为50万个H100当量。

大量的AI计算能力由这四家公司以外的集团共同拥有，包括其他云公司如Oracle和CoreWeave，计算用户如特斯拉和xAI，以及各国政府。

之所以重点介绍谷歌、微软、Meta和亚马逊，因为他们可能拥有最多的计算能力，而其他公司的数据公开较少。

初步工作发现，截至2024年中，谷歌TPU的总算力大约是英伟达芯片的30%。

英伟达每年不止翻一番

自2019年以来，NVIDIA芯片的总可用计算能力大约每年增长2.3倍，从而能够训练越来越大的模型。

也就是说，全球NVIDIA组成的计算能力平均每10个月翻一番。

Hopper这一代NVIDIA AI芯片目前占其所有AI硬件总计算能力的77%。按照这种增长速度，旧的芯片型号在其推出后大约4年左右，对累计计算量的贡献往往会低于一半。

请注意，此分析不包括TPU或其他专用AI加速器，因为这方面的数据较少。TPU可能提供与NVIDIA芯片相当的总计算能力。

按芯片型号分解，发现目前大约77%的NVIDIA FLOP/s来自Hopper代际的GPU，如H100。

目前估计NVIDIA GPU可提供4e21FLOP/s的计算能力，约相当于400万个H100。

注意:这些估计基于NVIDIA的收入申报文件，并假设不同时代芯片的分布随时间变化的模式与AI集群数据集中的模式相同。

英伟达23-24年季度财报

此外，报告发现自2019年以来，计算能力的累计总和（考虑折旧）每年增长2.3倍。

但仅考虑数据中心销售额，而忽略NVIDIA收入报告中「游戏」（Gaming）销售额带来的计算能力。

公开数据集

Epoch同时公布了机器学习硬件数据集和数据分析源代码。

https://epoch.ai/data/machine-learning-hardware-documentation#overview

详细数据分析流程，参见下列NoteBook。

https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

参考资料:

https://epoch.ai/data/machine-learning-hardware

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

大家正在看

Mistral、AI2 发布新的开源 LLMs：更小，更便宜

2025-01-311.9万阅读

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

2025-02-022.0万阅读

颠覆LLM格局，AI2新模型OLMo2，训练过程全公开，数据架构双升级

2025-01-251.9万阅读

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

2025-02-174427阅读

AI大模型时代，算力隐秘的角落 | 年终复盘

2025-01-232.4万阅读

当 DeepSeek 爆火遇上安全风暴，瑞数信息多重防护体系护航 LLM

2025-02-191.6万阅读

灵境云 AI 算力平台全面上线DeepSeek丨助力加快 AI 产业布局

2025-02-102.1万阅读

谷歌CEO：现在就是AI创新，黄金年代

2025-02-113602阅读

谷歌AI大牛吴永辉加盟字节跳动负责AI基础研究探索工作

2025-02-172.8万阅读

颠覆传统！谷歌搜索测试AI模式：第一页完全由AI生成

2025-02-072.7万阅读

DeepSeek算力卡脖子，高校AI研究遇瓶颈？华为联合15校给出最强解法

2025-02-127865阅读

百度首个自研万卡集群点亮，上架DeepSeek直降3折全网最低！降低AI算力门槛

2025-02-065064阅读

芯讯通高算力AI模组SIM9650L实测跑通DeepSeek R1模型

2025-02-132.8万阅读

谷歌搜索或迎来史诗级更新，结果首页要全盘AI化

2025-02-152.1万阅读

特朗普废除美国AI监管命令，OpenAI、微软、谷歌成大赢家

2025-01-225573阅读

谷歌母公司总裁：美国AI不会永远领先中国甚至还可能略逊一筹

2025-01-222.2万阅读

Foothill Ventures完成三期1.1亿美元募资，聚焦AI前沿科技投资

2025-01-201.7万阅读

谷歌AI大佬：AGI或在5年内到来 DeepSeek令人印象深刻

2025-02-112.6万阅读

微软 CEO Nadella 称赞 DeepSeek，并将其提供给客户在 Azure AI Foundry 上使用

2025-01-301.7万阅读

谷歌前CEO：DeepSeek标志着全球AI竞赛"转折点"

2025-01-295939阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

全球AI算力报告出炉，LLMA100！谷歌坐拥超100万H100等效算力

ML硬件每年增长43%

性价比每年提升30%

低精度格式是趋势

能效每1.9年翻一番

模型也各有所爱

训练集群规模猛增

四大「算力帝国」?

英伟达每年不止翻一番

推荐关键词

24小时热搜

大家正在看

Mistral、AI2 发布新的开源 LLMs：更小，更便宜

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

颠覆LLM格局，AI2新模型OLMo2，训练过程全公开，数据架构双升级

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

AI大模型时代，算力隐秘的角落 | 年终复盘

当 DeepSeek 爆火遇上安全风暴，瑞数信息多重防护体系护航 LLM

灵境云 AI 算力平台全面上线DeepSeek丨助力加快 AI 产业布局

谷歌CEO：现在就是AI创新，黄金年代

谷歌AI大牛吴永辉加盟字节跳动负责AI基础研究探索工作

颠覆传统！谷歌搜索测试AI模式：第一页完全由AI生成

DeepSeek算力卡脖子，高校AI研究遇瓶颈？华为联合15校给出最强解法

百度首个自研万卡集群点亮，上架DeepSeek直降3折全网最低！降低AI算力门槛

芯讯通高算力AI模组SIM9650L实测跑通DeepSeek R1模型

谷歌搜索或迎来史诗级更新，结果首页要全盘AI化

特朗普废除美国AI监管命令，OpenAI、微软、谷歌成大赢家

谷歌母公司总裁：美国AI不会永远领先中国甚至还可能略逊一筹

Foothill Ventures完成三期1.1亿美元募资，聚焦AI前沿科技投资

谷歌AI大佬：AGI或在5年内到来 DeepSeek令人印象深刻

微软 CEO Nadella 称赞 DeepSeek，并将其提供给客户在 Azure AI Foundry 上使用

谷歌前CEO：DeepSeek标志着全球AI竞赛"转折点"

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

全球AI算力报告出炉，LLMA100！谷歌坐拥超100万H100等效算力

ML硬件每年增长43%

性价比每年提升30%

低精度格式是趋势

能效每1.9年翻一番

模型也各有所爱

训练集群规模猛增

四大「算力帝国」?

英伟达每年不止翻一番

推荐关键词

24小时热搜

大家正在看

Mistral、AI2 发布新的开源 LLMs：更小，更便宜

o1开启LLM新范式，Ai2科学家解析背后秘籍：推理和强化学习是关键

颠覆LLM格局，AI2新模型OLMo2，训练过程全公开，数据架构双升级

LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

AI大模型时代，算力隐秘的角落 | 年终复盘

当 DeepSeek 爆火遇上安全风暴，瑞数信息多重防护体系护航 LLM

灵境云 AI 算力平台全面上线DeepSeek丨助力加快 AI 产业布局

谷歌CEO：现在就是AI创新，黄金年代

谷歌AI大牛吴永辉加盟字节跳动 负责AI基础研究探索工作

颠覆传统！谷歌搜索测试AI模式：第一页完全由AI生成

DeepSeek算力卡脖子，高校AI研究遇瓶颈？华为联合15校给出最强解法

百度首个自研万卡集群点亮，上架DeepSeek直降3折全网最低！降低AI算力门槛

芯讯通高算力AI模组SIM9650L实测跑通DeepSeek R1模型

谷歌搜索或迎来史诗级更新，结果首页要全盘AI化

特朗普废除美国AI监管命令，OpenAI、微软、谷歌成大赢家

谷歌母公司总裁：美国AI不会永远领先中国 甚至还可能略逊一筹

Foothill Ventures完成三期1.1亿美元募资，聚焦AI前沿科技投资

谷歌AI大佬：AGI或在5年内到来 DeepSeek令人印象深刻

微软 CEO Nadella 称赞 DeepSeek，并将其提供给客户在 Azure AI Foundry 上使用

谷歌前CEO：DeepSeek标志着全球AI竞赛"转折点"

谷歌AI大牛吴永辉加盟字节跳动负责AI基础研究探索工作

谷歌母公司总裁：美国AI不会永远领先中国甚至还可能略逊一筹