DeepSeek们的成本，是怎么计算的？

声明:本文来自于微信公众号定焦One（dingjiaoone），作者:王璐，授权站长之家转载发布。

DeepSeek彻底让全球都坐不住了。

昨天，马斯克携“地球上最聪明的AI”——Gork3在直播中亮相，自称其“推理能力超越目前所有已知模型”，在推理-测试时间得分上，也好于DeepSeek R1、OpenAI o1。不久前，国民级应用微信宣布接入DeepSeek R1，正在灰度测试中，这一王炸组合被外界认为AI搜索领域要变天。

如今，微软、英伟达、华为云、腾讯云等全球多家科技大厂都已接入DeepSeek。网友也开发出了算命、预测彩票等新奇玩法，其热度直接转化成了真金白银，助推DeepSeek估值一路上涨，最高已经达到了千亿美金。

DeepSeek能出圈，除了免费和好用之外，还因为其仅以557.6万美元的GPU成本，就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型。毕竟，在过去几年的“百模大战”中，国内外AI大模型公司都砸了几十亿甚至上百亿美元。Gork3成为“全球最聪明AI”的代价也是高昂的，马斯克称Gork3训练累计消耗20万块英伟达GPU（单块成本大约在3万美元），而业内人士估计DeepSeek仅在1万多张。

但也有人在成本上卷DeepSeek。近日李飞飞团队称，仅花费不到50美元的云计算费用，就训练出了一款推理模型S1，其在数学和编码能力测试中的表现媲美OpenAI的o1和DeepSeek的R1。但需要注意的是，S1是中型模型，与DeepSeek R1的上千亿参数级别存在差距。

即便如此，从50美元到上百亿美元的巨大训练成本差异，还是让大家好奇，一方面想知道DeepSeek的能力有多强，为什么各家都在试图赶上甚至超过它，另一方面，训练一个大模型究竟需要多少钱?它涉及哪些环节?未来，是否还有可能进一步降低训练成本?

被“以偏概全”的DeepSeek

在从业者看来，在解答这些问题前，得先捋清几个概念。

首先是对DeepSeek的理解“以偏概全”。大家惊叹的是它众多大模型之中的一个——推理大模型DeepSeek-R1，但它还有其他的大模型，不同大模型产品之间的功能不一样。而557.6万美元，是其通用大模型DeepSeek-V3训练过程中的GPU花费，可以理解为净算力成本。

简单对比下:

通用大模型:

接收明确指令，拆解步骤，用户要把任务描述清楚，包括回答顺序，比如用户需要提示是先做总结再给出标题，还是相反。

回复速度较快，基于概率预测（快速反应），通过大量数据预测答案。

推理大模型:

接收简单明了、聚焦目标的任务，用户要什么直接说，它可以自己做规划。

回复速度较慢，基于链式思维（慢速思考），推理问题步骤得到答案。

两者主要的技术差别在于训练数据，通用大模型是问题+答案，推理大模型是问题+思考过程+答案。

第二，由于Deepseek的推理大模型DeepSeek-R1关注度更高，很多人错误地认为推理大模型一定比通用大模型高级。

需要肯定的是，推理大模型属于前沿模型类型，是大模型预训练范式撞墙后，OpenAI推出的在推理阶段增加算力的新范式。相比通用大模型，推理大模型更烧钱，训练时间也更长。

但并不意味着，推理大模型一定比通用大模型好用，甚至对于某类问题，推理大模型反而显得鸡肋。

大模型领域知名专家刘聪对「定焦One」解释，比如问某个国家的首都/某个地方的省会城市，推理大模型就不如通用大模型好用。

DeepSeek-R1面对简单问题时的过度思考

他表示，面对这类比较简单的问题，推理大模型不仅回答效率低于通用大模型，消耗的算力成本也比较昂贵，甚至会出现过度思考等情况，最后可能给出错误答案。

他建议，完成数学难题、挑战性编码等复杂任务时使用推理模型，总结、翻译、基础问答等简单任务，通用模型使用效果更佳。

第三是DeepSeek的真正实力到底如何。

综合权威榜单和从业者的说法，「定焦One」分别在推理大模型和通用大模型领域，给DeepSeek排了个位。

推理大模型第一梯队主要有四家:国外OpenAI的o系列模型（如o3-mini）、Google的Gemini2.0;国内的DeepSeek-R1、阿里的QwQ。

不止一位从业者认为，虽然外界都在讨论DeepSeek-R1作为国内顶尖的模型，能力赶超OpenAI，但从技术角度看，相比OpenAI最新的o3，还有一定的差距。

它更重要的意义是，大大缩小了国内外顶尖水平之间的差距。“如果说之前的差距是2-3代，DeepSeek-R1出现后已经缩小到了0.5代。”AI行业资深从业者江树表示。

他结合自身使用经验，介绍了四家的优缺点:

在通用大模型领域，根据LM Arena（用于评估和比较大型语言模型(LLM）性能的开源平台)榜单，排在第一梯队的有五家:国外Google的Gemini(闭源)、OpenAI的ChatGPT、Anthropic的Claude;国内的DeepSeek、阿里的Qwen。

江树也列举出了使用它们的体验。

不难发现，尽管DeepSeek-R1震惊了全球科技圈，其价值毋庸置疑，但每家大模型产品都有自身的优劣势，DeepSeek也不是所有大模型都完美无缺。比如刘聪就发现，DeepSeek最新发布的专注于图像理解和生成任务的多模态大模型Janus-Pro，使用效果一般。

训练大模型，要花多少钱?

回到训练大模型的成本问题，一个大模型究竟是如何诞生的?

刘聪表示，大模型诞生主要分为预训练-后训练两个阶段，如果把大模型比作小孩，预训练和后训练要做的是，让小孩从出生时的只会哭，到懂得大人讲的内容，再到主动和大人讲话。

预训练主要指训练语料。比如将大量的文本语料投给模型，让小孩完成知识摄取，但此刻他只是学了知识还不会用。

后训练则要告诉小孩，如何去用学了的知识，包含两种方法，模型微调（SFT）和强化学习(RLHF)。

刘聪表示，无论是通用大模型还是推理大模型、国内还是国外，大家遵循的都是这一流程。江树也告诉「定焦One」，各家都用的是Transformer模型，因此在最底层的模型构成和训练步骤上，无本质区别。

多位从业者表示，各家大模型的训练成本差别很大，主要集中在硬件、数据、人工三大部分，每一部分也可能采取不同的方式，对应的成本也不同。

刘聪分别举例，比如硬件是买是租，两者间的价格相差很大，如果是买，前期的一次性投入很大，但后期会大幅降低，基本只用交电费，如果是租，可能前期投入不大，但这部分成本始终无法省去。所使用的训练数据上，是直接购买现成数据，还是自己人工爬，也差别很大。每次的训练成本也不太一样，像第一次要写爬虫、做数据筛选，但下一个版本由于可使用上个版本的重复操作，成本会有所降低。以及在最终展现模型前，中间迭代了多少版本，也决定着成本高低，但大模型公司对此讳莫如深。

总之，每个环节都涉及很多高额的隐形成本。

外界曾按照GPU估算，在顶尖模型中，GPT-4的训练成本大约为7800万美元，Llama3.1超6000万美元，Claude3.5约为1亿美元。但由于这些顶尖大模型都是闭源，以及各家是否存在算力浪费现象，外界很难知晓。直到同梯队的DeepSeek以557.6万美元出现。

需要注意的是，557.6万美元是DeepSeek技术报告中提到的基座模型DeepSeek-V3的训练成本。“关于V3版本的训练成本只能代表最后一次成功训练的成本，前期的研究、架构及算法的试错等成本都没有包含在内;而R1的具体训练成本，论文中没有提到。”刘聪表示。也就是说，557.6万美元仅为模型总成本的一小部分。

半导体市场分析和预测公司SemiAnalysis指出，考虑到服务器资本支出、运营成本等因素，DeepSeek的总成本在4年内可能达到25.73亿美元。

从业者认为，相较其他大模型公司百亿美元的投入，即便按25.73亿美元计算，DeepSeek的成本也是低的。

而且，DeepSeek-V3的训练过程仅需2048张英伟达GPU、所用GPU小时仅为278.8万，相比之下，OpenAI耗费了上万张GPU，Meta训练模型Llama-3.1-405B所用的GPU小时为3084万。

DeepSeek不仅在模型训练阶段效率更高，在调用推理阶段也更高效、成本更低。

从DeepSeek给出的各大模型API定价（开发者可以通过API调用大模型，实现文本生成、对话交互、代码生成等功能），能看出成本其低于“OpenAI们”。通常认为，高开发成本的API通常需要通过较高的定价来回收成本。

DeepSeek-R1的API定价为:每百万输入tokens1元（缓存命中），每百万输出tokens16元，反观OpenAI的o3-mini，输入(缓存命中)、输出每百万tokens的定价，分别为0.55美元(4元人民币)、4.4美元(31元人民币)。

缓存命中，即从缓存中读取数据而非重新计算或调用模型生成结果，可以减少数据处理的时间、降低成本。行业通过区分缓存命中和缓存未命中，从而提高API定价的竞争力，低价也让中小企业也更容易接入。

近期结束了优惠期的DeepSeek-V3，虽然从原来的每百万输入tokens0.1元（缓存命中）、每百万输出tokens2元，分别上调到了0.5元、8元，价格仍然低于其他主流模型。

虽然大模型总训练成本很难预估，但从业者一致认为，DeepSeek可能代表的是目前一流大模型的最低成本，未来各家应该会参照DeepSeek往下降。

DeepSeek的降本启示

DeepSeek的钱省在哪了?综合从业者的说法，从模型结构-预训练-后训练，每个方面都做了优化。

比如为了保证回答的专业性，很多大模型公司采用的是MoE模型（混合专家模型），即面对一个复杂难题，大模型会将其拆解为多个子任务，然后将不同子任务交给不同专家解答。虽然很多家大模型公司都曾提到过这一模型，但DeepSeek达到了终极专家专业化水平。

秘诀是采用了细粒度专家分割（对专家在同一类别中再进行子任务细分）和共享专家隔离(隔离部分专家减轻知识冗余)，这样做的好处是，能大幅提高MoE参数效率和性能，做到更快更准确给予答案。

有从业者估算，DeepSeekMoE相当于仅用大约40%的计算量，便达到了与LLaMA2-7B差不多的效果。

数据处理也是大模型训练的一道坎，各家都琢磨着如何提高计算效率，同时还能降低内存和带宽等硬件需求。DeepSeek找到的方法是，在处理数据时用FP8低精度训练（用于加速深度学习训练），“此举在已知开源模型中比较领先，毕竟大多数大模型使用的是FP16或BF16混合精度训练，FP8的训练速度比它们快很多。”刘聪表示。

后训练中的强化学习上，策略优化是一大难点，可以理解为让大模型更好地进行过决策，比如AlphaGo通过策略优化学会了如何在围棋中选择最优的落子策略。

DeepSeek选择GRPO（分组相对策略优化）而非PPO（近端策略优化）算法，两者的主要区别在于在进行算法优化时，是否借助价值模型，前者通过组内相对奖励来估计优势函数，后者用的是单独的价值模型。少一个模型，算力要求自然更小，也会节省成本。

以及推理层面上，用多头潜在注意力机制（MLA）而非传统的多头注意力（MHA），显著降低了显存占用和计算复杂度，最直接的好处是，API接口费用下降。

不过，这次DeepSeek给刘聪的最大启发是，可以从不同角度提升大模型推理能力，纯模型微调（SFT）和纯强化学习(RLHF)都可以做出不错的推理大模型。

也就是说，目前做推理模型，可以有四种方式:

第一种:纯强化学习（DeepSeek-R1-zero）

第二种:SFT+强化学习（DeepSeek-R1）

第三种:纯SFT（DeepSeek蒸馏模型）

第四种:纯提示词（低成本小模型）

“之前圈内都是标注SFT+强化学习，大家都没有想到，原来做纯SFT和纯做强化学习，也能得到很好的效果。”刘聪表示。

DeepSeek的降本不仅给从业者带来了技术上的启发，也影响着AI公司的发展路径。

英诺天使基金合伙人王晟介绍，AI产业在跑通AGI方向上往往有两种不同的路径选择:一个是“算力军备”范式，堆技术堆钱堆算力，先把大模型性能拉至一个高点，再考虑产业落地;另外一个是“算法效率”范式，一开始就以产业落地为目标，通过架构创新和工程化能力，推出低成本高性能模型。

“DeepSeek的一系列模型证明了，在天花板涨不动的情况下，把重点放在优化效率而非能力增长上的范式具有可行性。”王晟称。

从业者们相信，未来随着算法的进化，大模型的训练成本还会进一步降低。

方舟投资管理公司的创始人兼CEO“木头姐”曾指出，在DeepSeek之前，人工智能训练成本每年下降75%，推理成本甚至下降85%到90%。王晟也曾表示，年初发布的模型到年底再发布同样的模型，成本都会有大幅度下降，甚至有可能降至1/10。

独立研究机构SemiAnalysis在最近一篇分析报告中指出，推理成本的下降是人工智能不断进步的标志之一。原来需要超级计算机、多张GPU才能完成的GPT-3大模型性能，现在一些安装在笔记本电脑上的小模型也能实现同样效果。而且成本也下降了很多，Anthropic首席执行官Dario认为，算法定价成朝着GPT-3质量发展，成本已经降低1200倍。

未来，大模型的降本速度还会越来越快。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

DeepSeek们的成本，是怎么计算的？

推荐关键词

24小时热搜

大家正在看

英伟达回应股价遭DeepSeek暴击：DeepSeek是出色的AI进步

美业AI大脑接入DeepSeek助力员工成为超级个体增强推理能力

关于deepseek的一些普遍误读

是不是好AI，DeepSeek得过玄学关

AI颠覆者：DeepSeek的过去、现在与未来

马斯克谈DeepSeek：中国诸多伟大造物之一但我们还有更好的

DeepSeek，搅了谁的局？

DeepSeek劝不了谷歌们

第一波利用DeepSeek搞钱的人出现了 DeepSeek概念股集体大涨

揭秘：苹果AI为何选阿里不选DeepSeek

DeepSeek成“算命大师”，AI的尽头是玄学？

AI闯入了玄学圈！我用DeepSeek算命，结果真绝了！

DeepSeek的华丽文风是怎样炼成的？

DeepSeek让我审视，什么才是属于“人”的创作

对于那些出来卖的DeepSeek课程，我有些话想说。

周鸿祎：DeepSeek践行开源精神是真正的“Open AI”

DeepSeek从入门到精通（1）：10分钟用DeepSeek搭建私有化知识库

DeepSeek的冲击波，撞开了AI生态之争的大门

AI搜索时代来了！百度搜索接入DeepSeek正式上线

起猛了，腾讯元宝接入DeepSeek了。

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

DeepSeek们的成本，是怎么计算的？

推荐关键词

24小时热搜

大家正在看

英伟达回应股价遭DeepSeek暴击：DeepSeek是出色的AI进步

美业AI大脑接入DeepSeek助力员工成为超级个体增强推理能力

关于deepseek的一些普遍误读

是不是好AI，DeepSeek得过玄学关

AI颠覆者：DeepSeek的过去、现在与未来

马斯克谈DeepSeek：中国诸多伟大造物之一 但我们还有更好的

DeepSeek，搅了谁的局？

DeepSeek劝不了谷歌们

第一波利用DeepSeek搞钱的人出现了 DeepSeek概念股集体大涨

揭秘：苹果AI为何选阿里不选DeepSeek

DeepSeek成“算命大师”，AI的尽头是玄学？

AI闯入了玄学圈！我用DeepSeek算命，结果真绝了！

DeepSeek的华丽文风是怎样炼成的？

DeepSeek让我审视，什么才是属于“人”的创作

对于那些出来卖的DeepSeek课程，我有些话想说。

周鸿祎：DeepSeek践行开源精神 是真正的“Open AI”

DeepSeek从入门到精通（1）：10分钟用DeepSeek搭建私有化知识库

DeepSeek的冲击波，撞开了AI生态之争的大门

AI搜索时代来了！百度搜索接入DeepSeek正式上线

起猛了，腾讯元宝接入DeepSeek了。

马斯克谈DeepSeek：中国诸多伟大造物之一但我们还有更好的

周鸿祎：DeepSeek践行开源精神是真正的“Open AI”