中國人工智能公司DeepSeek研發高性能、低成本AI模型,或重塑全球市場格局

中国人工智能公司DeepSeek研发高性能、低成本AI模型,或重塑全球市场格局

發布日期:

商業 Business 狂呼金融 Convo Finance 科技 Tech


要点:
DeepSeek通过创新的低成本训练方法,以不到600万美元的投入,成功研发出与OpenAI和Meta等巨头相媲美的开源AI模型,震撼了行业并缩短了中国AI与全球领先水平的差距。

近期,中国人工智能公司DeepSeek在短短两个月内成功创建了一个有竞争力的大语言模型/LLM,成本仅不到600万美元,这与谷歌/Google、OpenAI和Meta等巨头在最新人工智能模型上花费数十亿美元形成鲜明对比。

DeepSeek的崛起源于5月,当时该公司发布了一款名为“DeepSeek V2”的开源模型,以极具竞争力的性价比震惊了业界,使DeepSeek迅速获得了“AI界黑马”的称号。而近期这一突破性的进展,更是令市场大为震惊。

DeepSeek:中国的“AI界黑马”

DeepSeek/杭州深度求索人工智能基础技术研究有限公司,由幻方量化于2023年4月创立。幻方量化是中国量化私募领域的重要企业之一,其管理规模曾一度超过千亿,目前仍维持在约600亿元。 DeepSeek是中国少数专注于AI大模型研究和技术的公司,也是唯一一家未全面考虑商业化,且尚未进行融资的公司。

幻方量化成立于2015年,凭借数学和人工智能技术进行量化投资,2016年首次将深度学习模型应用于实槃交易,并使用GPU进行计算,持续投入AI算法的研发。 2019年,幻方量化自主研发的深度学习训练平台“萤火一号”投入约2亿元,搭载1100块GPU。两年后,平台“萤火二号”的投资额达到10亿元,搭载了约1万块英伟达A100显卡。

在建设萤火集群的过程中,DeepSeek的前身逐渐成形。凭借幻方量化的支持,DeepSeek的首轮研发资金由幻方自主出资,并且拥有强大的“萤火超算”级别的算力支持。相较于中国大部分AI初创公司,DeepSeek在资金和硬件配置上的优势显而易见,成为除了互联网巨头外少数能够拥有超过1万张英伟达A100显卡的人工智能公司。

在硅谷,DeepSeek被誉为“来自东方的神秘力量”。 SemiAnalysis的首席分析师认为,DeepSeek V2的论文“可能是今年最出色的一篇”。而OpenAI前政策主管、Anthropic联合创始人则认为,DeepSeek“汇聚了一批深不可测的天才”,并预测中国制造的大模型将像无人机和电动汽车一样,成为全球不容忽视的重要力量。

高性能低成本:性能媲美GPT-4

近年来,尽管美国的制裁影响了中国AI硬体的可用性,DeepSeek团队仍在努力从有限的硬体资源中发挥最大性能,减轻对中国AI晶片供应造成的影响。该公司表示,其训练的人工智能AI模型能与OpenAI、Meta和Anthropic等重量级公司的领先模型相媲美,但在GPU运算量和成本上却减少了11倍。

DeepSeek在短短两个月内,利用包含2048个Nvidia/英伟达H800 GPU的集群,训练了拥有6710亿个参数的DeepSeek-V3 Mixture-of-Experts (MoE)语言模型,这一过程消耗了280万个GPU小时。相比之下,Meta使用包含16,384个H100 GPU的集群,在54天内训练了拥有4050亿参数的Llama 3,所需的运算量是DeepSeek的11倍(3080万个GPU小时)。

该公司利用由Nvidia H800 GPU组成的集群,H800 GPU是为中国市场特供的低配版,与其他Nvidia GPU相比,它在某些性能参数上有所降低,但仍然保持了强大的计算能力和高效的能源利用,适合中国市场的需求。每个GPU都配备了GPU间互连的NVLink和节点间通讯的InfiniBand互连。在这种设置中,GPU之间的通信相对快速,但节点间的通信较为缓慢,因此最佳化成为提升效能和效率的关键。

此外,DeepSeek使用DualPipe算法来重叠前向和后向微批次内部以及之间的计算和通信阶段,从而提高管道效率。具体来说,调度(将令牌分配给专家)和组合(聚合结果)操作是通过自定义的PTX(并行执行绪执行)指令与计算并行处理的,这意味着编写专门的低阶程式码来与Nvidia CUDA交互并优化其操作。

DeepSeek称,DualPipe算法极大地减少了训练过程中的瓶颈,特别是在MoE架构中,跨节点的专家并行性需求,这种优化使得集群在预训练阶段能够以几乎零通信开销处理14.8万亿个令牌。

除了实施DualPipe,DeepSeek采用了FP8混合精度框架,这不仅加速了运算,还减少了记忆体使用,且不影响数值稳定性。关键操作如矩阵乘法在FP8中进行,而对嵌入和归一化层等敏感组件则保留较高精度(BF16或FP32)以保证准确性。这种方法有效减少了记忆体需求,同时保持了稳定的准确度,训练损失误差始终低于0.25%。

以上使得,DeepSeek在性能方面,示其DeepSeek-V3 MoE语言模型在多项基准测试中与GPT-4x、Claude-3.5-Sonnet和Llama-3.1相当,甚至更优。

但更值得关注,DeepSeek仅花600万美元不到的成本,与科技巨头花费数十亿美元形成鲜明对比

2024年5月6日,DeepSeek发布了第二代MoE模型DeepSeek-V2,并在架构层面进行了创新。 DeepSeek选择了逆向路径,从“0→1”出发,提出了一种全新的MLA/多头潜在注意力架构。该架构将显存占用降至过去最常用MHA架构的5%至13%。

在预训练阶段,DeepSeek-V3的训练仅需180K H800 GPU小时,换算成2048个H800 GPU的集群,约为3.7天完成。因此,整个预训练过程在不到两个月的时间内顺利完成,总成本为2664K GPU小时。加上119K GPU小时的上下文扩展和5K GPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设每小时H800 GPU的租金为2美元,整体训练成本约为557万美元。值得注意的是,这些费用仅包括DeepSeek-V3的正式训练,不包含架构、算法或数据研究及优化实验的成本。

DeepSeek对其V3模型进行了全面基准测试,尽管其训练成本较低,DeepSeek-V3-Base依然被评为目前最强大的开源基础模型,尤其在代码生成和数学运算方面表现突出。其聊天版本也在众多开源模型中脱颖而出,表现与GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型相媲美。

不久前,Anthropic的CEO达里奥·阿莫迪曾透露,像GPT-4o这样的模型训练成本高达1亿美元,而正在开发的AI大模型训练成本可能攀升至10亿美元,未来三年内,训练成本可能达到100亿美元甚至1000亿美元。然而,DeepSeek仅用550万美元和2000张GPU卡训练出的开源模型,已经能够与OpenAI投入几亿美元训练的模型相媲美。

因此,DeepSeek再次被誉为“中国之光”,其在预训练、推理阶段的技术创新及测试性能,已成为一个重要的行业标杆。在算力不再是唯一决定性因素的“o1”时代,中国的模型开发者正迎来更多的机会。

DeepSeek挑战AI行业传统:改变烧钱“内卷”模式

如今,DeepSeek在业内产生了广泛关注,也让行业内的人们开始重新思考:目前现有的烧钱“内卷式”大模型开发路径已不再是最佳选择?是否可以从另一个角度、以更加务实和具有成本效益的方式,推动技术的突破?

DeepSeek以不到十分之一的成本达到了大规模语言模型所能实现的目标,其成功的做法为全球AI研发提供了一个崭新的参考。这种“低成本高效益”的创新模式,无疑将影响市场对算力和训练成本的重新评估,并挑战现有的大公司垄断格局。

有声音认为,如果像OpenAI这样的公司开始效仿DeepSeek的做法,不仅会导致当前大规模AI芯片的烧钱模式发生根本性变化,还可能对金融市场的预期和投资策略带来重大影响。

作为投资者,理解并把握这种技术创新所带来的风险与机遇,显得尤为重要

目前,对于金融市场已经反映其股价的相关科技巨头公司而言,DeepSeek等创新性公司的崛起意味着,他们此前在AI研发上投入的巨额成本可能面临被替代的风险。例如,以前曾认为达到某种目标,需要10张AI芯片才能做到,现在DeepSeek现在证明,仅需1张则可达到相同效果。这种“低成本高效益”的创新方式,对于依赖巨额资本投入的传统科技公司来说,这种现象无疑促使他们重新审视自身的技术路线和商业模式,是否还可以通过更具性价比的方式实现技术突破。

对于目前股价处于高位的AI科技巨头公司而言,DeepSeek所带来的冲击不容小觑。随着技术和商业模式的变化,股东和投资者将不得不重新评估这些公司的长期盈利模式和增长潜力。假如类似DeepSeek这样的小公司逐渐崭露头角,且能够以更低成本实现与大公司同等甚至更优的技术水平,那么这些科技巨头的市场地位可能会面临挑战。投资者需要在这种技术变革中保持敏锐的洞察力,审慎评估现有公司的竞争力,以及是否能够有效应对新的技术创新浪潮。

狂呼金融 Convo Finance

投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。

狂呼金融聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。

狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4