中國人工智能公司DeepSeek研發高性能、低成本AI模型,或重塑全球市場格局

中国人工智能公司DeepSeek研发高性能、低成本AI模型,或重塑全球市场格局

發布日期:

商業 Business 狂呼金融 Convo Finance 科技 Tech


要点:
DeepSeek通过创新的低成本训练方法,以不到600万美元的投入,成功研发出与OpenAI和Meta等巨头相媲美的开源AI模型,震撼了行业并缩短了中国AI与全球领先水平的差距。

近期,中国人工智能公司DeepSeek在短短两个月内成功创建了一个有竞争力的大语言模型/LLM,成本仅不到600万美元,这与谷歌/Google、OpenAI和Meta等巨头在最新人工智能模型上花费数十亿美元形成鲜明对比。

DeepSeek的崛起源于5月,当时该公司发布了一款名为“DeepSeek V2”的开源模型,以极具竞争力的性价比震惊了业界,使DeepSeek迅速获得了“AI界黑马”的称号。而近期这一突破性的进展,更是令市场大为震惊。

DeepSeek:中国的“AI界黑马”

DeepSeek/杭州深度求索人工智能基础技术研究有限公司,由幻方量化于2023年4月创立。幻方量化是中国量化私募领域的重要企业之一,其管理规模曾一度超过千亿,目前仍维持在约600亿元。 DeepSeek是中国少数专注于AI大模型研究和技术的公司,也是唯一一家未全面考虑商业化,且尚未进行融资的公司。

幻方量化成立于2015年,凭借数学和人工智能技术进行量化投资,2016年首次将深度学习模型应用于实槃交易,并使用GPU进行计算,持续投入AI算法的研发。 2019年,幻方量化自主研发的深度学习训练平台“萤火一号”投入约2亿元,搭载1100块GPU。两年后,平台“萤火二号”的投资额达到10亿元,搭载了约1万块英伟达A100显卡。

在建设萤火集群的过程中,DeepSeek的前身逐渐成形。凭借幻方量化的支持,DeepSeek的首轮研发资金由幻方自主出资,并且拥有强大的“萤火超算”级别的算力支持。相较于中国大部分AI初创公司,DeepSeek在资金和硬件配置上的优势显而易见,成为除了互联网巨头外少数能够拥有超过1万张英伟达A100显卡的人工智能公司。

在硅谷,DeepSeek被誉为“来自东方的神秘力量”。 SemiAnalysis的首席分析师认为,DeepSeek V2的论文“可能是今年最出色的一篇”。而OpenAI前政策主管、Anthropic联合创始人则认为,DeepSeek“汇聚了一批深不可测的天才”,并预测中国制造的大模型将像无人机和电动汽车一样,成为全球不容忽视的重要力量。

高性能低成本:性能媲美GPT-4

近年来,尽管美国的制裁影响了中国AI硬体的可用性,DeepSeek团队仍在努力从有限的硬体资源中发挥最大性能,减轻对中国AI晶片供应造成的影响。该公司表示,其训练的人工智能AI模型能与OpenAI、Meta和Anthropic等重量级公司的领先模型相媲美,但在GPU运算量和成本上却减少了11倍。

DeepSeek在短短两个月内,利用包含2048个Nvidia/英伟达H800 GPU的集群,训练了拥有6710亿个参数的DeepSeek-V3 Mixture-of-Experts (MoE)语言模型,这一过程消耗了280万个GPU小时。相比之下,Meta使用包含16,384个H100 GPU的集群,在54天内训练了拥有4050亿参数的Llama 3,所需的运算量是DeepSeek的11倍(3080万个GPU小时)。

该公司利用由Nvidia H800 GPU组成的集群,H800 GPU是为中国市场特供的低配版,与其他Nvidia GPU相比,它在某些性能参数上有所降低,但仍然保持了强大的计算能力和高效的能源利用,适合中国市场的需求。每个GPU都配备了GPU间互连的NVLink和节点间通讯的InfiniBand互连。在这种设置中,GPU之间的通信相对快速,但节点间的通信较为缓慢,因此最佳化成为提升效能和效率的关键。

此外,DeepSeek使用DualPipe算法来重叠前向和后向微批次内部以及之间的计算和通信阶段,从而提高管道效率。具体来说,调度(将令牌分配给专家)和组合(聚合结果)操作是通过自定义的PTX(并行执行绪执行)指令与计算并行处理的,这意味着编写专门的低阶程式码来与Nvidia CUDA交互并优化其操作。

DeepSeek称,DualPipe算法极大地减少了训练过程中的瓶颈,特别是在MoE架构中,跨节点的专家并行性需求,这种优化使得集群在预训练阶段能够以几乎零通信开销处理14.8万亿个令牌。

除了实施DualPipe,DeepSeek采用了FP8混合精度框架,这不仅加速了运算,还减少了记忆体使用,且不影响数值稳定性。关键操作如矩阵乘法在FP8中进行,而对嵌入和归一化层等敏感组件则保留较高精度(BF16或FP32)以保证准确性。这种方法有效减少了记忆体需求,同时保持了稳定的准确度,训练损失误差始终低于0.25%。

以上使得,DeepSeek在性能方面,示其DeepSeek-V3 MoE语言模型在多项基准测试中与GPT-4x、Claude-3.5-Sonnet和Llama-3.1相当,甚至更优。

但更值得关注,DeepSeek仅花600万美元不到的成本,与科技巨头花费数十亿美元形成鲜明对比

2024年5月6日,DeepSeek发布了第二代MoE模型DeepSeek-V2,并在架构层面进行了创新。 DeepSeek选择了逆向路径,从“0→1”出发,提出了一种全新的MLA/多头潜在注意力架构。该架构将显存占用降至过去最常用MHA架构的5%至13%。

在预训练阶段,DeepSeek-V3的训练仅需180K H800 GPU小时,换算成2048个H800 GPU的集群,约为3.7天完成。因此,整个预训练过程在不到两个月的时间内顺利完成,总成本为2664K GPU小时。加上119K GPU小时的上下文扩展和5K GPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设每小时H800 GPU的租金为2美元,整体训练成本约为557万美元。值得注意的是,这些费用仅包括DeepSeek-V3的正式训练,不包含架构、算法或数据研究及优化实验的成本。

DeepSeek对其V3模型进行了全面基准测试,尽管其训练成本较低,DeepSeek-V3-Base依然被评为目前最强大的开源基础模型,尤其在代码生成和数学运算方面表现突出。其聊天版本也在众多开源模型中脱颖而出,表现与GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型相媲美。

不久前,Anthropic的CEO达里奥·阿莫迪曾透露,像GPT-4o这样的模型训练成本高达1亿美元,而正在开发的AI大模型训练成本可能攀升至10亿美元,未来三年内,训练成本可能达到100亿美元甚至1000亿美元。然而,DeepSeek仅用550万美元和2000张GPU卡训练出的开源模型,已经能够与OpenAI投入几亿美元训练的模型相媲美。

因此,DeepSeek再次被誉为“中国之光”,其在预训练、推理阶段的技术创新及测试性能,已成为一个重要的行业标杆。在算力不再是唯一决定性因素的“o1”时代,中国的模型开发者正迎来更多的机会。

DeepSeek挑战AI行业传统:改变烧钱“内卷”模式

如今,DeepSeek在业内产生了广泛关注,也让行业内的人们开始重新思考:目前现有的烧钱“内卷式”大模型开发路径已不再是最佳选择?是否可以从另一个角度、以更加务实和具有成本效益的方式,推动技术的突破?

DeepSeek以不到十分之一的成本达到了大规模语言模型所能实现的目标,其成功的做法为全球AI研发提供了一个崭新的参考。这种“低成本高效益”的创新模式,无疑将影响市场对算力和训练成本的重新评估,并挑战现有的大公司垄断格局。

有声音认为,如果像OpenAI这样的公司开始效仿DeepSeek的做法,不仅会导致当前大规模AI芯片的烧钱模式发生根本性变化,还可能对金融市场的预期和投资策略带来重大影响。

作为投资者,理解并把握这种技术创新所带来的风险与机遇,显得尤为重要

目前,对于金融市场已经反映其股价的相关科技巨头公司而言,DeepSeek等创新性公司的崛起意味着,他们此前在AI研发上投入的巨额成本可能面临被替代的风险。例如,以前曾认为达到某种目标,需要10张AI芯片才能做到,现在DeepSeek现在证明,仅需1张则可达到相同效果。这种“低成本高效益”的创新方式,对于依赖巨额资本投入的传统科技公司来说,这种现象无疑促使他们重新审视自身的技术路线和商业模式,是否还可以通过更具性价比的方式实现技术突破。

对于目前股价处于高位的AI科技巨头公司而言,DeepSeek所带来的冲击不容小觑。随着技术和商业模式的变化,股东和投资者将不得不重新评估这些公司的长期盈利模式和增长潜力。假如类似DeepSeek这样的小公司逐渐崭露头角,且能够以更低成本实现与大公司同等甚至更优的技术水平,那么这些科技巨头的市场地位可能会面临挑战。投资者需要在这种技术变革中保持敏锐的洞察力,审慎评估现有公司的竞争力,以及是否能够有效应对新的技术创新浪潮。

狂呼金融 Convo Finance

投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。

狂呼金融聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。

狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
1 / 8
1 / 4
  • 中國惠州房產中介貸款騙局,為愛買房“殺豬槃”騙局?

    中國惠州房產中介貸款騙局,為愛買房“殺豬槃”騙局?

    “我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”,而更離奇的是,這些男士還都是同一棟樓的業主,他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合,實則隱藏着不為人知的騙局。

    中國惠州房產中介貸款騙局,為愛買房“殺豬槃”騙局?

    “我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”,而更離奇的是,這些男士還都是同一棟樓的業主,他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合,實則隱藏着不為人知的騙局。

  • 美國性勒索與網路犯罪:青少年如何避免成為下一個受害者?

    美国性勒索与网路犯罪:青少年如何避免成为下一个受害者?

    在数字化时代,网络犯罪的形式愈加多样且隐蔽,其中“性勒索”/sextortion已成为一个日益严重的问题。这类网络犯罪不仅涉及个人隐私的泄露,还会对受害者的心理健康和社会生活造成深远影响。 “性勒索”/Sextortion犯罪在现代技术的推动下,呈现出爆发式增长。

    美国性勒索与网路犯罪:青少年如何避免成为下一个受害者?

    在数字化时代,网络犯罪的形式愈加多样且隐蔽,其中“性勒索”/sextortion已成为一个日益严重的问题。这类网络犯罪不仅涉及个人隐私的泄露,还会对受害者的心理健康和社会生活造成深远影响。 “性勒索”/Sextortion犯罪在现代技术的推动下,呈现出爆发式增长。

  • 美國加州洛杉磯野火的“囚犯消防員”

    加州洛杉矶野火的“囚犯消防员”

    加州洛杉矶囚犯参与了构筑防火线、清除废墟及易燃物等工作,弥补了加州消防队伍的不足。然而,他们的低薪待遇却令人震惊。囚犯消防员的收入在每天5.8美元至10.2美元之间,而相比之下,加州的最低工资标准为每小时16.5美元。

    加州洛杉矶野火的“囚犯消防员”

    加州洛杉矶囚犯参与了构筑防火线、清除废墟及易燃物等工作,弥补了加州消防队伍的不足。然而,他们的低薪待遇却令人震惊。囚犯消防员的收入在每天5.8美元至10.2美元之间,而相比之下,加州的最低工资标准为每小时16.5美元。

  • 從吉他少年到海嘎小學教師,顧亞用音樂敲開鄉村孩子通往世界的大門

    从吉他少年到海嘎小学教师,顾亚用音乐敲开乡村孩子通往世界的大门

    2014年,在家人的“怂恿”下,27岁的顾亚参加了乡镇特岗教师的招聘考试,意外地来到了这个偏远的村庄。海嘎村的孩子们大多没有见过吉他,但他们天生拥有出色的嗓音和节奏感。顾亚毅然申请从大湾镇的腊寨小学调动,前往海嘎村当起了老师。

    从吉他少年到海嘎小学教师,顾亚用音乐敲开乡村孩子通往世界的大门

    2014年,在家人的“怂恿”下,27岁的顾亚参加了乡镇特岗教师的招聘考试,意外地来到了这个偏远的村庄。海嘎村的孩子们大多没有见过吉他,但他们天生拥有出色的嗓音和节奏感。顾亚毅然申请从大湾镇的腊寨小学调动,前往海嘎村当起了老师。

1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4