中國人工智能公司DeepSeek研發高性能、低成本AI模型,或重塑全球市場格局

中國人工智能公司DeepSeek研發高性能、低成本AI模型,或重塑全球市場格局

發布日期:

商業 Business 狂呼金融 Convo Finance 科技 Tech


要點:
DeepSeek通過創新的低成本訓練方法,以不到600萬美元的投入,成功研發出與OpenAI和Meta等巨頭相媲美的開源AI模型,震撼了行業并縮短了中國AI與全球領先水平的差距。

近期,中國人工智能公司DeepSeek在短短兩個月內成功創建了一個有競爭力的大語言模型/LLM,成本僅不到600萬美元,這與谷歌/Google、OpenAI和Meta等巨頭在最新人工智能模型上花費數十億美元形成鮮明對比。

DeepSeek的崛起源於5月,當時該公司發布了一款名為“DeepSeek V2”的開源模型,以極具競爭力的性價比震驚了業界,使DeepSeek迅速獲得了“AI界黑馬”的稱號。而近期這一突破性的進展,更是令市場大為震驚。

DeepSeek:中國的“AI界黑馬”

DeepSeek/杭州深度求索人工智能基礎技朮研究有限公司,由幻方量化於2023年4月創立。幻方量化是中國量化私募領域的重要企業之一,其管理規模曾一度超過千億,目前仍維持在約600億元。DeepSeek是中國少數專注於AI大模型研究和技朮的公司,也是唯一一家未全面考慮商業化,且尚未進行融資的公司。

幻方量化成立於2015年,憑借數學和人工智能技朮進行量化投資,2016年首次將深度學習模型應用於實槃交易,并使用GPU進行計算,持續投入AI算法的研發。2019年,幻方量化自主研發的深度學習訓練平台“螢火一號”投入約2億元,搭載1100塊GPU。兩年后,平台“螢火二號”的投資額達到10億元,搭載了約1萬塊英偉達A100顯卡。

在建設螢火集群的過程中,DeepSeek的前身逐漸成形。憑借幻方量化的支持,DeepSeek的首輪研發資金由幻方自主出資,并且擁有強大的“螢火超算”級別的算力支持。相較於中國大部分AI初創公司,DeepSeek在資金和硬件配置上的優勢顯而易見,成為除了互聯網巨頭外少數能夠擁有超過1萬張英偉達A100顯卡的人工智能公司。

在硅谷,DeepSeek被譽為“來自東方的神秘力量”。SemiAnalysis的首席分析師認為,DeepSeek V2的論文“可能是今年最出色的一篇”。而OpenAI前政策主管、Anthropic聯合創始人則認為,DeepSeek“匯聚了一批深不可測的天才”,并預測中國制造的大模型將像無人機和電動汽車一樣,成為全球不容忽視的重要力量。

高性能低成本:性能媲美GPT-4

近年來,儘管美國的製裁影響了中國AI硬體的可用性,DeepSeek團隊仍在努力從有限的硬體資源中發揮最大性能,減輕對中國AI晶片供應造成的影響。該公司表示,其訓練的人工智能AI模型能與OpenAI、Meta和Anthropic等重量級公司的領先模型相媲美,但在GPU運算量和成本上卻減少了11倍。

DeepSeek在短短兩個月內,利用包含2048個Nvidia/英偉達H800 GPU的集群,訓練了擁有6710億個參數的DeepSeek-V3 Mixture-of-Experts (MoE)語言模型,這一過程消耗了280萬個GPU小時。相比之下,Meta使用包含16,384個H100 GPU的集群,在54天內訓練了擁有4050億參數的Llama 3,所需的運算量是DeepSeek的11倍(3080萬個GPU小時)。

該公司利用由Nvidia H800 GPU組成的集群,H800 GPU是為中國市場特供的低配版,與其他Nvidia GPU相比,它在某些性能參數上有所降低,但仍然保持了強大的計算能力和高效的能源利用,適合中國市場的需求。每個GPU都配備了GPU間互連的NVLink和節點間通訊的InfiniBand互連。在這種設置中,GPU之間的通信相對快速,但節點間的通信較為緩慢,因此最佳化成為提升效能和效率的關鍵。

此外,DeepSeek使用DualPipe算法來重疊前向和後向微批次內部以及之間的計算和通信階段,從而提高管道效率。具體來說,調度(將令牌分配給專家)和組合(聚合結果)操作是通過自定義的PTX(並行執行緒執行)指令與計算並行處理的,這意味著編寫專門的低階程式碼來與Nvidia CUDA交互並優化其操作。

DeepSeek稱,DualPipe算法極大地減少了訓練過程中的瓶頸,特別是在MoE架構中,跨節點的專家並行性需求,這種優化使得集群在預訓練階段能夠以幾乎零通信開銷處理14.8萬億個令牌。

除了實施DualPipe,DeepSeek採用了FP8混合精度框架,這不僅加速了運算,還減少了記憶體使用,且不影響數值穩定性。關鍵操作如矩陣乘法在FP8中進行,而對嵌入和歸一化層等敏感組件則保留較高精度(BF16或FP32)以保證準確性。這種方法有效減少了記憶體需求,同時保持了穩定的準確度,訓練損失誤差始終低於0.25%。

以上使得,DeepSeek在性能方面,示其DeepSeek-V3 MoE語言模型在多項基準測試中與GPT-4x、Claude-3.5-Sonnet和Llama-3.1相當,甚至更優。

但更值得關註,DeepSeek僅花600萬美元不到的成本,與科技巨頭花費數十億美元形成鮮明對比

2024年5月6日,DeepSeek發布了第二代MoE模型DeepSeek-V2,并在架搆層面進行了創新。DeepSeek選擇了逆向路徑,從“0→1”出發,提出了一種全新的MLA/多頭潛在注意力架搆。該架搆將顯存占用降至過去最常用MHA架搆的5%至13%。

在預訓練階段,DeepSeek-V3的訓練僅需180K H800 GPU小時,換算成2048個H800 GPU的集群,約為3.7天完成。因此,整個預訓練過程在不到兩個月的時間內順利完成,總成本為2664K GPU小時。加上119K GPU小時的上下文擴展和5K GPU小時的后訓練,DeepSeek-V3的完整訓練成本僅為2.788M GPU小時。假設每小時H800 GPU的租金為2美元,整體訓練成本約為557萬美元。值得注意的是,這些費用僅包括DeepSeek-V3的正式訓練,不包含架搆、算法或數據研究及優化實驗的成本。

DeepSeek對其V3模型進行了全面基准測試,盡管其訓練成本較低,DeepSeek-V3-Base依然被評為目前最強大的開源基礎模型,尤其在代碼生成和數學運算方面表現突出。其聊天版本也在眾多開源模型中脫穎而出,表現與GPT-4o、Claude-3.5-Sonnet等頂尖閉源模型相媲美。

不久前,Anthropic的CEO達里奧·阿莫迪曾透露,像GPT-4o這樣的模型訓練成本高達1億美元,而正在開發的AI大模型訓練成本可能攀升至10億美元,未來三年內,訓練成本可能達到100億美元甚至1000億美元。然而,DeepSeek僅用550萬美元和2000張GPU卡訓練出的開源模型,已經能夠與OpenAI投入几億美元訓練的模型相媲美。

因此,DeepSeek再次被譽為“中國之光”,其在預訓練、推理階段的技朮創新及測試性能,已成為一個重要的行業標杆。在算力不再是唯一決定性因素的“o1”時代,中國的模型開發者正迎來更多的機會。

DeepSeek挑戰AI行業傳統:改變燒錢“內卷”模式

如今,DeepSeek在業內產生了廣泛關注,也讓行業內的人們開始重新思考:目前現有的燒錢“內卷式”大模型開發路徑已不再是最佳選擇?是否可以從另一個角度、以更加務實和具有成本效益的方式,推動技朮的突破?

DeepSeek以不到十分之一的成本達到了大規模語言模型所能實現的目標,其成功的做法為全球AI研發提供了一個嶄新的參考。這種“低成本高效益”的創新模式,無疑將影響市場對算力和訓練成本的重新評估,并挑戰現有的大公司壟斷格局。

有聲音認為,如果像OpenAI這樣的公司開始效仿DeepSeek的做法,不僅會導致當前大規模AI芯片的燒錢模式發生根本性變化,還可能對金融市場的預期和投資策略帶來重大影響。

作為投資者,理解并把握這種技朮創新所帶來的風險與機遇,顯得尤為重要

目前,對於金融市場已經反映其股價的相關科技巨頭公司而言,DeepSeek等創新性公司的崛起意味着,他們此前在AI研發上投入的巨額成本可能面臨被替代的風險。例如,以前曾認為達到某種目標,需要10張AI芯片才能做到,現在DeepSeek現在證明,僅需1張則可達到相同效果。這種“低成本高效益”的創新方式,對於依賴巨額資本投入的傳統科技公司來說,這種現象無疑促使他們重新審視自身的技朮路線和商業模式,是否還可以通過更具性價比的方式實現技朮突破。

對於目前股價處於高位的AI科技巨頭公司而言,DeepSeek所帶來的沖擊不容小覷。隨着技朮和商業模式的變化,股東和投資者將不得不重新評估這些公司的長期盈利模式和增長潛力。假如類似DeepSeek這樣的小公司逐漸嶄露頭角,且能夠以更低成本實現與大公司同等甚至更優的技朮水平,那么這些科技巨頭的市場地位可能會面臨挑戰。投資者需要在這種技朮變革中保持敏銳的洞察力,審慎評估現有公司的競爭力,以及是否能夠有效應對新的技朮創新浪潮。

狂呼金融 Convo Finance

投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。

狂呼金融聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。

狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回網誌
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季財報,不及市場預期

    因國內主站營收增長不及預期,營銷支出也並未明顯下滑,因此實際利潤表現並不及預期。分板塊來看背後原因,我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多,另外國內主站的經營利潤增長應當也相當有限。

    PDD拼多多2026年第一季財報,不及市場預期

    因國內主站營收增長不及預期,營銷支出也並未明顯下滑,因此實際利潤表現並不及預期。分板塊來看背後原因,我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多,另外國內主站的經營利潤增長應當也相當有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米本季度汽車業務毛利率下滑至 20.1%,接近市場預期(20.5%),主要是受均價下滑的影響,其中包含了小米對購置税進行補貼的影響,並在本季度銷售了一部分的低價現車。由於毛利率再次回落,海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

    小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米本季度汽車業務毛利率下滑至 20.1%,接近市場預期(20.5%),主要是受均價下滑的影響,其中包含了小米對購置税進行補貼的影響,並在本季度銷售了一部分的低價現車。由於毛利率再次回落,海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA 核心經營指標:總收入 816 億美元,好於上調後的買方預期(780-800 億美元),其中季度環比增長 135 億美元,幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

    NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA 核心經營指標:總收入 816 億美元,好於上調後的買方預期(780-800 億美元),其中季度環比增長 135 億美元,幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亞迪的業績仍然不及預期。收入雖超預期,但主要由於非核心的比亞迪電子業務高增帶來,而在核心的賣車業務上,賣車單價仍處於下行軌道,賣車成本降幅不夠,最後賣車毛利率雖有回暖,但仍低於市場預期。

    BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亞迪的業績仍然不及預期。收入雖超預期,但主要由於非核心的比亞迪電子業務高增帶來,而在核心的賣車業務上,賣車單價仍處於下行軌道,賣車成本降幅不夠,最後賣車毛利率雖有回暖,但仍低於市場預期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    消息一出,華爾街一度陷入恐慌:如果 AI 突然間不再需要那麼多 RAM 就能運作,這是否意味著記憶體產業的「超級週期」即將結束?答案是否定的。事實上,從歷史規律與經濟學角度來看,情況正好相反。要理解這一點,我們只需要觀察你電腦上的網頁瀏覽器。

    GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    消息一出,華爾街一度陷入恐慌:如果 AI 突然間不再需要那麼多 RAM 就能運作,這是否意味著記憶體產業的「超級週期」即將結束?答案是否定的。事實上,從歷史規律與經濟學角度來看,情況正好相反。要理解這一點,我們只需要觀察你電腦上的網頁瀏覽器。

  • BABA財報AI投入比較激進

    BABA財報AI投入比較激進

    BABA發布第四季財報後股價下跌,財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%,而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資(總額超過530億美元)有效性的擔憂。

    BABA財報AI投入比較激進

    BABA發布第四季財報後股價下跌,財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%,而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資(總額超過530億美元)有效性的擔憂。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光業績,季度毛利率達到 74.4%!

    MU 整體業績:美光本季度營收 238.6 億美元,環比增長 75%,好於上調後的買方預期(199 億美元),本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動,兩大業務環增都在 70% 以上。

    MU美光業績,季度毛利率達到 74.4%!

    MU 整體業績:美光本季度營收 238.6 億美元,環比增長 75%,好於上調後的買方預期(199 億美元),本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動,兩大業務環增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    Tencent騰訊業績整體看無驚無喜?

    騰訊一口氣連發多個 “龍蝦” 產品,能夠看出公司在元寶春節大戰中失利後的焦慮,雖然倉促推出產品還不夠完善。不過這個緊迫感的轉變很關鍵也很必要。就目前來看,微信入口似乎在 AI 原生應用盛行的當下仍然有無法撼動的地位。

    Tencent騰訊業績整體看無驚無喜?

    騰訊一口氣連發多個 “龍蝦” 產品,能夠看出公司在元寶春節大戰中失利後的焦慮,雖然倉促推出產品還不夠完善。不過這個緊迫感的轉變很關鍵也很必要。就目前來看,微信入口似乎在 AI 原生應用盛行的當下仍然有無法撼動的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa機器人削蘋果

    對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

    Sharpa機器人削蘋果

    對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    近期,中國科學家在“Cell”雜志上發表的一項突破性研究,為這一頑疾提供了全新思路。他們利用基因編輯技朮,將癌細胞改造成免疫系統眼中的“異類”,類似於人體對豬器官產生的超急性排斥反應,從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

    腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    近期,中國科學家在“Cell”雜志上發表的一項突破性研究,為這一頑疾提供了全新思路。他們利用基因編輯技朮,將癌細胞改造成免疫系統眼中的“異類”,類似於人體對豬器官產生的超急性排斥反應,從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新系統的核心原理與常見的“嘗試說話”型腦機介面相似,都是在大腦運動皮質植入感測器,這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型,模型依據個人化數據判斷信號對應的聲音,進而預測使用者想說的單字。

    新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新系統的核心原理與常見的“嘗試說話”型腦機介面相似,都是在大腦運動皮質植入感測器,這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型,模型依據個人化數據判斷信號對應的聲音,進而預測使用者想說的單字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來,生物學家們一直在探討它們是否真的無用。如今的主流觀點認為,這些片段雖不直接參與蛋白質合成,卻在整體基因組中佔據了極大比例,顯示它們可能具有重要功能。

    “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來,生物學家們一直在探討它們是否真的無用。如今的主流觀點認為,這些片段雖不直接參與蛋白質合成,卻在整體基因組中佔據了極大比例,顯示它們可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

1 / 4