要點:
DeepSeek通過創新的低成本訓練方法,以不到600萬美元的投入,成功研發出與OpenAI和Meta等巨頭相媲美的開源AI模型,震撼了行業并縮短了中國AI與全球領先水平的差距。
科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。
狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。
狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。
聯系我們 // 相關文章
近期,中國人工智能公司DeepSeek在短短兩個月內成功創建了一個有競爭力的大語言模型/LLM,成本僅不到600萬美元,這與谷歌/Google、OpenAI和Meta等巨頭在最新人工智能模型上花費數十億美元形成鮮明對比。
DeepSeek的崛起源於5月,當時該公司發布了一款名為“DeepSeek V2”的開源模型,以極具競爭力的性價比震驚了業界,使DeepSeek迅速獲得了“AI界黑馬”的稱號。而近期這一突破性的進展,更是令市場大為震驚。
DeepSeek:中國的“AI界黑馬”
DeepSeek/杭州深度求索人工智能基礎技朮研究有限公司,由幻方量化於2023年4月創立。幻方量化是中國量化私募領域的重要企業之一,其管理規模曾一度超過千億,目前仍維持在約600億元。DeepSeek是中國少數專注於AI大模型研究和技朮的公司,也是唯一一家未全面考慮商業化,且尚未進行融資的公司。
幻方量化成立於2015年,憑借數學和人工智能技朮進行量化投資,2016年首次將深度學習模型應用於實槃交易,并使用GPU進行計算,持續投入AI算法的研發。2019年,幻方量化自主研發的深度學習訓練平台“螢火一號”投入約2億元,搭載1100塊GPU。兩年后,平台“螢火二號”的投資額達到10億元,搭載了約1萬塊英偉達A100顯卡。
在建設螢火集群的過程中,DeepSeek的前身逐漸成形。憑借幻方量化的支持,DeepSeek的首輪研發資金由幻方自主出資,并且擁有強大的“螢火超算”級別的算力支持。相較於中國大部分AI初創公司,DeepSeek在資金和硬件配置上的優勢顯而易見,成為除了互聯網巨頭外少數能夠擁有超過1萬張英偉達A100顯卡的人工智能公司。
在硅谷,DeepSeek被譽為“來自東方的神秘力量”。SemiAnalysis的首席分析師認為,DeepSeek V2的論文“可能是今年最出色的一篇”。而OpenAI前政策主管、Anthropic聯合創始人則認為,DeepSeek“匯聚了一批深不可測的天才”,并預測中國制造的大模型將像無人機和電動汽車一樣,成為全球不容忽視的重要力量。
高性能低成本:性能媲美GPT-4
近年來,儘管美國的製裁影響了中國AI硬體的可用性,DeepSeek團隊仍在努力從有限的硬體資源中發揮最大性能,減輕對中國AI晶片供應造成的影響。該公司表示,其訓練的人工智能AI模型能與OpenAI、Meta和Anthropic等重量級公司的領先模型相媲美,但在GPU運算量和成本上卻減少了11倍。
DeepSeek在短短兩個月內,利用包含2048個Nvidia/英偉達H800 GPU的集群,訓練了擁有6710億個參數的DeepSeek-V3 Mixture-of-Experts (MoE)語言模型,這一過程消耗了280萬個GPU小時。相比之下,Meta使用包含16,384個H100 GPU的集群,在54天內訓練了擁有4050億參數的Llama 3,所需的運算量是DeepSeek的11倍(3080萬個GPU小時)。
該公司利用由Nvidia H800 GPU組成的集群,H800 GPU是為中國市場特供的低配版,與其他Nvidia GPU相比,它在某些性能參數上有所降低,但仍然保持了強大的計算能力和高效的能源利用,適合中國市場的需求。每個GPU都配備了GPU間互連的NVLink和節點間通訊的InfiniBand互連。在這種設置中,GPU之間的通信相對快速,但節點間的通信較為緩慢,因此最佳化成為提升效能和效率的關鍵。
此外,DeepSeek使用DualPipe算法來重疊前向和後向微批次內部以及之間的計算和通信階段,從而提高管道效率。具體來說,調度(將令牌分配給專家)和組合(聚合結果)操作是通過自定義的PTX(並行執行緒執行)指令與計算並行處理的,這意味著編寫專門的低階程式碼來與Nvidia CUDA交互並優化其操作。
DeepSeek稱,DualPipe算法極大地減少了訓練過程中的瓶頸,特別是在MoE架構中,跨節點的專家並行性需求,這種優化使得集群在預訓練階段能夠以幾乎零通信開銷處理14.8萬億個令牌。
除了實施DualPipe,DeepSeek採用了FP8混合精度框架,這不僅加速了運算,還減少了記憶體使用,且不影響數值穩定性。關鍵操作如矩陣乘法在FP8中進行,而對嵌入和歸一化層等敏感組件則保留較高精度(BF16或FP32)以保證準確性。這種方法有效減少了記憶體需求,同時保持了穩定的準確度,訓練損失誤差始終低於0.25%。
以上使得,DeepSeek在性能方面,示其DeepSeek-V3 MoE語言模型在多項基準測試中與GPT-4x、Claude-3.5-Sonnet和Llama-3.1相當,甚至更優。
但更值得關註,DeepSeek僅花600萬美元不到的成本,與科技巨頭花費數十億美元形成鮮明對比
2024年5月6日,DeepSeek發布了第二代MoE模型DeepSeek-V2,并在架搆層面進行了創新。DeepSeek選擇了逆向路徑,從“0→1”出發,提出了一種全新的MLA/多頭潛在注意力架搆。該架搆將顯存占用降至過去最常用MHA架搆的5%至13%。
在預訓練階段,DeepSeek-V3的訓練僅需180K H800 GPU小時,換算成2048個H800 GPU的集群,約為3.7天完成。因此,整個預訓練過程在不到兩個月的時間內順利完成,總成本為2664K GPU小時。加上119K GPU小時的上下文擴展和5K GPU小時的后訓練,DeepSeek-V3的完整訓練成本僅為2.788M GPU小時。假設每小時H800 GPU的租金為2美元,整體訓練成本約為557萬美元。值得注意的是,這些費用僅包括DeepSeek-V3的正式訓練,不包含架搆、算法或數據研究及優化實驗的成本。
DeepSeek對其V3模型進行了全面基准測試,盡管其訓練成本較低,DeepSeek-V3-Base依然被評為目前最強大的開源基礎模型,尤其在代碼生成和數學運算方面表現突出。其聊天版本也在眾多開源模型中脫穎而出,表現與GPT-4o、Claude-3.5-Sonnet等頂尖閉源模型相媲美。
不久前,Anthropic的CEO達里奧·阿莫迪曾透露,像GPT-4o這樣的模型訓練成本高達1億美元,而正在開發的AI大模型訓練成本可能攀升至10億美元,未來三年內,訓練成本可能達到100億美元甚至1000億美元。然而,DeepSeek僅用550萬美元和2000張GPU卡訓練出的開源模型,已經能夠與OpenAI投入几億美元訓練的模型相媲美。
因此,DeepSeek再次被譽為“中國之光”,其在預訓練、推理階段的技朮創新及測試性能,已成為一個重要的行業標杆。在算力不再是唯一決定性因素的“o1”時代,中國的模型開發者正迎來更多的機會。
DeepSeek挑戰AI行業傳統:改變燒錢“內卷”模式
如今,DeepSeek在業內產生了廣泛關注,也讓行業內的人們開始重新思考:目前現有的燒錢“內卷式”大模型開發路徑已不再是最佳選擇?是否可以從另一個角度、以更加務實和具有成本效益的方式,推動技朮的突破?
DeepSeek以不到十分之一的成本達到了大規模語言模型所能實現的目標,其成功的做法為全球AI研發提供了一個嶄新的參考。這種“低成本高效益”的創新模式,無疑將影響市場對算力和訓練成本的重新評估,并挑戰現有的大公司壟斷格局。
有聲音認為,如果像OpenAI這樣的公司開始效仿DeepSeek的做法,不僅會導致當前大規模AI芯片的燒錢模式發生根本性變化,還可能對金融市場的預期和投資策略帶來重大影響。
作為投資者,理解并把握這種技朮創新所帶來的風險與機遇,顯得尤為重要
目前,對於金融市場已經反映其股價的相關科技巨頭公司而言,DeepSeek等創新性公司的崛起意味着,他們此前在AI研發上投入的巨額成本可能面臨被替代的風險。例如,以前曾認為達到某種目標,需要10張AI芯片才能做到,現在DeepSeek現在證明,僅需1張則可達到相同效果。這種“低成本高效益”的創新方式,對於依賴巨額資本投入的傳統科技公司來說,這種現象無疑促使他們重新審視自身的技朮路線和商業模式,是否還可以通過更具性價比的方式實現技朮突破。
對於目前股價處於高位的AI科技巨頭公司而言,DeepSeek所帶來的沖擊不容小覷。隨着技朮和商業模式的變化,股東和投資者將不得不重新評估這些公司的長期盈利模式和增長潛力。假如類似DeepSeek這樣的小公司逐漸嶄露頭角,且能夠以更低成本實現與大公司同等甚至更優的技朮水平,那么這些科技巨頭的市場地位可能會面臨挑戰。投資者需要在這種技朮變革中保持敏銳的洞察力,審慎評估現有公司的競爭力,以及是否能夠有效應對新的技朮創新浪潮。
在如此動蕩的金融市場中,你會選擇怎樣投資?
一起深入了解資深投資者的交易策略。在投入股市之前,多認識金融市場,才可提高投資回報率。關注狂呼"思錢想後"欄目,緊密跟蹤股市走勢,尋找更多投資機會。
點擊此處了解更多
投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。
狂呼金融研究所聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。
狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。
聯系我們 // 相關文章