要點:
OpenAI在人工智能算力需求激增的背景下,首次引入谷歌AI晶片以多元化基礎設施,降低對英偉達硬體和微軟管理架構的依賴,提升運營彈性與競爭力。
在當前人工智能AI快速發展的浪潮中,算力需求正以前所未有的速度激增。面對日益複雜的模型訓練與推理任務,如何確保高效、穩定且具成本競爭力的基礎設施,成為AI企業制勝關鍵。OpenAI作為行業領頭羊,正積極探索多元化算力佈局,以應對供應鏈挑戰和市場變化,提升自身運營韌性與擴展能力。
近日,OpenAI已開始使用谷歌/Google的人工智能AI晶片支援ChatGPT及其相關服務,這代表該公司首次明顯降低對英偉達/Nivda硬體的高度依賴。此舉不僅是運算策略的技術轉向,也揭示了OpenAI更大規模分散其基礎設施供應來源、減少對微軟/Microsoft管理架構依賴的整體戰略轉型。
OpenAI布局多元算力生態
具體而言,OpenAI透過Google Cloud租用張量處理單元/TPUs,主要用於模型推理階段,即在模型訓練完成後的實際執行與回應生成工作。這不僅有助於控制成本,也為Google TPU在AI計算領域中提供了展示舞台,成為與英偉達圖形處理單元/GPUs抗衡的潛在低成本選項。
TPU/張量處理單元 Tensor Processing Unit,也稱為張量處理器,是Google開發的專用積體電路(ASIC),專門用於加速機器學習。自2015年起,Google就已經開始在內部使用TPU,並於2018年將TPU提供給第三方使用,既將部分TPU作為其雲端基礎架構的一部分,也將部分小型版本的TPU用於銷售。

據估計,訓練一個大型語言模型的成本可能達到數千萬美元,訓練過程中需使用成千上萬的高性能GPU或TPU組成的集群。舉例來說,OpenAI在2023年公布的GPT-4模型訓練,據分析師推測,至少耗費了超過3萬顆NVIDIA A100 GPU的計算資源,訓練時間長達數週。由此可見,任何硬體供應的變動都會直接影響模型訓練的效率與成本。
在此背景下,OpenAI採用Google TPU作為推理硬體的決策,除了分散供應風險,也意味著其希望建立多元的計算基礎設施。這種多雲策略可以降低對單一供應商的依賴,避免因供應鏈瓶頸或價格波動而影響服務穩定性。根據市場調研機構Synergy Research Group的報告,2024年全球雲端基礎設施市場規模已超過2000億美元,多雲管理策略正成為大型企業的標配。
除了成本與供應穩定性,多架構運算也為AI模型的靈活部署提供支持。例如,Google的TPU在某些張量計算和浮點性能上表現優異,而NVIDIA的GPU則在多樣化AI應用和通用運算上更具靈活性。結合不同硬體的優勢,可以讓OpenAI根據不同階段和任務需求,選擇最佳硬體,提升整體效能。
過去,OpenAI主要透過與微軟和甲骨文/Oracle的合作取得英偉達晶片資源,用於模型的訓練與部署。而今儘管Google向其開放了部分TPU算力,但據消息人士透露,最先進的TPU版本仍未納入合作內容,推測是為保留Google自家Gemini項目所需資源。
儘管如此,OpenAI能夠取得早期版本的TPUs仍被視為其基礎設施多元化戰略中的重要一步,特別是在全球AI算力需求日益飆升、資源日趨緊張的背景下。該舉措或將為整個業界提供一種可行的混合運算模式範例,有助於提高運營靈活性。
此次合作,凸顯了人工智能硬體領域不斷變化的動態,像Google這樣的公司正在利用多年來在軟體和客製化晶片方面的投資。對於OpenAI而言,Google作為晶片供應商的加入拓寬了其技術堆疊的生態系統,並緩解了人們對運算資源可用性和成本日益增長的擔憂。
在AI算力競爭風險中尋求靈活擴展
除了OpenAI之外,其他大型AI企業和科技巨頭也紛紛推動多架搆計算策略,以提升整體算力效率和靈活性。以Meta為例,其搆建了名為“AI Research SuperCluster”的自研AI加速芯片系統,將GPU與ASIC(專用集成電路)相結合。這種混合架搆不僅大幅提升了計算性能,還顯著降低了能耗,為其大規模AI模型訓練提供強大支撐,使其能夠在激烈的AI研發競賽中保持領先。
供應鏈的不確定性成為促使多架搆策略普及的另一重要驅動力。近年來,全球芯片短缺、地緣政治緊張和生產能力調整等因素持續沖擊AI硬件市場。通過釆用多云環境和多供應商合作,企業能夠靈活調配資源,有效規避單一廠商產能瓶頸或價格波動帶來的風險,從而保障運算服務的連續性和穩定性。
技朮發展趨勢顯示,未來AI硬件將愈加多樣化和專業化,既有為大規模模型訓練專門設計的定制芯片,也有面向推理和邊緣計算的輕量級加速器。這些硬件各自具備獨特優勢,結合使用能夠根據不同任務需求優化性能和能效,提升整體運算效率,滿足日益復雜的AI應用場景。
OpenAI通過引入Google的TPU,與其傳統的NVIDIA GPU形成互補,體現了其追求計算基礎設施多元化的戰略意圖。通過整合多種硬件架搆,OpenAI不僅降低了對單一供應商的依賴,也為應對未來不斷攀升的算力需求提供了更靈活、高效的解決方案。這種混合策略有助於平衡性能、成本與能耗之間的關系,促進持續創新。
此外,多云和多架搆的混合運算模式也為AI企業帶來了更高的運營韌性和擴展能力。在面對市場波動和技朮變革時,靈活調配算力資源成為保障業務連續性和快速響應的關鍵。無論是云端還是本地,利用多元硬件平台協同工作,都能夠顯著提升整體計算生態的適應性和穩定性。
OpenAI及其他行業領軍者在快速發展的AI領域,紛紛釆取多架搆、多供應商的策略,以應對供應鏈風險、提升算力性能和降低成本。隨着AI應用場景不斷丰富,搆建靈活高效的計算基礎設施將成為未來保持競爭優勢和實現可持續發展的核心保障。