要点:
OpenAI在人工智能算力需求激增的背景下,首次引入谷歌AI晶片以多元化基础设施,降低对英伟达硬体和微软管理架构的依赖,提升运营弹性与竞争力。
在当前人工智能AI快速发展的浪潮中,算力需求正以前所未有的速度激增。面对日益复杂的模型训练与推理任务,如何确保高效、稳定且具成本竞争力的基础设施,成为AI企业制胜关键。 OpenAI作为行业领头羊,正积极探索多元化算力布局,以应对供应链挑战和市场变化,提升自身运营韧性与扩展能力。
近日,OpenAI已开始使用谷歌/Google的人工智能AI晶片支援ChatGPT及其相关服务,这代表该公司首次明显降低对英伟达/Nivda硬体的高度依赖。此举不仅是运算策略的技术转向,也揭示了OpenAI更大规模分散其基础设施供应来源、减少对微软/Microsoft管理架构依赖的整体战略转型。
OpenAI布局多元算力生态
具体而言,OpenAI透过Google Cloud租用张量处理单元/TPUs,主要用于模型推理阶段,即在模型训练完成后的实际执行与回应生成工作。这不仅有助于控制成本,也为Google TPU在AI计算领域中提供了展示舞台,成为与英伟达图形处理单元/GPUs抗衡的潜在低成本选项。
TPU/张量处理单元Tensor Processing Unit,也称为张量处理器,是Google开发的专用积体电路(ASIC),专门用于加速机器学习。自2015年起,Google就已经开始在内部使用TPU,并于2018年将TPU提供给第三方使用,既将部分TPU作为其云端基础架构的一部分,也将部分小型版本的TPU用于销售。

据估计,训练一个大型语言模型的成本可能达到数千万美元,训练过程中需使用成千上万的高性能GPU或TPU组成的集群。举例来说,OpenAI在2023年公布的GPT-4模型训练,据分析师推测,至少耗费了超过3万颗NVIDIA A100 GPU的计算资源,训练时间长达数周。由此可见,任何硬体供应的变动都会直接影响模型训练的效率与成本。
在此背景下,OpenAI采用Google TPU作为推理硬体的决策,除了分散供应风险,也意味着其希望建立多元的计算基础设施。这种多云策略可以降低对单一供应商的依赖,避免因供应链瓶颈或价格波动而影响服务稳定性。根据市场调研机构Synergy Research Group的报告,2024年全球云端基础设施市场规模已超过2000亿美元,多云管理策略正成为大型企业的标配。
除了成本与供应稳定性,多架构运算也为AI模型的灵活部署提供支持。例如,Google的TPU在某些张量计算和浮点性能上表现优异,而NVIDIA的GPU则在多样化AI应用和通用运算上更具灵活性。结合不同硬体的优势,可以让OpenAI根据不同阶段和任务需求,选择最佳硬体,提升整体效能。
过去,OpenAI主要透过与微软和甲骨文/Oracle的合作取得英伟达晶片资源,用于模型的训练与部署。而今尽管Google向其开放了部分TPU算力,但据消息人士透露,最先进的TPU版本仍未纳入合作内容,推测是为保留Google自家Gemini项目所需资源。
尽管如此,OpenAI能够取得早期版本的TPUs仍被视为其基础设施多元化战略中的重要一步,特别是在全球AI算力需求日益飙升、资源日趋紧张的背景下。该举措或将为整个业界提供一种可行的混合运算模式范例,有助于提高运营灵活性。
此次合作,凸显了人工智能硬体领域不断变化的动态,像Google这样的公司正在利用多年来在软体和客制化晶片方面的投资。对于OpenAI而言,Google作为晶片供应商的加入拓宽了其技术堆叠的生态系统,并缓解了人们对运算资源可用性和成本日益增长的担忧。
在AI算力竞争风险中寻求灵活扩展
除了OpenAI之外,其他大型AI企业和科技巨头也纷纷推动多架构计算策略,以提升整体算力效率和灵活性。以Meta为例,其构建了名为“AI Research SuperCluster”的自研AI加速芯片系统,将GPU与ASIC(专用集成电路)相结合。这种混合架构不仅大幅提升了计算性能,还显著降低了能耗,为其大规模AI模型训练提供强大支撑,使其能够在激烈的AI研发竞赛中保持领先。
供应链的不确定性成为促使多架构策略普及的另一重要驱动力。近年来,全球芯片短缺、地缘政治紧张和生产能力调整等因素持续冲击AI硬件市场。通过釆用多云环境和多供应商合作,企业能够灵活调配资源,有效规避单一厂商产能瓶颈或价格波动带来的风险,从而保障运算服务的连续性和稳定性。
技术发展趋势显示,未来AI硬件将愈加多样化和专业化,既有为大规模模型训练专门设计的定制芯片,也有面向推理和边缘计算的轻量级加速器。这些硬件各自具备独特优势,结合使用能够根据不同任务需求优化性能和能效,提升整体运算效率,满足日益复杂的AI应用场景。
OpenAI通过引入Google的TPU,与其传统的NVIDIA GPU形成互补,体现了其追求计算基础设施多元化的战略意图。通过整合多种硬件架构,OpenAI不仅降低了对单一供应商的依赖,也为应对未来不断攀升的算力需求提供了更灵活、高效的解决方案。这种混合策略有助于平衡性能、成本与能耗之间的关系,促进持续创新。
此外,多云和多架构的混合运算模式也为AI企业带来了更高的运营韧性和扩展能力。在面对市场波动和技术变革时,灵活调配算力资源成为保障业务连续性和快速响应的关键。无论是云端还是本地,利用多元硬件平台协同工作,都能够显著提升整体计算生态的适应性和稳定性。
OpenAI及其他行业领军者在快速发展的AI领域,纷纷釆取多架构、多供应商的策略,以应对供应链风险、提升算力性能和降低成本。随着AI应用场景不断丰富,构建灵活高效的计算基础设施将成为未来保持竞争优势和实现可持续发展的核心保障。