OpenAI发布首个推理能力“o1模型”，AI领域迎来变革时刻

發布日期:2024年9月12日

科技 Tech

要点:
OpenAI近日发布首款具备推理功能的新工具“o1模型”，可以比人类更快地回答更复杂的问题。此模型也视为未来人工智能发展的关键一步，这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。

科技正以前所未有的速度和规模发展，引发多个领域的变革，塑造了新的商业模式，甚至重塑了全新社会结构。我们一起，从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响，以独特、前瞻的科技视角，洞察科技时代下涌现的“创新革命”。

狂呼，以最具突破性的技术塑造我们的未来，为大众捕捉科技商业先机，探索当今人类社会面临的重大挑战。

联系我们// 相关文章

具有推理能力的人工智能AI被视为该技术发展的一个关键里程碑，因为它不仅能够处理大量数据，还能在此基础上进行复杂的逻辑推理和决策。

为了在激烈的市场竞争中保持领先地位，OpenAI于9月13日推出了首款具备推理能力的人工智能“o1模型”，代号为“草莓”。这一新推出的o1模型，代表了OpenAI在该领域的重大突破。 OpenAI的首席执行官Sam Altman更是对外宣布，“耐心等待的时刻结束了！”这一句简短却振奋人心的话，预示着人工智能技术即将迎来一个快速发展的新阶段。

o1模型：开启推理新高度
OpenAI推出的“o1模型”是一款具备高级推理能力的语言模型，由字母o和数字1组成。此次发布的o1被标记为“预览版”，以强调其仍处于初期阶段的性质。

最新的信息显示，o1模型在推理能力上相较于前代的GPT-4o有了显著提升。特别是在数学、编程和科学问题的解决能力方面，o1模型甚至被认为已超越了人类专家。

目前，OpenAI仅发布了o1模型系列的首批版本，包括o1-preview预览版和o1-mini迷你版。这些版本将分阶段向付费用户、免费用户和开发者开放，其中开发者的使用成本较高。在API/应用程序编程接口中，o1-preview每百万输入token的收费为15美元，是GPT-4o的三倍，而每百万输出token的收费为60美元，是GPT-4o的四倍。这里的百万token表示模型处理的文字块规模，相当于大约75万单词。

o1模型釆用了全新的优化算法和特别定制的训练数据集
OpenAI的研究负责人Jerry Tworek指出，o1模型的训练方式与以往的模型有着本质上的不同。通过全新的训练方法，o1模型能够处理更加复杂的编程、数学和科学难题，并且在回答问题时会进行“思考”，其处理速度甚至快于人类。

具体来说，o1模型釆用了一种全新的优化算法，并使用了专门为其量身定制的训练数据集，其中包含了推理数据和特别挑选的科学文献。与之前的GPT模型依赖于模仿数据集的规律不同，o1模型则运用了“强化学习”的方法，通过奖励和惩罚的机制来训练模型解决问题。

此外，o1模型还使用了“思路链”/chain of thoughts技术来处理用户的查询，并提供思路链的总结概要，而这种方法类似于人类逐步解决问题的思考方式。

OpenAI对此认为，这种创新的训练方法将使o1模型更为精准，并显著减少生成错误回答的情况。 o1模型与GPT-4o的主要区别在于它在解决复杂的编程和数学问题方面表现更佳，同时能够优化推理过程、尝试不同策略，并识别和纠正自身回答中的错误。而在整个测试阶段中，o1模型的优势和劣势也十分明显。

优势：对复杂推理任务是巨大进步
OpenAI表示，o1模型在处理复杂推理任务上实现了显著进步，代表了人工智能AI能力目前的新高度。该模型的“思考”时间越长，其在推理任务中的表现越佳，因为o1模型能够花费更多时间分析复杂问题的各个方面，从而有效地针对事实进行自我核查。

具体来说，o1模型的推理能力大幅提升，在物理、化学和生物等领域的挑战性基准测试中，其表现相当于博士生级别的专家。尤其在数学和编程方面，o1模型的成绩尤为突出。经过测试，在国际数学奥林匹克/IMO资格考试中，o1模型的正确率高达83%，而GPT-4o的正确率仅为13%。而在Codeforces在线编程竞赛中，o1模型的表现位于89百分位，即只有11%的参赛者能超越o1模型。

此外，o1模型在安全性方面也有所提升，相较于之前的模型更能遵循安全准则并抵抗生成有害内容。在严格的“越狱测试”中，GPT-4o的得分仅为22分，而o1模型预览版则获得了84分。据OpenAI表示，o1模型暂未引发超出现有资源可能实现的评估风险。

OpenAI还指出，o1模型特别适用于那些需要解决科学、编程、数学等领域复杂问题的用户。增强的推理能力对这些领域的工作者而言，尤其有用。 o1模型擅长准确生成和调试复杂代码，其中o1-mini迷你版，则以更高的速度和比预览版便宜80%的价格提供高效的推理能力。 o1-mini迷你版特别适合于需要推理但不涉及广泛世界知识的应用，如医疗研究人员可以利用o1模型注释细胞测序数据，物理学家可以用它生成量子光学所需的复杂数学公式，各领域的开发人员也可以用它进行构建和执行多步骤的工作流程。

缺点：无法杜绝“幻觉”问题
尽管今日发布的o1模型在许多方面展示了进步，但作为该模型的初始版本，仍存在一些明显的不足之处。

例如，o1模型目前仅支持“纯文字”功能，尚不具备网页浏览、文件上传或图片处理能力。相比于ChatGPT的丰富功能，o1模型在许多常见用例中不如GPT-4o强大，并且其使用受到限制：o1-preview预览版每周最多可发送30条消息，而o1-mini迷你版的上限为50条。

此外，o1模型在许多领域的理解能力仍逊色于GPT-4o。在涉及世界事实知识的方面，其表现不佳，某些情况下推理速度较慢，可能需要更长时间才能回答问题。目前，o1模型还无法对特定文档进行推理，也缺乏从网络上实时获取信息的能力。

当被问及“公主的年龄是王子年龄的两倍，当公主的年龄是他们年龄总和的一半时，请问王子和公主各自的年龄是多少？”o1模型经过30秒的缓冲后才给出了正确答案。

而在此过程中，o1模型似乎刻意模仿人类的思维方式。通过使用诸如“我很好奇”、“我正在思考”和“好吧，让我看看”等短语，制造了一种逐步思考的假象。但实际上，o1模型模型并不会真正思考，也绝不是人类。

OpenAI对此，并不认为o1模型的人工智能思维等同于人类思维。但他们表示，该界面的设计目的是为了展示模型如何花费更多时间来处理问题，并更深入地解决问题。 “在某些方面，它比以前的模型显得更具人性化。”

更值得注意的是，OpenAI表示o1模型依然存在着幻觉/Hallucination。 OpenAI在一篇技术论文中承认，其收到了一些“轶事反馈”，称o1模型和迷你版比GPT-4o及其迷你版容易产生“幻觉”，也就是AI仍在很自信地编造答案，而且o1模型很少会承认它不知道问题的答案。

Jerry Tworek解释道，“我们观察到，这个新模型产生幻觉的频率较低。”尽管如此，他也强调，幻觉问题”仍然存在。“我们不能声称已经完全解决了幻觉问题。 ”

AI领域迎来变革时刻
OpenAI如今率先推出了o1模型，但如果竞争对手迅速跟进并推出类似产品，公司的真正挑战将会演变成如何让o1模型相比其竞争对手，得到更广泛的应用。

对此，OpenAI计划不断更新o1模型，以提升其推理能力，目标是对推理时间长达数小时、数天甚至数周的场景进行实验。除了模型更新，OpenAI还打算为o1模型添加更多功能，例如浏览网页、上传文件和图片，以增强其实用性。 o1模型系列外，OpenAI还将继续开发和发布GPT系列中的新模型。

目前，市场对o1模型的期待不仅在于其技术优势，更在于它可能引领行业的未来发展。

OpenAI将o1模型也视为未来人工智能发展的关键一步，这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。英伟达AI团队领军人物Jim Fan也对OpenAI的此次发布表示高度赞赏，他认为o1模型在推理层面开启了新的规模化规律，为大模型能力的提升开辟了新路径。随着AI模型在推理能力上的不断增强，未来我们或许能在多个领域看到AI超越当前的人类认知极限。

未来的人工智能AI，不仅仅是信息的整合者、知识堆砌者，更将成为人类思考的延伸，帮助我们解决更多复杂的问题，推动人类社会的进步和发展。

在如此动荡的金融市场中，你会选择怎样投资？
一起深入了解资深投资者的交易策略。在投入股市之前，多认识金融市场，才可提高投资回报率。关注狂"思钱想后"栏目，紧密跟踪股市走势，寻找更多投资机会。

点击此处了解更多

投资不仅仅是为了创造财富，更是一种洞察宏观经济的态度，见证社会演变与科技发展。我们一起，从大变局中看清发展趋势，希望从不确定中找到确定。

狂呼金融研究所聚焦于新的社会发展形势下，金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角，洞察分析每一个趋势与机会，为广大投资者创造更高质量、更独特的金融投资观点。

狂呼，比一部分人更快、更准地看清市场，让大众洞察金融经济的核心。

联系我们// 相关文章

Google算力核心技术TPU推动了AI市场替代GPU?

如果不是在行业内，这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够，Google 主要用来内用而非对外商用上时，会非常讶异为何到了TPU v7 这一版本，突然开讲TPU 对的 GPU 替代逻辑。

Google算力核心技术TPU推动了AI市场替代GPU?

如果不是在行业内，这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够，Google 主要用来内用而非对外商用上时，会非常讶异为何到了TPU v7 这一版本，突然开讲TPU 对的 GPU 替代逻辑。
CoreWeave基础AI云服务的生意模式

CoreWeave客户结构高度集中，目前基本只由AI 模型独角兽，和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中，接近80% 的收入只来自两家客户公司-- 微软和英伟达，其中微软一家就占了当年总收入的62%。

CoreWeave基础AI云服务的生意模式

CoreWeave客户结构高度集中，目前基本只由AI 模型独角兽，和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中，接近80% 的收入只来自两家客户公司-- 微软和英伟达，其中微软一家就占了当年总收入的62%。
LULU三季度业绩超出公司此前指引

Lululemon 的大本营市场北美地区仍然疲软，同比下降1.5%，平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%，增速创近一年以来新高，二季度Lululemon Align 十周年庆典增加了和消费者的互动，带动公司整体的品牌提升。

LULU三季度业绩超出公司此前指引

Lululemon 的大本营市场北美地区仍然疲软，同比下降1.5%，平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%，增速创近一年以来新高，二季度Lululemon Align 十周年庆典增加了和消费者的互动，带动公司整体的品牌提升。
NVDA财报超市场预期，总收入570亿美元!

随着英伟达数据中心的持续增长，当前已经成为公司收入中最大的一项，占比已经接近9 成。作为公司此前主要收入来源的游戏业务，占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片，公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

NVDA财报超市场预期，总收入570亿美元!

随着英伟达数据中心的持续增长，当前已经成为公司收入中最大的一项，占比已经接近9 成。作为公司此前主要收入来源的游戏业务，占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片，公司的核心客户是亚马逊、微软、谷歌等云服务大厂。
QCOM高通财报，业绩相对平淡

高通公司本季度业绩相对平淡，收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落，主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响，公司本季度的净利润约为26 亿美元。

QCOM高通财报，业绩相对平淡

高通公司本季度业绩相对平淡，收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落，主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响，公司本季度的净利润约为26 亿美元。
AMD财报，市场对数据中心AI Capex依然火热

AMD 在2025 年第三季度实现营收92.5 亿美元，同比增长35.6%，市场预期（87.4 亿美元）。收入端的同比增长，主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率（GAAP）51.7%，同比提升1.6pct。

AMD财报，市场对数据中心AI Capex依然火热

AMD 在2025 年第三季度实现营收92.5 亿美元，同比增长35.6%，市场预期（87.4 亿美元）。收入端的同比增长，主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率（GAAP）51.7%，同比提升1.6pct。
AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

久等的AWS 提速终于到来：目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿，相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

久等的AWS 提速终于到来：目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿，相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。
AAPL苹果2025财年第四季度营收1025亿美元，同比增长7.9%！

本季度苹果公司实现营收1025 亿美元，同比增长7.9%，基本符合市场预期（1020 亿美元）。公司本季度收入端的提升，主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%，同比增加1pct，好于市场一致预期（46.6%）。

AAPL苹果2025财年第四季度营收1025亿美元，同比增长7.9%！

本季度苹果公司实现营收1025 亿美元，同比增长7.9%，基本符合市场预期（1020 亿美元）。公司本季度收入端的提升，主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%，同比增加1pct，好于市场一致预期（46.6%）。

1 8

查看全部

流科百世Convo Tech

查看全部

肿瘤疗法突破，中国团队给癌细胞打上“猪”标签，癌细胞“伪装术”被破解

近期，中国科学家在“Cell”杂志上发表的一项突破性研究，为这一顽疾提供了全新思路。他们利用基因编辑技术，将癌细胞改造成免疫系统眼中的“异类”，类似于人体对猪器官产生的超急性排斥反应，从而引发了一场针对癌细胞的精准“免疫歼灭战”。

肿瘤疗法突破，中国团队给癌细胞打上“猪”标签，癌细胞“伪装术”被破解

近期，中国科学家在“Cell”杂志上发表的一项突破性研究，为这一顽疾提供了全新思路。他们利用基因编辑技术，将癌细胞改造成免疫系统眼中的“异类”，类似于人体对猪器官产生的超急性排斥反应，从而引发了一场针对癌细胞的精准“免疫歼灭战”。
新型大脑设备首次读出内心声音，脑机接口技术打破失语者困境

新系统的核心原理与常见的“尝试说话”型脑机介面相似，都是在大脑运动皮质植入感测器，这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型，模型依据个人化数据判断信号对应的声音，进而预测使用者想说的单字。

新型大脑设备首次读出内心声音，脑机接口技术打破失语者困境

新系统的核心原理与常见的“尝试说话”型脑机介面相似，都是在大脑运动皮质植入感测器，这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型，模型依据个人化数据判断信号对应的声音，进而预测使用者想说的单字。
“垃圾DNA”新发现：远古病毒DNA在人类发育中发挥关键作用

自这类非编码DNA片段首次被发现并被称作“垃圾”以来，生物学家们一直在探讨它们是否真的无用。如今的主流观点认为，这些片段虽不直接参与蛋白质合成，却在整体基因组中占据了极大比例，显示它们可能具有重要功能。

“垃圾DNA”新发现：远古病毒DNA在人类发育中发挥关键作用

自这类非编码DNA片段首次被发现并被称作“垃圾”以来，生物学家们一直在探讨它们是否真的无用。如今的主流观点认为，这些片段虽不直接参与蛋白质合成，却在整体基因组中占据了极大比例，显示它们可能具有重要功能。
颠覆传统认知，科学家首次证明植物和动物透过声音互动

最新的研究将植物的感知能力推向了新的维度：听觉。这项研究透过多个实验并设置了精确的装置，观察到一个惊人的现象：在没有植物存在的环境中，蛾更倾向于在播放录制的植物压力声音的扬声器附近产卵。

颠覆传统认知，科学家首次证明植物和动物透过声音互动

最新的研究将植物的感知能力推向了新的维度：听觉。这项研究透过多个实验并设置了精确的装置，观察到一个惊人的现象：在没有植物存在的环境中，蛾更倾向于在播放录制的植物压力声音的扬声器附近产卵。

1 4

查看全部

观点Opinion

查看全部

人工智能AI时代，人类如何重拾批判性思维？

作为批判性思维培养的原始土壤：教育，必须进行重塑。教育政策的制定者和学校必须釆取积极措施，将批判性思维的练习深度融入课程。这远不止是增加几节理论课，而是要在每一个学科、每一个学习环节中，鼓励学生质疑和分析AI生成的信息。

人工智能AI时代，人类如何重拾批判性思维？

作为批判性思维培养的原始土壤：教育，必须进行重塑。教育政策的制定者和学校必须釆取积极措施，将批判性思维的练习深度融入课程。这远不止是增加几节理论课，而是要在每一个学科、每一个学习环节中，鼓励学生质疑和分析AI生成的信息。
长城汽车面向35岁以上人才开启专场招聘，职场中的年龄歧视及“35岁现象”挑战引发深思

长期以来，“35岁现象”如无形枷锁，将众多经验丰富、能力成熟的中年人才拒之门外。长城汽车的“35+计划”不仅是一项招聘举措，更是一场关于年龄、经验与价值的社会呼吁，挑战了传统的职场偏见，倡导尊重和激活中年人才的力量，为行业和社会注入了新的活力与希望。

长城汽车面向35岁以上人才开启专场招聘，职场中的年龄歧视及“35岁现象”挑战引发深思

长期以来，“35岁现象”如无形枷锁，将众多经验丰富、能力成熟的中年人才拒之门外。长城汽车的“35+计划”不仅是一项招聘举措，更是一场关于年龄、经验与价值的社会呼吁，挑战了传统的职场偏见，倡导尊重和激活中年人才的力量，为行业和社会注入了新的活力与希望。
打破线性人生，在不确定中寻找多元化的人生出路

近年来，全球经济与地缘格局发生剧烈变化，从疫情冲击、通胀压力，到产业结构重塑，无一不深刻影响着普通人的生活节奏与发展路径。原本被视为“稳定之路”的人生规划：考学、毕业、就业、升职、买房，如今变得越来越不确定。

打破线性人生，在不确定中寻找多元化的人生出路

近年来，全球经济与地缘格局发生剧烈变化，从疫情冲击、通胀压力，到产业结构重塑，无一不深刻影响着普通人的生活节奏与发展路径。原本被视为“稳定之路”的人生规划：考学、毕业、就业、升职、买房，如今变得越来越不确定。
从名校精英到杀手，Luigi Mangione枪击案背后揭示的美国医疗体系

Luigi Mangione用极端方式撕开了美国医疗体系深藏的裂痕，也逼迫社会不得不重新审视，何为正义？何为悲剧。当医疗保障变成逐利机器，当患者在病痛中苦苦挣扎却换来拒绝与冷眼，社会的不满和愤怒便会潜滋暗长，最终以最不可控的方式爆发。

从名校精英到杀手，Luigi Mangione枪击案背后揭示的美国医疗体系

Luigi Mangione用极端方式撕开了美国医疗体系深藏的裂痕，也逼迫社会不得不重新审视，何为正义？何为悲剧。当医疗保障变成逐利机器，当患者在病痛中苦苦挣扎却换来拒绝与冷眼，社会的不满和愤怒便会潜滋暗长，最终以最不可控的方式爆发。

1 4

查看全部

胡说北道Convo Ave(播客)

查看全部

从中国经济看背后困境及发展新构想?

中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施，中国经济可能有一个全新的契机注入新的动力，推动经济稳定健康发展。

从中国经济看背后困境及发展新构想?

中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施，中国经济可能有一个全新的契机注入新的动力，推动经济稳定健康发展。
在变革中的抉择：当今大环境下如何实现职业规划与人生价值？

随着时代的变迁，人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同，有些人追求的是即时的快乐和成就感，而有些人则看重长期的进步和自我超越。

在变革中的抉择：当今大环境下如何实现职业规划与人生价值？

随着时代的变迁，人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同，有些人追求的是即时的快乐和成就感，而有些人则看重长期的进步和自我超越。
再见爱人：探索现代婚姻中的情感困境

芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子，麦琳、李行亮，葛夕、刘爽三对情感关系10年以上的夫妻，以“婚姻纪实观察”为切口，呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

再见爱人：探索现代婚姻中的情感困境

芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子，麦琳、李行亮，葛夕、刘爽三对情感关系10年以上的夫妻，以“婚姻纪实观察”为切口，呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。
抖音短剧新风潮：中老年人成为新的增长点?

近日，不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十，闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事，成了当下短剧创作的“新流量密码”。

抖音短剧新风潮：中老年人成为新的增长点?

近日，不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十，闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事，成了当下短剧创作的“新流量密码”。

1 4

查看全部

免费订阅优质资讯