OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

OpenAI发布首个推理能力“o1模型”,AI领域迎来变革时刻

發布日期:

科技 Tech


要点:
OpenAI近日发布首款具备推理功能的新工具“o1模型”,可以比人类更快地回答更复杂的问题。此模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

具有推理能力的人工智能AI被视为该技术发展的一个关键里程碑,因为它不仅能够处理大量数据,还能在此基础上进行复杂的逻辑推理和决策。

为了在激烈的市场竞争中保持领先地位,OpenAI于9月13日推出了首款具备推理能力的人工智能“o1模型”,代号为“草莓”。这一新推出的o1模型,代表了OpenAI在该领域的重大突破。 OpenAI的首席执行官Sam Altman更是对外宣布,“耐心等待的时刻结束了!”这一句简短却振奋人心的话,预示着人工智能技术即将迎来一个快速发展的新阶段。

o1模型:开启推理新高度
OpenAI推出的“o1模型”是一款具备高级推理能力的语言模型,由字母o和数字1组成。此次发布的o1被标记为“预览版”,以强调其仍处于初期阶段的性质。

最新的信息显示,o1模型在推理能力上相较于前代的GPT-4o有了显著提升。特别是在数学、编程和科学问题的解决能力方面,o1模型甚至被认为已超越了人类专家。

目前,OpenAI仅发布了o1模型系列的首批版本,包括o1-preview预览版和o1-mini迷你版。这些版本将分阶段向付费用户、免费用户和开发者开放,其中开发者的使用成本较高。在API/应用程序编程接口中,o1-preview每百万输入token的收费为15美元,是GPT-4o的三倍,而每百万输出token的收费为60美元,是GPT-4o的四倍。这里的百万token表示模型处理的文字块规模,相当于大约75万单词。

o1模型釆用了全新的优化算法和特别定制的训练数据集
OpenAI的研究负责人Jerry Tworek指出,o1模型的训练方式与以往的模型有着本质上的不同。通过全新的训练方法,o1模型能够处理更加复杂的编程、数学和科学难题,并且在回答问题时会进行“思考”,其处理速度甚至快于人类。

具体来说,o1模型釆用了一种全新的优化算法,并使用了专门为其量身定制的训练数据集,其中包含了推理数据和特别挑选的科学文献。与之前的GPT模型依赖于模仿数据集的规律不同,o1模型则运用了“强化学习”的方法,通过奖励和惩罚的机制来训练模型解决问题。

此外,o1模型还使用了“思路链”/chain of thoughts技术来处理用户的查询,并提供思路链的总结概要,而这种方法类似于人类逐步解决问题的思考方式。

OpenAI对此认为,这种创新的训练方法将使o1模型更为精准,并显著减少生成错误回答的情况。 o1模型与GPT-4o的主要区别在于它在解决复杂的编程和数学问题方面表现更佳,同时能够优化推理过程、尝试不同策略,并识别和纠正自身回答中的错误。而在整个测试阶段中,o1模型的优势和劣势也十分明显。

优势:对复杂推理任务是巨大进步
OpenAI表示,o1模型在处理复杂推理任务上实现了显著进步,代表了人工智能AI能力目前的新高度。该模型的“思考”时间越长,其在推理任务中的表现越佳,因为o1模型能够花费更多时间分析复杂问题的各个方面,从而有效地针对事实进行自我核查。

具体来说,o1模型的推理能力大幅提升,在物理、化学和生物等领域的挑战性基准测试中,其表现相当于博士生级别的专家。尤其在数学和编程方面,o1模型的成绩尤为突出。经过测试,在国际数学奥林匹克/IMO资格考试中,o1模型的正确率高达83%,而GPT-4o的正确率仅为13%。而在Codeforces在线编程竞赛中,o1模型的表现位于89百分位,即只有11%的参赛者能超越o1模型。

此外,o1模型在安全性方面也有所提升,相较于之前的模型更能遵循安全准则并抵抗生成有害内容。在严格的“越狱测试”中,GPT-4o的得分仅为22分,而o1模型预览版则获得了84分。据OpenAI表示,o1模型暂未引发超出现有资源可能实现的评估风险。

OpenAI还指出,o1模型特别适用于那些需要解决科学、编程、数学等领域复杂问题的用户。增强的推理能力对这些领域的工作者而言,尤其有用。 o1模型擅长准确生成和调试复杂代码,其中o1-mini迷你版,则以更高的速度和比预览版便宜80%的价格提供高效的推理能力。 o1-mini迷你版特别适合于需要推理但不涉及广泛世界知识的应用,如医疗研究人员可以利用o1模型注释细胞测序数据,物理学家可以用它生成量子光学所需的复杂数学公式,各领域的开发人员也可以用它进行构建和执行多步骤的工作流程。

缺点:无法杜绝“幻觉”问题
尽管今日发布的o1模型在许多方面展示了进步,但作为该模型的初始版本,仍存在一些明显的不足之处。

例如,o1模型目前仅支持“纯文字”功能,尚不具备网页浏览、文件上传或图片处理能力。相比于ChatGPT的丰富功能,o1模型在许多常见用例中不如GPT-4o强大,并且其使用受到限制:o1-preview预览版每周最多可发送30条消息,而o1-mini迷你版的上限为50条。

此外,o1模型在许多领域的理解能力仍逊色于GPT-4o。在涉及世界事实知识的方面,其表现不佳,某些情况下推理速度较慢,可能需要更长时间才能回答问题。目前,o1模型还无法对特定文档进行推理,也缺乏从网络上实时获取信息的能力。

当被问及“公主的年龄是王子年龄的两倍,当公主的年龄是他们年龄总和的一半时,请问王子和公主各自的年龄是多少?”o1模型经过30秒的缓冲后才给出了正确答案。

而在此过程中,o1模型似乎刻意模仿人类的思维方式。通过使用诸如“我很好奇”、“我正在思考”和“好吧,让我看看”等短语,制造了一种逐步思考的假象。但实际上,o1模型模型并不会真正思考,也绝不是人类。

OpenAI对此,并不认为o1模型的人工智能思维等同于人类思维。但他们表示,该界面的设计目的是为了展示模型如何花费更多时间来处理问题,并更深入地解决问题。 “在某些方面,它比以前的模型显得更具人性化。”

更值得注意的是,OpenAI表示o1模型依然存在着幻觉/Hallucination。 OpenAI在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1模型和迷你版比GPT-4o及其迷你版容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1模型很少会承认它不知道问题的答案。

Jerry Tworek解释道,“我们观察到,这个新模型产生幻觉的频率较低。”尽管如此,他也强调,幻觉问题”仍然存在。“我们不能声称已经完全解决了幻觉问题。 ”

AI领域迎来变革时刻
OpenAI如今率先推出了o1模型,但如果竞争对手迅速跟进并推出类似产品,公司的真正挑战将会演变成如何让o1模型相比其竞争对手,得到更广泛的应用。

对此,OpenAI计划不断更新o1模型,以提升其推理能力,目标是对推理时间长达数小时、数天甚至数周的场景进行实验。除了模型更新,OpenAI还打算为o1模型添加更多功能,例如浏览网页、上传文件和图片,以增强其实用性。 o1模型系列外,OpenAI还将继续开发和发布GPT系列中的新模型。

目前,市场对o1模型的期待不仅在于其技术优势,更在于它可能引领行业的未来发展。

OpenAI将o1模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。英伟达AI团队领军人物Jim Fan也对OpenAI的此次发布表示高度赞赏,他认为o1模型在推理层面开启了新的规模化规律,为大模型能力的提升开辟了新路径。随着AI模型在推理能力上的不断增强,未来我们或许能在多个领域看到AI超越当前的人类认知极限。

未来的人工智能AI,不仅仅是信息的整合者、知识堆砌者,更将成为人类思考的延伸,帮助我们解决更多复杂的问题,推动人类社会的进步和发展。

在如此动荡的金融市场中,你会选择怎样投资?
一起深入了解资深投资者的交易策略。在投入股市之前,多认识金融市场,才可提高投资回报率。关注狂"思钱想后"栏目,紧密跟踪股市走势,寻找更多投资机会

点击此处了解更多

投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。

狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。

狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。

联系我们// 相关文章

免责声明:本网站提供的信息仅供一般信息目的,并不应被视为投资建议。
免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • Google算力核心技術TPU推動了AI市場替代GPU?

    Google算力核心技术TPU推动了AI市场替代GPU?

    如果不是在行业内,这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够,Google 主要用来内用而非对外商用上时,会非常讶异为何到了TPU v7 这一版本,突然开讲TPU 对的 GPU 替代逻辑。

    Google算力核心技术TPU推动了AI市场替代GPU?

    如果不是在行业内,这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够,Google 主要用来内用而非对外商用上时,会非常讶异为何到了TPU v7 这一版本,突然开讲TPU 对的 GPU 替代逻辑。

  • CoreWeave基礎AI雲服務的生意模式

    CoreWeave基础AI云服务的生意模式

    CoreWeave客户结构高度集中,目前基本只由AI 模型独角兽,和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中,接近80% 的收入只来自两家客户公司-- 微软和英伟达,其中微软一家就占了当年总收入的62%。

    CoreWeave基础AI云服务的生意模式

    CoreWeave客户结构高度集中,目前基本只由AI 模型独角兽,和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中,接近80% 的收入只来自两家客户公司-- 微软和英伟达,其中微软一家就占了当年总收入的62%。

  • LULU三季度業績超出公司此前指引

    LULU三季度业绩超出公司此前指引

    Lululemon 的大本营市场北美地区仍然疲软,同比下降1.5%,平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%,增速创近一年以来新高,二季度Lululemon Align 十周年庆典增加了和消费者的互动,带动公司整体的品牌提升。

    LULU三季度业绩超出公司此前指引

    Lululemon 的大本营市场北美地区仍然疲软,同比下降1.5%,平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%,增速创近一年以来新高,二季度Lululemon Align 十周年庆典增加了和消费者的互动,带动公司整体的品牌提升。

  • NVDA財報超市場預期,總收入570億美元!

    NVDA财报超市场预期,总收入570亿美元!

    随着英伟达数据中心的持续增长,当前已经成为公司收入中最大的一项,占比已经接近9 成。作为公司此前主要收入来源的游戏业务,占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片,公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

    NVDA财报超市场预期,总收入570亿美元!

    随着英伟达数据中心的持续增长,当前已经成为公司收入中最大的一项,占比已经接近9 成。作为公司此前主要收入来源的游戏业务,占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片,公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

  • QCOM高通財報,業績相對平淡

    QCOM高通财报,业绩相对平淡

    高通公司本季度业绩相对平淡,收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落,主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响,公司本季度的净利润约为26 亿美元。

    QCOM高通财报,业绩相对平淡

    高通公司本季度业绩相对平淡,收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落,主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响,公司本季度的净利润约为26 亿美元。

  • AMD財報,市場對數據中心AI Capex依然火熱

    AMD财报,市场对数据中心AI Capex依然火热

    AMD 在2025 年第三季度实现营收92.5 亿美元,同比增长35.6%,市场预期(87.4 亿美元)。收入端的同比增长,主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率(GAAP)51.7%,同比提升1.6pct。

    AMD财报,市场对数据中心AI Capex依然火热

    AMD 在2025 年第三季度实现营收92.5 亿美元,同比增长35.6%,市场预期(87.4 亿美元)。收入端的同比增长,主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率(GAAP)51.7%,同比提升1.6pct。

  • AMZN亞馬遜AWS本季營收同比增長20.2%到$309億!

    AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

    久等的AWS 提速终于到来:目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿,相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

    AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

    久等的AWS 提速终于到来:目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿,相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

  • AAPL蘋果2025財年第四季度營收1025億美元,同比增長7.9%!

    AAPL苹果2025财年第四季度营收1025亿美元,同比增长7.9%!

    本季度苹果公司实现营收1025 亿美元,同比增长7.9%,基本符合市场预期(1020 亿美元)。公司本季度收入端的提升,主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%,同比增加1pct,好于市场一致预期(46.6%)。

    AAPL苹果2025财年第四季度营收1025亿美元,同比增长7.9%!

    本季度苹果公司实现营收1025 亿美元,同比增长7.9%,基本符合市场预期(1020 亿美元)。公司本季度收入端的提升,主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%,同比增加1pct,好于市场一致预期(46.6%)。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4