OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

OpenAI发布首个推理能力“o1模型”,AI领域迎来变革时刻

發布日期:

科技 Tech


要点:
OpenAI近日发布首款具备推理功能的新工具“o1模型”,可以比人类更快地回答更复杂的问题。此模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

具有推理能力的人工智能AI被视为该技术发展的一个关键里程碑,因为它不仅能够处理大量数据,还能在此基础上进行复杂的逻辑推理和决策。

为了在激烈的市场竞争中保持领先地位,OpenAI于9月13日推出了首款具备推理能力的人工智能“o1模型”,代号为“草莓”。这一新推出的o1模型,代表了OpenAI在该领域的重大突破。 OpenAI的首席执行官Sam Altman更是对外宣布,“耐心等待的时刻结束了!”这一句简短却振奋人心的话,预示着人工智能技术即将迎来一个快速发展的新阶段。

o1模型:开启推理新高度
OpenAI推出的“o1模型”是一款具备高级推理能力的语言模型,由字母o和数字1组成。此次发布的o1被标记为“预览版”,以强调其仍处于初期阶段的性质。

最新的信息显示,o1模型在推理能力上相较于前代的GPT-4o有了显著提升。特别是在数学、编程和科学问题的解决能力方面,o1模型甚至被认为已超越了人类专家。

目前,OpenAI仅发布了o1模型系列的首批版本,包括o1-preview预览版和o1-mini迷你版。这些版本将分阶段向付费用户、免费用户和开发者开放,其中开发者的使用成本较高。在API/应用程序编程接口中,o1-preview每百万输入token的收费为15美元,是GPT-4o的三倍,而每百万输出token的收费为60美元,是GPT-4o的四倍。这里的百万token表示模型处理的文字块规模,相当于大约75万单词。

o1模型釆用了全新的优化算法和特别定制的训练数据集
OpenAI的研究负责人Jerry Tworek指出,o1模型的训练方式与以往的模型有着本质上的不同。通过全新的训练方法,o1模型能够处理更加复杂的编程、数学和科学难题,并且在回答问题时会进行“思考”,其处理速度甚至快于人类。

具体来说,o1模型釆用了一种全新的优化算法,并使用了专门为其量身定制的训练数据集,其中包含了推理数据和特别挑选的科学文献。与之前的GPT模型依赖于模仿数据集的规律不同,o1模型则运用了“强化学习”的方法,通过奖励和惩罚的机制来训练模型解决问题。

此外,o1模型还使用了“思路链”/chain of thoughts技术来处理用户的查询,并提供思路链的总结概要,而这种方法类似于人类逐步解决问题的思考方式。

OpenAI对此认为,这种创新的训练方法将使o1模型更为精准,并显著减少生成错误回答的情况。 o1模型与GPT-4o的主要区别在于它在解决复杂的编程和数学问题方面表现更佳,同时能够优化推理过程、尝试不同策略,并识别和纠正自身回答中的错误。而在整个测试阶段中,o1模型的优势和劣势也十分明显。

优势:对复杂推理任务是巨大进步
OpenAI表示,o1模型在处理复杂推理任务上实现了显著进步,代表了人工智能AI能力目前的新高度。该模型的“思考”时间越长,其在推理任务中的表现越佳,因为o1模型能够花费更多时间分析复杂问题的各个方面,从而有效地针对事实进行自我核查。

具体来说,o1模型的推理能力大幅提升,在物理、化学和生物等领域的挑战性基准测试中,其表现相当于博士生级别的专家。尤其在数学和编程方面,o1模型的成绩尤为突出。经过测试,在国际数学奥林匹克/IMO资格考试中,o1模型的正确率高达83%,而GPT-4o的正确率仅为13%。而在Codeforces在线编程竞赛中,o1模型的表现位于89百分位,即只有11%的参赛者能超越o1模型。

此外,o1模型在安全性方面也有所提升,相较于之前的模型更能遵循安全准则并抵抗生成有害内容。在严格的“越狱测试”中,GPT-4o的得分仅为22分,而o1模型预览版则获得了84分。据OpenAI表示,o1模型暂未引发超出现有资源可能实现的评估风险。

OpenAI还指出,o1模型特别适用于那些需要解决科学、编程、数学等领域复杂问题的用户。增强的推理能力对这些领域的工作者而言,尤其有用。 o1模型擅长准确生成和调试复杂代码,其中o1-mini迷你版,则以更高的速度和比预览版便宜80%的价格提供高效的推理能力。 o1-mini迷你版特别适合于需要推理但不涉及广泛世界知识的应用,如医疗研究人员可以利用o1模型注释细胞测序数据,物理学家可以用它生成量子光学所需的复杂数学公式,各领域的开发人员也可以用它进行构建和执行多步骤的工作流程。

缺点:无法杜绝“幻觉”问题
尽管今日发布的o1模型在许多方面展示了进步,但作为该模型的初始版本,仍存在一些明显的不足之处。

例如,o1模型目前仅支持“纯文字”功能,尚不具备网页浏览、文件上传或图片处理能力。相比于ChatGPT的丰富功能,o1模型在许多常见用例中不如GPT-4o强大,并且其使用受到限制:o1-preview预览版每周最多可发送30条消息,而o1-mini迷你版的上限为50条。

此外,o1模型在许多领域的理解能力仍逊色于GPT-4o。在涉及世界事实知识的方面,其表现不佳,某些情况下推理速度较慢,可能需要更长时间才能回答问题。目前,o1模型还无法对特定文档进行推理,也缺乏从网络上实时获取信息的能力。

当被问及“公主的年龄是王子年龄的两倍,当公主的年龄是他们年龄总和的一半时,请问王子和公主各自的年龄是多少?”o1模型经过30秒的缓冲后才给出了正确答案。

而在此过程中,o1模型似乎刻意模仿人类的思维方式。通过使用诸如“我很好奇”、“我正在思考”和“好吧,让我看看”等短语,制造了一种逐步思考的假象。但实际上,o1模型模型并不会真正思考,也绝不是人类。

OpenAI对此,并不认为o1模型的人工智能思维等同于人类思维。但他们表示,该界面的设计目的是为了展示模型如何花费更多时间来处理问题,并更深入地解决问题。 “在某些方面,它比以前的模型显得更具人性化。”

更值得注意的是,OpenAI表示o1模型依然存在着幻觉/Hallucination。 OpenAI在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1模型和迷你版比GPT-4o及其迷你版容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1模型很少会承认它不知道问题的答案。

Jerry Tworek解释道,“我们观察到,这个新模型产生幻觉的频率较低。”尽管如此,他也强调,幻觉问题”仍然存在。“我们不能声称已经完全解决了幻觉问题。 ”

AI领域迎来变革时刻
OpenAI如今率先推出了o1模型,但如果竞争对手迅速跟进并推出类似产品,公司的真正挑战将会演变成如何让o1模型相比其竞争对手,得到更广泛的应用。

对此,OpenAI计划不断更新o1模型,以提升其推理能力,目标是对推理时间长达数小时、数天甚至数周的场景进行实验。除了模型更新,OpenAI还打算为o1模型添加更多功能,例如浏览网页、上传文件和图片,以增强其实用性。 o1模型系列外,OpenAI还将继续开发和发布GPT系列中的新模型。

目前,市场对o1模型的期待不仅在于其技术优势,更在于它可能引领行业的未来发展。

OpenAI将o1模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。英伟达AI团队领军人物Jim Fan也对OpenAI的此次发布表示高度赞赏,他认为o1模型在推理层面开启了新的规模化规律,为大模型能力的提升开辟了新路径。随着AI模型在推理能力上的不断增强,未来我们或许能在多个领域看到AI超越当前的人类认知极限。

未来的人工智能AI,不仅仅是信息的整合者、知识堆砌者,更将成为人类思考的延伸,帮助我们解决更多复杂的问题,推动人类社会的进步和发展。

在如此动荡的金融市场中,你会选择怎样投资?
一起深入了解资深投资者的交易策略。在投入股市之前,多认识金融市场,才可提高投资回报率。关注狂"思钱想后"栏目,紧密跟踪股市走势,寻找更多投资机会

点击此处了解更多

投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。

狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。

狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。

联系我们// 相关文章

免责声明:本网站提供的信息仅供一般信息目的,并不应被视为投资建议。
免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • Plaud Note AI | 播客Podcast

    Plaud Note AI | 播客Podcast

    Plaud Note AI 技术:Plaud APP 整合先进的转录功能,支援112 种语言的快速准确转录。 AI 摘要功能基于GPT-5、Claude 4.0、o3-mini 和Gemini 2.5 Pro(Beta 版)开发,使用者可以建立摘要、会议记录和待办事项列表,从而提高日常工作效率。

    Plaud Note AI | 播客Podcast

    Plaud Note AI 技术:Plaud APP 整合先进的转录功能,支援112 种语言的快速准确转录。 AI 摘要功能基于GPT-5、Claude 4.0、o3-mini 和Gemini 2.5 Pro(Beta 版)开发,使用者可以建立摘要、会议记录和待办事项列表,从而提高日常工作效率。

  • Costco財報反映了美國中產的狀況

    Costco財報反映了美國中產的狀況

    雖然近幾個季度 Costco 的客單價(剔除匯率和油氣)並沒有明顯向上的趨勢,但似乎仍是體現出了消費者因價格走高,轉向更便宜的消費驅動的傾向。這一點從 Costco 自身更強的線上增長,以及偏弱的續費了也都有體現。

    Costco財報反映了美國中產的狀況

    雖然近幾個季度 Costco 的客單價(剔除匯率和油氣)並沒有明顯向上的趨勢,但似乎仍是體現出了消費者因價格走高,轉向更便宜的消費驅動的傾向。這一點從 Costco 自身更強的線上增長,以及偏弱的續費了也都有體現。

  • AI桌面寵物ROPET | 播客Podcast

    AI桌面宠物ROPET | 播客Podcast

    ROPET作为“桌面宠物”诞生,目标用户是25-40岁的女性。今年1月,ROPET在海外众筹网站上正式发行,在欧美国家售卖了1400台,目前正陆续交付;在日本、韩国和港台地区也已售出8000台左右。

    AI桌面宠物ROPET | 播客Podcast

    ROPET作为“桌面宠物”诞生,目标用户是25-40岁的女性。今年1月,ROPET在海外众筹网站上正式发行,在欧美国家售卖了1400台,目前正陆续交付;在日本、韩国和港台地区也已售出8000台左右。

  • NIO自4月低位股價翻倍,蔚來真能「重生」 嗎?

    NIO自4月低位股价翻倍,蔚来真能「重生」 吗?

    蔚来之后的爆品周期还能持续吗?这个问题是蔚来最为重要的问题。因为对大多数车企来看,真正大级别的机会都是产品、技术和组织等等问题梳理清楚之后,用一个新平台来推动一个较长时间的新车周期,新周期不是靠单一一款车的爆量,而是新平台下矩阵式的车型爆量。

    NIO自4月低位股价翻倍,蔚来真能「重生」 吗?

    蔚来之后的爆品周期还能持续吗?这个问题是蔚来最为重要的问题。因为对大多数车企来看,真正大级别的机会都是产品、技术和组织等等问题梳理清楚之后,用一个新平台来推动一个较长时间的新车周期,新周期不是靠单一一款车的爆量,而是新平台下矩阵式的车型爆量。

  • 美股、 港股及A股處於調整,調整後將再創高峰 | 視頻Video

    美股、 港股及A股处于调整,调整后将再创高峰 | 视频Video

    就业市场转弱,金融系统里面的流动性过剩几乎接近用尽,美联署9月份FOMC 应该减息,但市场可能很大程度上已反映减息一码(0.25%),FedWatch 显示机会率90% ,只减一码,未必有力再升,甚至到跌。

    美股、 港股及A股处于调整,调整后将再创高峰 | 视频Video

    就业市场转弱,金融系统里面的流动性过剩几乎接近用尽,美联署9月份FOMC 应该减息,但市场可能很大程度上已反映减息一码(0.25%),FedWatch 显示机会率90% ,只减一码,未必有力再升,甚至到跌。

  • 以色列科技創新,中國能學到什麼?硬科技VC的十年復盤 | 播客Podcast

    以色列科技创新,中国能学到什么?硬科技VC的十年复盘| 播客Podcast

    对话非金融出身、无耀眼光环的理工科年轻人闯入VC行业,经过大浪淘沙,在整个中国VC行业经历巨大转变之际,仍然活在牌桌上。其中,既有硬科技领域的扎实累积、方​​法论,也能看出,他们充分利用了中国市场和人才。

    以色列科技创新,中国能学到什么?硬科技VC的十年复盘| 播客Podcast

    对话非金融出身、无耀眼光环的理工科年轻人闯入VC行业,经过大浪淘沙,在整个中国VC行业经历巨大转变之际,仍然活在牌桌上。其中,既有硬科技领域的扎实累积、方​​法论,也能看出,他们充分利用了中国市场和人才。

  • LULU財報營收不及市場預期,表現讓人失望!

    LULU财报营收不及市场预期,表现让人失望!

    整体上,不达预期的二季度业绩加上再次下修的全年指引,使得公司盘后估计再次暴跌15% 以上,核心还是在于无论是本季度的业绩,还是公司对未来的指引,非但没有成长性的边际好转反而还在恶化,没季财报噩耗连珠,因此只能继续杀估值。

    LULU财报营收不及市场预期,表现让人失望!

    整体上,不达预期的二季度业绩加上再次下修的全年指引,使得公司盘后估计再次暴跌15% 以上,核心还是在于无论是本季度的业绩,还是公司对未来的指引,非但没有成长性的边际好转反而还在恶化,没季财报噩耗连珠,因此只能继续杀估值。

  • 對話前OpenAI科學家:GPT-5能獲得奧賽金牌,但那可能具有欺騙性? | 播客Podcast

    对话前OpenAI科学家:GPT-5能获得奥赛金牌,但那可能具有欺骗性? | 播客Podcast

    对话OpenAI 的两位前科学家:Kenneth Stanley和Joel Lehman;他们曾亲历前ChatGPT 时代的OpenAI,也是《为什么伟大不能被计划》一书的作者。 2023 年,这本书曾在中国科技圈掀起阅读的趋势。那正是ChatGPT 席卷全球、掀开大模型浪潮的一年。

    对话前OpenAI科学家:GPT-5能获得奥赛金牌,但那可能具有欺骗性? | 播客Podcast

    对话OpenAI 的两位前科学家:Kenneth Stanley和Joel Lehman;他们曾亲历前ChatGPT 时代的OpenAI,也是《为什么伟大不能被计划》一书的作者。 2023 年,这本书曾在中国科技圈掀起阅读的趋势。那正是ChatGPT 席卷全球、掀开大模型浪潮的一年。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4