OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

OpenAI发布首个推理能力“o1模型”,AI领域迎来变革时刻

發布日期:

科技 Tech


要点:
OpenAI近日发布首款具备推理功能的新工具“o1模型”,可以比人类更快地回答更复杂的问题。此模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

具有推理能力的人工智能AI被视为该技术发展的一个关键里程碑,因为它不仅能够处理大量数据,还能在此基础上进行复杂的逻辑推理和决策。

为了在激烈的市场竞争中保持领先地位,OpenAI于9月13日推出了首款具备推理能力的人工智能“o1模型”,代号为“草莓”。这一新推出的o1模型,代表了OpenAI在该领域的重大突破。 OpenAI的首席执行官Sam Altman更是对外宣布,“耐心等待的时刻结束了!”这一句简短却振奋人心的话,预示着人工智能技术即将迎来一个快速发展的新阶段。

o1模型:开启推理新高度
OpenAI推出的“o1模型”是一款具备高级推理能力的语言模型,由字母o和数字1组成。此次发布的o1被标记为“预览版”,以强调其仍处于初期阶段的性质。

最新的信息显示,o1模型在推理能力上相较于前代的GPT-4o有了显著提升。特别是在数学、编程和科学问题的解决能力方面,o1模型甚至被认为已超越了人类专家。

目前,OpenAI仅发布了o1模型系列的首批版本,包括o1-preview预览版和o1-mini迷你版。这些版本将分阶段向付费用户、免费用户和开发者开放,其中开发者的使用成本较高。在API/应用程序编程接口中,o1-preview每百万输入token的收费为15美元,是GPT-4o的三倍,而每百万输出token的收费为60美元,是GPT-4o的四倍。这里的百万token表示模型处理的文字块规模,相当于大约75万单词。

o1模型釆用了全新的优化算法和特别定制的训练数据集
OpenAI的研究负责人Jerry Tworek指出,o1模型的训练方式与以往的模型有着本质上的不同。通过全新的训练方法,o1模型能够处理更加复杂的编程、数学和科学难题,并且在回答问题时会进行“思考”,其处理速度甚至快于人类。

具体来说,o1模型釆用了一种全新的优化算法,并使用了专门为其量身定制的训练数据集,其中包含了推理数据和特别挑选的科学文献。与之前的GPT模型依赖于模仿数据集的规律不同,o1模型则运用了“强化学习”的方法,通过奖励和惩罚的机制来训练模型解决问题。

此外,o1模型还使用了“思路链”/chain of thoughts技术来处理用户的查询,并提供思路链的总结概要,而这种方法类似于人类逐步解决问题的思考方式。

OpenAI对此认为,这种创新的训练方法将使o1模型更为精准,并显著减少生成错误回答的情况。 o1模型与GPT-4o的主要区别在于它在解决复杂的编程和数学问题方面表现更佳,同时能够优化推理过程、尝试不同策略,并识别和纠正自身回答中的错误。而在整个测试阶段中,o1模型的优势和劣势也十分明显。

优势:对复杂推理任务是巨大进步
OpenAI表示,o1模型在处理复杂推理任务上实现了显著进步,代表了人工智能AI能力目前的新高度。该模型的“思考”时间越长,其在推理任务中的表现越佳,因为o1模型能够花费更多时间分析复杂问题的各个方面,从而有效地针对事实进行自我核查。

具体来说,o1模型的推理能力大幅提升,在物理、化学和生物等领域的挑战性基准测试中,其表现相当于博士生级别的专家。尤其在数学和编程方面,o1模型的成绩尤为突出。经过测试,在国际数学奥林匹克/IMO资格考试中,o1模型的正确率高达83%,而GPT-4o的正确率仅为13%。而在Codeforces在线编程竞赛中,o1模型的表现位于89百分位,即只有11%的参赛者能超越o1模型。

此外,o1模型在安全性方面也有所提升,相较于之前的模型更能遵循安全准则并抵抗生成有害内容。在严格的“越狱测试”中,GPT-4o的得分仅为22分,而o1模型预览版则获得了84分。据OpenAI表示,o1模型暂未引发超出现有资源可能实现的评估风险。

OpenAI还指出,o1模型特别适用于那些需要解决科学、编程、数学等领域复杂问题的用户。增强的推理能力对这些领域的工作者而言,尤其有用。 o1模型擅长准确生成和调试复杂代码,其中o1-mini迷你版,则以更高的速度和比预览版便宜80%的价格提供高效的推理能力。 o1-mini迷你版特别适合于需要推理但不涉及广泛世界知识的应用,如医疗研究人员可以利用o1模型注释细胞测序数据,物理学家可以用它生成量子光学所需的复杂数学公式,各领域的开发人员也可以用它进行构建和执行多步骤的工作流程。

缺点:无法杜绝“幻觉”问题
尽管今日发布的o1模型在许多方面展示了进步,但作为该模型的初始版本,仍存在一些明显的不足之处。

例如,o1模型目前仅支持“纯文字”功能,尚不具备网页浏览、文件上传或图片处理能力。相比于ChatGPT的丰富功能,o1模型在许多常见用例中不如GPT-4o强大,并且其使用受到限制:o1-preview预览版每周最多可发送30条消息,而o1-mini迷你版的上限为50条。

此外,o1模型在许多领域的理解能力仍逊色于GPT-4o。在涉及世界事实知识的方面,其表现不佳,某些情况下推理速度较慢,可能需要更长时间才能回答问题。目前,o1模型还无法对特定文档进行推理,也缺乏从网络上实时获取信息的能力。

当被问及“公主的年龄是王子年龄的两倍,当公主的年龄是他们年龄总和的一半时,请问王子和公主各自的年龄是多少?”o1模型经过30秒的缓冲后才给出了正确答案。

而在此过程中,o1模型似乎刻意模仿人类的思维方式。通过使用诸如“我很好奇”、“我正在思考”和“好吧,让我看看”等短语,制造了一种逐步思考的假象。但实际上,o1模型模型并不会真正思考,也绝不是人类。

OpenAI对此,并不认为o1模型的人工智能思维等同于人类思维。但他们表示,该界面的设计目的是为了展示模型如何花费更多时间来处理问题,并更深入地解决问题。 “在某些方面,它比以前的模型显得更具人性化。”

更值得注意的是,OpenAI表示o1模型依然存在着幻觉/Hallucination。 OpenAI在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1模型和迷你版比GPT-4o及其迷你版容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1模型很少会承认它不知道问题的答案。

Jerry Tworek解释道,“我们观察到,这个新模型产生幻觉的频率较低。”尽管如此,他也强调,幻觉问题”仍然存在。“我们不能声称已经完全解决了幻觉问题。 ”

AI领域迎来变革时刻
OpenAI如今率先推出了o1模型,但如果竞争对手迅速跟进并推出类似产品,公司的真正挑战将会演变成如何让o1模型相比其竞争对手,得到更广泛的应用。

对此,OpenAI计划不断更新o1模型,以提升其推理能力,目标是对推理时间长达数小时、数天甚至数周的场景进行实验。除了模型更新,OpenAI还打算为o1模型添加更多功能,例如浏览网页、上传文件和图片,以增强其实用性。 o1模型系列外,OpenAI还将继续开发和发布GPT系列中的新模型。

目前,市场对o1模型的期待不仅在于其技术优势,更在于它可能引领行业的未来发展。

OpenAI将o1模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。英伟达AI团队领军人物Jim Fan也对OpenAI的此次发布表示高度赞赏,他认为o1模型在推理层面开启了新的规模化规律,为大模型能力的提升开辟了新路径。随着AI模型在推理能力上的不断增强,未来我们或许能在多个领域看到AI超越当前的人类认知极限。

未来的人工智能AI,不仅仅是信息的整合者、知识堆砌者,更将成为人类思考的延伸,帮助我们解决更多复杂的问题,推动人类社会的进步和发展。

在如此动荡的金融市场中,你会选择怎样投资?
一起深入了解资深投资者的交易策略。在投入股市之前,多认识金融市场,才可提高投资回报率。关注狂"思钱想后"栏目,紧密跟踪股市走势,寻找更多投资机会

点击此处了解更多

投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。

狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。

狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。

联系我们// 相关文章

免责声明:本网站提供的信息仅供一般信息目的,并不应被视为投资建议。

返回博客
1 / 8
  • AI與量子計算:誰將引領未來科技?

    AI与量子计算:谁将引领未来科技?

    多年来,科技公司多年投入数十亿美元于量子计算机,寄希望于它们能在金融、药物研发、物流等多个领域带来颠覆性变革,尤其是在物理和化学领域,这种期待更为强烈,因为量子力学的独特效应在这些领域中发挥着重要作用。

    AI与量子计算:谁将引领未来科技?

    多年来,科技公司多年投入数十亿美元于量子计算机,寄希望于它们能在金融、药物研发、物流等多个领域带来颠覆性变革,尤其是在物理和化学领域,这种期待更为强烈,因为量子力学的独特效应在这些领域中发挥着重要作用。

  • 金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    金刚石晶片的崛起,或引发全球AI半导体竞争新角逐

    全球各国都在积极加快金刚石在半导体领域的研发步伐,并将其视为未来科技创新的关键材料。从高效能晶片散热解决方案到量子计算和光电应用,金刚石的潜力被各大研究机构和企业广泛看好。

    金刚石晶片的崛起,或引发全球AI半导体竞争新角逐

    全球各国都在积极加快金刚石在半导体领域的研发步伐,并将其视为未来科技创新的关键材料。从高效能晶片散热解决方案到量子计算和光电应用,金刚石的潜力被各大研究机构和企业广泛看好。

  • “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    “微塑胶”成科学界关注焦点,或对人体健康造成潜在威胁

    许多工业生产过程中,尤其是涉及塑胶制造、加工和拆卸的行业,都会产生大量的塑胶废料。这些废料往往被不当处置或遗弃,经过时间的推移,这些废弃塑胶在风力、雨水等自然条件下分解成微塑胶颗粒,进入土壤和水体。

    “微塑胶”成科学界关注焦点,或对人体健康造成潜在威胁

    许多工业生产过程中,尤其是涉及塑胶制造、加工和拆卸的行业,都会产生大量的塑胶废料。这些废料往往被不当处置或遗弃,经过时间的推移,这些废弃塑胶在风力、雨水等自然条件下分解成微塑胶颗粒,进入土壤和水体。

  • 古羅馬混凝土的“耐用秘密”

    古罗马混凝土的“耐用秘密”

    古罗马人以其卓越的建筑和工程技术而闻名。公元128年建成的万神殿/Pantheon是古罗马的一座杰出建筑,拥有世界上最大的无钢筋混凝土圆顶,至今依然完好如初。而与此形成鲜明对比的是,许多现代混凝土结构在短短几十年内就出现了损坏。

    古罗马混凝土的“耐用秘密”

    古罗马人以其卓越的建筑和工程技术而闻名。公元128年建成的万神殿/Pantheon是古罗马的一座杰出建筑,拥有世界上最大的无钢筋混凝土圆顶,至今依然完好如初。而与此形成鲜明对比的是,许多现代混凝土结构在短短几十年内就出现了损坏。

1 / 4
  • “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “AI虚拟伴侣”导致14岁美国少年自杀,人工智能时代背后的情感孤独

    “我想念你,妹妹。”、“我也想念你,亲爱的哥哥。” 这段对话发生在14岁塞维尔/Sewell Setzer生命的最后一天。在与AI初创公司Character.AI的聊天机器人进行长时间对话后,他在2月28日选择结束自己的生命,开枪自杀身亡。

    “AI虚拟伴侣”导致14岁美国少年自杀,人工智能时代背后的情感孤独

    “我想念你,妹妹。”、“我也想念你,亲爱的哥哥。” 这段对话发生在14岁塞维尔/Sewell Setzer生命的最后一天。在与AI初创公司Character.AI的聊天机器人进行长时间对话后,他在2月28日选择结束自己的生命,开枪自杀身亡。

  • 网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    网络成瘾,沉迷直播间:当今快节奏生活的快感与陷阱?

    繁忙的社会中,身边的人虽然众多,但真正理解和倾诉的却少之又少。在虚拟中,人们通过短暂的直播互动获得了一时的快乐,然而这并不能真正填补心灵深处的空白。最终,直播所提供的陪伴,无法替代那种深入的、持久的人际关系。

    网络成瘾,沉迷直播间:当今快节奏生活的快感与陷阱?

    繁忙的社会中,身边的人虽然众多,但真正理解和倾诉的却少之又少。在虚拟中,人们通过短暂的直播互动获得了一时的快乐,然而这并不能真正填补心灵深处的空白。最终,直播所提供的陪伴,无法替代那种深入的、持久的人际关系。

  • 從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    从Mr. Beast的崛起到三只羊的陨落:超级网红为博眼球的背后

    网红文化已经成为一种不可忽视的社会现象和经济力量。随着发展,一些拥有数百万甚至千万人气的超级网红,为了追求流量和关注度,忽视了内容质量和创作者的道德底线,导致劣迹网红频频出现,给整个行业带来了显著的负面影响。

    从Mr. Beast的崛起到三只羊的陨落:超级网红为博眼球的背后

    网红文化已经成为一种不可忽视的社会现象和经济力量。随着发展,一些拥有数百万甚至千万人气的超级网红,为了追求流量和关注度,忽视了内容质量和创作者的道德底线,导致劣迹网红频频出现,给整个行业带来了显著的负面影响。

  • 酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店暗藏摄像头,偷拍黑色产业链

    酒店和民宿频繁发生暗藏摄像头的事件,使我们不得不深思:偷拍背后究竟蕴藏着怎样的利益链条?这些偷拍行为不仅严重侵犯了个人隐私,也对社会的道德标准提出了挑战。这一现象的蔓延,迫使人们对行业监管和法律法规的有效性产生质疑。

    酒店暗藏摄像头,偷拍黑色产业链

    酒店和民宿频繁发生暗藏摄像头的事件,使我们不得不深思:偷拍背后究竟蕴藏着怎样的利益链条?这些偷拍行为不仅严重侵犯了个人隐私,也对社会的道德标准提出了挑战。这一现象的蔓延,迫使人们对行业监管和法律法规的有效性产生质疑。

1 / 4
  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

  • 京東楊笠事件背后:愚昧的社會何去何從?

    京东杨笠事件背后:愚昧的社会何去何从?

    临近双十一,没想到第一场公关战就炸在了京东身上。而更万万没想到的是,翻车的点不是价格,也不是带货主播,而是更尖锐更为敏感的“男女性别”话题,还把脱口秀演员杨笠推向了风口浪尖。

    京东杨笠事件背后:愚昧的社会何去何从?

    临近双十一,没想到第一场公关战就炸在了京东身上。而更万万没想到的是,翻车的点不是价格,也不是带货主播,而是更尖锐更为敏感的“男女性别”话题,还把脱口秀演员杨笠推向了风口浪尖。

1 / 4