要点:
OpenAI近日发布首款具备推理功能的新工具“o1模型”,可以比人类更快地回答更复杂的问题。此模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章
具有推理能力的人工智能AI被视为该技术发展的一个关键里程碑,因为它不仅能够处理大量数据,还能在此基础上进行复杂的逻辑推理和决策。
为了在激烈的市场竞争中保持领先地位,OpenAI于9月13日推出了首款具备推理能力的人工智能“o1模型”,代号为“草莓”。这一新推出的o1模型,代表了OpenAI在该领域的重大突破。 OpenAI的首席执行官Sam Altman更是对外宣布,“耐心等待的时刻结束了!”这一句简短却振奋人心的话,预示着人工智能技术即将迎来一个快速发展的新阶段。
o1模型:开启推理新高度
OpenAI推出的“o1模型”是一款具备高级推理能力的语言模型,由字母o和数字1组成。此次发布的o1被标记为“预览版”,以强调其仍处于初期阶段的性质。
最新的信息显示,o1模型在推理能力上相较于前代的GPT-4o有了显著提升。特别是在数学、编程和科学问题的解决能力方面,o1模型甚至被认为已超越了人类专家。
目前,OpenAI仅发布了o1模型系列的首批版本,包括o1-preview预览版和o1-mini迷你版。这些版本将分阶段向付费用户、免费用户和开发者开放,其中开发者的使用成本较高。在API/应用程序编程接口中,o1-preview每百万输入token的收费为15美元,是GPT-4o的三倍,而每百万输出token的收费为60美元,是GPT-4o的四倍。这里的百万token表示模型处理的文字块规模,相当于大约75万单词。
o1模型釆用了全新的优化算法和特别定制的训练数据集
OpenAI的研究负责人Jerry Tworek指出,o1模型的训练方式与以往的模型有着本质上的不同。通过全新的训练方法,o1模型能够处理更加复杂的编程、数学和科学难题,并且在回答问题时会进行“思考”,其处理速度甚至快于人类。
具体来说,o1模型釆用了一种全新的优化算法,并使用了专门为其量身定制的训练数据集,其中包含了推理数据和特别挑选的科学文献。与之前的GPT模型依赖于模仿数据集的规律不同,o1模型则运用了“强化学习”的方法,通过奖励和惩罚的机制来训练模型解决问题。
此外,o1模型还使用了“思路链”/chain of thoughts技术来处理用户的查询,并提供思路链的总结概要,而这种方法类似于人类逐步解决问题的思考方式。
OpenAI对此认为,这种创新的训练方法将使o1模型更为精准,并显著减少生成错误回答的情况。 o1模型与GPT-4o的主要区别在于它在解决复杂的编程和数学问题方面表现更佳,同时能够优化推理过程、尝试不同策略,并识别和纠正自身回答中的错误。而在整个测试阶段中,o1模型的优势和劣势也十分明显。
优势:对复杂推理任务是巨大进步
OpenAI表示,o1模型在处理复杂推理任务上实现了显著进步,代表了人工智能AI能力目前的新高度。该模型的“思考”时间越长,其在推理任务中的表现越佳,因为o1模型能够花费更多时间分析复杂问题的各个方面,从而有效地针对事实进行自我核查。
具体来说,o1模型的推理能力大幅提升,在物理、化学和生物等领域的挑战性基准测试中,其表现相当于博士生级别的专家。尤其在数学和编程方面,o1模型的成绩尤为突出。经过测试,在国际数学奥林匹克/IMO资格考试中,o1模型的正确率高达83%,而GPT-4o的正确率仅为13%。而在Codeforces在线编程竞赛中,o1模型的表现位于89百分位,即只有11%的参赛者能超越o1模型。
此外,o1模型在安全性方面也有所提升,相较于之前的模型更能遵循安全准则并抵抗生成有害内容。在严格的“越狱测试”中,GPT-4o的得分仅为22分,而o1模型预览版则获得了84分。据OpenAI表示,o1模型暂未引发超出现有资源可能实现的评估风险。
OpenAI还指出,o1模型特别适用于那些需要解决科学、编程、数学等领域复杂问题的用户。增强的推理能力对这些领域的工作者而言,尤其有用。 o1模型擅长准确生成和调试复杂代码,其中o1-mini迷你版,则以更高的速度和比预览版便宜80%的价格提供高效的推理能力。 o1-mini迷你版特别适合于需要推理但不涉及广泛世界知识的应用,如医疗研究人员可以利用o1模型注释细胞测序数据,物理学家可以用它生成量子光学所需的复杂数学公式,各领域的开发人员也可以用它进行构建和执行多步骤的工作流程。
缺点:无法杜绝“幻觉”问题
尽管今日发布的o1模型在许多方面展示了进步,但作为该模型的初始版本,仍存在一些明显的不足之处。
例如,o1模型目前仅支持“纯文字”功能,尚不具备网页浏览、文件上传或图片处理能力。相比于ChatGPT的丰富功能,o1模型在许多常见用例中不如GPT-4o强大,并且其使用受到限制:o1-preview预览版每周最多可发送30条消息,而o1-mini迷你版的上限为50条。
此外,o1模型在许多领域的理解能力仍逊色于GPT-4o。在涉及世界事实知识的方面,其表现不佳,某些情况下推理速度较慢,可能需要更长时间才能回答问题。目前,o1模型还无法对特定文档进行推理,也缺乏从网络上实时获取信息的能力。
当被问及“公主的年龄是王子年龄的两倍,当公主的年龄是他们年龄总和的一半时,请问王子和公主各自的年龄是多少?”o1模型经过30秒的缓冲后才给出了正确答案。
而在此过程中,o1模型似乎刻意模仿人类的思维方式。通过使用诸如“我很好奇”、“我正在思考”和“好吧,让我看看”等短语,制造了一种逐步思考的假象。但实际上,o1模型模型并不会真正思考,也绝不是人类。
OpenAI对此,并不认为o1模型的人工智能思维等同于人类思维。但他们表示,该界面的设计目的是为了展示模型如何花费更多时间来处理问题,并更深入地解决问题。 “在某些方面,它比以前的模型显得更具人性化。”
更值得注意的是,OpenAI表示o1模型依然存在着幻觉/Hallucination。 OpenAI在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1模型和迷你版比GPT-4o及其迷你版容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1模型很少会承认它不知道问题的答案。
Jerry Tworek解释道,“我们观察到,这个新模型产生幻觉的频率较低。”尽管如此,他也强调,幻觉问题”仍然存在。“我们不能声称已经完全解决了幻觉问题。 ”
AI领域迎来变革时刻
OpenAI如今率先推出了o1模型,但如果竞争对手迅速跟进并推出类似产品,公司的真正挑战将会演变成如何让o1模型相比其竞争对手,得到更广泛的应用。
对此,OpenAI计划不断更新o1模型,以提升其推理能力,目标是对推理时间长达数小时、数天甚至数周的场景进行实验。除了模型更新,OpenAI还打算为o1模型添加更多功能,例如浏览网页、上传文件和图片,以增强其实用性。 o1模型系列外,OpenAI还将继续开发和发布GPT系列中的新模型。
目前,市场对o1模型的期待不仅在于其技术优势,更在于它可能引领行业的未来发展。
OpenAI将o1模型也视为未来人工智能发展的关键一步,这一创新模型的推出无疑将在科研、编程、医疗等多个领域带来新的应用场景和挑战。英伟达AI团队领军人物Jim Fan也对OpenAI的此次发布表示高度赞赏,他认为o1模型在推理层面开启了新的规模化规律,为大模型能力的提升开辟了新路径。随着AI模型在推理能力上的不断增强,未来我们或许能在多个领域看到AI超越当前的人类认知极限。
未来的人工智能AI,不仅仅是信息的整合者、知识堆砌者,更将成为人类思考的延伸,帮助我们解决更多复杂的问题,推动人类社会的进步和发展。
在如此动荡的金融市场中,你会选择怎样投资?
一起深入了解资深投资者的交易策略。在投入股市之前,多认识金融市场,才可提高投资回报率。关注狂"思钱想后"栏目,紧密跟踪股市走势,寻找更多投资机会。
点击此处了解更多
投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。
狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。
狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。
联系我们// 相关文章