OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

發布日期:

科技 Tech


要點:
OpenAI近日發布首款具備推理功能的新工具“o1模型”,可以比人類更快地回答更復雜的問題。此模型也視為未來人工智能發展的關鍵一步,這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 // 相關文章

具有推理能力的人工智能AI被視為該技朮發展的一個關鍵里程碑,因為它不僅能夠處理大量數據,還能在此基礎上進行復雜的邏輯推理和決策。

為了在激烈的市場競爭中保持領先地位,OpenAI於9月13日推出了首款具備推理能力的人工智能“o1模型”,代號為“草莓”。這一新推出的o1模型,代表了OpenAI在該領域的重大突破。OpenAI的首席執行官Sam Altman更是對外宣布,“耐心等待的時刻結束了!”這一句簡短卻振奮人心的話,預示着人工智能技朮即將迎來一個快速發展的新階段。

o1模型:開啟推理新高度
OpenAI推出的“o1模型”是一款具備高級推理能力的語言模型,由字母o和數字1組成。此次發布的o1被標記為“預覽版”,以強調其仍處於初期階段的性質。

最新的信息顯示,o1模型在推理能力上相較於前代的GPT-4o有了顯著提升。特別是在數學、編程和科學問題的解決能力方面,o1模型甚至被認為已超越了人類專家。

目前,OpenAI僅發布了o1模型系列的首批版本,包括o1-preview預覽版和o1-mini迷你版。這些版本將分階段向付費用戶、免費用戶和開發者開放,其中開發者的使用成本較高。在API/應用程序編程接口中,o1-preview每百萬輸入token的收費為15美元,是GPT-4o的三倍,而每百萬輸出token的收費為60美元,是GPT-4o的四倍。這里的百萬token表示模型處理的文字塊規模,相當於大約75萬單詞。

o1模型釆用了全新的優化算法和特別定制的訓練數據集
OpenAI的研究負責人Jerry Tworek指出,o1模型的訓練方式與以往的模型有着本質上的不同。通過全新的訓練方法,o1模型能夠處理更加復雜的編程、數學和科學難題,并且在回答問題時會進行“思考”,其處理速度甚至快於人類。

具體來說,o1模型釆用了一種全新的優化算法,并使用了專門為其量身定制的訓練數據集,其中包含了推理數據和特別挑選的科學文獻。與之前的GPT模型依賴於模仿數據集的規律不同,o1模型則運用了“強化學習”的方法,通過獎勵和懲罰的機制來訓練模型解決問題。

此外,o1模型還使用了“思路鏈”/chain of thoughts技朮來處理用戶的查詢,并提供思路鏈的總結概要,而這種方法類似於人類逐步解決問題的思考方式。

OpenAI對此認為,這種創新的訓練方法將使o1模型更為精准,并顯著減少生成錯誤回答的情況。o1模型與GPT-4o的主要區別在於它在解決復雜的編程和數學問題方面表現更佳,同時能夠優化推理過程、嘗試不同策略,并識別和糾正自身回答中的錯誤。而在整個測試階段中,o1模型的優勢和劣勢也十分明顯。

優勢:對復雜推理任務是巨大進步
OpenAI表示,o1模型在處理復雜推理任務上實現了顯著進步,代表了人工智能AI能力目前的新高度。該模型的“思考”時間越長,其在推理任務中的表現越佳,因為o1模型能夠花費更多時間分析復雜問題的各個方面,從而有效地針對事實進行自我核查。

具體來說,o1模型的推理能力大幅提升,在物理、化學和生物等領域的挑戰性基准測試中,其表現相當於博士生級別的專家。尤其在數學和編程方面,o1模型的成績尤為突出。經過測試,在國際數學奧林匹克/IMO資格考試中,o1模型的正確率高達83%,而GPT-4o的正確率僅為13%。而在Codeforces在線編程競賽中,o1模型的表現位於89百分位,即只有11%的參賽者能超越o1模型。

此外,o1模型在安全性方面也有所提升,相較於之前的模型更能遵循安全准則并抵抗生成有害內容。在嚴格的“越獄測試”中,GPT-4o的得分僅為22分,而o1模型預覽版則獲得了84分。據OpenAI表示,o1模型暫未引發超出現有資源可能實現的評估風險。

OpenAI還指出,o1模型特別適用於那些需要解決科學、編程、數學等領域復雜問題的用戶。增強的推理能力對這些領域的工作者而言,尤其有用。o1模型擅長准確生成和調試復雜代碼,其中o1-mini迷你版,則以更高的速度和比預覽版便宜80%的價格提供高效的推理能力。o1-mini迷你版特別適合於需要推理但不涉及廣泛世界知識的應用,如醫療研究人員可以利用o1模型注釋細胞測序數據,物理學家可以用它生成量子光學所需的復雜數學公式,各領域的開發人員也可以用它進行搆建和執行多步驟的工作流程。

缺點:無法杜絕“幻覺”問題
盡管今日發布的o1模型在許多方面展示了進步,但作為該模型的初始版本,仍存在一些明顯的不足之處。

例如,o1模型目前僅支持“純文字”功能,尚不具備網頁瀏覽、文件上傳或圖片處理能力。相比於ChatGPT的丰富功能,o1模型在許多常見用例中不如GPT-4o強大,并且其使用受到限制:o1-preview預覽版每周最多可發送30條消息,而o1-mini迷你版的上限為50條。

此外,o1模型在許多領域的理解能力仍遜色於GPT-4o。在涉及世界事實知識的方面,其表現不佳,某些情況下推理速度較慢,可能需要更長時間才能回答問題。目前,o1模型還無法對特定文檔進行推理,也缺乏從網絡上實時獲取信息的能力。

當被問及“公主的年齡是王子年齡的兩倍,當公主的年齡是他們年齡總和的一半時,請問王子和公主各自的年齡是多少?”o1模型經過30秒的緩沖后才給出了正確答案。

而在此過程中,o1模型似乎刻意模仿人類的思維方式。通過使用諸如“我很好奇”、“我正在思考”和“好吧,讓我看看”等短語,制造了一種逐步思考的假象。但實際上,o1模型模型并不會真正思考,也絕不是人類。

OpenAI對此,并不認為o1模型的人工智能思維等同於人類思維。但他們表示,該界面的設計目的是為了展示模型如何花費更多時間來處理問題,并更深入地解決問題。“在某些方面,它比以前的模型顯得更具人性化。”

更值得注意的是,OpenAI表示o1模型依然存在著幻覺/Hallucination。 OpenAI在一篇技朮論文中承認,其收到了一些“軼事反饋”,稱o1模型和迷你版比GPT-4o及其迷你版容易產生“幻覺”,也就是AI仍在很自信地編造答案,而且o1模型很少會承認它不知道問題的答案。

Jerry Tworek解釋道,“我們觀察到,這個新模型產生幻覺的頻率較低。”盡管如此,他也強調,幻覺問題”仍然存在。“我們不能聲稱已經完全解決了幻覺問題。”

AI領域迎來變革時刻
OpenAI如今率先推出了o1模型,但如果競爭對手迅速跟進并推出類似產品,公司的真正挑戰將會演變成如何讓o1模型相比其競爭對手,得到更廣泛的應用。

對此,OpenAI計划不斷更新o1模型,以提升其推理能力,目標是對推理時間長達數小時、數天甚至數周的場景進行實驗。除了模型更新,OpenAI還打算為o1模型添加更多功能,例如瀏覽網頁、上傳文件和圖片,以增強其實用性。o1模型系列外,OpenAI還將繼續開發和發布GPT系列中的新模型。

目前,市場對o1模型的期待不僅在於其技朮優勢,更在於它可能引領行業的未來發展。

OpenAI將o1模型也視為未來人工智能發展的關鍵一步,這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。英偉達AI團隊領軍人物Jim Fan也對OpenAI的此次發布表示高度贊賞,他認為o1模型在推理層面開啟了新的規模化規律,為大模型能力的提升開辟了新路徑。隨着AI模型在推理能力上的不斷增強,未來我們或許能在多個領域看到AI超越當前的人類認知極限。

未來的人工智能AI,不僅僅是信息的整合者、知識堆砌者,更將成為人類思考的延伸,幫助我們解決更多復雜的問題,推動人類社會的進步和發展。

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 // 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回網誌
  • Google算力核心技術TPU推動了AI市場替代GPU?

    Google算力核心技術TPU推動了AI市場替代GPU?

    如果不是在行業內,這可能大家的第一個疑問。在市場大多數記憶還停留在 TPU 通用性不夠,Google 主要用來內用而非對外商用上時,會非常訝異為何到了 TPU v7 這一版本,突然開講 TPU 對的 GPU 替代邏輯。

    Google算力核心技術TPU推動了AI市場替代GPU?

    如果不是在行業內,這可能大家的第一個疑問。在市場大多數記憶還停留在 TPU 通用性不夠,Google 主要用來內用而非對外商用上時,會非常訝異為何到了 TPU v7 這一版本,突然開講 TPU 對的 GPU 替代邏輯。

  • CoreWeave基礎AI雲服務的生意模式

    CoreWeave基礎AI雲服務的生意模式

    CoreWeave客户結構高度集中,目前基本只由 AI 模型獨角獸,和有能力獨自研發/優化 AI 模型的大型科技公司構成。在2024 財年 CoreWeave 約$19 億的總營收中,接近 80% 的收入只來自兩家客户公司 -- 微軟和英偉達,其中微軟一家就佔了當年總收入的 62%。

    CoreWeave基礎AI雲服務的生意模式

    CoreWeave客户結構高度集中,目前基本只由 AI 模型獨角獸,和有能力獨自研發/優化 AI 模型的大型科技公司構成。在2024 財年 CoreWeave 約$19 億的總營收中,接近 80% 的收入只來自兩家客户公司 -- 微軟和英偉達,其中微軟一家就佔了當年總收入的 62%。

  • LULU三季度業績超出公司此前指引

    LULU三季度業績超出公司此前指引

    Lululemon 的大本營市場北美地區仍然疲軟,同比下降 1.5%,平均訂單金額、轉化率及門店客流量仍處於下滑狀態。亮眼的是中國地區同比高增 43%,增速創近一年以來新高,二季度 Lululemon Align 十週年慶典增加了和消費者的互動,帶動公司整體的品牌提升。

    LULU三季度業績超出公司此前指引

    Lululemon 的大本營市場北美地區仍然疲軟,同比下降 1.5%,平均訂單金額、轉化率及門店客流量仍處於下滑狀態。亮眼的是中國地區同比高增 43%,增速創近一年以來新高,二季度 Lululemon Align 十週年慶典增加了和消費者的互動,帶動公司整體的品牌提升。

  • NVDA財報超市場預期,總收入570億美元!

    NVDA財報超市場預期,總收入570億美元!

    隨着英偉達數據中心的持續增長,當前已經成為公司收入中最大的一項,佔比已經接近 9 成。作為公司此前主要收入來源的遊戲業務,佔比已經被壓縮至 1 成左右。其主要產品包括 Blackwell、Hopper 等算力芯片,公司的核心客户是亞馬遜、微軟、谷歌等雲服務大廠。

    NVDA財報超市場預期,總收入570億美元!

    隨着英偉達數據中心的持續增長,當前已經成為公司收入中最大的一項,佔比已經接近 9 成。作為公司此前主要收入來源的遊戲業務,佔比已經被壓縮至 1 成左右。其主要產品包括 Blackwell、Hopper 等算力芯片,公司的核心客户是亞馬遜、微軟、谷歌等雲服務大廠。

  • QCOM高通財報,業績相對平淡

    QCOM高通財報,業績相對平淡

    高通公司本季度業績相對平淡,收入端的超預期主要來自於旗艦新品的提前發佈。至於本季度利潤端的回落,主要是受公司計入 57 億美元的遞延税資產準備金影響。若剔除該影響,公司本季度的淨利潤約為 26 億美元。

    QCOM高通財報,業績相對平淡

    高通公司本季度業績相對平淡,收入端的超預期主要來自於旗艦新品的提前發佈。至於本季度利潤端的回落,主要是受公司計入 57 億美元的遞延税資產準備金影響。若剔除該影響,公司本季度的淨利潤約為 26 億美元。

  • AMD財報,市場對數據中心AI Capex依然火熱

    AMD財報,市場對數據中心AI Capex依然火熱

    AMD 在 2025 年第三季度實現營收 92.5 億美元,同比增長 35.6%,市場預期(87.4 億美元)。收入端的同比增長,主要來自於客户端及遊戲業務、數據中心業務的帶動。公司本季度毛利率(GAAP)51.7%,同比提升 1.6pct。

    AMD財報,市場對數據中心AI Capex依然火熱

    AMD 在 2025 年第三季度實現營收 92.5 億美元,同比增長 35.6%,市場預期(87.4 億美元)。收入端的同比增長,主要來自於客户端及遊戲業務、數據中心業務的帶動。公司本季度毛利率(GAAP)51.7%,同比提升 1.6pct。

  • AMZN亞馬遜AWS本季營收同比增長20.2%到$309億!

    AMZN亞馬遜AWS本季營收同比增長20.2%到$309億!

    久等的 AWS 提速終於到來:目前雲業務的增速幾乎成為了壓倒一切、“決定生死” 的單一指標。而AWS 本季營收同比增長 20.2% 到$309 億,相比上季增速明顯提升 2.7pct。市場久久期待的 AWS 增長再提速終於到來。

    AMZN亞馬遜AWS本季營收同比增長20.2%到$309億!

    久等的 AWS 提速終於到來:目前雲業務的增速幾乎成為了壓倒一切、“決定生死” 的單一指標。而AWS 本季營收同比增長 20.2% 到$309 億,相比上季增速明顯提升 2.7pct。市場久久期待的 AWS 增長再提速終於到來。

  • AAPL蘋果2025財年第四季度營收1025億美元,同比增長7.9%!

    AAPL蘋果2025財年第四季度營收1025億美元,同比增長7.9%!

    本季度蘋果公司實現營收 1025 億美元,同比增長 7.9%,基本符合市場預期(1020 億美元)。公司本季度收入端的提升,主要受益於 iPhone、Mac 和軟件服務業務增長的帶動。蘋果公司毛利率 47.2%,同比增加 1pct,好於市場一致預期(46.6%)。

    AAPL蘋果2025財年第四季度營收1025億美元,同比增長7.9%!

    本季度蘋果公司實現營收 1025 億美元,同比增長 7.9%,基本符合市場預期(1020 億美元)。公司本季度收入端的提升,主要受益於 iPhone、Mac 和軟件服務業務增長的帶動。蘋果公司毛利率 47.2%,同比增加 1pct,好於市場一致預期(46.6%)。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

1 / 4