OpenAI發布首個推理能力“o1模型”，AI領域迎來變革時刻

發布日期:2024年9月12日

科技 Tech

要點:
OpenAI近日發布首款具備推理功能的新工具“o1模型”，可以比人類更快地回答更復雜的問題。此模型也視為未來人工智能發展的關鍵一步，這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。

科技正以前所未有的速度和規模發展，引發多個領域的變革，塑造了新的商業模式，甚至重塑了全新社會結構。我們一起，從科技創新中洞察社會轉型和升級的機遇。

狂呼科技研究所聚焦科技創新對當今世界的影響，以獨特、前瞻的科技視角，洞察科技時代下涌現的“創新革命”。

狂呼，以最具突破性的技朮塑造我們的未來，為大眾捕捉科技商業先機，探索當今人類社會面臨的重大挑戰。

聯系我們 // 相關文章

具有推理能力的人工智能AI被視為該技朮發展的一個關鍵里程碑，因為它不僅能夠處理大量數據，還能在此基礎上進行復雜的邏輯推理和決策。

為了在激烈的市場競爭中保持領先地位，OpenAI於9月13日推出了首款具備推理能力的人工智能“o1模型”，代號為“草莓”。這一新推出的o1模型，代表了OpenAI在該領域的重大突破。OpenAI的首席執行官Sam Altman更是對外宣布，“耐心等待的時刻結束了！”這一句簡短卻振奮人心的話，預示着人工智能技朮即將迎來一個快速發展的新階段。

o1模型：開啟推理新高度
OpenAI推出的“o1模型”是一款具備高級推理能力的語言模型，由字母o和數字1組成。此次發布的o1被標記為“預覽版”，以強調其仍處於初期階段的性質。

最新的信息顯示，o1模型在推理能力上相較於前代的GPT-4o有了顯著提升。特別是在數學、編程和科學問題的解決能力方面，o1模型甚至被認為已超越了人類專家。

目前，OpenAI僅發布了o1模型系列的首批版本，包括o1-preview預覽版和o1-mini迷你版。這些版本將分階段向付費用戶、免費用戶和開發者開放，其中開發者的使用成本較高。在API/應用程序編程接口中，o1-preview每百萬輸入token的收費為15美元，是GPT-4o的三倍，而每百萬輸出token的收費為60美元，是GPT-4o的四倍。這里的百萬token表示模型處理的文字塊規模，相當於大約75萬單詞。

o1模型釆用了全新的優化算法和特別定制的訓練數據集
OpenAI的研究負責人Jerry Tworek指出，o1模型的訓練方式與以往的模型有着本質上的不同。通過全新的訓練方法，o1模型能夠處理更加復雜的編程、數學和科學難題，并且在回答問題時會進行“思考”，其處理速度甚至快於人類。

具體來說，o1模型釆用了一種全新的優化算法，并使用了專門為其量身定制的訓練數據集，其中包含了推理數據和特別挑選的科學文獻。與之前的GPT模型依賴於模仿數據集的規律不同，o1模型則運用了“強化學習”的方法，通過獎勵和懲罰的機制來訓練模型解決問題。

此外，o1模型還使用了“思路鏈”/chain of thoughts技朮來處理用戶的查詢，并提供思路鏈的總結概要，而這種方法類似於人類逐步解決問題的思考方式。

OpenAI對此認為，這種創新的訓練方法將使o1模型更為精准，并顯著減少生成錯誤回答的情況。o1模型與GPT-4o的主要區別在於它在解決復雜的編程和數學問題方面表現更佳，同時能夠優化推理過程、嘗試不同策略，并識別和糾正自身回答中的錯誤。而在整個測試階段中，o1模型的優勢和劣勢也十分明顯。

優勢：對復雜推理任務是巨大進步
OpenAI表示，o1模型在處理復雜推理任務上實現了顯著進步，代表了人工智能AI能力目前的新高度。該模型的“思考”時間越長，其在推理任務中的表現越佳，因為o1模型能夠花費更多時間分析復雜問題的各個方面，從而有效地針對事實進行自我核查。

具體來說，o1模型的推理能力大幅提升，在物理、化學和生物等領域的挑戰性基准測試中，其表現相當於博士生級別的專家。尤其在數學和編程方面，o1模型的成績尤為突出。經過測試，在國際數學奧林匹克/IMO資格考試中，o1模型的正確率高達83%，而GPT-4o的正確率僅為13%。而在Codeforces在線編程競賽中，o1模型的表現位於89百分位，即只有11%的參賽者能超越o1模型。

此外，o1模型在安全性方面也有所提升，相較於之前的模型更能遵循安全准則并抵抗生成有害內容。在嚴格的“越獄測試”中，GPT-4o的得分僅為22分，而o1模型預覽版則獲得了84分。據OpenAI表示，o1模型暫未引發超出現有資源可能實現的評估風險。

OpenAI還指出，o1模型特別適用於那些需要解決科學、編程、數學等領域復雜問題的用戶。增強的推理能力對這些領域的工作者而言，尤其有用。o1模型擅長准確生成和調試復雜代碼，其中o1-mini迷你版，則以更高的速度和比預覽版便宜80%的價格提供高效的推理能力。o1-mini迷你版特別適合於需要推理但不涉及廣泛世界知識的應用，如醫療研究人員可以利用o1模型注釋細胞測序數據，物理學家可以用它生成量子光學所需的復雜數學公式，各領域的開發人員也可以用它進行搆建和執行多步驟的工作流程。

缺點：無法杜絕“幻覺”問題
盡管今日發布的o1模型在許多方面展示了進步，但作為該模型的初始版本，仍存在一些明顯的不足之處。

例如，o1模型目前僅支持“純文字”功能，尚不具備網頁瀏覽、文件上傳或圖片處理能力。相比於ChatGPT的丰富功能，o1模型在許多常見用例中不如GPT-4o強大，并且其使用受到限制：o1-preview預覽版每周最多可發送30條消息，而o1-mini迷你版的上限為50條。

此外，o1模型在許多領域的理解能力仍遜色於GPT-4o。在涉及世界事實知識的方面，其表現不佳，某些情況下推理速度較慢，可能需要更長時間才能回答問題。目前，o1模型還無法對特定文檔進行推理，也缺乏從網絡上實時獲取信息的能力。

當被問及“公主的年齡是王子年齡的兩倍，當公主的年齡是他們年齡總和的一半時，請問王子和公主各自的年齡是多少？”o1模型經過30秒的緩沖后才給出了正確答案。

而在此過程中，o1模型似乎刻意模仿人類的思維方式。通過使用諸如“我很好奇”、“我正在思考”和“好吧，讓我看看”等短語，制造了一種逐步思考的假象。但實際上，o1模型模型并不會真正思考，也絕不是人類。

OpenAI對此，并不認為o1模型的人工智能思維等同於人類思維。但他們表示，該界面的設計目的是為了展示模型如何花費更多時間來處理問題，并更深入地解決問題。“在某些方面，它比以前的模型顯得更具人性化。”

更值得注意的是，OpenAI表示o1模型依然存在著幻覺/Hallucination。 OpenAI在一篇技朮論文中承認，其收到了一些“軼事反饋”，稱o1模型和迷你版比GPT-4o及其迷你版容易產生“幻覺”，也就是AI仍在很自信地編造答案，而且o1模型很少會承認它不知道問題的答案。

Jerry Tworek解釋道，“我們觀察到，這個新模型產生幻覺的頻率較低。”盡管如此，他也強調，幻覺問題”仍然存在。“我們不能聲稱已經完全解決了幻覺問題。”

AI領域迎來變革時刻
OpenAI如今率先推出了o1模型，但如果競爭對手迅速跟進并推出類似產品，公司的真正挑戰將會演變成如何讓o1模型相比其競爭對手，得到更廣泛的應用。

對此，OpenAI計划不斷更新o1模型，以提升其推理能力，目標是對推理時間長達數小時、數天甚至數周的場景進行實驗。除了模型更新，OpenAI還打算為o1模型添加更多功能，例如瀏覽網頁、上傳文件和圖片，以增強其實用性。o1模型系列外，OpenAI還將繼續開發和發布GPT系列中的新模型。

目前，市場對o1模型的期待不僅在於其技朮優勢，更在於它可能引領行業的未來發展。

OpenAI將o1模型也視為未來人工智能發展的關鍵一步，這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。英偉達AI團隊領軍人物Jim Fan也對OpenAI的此次發布表示高度贊賞，他認為o1模型在推理層面開啟了新的規模化規律，為大模型能力的提升開辟了新路徑。隨着AI模型在推理能力上的不斷增強，未來我們或許能在多個領域看到AI超越當前的人類認知極限。

未來的人工智能AI，不僅僅是信息的整合者、知識堆砌者，更將成為人類思考的延伸，幫助我們解決更多復雜的問題，推動人類社會的進步和發展。

免責聲明：本網站提供的信息僅供一般信息分享目的，並不應被視為投資建議。

返回網誌

思錢想後Convo Money

查看全部

MU美光業績已成新的AI硬件風向標

美光本季度營收 415 億美元，環比直接拉漲了 74%，連續兩季度保持 70%+ 的環比增長。與公司此前指引的最高 342 億美金，以及市場預期的 354 億美金，完全不在一個維度上。

MU美光業績已成新的AI硬件風向標

美光本季度營收 415 億美元，環比直接拉漲了 74%，連續兩季度保持 70%+ 的環比增長。與公司此前指引的最高 342 億美金，以及市場預期的 354 億美金，完全不在一個維度上。
PDD拼多多2026年第一季財報，不及市場預期

因國內主站營收增長不及預期，營銷支出也並未明顯下滑，因此實際利潤表現並不及預期。分板塊來看背後原因，我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多，另外國內主站的經營利潤增長應當也相當有限。

PDD拼多多2026年第一季財報，不及市場預期

因國內主站營收增長不及預期，營銷支出也並未明顯下滑，因此實際利潤表現並不及預期。分板塊來看背後原因，我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多，另外國內主站的經營利潤增長應當也相當有限。
小米2026年第一季度財報，主要受手機和汽車毛利率同比回落影響

小米本季度汽車業務毛利率下滑至 20.1%，接近市場預期（20.5%），主要是受均價下滑的影響，其中包含了小米對購置税進行補貼的影響，並在本季度銷售了一部分的低價現車。由於毛利率再次回落，海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

小米2026年第一季度財報，主要受手機和汽車毛利率同比回落影響

小米本季度汽車業務毛利率下滑至 20.1%，接近市場預期（20.5%），主要是受均價下滑的影響，其中包含了小米對購置税進行補貼的影響，並在本季度銷售了一部分的低價現車。由於毛利率再次回落，海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。
NVDA英偉達2027財年第一季度財報，收入752億美元，環比增量為129億美元

NVDA 核心經營指標：總收入 816 億美元，好於上調後的買方預期（780-800 億美元），其中季度環比增長 135 億美元，幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

NVDA英偉達2027財年第一季度財報，收入752億美元，環比增量為129億美元

NVDA 核心經營指標：總收入 816 億美元，好於上調後的買方預期（780-800 億美元），其中季度環比增長 135 億美元，幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。
BYD比亞迪2025年第四季度業績仍然不及預期，賣車單價仍處於下行軌道

比亞迪的業績仍然不及預期。收入雖超預期，但主要由於非核心的比亞迪電子業務高增帶來，而在核心的賣車業務上，賣車單價仍處於下行軌道，賣車成本降幅不夠，最後賣車毛利率雖有回暖，但仍低於市場預期。

BYD比亞迪2025年第四季度業績仍然不及預期，賣車單價仍處於下行軌道

比亞迪的業績仍然不及預期。收入雖超預期，但主要由於非核心的比亞迪電子業務高增帶來，而在核心的賣車業務上，賣車單價仍處於下行軌道，賣車成本降幅不夠，最後賣車毛利率雖有回暖，但仍低於市場預期。
GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌，但這合理嗎？

消息一出，華爾街一度陷入恐慌：如果 AI 突然間不再需要那麼多 RAM 就能運作，這是否意味著記憶體產業的「超級週期」即將結束？答案是否定的。事實上，從歷史規律與經濟學角度來看，情況正好相反。要理解這一點，我們只需要觀察你電腦上的網頁瀏覽器。

GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌，但這合理嗎？

消息一出，華爾街一度陷入恐慌：如果 AI 突然間不再需要那麼多 RAM 就能運作，這是否意味著記憶體產業的「超級週期」即將結束？答案是否定的。事實上，從歷史規律與經濟學角度來看，情況正好相反。要理解這一點，我們只需要觀察你電腦上的網頁瀏覽器。
BABA財報AI投入比較激進

BABA發布第四季財報後股價下跌，財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%，而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資（總額超過530億美元）有效性的擔憂。

BABA財報AI投入比較激進

BABA發布第四季財報後股價下跌，財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%，而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資（總額超過530億美元）有效性的擔憂。
MU美光業績，季度毛利率達到 74.4%!

MU 整體業績：美光本季度營收 238.6 億美元，環比增長 75%，好於上調後的買方預期（199 億美元），本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動，兩大業務環增都在 70% 以上。

MU美光業績，季度毛利率達到 74.4%!

MU 整體業績：美光本季度營收 238.6 億美元，環比增長 75%，好於上調後的買方預期（199 億美元），本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動，兩大業務環增都在 70% 以上。

1 8

查看全部

流科百世Convo Tech

查看全部

Sharpa機器人削蘋果

對人類來說，削蘋果是件輕而易舉的晨間小事，但對機器人而言，這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

Sharpa機器人削蘋果

對人類來說，削蘋果是件輕而易舉的晨間小事，但對機器人而言，這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。
腫瘤療法突破，中國團隊給癌細胞打上“豬”標簽，癌細胞“偽裝朮”被破解

近期，中國科學家在“Cell”雜志上發表的一項突破性研究，為這一頑疾提供了全新思路。他們利用基因編輯技朮，將癌細胞改造成免疫系統眼中的“異類”，類似於人體對豬器官產生的超急性排斥反應，從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

腫瘤療法突破，中國團隊給癌細胞打上“豬”標簽，癌細胞“偽裝朮”被破解

近期，中國科學家在“Cell”雜志上發表的一項突破性研究，為這一頑疾提供了全新思路。他們利用基因編輯技朮，將癌細胞改造成免疫系統眼中的“異類”，類似於人體對豬器官產生的超急性排斥反應，從而引發了一場針對癌細胞的精准“免疫殲滅戰”。
新型大腦設備首次讀出內心聲音，腦機接口技朮打破失語者困境

新系統的核心原理與常見的“嘗試說話”型腦機介面相似，都是在大腦運動皮質植入感測器，這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型，模型依據個人化數據判斷信號對應的聲音，進而預測使用者想說的單字。

新型大腦設備首次讀出內心聲音，腦機接口技朮打破失語者困境

新系統的核心原理與常見的“嘗試說話”型腦機介面相似，都是在大腦運動皮質植入感測器，這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型，模型依據個人化數據判斷信號對應的聲音，進而預測使用者想說的單字。
“垃圾DNA”新發現：遠古病毒DNA在人類發育中發揮關鍵作用

自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來，生物學家們一直在探討它們是否真的無用。如今的主流觀點認為，這些片段雖不直接參與蛋白質合成，卻在整體基因組中佔據了極大比例，顯示它們可能具有重要功能。

“垃圾DNA”新發現：遠古病毒DNA在人類發育中發揮關鍵作用

自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來，生物學家們一直在探討它們是否真的無用。如今的主流觀點認為，這些片段雖不直接參與蛋白質合成，卻在整體基因組中佔據了極大比例，顯示它們可能具有重要功能。

1 4

查看全部

觀點Opinion

查看全部

人工智能AI時代，人類如何重拾批判性思維？

作為批判性思維培養的原始土壤：教育，必須進行重塑。教育政策的制定者和學校必須釆取積極措施，將批判性思維的練習深度融入課程。這遠不止是增加几節理論課，而是要在每一個學科、每一個學習環節中，鼓勵學生質疑和分析AI生成的信息。

人工智能AI時代，人類如何重拾批判性思維？

作為批判性思維培養的原始土壤：教育，必須進行重塑。教育政策的制定者和學校必須釆取積極措施，將批判性思維的練習深度融入課程。這遠不止是增加几節理論課，而是要在每一個學科、每一個學習環節中，鼓勵學生質疑和分析AI生成的信息。
長城汽車面向35歲以上人才開啟專場招聘，職場中的年齡歧視及“35歲現象”挑戰引發深思

長期以來，“35歲現象”如無形枷鎖，將眾多經驗丰富、能力成熟的中年人才拒之門外。長城汽車的“35+計划”不僅是一項招聘舉措，更是一場關於年齡、經驗與價值的社會呼吁，挑戰了傳統的職場偏見，倡導尊重和激活中年人才的力量，為行業和社會注入了新的活力與希望。

長城汽車面向35歲以上人才開啟專場招聘，職場中的年齡歧視及“35歲現象”挑戰引發深思

長期以來，“35歲現象”如無形枷鎖，將眾多經驗丰富、能力成熟的中年人才拒之門外。長城汽車的“35+計划”不僅是一項招聘舉措，更是一場關於年齡、經驗與價值的社會呼吁，挑戰了傳統的職場偏見，倡導尊重和激活中年人才的力量，為行業和社會注入了新的活力與希望。
打破線性人生，在不確定中尋找多元化的人生出路

近年來，全球經濟與地緣格局發生劇烈變化，從疫情沖擊、通脹壓力，到產業結搆重塑，無一不深刻影響着普通人的生活節奏與發展路徑。原本被視為“穩定之路”的人生規划：考學、畢業、就業、升職、買房，如今變得越來越不確定。

打破線性人生，在不確定中尋找多元化的人生出路

近年來，全球經濟與地緣格局發生劇烈變化，從疫情沖擊、通脹壓力，到產業結搆重塑，無一不深刻影響着普通人的生活節奏與發展路徑。原本被視為“穩定之路”的人生規划：考學、畢業、就業、升職、買房，如今變得越來越不確定。
從名校精英到殺手，Luigi Mangione槍擊案背后揭示的美國醫療體系

Luigi Mangione用極端方式撕開了美國醫療體系深藏的裂痕，也逼迫社會不得不重新審視，何為正義？何為悲劇。當醫療保障變成逐利機器，當患者在病痛中苦苦掙扎卻換來拒絕與冷眼，社會的不滿和憤怒便會潛滋暗長，最終以最不可控的方式爆發。

從名校精英到殺手，Luigi Mangione槍擊案背后揭示的美國醫療體系

Luigi Mangione用極端方式撕開了美國醫療體系深藏的裂痕，也逼迫社會不得不重新審視，何為正義？何為悲劇。當醫療保障變成逐利機器，當患者在病痛中苦苦掙扎卻換來拒絕與冷眼，社會的不滿和憤怒便會潛滋暗長，最終以最不可控的方式爆發。

1 4

查看全部

胡說北道Convo Ave(播客)

查看全部

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。

從中國經濟看背後困境及發展新構想?

中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施，中國經濟可能有一個全新的契機注入新的動力，推動經濟穩定健康發展。
在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。

在變革中的抉擇：當今大環境下如何實現職業規劃與人生價值？

隨著時代的變遷，人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同，有些人追求的是即時的快樂和成就感，而有些人則看重長期的進步和自我超越。
再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

再見愛人：探索現代婚姻中的情感困境

芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子，麥琳、李行亮，葛夕、劉爽三對情感關系10年以上的夫妻，以“婚姻紀實觀察”為切口，呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。
抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

抖音短劇新風潮：中老年人成為新的增長點?

近日，不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十，閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事，成了當下短劇創作的“新流量密碼”。

1 4

查看全部

免費訂閱优質資訊