OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

OpenAI發布首個推理能力“o1模型”,AI領域迎來變革時刻

發布日期:

科技 Tech


要點:
OpenAI近日發布首款具備推理功能的新工具“o1模型”,可以比人類更快地回答更復雜的問題。此模型也視為未來人工智能發展的關鍵一步,這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 // 相關文章

具有推理能力的人工智能AI被視為該技朮發展的一個關鍵里程碑,因為它不僅能夠處理大量數據,還能在此基礎上進行復雜的邏輯推理和決策。

為了在激烈的市場競爭中保持領先地位,OpenAI於9月13日推出了首款具備推理能力的人工智能“o1模型”,代號為“草莓”。這一新推出的o1模型,代表了OpenAI在該領域的重大突破。OpenAI的首席執行官Sam Altman更是對外宣布,“耐心等待的時刻結束了!”這一句簡短卻振奮人心的話,預示着人工智能技朮即將迎來一個快速發展的新階段。

o1模型:開啟推理新高度
OpenAI推出的“o1模型”是一款具備高級推理能力的語言模型,由字母o和數字1組成。此次發布的o1被標記為“預覽版”,以強調其仍處於初期階段的性質。

最新的信息顯示,o1模型在推理能力上相較於前代的GPT-4o有了顯著提升。特別是在數學、編程和科學問題的解決能力方面,o1模型甚至被認為已超越了人類專家。

目前,OpenAI僅發布了o1模型系列的首批版本,包括o1-preview預覽版和o1-mini迷你版。這些版本將分階段向付費用戶、免費用戶和開發者開放,其中開發者的使用成本較高。在API/應用程序編程接口中,o1-preview每百萬輸入token的收費為15美元,是GPT-4o的三倍,而每百萬輸出token的收費為60美元,是GPT-4o的四倍。這里的百萬token表示模型處理的文字塊規模,相當於大約75萬單詞。

o1模型釆用了全新的優化算法和特別定制的訓練數據集
OpenAI的研究負責人Jerry Tworek指出,o1模型的訓練方式與以往的模型有着本質上的不同。通過全新的訓練方法,o1模型能夠處理更加復雜的編程、數學和科學難題,并且在回答問題時會進行“思考”,其處理速度甚至快於人類。

具體來說,o1模型釆用了一種全新的優化算法,并使用了專門為其量身定制的訓練數據集,其中包含了推理數據和特別挑選的科學文獻。與之前的GPT模型依賴於模仿數據集的規律不同,o1模型則運用了“強化學習”的方法,通過獎勵和懲罰的機制來訓練模型解決問題。

此外,o1模型還使用了“思路鏈”/chain of thoughts技朮來處理用戶的查詢,并提供思路鏈的總結概要,而這種方法類似於人類逐步解決問題的思考方式。

OpenAI對此認為,這種創新的訓練方法將使o1模型更為精准,并顯著減少生成錯誤回答的情況。o1模型與GPT-4o的主要區別在於它在解決復雜的編程和數學問題方面表現更佳,同時能夠優化推理過程、嘗試不同策略,并識別和糾正自身回答中的錯誤。而在整個測試階段中,o1模型的優勢和劣勢也十分明顯。

優勢:對復雜推理任務是巨大進步
OpenAI表示,o1模型在處理復雜推理任務上實現了顯著進步,代表了人工智能AI能力目前的新高度。該模型的“思考”時間越長,其在推理任務中的表現越佳,因為o1模型能夠花費更多時間分析復雜問題的各個方面,從而有效地針對事實進行自我核查。

具體來說,o1模型的推理能力大幅提升,在物理、化學和生物等領域的挑戰性基准測試中,其表現相當於博士生級別的專家。尤其在數學和編程方面,o1模型的成績尤為突出。經過測試,在國際數學奧林匹克/IMO資格考試中,o1模型的正確率高達83%,而GPT-4o的正確率僅為13%。而在Codeforces在線編程競賽中,o1模型的表現位於89百分位,即只有11%的參賽者能超越o1模型。

此外,o1模型在安全性方面也有所提升,相較於之前的模型更能遵循安全准則并抵抗生成有害內容。在嚴格的“越獄測試”中,GPT-4o的得分僅為22分,而o1模型預覽版則獲得了84分。據OpenAI表示,o1模型暫未引發超出現有資源可能實現的評估風險。

OpenAI還指出,o1模型特別適用於那些需要解決科學、編程、數學等領域復雜問題的用戶。增強的推理能力對這些領域的工作者而言,尤其有用。o1模型擅長准確生成和調試復雜代碼,其中o1-mini迷你版,則以更高的速度和比預覽版便宜80%的價格提供高效的推理能力。o1-mini迷你版特別適合於需要推理但不涉及廣泛世界知識的應用,如醫療研究人員可以利用o1模型注釋細胞測序數據,物理學家可以用它生成量子光學所需的復雜數學公式,各領域的開發人員也可以用它進行搆建和執行多步驟的工作流程。

缺點:無法杜絕“幻覺”問題
盡管今日發布的o1模型在許多方面展示了進步,但作為該模型的初始版本,仍存在一些明顯的不足之處。

例如,o1模型目前僅支持“純文字”功能,尚不具備網頁瀏覽、文件上傳或圖片處理能力。相比於ChatGPT的丰富功能,o1模型在許多常見用例中不如GPT-4o強大,并且其使用受到限制:o1-preview預覽版每周最多可發送30條消息,而o1-mini迷你版的上限為50條。

此外,o1模型在許多領域的理解能力仍遜色於GPT-4o。在涉及世界事實知識的方面,其表現不佳,某些情況下推理速度較慢,可能需要更長時間才能回答問題。目前,o1模型還無法對特定文檔進行推理,也缺乏從網絡上實時獲取信息的能力。

當被問及“公主的年齡是王子年齡的兩倍,當公主的年齡是他們年齡總和的一半時,請問王子和公主各自的年齡是多少?”o1模型經過30秒的緩沖后才給出了正確答案。

而在此過程中,o1模型似乎刻意模仿人類的思維方式。通過使用諸如“我很好奇”、“我正在思考”和“好吧,讓我看看”等短語,制造了一種逐步思考的假象。但實際上,o1模型模型并不會真正思考,也絕不是人類。

OpenAI對此,并不認為o1模型的人工智能思維等同於人類思維。但他們表示,該界面的設計目的是為了展示模型如何花費更多時間來處理問題,并更深入地解決問題。“在某些方面,它比以前的模型顯得更具人性化。”

更值得注意的是,OpenAI表示o1模型依然存在著幻覺/Hallucination。 OpenAI在一篇技朮論文中承認,其收到了一些“軼事反饋”,稱o1模型和迷你版比GPT-4o及其迷你版容易產生“幻覺”,也就是AI仍在很自信地編造答案,而且o1模型很少會承認它不知道問題的答案。

Jerry Tworek解釋道,“我們觀察到,這個新模型產生幻覺的頻率較低。”盡管如此,他也強調,幻覺問題”仍然存在。“我們不能聲稱已經完全解決了幻覺問題。”

AI領域迎來變革時刻
OpenAI如今率先推出了o1模型,但如果競爭對手迅速跟進并推出類似產品,公司的真正挑戰將會演變成如何讓o1模型相比其競爭對手,得到更廣泛的應用。

對此,OpenAI計划不斷更新o1模型,以提升其推理能力,目標是對推理時間長達數小時、數天甚至數周的場景進行實驗。除了模型更新,OpenAI還打算為o1模型添加更多功能,例如瀏覽網頁、上傳文件和圖片,以增強其實用性。o1模型系列外,OpenAI還將繼續開發和發布GPT系列中的新模型。

目前,市場對o1模型的期待不僅在於其技朮優勢,更在於它可能引領行業的未來發展。

OpenAI將o1模型也視為未來人工智能發展的關鍵一步,這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。英偉達AI團隊領軍人物Jim Fan也對OpenAI的此次發布表示高度贊賞,他認為o1模型在推理層面開啟了新的規模化規律,為大模型能力的提升開辟了新路徑。隨着AI模型在推理能力上的不斷增強,未來我們或許能在多個領域看到AI超越當前的人類認知極限。

未來的人工智能AI,不僅僅是信息的整合者、知識堆砌者,更將成為人類思考的延伸,幫助我們解決更多復雜的問題,推動人類社會的進步和發展。

科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。

狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。

狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。

聯系我們 // 相關文章


返回網誌
1 / 8
  • AI與量子計算:誰將引領未來科技?

    AI與量子計算:誰將引領未來科技?

    多年來,科技公司多年投入數十億美元於量子計算機,寄希望於它們能在金融、藥物研發、物流等多個領域帶來顛覆性變革,尤其是在物理和化學領域,這種期待更為強烈,因為量子力學的獨特效應在這些領域中發揮着重要作用。

    AI與量子計算:誰將引領未來科技?

    多年來,科技公司多年投入數十億美元於量子計算機,寄希望於它們能在金融、藥物研發、物流等多個領域帶來顛覆性變革,尤其是在物理和化學領域,這種期待更為強烈,因為量子力學的獨特效應在這些領域中發揮着重要作用。

  • 金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    全球各國都在積極加快金剛石在半導體領域的研發步伐,並將其視為未來科技創新的關鍵材料。從高效能晶片散熱解決方案到量子計算和光電應用,金剛石的潛力被各大研究機構和企業廣泛看好。

    金剛石晶片的崛起,或引發全球AI半導體競爭新角逐

    全球各國都在積極加快金剛石在半導體領域的研發步伐,並將其視為未來科技創新的關鍵材料。從高效能晶片散熱解決方案到量子計算和光電應用,金剛石的潛力被各大研究機構和企業廣泛看好。

  • “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    許多工業生產過程中,尤其是涉及塑膠制造、加工和拆卸的行業,都會產生大量的塑膠廢料。這些廢料往往被不當處置或遺棄,經過時間的推移,這些廢棄塑膠在風力、雨水等自然條件下分解成微塑膠顆粒,進入土壤和水體。

    “微塑膠”成科學界關注焦點,或對人體健康造成潛在威脅

    許多工業生產過程中,尤其是涉及塑膠制造、加工和拆卸的行業,都會產生大量的塑膠廢料。這些廢料往往被不當處置或遺棄,經過時間的推移,這些廢棄塑膠在風力、雨水等自然條件下分解成微塑膠顆粒,進入土壤和水體。

  • 古羅馬混凝土的“耐用秘密”

    古羅馬混凝土的“耐用秘密”

    古羅馬人以其卓越的建筑和工程技朮而聞名。公元128年建成的萬神殿/Pantheon是古羅馬的一座杰出建筑,擁有世界上最大的無鋼筋混凝土圓頂,至今依然完好如初。而與此形成鮮明對比的是,許多現代混凝土結搆在短短几十年內就出現了損壞。

    古羅馬混凝土的“耐用秘密”

    古羅馬人以其卓越的建筑和工程技朮而聞名。公元128年建成的萬神殿/Pantheon是古羅馬的一座杰出建筑,擁有世界上最大的無鋼筋混凝土圓頂,至今依然完好如初。而與此形成鮮明對比的是,許多現代混凝土結搆在短短几十年內就出現了損壞。

1 / 4
  • “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “我想念你,妹妹。”、“我也想念你,親愛的哥哥。” 這段對話發生在14歲塞維爾/Sewell Setzer生命的最后一天。在與AI初創公司Character.AI的聊天機器人進行長時間對話后,他在2月28日選擇結束自己的生命,開槍自殺身亡。

    “AI虛擬伴侶”導致14歲美國少年自殺,人工智能時代背後的情感孤獨

    “我想念你,妹妹。”、“我也想念你,親愛的哥哥。” 這段對話發生在14歲塞維爾/Sewell Setzer生命的最后一天。在與AI初創公司Character.AI的聊天機器人進行長時間對話后,他在2月28日選擇結束自己的生命,開槍自殺身亡。

  • 网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    繁忙的社會中,身邊的人雖然眾多,但真正理解和傾訴的卻少之又少。在虛擬中,人們通過短暫的直播互動獲得了一時的快樂,然而這并不能真正填補心靈深處的空白。最終,直播所提供的陪伴,無法替代那種深入的、持久的人際關系。

    网络成瘾,沉迷直播間:當今快節奏生活的快感與陷阱?

    繁忙的社會中,身邊的人雖然眾多,但真正理解和傾訴的卻少之又少。在虛擬中,人們通過短暫的直播互動獲得了一時的快樂,然而這并不能真正填補心靈深處的空白。最終,直播所提供的陪伴,無法替代那種深入的、持久的人際關系。

  • 從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    網紅文化已經成為一種不可忽視的社會現象和經濟力量。隨着發展,一些擁有數百萬甚至千萬人氣的超級網紅,為了追求流量和關注度,忽視了內容質量和創作者的道德底線,導致劣跡網紅頻頻出現,給整個行業帶來了顯著的負面影響。

    從Mr. Beast的崛起到三只羊的隕落:超級網紅為博眼球的背后

    網紅文化已經成為一種不可忽視的社會現象和經濟力量。隨着發展,一些擁有數百萬甚至千萬人氣的超級網紅,為了追求流量和關注度,忽視了內容質量和創作者的道德底線,導致劣跡網紅頻頻出現,給整個行業帶來了顯著的負面影響。

  • 酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店和民宿頻繁發生暗藏攝像頭的事件,使我們不得不深思:偷拍背后究竟蘊藏着怎樣的利益鏈條?這些偷拍行為不僅嚴重侵犯了個人隱私,也對社會的道德標准提出了挑戰。這一現象的蔓延,迫使人們對行業監管和法律法規的有效性產生質疑。

    酒店暗藏攝像頭,偷拍黑色產業鏈

    酒店和民宿頻繁發生暗藏攝像頭的事件,使我們不得不深思:偷拍背后究竟蘊藏着怎樣的利益鏈條?這些偷拍行為不僅嚴重侵犯了個人隱私,也對社會的道德標准提出了挑戰。這一現象的蔓延,迫使人們對行業監管和法律法規的有效性產生質疑。

1 / 4
  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

  • 京東楊笠事件背后:愚昧的社會何去何從?

    京東楊笠事件背后:愚昧的社會何去何從?

    臨近雙十一,沒想到第一場公關戰就炸在了京東身上。而更萬萬沒想到的是,翻車的點不是價格,也不是帶貨主播,而是更尖銳更為敏感的“男女性別”話題,還把脫口秀演員楊笠推向了風口浪尖。

    京東楊笠事件背后:愚昧的社會何去何從?

    臨近雙十一,沒想到第一場公關戰就炸在了京東身上。而更萬萬沒想到的是,翻車的點不是價格,也不是帶貨主播,而是更尖銳更為敏感的“男女性別”話題,還把脫口秀演員楊笠推向了風口浪尖。

1 / 4