要點:
OpenAI近日發布首款具備推理功能的新工具“o1模型”,可以比人類更快地回答更復雜的問題。此模型也視為未來人工智能發展的關鍵一步,這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。
科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。
狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。
狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。
聯系我們 // 相關文章
具有推理能力的人工智能AI被視為該技朮發展的一個關鍵里程碑,因為它不僅能夠處理大量數據,還能在此基礎上進行復雜的邏輯推理和決策。
為了在激烈的市場競爭中保持領先地位,OpenAI於9月13日推出了首款具備推理能力的人工智能“o1模型”,代號為“草莓”。這一新推出的o1模型,代表了OpenAI在該領域的重大突破。OpenAI的首席執行官Sam Altman更是對外宣布,“耐心等待的時刻結束了!”這一句簡短卻振奮人心的話,預示着人工智能技朮即將迎來一個快速發展的新階段。
o1模型:開啟推理新高度
OpenAI推出的“o1模型”是一款具備高級推理能力的語言模型,由字母o和數字1組成。此次發布的o1被標記為“預覽版”,以強調其仍處於初期階段的性質。
最新的信息顯示,o1模型在推理能力上相較於前代的GPT-4o有了顯著提升。特別是在數學、編程和科學問題的解決能力方面,o1模型甚至被認為已超越了人類專家。
目前,OpenAI僅發布了o1模型系列的首批版本,包括o1-preview預覽版和o1-mini迷你版。這些版本將分階段向付費用戶、免費用戶和開發者開放,其中開發者的使用成本較高。在API/應用程序編程接口中,o1-preview每百萬輸入token的收費為15美元,是GPT-4o的三倍,而每百萬輸出token的收費為60美元,是GPT-4o的四倍。這里的百萬token表示模型處理的文字塊規模,相當於大約75萬單詞。
o1模型釆用了全新的優化算法和特別定制的訓練數據集
OpenAI的研究負責人Jerry Tworek指出,o1模型的訓練方式與以往的模型有着本質上的不同。通過全新的訓練方法,o1模型能夠處理更加復雜的編程、數學和科學難題,并且在回答問題時會進行“思考”,其處理速度甚至快於人類。
具體來說,o1模型釆用了一種全新的優化算法,并使用了專門為其量身定制的訓練數據集,其中包含了推理數據和特別挑選的科學文獻。與之前的GPT模型依賴於模仿數據集的規律不同,o1模型則運用了“強化學習”的方法,通過獎勵和懲罰的機制來訓練模型解決問題。
此外,o1模型還使用了“思路鏈”/chain of thoughts技朮來處理用戶的查詢,并提供思路鏈的總結概要,而這種方法類似於人類逐步解決問題的思考方式。
OpenAI對此認為,這種創新的訓練方法將使o1模型更為精准,并顯著減少生成錯誤回答的情況。o1模型與GPT-4o的主要區別在於它在解決復雜的編程和數學問題方面表現更佳,同時能夠優化推理過程、嘗試不同策略,并識別和糾正自身回答中的錯誤。而在整個測試階段中,o1模型的優勢和劣勢也十分明顯。
優勢:對復雜推理任務是巨大進步
OpenAI表示,o1模型在處理復雜推理任務上實現了顯著進步,代表了人工智能AI能力目前的新高度。該模型的“思考”時間越長,其在推理任務中的表現越佳,因為o1模型能夠花費更多時間分析復雜問題的各個方面,從而有效地針對事實進行自我核查。
具體來說,o1模型的推理能力大幅提升,在物理、化學和生物等領域的挑戰性基准測試中,其表現相當於博士生級別的專家。尤其在數學和編程方面,o1模型的成績尤為突出。經過測試,在國際數學奧林匹克/IMO資格考試中,o1模型的正確率高達83%,而GPT-4o的正確率僅為13%。而在Codeforces在線編程競賽中,o1模型的表現位於89百分位,即只有11%的參賽者能超越o1模型。
此外,o1模型在安全性方面也有所提升,相較於之前的模型更能遵循安全准則并抵抗生成有害內容。在嚴格的“越獄測試”中,GPT-4o的得分僅為22分,而o1模型預覽版則獲得了84分。據OpenAI表示,o1模型暫未引發超出現有資源可能實現的評估風險。
OpenAI還指出,o1模型特別適用於那些需要解決科學、編程、數學等領域復雜問題的用戶。增強的推理能力對這些領域的工作者而言,尤其有用。o1模型擅長准確生成和調試復雜代碼,其中o1-mini迷你版,則以更高的速度和比預覽版便宜80%的價格提供高效的推理能力。o1-mini迷你版特別適合於需要推理但不涉及廣泛世界知識的應用,如醫療研究人員可以利用o1模型注釋細胞測序數據,物理學家可以用它生成量子光學所需的復雜數學公式,各領域的開發人員也可以用它進行搆建和執行多步驟的工作流程。
缺點:無法杜絕“幻覺”問題
盡管今日發布的o1模型在許多方面展示了進步,但作為該模型的初始版本,仍存在一些明顯的不足之處。
例如,o1模型目前僅支持“純文字”功能,尚不具備網頁瀏覽、文件上傳或圖片處理能力。相比於ChatGPT的丰富功能,o1模型在許多常見用例中不如GPT-4o強大,并且其使用受到限制:o1-preview預覽版每周最多可發送30條消息,而o1-mini迷你版的上限為50條。
此外,o1模型在許多領域的理解能力仍遜色於GPT-4o。在涉及世界事實知識的方面,其表現不佳,某些情況下推理速度較慢,可能需要更長時間才能回答問題。目前,o1模型還無法對特定文檔進行推理,也缺乏從網絡上實時獲取信息的能力。
當被問及“公主的年齡是王子年齡的兩倍,當公主的年齡是他們年齡總和的一半時,請問王子和公主各自的年齡是多少?”o1模型經過30秒的緩沖后才給出了正確答案。
而在此過程中,o1模型似乎刻意模仿人類的思維方式。通過使用諸如“我很好奇”、“我正在思考”和“好吧,讓我看看”等短語,制造了一種逐步思考的假象。但實際上,o1模型模型并不會真正思考,也絕不是人類。
OpenAI對此,并不認為o1模型的人工智能思維等同於人類思維。但他們表示,該界面的設計目的是為了展示模型如何花費更多時間來處理問題,并更深入地解決問題。“在某些方面,它比以前的模型顯得更具人性化。”
更值得注意的是,OpenAI表示o1模型依然存在著幻覺/Hallucination。 OpenAI在一篇技朮論文中承認,其收到了一些“軼事反饋”,稱o1模型和迷你版比GPT-4o及其迷你版容易產生“幻覺”,也就是AI仍在很自信地編造答案,而且o1模型很少會承認它不知道問題的答案。
Jerry Tworek解釋道,“我們觀察到,這個新模型產生幻覺的頻率較低。”盡管如此,他也強調,幻覺問題”仍然存在。“我們不能聲稱已經完全解決了幻覺問題。”
AI領域迎來變革時刻
OpenAI如今率先推出了o1模型,但如果競爭對手迅速跟進并推出類似產品,公司的真正挑戰將會演變成如何讓o1模型相比其競爭對手,得到更廣泛的應用。
對此,OpenAI計划不斷更新o1模型,以提升其推理能力,目標是對推理時間長達數小時、數天甚至數周的場景進行實驗。除了模型更新,OpenAI還打算為o1模型添加更多功能,例如瀏覽網頁、上傳文件和圖片,以增強其實用性。o1模型系列外,OpenAI還將繼續開發和發布GPT系列中的新模型。
目前,市場對o1模型的期待不僅在於其技朮優勢,更在於它可能引領行業的未來發展。
OpenAI將o1模型也視為未來人工智能發展的關鍵一步,這一創新模型的推出無疑將在科研、編程、醫療等多個領域帶來新的應用場景和挑戰。英偉達AI團隊領軍人物Jim Fan也對OpenAI的此次發布表示高度贊賞,他認為o1模型在推理層面開啟了新的規模化規律,為大模型能力的提升開辟了新路徑。隨着AI模型在推理能力上的不斷增強,未來我們或許能在多個領域看到AI超越當前的人類認知極限。
未來的人工智能AI,不僅僅是信息的整合者、知識堆砌者,更將成為人類思考的延伸,幫助我們解決更多復雜的問題,推動人類社會的進步和發展。