OpenAI發布AI視頻生成工具Sora,開啟生成式人工智能新篇章

OpenAI發布AI視頻生成工具Sora,開啟生成式人工智能新篇章

發布日期:

商業 Business 狂呼金融 Convo Finance 科技 Tech


要點:
OpenAI宣布將發布其備受期待的AI視頻生成工具Sora,標志着生成式人工智能的下一個重要發展領域,具有廣泛的行業應用潛力。

OpenAI今天表示,它將在當天晚些時候發布其熱門的人工智能AI視頻生成工具“Sora”。OpenAI備受期待的AI文字到影片產生器Sora將於今天向所有人開放。

隨着聊天機器人和圖像生成器逐漸進入消費市場和商業應用,視頻生成有望成為生成式人工智能的下一個關鍵發展領域。這一技朮的潛力巨大,視頻生成的普及將顯著提升創作者與品牌之間的互動,進一步加速數字化轉型的進程。

從文字到視頻的技朮創新

AI視頻生成工具“Sora”的工作原理與OpenAI的圖像生成工具DALL-E相似:用戶輸入所需場景,Sora便能生成高清的視頻片段。此外,Sora還可以基於靜止影像創建影片剪輯,擴展現有影片或填補缺失畫面。

影片中展示了Sora如何將文字提示轉化為視頻,用戶可以通過其他文字提示自定義生成的內容,作為其“混音”功能的一部分。此外,Sora還支持將照片轉化為視頻,并通過故事板功能將多個文本提示串聯起來,力圖將這些提示融入到一個連貫的場景中。

但與此同時,Sora目前在生成逼真的物理效果方面仍存在挑戰,經常會顯示物體消失或相互穿透的現象。此外,Sora常常拒絕處理包含公眾人物或受版權保護角色的提示。

Reddit用戶在10月向OpenAI高層詢問Sora的發布日期,質疑其延遲是否是由於推理所需的計算量/時間或安全原因。作為回應,OpenAI的產品負責人表示,“需要完善模型,需要確保安全/模擬/其他事情正確,並且需要擴展計算!”

根據OpenAI的YouTube直播顯示,該工具將於今天晚些時候首次向美國用戶及大多數國際市場推出。但是,該公司尚未公布在歐洲、英國和其他一些國家推出的具體時間表。目前,Sora僅供少數安全測試人員使用,他們的任務是測試模型在錯誤信息、偏見等方面的漏洞。

近日,OpenAI的Sora產品負責人在直播中表示,“作為OpenAI,我們顯然有一個很大的目標,因此我們希望阻止Sora的合法活動,但我們也希望透過創意表達來平衡這一點。”此外,OpenAI表示,用戶無需額外付費,該工具將包括在現有的ChatGPT帳戶中,如Plus和Pro等訂閱服務。在直播中,OpenAI的員工和執行長Sam Altman展示了例如“混合”功能(即根據用戶指示將兩個場景融合)以及讓AI生成的影片無限循環播放的選項。

早在今年2月,OpenAI公司首次發布了全新的視頻生成AI大模型Sora。這一模型能夠通過文本描述快速制作出長達60秒的視頻,視頻中不僅可以呈現多個角色、特定動作,還能展示復雜的場景。

當時,OpenAI發布了多段由其製作的高清視頻片段,包括一輛SUV行駛在山路上、蠟燭旁的“短毛怪”動畫、兩個人們在雪地裡走過東京,以及加州淘金熱的假歷史鏡頭,並表示它能夠產生長達一分鐘的影片。從文字生成到視頻生成,Sora的這一發布無疑引發了AI領域的震動。

自ChatGPT問世以來,各大軟件廠商紛紛加碼,展開了激烈的競爭

百度率先推出了“文心一言”,阿里推出了“通義千問”等,業內各大巨頭都在爭奪這一重要的風口。此外,就在市場局勢漸趨平靜時,谷歌/Google發布了重磅產品“Gemini 1.5”,并將上下文窗口長度擴展至100萬個tokens,使得Gemini 1.5具備了處理超過三萬行代碼的能力。然而,谷歌的這一舉動也促使OpenAI發布了其“王炸”級產品Sora。

從目前Sora展現的能力來看,它顯然已經超越了谷歌的“Gemini 1.5”。然而,也有質疑的聲音,圖靈獎得主表示,像Sora這樣僅憑文字提示生成逼真視頻,并不意味着模型理解了物理世界。生成視頻的過程與基於世界模型的因果預測截然不同。隨后,Meta推出了一個全新的無監督“視頻預測模型”V-JEPA,聲稱能“以人類的視角來理解世界”。

不可否認的是,Sora的推出不僅標志着生成式AI從語言模型向視頻模型邁出了重要一步,更加深了“世界模型”這一概念的關注。未來,AI模型的發展方向將更側重於更真實地理解和模擬現實世界。

“世界模擬”成為了AI發展的新方向,這也推動了人工通用智能/AGI時代的到來。隨着AI擁有模擬和感知世界的能力,并結合攝像頭和傳感器,AI將朝着具備自主感知、理解現實世界的能力,能夠處理語言、圖像、視頻的人工通用智能方向不斷前進。

視頻生成的新紀元

如今,Sora的推出將生成式AI帶入了視頻生成的新紀元,並將對整個AI市場格局產生重大、深遠的影響。

目前,在短視頻平台上,諸如AI配音有聲小說、AI為小說配漫畫等形式的視頻已獲得極高的關注度。隨着視頻生成大模型技朮的不斷進步,未來或許一部小說可以由AI自動轉化為電視劇或電影。對於觀眾而言,生成式視頻大模型可能成為最懂你的“導演”,為你量身定制最合適的劇情和演員。

對於短視頻創作者來說,視頻生成大模型能夠顯著降低拍攝成本。創作者只需提供簡單的文字描述,便能生成理想的場景、演員和劇情素材,極大地簡化視頻制作過程。由於AI視頻生成的高效性,許多時效性要求強的短視頻領域將成為AI的主戰場。

而對於視頻后期制作人員,尤其是特效設計師,視頻生成大模型的加入同樣提升了生產力。通過向AI提供簡單的描述,制作復雜的特效畫面、場景替換等變得更加便捷,甚至可以創造現實中從未出現過的特效。

但與此同時,正是因為AI的強大功能,許多人對行業和職業前景產生了擔憂

奇虎360公司董事長周鴻禕曾表示,基於大模型技朮,結合人類知識的引導,可以創造出許多超級工具,推動包括生物醫學、基因研究、物理、化學和數學等領域的進步。甚至,AI的算力可以幫助我們推演尚未被人類掌握的自然規律。

盡管從技朮發布到廣泛應用仍有一段距離,未來是否真如周鴻禕所設想的那樣,憑借大模型技朮引發一場“技朮爆炸”尚未可知。

就像當年的工業革命時期,珍妮紡紗機的出現讓許多人面臨失業,但并不意味着人類會進入一個由AI主導的“無用”時代。AI依舊需要人類的支配和維護,也需要人類在學習和應用方面的輔助。盡管有一些悲觀的聲音,認為AI會取代人類,但現實可能更為復雜和多樣。

面對這場科技革命,我們必須轉變心態,擁抱新時代的到來。當AI能夠創造出一個足夠真實的虛擬世界時,也許曾經在科幻電影中展現的“黑客帝國”或“頭號玩家”中的世界,真的會在不久的將來成為現實。隨着“世界模型”技朮的持續進步,曾經趨冷的元宇宙概念或許會再次成為風口。

今年2月,蘋果公司發布的虛擬現實設備Vision Pro正式上市,雖然第一代產品并不完美,但其在可用性和操控性方面已經超越了許多同類產品,展現出虛擬現實設備成為未來移動設備的巨大潛力。

Sora與Vision Pro或許正是叩開“元宇宙”大門的兩把鑰匙。無論是Meta之前推出的頭戴設備,還是蘋果當前的設備,都無法真正做到虛擬與現實的融合,也就是說,現實中的人無法完全沉浸於虛擬世界中。然而,如果Sora能夠搆建出一個與物理世界几乎無差別的虛擬世界,打造出一個宏大的元宇宙,那時才有可能迎來元宇宙的真正爆發。這一進程將促使各大企業通過技朮創新建立起更為堅固的護城河,搶占虛擬世界的制高點,推動數字化轉型的步伐,同時創造出更多商業機會和社會變革。

布局AI生成式視頻新風口

OpenAI於今年10月完成了最新一輪融資,估值達到1570億美元,其中包括從多家投資公司和大型科技公司籌集的66億美元。此外,OpenAI還獲得了40億美元的循環信貸額度,使其流動資金總額超過100億美元。

這一切都體現了OpenAI在發展戰略上的決心。作為微軟支持的人工智能初創公司,OpenAI與亞馬遜/Amazon等公司展開競爭,目標是占領生成人工智能市場的最大份額。預計這一市場將在未來十年突破1萬億美元的收入規模。

近期,OpenAI也加強了營銷投入,聘請了首位首席營銷官,計划通過擴大用戶群來提升品牌影響力。10月,OpenAI在ChatGPT中加入了搜索功能,旨在與谷歌、微軟的Bing和Perplexity等搜索引擎競爭,并吸引更多進行網絡搜索的用戶。

此外,OpenAI的ChatGPT制造商希望通過Sora與Meta和谷歌等公司推出的視頻生成AI工具展開競爭。其他新興公司也提供類似的人工智能工具,例如Stability AI的Stable Video Diffusion,亞馬遜則推出了專為兒童設計的短片動畫創作模型Create with Alexa。

隨着聊天機器人和圖像生成器進入消費市場和商業應用,視頻生成可能成為生成式人工智能的下一個重要前沿領域

這一領域的潛力無疑是巨大的,不僅能在娛樂、廣告、教育和醫療等行業創造前所未有的機遇,還將催生出更多創新應用,徹底改變我們創建、消費和互動內容的方式。從個性化廣告到虛擬直播,視頻生成的普及將極大地提升創作者和品牌之間的互動,進一步推動數字化轉型的浪潮。

作為投資者,我們應該緊跟技朮發展的步伐,關注視頻生成技朮的初創企業和領先公司,尤其是在那些能提供創新性解決方案和強大技朮平台的企業。與傳統視頻制作相比,生成式視頻的成本和時間消耗將大幅度下降,這意味着更多小型公司和個人創作者將能夠利用這些工具,降低內容創作的門檻,從而開啟一個更加多元和充滿創意的市場。而與此同時,擁有領先技朮的企業將能夠獲得更大的市場份額,成為下一波科技浪潮的主導者。

此外,投資者還應密切關注視頻生成技朮背后的倫理和合規問題,特別是在虛假信息和深度偽造視頻的風險日益增加的背景下。盡管這一技朮為創意領域帶來了激動人心的機遇,但在全球重大政治選舉的背景下,AI生成的虛假信息問題引發了廣泛的擔憂。根據機器學習公司Clarity的數據顯示,人工智能生成的深度偽造內容數量每年增長了900%。OpenAI將多模態(結合文字、圖像和視頻生成)作為其提供更廣泛人工智能模型的一項重要目標。

隨着生成式視頻技朮的普及,我們需要看到更多企業和平台加強對內容真實性的監管和防護措施。這不僅關乎技朮的發展,也直接影響到投資者的回報和風險管理。隨着技朮的快速進步,投資者需要保持敏銳的洞察力,抓住具有潛力的創新公司,同時也要關注技朮帶來的社會責任和市場變革,以確保在未來的競爭中占據有利位置。

狂呼金融 Convo Finance

投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。

狂呼金融聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。

狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回網誌
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季財報,不及市場預期

    因國內主站營收增長不及預期,營銷支出也並未明顯下滑,因此實際利潤表現並不及預期。分板塊來看背後原因,我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多,另外國內主站的經營利潤增長應當也相當有限。

    PDD拼多多2026年第一季財報,不及市場預期

    因國內主站營收增長不及預期,營銷支出也並未明顯下滑,因此實際利潤表現並不及預期。分板塊來看背後原因,我們認為一方面是 Temu 本季減虧的幅度大概率並沒有預期的那麼多,另外國內主站的經營利潤增長應當也相當有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米本季度汽車業務毛利率下滑至 20.1%,接近市場預期(20.5%),主要是受均價下滑的影響,其中包含了小米對購置税進行補貼的影響,並在本季度銷售了一部分的低價現車。由於毛利率再次回落,海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

    小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米本季度汽車業務毛利率下滑至 20.1%,接近市場預期(20.5%),主要是受均價下滑的影響,其中包含了小米對購置税進行補貼的影響,並在本季度銷售了一部分的低價現車。由於毛利率再次回落,海豚君測算本季度小米汽車業務核心經營利潤再度陷入虧損 31 億元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA 核心經營指標:總收入 816 億美元,好於上調後的買方預期(780-800 億美元),其中季度環比增長 135 億美元,幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

    NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    NVDA 核心經營指標:總收入 816 億美元,好於上調後的買方預期(780-800 億美元),其中季度環比增長 135 億美元,幾乎都來自於數據中心業務中 Blackwell 量產增加的帶動。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亞迪的業績仍然不及預期。收入雖超預期,但主要由於非核心的比亞迪電子業務高增帶來,而在核心的賣車業務上,賣車單價仍處於下行軌道,賣車成本降幅不夠,最後賣車毛利率雖有回暖,但仍低於市場預期。

    BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亞迪的業績仍然不及預期。收入雖超預期,但主要由於非核心的比亞迪電子業務高增帶來,而在核心的賣車業務上,賣車單價仍處於下行軌道,賣車成本降幅不夠,最後賣車毛利率雖有回暖,但仍低於市場預期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    消息一出,華爾街一度陷入恐慌:如果 AI 突然間不再需要那麼多 RAM 就能運作,這是否意味著記憶體產業的「超級週期」即將結束?答案是否定的。事實上,從歷史規律與經濟學角度來看,情況正好相反。要理解這一點,我們只需要觀察你電腦上的網頁瀏覽器。

    GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    消息一出,華爾街一度陷入恐慌:如果 AI 突然間不再需要那麼多 RAM 就能運作,這是否意味著記憶體產業的「超級週期」即將結束?答案是否定的。事實上,從歷史規律與經濟學角度來看,情況正好相反。要理解這一點,我們只需要觀察你電腦上的網頁瀏覽器。

  • BABA財報AI投入比較激進

    BABA財報AI投入比較激進

    BABA發布第四季財報後股價下跌,財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%,而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資(總額超過530億美元)有效性的擔憂。

    BABA財報AI投入比較激進

    BABA發布第四季財報後股價下跌,財報顯示其營收和利潤均大幅低於預期。這家電商巨頭的季度淨利暴跌67%,而總營收僅成長1.7%約413億美元。這些表現引發了人們對阿里巴巴在AI人工智慧領域巨額投資(總額超過530億美元)有效性的擔憂。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光業績,季度毛利率達到 74.4%!

    MU 整體業績:美光本季度營收 238.6 億美元,環比增長 75%,好於上調後的買方預期(199 億美元),本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動,兩大業務環增都在 70% 以上。

    MU美光業績,季度毛利率達到 74.4%!

    MU 整體業績:美光本季度營收 238.6 億美元,環比增長 75%,好於上調後的買方預期(199 億美元),本季度收入增長主要來自於 DRAM 和 NAND 業務的雙重帶動,兩大業務環增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    Tencent騰訊業績整體看無驚無喜?

    騰訊一口氣連發多個 “龍蝦” 產品,能夠看出公司在元寶春節大戰中失利後的焦慮,雖然倉促推出產品還不夠完善。不過這個緊迫感的轉變很關鍵也很必要。就目前來看,微信入口似乎在 AI 原生應用盛行的當下仍然有無法撼動的地位。

    Tencent騰訊業績整體看無驚無喜?

    騰訊一口氣連發多個 “龍蝦” 產品,能夠看出公司在元寶春節大戰中失利後的焦慮,雖然倉促推出產品還不夠完善。不過這個緊迫感的轉變很關鍵也很必要。就目前來看,微信入口似乎在 AI 原生應用盛行的當下仍然有無法撼動的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa機器人削蘋果

    對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

    Sharpa機器人削蘋果

    對人類來說,削蘋果是件輕而易舉的晨間小事,但對機器人而言,這是雙手協調能力的「終極挑戰」。Sharpa機器人正在為能夠像人類一樣靈巧地完成複雜家務和工業裝配的機器人鋪平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    近期,中國科學家在“Cell”雜志上發表的一項突破性研究,為這一頑疾提供了全新思路。他們利用基因編輯技朮,將癌細胞改造成免疫系統眼中的“異類”,類似於人體對豬器官產生的超急性排斥反應,從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

    腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    近期,中國科學家在“Cell”雜志上發表的一項突破性研究,為這一頑疾提供了全新思路。他們利用基因編輯技朮,將癌細胞改造成免疫系統眼中的“異類”,類似於人體對豬器官產生的超急性排斥反應,從而引發了一場針對癌細胞的精准“免疫殲滅戰”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新系統的核心原理與常見的“嘗試說話”型腦機介面相似,都是在大腦運動皮質植入感測器,這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型,模型依據個人化數據判斷信號對應的聲音,進而預測使用者想說的單字。

    新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新系統的核心原理與常見的“嘗試說話”型腦機介面相似,都是在大腦運動皮質植入感測器,這一區域負責向聲道肌肉下達運動指令。感測器捕捉到的神經活動會送入機器學習模型,模型依據個人化數據判斷信號對應的聲音,進而預測使用者想說的單字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來,生物學家們一直在探討它們是否真的無用。如今的主流觀點認為,這些片段雖不直接參與蛋白質合成,卻在整體基因組中佔據了極大比例,顯示它們可能具有重要功能。

    “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    自這類非編碼DNA片段首次被發現並被稱作“垃圾”以來,生物學家們一直在探討它們是否真的無用。如今的主流觀點認為,這些片段雖不直接參與蛋白質合成,卻在整體基因組中佔據了極大比例,顯示它們可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

    從中國經濟看背後困境及發展新構想?

    中國未來發展或許可以參考“五環搆想”進行戰略布局。這一搆想包括高等教育培訓、創新科技驅動、產品生產銷售、市場推廣營銷、出海戰略佈局五大領域。通過“五環搆想”的實施,中國經濟可能有一個全新的契機注入新的動力,推動經濟穩定健康發展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

    在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    隨著時代的變遷,人生價值的內涵也變得更加多樣化和個性化。每個人對於“成功”和“幸福”的理解不同,有些人追求的是即時的快樂和成就感,而有些人則看重長期的進步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

    再見愛人:探索現代婚姻中的情感困境

    芒果TV婚姻紀實觀察節目“再見愛人4”邀請黃聖依、楊子,麥琳、李行亮,葛夕、劉爽三對情感關系10年以上的夫妻,以“婚姻紀實觀察”為切口,呈現出不同婚姻樣本在親密關系中的掙扎與甜蜜、桎梏與覺醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

    抖音短劇新風潮:中老年人成為新的增長點?

    近日,不少以老年人為主角的抖音短劇“閃婚五十歲”、“金榜題名之母憑子貴”、“人到五十,閃婚霸總”等等登上熱度榜單。老年人的婚姻、情感以及生活故事,成了當下短劇創作的“新流量密碼”。

1 / 4