OpenAI發布AI視頻生成工具Sora,開啟生成式人工智能新篇章

OpenAI发布AI视频生成工具Sora,开启生成式人工智能新篇章

發布日期:

商業 Business 狂呼金融 Convo Finance 科技 Tech


要点:
OpenAI宣布将发布其备受期待的AI视频生成工具Sora,标志着生成式人工智能的下一个重要发展领域,具有广泛的行业应用潜力。

OpenAI今天表示,它将在当天晚些时候发布其热门的人工智能AI视频生成工具“Sora”。 OpenAI备受期待的AI文字到影片产生器Sora将于今天向所有人开放。

随着聊天机器人和图像生成器逐渐进入消费市场和商业应用,视频生成有望成为生成式人工智能的下一个关键发展领域。这一技术的潜力巨大,视频生成的普及将显著提升创作者与品牌之间的互动,进一步加速数字化转型的进程。

从文字到视频的技术创新

AI视频生成工具“Sora”的工作原理与OpenAI的图像生成工具DALL-E相似:用户输入所需场景,Sora便能生成高清的视频片段。此外,Sora还可以基于静止影像创建影片剪辑,扩展现有影片或填补缺失画面。

影片中展示了Sora如何将文字提示转化为视频,用户可以通过其他文字提示自定义生成的内容,作为其“混音”功能的一部分。此外,Sora还支持将照片转化为视频,并通过故事板功能将多个文本提示串联起来,力图将这些提示融入到一个连贯的场景中。

但与此同时,Sora目前在生成逼真的物理效果方面仍存在挑战,经常会显示物体消失或相互穿透的现象。此外,Sora常常拒绝处理包含公众人物或受版权保护角色的提示。

Reddit用户在10月向OpenAI高层询问Sora的发布日期,质疑其延迟是否是由于推理所需的计算量/时间或安全原因。作为回应,OpenAI的产品负责人表示,“需要完善模型,需要确保安全/模拟/其他事情正确,并且需要扩展计算!”

根据OpenAI的YouTube直播显示,该工具将于今天晚些时候首次向美国用户及大多数国际市场推出。但是,该公司尚未公布在欧洲、英国和其他一些国家推出的具体时间表。目前,Sora仅供少数安全测试人员使用,他们的任务是测试模型在错误信息、偏见等方面的漏洞。

近日,OpenAI的Sora产品负责人在直播中表示,“作为OpenAI,我们显然有一个很大的目标,因此我们希望阻止Sora的合法活动,但我们也希望透过创意表达来平衡这一点。”此外,OpenAI表示,用户无需额外付费,该工具将包括在现有的ChatGPT帐户中,如Plus和Pro等订阅服务。在直播中,OpenAI的员工和执行长Sam Altman展示了例如“混合”功能(即根据用户指示将两个场景融合)以及让AI生成的影片无限循环播放的选项。

早在今年2月,OpenAI公司首次发布了全新的视频生成AI大模型Sora。这一模型能够通过文本描述快速制作出长达60秒的视频,视频中不仅可以呈现多个角色、特定动作,还能展示复杂的场景。

当时,OpenAI发布了多段由其制作的高清视频片段,包括一辆SUV行驶在山路上、蜡烛旁的“短毛怪”动画、两个人们在雪地里走过东京,以及加州淘金热的假历史镜头,并表示它能够产生长达一分钟的影片。从文字生成到视频生成,Sora的这一发布无疑引发了AI领域的震动。

自ChatGPT问世以来,各大软件厂商纷纷加码,展开了激烈的竞争

百度率先推出了“文心一言”,阿里推出了“通义千问”等,业内各大巨头都在争夺这一重要的风口。此外,就在市场局势渐趋平静时,谷歌/Google发布了重磅产品“Gemini 1.5”,并将上下文窗口长度扩展至100万个tokens,使得Gemini 1.5具备了处理超过三万行代码的能力。然而,谷歌的这一举动也促使OpenAI发布了其“王炸”级产品Sora。

从目前Sora展现的能力来看,它显然已经超越了谷歌的“Gemini 1.5”。然而,也有质疑的声音,图灵奖得主表示,像Sora这样仅凭文字提示生成逼真视频,并不意味着模型理解了物理世界。生成视频的过程与基于世界模型的因果预测截然不同。随后,Meta推出了一个全新的无监督“视频预测模型”V-JEPA,声称能“以人类的视角来理解世界”。

不可否认的是,Sora的推出不仅标志着生成式AI从语言模型向视频模型迈出了重要一步,更加深了“世界模型”这一概念的关注。未来,AI模型的发展方向将更侧重于更真实地理解和模拟现实世界。

“世界模拟”成为了AI发展的新方向,这也推动了人工通用智能/AGI时代的到来。随着AI拥有模拟和感知世界的能力,并结合摄像头和传感器,AI将朝着具备自主感知、理解现实世界的能力,能够处理语言、图像、视频的人工通用智能方向不断前进。

视频生成的新纪元

如今,Sora的推出将生成式AI带入了视频生成的新纪元,并将对整个AI市场格局产生重大、深远的影响。

目前,在短视频平台上,诸如AI配音有声小说、AI为小说配漫画等形式的视频已获得极高的关注度。随着视频生成大模型技术的不断进步,未来或许一部小说可以由AI自动转化为电视剧或电影。对于观众而言,生成式视频大模型可能成为最懂你的“导演”,为你量身定制最合适的剧情和演员。

对于短视频创作者来说,视频生成大模型能够显著降低拍摄成本。创作者只需提供简单的文字描述,便能生成理想的场景、演员和剧情素材,极大地简化视频制作过程。由于AI视频生成的高效性,许多时效性要求强的短视频领域将成为AI的主战场。

而对于视频后期制作人员,尤其是特效设计师,视频生成大模型的加入同样提升了生产力。通过向AI提供简单的描述,制作复杂的特效画面、场景替换等变得更加便捷,甚至可以创造现实中从未出现过的特效。

但与此同时,正是因为AI的强大功能,许多人对行业和职业前景产生了担忧

奇虎360公司董事长周鸿祎曾表示,基于大模型技术,结合人类知识的引导,可以创造出许多超级工具,推动包括生物医学、基因研究、物理、化学和数学等领域的进步。甚至,AI的算力可以帮助我们推演尚未被人类掌握的自然规律。

尽管从技术发布到广泛应用仍有一段距离,未来是否真如周鸿祎所设想的那样,凭借大模型技术引发一场“技术爆炸”尚未可知。

就像当年的工业革命时期,珍妮纺纱机的出现让许多人面临失业,但并不意味着人类会进入一个由AI主导的“无用”时代。 AI依旧需要人类的支配和维护,也需要人类在学习和应用方面的辅助。尽管有一些悲观的声音,认为AI会取代人类,但现实可能更为复杂和多样。

面对这场科技革命,我们必须转变心态,拥抱新时代的到来。当AI能够创造出一个足够真实的虚拟世界时,也许曾经在科幻电影中展现的“黑客帝国”或“头号玩家”中的世界,真的会在不久的将来成为现实。随着“世界模型”技术的持续进步,曾经趋冷的元宇宙概念或许会再次成为风口。

今年2月,苹果公司发布的虚拟现实设备Vision Pro正式上市,虽然第一代产品并不完美,但其在可用性和操控性方面已经超越了许多同类产品,展现出虚拟现实设备成为未来移动设备的巨大潜力。

Sora与Vision Pro或许正是叩开“元宇宙”大门的两把钥匙。无论是Meta之前推出的头戴设备,还是苹果当前的设备,都无法真正做到虚拟与现实的融合,也就是说,现实中的人无法完全沉浸于虚拟世界中。然而,如果Sora能够构建出一个与物理世界几乎无差别的虚拟世界,打造出一个宏大的元宇宙,那时才有可能迎来元宇宙的真正爆发。这一进程将促使各大企业通过技术创新建立起更为坚固的护城河,抢占虚拟世界的制高点,推动数字化转型的步伐,同时创造出更多商业机会和社会变革。

布局AI生成式视频新风口

OpenAI于今年10月完成了最新一轮融资,估值达到1570亿美元,其中包括从多家投资公司和大型科技公司筹集的66亿美元。此外,OpenAI还获得了40亿美元的循环信贷额度,使其流动资金总额超过100亿美元。

这一切都体现了OpenAI在发展战略上的决心。作为微软支持的人工智能初创公司,OpenAI与亚马逊/Amazon等公司展开竞争,目标是占领生成人工智能市场的最大份额。预计这一市场将在未来十年突破1万亿美元的收入规模。

近期,OpenAI也加强了营销投入,聘请了首位首席营销官,计划通过扩大用户群来提升品牌影响力。 10月,OpenAI在ChatGPT中加入了搜索功能,旨在与谷歌、微软的Bing和Perplexity等搜索引擎竞争,并吸引更多进行网络搜索的用户。

此外,OpenAI的ChatGPT制造商希望通过Sora与Meta和谷歌等公司推出的视频生成AI工具展开竞争。其他新兴公司也提供类似的人工智能工具,例如Stability AI的Stable Video Diffusion,亚马逊则推出了专为儿童设计的短片动画创作模型Create with Alexa。

随着聊天机器人和图像生成器进入消费市场和商业应用,视频生成可能成为生成式人工智能的下一个重要前沿领域

这一领域的潜力无疑是巨大的,不仅能在娱乐、广告、教育和医疗等行业创造前所未有的机遇,还将催生出更多创新应用,彻底改变我们创建、消费和互动内容的方式。从个性化广告到虚拟直播,视频生成的普及将极大地提升创作者和品牌之间的互动,进一步推动数字化转型的浪潮。

作为投资者,我们应该紧跟技术发展的步伐,关注视频生成技术的初创企业和领先公司,尤其是在那些能提供创新性解决方案和强大技术平台的企业。与传统视频制作相比,生成式视频的成本和时间消耗将大幅度下降,这意味着更多小型公司和个人创作者将能够利用这些工具,降低内容创作的门槛,从而开启一个更加多元和充满创意的市场。而与此同时,拥有领先技术的企业将能够获得更大的市场份额,成为下一波科技浪潮的主导者。

此外,投资者还应密切关注视频生成技术背后的伦理和合规问题,特别是在虚假信息和深度伪造视频的风险日益增加的背景下。尽管这一技术为创意领域带来了激动人心的机遇,但在全球重大政治选举的背景下,AI生成的虚假信息问题引发了广泛的担忧。根据机器学习公司Clarity的数据显示,人工智能生成的深度伪造内容数量每年增长了900%。 OpenAI将多模态(结合文字、图像和视频生成)作为其提供更广泛人工智能模型的一项重要目标。

随着生成式视频技术的普及,我们需要看到更多企业和平台加强对内容真实性的监管和防护措施。这不仅关乎技术的发展,也直接影响到投资者的回报和风险管理。随着技术的快速进步,投资者需要保持敏锐的洞察力,抓住具有潜力的创新公司,同时也要关注技术带来的社会责任和市场变革,以确保在未来的竞争中占据有利位置。

狂呼金融 Convo Finance

投資不僅僅是為了創造財富,更是一種洞察宏觀經濟的態度,見證社會演變與科技發展。我們一起,從大變局中看清發展趨勢,希望從不確定中找到確定。

狂呼金融聚焦於新的社會發展形勢下,金融與經濟對當今世界日益凸顯的影響。以全面、理性的投資視角,洞察分析每一個趨勢與機會,為廣大投資者創造更高質量、更獨特的金融投資觀點。

狂呼,比一部分人更快、更准地看清市場,讓大眾洞察金融經濟的核心。

聯系我們 | 相關文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4