要点:
OpenAI宣布将发布其备受期待的AI视频生成工具Sora,标志着生成式人工智能的下一个重要发展领域,具有广泛的行业应用潜力。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章
OpenAI今天表示,它将在当天晚些时候发布其热门的人工智能AI视频生成工具“Sora”。 OpenAI 备受期待的AI文字到影片产生器Sora将于今天向所有人开放。
随着聊天机器人和图像生成器逐渐进入消费市场和商业应用,视频生成有望成为生成式人工智能的下一个关键发展领域。这一技术的潜力巨大,视频生成的普及将显著提升创作者与品牌之间的互动,进一步加速数字化转型的进程。
从文字到视频的技术创新
AI视频生成工具“Sora”的工作原理与OpenAI的图像生成工具DALL-E相似:用户输入所需场景,Sora便能生成高清的视频片段。此外,Sora还可以基于静止影像创建影片剪辑,扩展现有影片或填补缺失画面。
影片中展示了Sora如何将文字提示转化为视频,用户可以通过其他文字提示自定义生成的内容,作为其“混音”功能的一部分。此外,Sora还支持将照片转化为视频,并通过故事板功能将多个文本提示串联起来,力图将这些提示融入到一个连贯的场景中。
但与此同时,Sora目前在生成逼真的物理效果方面仍存在挑战,经常会显示物体消失或相互穿透的现象。此外,Sora常常拒绝处理包含公众人物或受版权保护角色的提示。
Reddit用户在10月向OpenAI高层询问Sora的发布日期,质疑其延迟是否是由于推理所需的计算量/时间或安全原因。作为回应,OpenAI的产品负责人表示,“需要完善模型,需要确保安全/模拟/其他事情正确,并且需要扩展计算!”
根据OpenAI的YouTube直播显示,该工具将于今天晚些时候首次向美国用户及大多数国际市场推出。但是,该公司尚未公布在欧洲、英国和其他一些国家推出的具体时间表。目前,Sora仅供少数安全测试人员使用,他们的任务是测试模型在错误信息、偏见等方面的漏洞。
近日,OpenAI的Sora产品负责人在直播中表示,“作为OpenAI,我们显然有一个很大的目标,因此我们希望阻止Sora的合法活动,但我们也希望透过创意表达来平衡这一点。”此外, OpenAI表示,用户无需额外付费,该工具将包括在现有的ChatGPT帐户中,如Plus和Pro等订阅服务。在直播中,OpenAI的员工和执行长Sam Altman展示了例如“混合”功能(即根据用户指示将两个场景融合)以及让AI生成的影片无限循环播放的选项。
早在今年2月,OpenAI公司首次发布了全新的视频生成AI大模型Sora。这一模型能够通过文本描述快速制作出长达60秒的视频,视频中不仅可以呈现多个角色、特定动作,还能展示复杂的场景。
当时,OpenAI发布了多段由其制作的高清视频片段,包括一辆SUV行驶在山路上、蜡烛旁的“短毛怪”动画、两个人们在雪地里走过东京,以及加州淘金热的假历史镜头,并表示它能够产生长达一分钟的影片。从文字生成到视频生成,Sora的这一发布无疑引发了AI领域的震动。
自ChatGPT问世以来,各大软件厂商纷纷加码,展开了激烈的竞争
百度率先推出了“文心一言”,阿里推出了“通义千问”等,业内各大巨头都在争夺这一重要的风口。此外,就在市场局势渐趋平静时,谷歌/Google发布了重磅产品“Gemini 1.5”,并将上下文窗口长度扩展至100万个tokens,使得Gemini 1.5具备了处理超过三万行代码的能力。然而,谷歌的这一举动也促使OpenAI发布了其“王炸”级产品Sora。
从目前Sora展现的能力来看,它显然已经超越了谷歌的“Gemini 1.5”。然而,也有质疑的声音,图灵奖得主表示,像Sora这样仅凭文字提示生成逼真视频,并不意味着模型理解了物理世界。生成视频的过程与基于世界模型的因果预测截然不同。随后,Meta推出了一个全新的无监督“视频预测模型”V-JEPA,声称能“以人类的视角来理解世界”。
不可否认的是,Sora的推出不仅标志着生成式AI从语言模型向视频模型迈出了重要一步,更加深了“世界模型”这一概念的关注。未来,AI模型的发展方向将更侧重于更真实地理解和模拟现实世界。
“世界模拟”成为了AI发展的新方向,这也推动了人工通用智能/AGI时代的到来。随着AI拥有模拟和感知世界的能力,并结合摄像头和传感器,AI将朝着具备自主感知、理解现实世界的能力,能够处理语言、图像、视频的人工通用智能方向不断前进。
视频生成的新纪元
如今,Sora的推出将生成式AI带入了视频生成的新纪元,并将对整个AI市场格局产生重大、深远的影响。
目前,在短视频平台上,诸如AI配音有声小说、AI为小说配漫画等形式的视频已获得极高的关注度。随着视频生成大模型技术的不断进步,未来或许一部小说可以由AI自动转化为电视剧或电影。对于观众而言,生成式视频大模型可能成为最懂你的“导演”,为你量身定制最合适的剧情和演员。
对于短视频创作者来说,视频生成大模型能够显著降低拍摄成本。创作者只需提供简单的文字描述,便能生成理想的场景、演员和剧情素材,极大地简化视频制作过程。由于AI视频生成的高效性,许多时效性要求强的短视频领域将成为AI的主战场。
而对于视频后期制作人员,尤其是特效设计师,视频生成大模型的加入同样提升了生产力。通过向AI提供简单的描述,制作复杂的特效画面、场景替换等变得更加便捷,甚至可以创造现实中从未出现过的特效。
但与此同时,正是因为AI的强大功能,许多人对行业和职业前景产生了担忧
奇虎360公司董事长周鸿祎曾表示,基于大模型技术,结合人类知识的引导,可以创造出许多超级工具,推动包括生物医学、基因研究、物理、化学和数学等领域的进步。甚至,AI的算力可以帮助我们推演尚未被人类掌握的自然规律。
尽管从技术发布到广泛应用仍有一段距离,未来是否真如周鸿祎所设想的那样,凭借大模型技术引发一场“技术爆炸”尚未可知。
就像当年的工业革命时期,珍妮纺纱机的出现让许多人面临失业,但并不意味着人类会进入一个由AI主导的“无用”时代。 AI依旧需要人类的支配和维护,也需要人类在学习和应用方面的辅助。尽管有一些悲观的声音,认为AI会取代人类,但现实可能更为复杂和多样。
面对这场科技革命,我们必须转变心态,拥抱新时代的到来。当AI能够创造出一个足够真实的虚拟世界时,也许曾经在科幻电影中展现的“黑客帝国”或“头号玩家”中的世界,真的会在不久的将来成为现实。随着“世界模型”技术的持续进步,曾经趋冷的元宇宙概念或许会再次成为风口。
今年2月,苹果公司发布的虚拟现实设备Vision Pro正式上市,虽然第一代产品并不完美,但其在可用性和操控性方面已经超越了许多同类产品,展现出虚拟现实设备成为未来移动设备的巨大潜力。
Sora与Vision Pro或许正是叩开“元宇宙”大门的两把钥匙。无论是Meta之前推出的头戴设备,还是苹果当前的设备,都无法真正做到虚拟与现实的融合,也就是说,现实中的人无法完全沉浸于虚拟世界中。然而,如果Sora能够构建出一个与物理世界几乎无差别的虚拟世界,打造出一个宏大的元宇宙,那时才有可能迎来元宇宙的真正爆发。这一进程将促使各大企业通过技术创新建立起更为坚固的护城河,抢占虚拟世界的制高点,推动数字化转型的步伐,同时创造出更多商业机会和社会变革。
布局AI生成式视频新风口
OpenAI于今年10月完成了最新一轮融资,估值达到1570亿美元,其中包括从多家投资公司和大型科技公司筹集的66亿美元。此外,OpenAI还获得了40亿美元的循环信贷额度,使其流动资金总额超过100亿美元。
这一切都体现了OpenAI在发展战略上的决心。作为微软支持的人工智能初创公司,OpenAI与亚马逊/Amazon等公司展开竞争,目标是占领生成人工智能市场的最大份额。预计这一市场将在未来十年突破1万亿美元的收入规模。
近期,OpenAI也加强了营销投入,聘请了首位首席营销官,计划通过扩大用户群来提升品牌影响力。 10月,OpenAI在ChatGPT中加入了搜索功能,旨在与谷歌、微软的Bing和Perplexity等搜索引擎竞争,并吸引更多进行网络搜索的用户。
此外,OpenAI的ChatGPT制造商希望通过Sora与Meta和谷歌等公司推出的视频生成AI工具展开竞争。其他新兴公司也提供类似的人工智能工具,例如Stability AI的Stable Video Diffusion,亚马逊则推出了专为儿童设计的短片动画创作模型Create with Alexa。
随着聊天机器人和图像生成器进入消费市场和商业应用,视频生成可能成为生成式人工智能的下一个重要前沿领域
这一领域的潜力无疑是巨大的,不仅能在娱乐、广告、教育和医疗等行业创造前所未有的机遇,还将催生出更多创新应用,彻底改变我们创建、消费和互动内容的方式。从个性化广告到虚拟直播,视频生成的普及将极大地提升创作者和品牌之间的互动,进一步推动数字化转型的浪潮。
作为投资者,我们应该紧跟技术发展的步伐,关注视频生成技术的初创企业和领先公司,尤其是在那些能提供创新性解决方案和强大技术平台的企业。与传统视频制作相比,生成式视频的成本和时间消耗将大幅度下降,这意味着更多小型公司和个人创作者将能够利用这些工具,降低内容创作的门槛,从而开启一个更加多元和充满创意的市场。而与此同时,拥有领先技术的企业将能够获得更大的市场份额,成为下一波科技浪潮的主导者。
此外,投资者还应密切关注视频生成技术背后的伦理和合规问题,特别是在虚假信息和深度伪造视频的风险日益增加的背景下。尽管这一技术为创意领域带来了激动人心的机遇,但在全球重大政治选举的背景下,AI生成的虚假信息问题引发了广泛的担忧。根据机器学习公司Clarity的数据显示,人工智能生成的深度伪造内容数量每年增长了900%。 OpenAI将多模态(结合文字、图像和视频生成)作为其提供更广泛人工智能模型的一项重要目标。
随着生成式视频技术的普及,我们需要看到更多企业和平台加强对内容真实性的监管和防护措施。这不仅关乎技术的发展,也直接影响到投资者的回报和风险管理。随着技术的快速进步,投资者需要保持敏锐的洞察力,抓住具有潜力的创新公司,同时也要关注技术带来的社会责任和市场变革,以确保在未来的竞争中占据有利位置。
在如此动荡的金融市场中,你会选择怎样投资?
一起深入了解资深投资者的交易策略。在投入股市之前,多认识金融市场,才可提高投资回报率。关注狂呼"思钱想后"栏目,紧密跟踪股市走势,寻找更多投资机会。
点击此处了解更多
投资不仅仅是为了创造财富,更是一种洞察宏观经济的态度,见证社会演变与科技发展。我们一起,从大变局中看清发展趋势,希望从不确定中找到确定。
狂呼金融研究所聚焦于新的社会发展形势下,金融与经济对当今世界日益凸显的影响。以全面、理性的投资视角,洞察分析每一个趋势与机会,为广大投资者创造更高质量、更独特的金融投资观点。
狂呼,比一部分人更快、更准地看清市场,让大众洞察金融经济的核心。
联系我们// 相关文章