要点:
生成式人工智能正在彻底颠覆传统影像制作,个人创作者凭借AI工具即可以极低成本和高效率,创造出媲美专业团队的高质量视频作品。
想像一下,过去必须靠高额出场费的明星艺人、专业摄制团队、专业器材才能完成的影像创作,如今一台电脑、一位创作者,再加上几个AI工具就能实现。这并非科幻,而是正真实发生的内容制作变革。在这场由生成式人工智能AI驱动的视觉革命中,个人创作者开始拥有了与大型制片公司比肩的创作能力,影像内容的生产门槛与规则也正在被全面改写。
如今,谷歌Veo 3和Runway等AI产品已经能够创作出极其逼真的视频。抱着测评这些工具的目的,华尔街日报/The Wall Street Journal科技作家Joanna Stern仅凭她一人,即成功“出演”了这部几乎完全由AI生成的影片“机器人与我”/My Robot and Me。
只花1000美元:用AI拍出专业级短片
近年来,人工智能AI影片生成技术发展迅速,各家厂商不断推出更新的模型,力求突破现有技术的限制。这些模型不仅在影像品质上有所提升,更在运动模拟、物理效果以及风格呈现等方面取得了显著进展。其中,Runway Gen-4、Google VEO等模型,更是引领了行业的发展方向。这些工具让影片创作者能够更轻松地实现创意,降低制作成本,大幅提高生产效率。
华尔街日报最近使用Google Veo和Runway,只花了约1000 美元,制作了一部充满幽默和反思的AI微电影。他们不仅在片尾公布了AI“拍摄”时产生的NG片段,也大方分享了整个幕后制作流程,揭示了AI如何以低成本实现接近专业级别的创作。
影片由一个名叫“奇夫·马特博德博士”的角色开场,他自称是“完全真实的机器人专家”,但很快剧情反转。他由图像生成工具构建,再由真人模仿其肢体语言和语气拍摄动作视频,结合Runway的Restyle功能合成完整角色行为。音频方面,Max和Chip的声音使用11 Labs合成,而女主角的旁白部分则由真人配音,因为目前AI还难以精准复刻人类的语调与情绪。
片中的女主角是通过上传多张照片创建的,机器人Optimax 5000的形象则由MidJourney设计,并经过多轮微调。邻里场景则借助Runway创建,再用参考图像功能锁定人物风格,随后在Google VO中逐帧生成动态画面。一些没有人物的片段,比如结尾的悬疑场景,直接通过文本生成视频/text-to-video功能完成。
而主角Optimax 5000是一位机器人角色,透过MidJourney完成形象设计,再经由Runway与Veo平台进行动画化。无论是场景背景、角色动作还是道具细节,都能结合文字提示与参考图像自动生成,效果惊人。
制作团队尝试过多个AI工具后,认为Google VideoFX/VO和Runway在画面质量和风格一致性方面表现最佳。虽然简单输入一句“一个女人和机器人一起锻炼”也能快速生成视频,但无法保证角色在不同场景中形象连贯,因此他们釆用了更复杂的“图像+提示词+迭代生成”策略。
此外,背景音乐也同样由AI生成,使用的是AI音乐工具Suno。尽管技术含量极高,但最核心的剧本,仍然是由人类原创。创作者强调,“AI提供了强大的执行力,但真正让这个故事有意义、有温度的,还是我们自己。”
该项目由经验丰富的视频制作人杰拉德·科尔主导,为了确保每个角色在不同镜头中的形象保持一致,他用AI工具生成了约1000个视频片段,再进行挑选、拼接和后期处理。这种大规模生成加上人类甄选的混合工作流程,成为AI内容创作的现实范式。
整个制作的AI工具成本大约在1000美元左右,一部分为自费使用,另一部分则获得了厂商的特别授权支持。对他们而言,这不仅是一项创作实验,更是一次关于AI如何改变内容制作流程的现实探索。
他们对此表示,“如果用传统拍摄方式,我们可能需要一个完整团队和成千上万美元。但AI工具正以惊人的速度发展。虽然它还不完美,但在人类创意的指导下,它已经能帮助我们创造出令人惊艳的作品。而最重要的提醒是:我们不是机器人,创意才是驱动一切的核心。”
过去需仰赖团队花费数周制作的影像,如今AI在几分钟内即可生成初稿,正成为视觉创作的强大引擎。这部短片中,除旁白外几乎所有画面与音效都由AI生成,包括角色、场景、动作乃至部分音乐,充分展现了AI在视频创作上的巨大潜力。
人工智能时代:正重塑视频创作的规则
在过去,要制作一段质量尚可的视频,往往需要请导演、演员、美术、摄影等一整套专业团队,动辄花费数万元。这不仅是设备与人力的成本,更包括时间、场地、交通等各种隐性支出。对于大部分普通创作者来说,这样的门槛几乎望而却步。
但随着人工智能AI视频生成技术的飞速发展,这一切正在悄然改变。如今借助Google Veo、Runway、Sora等AI工具,凭借较低的预算成本,就可以完成一个视觉效果出色、角色鲜明的视频内容。 AI让原本“奢侈”的创作,变成了“大众”也能玩得起的事情。
除了成本的骤降,时间效率也令人惊艳。传统拍摄从剧本到成片常常需要几周甚至几个月,而AI视频的生成周期大大缩短,有时只需几个小时就能从想法变成画面。这种速度上的飞跃,不仅提升了创作节奏,也为内容快速传播提供了可能。
当然,AI生成并非“完美无缺”。就像人类拍片时会出现NG镜头一样,AI也常常会犯错,比如人物表情僵硬、动作突兀,或者背景生成不合逻辑。这些“AI NG片段”需要人类介入筛选、微调,才能最终呈现理想成片。
不过,与人类不同的是,AI的错误是可以“被训练”的。随着模型的不断升级与数据的积累,AI在理解人物动作、情绪表达、光影变化等方面的容错率正在持续下降。换句话说,AI越用越聪明,生成内容越发自然、真实。
这一趋势也意味着,视频创作的“技术门槛”大幅降低,但“创意门槛”却在上升。 AI可以自动生成动作、镜头和配音,但“讲什么故事”“传达什么情感”仍然需要创作者来决定。技术越普及,内容质量越依赖创意与深度。
更重要的是,AI工具并不只是为了“模仿”现实世界,而是在构建一种新的表达方式。例如,通过结合文字提示、图像参考、音乐生成等多种手段,AI可以在没有拍摄现场的情况下,营造出前所未有的视听体验。这为视觉叙事打开了全新的想象力空间。
人工智能正在推动视频内容生产从“物理拍摄”走向“数据生成”,从“高门槛专业”转向“全民创作”。它既是工具,也是变革的引擎。虽然AI尚未取代传统影视制作,但它带来的创作自由、效率优势和无限潜能,正在重新定义内容产业的未来。
在AI不断颠覆内容生产方式的当下,真正值得我们思考的,不只是技术“能做什么”,而是我们“想用它做什么”。当每个人都能低成本地生成影视内容,创作不再是少数人的专利,而是多数人的权利。这也意味着,内容的差异化将更多来自于创作者的思想深度、价值立场与审美判断。在AI为我们打开新世界大门的同时,我们也必须重新定义“好内容”的标准:它不只是由精致的画面构成,更应是有温度、有洞见、有灵魂的表达。在技术驱动之外,真正打动人心的,始终是创意与真诚。