“扔一部小说出一部大片”或将成为现实(组图)
人工智能(AI)巨头OpenAI又出王炸,其最新推出的文生视频大模型Sora因其“逼真”和“富有想象力”被广泛赞誉,其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度。
Sora 在日语中是“天空”的意思,引申含义还有“自由”。OpenAI表示,Sora是能够理解和模拟现实世界的模型基础,相信这一功能将成为实现AGI(通用人工智能)的重要里程碑。
对此,不少科技圈名人都发出了惊叹,马斯克直接在社交平台上发布短评“GG世界”(GG是网络游戏的用语之一,原指游戏结束时玩家互相致意,后引申为“游戏结束”)。
360集团创始人、董事长周鸿祎2月16日在微博发文表示,这意味着AGI实现将从10年缩短到1年。
Sora 介绍页。图源:OpenAI官网
【1】Sora或将颠覆视频AI领域
Sora能够生成一分钟的高清视频,“研究结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。”
据介绍,Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。该模型不仅能理解用户在提示中提出的要求,还能理解这些事物在物理世界中是如何存在的。Sora还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。
在Sora相关介绍页面有48个视频demo,并配有对应的提示词。OpenAI称,该页所有视频均由Sora直接生成,未经修改。
视频demo截图。图源:OpenAI官网
除了生成的画面更接近现实物理世界,OpenAI介绍,Sora可以实现视频中的主题始终保持一致,即使暂时离开视野也不会发生变化,并可以一次性生成多机位视频。
基于这样的技术,已有网友设想,用多个1分钟视频连接起来生产一部微短剧甚至电影,同时保证其主题不变。“扔一部小说出一部大片”将成为现实。
AI生成的西游记画面截图,视频长达4分钟。图源:扬子晚报
AI生成的西游记画面截图,视频长达4分钟。图源:扬子晚报
当然,Sora也并非毫无弱点。OpenAI称,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人咬了一口饼干,但之后饼干可能没有咬痕。
此外,该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
【2】潜力与风险并存
AI内容制作,让现实与虚拟的界线变得模糊。内容真实性、版权、隐私、数据、安全等问题纷至沓来。社会需要一套完善的政策、法律和伦理规范来应对,确保技术发展不脱轨,保护每个人的利益。
电子游戏开发者非常有可能受到这种新发明的影响,这一领域的反应分为两派,一派愿意接受新工具,另一派则担心新工具会取代自己。
法国电子游戏巨头育碧娱乐公司称赞OpenAI的声明是“巨大的飞跃”,给玩家和开发团队表达他们的想象力提供了无限可能。
阿尔克米公司的负责人阿兰·皮热说,他不会用人工智能工具取代任何艺术家,因为人工智能工具“只会重现人类所做的事情”。然而,皮热表示,这种“视觉上令人印象深刻”的工具可以被小型工作室用来更专业地制作渲染图像。
前记者、现斯坦福大学研究员巴西勒·西蒙认为,在生成式人工智能方面,“去年有了可怕的飞跃”,可以快速生成逼真的作品。他担心这些工具会在选举中被滥用,并担心公众将“不再知道该相信什么”。
运用Sora也可以生成高清图像。图源:OpenAI官网
法国新闻广播电台事实核查节目的朱利安·潘说,他也担心人工智能工具的滥用。潘说:“到目前为止,识别假图像很容易,比如通过注意背景中重复的面孔。”
他表示,OpenAI和美国科技巨头可能会推广安全工具,比如显示人工智能生成图像的全行业水印。
法国佛海佛瑞公司预计,未来“80%的品牌内容将由人工智能生成”。该公司曾与珑骧和百威等品牌合作,并在1月初开设了一个专门研究人工智能的工作室。
一名热烈支持者称,由于生成式人工智能工具的出现,“创意天才”将不再受生产技能的限制。
广告和网红代理公司奥塔公司的首席执行官兼创始人斯蒂芬妮·拉波特认为,这项技术将“迫使行业发展”。她预计,预算紧张的广告公司将利用人工智能工具来节省人力成本。但奢侈品领域可能是个例外,该领域品牌“对真实性非常敏感,可能会谨慎使用人工智能”。
据悉,Sora如今正面向部分用户开放,以评估关键领域的潜在危害或风险。OpenAI提前分享研究进展,旨在与OpenAI以外的人士合作并获取反馈,让公众了解即将到来的AI技术新篇章。