Utopai携手LG、中东主权基金扩大韩娱投资,新模式革新AI视频格局!

机器之心发表机器之心社论。 Sora 2 和 Google Veo 3 仍然专注于短视频保真度,但长篇叙事是否应该成为人工智能电影和电视的下一个目的地?目前,随着AI视频生成技术的快速发展,Sora 2、Google Veo 3等主流机型现在都可以生成视觉震撼的短视频片段。但在制作长视频,甚至影视作品时,人工智能模型似乎开始显得力不从心。但在好莱坞,AI影视公司已经涌现,并开始推动AI影视生成技术从模型验证走向大规模产业化。 11月3日,AI原生影视工作室Utopai Studios与创新型全球投资平台Stock Farm Road(SFR)宣布成立数百万美元合资公司Utopai East,加速韩国影视国际化进程。根据截止日期。 SFR 的背后,一方面是 LG 集团继承人 Brian Koo,另一方面是阿联酋政府基金发起人 Amin Badr El-Din。据报道,Utopai Studios 将在此次合作中成为 SFR 的独家娱乐人工智能技术合作伙伴,利用 SFR 计划耗资 350 亿美元的韩国人工智能数据中心建设下一代影视制作基础设施。在这场以韩国娱乐为中心的产业合作背后,有一个Utopai想要系统性攻克的重要提议。问题是如何让AI真正理解和控制故事片、电视的叙事逻辑,实现从短片的生成到故事片的制作的产业跨越。视频链接:https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ 主要问题:为什么故事片制作中传统的视频模型很难掌握?当前主流视频生成模型的本质(例如广播)仍然是概率性的。它是一个生成器。他们单独或以短片形式逐帧生成视频,无法全面规划较长的叙事逻辑。随着视频制作的目标从“生成片段”转向“创作故事片”,广播模式的弊端开始显现。长期的一致性已经被打破。角色外观和场景元素往往会在镜头之间“漂移”,例如服装颜色的突变和角色外观的扭曲。叙事控制不佳:模型难以理解脚本的因果链(例如情绪的逐渐变化),并且生成的内容经常出现偏差。出于导演的意愿。缺乏物理理性:由于模型只学习2D像素的统计规则,缺乏对3D空间中的遮挡、碰撞等规则的了解,因此很容易产生非物理的“错觉”。 Utopai 为您提供的解决方案可直接解决您的问题以点为单位。我们不寻求单一模型的终极优化,而是通过架构重组让不同的模型发挥其功能。技术架构:分离规划和渲染的协作范式 Utopai 的关键创新是创建分层协作架构,其中自回归(AR)模型负责“规划”,扩散模型(Diffusion)负责“渲染”。两者通过统一的状态空间耦合。 1.规划层:自回归模型充当“导演的大脑”序列预测机制。 AR模型以脚本为输入,从下一帧到前一帧进行预测,生成涵盖角色识别向量、相机路径、光影变化等元素的时空计划。这个计划本质上是一个由机器执行的“拍摄计划”,保证整个电影中元素的连贯和逻辑演变,w这持续了几十分钟。状态记忆和因果推理:模型保持长期可再现的状态记忆,例如跟踪角色从第1个镜头到第50个镜头的动作轨迹,并且可以避免传统模型中本地生成造成的逻辑中断。 2.渲染层:扩散模型充当条件生成的“前引擎执行”。扩散模型不再随机“抽牌”,而是严格根据规划层下发的结构化指令(深度图、光流信号等)生成图像。例如,如果您在规划图层中指定相机在雨夜拍摄小巷的低角度视图,则扩散模型将相应地显示细节。注入物理定律:通过在训练过程中引入精确注释的 3D 合成数据,模型学习空间遮挡和材质反射等规则,以避免生成违反重力和碰撞逻辑的内容。3、协作接口:综合状态空间规划层和渲染层通过综合状态空间交换信息。规划器为未来的帧生成几何和语义约束。渲染器相应地生成像素,并将生成的结果发送给规划器以优化后续规划。这种闭环解决了扩散模型中“创建后忘记”的缺陷。简而言之,Utopai的进步在于构建了一个集成自回归和扩散模型的协作架构。通过“规划与渲染”分离的协作范式,将人工智能从“成像工具”升级为“叙事协作伙伴”。训练方法:从2D统计到3D物理。 Utopai 模型功能的基础是其独特的训练策略。训练的核心是将2D像素统计数据转化为3D物理。 1.预训练阶段:几何和语义调整。通过使用高质量的 3D借助合成数据(虚拟城市、动态对象等),模型不仅要经过训练来绘制在线视频的像素分布,还要理解场景深度信息,例如材质属性、运动轨迹等。在创建“预测下一个状态”和“重建蒙版”等任务时,模型被迫推理对象的遮挡关系(例如角色避开桌子或椅子而不是穿过模型)。 2.调整阶段:多模式-遵循明确的指示。在此阶段,输入脚本和故事板等专门数据,训练模型将抽象指令(例如“宏伟的感觉”)转换为特定的视觉元素(例如低角度镜头和温暖的光影)。这种训练方法允许模型处理复杂的指令。例如,如果要求角色“从怀疑转向现实”,模型可以协调微表面压力的同步变化es、肢体语言和角色镜头焦点,而不是简单地替换面部表情图。可量化技能的技术优势:定义AI电影叙事新指标 目前AI视频领域常见的指标(如FVD评分、CLIP)主要衡量视觉保真度和文本合规性,但无法有效评估“叙事质量”。 Utopai的主要优势之一是建立了基于专业影视标准的内部评级体系,该体系在三个方面超越了传统解决方案: 1.一致性指标。与普通模型中角色特征在几秒钟后就会“漂移”的情况相比,Utopai的系统被设计为跨越数十甚至数百个镜头,同时保持身份、角色中心实体、场景配置和光影逻辑的稳定连续性。这种一致性并不仅仅意味着“不变”,而是按照历史逻辑,“理性演化”。” 2. 符合剧本指令 Utopai 可以量化生成内容与复杂剧本指令的吻合程度。例如,剧本要求角色从犹豫走向决断,AI 模型可以通过姿势、眼神、镜头语言、光影的协调变化,而不是僵化的面部表情,展现出符合表演逻辑的情绪变化。 3. 提高制作效率。这种结构可以极大优化专业影视制作的初始流程。管理人员可以精确控制制作结果。改变时间和空间规划(例如调整镜头路径)而不需要反复“拉卡”,将创意迭代周期从几周缩短为几天,Utopai的实践揭示了一条代表影视层面范式转变的技术路径,而不是取代扩散或AR,而是e化。通过架构创新实现专业化分工。在这里,AI不再是一个辅助工具,而是一个真正的创作伙伴,了解导演的愿景,能够以电影的层面思考。优托拍创始人兼首席执行官沉女士说道。 “人工智能可以创造无穷无尽的选择,但品味总是由会讲故事、有艺术审美的人来定义。”此次合作不仅是资本层面的合资,更是以韩国为战略中心,整合人工智能技术、计算基础设施和内容生态的系统设计。随着人工智能打破技术成本障碍,电影的未来将不再取决于预算的大小,而更多地取决于想象力的极限。曾经因无法拍摄而被搁置的史诗故事,或许正在拥抱人工智能影视,走向好莱坞大银幕。
特别提示:以上内容(含图片)及视频(如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体平台和专属服务网易号用户上传并发布。信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注