【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界

这篇具有很好参考价值的文章主要介绍了【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原作:Jamie W

引言:当我第一次看到Sora演示视频时,我产生了一个惊人的想法:这个奇迹是否是由UE5和Render的结合驱动的?还有其他什么方式可以如此生动地呈现出咖啡杯海盗船上汹涌澎湃的海洋或者速度飞驰汽车后面翻滚扬尘呢?

/Gemini翻译/

【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界

然而,一位视觉算法专家迅速否定了我对Sora依赖像Unreal Engine或Blender等游戏引擎的想法。他澄清说,Sora操作时并不需要明确的物理模拟,就像ChatGPT在英语方面表现出色一样,并不受到语法严格规则的限制。这证明了Sora天生对物理和空间深度的把握。

一名来自a16z的投资者在Twitter上分享了一个流行但有缺陷的对Sora底层机制的分析,将其过程分解为使用CLIP作为基础,将文本转换为3D对象,并将这些对象与游戏引擎中的骨骼和路径进行集成以进行模拟。然后,结果据称被馈送到视频扩散模型中。

然而,任何熟悉 OpenAI Sora 技术报告的人都会看到其中的过度简化。

Sora 团队将他们的创作描述为“涌现能力”的产品——这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面,这是通过扩展训练实现的,由数万个 GPU 提供支持。从本质上讲,他们利用蛮力训练计算来创造奇迹。

Sora 的核心是 Diffusion Transformer,这是一个受大型语言模型 (LLMs) 启发的有远见的模型,旨在处理视觉数据。这涉及将视频数据压缩到时空补丁中,类似于 LLMs 理解的标记,然后对其进行训练并重新组装成新的高清视频序列。这种创新方法不仅简化了复杂的视频数据世界,而且还与 transformers 的处理能力保持一致,标志着从Unreal Engine 5(UE5)的手动精度到 Sora 的直观、数据驱动的见解的重大飞跃。

【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界

patches diagram

【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界

此外,Sora代表了向统一的视觉数据模型转变的趋势,能够生成图像和视频。这种多功能性扩展到各种功能,从文本、图像甚至其他视频生成视频,到增强和拼接视频。让Sora脱颖而出,真正令我印象深刻的是它在描绘角色、物体和场景方面的无与伦比的一致性,远远超过了诸如Runway和Stable Diffusion或Midjourney等图像生成器的能力。

正如我们在Midjourney等平台上看到的,要实现这种一致性往往需要利用种子、上传图像,甚至借助流行文化中知名人物的形象。然而,Sora毫不费力地超越了这些方法,给现有工具投下了长长的阴影,并有可能重塑设计人员的格局。这反映了这样一种观点:未来设计领域的分歧可能确实存在于那些精通像Sora这样的人工智能技术的人和尚未接受这些技术的人之间,这表明对传统艺术、3D建模和引擎开发角色产生了变革性的影响。文章来源地址https://www.toymoban.com/news/detail-843907.html

到了这里,关于【译】OpenAI 的 Sora 如何通过涌现能力反噬物理世界的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Sora:通过视频生成模型制造世界模拟器(世界模型)

    OpenAI官网介绍:Video generation models as world simulators OpenAI尝试在视频数据上探索生成模型的大规模训练,研究结果表明, 尺度可变视频生成模型是构建物理世界通用模拟器的有希望的途径 。(可变的视频时长、帧分辨率和长宽比) OpenAI从大型语言模型(LLM)中获得灵感,LLM通

    2024年02月20日
    浏览(27)
  • 【译】关于涌现能力的常见论点

    原作:Jason Wei 引言: 此博客文章不代表我的雇主OpenAI的立场(过去、现在或未来)。 /Gemini翻译/   我将回顾在讨论大型语言模型的涌现能力时出现的一些常见论点。去年,我们撰写了一篇立场文件,将涌现能力定义为“小语言模型中不存在但在大语言模型中存在的能力”。

    2024年03月26日
    浏览(17)
  • 【自然语言处理】【ChatGPT系列】大模型的涌现能力

    大语言模型的涌现能力 《Emergent Abilities of Large Language Models》 论文地址:https://arxiv.org/pdf/2206.07682.pdf 相关博客 【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里? 【自然语言处理】【ChatGPT系列】C

    2023年04月11日
    浏览(27)
  • 数字孪生如何实现物理世界和数字世界之间的交互?

    在当今数字化时代,技术的飞速发展正在引领着各行各业的变革与创新。其中,数字孪生作为一项令人振奋的前沿技术,正在以惊人的方式实现着物理世界与数字世界的无缝交互。它不仅为企业带来了全新的商机,也为科学研究、生产制造等领域带来了巨大的推动力。 数字孪

    2024年02月13日
    浏览(24)
  • 如何将OpenAI Sora生成的普通AI视频转化为Vision Pro的空间视频,沉浸式体验

    【基于AI的Vision Pro空间视频】工作流:这个工作流程用于将2D视频转换为适用于 Vision Pro的Spatial视频: 1、使用Deep3D将2D视频转换为3D SBS: 使用Deep3D工具将2D视频转换为3D SBS格式: 转换例子: Prediction– lucataco/deep3d – Replicate https://replicate.com/p/uxtucj3bk2y3dd4brmtph5nxtu 2、使用

    2024年02月20日
    浏览(27)
  • OpenAI全新发布文生视频模型:Sora!

    OpenAI官网原文链接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20      我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空Patche

    2024年02月19日
    浏览(25)
  • OpenAI 生成视频模型 Sora 论文翻译

    视频生成模型作为世界模拟器 本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。 许多先前的工作使用各种方法研究了视频数据的生成建模,包

    2024年02月20日
    浏览(31)
  • Sora是什么?Sora怎么使用?OpenAI最新文字转视频AI模型Sora,一句子生成60秒超逼画面

    Sora 是 OpenAI 开发的AI视频生成模型,它能够根据用户的文本描述生成 长达 60 秒 、1080P 高质量视频,其中包含 精细复杂的场景、生动的角色表情以及复杂的镜头运动 。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的

    2024年02月20日
    浏览(34)
  • Sora:继ChatGPT之后,OpenAI的又一力作

    关于Sora的报道,相信很多圈内朋友都已经看到了来自各大媒体铺天盖地的宣传了,这次,对于Sora的宣传,绝不比当初ChatGPT的宣传弱。自OpenAI发布了GPT4之后,就已经有很多视频生成模型了,不过这些模型要么生成的质量堪忧,要么生成的时间太短,比如Gen-2、Pika、Runway、Vi

    2024年02月19日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包