Open Sora 发布!开源的高效复现类 Sora 视频生成方案

这篇具有很好参考价值的文章主要介绍了Open Sora 发布!开源的高效复现类 Sora 视频生成方案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

不久前 OpenAI Sora 的发布可以说是震惊了世界,但是奈何目前 OpenAI 还未将 Sora 开放公测,但在昨天,我们却等来了 Open Sora 1.0 的发布,这是 Colossal-AI 团队的一个完全开源的视频生成项目,致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采用开源原则,Open-Sora 不仅实现了先进视频生成技术的低成本普及,还提供了一个精简且用户友好的方案,简化了视频制作的复杂性。

模型训练报告

以下是 Colossal-AI 团队提供的模型训练报告:

为了降低计算成本,我们希望利用现有的 VAE 模型。 Sora 使用时空 VAE 来减少时间维度。然而目前还没有开源的高质量时空 VAE 模型。 MAGVIT 的4x4x4 VAE 不是开源的,而 VideoGPT 的 2x4x4 VAE 在我们的实验中质量较低。因此,我们决定在第一个版本中使用 2D VAE(来自 Stability-AI)。

视频训练涉及大量的 token。考虑 24fps 1 分钟视频,我们有 1440 帧。通过 VAE 下采样 4 倍和补丁大小下采样 2 倍,我们有 1440x1024≈1.5M 令牌。完全关注 150 万个代币会导致巨大的计算成本。因此,我们使用时空注意力来降低 Latte 之后的成本。

如图所示,我们在 STDiT 中的每个空间注意力之后插入一个时间注意力(ST 代表空间-时间)。这与 Latte 论文中的变体 3 类似。然而,我们不控制这些变体的类似数量的参数。虽然 Latte 的论文声称他们的变体比变体 3 更好,但我们对 16x256x256 视频的实验表明,在相同的迭代次数下,性能排名为:DiT(完整)> STDiT(顺序)> STDiT(并行)≈ Latte。因此,出于效率考虑,我们选择STDiT(顺序)。此处提供了速度基准。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

为了专注于视频生成,我们希望基于强大的图像生成模型来训练模型。 PixArt-α 是一种经过有效训练的高质量图像生成模型,具有T5条件DiT结构。我们用 PixArt-α 初始化模型,并将插入时间注意力的投影层初始化为零。这种初始化保留了模型在开始时生成图像的能力,而 Latte 的架构则不能。插入的 attention 使参数数量从580M增加到724M。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

借鉴 PixArt-α 和 Stable Video Diffusion 的成功经验,我们还采用渐进式训练策略:在 366K 预训练数据集上使用 16x256x256,然后在 20K 数据集上使用 16x256x256、16x512x512 和 64x512x512。通过缩放位置嵌入,该策略大大降低了计算成本。

我们还尝试在 DiT 中使用 3D 补丁嵌入器。然而,在时间维度上进行 2 倍下采样,生成的视频质量较低。因此,我们在下一个版本中将下采样留给时间 VAE。目前,我们在 16 帧训练中每 3 帧采样一次,在 64 帧训练中每 2 帧采样一次。

我们发现数据的数量和质量对生成视频的质量有很大的影响,甚至比模型架构和训练策略还要大。此时,我们只准备了 HD-VG-130M 的第一个分割(366K 视频剪辑)。这些视频的质量参差不齐,而且字幕也不太准确。因此,我们进一步从提供免费许可视频的 Pexels 收集了 20k 个相对高质量的视频。我们使用 LLaVA(一种图像字幕模型)来标记视频,其中包含三个帧和一个设计好的提示。通过精心设计的提示,LLaVA 可以生成高质量的字幕。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

随着我们更加重视数据的质量,我们准备在下一个版本中收集更多数据并构建视频预处理管道。

最新成果展示

以下是经过压缩的视频 gif 动图以及简化的提示词:

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

森林地区宁静的夜景。 该视频是一段延时视频,捕捉从白天到黑夜的过渡,以湖泊和森林作为恒定的背景。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

翱翔的无人机镜头捕捉到了海岸悬崖的雄伟美景,水轻轻地拍打着岩石底部和悬崖顶部的绿色植物。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

瀑布从悬崖上倾泻而下,注入宁静的湖泊,景色雄伟壮观。以相机角度提供了瀑布的鸟瞰图。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

夜晚繁华的城市街道,充满了汽车前灯的光芒和路灯的氛围光。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

向日葵田充满活力的美丽。向日葵排列整齐,营造出秩序感和对称感。

Open Sora 发布!开源的高效复现类 Sora 视频生成方案,开源,github,ai,视频

宁静的水下场景,海龟在珊瑚礁中游动。乌龟,有着绿棕色的壳。

项目开源地址:https://github.com/hpcaitech/Open-Sora

团队表示 Open-Sora 项目目前处在早期阶段,并将持续更新。

往期推荐

一键升级 ChatGPT Plus

注册与订阅 OnlyFans

如何发展副业文章来源地址https://www.toymoban.com/news/detail-843788.html

到了这里,关于Open Sora 发布!开源的高效复现类 Sora 视频生成方案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

原文地址:https://blog.csdn.net/weixin_50377901/article/details/136826187

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Latte:一个类似Sora的开源视频生成项目

    前段时间OpenAI发布的Sora引起了巨大的轰动,最长可达1分钟的高清连贯视频生成能力秒杀了一众视频生成玩家。因为Sora没有公开发布,网上对Sora的解读翻来覆去就那么多,我也不想像复读机一样再重复一遍了。 本文给大家介绍一个类似Sora的视频生成项目:Latte。为什么说它

    2024年03月11日
    浏览(12)
  • 详细解读开源版Sora视频生成模型Latte

    Diffusion Models专栏文章汇总:入门与实战 前言 :OpenAI的视频生成模型Sora一经发布就广受全世界的瞩目,上海人工智能实验室最近推出了一个基于Diffusion Transformer的结构的模型Latte,堪称最接近Sora原理的视频生成模型。这篇博客就详细解读Latte,并从中窥探Sora的神秘面纱。 目

    2024年04月14日
    浏览(1)
  • OpenAI Sora引领AI跳舞视频新浪潮:字节跳动发布创新舞蹈视频生成框架

    OpenAI的Sora已经引起广泛关注,预计今年AI跳舞视频将在抖音平台上大放异彩。下面将为您详细介绍一款字节跳动发布的AI视频动画框架。 技术定位 :这款框架采用先进的diffusion技术,专注于生成人类舞蹈视频。它不仅能够实现人体动作和表情的迁移,还能保持身份信息的准确

    2024年02月22日
    浏览(17)
  • AI日报:北大Open Sora视频生成更强了;文心一言可以定制你自己的声音;天工 SkyMusic即将免费开放;

    🤖📱💼AI应用 北大Open  Sora 视频生成更强了!时长可达10秒,分辨率更高 【AiBase提要:】 ⭐️ Open-Sora-Plan v1.0.0模型发布 显著提升视频生成质量和文本控制能力 ⭐️ 支持华为昇腾910b芯片,提升运行效率和质量。 ⭐️ 该模型能够生成10秒、24FPS的1024×1024高清视频,同时还支持

    2024年04月10日
    浏览(12)
  • 精炼爆炸性新闻!OpenAI发布革命性AI视频生成模型Sora:实现长达60秒的高清视频创作「附AIGC行业系统搭建」

    在人工智能领域,每一次技术革新都引领着未来的发展方向。OpenAI,作为全球领先的人工智能研究机构,再次证明了其在推动AI技术革新方面的领导地位。近日,OpenAI宣布推出了一款革命性的AI视频生成模型——Sora,这一大胆的创新举措,无疑将AI视频生成技术推向了一个新的

    2024年02月20日
    浏览(14)
  • OpenAI 最新发布的从文本生成视频模型 Sora 炸裂登场,它能根据文字指令创造逼真且富有想象力的场景

    🍉 CSDN 叶庭云 : https://yetingyun.blog.csdn.net/ 此页面上的所有视频均由 Sora 直接生成,未经修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要

    2024年02月19日
    浏览(12)
  • OpenAI全新发布文生视频模型:Sora!

    OpenAI官网原文链接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20      我们探索视频数据生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空Patche

    2024年02月19日
    浏览(10)
  • 重磅!OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

    OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!! 初七啦,得开始工作了,没想到第一天就这么劲爆! 今天OpenAI迎来重大更新——发布视频模型Sora!! 官网Sora (openai.com) 说实话有点惊艳,在AI圈子里好多头部内容创作者看到都禁不住国粹了! 除了能够仅根据文本

    2024年02月20日
    浏览(9)
  • 全面解读视频生成模型Sora

    2024年2月15日,OpenAI在其官网发布了《Video generation models as world simulators》的报告,该报告提出了作为世界模拟器的 视频生成模型Sora 。 OpenAI对Sora介绍如下: We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images

    2024年02月21日
    浏览(10)
  • sora生成高质量视频的原理

    Sora 是 OpenAI 在日前发布的超强视频生成 AI,旨在探索 AI 如何在理解真实世界运动和交互方面做得更好 Sora目前无灰度体验 Sora面对的挑战就像是需要处理和理解来自世界各地、不同设备拍摄的数以百万计的图片和视频。这些视觉数据在 分辨率、宽高比、色彩深度 等方面都存

    2024年02月21日
    浏览(8)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包