MiniGPT-4开源了:看图聊天、教学、创作、搭网站

这篇具有很好参考价值的文章主要介绍了MiniGPT-4开源了:看图聊天、教学、创作、搭网站。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

服务器系列



前言

一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。

尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。

近日,来自阿卜杜拉国王科技大学的研究团队,便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源。

据介绍,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等。

MiniGPT4

MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的,它能够提供类似于GPT4的图像理解,以及对话的能力,抢先一步感受图像对话的强大之处。那我们先来看一下它的演示视频,这个项目有几个特点:

第一就是多模态 也就是能够读懂图片 在这个示例中呢 它可以回答图片是关于什么内容的 有多少种颜色甚至能够说明这个图片是属于什么风格的。GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型 (LLM)。MiniGPT-4,它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐。我们的研究结果表明,MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能,例如详细的图像描述生成和从手写草稿创建网站。此外,我们还观察到 MiniGPT-4 中的其他新兴功能,包括根据给定的图像写故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。

第二点 高级大型语言模型,增强视觉语言理解。

第三点 低成本,仅仅用了4块的A100GPU, 训练了仅仅10个小时,绝对称得上是迷你。

第四点就是整个项目是开源的。
MiniGPT-4开源了:看图聊天、教学、创作、搭网站
它使用了更先进的大模型语言,也就是说未来在图像声音视频等等领域呢,基于这些大模型所制造出来的应用 ,实际的效果呢应该都不会太差。 这个项目也证实了 ,大语言模型在图像领域的可行性。 接下来呢相信应该会有不少的开发者跑步入场 ,将GPT4的能力进一步的往音频视频等等领域延伸, 让我们可以看到更多有趣令人惊艳的AI应用程序。

试用地址:https://3228d8146e5c39b4be.gradio.live/

效果展示

MiniGPT-4开源了:看图聊天、教学、创作、搭网站
MiniGPT-4开源了:看图聊天、教学、创作、搭网站
MiniGPT-4开源了:看图聊天、教学、创作、搭网站
MiniGPT-4开源了:看图聊天、教学、创作、搭网站
在技术层面上,MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且,MiniGPT-4 只需要训练线性层,使视觉特征与 Vicuna 保持一致。

有 Y Combinator 用户这样评价 MiniGPT-4,“在技术层面上,他们正在做一些非常简单的事情…但结果非常惊人。最重要的是,它在 OpenAI 的 GPT-4 图像模态之前出现。(这是)开源 AI 的真正胜利。”

也有用户表示,“我认为他们为一个不相关的项目使用 GPT-4 名称是一种糟糕的形式。毕竟,底层的 Vicuna 只是一个微调的 LLaMA。另外,他们使用了较小的 13B 版本。然而,结果看起来很有趣。”

项目地址:
https://minigpt-4.github.io/

GitHub地址:
https://github.com/Vision-CAIR/MiniGPT-4文章来源地址https://www.toymoban.com/news/detail-429077.html

到了这里,关于MiniGPT-4开源了:看图聊天、教学、创作、搭网站的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • MiniGPT-4,开源了!

    MiniGPT-4,开源了!

    上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息。 当时的分享就提到了GPT-4的一个重要特性,那就是 多模态能力 。 比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。 GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。 再比如给

    2024年02月01日
    浏览(11)
  • MiniGPT4,开源了。

    MiniGPT4,开源了。

    大家好,我是 Jack。   一个月前,我发布过一篇文章,讲解了 GPT4 的发布会。 ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。 你还记不记得发布会上,GPT4 的多模态能力

    2023年04月26日
    浏览(13)
  • MiniGPT4,开源了

    MiniGPT4,开源了

    MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。 具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视

    2023年04月23日
    浏览(12)
  • GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

    GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源

    项目地址 :https://minigpt-4.github.io/  论文链接 :https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf 代码 :https://github.com/Vision-CAIR/MiniGPT-4 视频 :https://youtu.be/__tftoxpBAw 数据集 :https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view Demo地址 :https://6b89c70eb5e14dca33.gradio.live/ Demo备

    2024年02月06日
    浏览(12)
  • Chat GPT 使用教学,文字创作、学习

    私 信 我,获 取 c h a t g p t 账 号,并 手 把 手 带 你 提 升 工 作 学 习 效 率。 大纲、目录、标题、内容 写出10个即将被AI取代的工作的文章标题

    2024年02月09日
    浏览(10)
  • GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

    GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

    来源 | 新智元  微信号:AI-era 先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的多模态能力。 不光能读懂人类的梗,给个手绘草图甚至可以直接写出网站的代码,彻底颠覆了对语言模型、视觉模型能力边界的认知。 GPT-

    2024年02月01日
    浏览(12)
  • MiniGPT-4开源了,史无前例的AI图片内容分析,甚至能用于逻辑验证码推理识别

    MiniGPT-4开源了,史无前例的AI图片内容分析,甚至能用于逻辑验证码推理识别

    https://github.com/Vision-CAIR/MiniGPT-4 https://minigpt-4.github.io/ 出结果较慢,建议图片小一点,并且提示文字尽可能简短 The man in the image is wearing a white tank top and shorts. He is standing on a rocky cliff overlooking a body of water with mountains in the background. The man is holding a cell phone in his hand and appears to

    2024年02月08日
    浏览(11)
  • 自适应AI chatgpt智能聊天创作官网html源码

    自适应AI chatgpt智能聊天创作官网html源码

    我们致力于开发先进的自适应AI智能聊天技术,旨在为用户提供前所未有的聊天体验。通过融合自然语言处理、机器学习和深度学习等领域的顶尖技术,我们的智能聊天系统能够准确理解用户的需求并给出相应的回应。 我们的自适应AI智能聊天系统具备以下核心特点: 智能理

    2024年02月12日
    浏览(8)
  • 基于TCP协议的聊天室详细教学(C++)

    基于TCP协议的聊天室详细教学(C++)

    服务器只转发消息不参到信息交流中 客户端输入用户名后默认进入群聊模式,输入“获取用户列表”可以获取在线用户用户名列表,如果需要私聊某一个用户需要输入“私聊+用户名”可进入私聊模式,输入“退出私聊”可退出私聊重新进入群聊模式。 基本群聊展示 获取用户

    2024年02月08日
    浏览(12)
  • 《MidJourney零基础教学:在线提示词查询字典》:为你的创作之路增添更多的惊喜和乐趣

    《MidJourney零基础教学:在线提示词查询字典》:为你的创作之路增添更多的惊喜和乐趣

    作为一个创作者,我们时常会遇到灵感枯竭的情况。在这种时候,《MidJourney零基础教学:在线提示词查询字典》就像一个魔法宝盒,可以给我们带来更多的惊喜和乐趣!无论你是小白还是老手,在创作中使用《MidJourney零基础教学:在线提示词查询字典》都能快速提升你的表

    2024年02月17日
    浏览(15)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包