聊聊多模态大模型处理的思考

这篇具有很好参考价值的文章主要介绍了聊聊多模态大模型处理的思考。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote

多模态:文本、音频、视频、图像等多形态的展现形式。
目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下,审视下多模态大模型的实现方式。
首先就要区分输入与输出,即输入的模态与输出的模态。从目前来看,模型的输出大多都是文本,模型的输入一般是图片/文本;但少数的大模型比如QWen、讯飞星火等支持语音的输入。

输入

对于输入来说,最需要考虑的就是Embedding。
不管是哪种大模型,其最终的输入都是张量数字的形式;其模型的结构都是神经网络模型,而神经网络模型计算的单位是张量。这中间就需要一个转换过程,也就是最常用听到看到的Embedding。

Embedding的作用是巨大的,不论是在深度学习领域还是推荐系统领域、搜索引擎领域等等;而且也衍生出向量数据库的概念;存的就是这些Embedding后的张量。

多模态基座模型

即原生基座模型,比如GLM、LlaMa2、QWen、文心一言等基座模型支持多模态的输入输出,从个人调研来看,GLM、文心一言对这方面的支持比较弱,仅支持文本/图像;LlaMa2有开源的实现支持文本/图像/音视频;QWen是最全的,阿里对其支持很到位,而且在魔塔社区,阿里开源了很多的音视频模型,还是蛮强大覆盖很全的。
以Llama2实现为例,官方地址:Video-LLaMA;其架构图如下:
architecture_v2.png
输入的Embedding化都在模型内部已处理完毕,我们无需考虑。
魔塔社区/HuggingFace上,已经开源了很多高质量的多模态模型,截个图展示下:
image.png

文本化处理

使用开源/商务组件处理输入的内容,将其文本化,再输入到模型中;然后再经历输入部分的流程。

但对于这类的处理来说,需要考虑的问题还是比较多:

  1. 组件转换文本的准确性
  2. 组件转换的损失
  3. 大模型中Embedding组件将输入文本Embedding化时的损失

第一点不用叙述;
第二点,如果组件的处理不到位,遗漏了一些语气词或是某些情感词之类的,对输出文本的内容表达、语义表达将产生一定的损失。
第三点,如果转换后的文本语义与文本内容不对应,比如同音词或是生僻字的情况下,导致Embedding化时产生一定的损失。

Embedding化处理

利用某种Embedding模型,将输入的内容直接Embedding化,生成张量后,直接丢进大模型中。
在这里需要考虑两点:

  1. 大模型支持Embedding的输入
  2. Embedding组件与大模型内置的Embedding组件要一致

大模型训练时,有自己的内置的Embedding组件,如果输入时的Embedding组件产生的张量与训练时的Embedding张量不一致,这就是两种不同的Embedding组件导致的问题,其最终的效果将会大打折扣。

输出

模型的输出虽然最终也是经过处理后,生成文本;但这就已经很满足绝大多数的需求。
而对于很多场景下,比如我们的场景需要再制定角色语音包,也是很好处理的。这个过程其实就是语音合成的过程。比如,开车导航时的语音包,有不同的人物声音,这都是语音合成处理的。

总结

最终来看,第一个方案肯定是最合适的;但如果对于选型的大模型不支持多模态的情况下,考虑开源实现或是第二张方案,但要综合调研其带来的影响,并不是简单的转文本就行。第三种,目前我没有找到合适的Embedding模型支持多模态,后续继续探讨挖掘下。

转载请注明出处:https://www.cnblogs.com/zhiyong-ITNote

首发于个人公众号
聊聊多模态大模型处理的思考文章来源地址https://www.toymoban.com/news/detail-843556.html

到了这里,关于聊聊多模态大模型处理的思考的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-3和自然语言处理的前沿:思考AI大模型的发展

    自然语言处理(NLP)是人工智能(AI)领域中最富有挑战性和活跃的研究领域之一。近年来,随着深度学习技术的发展和计算能力的提高,大型语言模型,尤其是OpenAI的GPT-3,已成为推动该领域进步的核心力量。本文将详细探讨GPT-3模型的架构、应用和对NLP的影响,同时思考

    2024年04月24日
    浏览(3)
  • 关于单测技术选型,聊聊我的思考

    2023年04月11日
    浏览(0)
  • 利用pytorch自定义CNN网络(五):保存、加载自定义模型【转载】

    本文转载自: PyTorch | 保存和加载模型 本文主要介绍如何加载和保存 PyTorch 的模型。这里主要有三个核心函数: torch.save :把序列化的对象保存到硬盘。它利用了 Python 的 pickle 来实现序列化。模型、张量以及字典都可以用该函数进行保存; torch.load:采用 pickle 将反序列化的

    2024年02月13日
    浏览(2)
  • 聊聊自然语言处理NLP

    自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。 NLP工具的实现一般是基于机器学习与深度学习、其它

    2024年02月14日
    浏览(2)
  • Java 异常处理:使用和思考

    异常处理的概念起源于早期的编程语言,如 LISP、PL/I 和 CLU。这些编程语言首次引入了异常处理机制,以便在程序执行过程中检测和处理错误情况。异常处理机制随后在 Ada、Modula-3、C++、Python、Java 等编程语言中得到了广泛采用和发展。在 Java 中,异常处理是提供一种在程序运

    2023年04月09日
    浏览(1)
  • 大白话聊聊“深度学习”和“大模型”

    1950年图灵发表论文《计算机器与智能》( Computing Machinery and Intelligence),提出了“机器智能”(Machine Intelligent)的概念,并且提出了著名的“图灵测试”的方法来判断机器是否有智能。 1956年,达特茅斯会议,“人工智能”(Artificial Intelligent)概念被首次提出,人工智能作

    2024年02月02日
    浏览(2)
  • 多模态模型技术综述

    多模态学习是指从不同输入模态学习表示的过程,例如图像数据、文本或语音。由于自然语言处理(NLP)和计算机视觉(CV)领域的方法学突破,多模态模型因其能够增强预测和更好地模拟人类学习的方式而受到越来越多的关注。本文重点讨论图像和文本作为输入数据。该文

    2024年02月04日
    浏览(2)
  • 多模态大型语言模型综述

    Authors: Davide Caffagni ; Federico Cocchi ; Luca Barsellotti ; Nicholas Moratelli ; Sara Sarto ; Lorenzo Baraldi ; Lorenzo Baraldi ; Marcella Cornia ; Rita Cucchiara Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are bei

    2024年02月22日
    浏览(2)
  • 【多模态】CLIP模型

    Title : Learning transferable visual models from natural language supervision 作者 :Alec Radford * 1 Jong Wook Kim * 1 Chris Hallacy 1 Aditya Ramesh 1 Gabriel Goh 1 Sandhini Agarwal Girish Sastry 1 Amanda Askell 1 Pamela Mishkin 1 Jack Clark 1 Gretchen Krueger 1 Ilya Sutskever 1 发表单位 :OpenAI, San Francisco :clip、多模态 论文:

    2023年04月10日
    浏览(1)
  • 聊聊 神经网络模型 示例程序——数字的推理预测

    之前学习了解过了神经网络、CNN、RNN、Transformer的内容,但除了在魔塔上玩过demo,也没有比较深入的从示例去梳理走一遍神经网络的运行流程。从数字推测这个常用的示例走一遍主流程。 MNIST是机器学习领域 最有名的数据集之一,被应用于从简单的实验到发表的论文研究等各

    2024年02月05日
    浏览(1)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包