【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

这篇具有很好参考价值的文章主要介绍了【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

LLama

  • [GPT3] 使用RMSNorm(即Root Mean square Layer
    Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer
    normalization。
  • [PaLM]使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。
  • [GPTNeo]使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced
    transformer with rotary position embedding。
  • 使用了AdamW优化器,并使用cosine learning rate schedule,
  • 使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers

Palm

  • 采用SwiGLU激活函数:用于 MLP 中间激活,采用SwiGLU激活函数:用于 MLP 中间激活,因为与标准 ReLU、GELU
    或 Swish 激活相比,《GLU Variants Improve Transformer》论文里提到:SwiGLU
    已被证明可以显著提高模型效果
  • 提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B
    中一样,使用的是标准“序列化”公式。并行公式使大规模训练速度提高了大约 15%。消融实验显示在 8B 参数量下模型效果下降很小,但在
    62B 参数量下没有模型效果下降的现象。
  • Multi-Query Attention:每个头共享键/值的映射,即“key”和“value”被投影到 [1,
    h],但“query”仍被投影到形状 [k, h],这种操作对模型质量和训练速度没有影响,但在自回归解码时间上有效节省了成本。
  • 使用RoPE embeddings:使用的不是绝对或相对位置嵌入,而是RoPE,是因为 RoPE 嵌入在长文本上具有更好的性能 ,
  • 采用Shared Input-Output Embeddings:输入和输出embedding矩阵是共享的,这个我理解类似于word2vec的输入W和输出W’:

GLM

  • Layer Normalization的顺序和残差连接被重新排列,
  • 用于输出标记预测的单个线性层;
  • ReLU s替换为GELU s
  • 二维位置编码

BLOOM

【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

  • 使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。 与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。
    【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

  • Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。

  • 使用了 25 万个标记的词汇表。 使用字节级 BPE。 这样,标记化永远不会产生未知标记

  • 两个全连接层:
    【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比

GPT

GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention,如下图所示:
【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比文章来源地址https://www.toymoban.com/news/detail-491782.html

到了这里,关于【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 大模型之Bloom&LLAMA----SFT(模型微调)

    随着chatgpt的爆火,最近也有很多大模型在不断地出现,比如说Bloom系列以及以LLAMA为基础的ziya和baichuan。这些模型相较于chatglm来说,更加具有发展前景,因为其是完全可商用,并可以不断迭代更新的。最近作者在跟着hiyouga大佬的LLaMA-Efficient-Tuning进行学习,相较于其他的项目

    2024年02月12日
    浏览(8)
  • LLM-SFT,新微调数据集-MWP-Instruct(多步计算 + 一、二元方程),微调Bloom, ChatGLM, LlaMA(支持QLoRA, TensorBoardX)

    中文大模型微调(LLM-SFT), 支持模型(ChatGLM, LlaMA, Bloom), 支持(LoRA, QLoRA, DeepSpeed, UI, TensorboardX), 支持(微调, 推理, 测评, 接口)等. https://github.com/yongzhuo/LLM-SFT 原始数据来自https://github.com/LYH-YF/MWPToolkit 处理后的微调数据(多步计算+一/二元解方程)-MWP: https://huggingface.co/datasets/Macropodus/

    2024年02月12日
    浏览(13)
  • 利用LLM模型微调的短课程;钉钉宣布开放智能化底座能力

    利用LLM模型微调的短课程;钉钉宣布开放智能化底座能力

    🦉 AI新闻 🚀 钉钉宣布开放智能化底座能力AI PaaS,推动企业数智化转型发展 摘要 :钉钉在生态大会上宣布开放智能化底座能力AI PaaS,与生态伙伴探寻企业服务的新发展道路。AI PaaS结合5G、云计算和人工智能技术的普及和应用,推动企业数字化转型进入新时代。钉钉的解决

    2024年02月11日
    浏览(10)
  • 大模型之Bloom&LLAMA----Pre-Training(二次预训练)

    随着chatgpt的爆火,最近也有很多大模型在不断地出现,比如说Bloom系列以及以LLAMA为基础的ziya和baichuan。这些模型相较于chatglm来说,更加具有发展前景,因为其是完全可商用,并可以不断迭代更新的。最近作者在跟着hiyouga大佬的LLaMA-Efficient-Tuning进行学习,相较于其他的项目

    2024年02月14日
    浏览(12)
  • GPT与R语言回归模型(lm&glm)、混合效应模型、多元统计分析

    自2022年GPT(Generative Pre-trained Transformer)大语言模型的发布以来,它以其卓越的自然语言处理能力和广泛的应用潜力,在学术界和工业界掀起了一场革命。在短短一年多的时间里,GPT已经在多个领域展现出其独特的价值,特别是在数据统计分析领域。GPT的介入为数据处理、模

    2024年04月10日
    浏览(9)
  • 全面对比GPT-3.5与LLaMA 2微调

    全面对比GPT-3.5与LLaMA 2微调

    通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。 本文作者Sam L\\\'Huillier对GPT-3.5与LLaMA 2的微调进行了基准测试,以验证手动微调的模型能否以较低的成本接

    2024年02月08日
    浏览(13)
  • 【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍!

    【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍!

    Llama 2 发布! Meta 刚刚发布了 LLaMa 2,它是 LLaMA 的下一代版本,具有商业友好的许可证。🤯😍 LLaMA 2 有 3 种不同的尺寸:7B、13B 和 70B。 7B 13B 使用与 LLaMA 1 相同的架构,并且是商业用途的 1 对 1 替代🔥 🧮 7B、13B 70B 参数版本 🧠 70B模型采用分组查询注意力(GQA) 🛠 聊天模

    2024年02月16日
    浏览(10)
  • LLM:LLaMA模型和微调的Alpaca模型

    LLM:LLaMA模型和微调的Alpaca模型

    简单了解[LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了] 论文原文:https://arxiv.org/abs/2302.13971v1 模型就是用的transformer的decoder,模型设计的不同点在于: 1 Position Embedding :RoPE旋转位置编码rotary-embedding 删除了绝对位置嵌入,而是在网络的每一层添加了

    2024年02月10日
    浏览(15)
  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA-7B模型测试

    llama.cpp LLM模型 windows cpu安装部署;运行LLaMA-7B模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月15日
    浏览(11)
  • LLM__llama-7B模型试验

    LLM__llama-7B模型试验

    llama模型已经开源很久了,所以拿做小的模型做了个简单尝试 因为做简单尝试并不打算长期持有,所以以便宜、够用、好退货为主要参考依据购买阿里云服务器、 我看7B的模型权重大小就13GB,所以先购入一个 32GB内存的虚拟机 CPU内存: 4核(vCPU) 32 GiB ~ 操作系统: Alibaba Cloud Lin

    2024年02月09日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包