主流大语言模型的技术原理细节

这篇具有很好参考价值的文章主要介绍了主流大语言模型的技术原理细节。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

主流大语言模型的技术原理细节

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。
2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。
3. 大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大纲

主流大语言模型的技术原理细节

1. 大语言模型的细节

1.0 transformer 与 LLM

主流大语言模型的技术原理细节

1.1 模型结构

主流大语言模型的技术原理细节

1.2 训练目标

主流大语言模型的技术原理细节

1.3 tokenizer

主流大语言模型的技术原理细节

1.4 位置编码

主流大语言模型的技术原理细节

1.5 层归一化

主流大语言模型的技术原理细节

1.6 激活函数

主流大语言模型的技术原理细节

1.7 Multi-query Attention 与 Grouped-query Attention

主流大语言模型的技术原理细节

1.8 并行 transformer block

主流大语言模型的技术原理细节

1.9 总结-训练稳定性

主流大语言模型的技术原理细节

2. LLM 的分布式预训练

主流大语言模型的技术原理细节

2.0 点对点通信与集体通信

主流大语言模型的技术原理细节

2.1 数据并行

主流大语言模型的技术原理细节

2.2 张量并行

主流大语言模型的技术原理细节
主流大语言模型的技术原理细节

2.3 流水线并行

主流大语言模型的技术原理细节

2.4 3D 并行

主流大语言模型的技术原理细节

2.5 混合精度训练

主流大语言模型的技术原理细节

2.6 激活重计算

主流大语言模型的技术原理细节

2.7 ZeRO,零冗余优化器

主流大语言模型的技术原理细节

2.8 CPU-offload,ZeRO-offload

主流大语言模型的技术原理细节

2.9 Flash Attention

主流大语言模型的技术原理细节

2.10 vLLM: Paged Attention

主流大语言模型的技术原理细节

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

主流大语言模型的技术原理细节

3.1 prompt tuning

主流大语言模型的技术原理细节

3.2 prefix tuning

主流大语言模型的技术原理细节

3.3 adapter

主流大语言模型的技术原理细节

3.4 LLaMA adapter

主流大语言模型的技术原理细节

3.5 LoRA

主流大语言模型的技术原理细节

3.6 实验比较

主流大语言模型的技术原理细节

4. 参考文献

主流大语言模型的技术原理细节
  1. 分析 transformer 模型的参数量、计算量、中间激活、KV cache
  2. 【万字长文】LLaMA, ChatGLM, BLOOM 的高效参数微调实践
  3. FlashAttention:加速计算,节省显存, IO 感知的精确注意力

 

作者:spring文章来源地址https://www.toymoban.com/news/detail-711883.html

到了这里,关于主流大语言模型的技术原理细节的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包