LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP

这篇具有很好参考价值的文章主要介绍了LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目的：大模型预训练+微调范式，微调成本高。adapter只只微调新增的小部分参数【但adapter增加了模型层数，引入了额外的推理延迟。】

Adapters最初来源于CV领域的《Learning multiple visual domains with residual adapters》一文，其核心思想是在神经网络模块基础上添加一些残差模块，并只优化这些残差模块，由于残差模块的参数更少，因此微调成本更低。
Houlsby等人将这一思想应用到了自然语言处理领域。他们提出在Transformer的注意力层和前馈神经网络（FFN）层之后添加全连接网络。微调时，只对新增的 Adapter 结构和 Layer Norm 层进行微调，从而保证了训练的高效性。每当出现新的下游任务，通过添加Adapter模块来产生一个易于扩展的下游模型，从而避免全量微调与灾难性遗忘的问题。
Adapters Tuning效率很高，通过微调不到4%的模型参数，可以实现与 fine-tuning相当的性能。

LLM微调 | Adapter: Parameter-Efficient Transfer Learning for NLP,# LLM微调,算法岗面试,大模型,llm,微调,adapter,自然语言处理,人工智能,深度学习
左图：在每个Transformer layer中两次添加adapter——在多头注意力后的投影之后和在两个前馈层之后。
右图：adapter是一个bottleneck结构，包括两个前馈子层（Feedforward）和跳连接（ skip-connection）。文章来源地址https://www.toymoban.com/news/detail-622285.html