为什么ChatGPT用强化学习而非监督学习？

这篇具有很好参考价值的文章主要介绍了为什么ChatGPT用强化学习而非监督学习？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

为什么ChatGPT非得用强化学习，而不直接用监督学习？原因不是那么显而易见。在上周发布的《John Schulman：通往TruthGPT之路》一文中，OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习（RLHF）方面的进展，分析了监督学习和强化学习各自存在的挑战。

基于Schulman的演讲内容，以色列巴伊兰大学教授Yoav Goldberg对强化学习在大型语言模型应用必要性作了深度解读，进一步对比论证了监督学习与强化学习的特点，并为未来改进提供了思路。

Goldberg在2011年获得本古里安大学博士学位，他也是艾伦人工智能研究所以色列分部的研究主管，他也曾在Google（纽约）研究院担任研究科学家。他在NLP领域深耕十多年，在词汇语义学、句法分析及对基于深度学习的语言处理等领域作出了突出贡献。

（以下内容由OneFlow编译发布，转载请联系OneFlow获得授权。来源：https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81）

作者｜Yoav Goldberg

OneFlow编译

翻译｜贾川、徐佳渝、杨婷

1
为何使用强化学习？

随着ChatGPT等大型语言模型的发布，人们对“RLHF训练（即基于人类反馈的强化学习训练）”的重要性进行了诸多讨论。在训练语言模型方面，我一度困惑于为什么强化学习比从演示中学习（也称为监督学习）更好，难道从演示中学习（或根据语言模型术语中的“指令微调”，学习模仿人类写的回答）还不够？

我提出了一个有说服力的理论论据。不过我意识到还有另一个论点，它不仅支持强化学习训练，而且尤其适用于ChatGPT等模型。OpenAI的John Schulman在其演讲的前半部分进行了详细论述。本文的大部分内容都引用了John的论点，但增加了一些他没有明确表述的内容（不过我确信这些内容都是John考虑过的）。

本文提供了大量背景知识，以确保读者可以更好地理解文章内容。如果你想了解文章重点，可以直接看“核心论证”部分。

2
背景：监督学习vs强化学习

简要地解释一下这两种学习场景，以便我们能够达成共识。如果你已经了解了这些内容，可以跳过此部分。

预训练：在这两种设置中，首先我们假设语言模型在大量的文本上进行预训练，以预测下一个token。因此，对于每个词序列，我们有一个模型可对潜在的下一个词的选项分配概率。通过这种方式，模型会获得语言的某种内部表示。

经过这一过程，模型的生成文本能力会变强，且能够根据给定文本前缀&#文章来源地址https://www.toymoban.com/news/detail-449835.html

到了这里，关于为什么ChatGPT用强化学习而非监督学习？的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！