为什么ChatGPT用强化学习而非监督学习?

这篇具有很好参考价值的文章主要介绍了为什么ChatGPT用强化学习而非监督学习?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

为什么ChatGPT用强化学习而非监督学习?

为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见。在上周发布的《John Schulman:通往TruthGPT之路》一文中,OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习(RLHF)方面的进展,分析了监督学习和强化学习各自存在的挑战。

基于Schulman的演讲内容,以色列巴伊兰大学教授Yoav Goldberg对强化学习在大型语言模型应用必要性作了深度解读,进一步对比论证了监督学习与强化学习的特点,并为未来改进提供了思路。

Goldberg在2011年获得本古里安大学博士学位,他也是艾伦人工智能研究所以色列分部的研究主管,他也曾在Google(纽约)研究院担任研究科学家。他在NLP领域深耕十多年,在词汇语义学、句法分析及对基于深度学习的语言处理等领域作出了突出贡献。


(以下内容由OneFlow编译发布,转载请联系OneFlow获得授权。来源:https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81)

作者|Yoav Goldberg

OneFlow编译

翻译|贾川、徐佳渝、杨婷

1
为何使用强化学习?

随着ChatGPT等大型语言模型的发布,人们对“RLHF训练(即基于人类反馈的强化学习训练)”的重要性进行了诸多讨论。在训练语言模型方面,我一度困惑于为什么强化学习比从演示中学习(也称为监督学习)更好,难道从演示中学习(或根据语言模型术语中的“指令微调”,学习模仿人类写的回答)还不够?

我提出了一个有说服力的理论论据。不过我意识到还有另一个论点,它不仅支持强化学习训练,而且尤其适用于ChatGPT等模型。OpenAI的John Schulman在其演讲的前半部分进行了详细论述。本文的大部分内容都引用了John的论点,但增加了一些他没有明确表述的内容(不过我确信这些内容都是John考虑过的)。

本文提供了大量背景知识,以确保读者可以更好地理解文章内容。如果你想了解文章重点,可以直接看“核心论证”部分。

2
背景:监督学习vs强化学习

简要地解释一下这两种学习场景,以便我们能够达成共识。如果你已经了解了这些内容,可以跳过此部分。

预训练:在这两种设置中,首先我们假设语言模型在大量的文本上进行预训练,以预测下一个token。因此,对于每个词序列,我们有一个模型可对潜在的下一个词的选项分配概率。通过这种方式,模型会获得语言的某种内部表示。

经过这一过程,模型的生成文本能力会变强,且能够根据给定文本前缀&#文章来源地址https://www.toymoban.com/news/detail-449835.html

到了这里,关于为什么ChatGPT用强化学习而非监督学习?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 轻松学习ChatGPT:告诉你为什么它能改变你的生活

    轻松学习ChatGPT:告诉你为什么它能改变你的生活

    专栏:AI前线:AIGC与大模型的应用实例 作者: 无敌小怪兽Zz 更新: 2023.06.14    写在开头:关于ChatGPT的注册与使用这部分确实没办法直接在这里说,想学习使用的私信,免费!!!   人工智能(AI)已经悄然地融入我们的日常生活,极大地改变了我们的生活方式。其中,聊天

    2024年02月10日
    浏览(9)
  • ChatGPT 在做什么,为什么有效?

    原文:What Is ChatGPT Doing … and Why Does It Work? 译者:飞龙 协议:CC BY-NC-SA 4.0 这本简短的书试图从第一原理解释 ChatGPT 是如何工作的。在某种程度上,这是关于技术的故事。但它也是关于科学的故事。以及关于哲学的故事。为了讲述这个故事,我们将不得不汇集许多世纪以来的

    2024年04月09日
    浏览(11)
  • 为什么我选择订阅ChatGPT Plus计划?

    为什么我选择订阅ChatGPT Plus计划?

      订阅 ChatGPT Plus 计划后,我注意到响应速度明显加快。在高峰时段,普通用户可能会遇到一些延迟,但作为Plus会员,我可以享受到优先的服务。这对于我这样的繁忙专业人士来说,快速、高效的沟通至关重要。 作为 ChatGPT Plus 会员,我们可以第一时间体验到OpenAI团队开发的

    2024年02月05日
    浏览(6)
  • 为什么是ChatGPT引发了AI浪潮?

    为什么是ChatGPT引发了AI浪潮?

    目录 BERT和GPT简介 BERT和GPT核心差异 GPT的优势 GPT的劣势 总结 随着近期ChatGPT的火热,引发各行各业都开始讨论AI,以及AI可以如何应用到各个细分场景。为了不被时代“抛弃”,我也投入了相当的精力用于研究和探索。但在试验的过程中,我的直观感受是,NLP很厉害,但GPT并不

    2024年02月06日
    浏览(8)
  • Learn Prompt-为什么用 ChatGPT API?

    Learn Prompt-为什么用 ChatGPT API?

    引用人工智能先驱吴恩达先生说过的话:“一个系统需要的远不止一个提示(prompt)或者一个对LLM(大性语言模型)的调用。” API的优点: 集成更深: 通过 API,您可以将 ChatGPT 集成到自己的系统和工作流中,实现更深层次的定制和控制。 个性化的响应: 您可以根据特定需求

    2024年02月07日
    浏览(12)
  • ChatGPT是怎么实现的?为什么它这么有效?

    ChatGPT是怎么实现的?为什么它这么有效?

    ChatGPT 能够自动生成类似于人类写作的文本,这一点非常引人注目,也令人意外。但它是如何实现的?为什么它能够如此出色地生成我们认为有意义的文本?我的目的是在这里概述ChatGPT内部的运行情况,并探讨它能够如此出色地产生有意义文本的原因。 首先需要解释的是,

    2023年04月26日
    浏览(7)
  • 为什么说ChatGPT还不是搜索引擎的对手

    1950年,英国科学家图灵在一篇论文中预言,人类有可能创造出具有真正智能的机器。 著名的「图灵测试」就此诞生:如果一台机器能够与人类展开对话,而不被辨别出其机器身份,那么称这台机器具有智能。 也是从那时开始,人类世界开始了对人工智能长达半个多世纪的探

    2024年02月11日
    浏览(12)
  • ChatGPT对话为什么不用WebSocket而使用EventSource?

    ChatGPT对话为什么不用WebSocket而使用EventSource?

    🎉ChatGPT对话为什么不用WebSocket而使用EventSource? ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒🍹 ✨博客主页:IT·陈寒的博客 🎈该系列文章专栏:AIGC人工智能 📜其他专栏:Java学习路线 Java面试技巧 Java实战项目 AIGC人工智能 数据结构学习 🍹文章作者技术和水平有限,如果文中出现错

    2024年02月04日
    浏览(13)
  • 为什么说 ChatGPT 引爆第四次工业革命?

    为什么说 ChatGPT 引爆第四次工业革命?

    如果看不懂当下,请回忆历史,因为曾经发生过。 如果忘记了历史,请看看当下,因为历史正在重演。 我问佛:何为对的人? 佛说:一见你 ,就笑的人;一见,你就笑的人![合十] 百度宣布正在开发中文版ChatGPT语言模型“文心一言”,并于3月16日发布。该模型在创意写作

    2023年04月18日
    浏览(10)
  • 大厂跟进ChatGPT,为什么百度“文心一言”成色最好?【快评】

    大厂跟进ChatGPT,为什么百度“文心一言”成色最好?【快评】

    作者 | 曾响铃 文 | 响铃说 赶ChatGPT热度,百度3月初就要发布与ChatGPT类似的人工智能聊天机器人服务“文心一言”(英文名:ERNIE Bot),似乎无法提振资本市场对百度的信心。 2022年第四季度及全年未经审计的财报发布后,百度的股价便出现了下行的走势。一大缘由可能是市

    2024年01月18日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包