不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

这篇具有很好参考价值的文章主要介绍了不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在上月举行的“2022大模型创新论坛 · 模型技术安全与治理峰会”上,加州伯克利分校助理教授 Jacob Steinhardt、Anthropic 联合创始人 Chris Olah、纽约大学终身副教授Samuel Bowman阐述了他们对模型安全这一领域的前沿解读。

如果你正在从事这一领域研究,欢迎扫码申请加入我们的行列

大型语言模型中的真实与解释

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

Jacob Steinhardt,加州伯克利分校助理教授

加州伯克利分校助理教授 Jacob Steinhardt 以“大型语言模型中的真实与解释”为议题进行了演讲,共分为两部分,一个是关注如何使大模型提供真实的输出,使自然语言处理模型给出真实而非可能的答案;另一部分是讨论模型能够在多大程度上协助人类理解模型输出。

1. 使自然语言处理模型真实(Making NLP Models Truthful)

语言模型的训练目标往往是最大化模型在训练数据上的似然概率,因此,模型其本身只是产生可能的输出,而非真实的输出。为了弥补这种偏差,我们需要让语言模型给出真实的而非可能的答案,横陈在其中的基本问题是,模型会模仿其语境进行回答,如果语境内容是不真实的,给出的答案同样会效仿这种虚假的风格。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

定性分析,来看一个非常简单形象的实例,将下面的每个对象归入其对应的类别。如果你给模型很多不正确的例子作为上下文,例如将熊猫、大象称之为运动,模型会相应误把狮子归类为运动。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

定量分析,GPT-2模型的输出会随着上下文样例的增多而逐渐去模仿其语境内容。当模型选择去重复人类偏见和误解的时候,语言模型真实性、偏见和毒性等社会风险亟待AI社区着手解决。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

模型的输出可能与真相不符,一个有效的解决方案是查看模型的潜在表征,根据语言模型的隐藏状态,无需任何人工监督就可以将示例分类为真或假。基于阐述AI的潜在知识(Eliciting Latent Knowledge),Jacob Steinhardt教授提出了两种方法:

  • 对比一致搜索方法(Contrast-Consistent Search, CCS)

对比一致搜索方法 (Contrast-Consistent Search, CCS),让模型直接利用未标记激活去准确地将文本分类为真或假,该方案可以抵御误导性提示,为我们提供了一个可靠的追寻真相的潜在方向[1]。

  • Logit Lens

语言模型有一个有趣的现象,对于误导性提示,如果强制在早期层“停止”,模型会更加真实。“logits lens”方法即让模型运行前向传播到第L层,然后将模型的其余部分归零,让模型提早退出[2],从而使得语言模型产生真实的而不仅是可能性高的答案。

2. 协助人类理解模型输出

语言模型可以帮助人类完成原本无法处理的任务,这里,Jacob Steinhardt教授聚焦于特定的任务,即分析和解释自然语言的分布偏移,窥视复杂的数据集中微妙的数据变化及其背后的驱动力。不同于手动操作,通过语言模型读取这些数据集并向我们解释数据集的分布偏移[3]。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

两种文本分布𝐷1、𝐷2有何不同?人类回答这个问题的速度很慢,因为发现模式可能需要乏味地阅读数百个样本,Jacob Steinhardt通过语言模型得到的分布来自动总结这种差异

进而,语言模型可以用来描述数据分布偏移、检测虚假线索,协助我们更深入地理解模型。

机械可解释性:逆向工程神经网络

机械可解释性:逆向工程神经网络

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

Chris Olah, Anthropic 联合创始人

面对神经网络的“黑箱”,人类对其内部的运作方式难以理解并解释,Anthropic 联合创始人 Chris Olah 将神经网络和电脑程序进行类比,试图像软件逆向工程一样,将神经网络模型逆向工程为人类可理解的计算机程序。Chris Olah 针对卷积神经网络和Transformer神经网络两个具体案例,对模型架构的各组件进行拆解,逆向分析并对模型的作用机理进行了机械可解释性(mechanistic interpretability)的解读和说明。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

将神经网络和电脑程序进行类比,我们可以对神经网络进行逆向工程的方法探究其底层逻辑

1. 卷积神经网络机械可解释性[4]

机械可解释性基本单位包括三部分:特征、权重和通路(将由一堆神经元构成的神经网络类比成逻辑门组成的通路,建立并识别特定神经元和可理解的特征之间的关联)。基于这三点,Chris Olah 揭示了卷积神经网络大量有趣的概念。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

首先,InceptionV1网络中大量的神经元似乎对人类可理解的概念有反应,通过不同方式的测试曲线检测神经元,结果可以如我们猜想的那样发挥作用。更进一步,如果将权重置于语境之中,就可以揭示其丰富的结构,例如,通过语境,卷积权重可以显示头部检测器如何连接到身体上。

此外,Chris Olah 发现模型有许多“多义神经元”会被多个不相关的特征激发,并称之为叠加假设(The Superposition Hypothesis)。叠加假设一方面使得神经网络能够通过使用神经元的线性组合来表示比神经元数量更多的特征,另一方面给机械可解释性提出了巨大挑战,我们很难直接研究真实模型中的叠加。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

2. Transformer模型机械可解释性[5]

Transformer模型的明显特征是残差流和注意力头,Chris Olah 简化了其模型架构,剥离了所有网络层并只剩下一层或两层注意力头,通过简单但数学上等效的方式将Transformer操作概念化,得以解构并理解复杂的Transformer模型。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

Chris Olah 发现了Transformer模型中有趣的归纳头(Induction heads)现象,归纳头会搜索某个标记之前出现的地方,并查看紧接着其后的标记是什么。归纳头实际上非常重要,当Transformer模型发现这种现象时,训练损失函数曲线上有一个明显的凸起。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

最后,Chris Olah 对模型安全进行了展望,正如在医学领域已经开发出筛查措施来发现尚未出现严重病症的疾病、结构工程师需要预测建筑能否在意外情况下保持稳定,机械可解释性在未来可能帮助我们在安全问题产生后果之前就采取预警措施。

人工智能安全有什么问题?

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

Samuel Bowman 纽约大学终身副教授

纽约大学终身副教授Samuel Bowman在报告中指出,尽管大模型的最新进展鼓舞人心,而面对技术可能造成的伤害,人们正在试图采取行动,形成人工智能安全项目。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

1.1人工智能正在经历快速且混乱的发展

人工智能正在经历快速,混乱、不可预测的发展。在语言技术发展过程中,多数在2018、2019年出现的重要基准和研究目标,现已在近似于人类水平上得到解决。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

研究者通过对相关文献的回顾,认为对于被研究的大多数神经网络,我们得到的是非常可预测的规模回报,如果相关机构进行了巨量的,更大的投资,通常模型性能会得到明显的可衡量的改善。

通过对一些大型的生成模型、神经网络模型、语言模型的考察,就会发现, 随着计算量,数据量的增长,训练后模型的性能也会按比例增长。这种增长跨越了很多数量级的差异。但这种现象不能适用于所有情况,模型性能的改进,会随着模型规模的扩大出现明显的拐点,即实现涌现能力。研究者认为在一些困难问题上取得进展变得越来越偶然。这种发展让局势很难预测。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

公众对语言技术的讨论,并不总是能跟上实际的学术前沿。造成这种情况的一个重要原因是高校等地方的研究人员越来越难以获得前沿的模型。那些有能力的研究人员常常被迫去研究那些非常古老或者不那么有效的技术,仅仅因为最好的技术运行起来非常昂贵,或者无法触达。这影响了很多高校也影响了像Meta一样的公司。

1.2 当前的范式可以产生强大的人工智能

Bowman认为以现有的发展速度再发展十年或二十年是合理的。再用五年,十年或二十年增加对大型人工智能训练的投资,并继续研究使人工智能训练更高效。

研究者认为,有三个棘手的论点需要澄清。第一,由强大人工智能产生的系统是否会在任何深层意义上类似于人类?第二,我们是否在所有领域(特别是运动/机器人)实现了人类的水平?第三,仅仅在语言使用,推理和计划等一些关键方面实现类似人类的行为,就足以产生令人惊讶和非常重要的影响。

通过Metaculus平台的预测,在未来几十年,人工智能将在多模态图灵测试,医生和律师的专业考试,以及机器人技术方面获得长足进展。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

1.3 强大的人工智能可能创造新的风险

当人工智能变得强大到拥有类似人类的行为,可以进行语言推理,足以影响人们的工作时,新的风险也随之产生。其中一种重要表现是,人工智能的权力追求,即人工智能系统以意想不到的方式追求目标,而不是其系统所有者或开发者的目标。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

一个例子是当人们利用人类反馈增强学习(RLHF)技术来对语言模型微调时,人们期望的结果是模型“尽量说事实”。但当模型比它的监督者拥有更渊博的知识时,潜在发生的风险是“尽量说开发人员认为的事实,无论这些话是否真实”。这类风险可能在部署后才被注意到。

不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么

2. 关于这些担心,我们能做什么

为了解决上述问题,我们基本有两种选择。第一,停止全世界的人工智能研究,令我们远离强大的人工智能;第二,确保那些强大的人工智能系统被负责任地建构和部署。这两种方法都很困难,但选择二,看起来更现实,也更可取。

一些研究从技术入手旨在提高强大人工智能系统的安全性,包括如下议程:

可解释性,我们如何自信地确定神经网络模型使用的高层次目标和策略;基准测试,这是在寻找衡量这个问题有多严重的方法;可扩展监督,寻找比我们能力更强,或知识更渊博但未对齐的人工智能系统提供可靠的奖励或训练信号。让系统真正按照我们的期望,可靠地被训练;阐释潜在知识,开发一个基于激励系统和大脑目标的系统,可以告诉我们所有它知道的与某些决策相关的事实。目前还没有将这些因素结合到一起的完整策略以应对人工智能安全问题。

研究者认为,很难证明一个人工智能系统的安全性。系统的安全性很可能需要将多种具有漏洞和缺陷的安全方法结合使用,最终使它们各自的缺点被抵消。

3. 如何参与人工智能系统的安全性工作

上述议程,涉及到理论/概念工作,数学工作,实验(包括机器学习实验和人类实验),以及高级工程化。这些研究中最急需的是工程师的角色,最难以填补。

4. 结束语

Bowman认为,人工智能的进步非常不稳定,而这项技术的一些风险,最糟情况甚至危及人类文明存续。非正式估计显示,这种风险的可能性在小于1%或大于95%不等。而现在,AI安全,这一小而飞速发展的领域正在试图解决这个问题。

参考资料:

[1] Burns, Collin, et al. “Discovering Latent Knowledge in Language Models Without Supervision.” arXiv preprint arXiv:2212.03827 (2022).

[2] https://www.alignmentforum.org/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens

[3] Zhong, Ruiqi, et al. “Describing differences between text distributions with natural language.” International Conference on Machine Learning. PMLR, 2022.

[4] https://distill.pub/2020/circuits/

[5] https://transformer-circuits.pub/2021/framework/index.html#one-layer-attention-only-transformers

更多内容 尽在智源社区公众号文章来源地址https://www.toymoban.com/news/detail-417784.html

到了这里,关于不真实、难解释?让大模型更安全,3位前沿学者告诉我们能做什么的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 学1个月爬虫就月赚6000?别被骗了,老师傅告诉你爬虫的真实情况

    前几天有粉丝跟我反馈说,某机构的人跟他说学爬虫1个月就能接单,让这小伙子去报名那个机构的爬虫课程,学完之后1个月就能把6000多的学费赚回来,我听了之后不禁咋舌。 秉着客观的态度,就算不信我也没有去下结论,而是去看了一下他们的课程体系,结果不出我所料,

    2024年02月03日
    浏览(17)
  • 让大数据平台数据安全可见-行云管家

    数字化经济在快速发展,大数据时代已经到来,大数据已经成为企业和政府决策的重要依据。然而大数据行业快速发展所带来的一系列安全问题也继续解决,例如数据安全更难保障,例如认证体系不完善等等。为此行云管家推出了大数据平台数据安全管理解决方案,让大数据

    2024年02月11日
    浏览(13)
  • RAG:让大语言模型拥有特定的专属知识

    作为一个在Chatbot领域摸爬滚打了7年的从业者,笔者可以诚实地说,在大语言模型的推动下,检索增强生成(Retrieval Augmented Generation,RAG)技术正在快速崛起。 RAG的搜索请求和生成式AI技术,为搜索请求和信息检索领域带来了革命性的改变。RAG能够帮助大语言模型根据可靠的

    2024年02月02日
    浏览(15)
  • 阿里首提前向训练框架:让大模型深度思考,可快速定制专属模型

    大语言模型(LLM)是当前自然语言处理领域最核心的技术,以 GPT-4 为代表的大语言模型展现出了类人的学习能力。其中,情境学习(In-context Learning)是大语言模型最神秘的能力之一。如下图所示,在这种情境学习的范式下,大模型无需更新任何参数,仅依赖几个示例样本(demonstrations)就可以学习新任务,执行新样本的预测。

    2024年02月11日
    浏览(16)
  • 使用 AutoGPTQ 和 transformers 让大语言模型更轻量化

    大语言模型在理解和生成人类水平的文字方面所展现出的非凡能力,正在许多领域带来应用上的革新。然而,在消费级硬件上训练和部署大语言模型的需求也变得越来越难以满足。 🤗 Hugging Face 的核心使命是 让优秀的机器学习普惠化 ,而这正包括了尽可能地让所有人都能够

    2024年02月11日
    浏览(15)
  • 不扯犊子!我们自己来读技术报告,了解真实的GPT-4

    上周g p t 4发布了 有人赞不绝口 有人瞟了一眼就嗤之以鼻 毫不讳言 我就是那种倍感震撼的人 不是因为我看到GDP4的报道才激动 而是从GTP3开始 当时扩展出AIGC 就是成为人工智能生存内容 那个时候呢就让我深深的震撼了 从2018年GPT1问四到2019年GPT2再到2020年GPT3 一年一个新版本似

    2024年02月03日
    浏览(14)
  • Docker中文件拷贝命令的详细解释与真实案例

    简介: Docker是一种流行的容器化平台,它提供了一种轻量级、可移植的解决方案,用于在不同的环境中部署和运行应用程序。在Docker中,文件拷贝是一个常见的操作,它允许将文件从主机系统复制到容器中,或者从容器中复制到主机系统中。本文将详细解释Docker中文件拷贝相

    2024年02月08日
    浏览(14)
  • 易服客工作室:WordPress是什么?初学者的解释

    目录 什么是WordPress?  WordPress可以制作什么类型的网站?  谁制作了WordPress?它已经存在多久了?  谁使用 WordPress?  白宫网站  微软  滚石乐队  为什么要使用 WordPress?  WordPress 是免费且开源的  WordPress 是可扩展的  WordPress 易于安装  我可以在我的个人计算机上安装

    2024年02月13日
    浏览(15)
  • 通过搜索引擎让大模型获取实时数据-实现类似 perplexity 的效果

    汇报一下这周末的工作,主要是开发了一门课程:通过搜索引擎让大模型获取实时数据,第一次开发一门课程,难免会有很多不熟悉和做的不好的地方。 已经训练好的大模型有气数据的局限性,比如 GPT-4,只有 2023年4月之前的数据。关于最新发生的一些事情,它无法回答。

    2024年04月23日
    浏览(13)
  • 几种技巧让大模型(ChatGPT、文心一言)帮你提高写代码效率!

    自从大模型推出来之后,似乎没有什么工作是大模型不能做的。特别是在文本生成、文案写作、代码提示、代码生成、代码改错等方面都表现出不错的能力。下面我将介绍运用大模型写代码的几种方式,帮助程序员写出更好的代码!(大模型包括但不限于 ChatGPT、文心一言【

    2024年02月08日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包