【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks

这篇具有很好参考价值的文章主要介绍了【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文概述

发表于ICLR2017,论文地址:https://arxiv.org/pdf/1611.02770——深入研究可迁移的对抗样本和黑盒攻击

idea

迁移性是指一个模型生成的一些对抗样本也可能被另一个模型错误分类
这篇文章其实是基于 Transferability in Machine Learning: from Phenomena to
Black-Box Attacks using Adversarial Samples 的改进和进一步研究,第一次使用不同方法在大规模数据集上生成targeted 和no-targeted对抗样本研究迁移性。迁移性实验的成功,也让作者对为什么能迁移成功进行了探究,不同于以往的理论或者经验分析,作者从模型的几何特性(geometric properties)进行了分析。

method

实验表明,no-targeted对抗样本可以很好的迁移,但是targeted对抗样本迁移性较弱,所以采用了ensemble model(集成模型)的方法,增大了迁移性。

详细内容

摘要

以前的工作主要研究使用小规模数据集的可迁移性。在这项工作中,我们是第一个对大型模型和大规模数据集的可迁移性进行广泛研究的人,我们也是第一个研究targeted对抗样本及其targeted label的可迁移性的人。我们研究了非目标对抗样本和目标对抗样本,并表明虽然可转移的非目标对抗样本很容易找到,但使用现有方法生成的目标对抗样本几乎不会随目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可转移的对抗样本。
(以前的工作其实指的是这篇:Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples,idea中有链接)

1.介绍

(开始几段就是讲了讲对抗样本的发展过程,以及迁移性的存在;然后介绍了本文的工作内容,包括非定向迁移的有效性,定向的集成攻击迁移等)

主要贡献:

  • 对于 ImageNet 模型,我们表明,虽然现有方法可以有效地生成非定向 (no-targeted)可迁移对抗样本(第 3 节),但只有少数由现有方法生成的定向(targeted)对抗样本可以迁移(第 4 节)。
  • 我们提出了新颖的基于集成的方法来生成对抗性示例(第 5 节)。我们的方法首次使大部分定向的对抗样本能够在多个模型之间转移。
  • 我们是第一个提出为在 ImageNet 上训练的模型生成的 trageted 对抗样本可以转移到黑盒系统,即 Clarifai.com。其模型、训练数据和标签集对我们来说是未知的(第 7 节)。特别是,Clarifai.com 的标签集与 ImageNet 的非常不同。
  • 我们对在ImageNet 上训练的大型模型的几何特性进行了首次分析(第6 节),结果揭示了一些有趣的发现,例如不同模型的梯度方向彼此正交。

2 对抗深度学习和可迁移性

2.1 对抗深度学习问题

(主要讲的是对抗攻击问题的定义)

2.2 对抗样本生成的方法

2.2.1 生成非定向对抗样本的方法
f θ ( x ∗ ) ≠ y ( 1 ) ; d ( x , x ∗ ) ≤ B ( 2 ) f_{\theta}(x^*)\neq y (1); d(x,x^*) \leq B (2) fθ(x)=y1d(x,x)B2
其中 d(·,·) 是量化原始图像与其对抗样本之间距离的度量,B称为失真,是该距离的上限。

  • 基于优化
    a r g min ⁡ x ∗ λ d ( x , x ∗ ) − l ( 1 y ∗ , J θ ( x ∗ ) ) arg \min_{x^*} \lambda d(x,x^*)-l(1_{y^*},J_{\theta}(x^*)) argxminλd(x,x)l(1y,Jθ(x))
    其中 1 y 1_y 1y是ground trurh标签 y 的 one-hot 编码, l l l是衡量预测与ground truth之间距离的损失函数,λ 是平衡约束 (2) 和 (1) 的常数。这里,损失函数 l l l用于逼近约束(1),它的选择会影响搜索对抗样本的有效性。
    损失函数选择的是 l ( u , v ) = l o g ( 1 − u v ) l(u,v)=log(1-uv) l(u,v)=log(1uv),来源于CW攻击(论文pdf)

  • FGS
    x ∗ = c l i p ( x + B s g n ( ∇ x l ( 1 y , J θ ( x ) ) ) ) x^*=clip(x+Bsgn(\nabla_x l(1_y,J_{\theta}(x)))) x=clip(x+Bsgn(xl(1y,Jθ(x))))
    其中clip(x) 用于将 x 的每个维度裁剪到像素值的范围内,即本文中的 [0, 255]。 l ( u , v ) = l o g ( 1 − u v ) l(u,v)=log(1-uv) l(u,v)=log(1uv)

  • FG
    (与FGS类似,就不多介绍了)

2.2.2 生成定向对抗样本的方法
(类似,稍作修改)
【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks

2.3 评估方法

  • 模型
    5个模型:ResNet-50, ResNet-101, ResNet-152 ,GoogLeNet and VGG-16
  • 数据
    从 ILSVRC 2012 验证集中,我们随机选择了 100 张图像
  • Measuring transferability(衡量迁移性)
    在给定两个模型的情况下,我们通过计算一个模型生成的可被正确分类为另一个模型的对抗样本的百分比来衡量 no-targeted 可转移性,我们把这个百分比称为准确率。较低的精确度意味着更好的非定向可转移性。
    我们通过计算一个模型生成的被另一个模型归类为 targeted 标签的对抗性样本的百分比来衡量目标可转移性。我们将这个百分比称为匹配率。更高的匹配率意味着更好的定向可转移性。
    (这个很重要,理解准确率和匹配率,才能看懂下文的实验表格)
  • Distortion
    除了可转移性,另一个重要因素是对抗图像与原始图像之间的失真,采用的是root mean square deviation,RMSD,公式: d ( x , x ∗ ) = ∑ i ( x i ∗ − x i ) 2 / N d(x,x^*)=\sqrt{\sum_i (x_i^*-x_i)^2/N} d(x,x)=i(xixi)2/N
    N 是 x x x x ∗ x^* x 的维数, x i x_i xi 表示 x 的第 i 个维度的像素值,在 [0, 255] 范围内

3. 非定向对抗样本

3.1 基于优化

(主要讲了下实验设置,可以通过调整Adam和λ 的学习率来调整 RMSD。小失真的对抗样本可以攻击成功但不能很好地迁移(附录表15和表16)。增大失真,lr 设置为4,进行实验)
【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks
单元格(i,j)表示为模型 i(行)生成的对抗图像在模型 j(列)上评估的准确性。
通过实验分析:

  • 对角线包含所有 0 值。这意味着为一个模型生成的所有对抗性图像都可能误导同一个模型。(对角线相当于白盒
  • 使用基于优化的方法为一个模型生成的大部分no-targeted对抗性图像可以转移到另一个模型。
  • 尽管三个 ResNet 模型共享相似的架构,仅在超参数上有所不同,但针对 ResNet 模型生成的对抗性示例不一定比其他非 ResNet 模型更好地转移到另一个 ResNet 模型。

3.2 基于FGSM

(基于梯度的快速方法的一个优点是所有生成的对抗样本都位于一维子空间中。通过控制 RMSD 来研究基于梯度的快速方法的有效性)

3.2.1 基于梯度的快速方法的有效性和可迁移性
由于生成的对抗图像的失真 B 和 RMSD 高度相关,我们可以选择这个超参数 B 来生成具有给定 RMSD 的对抗图像。
在表 1 panel B 中,我们使用 FG 生成对抗图像,使得平均 RMSD 与使用基于优化的方法生成的图像几乎相同。我们观察到对角线值都是postive,这意味着FG不能完全误导模型。一个潜在的原因是,FG 可以被视为近似优化,但它是针对速度而不是准确性量身定制的。

另一方面,表中非对角单元格的值对应于为一个模型生成但在另一个模型上评估的对抗性图像的准确性,与基于优化的方法中的对应物相当或更低。这表明 FG 生成的非目标对抗样本也表现出可迁移性。
【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks

4. 定向对抗样本

(实验结果如下)
【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks
观察发现:
(1)当在用于生成对抗样本的同一模型上进行评估时,targeted对抗图像的预测可以匹配目标标签
(2)但是 targeted 对抗图像很少能被不同的模型预测为目标标签。我们称后者为目标标签不转移(the target labels do not transfer.)。即使增加了失真,仍然没有观察到目标标签转移的改进

5.集成的方法

(在Section 4中已经发现定向攻击的迁移效果很不好,所以采用集成的方法)

给定 k 个 softmax 输出为 J1、…、Jk、原始图像 x 及其ground truth y 的白盒模型,基于集成的方法解决了以下优化问题:

a r g min ⁡ x ∗ − l o g ( ∑ i = 1 k α i J i ( x ∗ ) ⋅ l y ∗ ) + λ d ( x , x ∗ ) arg \min_{x^*} -log(\sum_{i=1}^k \alpha_i J_i(x^*) \cdot l_{y^*})+\lambda d(x,x^*) argxminlog(i=1kαiJi(x)ly)+λd(x,x)

其中 y ∗ y^* y 是攻击图片的标签, ∑ i = 1 k α i J i ( x ∗ ) \sum_{i=1}^k \alpha_i J_i(x^*) i=1kαiJi(x) 是集成的模型, α i \alpha_i αi 是系数。则我们希望生成的对抗图像对于额外的黑盒模型 Jk+1 保持对抗性。

  • 基于优化的方法
    (首先说了下实验设置,targeted adversarial,实验结果如下)
    【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks
    targeted攻击匹配率,单元格(i,j)表示为模型 i(行)之外的四个模型的集合生成的目标对抗图像的百分比被模型 j(列)预测为目标标签

(non-targeted adversarial,实验结果如下)
【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks

(基于梯度的方法实验结果见附录)

6.几何特征

在本节中,我们展示了模型的一些几何特性,以试图更好地理解可迁移的对抗样本。先前的工作还试图从理论上或经验理解对抗样本的几何特性。在这项工作中,我们检查了在具有 1000 个标签的大型数据集上训练的大型模型,其几何属性以前从未研究过。这使我们能够进行新的观察,以更好地理解模型及其对抗性示例
1.我们评估中不同模型的梯度方向几乎相互正交
不同模型的对抗方向相互正交的

2.使用单个模型的非目标方法的决策边界。
我们研究了不同模型的决策边界,以了解对抗样本迁移的原因。我们选择两个归一化正交方向δ1、δ2,一个是VGG-16的梯度方向,另一个是随机选择的。此二维平面中的每个点 (u, v) 对应于图像 x + uδ1 + vδ2,其中 x 是原始图像的像素值向量

【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks
我们可以观察到:

  • 对于所有模型,每个模型能够正确预测图像的区域都局限于中心区域
  • 沿着梯度方向,分类器很快就会被误导。
  • 对于每个平面,所有平面上最多有 21 个不同的区域。与 ImageNet 中的 1000 个总类别相比,这仅占所有类别的 2.1%。这意味着,对于所有其他 97.9% 的标签,每个平面中都不存在有针对性的对抗样本。这种现象部分解释了为什么基于快速梯度的方法很难找到有targeted的对抗性图像

此外,我们在同一平面上绘制所有模型的决策边界

【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks

我们观察到:文章来源地址https://www.toymoban.com/news/detail-403318.html

  • 边界彼此非常吻合。这就解释了为什么非目标对抗图像可以在模型之间传输。
  • 沿梯度方向的边界直径小于沿随机方向的边界直径。一个潜在的原因是沿其梯度方向移动变量可以显着改变损失函数
  • 一个有趣的发现是,即使我们沿 x 轴向左移动,这相当于最大化ground truth的预测概率,它也比沿随机方向移动更快地到达边界。我们将此归因于损失函数的非线性:当失真较大时,梯度方向也会发生巨大变化。在这种情况下,沿原始梯度方向移动不再增加预测ground truth标签的概率(参见附录中的图 7)。
  • 对于VGG-16 模型,在对应于ground truth 的区域内有一个小洞。这可以部分解释为什么存在具有小失真的非目标对抗性图像,但不能很好地转移。这个漏洞在其他模型的决策平面上是不存在的。在这种情况下,这个洞中的非目标对抗性图像不会转移。

到了这里,关于【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【视频异常检测】Delving into CLIP latent space for Video Anomaly Recognition 论文阅读

    【视频异常检测】Delving into CLIP latent space for Video Anomaly Recognition 论文阅读

    中文题目:视频异常识别的CLIP潜在空间研究 文章信息: 原文链接:https://arxiv.org/abs/2310.02835 源代码:https://github.com/luca-zanella-dvl/AnomalyCLIP 我们介绍了一种新的方法AnomalyCLIP,它首次将大型语言和视觉(LLV)模型(如CLIP)与多实例学习相结合,用于联合视频异常检测和分类。

    2024年04月14日
    浏览(10)
  • 迁移强化学习论文笔记(一)(Successor Features)

    M ≡ ( S , A , p , R , γ ) M equiv(mathcal{S}, mathcal{A}, p, R, gamma) M ≡ ( S , A , p , R , γ ) S cal S S :状态空间 A cal A A :行动空间 p p p : p ( ⋅ ∣ s t , a t ) p(cdotmid s_t,a_t) p ( ⋅ ∣ s t ​ , a t ​ ) 状态转移概率 R R R : R ( s t , a t , s t + 1 ) R(s_t,a_t,s_{t+1}) R ( s t ​ , a t ​ , s t + 1 ​ ) 奖励

    2024年04月17日
    浏览(11)
  • 后门攻击 & 对抗攻击 resources

    后门攻击 知乎问答 公众号: 后门学习(Backdoor Learning)介绍及资源汇总 浅谈深度学习后门攻击 Backdoor Learning: A SurveyAI中的后门攻击及防御-实战篇 如何攻击深度学习系统——后门攻防 毒墨水:一种隐蔽且鲁棒的后门攻击 深度学习中的后门攻击综述【 信 息 安 全 学 报】 对深度

    2024年02月09日
    浏览(16)
  • 论文笔记: 深度学习速度模型构建的层次迁移学习方法 (未完)

    摘要 : 分享对论文的理解, 原文见 Jérome Simon, Gabriel Fabien-Ouellet, Erwan Gloaguen, and Ishan Khurjekar, Hierarchical transfer learning for deep learning velocity model building, Geophysics, 2003, R79–R93. 这次的层次迁移应该指从 1D 到 2D 再到 3D. 深度学习具有使用最少的资源 (这里应该是计算资源, 特别是预测

    2024年02月10日
    浏览(9)
  • 论文阅读笔记:基于 Mininet 的 DDoS 攻击和防御研究与实现

    论文阅读笔记:基于 Mininet 的 DDoS 攻击和防御研究与实现

    ​ ​qquad ​ 该论文主要研究及实现 SDN 中的 DDoS 攻击与防御,使用 Mininet+Ryu 控制器 搭建虚拟网络拓扑作为实验平台,模拟真实的 SDN 环境。该论文通过训练 决策树算法 模型作为 DDoS 攻击检测方法。利用 流表下发 的原理设计了 DDoS 攻击的缓解方法,编写了一款 Ryu 控制器,

    2024年02月01日
    浏览(11)
  • cv对抗攻击

    cv对抗攻击

    Intriguing properties of neural networks(Box-constrained L-BFGS) 寻找最小的损失函数添加项,使得神经网络做出误分类,这就将问题转化成了凸优化过程 作者发现了可以通过对抗攻击使神经网络做出错误的预测,需要在图片上加入一些微小的扰动信息得到对抗样本,这些扰动信号要足够

    2024年02月16日
    浏览(16)
  • 常见的AI安全风险(数据投毒、后门攻击、对抗样本攻击、模型窃取攻击等)

    常见的AI安全风险(数据投毒、后门攻击、对抗样本攻击、模型窃取攻击等)

    数据投毒是一种通过在 训练数据 中植入恶意样本或修改数据以欺骗机器学习模型的方法。这种攻击旨在使模型 在未来的预测或决策中 产生错误结果。攻击者可能会植入具有误导性标签或特征的数据,以扭曲模型的学习过程,导致模型偏离真实数据的表征。数据投毒攻击可能

    2024年02月03日
    浏览(13)
  • 毕业设计-基于生成对抗网络的图像风格迁移

    毕业设计-基于生成对抗网络的图像风格迁移

    目录 前言 课题背景和意义 实现技术思路 一、相关工作 二、基于生成对抗网络的风格迁移模型 三、实验与结果分析 四、总结 实现效果图样例 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精

    2024年02月06日
    浏览(19)
  • AI技术在网络攻击中的滥用与对抗 - 人工智能恶意攻击

    随着人工智能技术的迅猛发展,我们享受到了许多便利,但同时也面临着新的安全威胁。本文将探讨人工智能技术在网络攻击中的滥用,并提出一些防御机制。 人工智能技术的先进性和灵活性使其成为恶意攻击者的有力工具。以下是一些常见的人工智能滥用案例: 欺骗和钓

    2024年02月12日
    浏览(11)
  • 文献综述|针对图像描述模型的对抗样本攻击

    文献综述|针对图像描述模型的对抗样本攻击

    前言 :图像描述对抗攻击旨在通过攻击正常的图像描述模型,为正常输入图像添加扰动得到对抗样本,使得正常模型输出目标句子或目标,现将当前相关工作大致汇总如下。本综述初写于2022年8月29日。 Shekhar 等在 [1] 中指出,图像描述模型并未很好的捕捉模态之间的关

    2024年02月10日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包