【论文阅读】RSMamba:基于状态空间模型的遥感图像分类

这篇具有很好参考价值的文章主要介绍了【论文阅读】RSMamba:基于状态空间模型的遥感图像分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【论文阅读】基于状态空间模型的遥感图像分类


RSMamba: Remote Sensing Image Classification with State Space Mode

遥感图像分类是各种理解任务的基础,在遥感图像解译中起着至关重要的作用

  

卷积神经网络(cnn)和变压器的最新进展显著提高了分类精度。然而,遥感场景分类仍然是一个重大挑战,特别是考虑到遥感场景的复杂性和多样性以及时空分辨率的可变性

本文介绍了一种新的遥感图像分类体系RSMamba

并结合了称为Mamba的高效、硬件感知的设计。它综合了全局接受场和线性建模复杂性的优点

为了克服vanilla Mamba只能对因果序列进行建模,不能适应二维图像数据的局限性

  

提出了一种动态多路径激活机制来增强曼巴对非因果数据的建模能力

但在多个遥感图像分类数据集上表现出优越的性能

  
  

一、介绍

遥感技术的进步极大地提高了人们对高分辨率地球观测的兴趣

遥感图像分类是遥感图像智能解译的基础,是后续工作的关键

  

研究人员一直在努力缓解这些挑战,提高模型在不同应用场景中的适用性

深度学习具有从数据中自主挖掘有效特征并以端到端方式输出分类概率的能力

  

主要可以分为cnn和注意力网络。前者通过二维卷积运算逐层提取图像特征,如ResNet所示。后者通过注意机制捕获整个图像局部区域之间的远距离依赖关系,从而实现更鲁棒的语义响应,以ViT、SwinTransformer等为代表

  
ET-GSNet将ViT丰富的语义先验提炼到ResNet18中,充分利用了两者的优势
  
分类精度在很大程度上取决于模型能否有效处理复杂多样的遥感情景和多变时空分辨率的影响。Transformer基于注意力机制,能够从整个图像的有价值区域获得响应,为这些挑战提供了最优解决方案
  
  

Mamba的发展过程:

状态空间模型(State Space Model, SSM)可以通过状态转移建立远距离依赖关系,并通过卷积计算执行这些转移,从而实现近线性的复杂性
  
Mamba通过将时变参数纳入普通SSM并进行硬件优化,证明了其训练和推理的高效率

Vim和VMamba成功地将Mamba引入二维视觉领域,在多个任务之间实现了性能和效率的良好平衡

  

本文介绍了一种高效的遥感图像分类状态空间模型RSMamba。由于其在整个图像中建模全局关系的强大能力

以减轻普通曼巴只能在单一方向建模和位置不可知的局限性
  

RSMamba的设计保留了原始Mamba区块的固有建模机制,同时在区块外部引入了非因果性位置积极的改进

  

具体而言,将遥感图像分割成重叠的patch令牌,并在其上添加位置编码以形成序列
  
构造三个路径拷贝:

  • 正向
  • 反向
  • 随机

  

这些序列通过使用共享参数对Mamba区块的全局关系进行建模,随后通过不同路径的线性映射激活

考虑到曼巴块的效率,RSMamba的大规模预训练可以经济有效地实现。

  

主要研究成果如下:

提出了一种基于状态空间模型(SSM)的高效遥感图像全局特征建模方法RSMamba

引入了位置敏感的动态多路径激活机制,以解决vanilla Mamba仅限于建模因果序列且对空间位置不敏感的局限性

在三种不同的遥感图像分类数据集上进行了综合实验。结果表明,RSMamba与基于cnn和transformer的分类方法相比具有显著的优势

  
  

二、方法

RSMamba的整体框架
【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘
  

2.1 预准备

利用SSM模型的固有特性,RSMamba能够有效地捕获遥感图像中的全局依赖关系,从而产生丰富的语义类别信息

将深入探讨动态多径激活块

  

详细说明RSMamba的三个不同版本的网络结构

y∈RN由输入信号x∈RN和隐藏状态h∈RN

  

A∈RN×N表示状态转移矩阵,B∈RN和C∈RN是投影矩阵

以离散形式实现Eq. 1中描述的连续系统,并将其集成到深度学习方法中

  

使用时间尺度参数∆的零阶保持器(ZOH)将A和B离散化

【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘
  

式1可以改写为:

【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘
  
其中¯C表示C。最后,可以用卷积表示的形式计算输出,如下:

【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘

L为输入序列的长度,¯K∈RL为结构化卷积核

  

2.1 RSMamba

RSMamba将二维图像转换为一维序列,并使用多路径SSM编码器捕获远距离依赖关系

  

给定图像I∈RH×W×3,我们使用核为k,步长为s的二维卷积将局部补丁映射到像素级特征嵌入中

特征映射被平面化成一维序列

  
为了保持图像内的相对空间位置关系,我们采用了位置编码P

【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘  
其中ΦConv2D表示二维卷积,ΦFlatten表示平坦化操作。T∈RL×d和P∈RL×d分别对应输入的1-D序列和位置编码。

  
我们没有像在ViT中那样使用cls_token来聚合全局表示。相反,该序列被馈送到多个动态多路径激活Mamba块中

用于远程依赖关系建模

  

通过应用于序列的平均池化操作获得类别预测所需的密集特征

【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘

  
模块含义:

  • i表示第i层
  • Ti表示第i层的输出序列
  • Φmp-ssm表示动态多路径激活曼巴块,总个数为n
  • Φmean表示序列维池化操作
  • ΦLN表示层归一化
  • Φproj用于将潜在维数d投影到类的数量

  

2.2 动态多路径激活

vanilla Mamba被用于一维序列的因果建模。它在空间位置关系和单向路径建模方面遇到困难

为了增强其处理二维数据的能力,我们引入了一种动态多路径激活机制

  
为了保持香草曼巴区块的结构,这种机制专门对区块的输入和输出进行操作

我们复制了输入序列的三个副本
  

建立三个不同的路径

  • 正向路径
  • 反向路径
  • 随机洗牌路径

  

利用具有共享参数的普通Mamba混频器分别对这三个序列中的token之间的依赖关系进行建模

  

我们将序列中的所有标记恢复到正确的顺序,并使用线性层来压缩序列信息,从而建立三条路径的门
【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘  

其中Ti表示第i层的输入序列

  • Φpather, k∈{0,1,2}表示K序列路径,包括正向路径、反向路径和随机洗牌路径
  • Φmixer是参数θ的香草曼巴混音器
  • Φrevert-pather表示将所有令牌还原为正向顺序的操作
  • Φcat表示序列与特征维度的连接
  • Φmean表示沿序列长度维度的平均池化
  • Φgate-proj线性投影3d维度到3序列信息激活
  • Φsoftmax表示Softmax操作

  

2.3 模型结构

曼巴混合块Φmixer代表了曼巴框架内的标准混频器块。根据ViT的原则,我们开发了三个不同版本的RSMamba

  
【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘
  
  

三、实验结果

数据集描述:

UC Merced土地使用数据集(UC Merced)、AID和NWPU-RESISC45 Dataset。每个都包含一个独特的分类和图像数量。
  

具体参数:

  • 采用固定的输入图像大小为224 × 224,
  • 随机裁剪,翻转,光度失真,mixup, cutMix等
  • 图像通过核大小为16 (k = 16),步长为8 (s = 8)的二维卷积理成顺序数据
  • 位置编码由随机初始化的可学习参数表示
  • 交叉熵损失函数和AdamW优化器
  • 初始学习率为5e−4
  • 权衰减为0.05
  • 学习率衰减使用余弦退火调度与线性预热
  • 训练的批大小设置为1024
  • 训练过程总共跨越500个epoch

  

RSMamba的性能不依赖于大量的数据积累,但更长的训练时间可以进一步带来实质性的性能提升

  

利用RSMamba中的均值池来合并全局信息,而不是使用类似于ViT的类令牌

实验结果表明,在头部、尾部或两者同时插入类标记不会产生优越的性能。但是,在序列的中间插入可以大大提高性能

对序列进行平均池化可以表现出最优的性能

基于因果序列建模的香草曼巴对缺乏因果关系的二维图像数据的应用提出了重大挑战。为了解决这个问题,我们提出了多扫描路径机制,即正向、反向和随机洗牌。要融合来自这些不同路径的信息流,最直接的方法是取平均值
  

然而,我们的目标是自适应地激活从每个路径派生的信息。因此,我们设计了一个门来调节来自不同路径的信息流

门控机制也具有一定的优势
  
【论文阅读】RSMamba:基于状态空间模型的遥感图像分类,论文阅读,分类,数据挖掘文章来源地址https://www.toymoban.com/news/detail-850065.html

到了这里,关于【论文阅读】RSMamba:基于状态空间模型的遥感图像分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 论文阅读-2:基于深度学习的大尺度遥感图像建筑物分割研究

    论文阅读-2:基于深度学习的大尺度遥感图像建筑物分割研究

    一、该网络中采用了上下文信息捕获模块。通过扩大感受野,在保留细节信息的同时,在中心部分进行多尺度特征的融合,缓解了传统算法中细节信息丢失的问题;通过自适应地融合局部语义特征,该网络在空间特征和通道特征之间建立长距离的依赖关系; 二、分割网络:边

    2024年02月16日
    浏览(12)
  • 【论文阅读】Vision Mamba:双向状态空间模型的的高效视觉表示学习

    【论文阅读】Vision Mamba:双向状态空间模型的的高效视觉表示学习

    论文地址: Vision Mamba 在这篇文章,我们展示对于视觉表示学习,不再依赖自注意力,提出一个新的泛用的视觉backbone基于双向Mamba块,通过位置嵌入来标示图片序列,通过双向状态空间模型压缩视觉表示。结果表示,Vim有能力解决在高分辨率图片上应用tranformer类型所导致计算

    2024年03月21日
    浏览(16)
  • 【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割

    【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割

    Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation 全局上下文信息是遥感图像语义分割的关键 具有强大全局建模能力的Swin transformer 提出了一种新的RS图像语义分割框架ST-UNet型网络(UNet) 解决方案:将Swin transformer嵌入到经典的基于cnn的UNet中 ST-UNet由Swin变压器和CNN并联

    2024年02月08日
    浏览(33)
  • 【论文阅读】Mamba:具有选择状态空间的线性时间序列建模

    【论文阅读】Mamba:具有选择状态空间的线性时间序列建模

    Mamba:基于选择状态空间的线性时间序列建模 论文两位作者Albert Gu和Tri Dao,博士都毕业于斯坦福大学,导师为Christopher Ré。 Albert Gu现在是CMU助理教授,多年来一直推动SSM架构发展。他曾在DeepMind 工作,目前是Cartesia AI的联合创始人及首席科学家。 Tri Dao,以FlashAttention、Flas

    2024年03月21日
    浏览(10)
  • 目标检测论文解读复现之十:基于YOLOv5的遥感图像目标检测(代码已复现)

    目标检测论文解读复现之十:基于YOLOv5的遥感图像目标检测(代码已复现)

    前言        此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮助大家解答疑惑。解读的系列文章,本人

    2024年02月06日
    浏览(11)
  • 英文论文(sci)解读复现【NO.18】基于DS-YOLOv8的目标检测方法用于遥感图像

    英文论文(sci)解读复现【NO.18】基于DS-YOLOv8的目标检测方法用于遥感图像

    此前出了目标检测算法改进专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文 ,并对相应的SCI期刊进行介绍,帮助大家解

    2024年02月21日
    浏览(11)
  • AI论文速读 |(Mamba×时空图预测!) STG-Mamba:通过选择性状态空间模型进行时空图学习

    AI论文速读 |(Mamba×时空图预测!) STG-Mamba:通过选择性状态空间模型进行时空图学习

    (来了来了,虽迟但到,序列建模的新宠儿mamba终于杀入了时空预测!) 论文标题 :STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model 作者 :Lincan Li, Hanchen Wang(王翰宸), Wenjie Zhang(张文杰), Adelle Coster 机构 :新南威尔士大学(UNSW) 论文链接 :https://arxiv.org/abs/

    2024年04月26日
    浏览(14)
  • 《基于改进YOLOv5的无人机图像检测算法》论文阅读

    原文链接:UAV Recognition and Tracking Method Based on YOLOv5 | IEEE Conference Publication | IEEE Xplore 《基于改进YOLOv5的无人机图像检测算法》论文阅读        基于深度学习的目标检测算法通常对传统目标检测效果较好,但对小目标的检测精度较低。针对该问题,该文通过对无人机采集图像

    2024年02月14日
    浏览(20)
  • 图像融合论文阅读:CoCoNet: 基于多层特征集成的耦合对比学习网络多模态图像融合

    图像融合论文阅读:CoCoNet: 基于多层特征集成的耦合对比学习网络多模态图像融合

    @article{liu2023coconet, title={Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion}, author={Liu, Jinyuan and Lin, Runjia and Wu, Guanyao and Liu, Risheng and Luo, Zhongxuan and Fan, Xin}, journal={International Journal of Computer Vision}, pages={1–28}, year={2023}, publisher={Springer} } 论文级

    2024年02月04日
    浏览(14)
  • 论文阅读--基于迁移学习和机器学习的UAV图像中水稻幼苗检测

    论文阅读--基于迁移学习和机器学习的UAV图像中水稻幼苗检测

    Title: Rice Seedling Detection in UA V Images Using Transfer Learning and Machine Learning Abstract: To meet demand for agriculture products, researchers have recently focused on precision agriculture to increase crop production with less input. Crop detection based on computer vision with unmanned aerial vehicle (UA V)-acquired images plays a vital role in

    2024年02月13日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包