100字范文 > [论文阅读]面向全局:用于高分辨率遥感图像语义分割的宽上下transforms

[论文阅读]面向全局:用于高分辨率遥感图像语义分割的宽上下transforms

时间：2018-11-15 10:10:02

[论文阅读]面向全局:用于高分辨率遥感图像语义分割的宽上下transforms一、总体介绍二、具体作用3.1 总体框架3.3 特征提取网络:M13.4 特征提取网络:M2四、数据及相应结果

一、总体介绍

Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images

远程上下文信息是高分辨率遥感图像语义分割的关键。

我们提出了一种宽上下文网络(WiCoNet)用于HR RSIs的语义分割，上下文转换器扩展了视觉转换器这一新兴神经网络，用于双分支语义关联的建模。

提出了一个新的北京土地利用(BLU)数据集。

在本研究中，目标是同时利用CNN和对transforms HR RSIs进行语义分割,作用在于：

cnn善于保存空间信息Transformer则能够更好地建模远程依赖关系

WiCoNet包括两个cnn，分别从本地和全局图像级别提取特征。这使WiCoNet能够同时考虑本地细节和广域上下文。

SE块将全局信息聚合并嵌入到特征中，学习不同图像场景中的偏焦点，这在后来的文献中通常被称为通道注意，通道注意和非局部注意块依次用于增强空中rsi中的远程依赖性

Transformer的演变介绍：

Transformer最初是为自然语言处理任务引入的，在那里它实现了最先进的性能

Pure Transformer可以取代CNN进行图像识别任务

Transformer进行密集分类任务,提出了一种用于泛视分割的双路径转换器，其中包括用于分割的像素路径和用于类预测的存储路径

## 三、WiCoNet模型构建

我们提出了一种WiCoNet，它利用了rsi中更大图像范围中的远程依赖关系

地分支M1是wiiconet的主要分支，它利用ResNet提取本地特征。WiCoNet中的新设计是一个上下文分支M2，它被引入来显式地对RSIs中的大范围上下文信息建模。它使用一个简单的CNN编码器粗略地学习上下文信息

并通过context Transformer嵌入到M1中。然后由上下文丰富的M1生成WiCoNet的最终结果

### 3.2 Context Transformer

我们引入了一个上下文转换器来将远程上下文信息投射到局部特征上，它是在vit的基础上开发的。典型的ViT采用扁平和投影的图像补丁作为输入。它由多层注意块组成，每层注意块有一个多头自注意单元(MSA)和一个MLP单元

设计的上下文转换器T的目标是将信息从M2传递到主编码分支M1。我们的目标不是直接添加值，而是投射一个有偏向的焦点来增强M1中的特征。

M1中我们选择ResNet50作为特征提取网络，该网络在利用局部特征[37]方面具有很强的能力。ResNet的下采样步幅为×1/8，以更好地保存空间信息。

它由11个顺序连接的层组成，包括8个卷积层和3个最大池化层。按照UNet的编码器设计，将每个池化层置于两个卷积层之后

输入到M2的下采样尺度为×1/4，而上下文编码器的下采样步幅与ResNet (×1/8)相同。上下文窗口的大小被设置为本地窗口大小的9倍.

我们提出了一个新的基准数据集——BLU数据集

我们基于背景/贫瘠、建成区、植被、水、农田和道路六个LU类在采集的图像上构建了细粒度的人类注释

每张大图被进一步裁剪成64张图像(49张用于训练，7张用于验证，8张用于测试)，每张图像都有2048 × 2048像素(图4)。训练、验证和测试区域不重叠，而每个区域内的裁剪窗口有小的重叠。用于训练、验证和测试的图像总数为196张，

训练参数：

训练周期固定为50批处理大小固定为32初始学习率固定为0.1。学习率lr在每次迭代时动态计算为:0.1 ∗(1 − iterations/total_iterations)^1.5优化算法为动量为0.9的随机梯度下降算法。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。