栏目文章

Select

1. 基于fMRI时变特征的大脑状态研究综述

林祺业, 夏佳楠, 周雪忠

计算机科学 2024, 51 (4): 182-192. DOI: 10.11896/jsjkx.230700059

摘要（201）

PDF（pc）（2651KB）（346）

功能磁共振成像技术已被广泛应用于人脑功能活动的研究,使用大脑状态(Brain State)研究大脑动力学得到了研究人员的广泛关注。以往关于大脑状态的综述,通常从状态定义方法的角度进行比较和总结,忽略了底层数据形式的不一致,可能导致对大脑状态的解读多样化。此外,现有综述也缺少对大脑状态分析应用方法的探讨。基于不同的数据形式,回顾了大脑状态的不同定义方法,总结了基于大脑状态进行大脑动力学分析的不同方法,并从大脑状态应用于认知、精神疾病、生理状态等方面的研究,总结出典型的研究方法。最后,发现了大脑元状态的定义与深度学习在特征提取方面具有相似性,从而提出将深度学习应用于大脑状态的识别以及大脑动力学的研究,这是一个有希望的未来方向。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于视觉的神经网络三维动态手势识别方法综述

王瑞平, 吴士泓, 张美航, 王小平

计算机科学 2024, 51 (4): 193-208. DOI: 10.11896/jsjkx.230200205

摘要（173）

PDF（pc）（7133KB）（265）

动态手势识别作为一种重要的人机交互手段而受到广泛关注,其中基于视觉的识别方式因其使用便利性和低成本的优势成为新一代人机交互的首选技术。以人工神经网络为中心,综述了基于视觉的手势识别方法研究进展,分析了不同类型人工神经网络在手势识别中的发展现状,调研并归纳总结了待识别数据和训练数据集的类型及特点;此外,通过开展性能对比实验,客观评估了不同类型的人工神经网络,并对结果进行了分析。最后,对调研内容进行了总结,对该领域面临的挑战和存在的问题进行了阐述,对动态手势识别技术的发展趋势进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于双流YOLOv4的金属表面缺陷检测方法

徐浩, 李丰润, 陆璐

计算机科学 2024, 51 (4): 209-216. DOI: 10.11896/jsjkx.230100141

摘要（167）

PDF（pc）（3452KB）（287）

目前有许多学者使用深度学习进行表面缺陷检测研究,由于这些研究大都沿用主流目标检测算法的思路,注重高级语义特征,而忽视了低级语义信息(色彩、形状)对表面缺陷检测的重要性,因此导致缺陷检测效果不够理想。为解决上述问题,提出了一种金属表面缺陷检测网络——双流YOLOv4网络,骨干网络分成两个分支,输入分为高分辨率图像和低分辨率图像,浅分支负责从高分辨率图像中提取低级特征,深分支负责从低分辨率图像中提取高级特征,通过削减两分支的层数和通道数来减少模型总参数量;为了强化低级语义特征,提出了一种树形多尺度融合方法(Tree-structured Multi-scale Feature Fusion Me-thod,TMFF),并设计了一个结合极化自注意力机制和空间金字塔池化的特征融合模块(Feature Fusion Module with Polarized Self-Attention Mechanism and Spatial Pyramid Pooling,FFM-PSASPP)应用到TMFF中。在东北大学热轧带表面缺陷数据集NEU-DET、金属表面缺陷数据集GC10-DET和伊莱特电饭煲内胆缺陷数据集Enaiter的测试集上对所提算法进行了测试,测得的map@50结果分别为0.80,0.66和0.57,相比大部分主流的用于缺陷检测的目标检测算法均有提升,且模型参数量仅为原YOLOv4的一半,速度与YOLOv4接近,可满足实际使用需求。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于多任务学习的视频和图像显著目标检测方法

刘泽宇, 刘建伟

计算机科学 2024, 51 (4): 217-228. DOI: 10.11896/jsjkx.231000051

摘要（173）

PDF（pc）（5070KB）（224）

显著目标检测(Salient Object Detection,SOD)能够模拟人类的注意力机制,在复杂的场景中快速发现高价值的显著目标,为进一步的视觉理解任务奠定了基础。当前主流的图像显著目标检测方法通常基于DUTS-TR数据集进行训练,而视频显著目标检测方法(Video Salient Object Detection,VSOD)基于DAVIS,DAVSOD以及DUTS-TR数据集进行训练。图像和视频显著目标检测任务既有共性又有特性,因此需要部署独立的模型进行单独训练,这大大增加了运算资源和训练时间的开销。当前研究大多针对单个任务提出独立的解决方案,而缺少统一的图像和视频显著目标检测方法。针对上述问题,提出了一种基于多任务学习的图像和视频显著目标检测方法,旨在构建一种通用的模型框架,通过一次训练同时适配两种任务,并进一步弥合图像和视频显著目标检测方法之间的性能差异。12个数据集上的定性和定量实验结果表明,所提方法不仅能够同时适配两种任务,而且取得了比单任务模型更好的检测结果。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于GAANET的立体匹配算法

宋昊, 毛宽民, 朱洲

计算机科学 2024, 51 (4): 229-235. DOI: 10.11896/jsjkx.230100137

摘要（103）

PDF（pc）（2825KB）（120）

端到端的立体匹配算法在计算时间和匹配效果上均有一定的优势,近年来在立体匹配任务中得到了广泛的应用。但特征提取的过程中存在特征冗余、信息丢失,以及多尺度特征融合不充分等问题,造成算法的计算量和复杂度偏高,也影响了匹配的精度。针对上述问题,在自适应聚合网络AANET的基础上,设计了更加适合立体匹配的特征提取模块,提出了改进的幽灵自适应聚合网络GAANET。采用G-Ghost阶段提取多尺度的特征,通过廉价操作生成部分特征,减少特征的冗余现象并有效保存浅层特征;采取高效的通道注意力机制,将不同的权重分配到每个通道中;采取改进的特征金字塔结构,缓解传统金字塔中的通道信息丢失并优化融合特征,为各个尺度的特征进行丰富的信息补充。在SceneFlow,KITTI2015和KITTI2012数据集上进行训练和评估,评估结果显示,与基础方法相比,所提改进算法的精度分别提升了0.92%,0.25%和0.20%,且参数量减少了13.75%,计算量减少了4.8%。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于3D骨架相似性的自适应移位图卷积神经网络人体行为识别算法

闫文杰, 尹艺颖

计算机科学 2024, 51 (4): 236-242. DOI: 10.11896/jsjkx.221200120

摘要（151）

PDF（pc）（2583KB）（178）

图卷积神经网络(Graph Convolutional Neural network,GCN)在基于3D骨架的人体行为识别领域取得了良好效果。然而,现有的大多数GCN方法对行为动作图的构建都是基于人体物理结构的手动设置,训练阶段各个图节点只能根据手动设置建立联系,无法感知动作行为过程中骨骼节点之间产生的新联系,导致图拓扑结构不合理和不灵活。移位图卷积网络通过改变图网络结构使得感受野更加灵活,并且在全局移位角度取得了良好效果。因此,提出了一种基于自适应移位图卷积神经网络(Adaptive Shift Graph Convolutional Neural network,AS-GCN)的人体行为识别算法来弥补前述GCN方法的不足。AS-GCN借鉴了移位图卷积网络的思想,提出用每个人体动作的本身特点来指导图神经网络进行移位操作,以尽可能准确地选定需要扩大感受野的节点。在基于骨架的通用动作识别数据集NTU-RGBD上,所提算法在骨骼有无物理关系约束的前提条件下均进行了实验验证。与现有的先进算法相比,AS-GCN算法的动作识别准确率在有骨骼物理约束的条件下的CV和CS角度上平均提高了12%和4.84%;在无骨骼物理约束的条件下的CV和CS角度上平均提高了20%和14.49%。

参考文献 | 相关文章 | 多维度评价

Select

7. 结合卷积神经网络与多层感知机的渐进式多阶段图像去噪算法

薛金强, 吴秦

计算机科学 2024, 51 (4): 243-253. DOI: 10.11896/jsjkx.230100140

摘要（117）

PDF（pc）（3687KB）（226）

现有基于深度学习的图像去噪方法中,在网络架构层面存在单阶段网络特征表达能力不足而难以在复杂场景下重构清晰图像,以及多阶段网络内部特征连接不紧密而容易丢失原始图像细节的问题。在基础构建块层面,存在卷积层难以处理较大噪声级别下的跨层次特征,以及全连接层难以捕获图像邻域空间细节的问题。为解决以上问题,从两方面提出解决方法:一方面,在架构层面提出新颖的跨阶段门控特征融合,从而更好地连接一阶段网络的浅层特征与二阶段的深层特征,促进信息流的交互并使得去噪网络内部关联更为紧密,同时避免丢失原始像素细节;另一方面,在基础构建块层面提出结合卷积神经网络和多层感知机特性的双轴特征偏移块,作用于低分辨率多通道数的特征图,从而缓解卷积网络在复杂噪声场景下难以捕获跨层次特征依赖关系的问题,对于高分辨率、少通道数的特征图,使用卷积网络以充分提取噪声图像的空间邻域依赖关系。大量定量与定性实验表明,所提算法在真实世界图像去噪和高斯噪声去除任务中,都以较小的参数量和计算代价取得了最佳的PSNR和SSIM。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于快速最大奇异值幂正规化的全局协方差池化

曾睿仁, 谢江涛, 李培华

计算机科学 2024, 51 (4): 254-261. DOI: 10.11896/jsjkx.230200140

摘要（146）

PDF（pc）（1950KB）（113）

近期的研究工作表明,矩阵正规化对全局协方差池化起着关键作用,有助于生成分辨能力更强的表征,从而提升图像识别任务的性能。在不同的矩阵正规化方法中,矩阵结构正规化能充分利用协方差矩阵的几何结构,因此可以获得更好的性能。然而,结构正规化一般依赖计算代价很高的奇异值分解(SVD)或者特征值分解(EIG),不能充分利用GPU的并行计算能力,从而形成计算瓶颈。迭代矩阵平方根正规化(iSQRT)通过牛顿-舒尔兹迭代对协方差矩阵进行正规化,速度比基于SVD和EIG的方法更快。但是随着迭代次数和维度的提高,iSQRT的时间和内存开销都会显著增加,而且该方法无法完成一般幂次的正规化,限制了其应用范围。为了弥补iSQRT的不足,文中提出了一种基于最大奇异值幂的协方差矩阵正规化方法。该方法通过将协方差矩阵除以其最大奇异值的幂来实现,计算过程仅需迭代幂法计算矩阵的最大奇异值。详细的消融实验的结果表明,与iSQRT相比,所提方法的速度更快并占用更少的显存,在时间复杂度和空间复杂度上都优于iSQRT方法,同时性能上与iSQRT方法相当或更好。所提方法在大规模图像分类数据库和细粒度识别数据库中取得了领先的性能,其中在Aircraft,Cars和Indoor67上分别表现为90.7%,93.3%以及83.9%,充分验证了所提方法的鲁棒性和泛化性。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于语音节奏差异的情感识别方法

张家豪, 章昭辉, 严琦, 王鹏伟

计算机科学 2024, 51 (4): 262-269. DOI: 10.11896/jsjkx.230200063

摘要（119）

PDF（pc）（2489KB）（165）

语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络(CNN)和循环神经网络(RNN)的情感识别模型,实现对频谱的时域和频域变化特征的提取与融合。在公开数据集IEMOCAP上进行实验,结果表明,该基于语音节奏差异的语音情感识别与基于语谱图的方法相比,在加权准确率WA和非加权准确率UA指标上分别平均提升了1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于多视图自编码器的多被试者脑影像功能校准

黄硕, 孙亮, 汪美玲, 张道强

计算机科学 2024, 51 (3): 141-146. DOI: 10.11896/jsjkx.230600166

摘要（182）

PDF（pc）（1936KB）（2113）

功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)研究面临的主要挑战之一是不同被试者fMRI数据的异质性。一方面,多被试数据分析对于确定所生成结果跨被试的通用性和有效性至关重要。另一方面,分析多被试者fMRI数据需要在不同被试者的神经活动之间进行准确的解剖和功能校准,以提升最终结果的性能。然而,现有大多数功能校准研究都采用浅层模型来处理多被试者间的复杂关系,这严重束缚了多被试信息的建模能力。为此,提出了一种基于多视图自编码器的功能校准(Multi-view Auto-encoder Functional Alignment,MAFA)方法。具体地,该方法通过重构不同被试者的响应空间来学习节点嵌入,捕获不同被试者之间共享的特征表示,从而创建一个公共的响应空间。此外,通过引入自训练聚类目标,利用高置信度节点作为软标签来监督图聚类过程。在4个数据集上的实验结果表明,相比其他多被试者脑影像功能校准方法,所提方法在解码精度方面取得了最佳效果。

参考文献 | 相关文章 | 多维度评价

Select

11. 一种自适应去噪保真的无监督暗光图像增强模型

高仁, 郝世杰, 郭艳蓉

计算机科学 2024, 51 (3): 147-154. DOI: 10.11896/jsjkx.221200074

摘要（189）

PDF（pc）（4732KB）（2165）

暗光环境下成像往往受到低照度和成像噪声等多种因素干扰,所得图片的视觉质量往往较低。当前各类暗光增强方法多侧重于改善可视度,却常忽略了保持增强结果真实感这一同样重要的目标。为解决该问题,提出了一种自适应去噪保真的无监督暗光图像增强方法,旨在高效便捷地实现改善图像可视度和去噪保真两个目标。模型由暗光增强阶段和去噪保真阶段组成。在暗光增强阶段,构建无监督图像分解模块和光照增强模块,实现改善可视度的目标;在去噪保真阶段,基于前一阶段所得的光照分布来自动构造成对训练数据,驱动去噪模块抑制原本昏暗处的噪声并保持原本明亮处的细节,实现增强结果保真的目标。实验结果表明,相比其他暗光增强方法,所提方法在改善可视度和去噪保真之间能够取得良好的均衡。该模型无须事先采集或准备“昏暗-明亮”成对图像来进行训练,且具有较小的模型尺寸和较快的计算速度,实用性良好。

参考文献 | 相关文章 | 多维度评价

Select

12. 外观融合运动感知的运动目标分割算法

徐邦武, 吴秦, 周浩杰

计算机科学 2024, 51 (3): 155-164. DOI: 10.11896/jsjkx.221200153

摘要（93）

PDF（pc）（4262KB）（2086）

现实场景中的运动目标分割旨在分割当前场景下的运动物体,对于许多计算机视觉应用有着至关重要的作用。现有的运动目标分割算法大多通过2D光流图中的运动信息来分割运动物体,然而,这些方法还存在一些问题。当运动物体在极面内运动或者其3D运动方向和背景一致时,很难通过光流图分割得到;另外,错误的光流预测也会影响分割的结果。为了解决以上问题,提出了不同的运动代价,以提升运动目标分割的正确率。针对和背景共线或共面运动的物体,设计均衡重投影代价和多角度光流对比代价,通过运动物体的2D光流与背景2D光流的差异来检测运动物体。针对自我运动退化,设计差异单应性代价。最后,提出了一种基于外观融合的运动感知结构,以分割各种场景下的运动物体。采用多模态共同注意力门控,更有效地捕获运动特征和外观特征的关系,以促进外观特征和运动特征更好地交互。此外,为了突出运动的物体,提出了多层运动注意力模块,以减少冗余的外观特征对结果的影响。实验结果表明,所提方法在KITTI,JNU-UISEE,KittiMoSeg和Davis-2016数据集上均能获得较优的运动目标分割结果。

参考文献 | 相关文章 | 多维度评价

Select

13. 多尺度特征融合的遥感图像目标检测方法

张洋, 夏英

计算机科学 2024, 51 (3): 165-173. DOI: 10.11896/jsjkx.230200030

摘要（165）

PDF（pc）（4906KB）（2083）

遥感图像目标检测是计算机视觉领域中的一个重要研究方向,广泛运用在军事和民用领域。遥感图像中的目标具有尺度多样、密集排列和类间相似等特点,使得用于自然图像的目标检测方法在遥感图像目标检测中存在较多漏检和误检等现象。针对这一问题,在YOLOv5的基础上,提出一种基于多尺度特征融合的遥感图像目标检测方法。首先,在骨干网中引入融合多头自注意力的残差单元,通过该模块充分提取多层次特征信息,缩小不同尺度间的语义差异;其次,引入融合轻量级上采样算子的特征金字塔网络,用于获取高层语义特征和低层细节特征,通过特征融合的方式获得特征信息更丰富的特征图,从而提升不同尺度目标的特征分辨率。在公开数据集DOTA和NWPU VHR-10上评估了所提方法的有效性,相比基准模型,所提方法的准确率(mAP)分别提高了1.5%和2.0%。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于级联U-Net的遥感影像道路分割和轮廓提取方法

李余, 杨祥立, 张乐, 梁雅麟, 高显, 杨建喜

计算机科学 2024, 51 (3): 174-182. DOI: 10.11896/jsjkx.221200032

摘要（188）

PDF（pc）（4205KB）（2070）

针对基于深度学习的遥感图像道路信息提取模型往往只能输出单任务结果且多任务之间相关性利用不充分的问题,提出了一种基于级联U-Net的道路语义分割和轮廓联合检测方法,将道路语义分割后的特征图与原始图像融合后进行道路轮廓的提取,实现道路语义分割和边界轮廓的联合训练。首先使用U-Net网络结构提取光学遥感图像丰富的层次化特征,通过级联结构将特征串联融合,分别用于提取道路的语义类别和边界轮廓。其次在每级U-Net结构中引入注意力机制模块,进行空间上下文信息和深层次特征提取,改善网络提取过程中出现的细节模糊现象。最后,使用骰子系数和交叉熵误差组成的联合损失函数进行多任务整体训练,实现深度学习模型对遥感图像中道路语义类别和边界轮廓的同时提取。通过在加拿大渥太华城市地区的光学遥感数据集上进行实验,基于级联U-Net的道路信息联合提取方法在分割指标上分别获得了42%的精确度、58%的召回率、48.2%的F1分数以及71.6%的平均交并比,在道路检测指标上取得了0.896的全局最佳阈值(ODS)。结果表明,该模型在满足联合提取道路多任务信息的同时具有更优的检测精度。

参考文献 | 相关文章 | 多维度评价

Select

15. Transformer在计算机视觉场景下的研究综述

陈洛轩, 林成创, 郑招良, 莫泽枫, 黄心怡, 赵淦森

计算机科学 2023, 50 (12): 130-147. DOI: 10.11896/jsjkx.221100076

摘要（272）

PDF（pc）（6634KB）（2419）

Transformer是一种基于注意力的编码器-解码器架构,其凭借长距离建模能力与并行计算能力在自然语言处理领域取得了重大突破,并逐步拓展应用至计算机视觉领域,成为了计算机视觉任务的重要研究方向。文中重点回顾与总结了Transformer在图像分类、目标检测与图像分割三大计算机视觉任务中的应用和改进。首先,以图像分类任务为切入点,从数据规模、结构特点、计算效率等方面深入分析了当前视觉Transformer存在的关键问题,并基于关键问题对解决方法和思路进行了分类。其次,全面梳理了视觉Transformer在目标检测与图像分割两大领域的研究进展,并根据结构特点、设计动机来组织这些方法,分析对比代表性方法的优点与不足。最后,对Transformer在计算机视觉任务中亟待解决的问题以及发展趋势进行了总结和探讨。

参考文献 | 相关文章 | 多维度评价

Select

16. 先验引导的虹膜图像盲修复算法

王甲, 项刘宇, 黄昱博, 夏玉峰, 田青, 何召锋

计算机科学 2023, 50 (12): 148-155. DOI: 10.11896/jsjkx.230500217

摘要（317）

PDF（pc）（3594KB）（2258）

虹膜识别作为最有潜力的生物特征识别技术之一,已得到广泛应用。然而,现有的虹膜识别系统在图像采集过程中易受外界因素干扰,存在采集的虹膜图像分辨率不足、易模糊等问题。为解决以上问题,提出了一种先验引导的虹膜图像盲修复算法,利用生成对抗网络和虹膜先验知识对低分辨率、运动模糊、离焦模糊等降质因素混合的未知退化虹膜图像进行盲修复。修复网络包括退化去除子网络、先验估计子网络和先验融合子网络,其中先验估计子网络对输入的风格信息进行分布建模,并将其作为先验知识来指导生成网络;先验融合子网络利用注意力融合机制来整合多层级的风格特征,提高了信息的利用率。实验结果表明,所提方法在定性和定量指标上都优于其他算法,实现了退化虹膜的盲修复,提高了虹膜识别的鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于空间相关性与特征级插值改进的快速图像翻译模型

李玉强, 李欢, 刘春

计算机科学 2023, 50 (12): 156-165. DOI: 10.11896/jsjkx.221100027

摘要（304）

PDF（pc）（3539KB）（2184）

近年来,深度学习算法的流行使图像翻译任务取得了显著的效果。其中,很多研究工作致力于在缩短模型运行时间的同时保持图像的生成质量,ASAPNet模型就是一个典型的代表。但该模型的特征级损失函数无法完全解耦图像特征和外观,又由于其大多数计算在极低的分辨率下执行,导致生成的图像质量不够理想。针对上述问题,提出了一种基于空间相关性和特征级插值的ASAPNet改进模型——SRFIT。具体来说,根据自相似性原理,使用空间相关性损失替换原模型中的特征匹配损失,以缓解图像翻译时的场景结构差异的问题,从而提高图像翻译的准确性。此外,受ReMix中数据增强方法的启发,通过线性插值在图像特征级上增加了数据量,解决了生成器过拟合的问题。最后,在两个公开数据集CMP Facades和Cityscapes上进行对比实验,结果均表明,相比当前的主流模型,所提出的改进模型SRFIT展现了更好的性能,可以在有效改善图像生成质量的同时,保持较快的运行速度。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于特征融合与边界修正显著性目标检测

陈慧, 彭力

计算机科学 2023, 50 (12): 166-174. DOI: 10.11896/jsjkx.221100203

摘要（154）

PDF（pc）（4504KB）（2248）

显著性目标检测旨在寻找图像中的视觉显著区域。现有的显著性目标检测方法已经展现出强大的优势,但依然在尺度感知和边界预测方面具有局限性。首先,各类场景中的显著目标存在诸多尺度,使算法难以适应不同尺度变化。其次,显著目标往往具有复杂的轮廓,这使边界像素点的检测变得更为困难。针对以上问题,文中提出了基于特征融合与边界修正的显著性目标检测网络,该网络基于特征金字塔,提取了不同层次显著特征。首先针对目标的尺度多样性设计了由多尺度特征解码模块组成的特征融合解码器,通过逐层融合相邻层特征,提高了网络对目标尺度的感知能力。同时设计了边界修正模块学习显著目标的轮廓特征,以生成边界清晰的高质量显著图。在5个常用显著性目标检测数据集上进行实验,结果表明所提算法在平均绝对误差、F指标和S指标3项定量指标上均能取得较优的结果。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于双空间共轭自编码器的多时相高光谱异常变化检测

李沙沙, 邢红杰, 李刚

计算机科学 2023, 50 (12): 175-184. DOI: 10.11896/jsjkx.221100092

摘要（281）

PDF（pc）（3740KB）（2145）

高光谱异常变化检测能够从多时相高光谱遥感图像中寻找到数量稀少、与整体背景变化趋势不同、难以发现且令人感兴趣的异常变化。数据集规模较小、存在噪声干扰以及线性预测模型存在局限性等问题,极大地降低了传统高光谱异常变化检测方法的检测性能。目前,自编码器已被成功地应用于高光谱异常变化检测。然而,单个自编码器在处理多时相高光谱图像时,仅关注图像的重构质量,在获取瓶颈特征时往往忽略了图像中复杂的光谱变化信息。为了解决该问题,提出了一种基于双空间共轭自编码器的多时相高光谱异常变化检测(Multi-temporal Hyperspectral Anomaly Change Detection Based on Dual Space Conjugate Autoencoder,DSCAE)方法。所提方法包含两个共轭的自编码器,即它们从不同方向构造各自的潜在特征。在该方法的训练过程中,首先,两幅不同时刻的高光谱图像经过各自的编码器分别获得相应的潜在空间特征表示,再分别经过各自的解码器获得另一时刻的预测图像;其次,在样本空间和潜在空间中施加不同的约束条件,并在两个空间中最小化相应的损失函数;最后,两幅输入图像经过共轭自编码器后获得各自的异常损失图,对所得的两幅异常损失图采用取小运算得到最终的异常变化强度图,以便在减小输入图像间背景光谱差异的同时突出异常变化。在高光谱异常变化检测基准数据集上的实验结果表明,与10种相关方法相比,DSCAE展现了更优的检测性能。

参考文献 | 相关文章 | 多维度评价

Select

20. 农业场景下移动机器人的双目视觉定位与地图构建方法

余涛, 熊盛武

计算机科学 2023, 50 (12): 185-191. DOI: 10.11896/jsjkx.230300116

摘要（137）

PDF（pc）（1804KB）（2232）

视觉定位与地图构建是实现移动机器人自主导航的关键技术。针对农业场景下特征跟踪困难、场景规模大、运动不稳定引起系统精度和鲁棒性下降的问题,提出了一种适用于农业场景的双目视觉定位与地图构建方法。该方法首先利用静态立体匹配点来增加跟踪阶段地图点的数量和覆盖范围,从而增加了深度计算的准确率,同时提出一种点选择算法对密集地图点进行采样并移除离群点,进一步提高了系统的准确率和运行效率;然后通过显式尺度估计来减小大规模场景下定位与地图构建的尺度误差,并结合场景特点改进关键帧判别策略,避免了远处大目标导致关键帧稀疏的问题;最后提出新的运动假设构建位姿估计失败时的恢复策略,提高了系统在颠簸运动时的鲁棒性。在农业场景数据集上的评估结果表明,相比于当前先进的视觉定位与地图构建系统,提出的方法在困难序列上的轨迹误差降低幅度超过50%,其中3个序列上的尺度误差下降了一个数量级,取得了更高的精度和鲁棒性,能有效地应对农业场景下视觉定位与地图构建的挑战。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于立体相机和UWB融合的移动机器人跟随方法

付勇, 吴炜, 万泽青

计算机科学 2023, 50 (12): 192-202. DOI: 10.11896/jsjkx.221000188

摘要（386）

PDF（pc）（4474KB）（2308）

文中研究了人机共融环境下的自主跟随机器人。特别地,针对机器人确定所需跟随目标以及目标丢失后的重识别,提出了一种稳定有效的方法,即先基于立体相机的图像和点云数据实现对行人的视觉跟踪与定位;然后引入超宽带(Ultra Wide Band,UWB)的定位信息确定目标行人,并利用滤波算法融合传感器的数据得到相机坐标系下的坐标信息,最后利用坐标变换转为机器人坐标系下的位置。又提出了改进的动态窗口算法(Modified Dynamic Window Algorithm,MDWA),并将其作为机器人的跟随控制方法。另外,为保证机器人跟随能够持续稳定进行,基于传感器数据,提出了包含跟随行为、恢复行为、过渡行为的行为决策模块,通过行为间的切换,使机器人在面对因转弯抑或环境光照条件的变化使得相机失效而导致目标丢失时也能够重新找回目标。实验结果表明,所提出的跟随系统在开机时能够自动确定所需跟随目标,在有静态障碍物的场景,抑或是视野内有其他非目标行人干扰的动态场景下,机器人均能实现良好的避障跟随。特别地,机器人在转弯场景或是光照条件变化的场景下,机器人均可自主寻回被跟随目标,而且在转弯场景中,机器人的跟随成功率可达81%。

参考文献 | 相关文章 | 多维度评价

Select

22. 图像情感分析的层次图卷积网络模型

谈钱辉, 温佳璇, 唐继辉, 孙玉宝

计算机科学 2023, 50 (12): 203-211. DOI: 10.11896/jsjkx.221100177

摘要（298）

PDF（pc）（4395KB）（2355）

图像情感分析任务旨在运用机器学习模型自动预测观测者对图像的情感反应。当前基于深度网络的情感分析方法广受关注,主要通过卷积神经网络自动学习图像的深度特征。然而,图像情感是图像全局上下文特征的综合反映,由于卷积核感受野的尺寸限制,无法有效捕捉远距离情感特征间的依赖关系,同时网络中不同层次的情感特征间未能得到有效的融合利用,影响了图像情感分析的准确性。为解决上述问题,文中提出了层次图卷积网络模型,分别在空间和通道维度上构建空间上下文图卷积(SCGCN)模块和动态融合图卷积(DFGCN)模块,有效学习不同层次情感特征内部的全局上下文关联与不同层级特征间的关系依赖,能够有效提升情感分类的准确度。网络结构由4个层级预测分支和1个融合预测分支组成,层级预测分支利用SCGCN学习单层次特征的情感上下文表达,融合预测分支利用DFGCN自适应聚合不同语义层次的上下文情感特征,实现融合推理与分类。在4个情感数据集上进行实验,结果表明,所提方法在情感极性分类和细粒度情感分类上的效果均优于现有的图像情感分类模型。

参考文献 | 相关文章 | 多维度评价

Select

23. 面向工业图像异常检测的连续密集标准化流模型

张邹铨, 张辉, 吴天月, 陈天才

计算机科学 2023, 50 (12): 212-220. DOI: 10.11896/jsjkx.221000183

摘要（386）

PDF（pc）（4429KB）（2161）

工业产品表面异常检测是生产制造中不可或缺的环节。在实际工业生产中,普遍存在异常样本所占比例低且未知异常复杂多变等现象,进而造成在小样本数据集上过拟合、泛化能力不佳等一系列负面影响。近年来,标准化流思想为基于深度学习的工业图像异常检测带来了新途径,但标准化流的固有架构易导致模型表达能力不足。针对上述难点,提出了一种面向工业图像异常检测的连续密集标准化流模型。首先,设计一种基于对比学习的特征提取网络预训练策略,将模拟异常数据和少量真实异常数据加入对比学习任务中,并训练特征骨干网络AlexNet拉近或拉远特定样本间的距离;其次,设计连续密集标准化流模型,采用可逆变换的复合架构来构造密集流模块,增强生成式模型对分布的拟合能力。在MVTec AD和Magnetic Tile Defects以及自制的工业布匹数据集上的实验结果表明,与其他的异常检测模型相比,所提方法在3个数据集上的检测性能达到了最优或次优的水平。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于迭代非对称盲点网络的低剂量CT重建算法

郭广行, 阴桂梅, 刘晨旭, 段永红, 强彦, 王艳飞, 王涛

计算机科学 2023, 50 (12): 221-228. DOI: 10.11896/jsjkx.230300014

摘要（248）

PDF（pc）（3134KB）（2274）

针对通过机器学习方法进行低剂量CT重建的算法过度依赖成对图例的问题,提出了一种基于迭代非对称盲点网络的低剂量CT重建算法。首先,通过像素混洗下采样盲点网络对低剂量CT进行自监督训练,得到初步重建的CT图像;其次,建立迭代模型,迭代使用前一网络得到的结果图像作为本网络的低剂量输入进行训练,以得到最终网络模型;最后,采用非对称的方式,对像素混洗下采样的步幅进行调整,以尽可能地减少混叠伪影,得到最终的可用模型。理论分析和实验结果表明,与传统低剂量CT重建算法相比,基于迭代非对称盲点网络算法可以极大地减少低剂量CT重建算法对成对图例的依赖,且其生成结果在在图像质量、纹理特征和结构方面优于传统方法。

参考文献 | 相关文章 | 多维度评价

Select

25. PSwin:基于Swin Transformer的边缘检测算法

胡名扬, 郭燕, 金杨爽

计算机科学 2023, 50 (6): 194-199. DOI: 10.11896/jsjkx.220700145

摘要（296）

PDF（pc）（2106KB）（579）

边缘检测作为一种传统的计算机视觉算法,已经被广泛应用于车牌识别、光学字符识别等现实场景。当边缘检测作为更高层级算法的基础时,比如目标检测、语义分割等算法,又可以应用于城市安防、自动驾驶等领域。好的边缘检测算法能够有效提升上述计算机视觉任务的效率和准确度。边缘提取任务的难点在于目标的大小以及边缘细节的差异性,因此边缘提取算法需能够有效处理不同尺度的边缘。PSwin首次将Transformer应用于边缘提取任务,并提出了一种新型特征金字塔网络,以充分利用骨干网络多尺度和多层次的特征。PSwin使用自注意力机制,相比卷积神经网络架构,可以更有效地提取图像中的全局结构信息。在BSDS500数据集上进行评估时,PSwin边缘检测算法达到了最佳水平,ODS F-measure 为0.826,OIS为0.841。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于动态卷积核的自适应图像去雾算法

刘哲, 梁宇栋, 李嘉莹

计算机科学 2023, 50 (6): 200-208. DOI: 10.11896/jsjkx.220400288

摘要（247）

PDF（pc）（3864KB）（544）

现有图像去雾方法普遍存在去雾不彻底、容易出现颜色失真等问题,基于传统深度学习模型的图像去雾方法多采用静态推理模式,在该模式下,模型对不同样本会采用同样的、固定的参数设置,从而抑制了模型的表达能力,影响图像的去雾效果。针对以上问题,文中提出了一种基于动态卷积核的自适应图像去雾算法,该算法包括编码网络、自适应特征增强网络和解码网络3个部分。文中采用动态卷积、密集残差、注意力机制设计了自适应特征增强网络,该网络主要包括动态残差组件和动态跨层特征融合组件。动态残差组件由动态密集残差模块、一个卷积层和双注意力模块构成,其中动态密集残差模块将动态卷积引入密集残差模块,同时设计了一个基于注意力的权重动态聚合子网络,动态地生成卷积核参数以达到样本自适应的目的,在减少信息丢失的同时增强了模型的表达能力;双注意力模块结合通道注意力和像素注意力,使模型更加关注图像通道之间的差异性以及雾霾分布不均匀的区域。动态跨层特征融合组件通过动态融合不同阶段的特征,来学习丰富的上下文信息,防止网络深层计算时遗忘网络的早期特征,同时极大地丰富了特征表示,有利于模型对无雾图像细节信息的恢复。在合成数据集和真实数据集上进行了大量实验,结果表明,所提方法不仅取得了较好的客观评价分数,而且重建了主观效果较好的去雾图像,超越了对比方法的性能。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于群稀疏的约束平滑秩近似的高光谱图像去噪

张历洪, 叶军

计算机科学 2023, 50 (6): 209-215. DOI: 10.11896/jsjkx.220300236

摘要（407）

PDF（pc）（3589KB）（424）

高光谱图像(Hyperspectral Image,HSI)在采集过程中会产生多种类型的噪声,噪声数量越多,HSI的有效信息就越少。为了更有效地从大量混合噪声中恢复HSI的有效消息,文中提出了一种基于群稀疏正则化的约束平滑秩近似HSI恢复方法。其中,群稀疏正则化被定义为基于加权$\ell_{2,1}$范数的空谱全变分,该正则化在利用空谱维信息的同时也考虑到了HSI内部的群稀疏性,增强了模型对混合噪声的去除效果及空谱维的光滑性。此外,文中采用约束的平滑函数来近似秩函数,以更好地利用HSI的低秩属性并提高了算法效率。该优化问题采用基于交替方向乘子的迭代算法进行求解。两种加噪情况的模拟数据实验和一项基于真实数据的实验的结果表明,相比5种目前主流的方法,所提方法在目视效果和评价指标上都有明显提升。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于空频联合卷积神经网络的GAN生成人脸检测

王金伟, 曾可慧, 张家伟, 罗向阳, 马宾

计算机科学 2023, 50 (6): 216-224. DOI: 10.11896/jsjkx.220400268

摘要（223）

PDF（pc）（3227KB）（401）

生成式对抗网络(GAN)的快速发展使其在图像生成领域取得了前所未有的成功。StyleGAN等新型GAN的出现使得生成的图像更真实且具有欺骗性,对国家安全、社会稳定和个人隐私都构成了较大威胁。文中提出了一种基于空频联合的双流卷积神经网络的检测模型。鉴于GAN图像在生成过程中因上采样操作在频谱上留下了清晰可辨的伪影,设计了可学习的频率域滤波核以及频率域网络来充分学习并提取频率域特征。为了减弱图像变换至频域过程中丢弃部分信息而带来的影响,同样设计了空间域网络来学习图像内容本身具有差异化的空间域特征,最终将两种特征融合来实现对GAN生成人脸图像的检测。在多个数据集上的实验结果表明,所提模型在高质量生成数据集上的检测精度及在跨数据集的泛化性上都优于现有算法,且对于JPEG压缩、随机剪裁、高斯模糊等图像变换具有更强的鲁棒性。不仅如此,所提方案在GAN生成的局部人脸数据集上也有不错表现,进一步证明了所提模型有着更好的通用性以及更加广泛的应用前景。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于分层伪标签的图像聚类方法

蔡少填, 陈小军, 陈龙腾, 邱莉萍

计算机科学 2023, 50 (6): 225-235. DOI: 10.11896/jsjkx.220900197

摘要（431）

PDF（pc）（2941KB）（418）

图像聚类是图像处理中一个重要且开放的问题。最近,一些方法利用联合对比学习的良好表征能力来进行端到端聚类学习,利用伪标签技术来生成高质量的伪标签以提升聚类模型的鲁棒性。伪标签方法通常需要设置一个较大的概率阈值,并对满足要求的样本生成one-hot的标签,同时利用生成的标签来更新模型。但是,这种简单的伪标签生成方法难以获得足够数量的高质量伪标签。为了解决以上问题,提出了一种基于分层伪标签的图像聚类方法,它旨在利用结构化信息与伪标签信息对分类模型进行训练和精炼。引入3个假设来指导聚类方法的设计,包括局部平滑假设、自训练假设及低密度分离假设。新方法包含两个阶段:1)基于流形的一致性学习,利用近邻一致性学习来初始化聚类模型;2)基于分层伪标签的模型精炼,基于第一阶段的结果生成伪标签,并利用其来提升聚类模型的鲁棒性。首先,将基于第一阶段的结果生成强伪标签数据集及弱伪标签数据集;然后,提出了基于标签传播及分层混合的伪标签提升技术来提升弱伪标签数据集的质量;最后,同时利用强伪标签数据集及弱伪标签数据集来提升分类模型的泛化能力。相较于最优结果,SPC算法在STL10和Cifar100-20基准数据集上,ACC平均结果分别提升了7.6%和5.0%。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于气象数据与多噪声融合的体积云模拟研究

卢春海, 徐新海, 张帅, 李豪

计算机科学 2023, 50 (6): 236-242. DOI: 10.11896/jsjkx.220500070

摘要（375）

PDF（pc）（3009KB）（416）

为了在智能无人机集群仿真中构建逼真的仿真环境,需要考虑基于气象数据对云进行建模与渲染。而当前基于真实气象数据的云模拟大多采用物理建模方法,如求解NS方程和粒子系统方法,这些方法为繁重的微积分方程求解任务所累,存在因计算量大而无法在大规模场景下实现实时仿真的缺点。针对该问题,提出了一种使用气象数据生成纹理与多噪声融合的体积云建模方法,并将气象数据与高度相关函数相结合来定义云的形状和密度在高度上的变化,有效地将气象数据与非物理建模方法进行结合。渲染时采用光线步进算法从视线方向和朝向太阳两个方向累积云的密度,结合光的吸收和散射定律计算每个样本点的颜色与透明度,最终绘制成云。实验结果表明,模拟出的体积云与气象数据中的云层信息较为一致,效率高,且在形态和颜色上都接近真实的云。

参考文献 | 相关文章 | 多维度评价