栏目文章

Select

1. 基于跨模态信息过滤的视觉问答网络

何世阳, 王朝晖, 龚声蓉, 钟珊

计算机科学 2024, 51 (5): 85-91. DOI: 10.11896/jsjkx.230300202

摘要（6）

PDF（pc）（3124KB）（2）

视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在 test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

2. 一种多阶段的黑白影像智能色彩修复算法

宋建锋, 张文英, 韩露, 胡国正, 苗启广

计算机科学 2024, 51 (5): 92-99. DOI: 10.11896/jsjkx.231100067

摘要（7）

PDF（pc）（6127KB）（3）

针对黑白电影的上色过程中,自动上色模型只生成一种结果导致上色结果单一、基于参考示例上色方法需要用户指定参考图像、参考图像的高要求会耗费大量人力的问题,提出了一种多阶段的黑白影像智能色彩修复算法(A Multi-Stage Intelligent Color Restoration Algorithm for Black-and-White Movies,MSICRA)。首先,使用VGG19网络将电影分割为多个场景片段;其次,将每个场景片段逐帧切割,将每帧图像的边缘强度和灰度差作为图像清晰度评判指标,筛选出每个场景中清晰度位于[0.95,1]区间的图像;然后,选择筛选出的图像中的第一张,使用不同的渲染因子值进行上色,利用饱和度进行上色效果的评估,选择合适的渲染因子值对筛选出的图像上色;最后,利用上色前和上色后图像之间的均方误差选择上色质量较好的图像作为该场景片段上色的参考图像。实验结果表明,所提算法在黑白电影《雷锋》和《永不消逝的电波》的PSNR上分别提高了1.32%和2.15%,SSIM分别提高了1.84%和1.04%。该算法不仅可以实现全自动上色,而且颜色真实,符合人们的认知。

参考文献 | 相关文章 | 多维度评价

Select

3. 集成全尺度融合和循环注意力的医学图像分割网络

单昕昕, 李凯, 文颖

计算机科学 2024, 51 (5): 100-107. DOI: 10.11896/jsjkx.230400114

摘要（12）

PDF（pc）（2701KB）（7）

深度学习中的编解码网络在图像特征提取和分层特征融合方面具有卓越的性能,常被用于医学图像分割。但是,目前主流的编解码网络分割方法仍面临编码和解码阶段单一网络挖掘的图像特征信息不足,以及仅使用简单的跳跃连接而无法充分利用全尺度特征包含的粗粒度信息和细粒度信息等问题。为了解决上述问题,提出了一种集成全尺度融合和循环注意力的医学图像分割网络。首先,在U-Net编码器中加入了结合多层感知机(MLP)的卷积MLP模块来提取图像的全局特征信息,用于扩大编码器的特征感受野。其次,通过全尺度特征融合模块使得各尺度跳跃连接特征进行粗粒度信息和细粒度信息的有效融合,减小各尺度跳跃连接特征间的语义差异,突出图像的关键特征信息。最后,解码器通过提出的结合循环神经网络(RNN)和注意力机制的循环注意力解码模块(RADU)来逐级精细化图像特征信息,加强特征提取的同时避免信息冗余,并得到高精度分割结果。在4个数据集上将所提方法与主流较优的方法进行比较,所提方法在像素精度和骰子相似系数两个指标上的图像分割精度均有提高。因此,所提出的用于医学图像分割的编解码网络利用全尺度特征融合模块和循环注意力解码模块,能够获得较优异的高精度分割结果,并且模型具有良好的噪声鲁棒性和抗干扰能力。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于Transformer紧凑编码的局部近重复视频检测算法

王萍, 余圳煌, 鲁磊

计算机科学 2024, 51 (5): 108-116. DOI: 10.11896/jsjkx.230300232

摘要（8）

PDF（pc）（3545KB）（2）

针对现有局部近重复视频检测算法特征存储消耗大、整体查询效率低、提取特征时并未考虑近重复帧之间细微的语义差异等问题,文中提出了一种基于Transformer紧凑编码的局部近重复视频检测算法。首先,提出了一个基于Transformer的特征编码器,其学习了大量近重复帧之间细微的语义差异,可以在编码帧特征时对各个区域特征图引入自注意力机制,在有效降低帧特征维度的同时也提高了编码后特征的表示性。该特征编码器通过孪生网络训练得到,该网络不需要负样本就可以有效学习近重复帧之间的相似语义信息,因此无需沉重和困难的难负样本标注工作,使得训练过程更加简易和高效。其次,提出了一个基于视频自相似度矩阵的关键帧提取方法,可以从视频中提取丰富但不冗余的关键帧,从而使关键帧特征序列能够更全面地描述原视频内容,提升算法的性能,同时也大幅减少了存储和计算冗余关键帧带来的开销。最后,基于关键帧的低维紧凑编码特征,采用基于图网络的时间对齐算法,实现局部近重复视频片段的检测和定位。该算法在公开的局部近重复视频检测数据集VCDB上取得了优于现有算法的实验性能。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于渐进式多尺度Transformer的图像去雾算法

周宇, 陈志华, 盛斌, 梁磊

计算机科学 2024, 51 (5): 117-124. DOI: 10.11896/jsjkx.230300049

摘要（12）

PDF（pc）（4574KB）（6）

现有的去雾方法难以在复原图像细节的同时保持全局信息。为了解决此问题,文中提出了一种基于渐进式多尺度Transformer(Multi Scale Progressive Transformer,MSP-Transformer)的图像去雾算法。该模型能够有效提取和利用不同尺度的雾相关特征,实现了特征和图像的多尺度学习和融合,渐进式地从有雾图像中复原清晰图像。所提出的MSP-Transformer分为编码、解码和复原3个阶段。在编码阶段,利用基于Transformer模块的编码器将输入图像分解为不同尺度的雾图像特征,以全面表征真实有雾图像的信息损失。在解码阶段,考虑到有雾图像的不同区域存在不同尺度的信息丢失,设计了一个包含多尺度注意力机制的特征聚合模块,利用通道注意力和多尺度空间注意力来融合不同尺度的特征信息。复原阶段包含了复原模块和融合模块,首先基于多尺度特征融合的复原模块聚合不同尺度的雾相关特征以增加不同尺度特征的联系,并在每个尺度复原出清晰的无雾图像,然后将每个尺度的复原图像送入融合模块以获得最终的去雾结果。定性和定量的实验结果表明,所提出的MSP-Transformer在真实图像和合成数据集上能够实现雾的有效去除,具有良好的鲁棒性。在公开的RESIDE数据集上与11种去雾方法进行定量和定性比较,MSP-Transformer取得了最高的PSNR(39.53db)和SSIM(0.9954),并获得了良好的视觉效果。此外,消融实验也证明了MSP-Transformer中所提出的模块的有效性。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于特征注意力提纯的显著性目标检测模型

白雪飞, 申悟呈, 王文剑

计算机科学 2024, 51 (5): 125-133. DOI: 10.11896/jsjkx.230300018

摘要（8）

PDF（pc）（3368KB）（4）

近年来,显著性目标检测技术取得了巨大进展,其中如何选择并有效集成多尺度特征扮演了重要角色。针对现有特征集成方法可能导致的信息冗余问题,提出了一种基于特征注意力提纯的显著性检测模型。首先,在解码器中采用一个全局特征注意力引导模块(GAGM)对带有语义信息的深层特征进行注意力机制处理,得到全局上下文信息;然后,通过全局引导流将其送入解码器各层进行监督训练;最后,利用多尺度特征融合模块(FAM)对编码器提取出的多尺度特征与全局上下文信息进行有效集成,并在网格状特征提纯模块(MFPM)中进行进一步细化,以生成清晰、完整的显著图。在5个公开数据集上进行实验,结果表明,所提模型优于现有的其他显著性检测方法,并且处理速度快,当处理 320 × 320 尺寸的图像时,能以 30 帧以上的速度运行。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于多尺度注意力的遥感影像建筑物提取研究

赫晓慧, 周涛, 李盼乐, 常静, 李加冕

计算机科学 2024, 51 (5): 134-142. DOI: 10.11896/jsjkx.230200134

摘要（9）

PDF（pc）（6283KB）（6）

基于深度学习的遥感影像建筑物提取方法具有覆盖范围广、运算效率高的特点,在城市建设、灾害防治等方面有着重要的实际意义。主流方法大多采用多尺度特征融合的方式使神经网络能够学习到更丰富的语义信息,然而由于受到多尺度特征的复杂性以及其他类别地物的干扰,该类方法往往存在着目标漏检与噪声密集的问题。对此,文中设计并实现了一种结合注意力机制的特征解译模型MGA-ResNet50(MGAR)。该方法的核心在于利用多头注意力对高等级语义信息进行分层加权处理,以提取出表征效果较好的最优特征组合;而后使用门控结构将每维特征图与对应编码端的低级语义信息融合,来解决局部建筑物细节信息丢失的问题。在Massachusetts Building,WHU Building等公开数据集上的实验结果表明,与RAPNet,GAMNet,GSM等较为先进的多尺度特征融合方法相比,所提算法能够取得更高的F1与IoU指标。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于多尺度视觉感知特征融合的显著目标检测方法

吴小琴, 周文俊, 左承林, 王一帆, 彭博

计算机科学 2024, 51 (5): 143-150. DOI: 10.11896/jsjkx.230100132

摘要（8）

PDF（pc）（4634KB）（7）

显著性物体检测具有重要的理论研究意义和实际应用价值,已在许多计算机视觉应用中发挥了重要作用,如视觉追踪、图像分割、物体识别等。然而,自然环境下显著目标的类别未知、尺度多变依然是物体检测面临的一大挑战,影响着显著目标的检测效果。因此,提出了一种基于多尺度视觉感知特征融合的显著目标检测方法。首先,基于视觉感知显著目标的特性,设计并提取多个图像感知特征。其次,图像感知特征采用多尺度自适应方式,获取特征显著图。然后,将各个显著特征图融合,获得最终的显著目标。该方法基于不同图像感知特征的特点,自适应提取显著目标,能够适应多变的检测目标与复杂的检测环境。实验结果表明,在受自然环境中背景干扰的情况下,该方法能有效检测出未知类别和不同尺度的显著目标。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于双平滑函数秩近似和群稀疏的高光谱图像恢复模型

姜斌, 叶军, 张历洪, 司伟纳

计算机科学 2024, 51 (5): 151-161. DOI: 10.11896/jsjkx.230200044

摘要（7）

PDF（pc）（6236KB）（4）

高光谱图像(HSI)具有良好的光谱识别能力,被广泛地应用于各种领域。然而,HSI在成像过程中易受到混合噪声的污染,会严重削弱后续任务的准确性,如何高质量地恢复HSI是需要解决的首要问题。目前,基于低秩先验和全变分正则化结合的HSI去噪方法取得了较好的性能,但这些方法一方面忽略了高强度条纹噪声在空间结构和光谱分布上的特征,使得噪声无法完全去除,另一方面没有考虑HSI差分图像低秩子空间的信息,不能挖掘潜在的局部空间光滑结构。为此,提出了一种基于双平滑函数秩近似和群稀疏的HSI恢复模型。首先,利用双平滑函数秩近似模型探索干净HSI和条纹噪声的低秩结构,去除结构化条纹噪声等高强度混合噪声。其次,将基于E3DTV的群稀疏正则化融入双平滑函数秩近似模型中,充分挖掘HSI差分图像的稀疏先验信息,进一步提升图像在空间恢复和光谱特征保留方面的性能。最后,设计了交替方向乘子法(ADMM)求解所提出的BSRAGS模型。仿真和真实数据实验均表明,所提模型能够有效提高图像恢复质量。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于边卷积与瓶颈注意力的点云三维目标检测

简英杰, 杨文霞, 方玺, 韩欢

计算机科学 2024, 51 (5): 162-171. DOI: 10.11896/jsjkx.230300113

摘要（7）

PDF（pc）（3474KB）（4）

点云数据的高度稀疏特性使当前大部分基于点云的三维目标检测算法对点云的局部特征学习不足,且点云数据包含的部分无效信息会干扰目标检测。针对以上问题,提出了一种基于边卷积与瓶颈注意力的三维目标检测模型。首先,构建多层边卷积(Edge Convolution,EdgeConv),针对点云中的每个点,通过寻找特征空间上与其最接近的K个点,以构建K-近邻图结构,并学习点云的多尺度局部特征;其次,设计适用于三维点云数据的瓶颈注意力模块(Bottleneck Attention Module,BAM),每个BAM包括一个通道注意力模块和一个空间注意力模块,用于增强对目标检测有价值的点云信息,提升网络模型的表征能力。网络以VoteNet为基线,多层边卷积和BAM模块依次加入PointNet++网络和投票模块之间。模型在SUN RGB-D和ScanNetV2公共数据集上进行实验,并与13个当前先进的三维目标检测算法进行对比。实验结果表明,对于SUN RGB-D数据集,所提模型在交并比(Intersection over Union,IoU)为0.5时的平均精确率mAP@0.5达到了最高,并在床、椅子、办公桌等6个对象类别(共10个类别)达到最优准确率(AP@0.25);对于ScanNetV2数据集,模型的mAP@0.25和mAP@0.5均达到最优,并在椅子、沙发、照片等10个对象类别(共18个类别)达到了最优准确率(AP@0.25)。与基线VoteNet相比,所提模型在两个数据集上的mAP@0.25分别提升了6.5%和12.9%,消融实验证明了所加入的边卷积模块和瓶颈注意力模块的有效性。

参考文献 | 相关文章 | 多维度评价