栏目文章

Select

1. 三维点云上采样方法研究综述

韩冰, 邓理想, 郑毅, 任爽

计算机科学 2024, 51 (7): 167-196. DOI: 10.11896/jsjkx.230900110

摘要（47）

PDF（pc）（9804KB）（155）

随着深度相机、激光雷达等三维扫描设备的普及,用点云表示三维数据的方法越来越流行,对点云数据的分析与处理也引起了计算机视觉研究领域的极大兴趣。其中,点云上采样任务是一项重要的点云数据处理工作,其结果的好坏关系着下游多种任务的优劣,因此一些研究人员从多个角度深入探索并先后提出了多种点云上采样方法,以期提高计算效率和网络性能,解决点云上采样中的各种难点问题。为了促进之后研究的发展,首先从任务类型角度对现有的点云上采样方法进行了全面的分类与综述,然后对这些点云上采样网络的性能进行了详细的分析与对比,最后针对现存的问题与面临的挑战做了进一步分析,并探索了未来可能的研究方向,希望为三维点云上采样任务未来更深入的研究提供新思路。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于彩色图像高频信息引导的深度图超分辨率重建算法研究

李嘉莹, 梁宇栋, 李少吉, 张昆鹏, 张超

计算机科学 2024, 51 (7): 197-205. DOI: 10.11896/jsjkx.230400102

摘要（37）

PDF（pc）（3125KB）（140）

深度图像信息是三维场景信息的重要组成部分,然而,由于采集设备的局限性和成像环境的多样性,深度传感器获取的深度图像往往分辨率较低、高频信息较少,限制了其在各种计算机视觉任务中的进一步应用。深度图超分辨率试图提高深度图的分辨率,是一项实用而有价值的任务。同一场景下的RGB图像分辨率高,纹理信息丰富,部分深度图超分辨率算法通过引入来自同一场景下的RGB图像提供指导信息,实现了算法性能的显著提升。然而,由于RGB图像和深度图之间的模态不一致,如何充分、有效地利用RGB信息辅助深度图像进行图像超分辨率重建仍然极具挑战。为此,提出了一种基于彩色图像高频信息引导的深度图超分辨率重建算法。具体地,设计了一个高频特征提取模块来自适应地学习彩色图像中的高频信息,以指导深度图边缘的重建。另外,设计了一个特征自注意力模块来获取特征之间的全局依赖,同时提取更深层次的特征,以帮助深度图细节信息的恢复。经过跨模态融合,重组深度图像特征和彩色图像引导特征,并使用多尺度特征融合模块融合不同尺度特征之间的空间结构信息,获取包含多级感受野的重建信息。最后,通过深度重建模块,恢复相应的高分辨率深度图。公开数据集上的实验结果表明所提方法在定量和定性两方面均优于对比方法,验证了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 一种基于YOLOX_s的雾天场景目标检测方法

娄铮铮, 张欣, 胡世哲, 吴云鹏

计算机科学 2024, 51 (7): 206-213. DOI: 10.11896/jsjkx.230400086

摘要（44）

PDF（pc）（2787KB）（144）

文中提出了一个基于深度可分离卷积和注意力机制的雾天目标检测模型,旨在实现在雾天场景中对目标的快速、准确检测。该模型由去雾模块和检测模块组成,并在训练过程中共同训练。为确保模型在雾天场景中检测的准确性和实时性,在去雾模块方面,采用AODNet对输入图像进行去雾处理,以降低雾对图像中待检测目标的干扰,在检测模块中使用改进后的YOLOX_s模型,输出目标的分类置信度和位置坐标。为提升网络的检测性能,在YOLOX_s基础上采用深度可分离卷积和注意力机制来提高特征提取能力,扩大特征图感受野。所提模型能提高有雾场景中模型的检测精度,且不增加模型参数量和计算量。实验结果表明,所提模型在RTTS数据集和合成有雾目标检测数据集上均表现出色,有效提高了模型在雾天场景中的检测精度。与基准模型相比,平均精度(mAP@50_95)分别提升了1.9%和2.37%。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于外部先验和自先验注意力的图像描述生成方法

李永杰, 钱艺, 文益民

计算机科学 2024, 51 (7): 214-220. DOI: 10.11896/jsjkx.230600167

摘要（32）

PDF（pc）（2524KB）（112）

图像描述是一种结合计算机视觉和自然语言处理的跨模态任务,旨在理解图像内容并生成恰当的句子。现有的图像描述方法通常使用自注意力机制来捕获样本内的长距离依赖关系,但这种方式不仅忽略了样本间的潜在相关性,而且缺乏对先验知识的利用,导致生成内容与参考描述存在一定差异。针对上述问题,文中提出了一种基于外部先验和自先验注意力(External Prior and Self-prior Attention,EPSPA)的图像描述方法。其中,外部先验模块能够隐式地考虑到样本间的潜在相关性进而减少来自其他样本的干扰信息。同时,自先验注意力能够充分利用上一层的注意力权重来模拟先验知识,使其指导模型进行特征提取。在公开数据集上使用多种指标对EPSPA进行评估,实验结果表明该方法能够在保持低参数量的前提下表现出优于现有方法的性能。

参考文献 | 相关文章 | 多维度评价

Select

5. 三维流场的流线深度特征学习与特征聚类

陈杰, 金林江, 郑红波, 秦绪佳

计算机科学 2024, 51 (7): 221-228. DOI: 10.11896/jsjkx.230500033

摘要（25）

PDF（pc）（2570KB）（124）

流场可视化指将流体运动的数据转换为视觉形式,以便更好地理解和分析流场的流动。利用流线来实现流场可视化,是当前最为热门的方法。文中提出了一种学习、聚类三维流场流线特性的方法。首先设计了一种基于卷积的自编码器来提取流线特征。该方法中的自编码器由编码器和解码器组成,其中编码器用卷积层降维的方式来提取输入流线的特征,而解码器使用转置卷积对流线特征进行上采样,以此重建流线。通过训练不断减小输入流线与重建流线的差异,可以让编码器提取到的流线特征更加准确。其次,改进了CFSFDP算法,用于流线特征聚类。针对原CFSFDP算法需要手动选取聚类中心,以及对距离参数过于敏感的缺点,改进了其指标计算方法,实现对聚类中心的自动选取,并且引入了高斯核密度估计,实现对截断距离参数的自适应计算。实验结果表明,所提方法在流线特征的学习以及聚类上具有良好的效果。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于改进双流视觉Transformer的行为识别模型

雷永升, 丁锰, 沈尧, 李居昊, 赵东越, 陈福仕

计算机科学 2024, 51 (7): 229-235. DOI: 10.11896/jsjkx.230500054

摘要（26）

PDF（pc）（2697KB）（116）

针对现有行为识别方法中抗背景干扰能力差和准确率低等问题,提出了一种改进的双流视觉Transformer行为识别模型。该模型采用分段采样的方法来增加模型对长时序列数据的处理能力;在网络头部嵌入无参数的注意力模块,在降低动作背景干扰的同时,增强了模型的特征表示能力;在网络尾部嵌入时间注意力模块,通过融合时域高语义信息来充分提取时序特征。文中提出了一种新的联合损失函数,旨在增大类间差异并减少类内差异;采用决策融合层以充分利用光流与RGB流特征。针对上述改进模型,在基准数据集UCF101和HMDB51上进行消融及对比实验,消融实验结果验证了所提方法的有效性,对比实验结果表明,所提方法相比时间分段网络在两个数据集上的准确率分别提高了3.48%和7.76%,优于目前的主流算法,具有较好的识别效果。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于RepVGG网络的实时车道线检测方法

蔡汶良, 黄俊

计算机科学 2024, 51 (7): 236-243. DOI: 10.11896/jsjkx.230400128

摘要（36）

PDF（pc）（3617KB）（120）

针对现有车道线检测方法存在的检测速度慢、检测精度低的问题,将车道线检测视为分类问题,提出了基于RepVGG网络的实时车道线检测方法。在RepVGG网络中融合不同层级特征图,减少空间定位信息的损失,提高车道线的定位精度。采用曲线建模的后处理方法,从整体和局部两个角度修正车道线预测结果。挖掘车道线定位中的分布信息,提出了基于分布指导的车道线存在预测分支,直接从车道线定位分布中学习车道线的存在特征,在略微提升推理速度的同时进一步提升检测精度。在TuSimple和CULane数据集上的实验表明,该模型在检测速度和精度上取得了良好的平衡。在CULane数据集上,所提方法的推理速度为目前同类方法中检测速度最快的UFLDv2算法的1.13倍,同时F1分数从74.7％提高到77.1％,达到了实时检测任务的需求。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于图像深度先验和鲁棒马尔可夫随机场的有遮挡人脸识别

李小薪, 丁伟杰, 方怡, 张远成, 王琦晖

计算机科学 2024, 51 (7): 244-256. DOI: 10.11896/jsjkx.230400127

摘要（20）

PDF（pc）（4046KB）（125）

由遮挡所引发的测试数据和训练数据之间的差异,是人脸识别技术面临的重要挑战。现有的基于深度神经网络的有遮挡人脸识别方法大多需要使用大规模的有遮挡的人脸图像来训练网络模型。然而,现实世界中的任何外界物体都有可能成为遮挡,有限的训练集数据很难穷尽所有的可能性,并且使用大规模的有遮挡人脸图像训练网络模型的做法与人类视觉机制是相违背的,人眼对于遮挡区域的感知在本质上与遮挡本身并没有关系,仅依赖于无遮挡的人脸图像。为了模拟人类视觉的遮挡检测机制,将图像深度先验和鲁棒马尔可夫随机场模型结合起来,构建基于小样本数据的遮挡检测模型DIP-rMRF,并提出了一致性零填充方法以有效利用DIP-rMRF的遮挡检测结果进行后续的人脸识别。在Extended Yale B,AR和LFW这3个人脸数据库上,针对VGGFace,LCNN,PCANet,SphereFace,InterpretFR,FROM这6种CNN模型的实验结果表明,DIP-rMRF能够有效地处理遮挡以及由极端光照所引发的“类遮挡”,从而极大提升现有的深度神经网络模型对有遮挡人脸识别的性能。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于图神经网络的乳腺癌病理图像分析方法综述

陈思硕, 王晓东, 刘西洋

计算机科学 2024, 51 (6): 172-185. DOI: 10.11896/jsjkx.230400106

摘要（123）

PDF（pc）（3672KB）（296）

病理诊断是癌症诊断和治疗过程中的金标准,利用人工智能模型对癌症病理图像进行自动分析不仅可以减轻病理学家的工作负担,还可以提高诊断结果的准确性。然而,病理图像的大尺度特点以及对预测结果可解释性的高要求为人工智能模型带来了巨大的挑战。在近年来的研究中,图神经网络在建模图像中实体的空间上下文关系及可解释性方面都展现出了强大的能力,为数字病理的研究提供了新的思路。文中回顾了近年来计算机视觉领域的相关工作,分析了图神经网络在乳腺癌病理图像分析中的优势,分类和比较了现有的面向乳腺癌病理图像的图构建方法,分析和对比了乳腺癌病理图像分析中的图神经网络模型,整理了近年来的研究中常用的工具包与公开数据集,总结了基于图神经网络的乳腺癌病理图像分析研究中存在的挑战并对未来的研究方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

10. 异质虹膜识别研究综述

孔佳琳, 张琪, 王财勇

计算机科学 2024, 51 (6): 186-197. DOI: 10.11896/jsjkx.231200175

摘要（75）

PDF（pc）（4603KB）（236）

虹膜图像采集环境和设备的不同导致虹膜注册和识别样本差异较大,给传统的虹膜识别技术带来了挑战。异质虹膜识别问题已成为学术界和工业界关注的焦点。文中从不同层级、样本差异性以及单源和多源3个角度对现有的异质虹膜识别方法进行了分类和综述,总结了目前异质虹膜识别的最新进展。按照跨质量、跨设备和跨光谱的分类对现有的异质虹膜数据集进行综述,并总结概述虹膜识别评价指标,以便研究人员更好地评估和验证算法的性能。最后,从环境鲁棒性、数据异质性建模和多模态融合3个方向,对未来异质虹膜识别研究的发展方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于对比学习的视觉增强多模态命名实体识别

于碧辉, 谭淑月, 魏靖烜, 孙林壮, 卜立平, 赵艺曼

计算机科学 2024, 51 (6): 198-205. DOI: 10.11896/jsjkx.230400052

摘要（97）

PDF（pc）（3102KB）（258）

多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由于文本和图像的表示来自不同的编码器,很难弥合两种模态之间的语义鸿沟,因此,提出了一个基于对比学习的视觉增强多模态命名实体识别模型(MCLAug)。首先,使用ResNet收集图像特征,在此基础上提出金字塔双向融合策略,将低层次高分辨率和高层次强语义的图像信息结合起来,以增强视觉特征。其次,利用CLIP 模型中的多模态对比学习思想,计算并最小化对比损失,使两种模态的表示更加一致。最后,利用跨模态注意力机制和门控融合机制获得融合后的图像和文本表示,并通过CRF解码器来执行MNER任务。在两个公开数据集上进行了对比实验并进行消融研究和案例研究,结果证明了所提模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于加权有界形变函数的可形变图像配准模型

闵莉花, 丁田中, 金正猛

计算机科学 2024, 51 (6): 206-214. DOI: 10.11896/jsjkx.230400090

摘要（63）

PDF（pc）（4146KB）（228）

可形变图像配准是图像处理领域中一个非常重要的课题,是计算机视觉中最基本的问题之一,也是医学图像分析的一个难题。文中研究了两幅单模态灰度图像之间的图像配准问题,充分考虑了参考图像的边缘信息,提出了一个新的基于加权有界形变函数的可形变图像配准模型。首次提出了加权的有界形变函数空间,给出了该空间的定义及相关结论,并从理论上证明了所提模型解的存在性。同时,利用梯度下降法设计了有效的算法进行数值求解,分别在合成图像和医学图像上进行数值实验。实验结果和定量评估结果表明,与对比模型相比,所提模型由于引入了控制函数且将加权有界形变函数作为正则项,得到了更精确的配准结果,特别是在图像边缘及一些细节处配准效果有明显提高。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于BEV占位预测的激光-毫米波雷达融合目标检测算法

李越豪, 王邓江, 鉴海防, 王洪昌, 程清华

计算机科学 2024, 51 (6): 215-222. DOI: 10.11896/jsjkx.230500085

摘要（62）

PDF（pc）（3080KB）（248）

激光雷达工作环境中的光束衰减和目标遮挡会导致输出点云出现远端稀疏的问题,从而引起基于激光雷达的3D目标检测算法的检测精度随距离衰减的现象。针对这一问题,提出了一种基于鸟瞰图视角(BEV)空间内目标占位预测的激光-毫米波雷达融合目标检测算法。首先提出了一种简化的BEV占位预测子网络,用于生成位置相关的毫米波雷达特征,同时有助于解决毫米波雷达数据稀疏带来的网络收敛困难的问题。然后,为了实现跨模态特征融合,设计了一种基于BEV空间特征关联的多尺度激光-毫米波雷达特征融合层结构。在nuScenes数据集上进行实验,结果表明,所提出的毫米波雷达分支网络的平均检测精度(mAP)达到21.6%,推理时间为8.3ms。在加入融合层结构后,多模态检测算法较基线算法CenterPoint的mAP提升了2.9%,同时增加的额外推理时间开销仅为8.6ms,在距离传感器30m位置处,多模态算法对于nuScenes数据集中10个类别的检测精度达成率分别较CenterPoint提升了2.1%~16.0%。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于自适应光子和分层色散图的实时色散渲染方法

罗元孟, 张军

计算机科学 2024, 51 (6): 223-230. DOI: 10.11896/jsjkx.230300097

摘要（73）

PDF（pc）（3764KB）（214）

焦散是光线经过反射或折射后汇集形成的高亮区域现象,色散是由于折射焦散中不同波长的单色光折射率差异而出现的彩色光谱现象,是渲染逼真半透明物体时复杂和耗时的光照计算步骤。在渲染色散时,现有光线追踪技术必须依赖高端GPU硬件才能实现实时渲染。基于图像空间的焦散图技术,文中提出一种简洁、高效的实时色散渲染方法。提出了采样7个单色光并自适应调整7色光子尺寸的方法,用于近似整条色散光谱的渲染;并提出了分层色散图策略,避免了光子光栅化尺寸的增加,提高了渲染效率。实验结果表明,所提方法在个人电脑上可做到实时渲染,以离散采样光谱的7个单色光模拟了整条连续光谱,减少了渲染的计算量和存储量,并且改善了基于图像空间技术的噪点问题。

参考文献 | 相关文章 | 多维度评价

Select

15. 融合Transformer与多阶段学习框架的点云上采样网络

李泽锴, 柏正尧, 肖霄, 张奕涵, 尤逸琳

计算机科学 2024, 51 (6): 231-238. DOI: 10.11896/jsjkx.230300154

摘要（63）

PDF（pc）（3989KB）（267）

借鉴Transformer在自然语言和计算机视觉领域强大的特征编码能力,同时受多阶段学习框架的启发,设计了一种融合Transformer与多阶段学习框架的点云上采样网络——MSPUiT。该网络采用二阶段网络模型,第一阶段是密集点生成网络,利用多层Transformer编码器逐步实现从输入点云的局部几何信息、局部特征信息到点云高级语义特征的转换,特征扩充模块在特征空间中,对点云特征上采样,坐标回归模块将点云从特征空间重新映射回欧氏空间中初步生成密集点云M′;第二阶段是逐点优化网络,使用Transformer编码器对密集点云M′中潜藏的语义特征进行编码,联合上一阶段语义特征得到点云完整的语义特征,特征精炼单元从M′的几何信息和语义特征中提取点的误差信息特征,误差回归模块从误差信息特征中计算得到欧氏空间中点的坐标偏移量,实现对点云M′的逐点优化,使得点云上点的分布更加均匀,并且更加贴近真实物体表面。在大型合成数据集PU1K上进行了大量实验,MSPUiT生成的高分辨率点云在倒角距离(CD)、豪斯多夫距离(HD)、生成点云到原始点云块的距离(P2F)上的指标分别降至0.501×10^－3,5.958×10^－3,1.756×10^－3。实验结果表明,MSPUiT上采样后的点云表面更加光滑,噪声点更少,生成的点云质量高于当前主流的点云上采样网络。

参考文献 | 相关文章 | 多维度评价

Select

16. 多粒度空间注意力与空间先验监督的DETR

廖峻霜, 谭钦红

计算机科学 2024, 51 (6): 239-246. DOI: 10.11896/jsjkx.230300218

摘要（52）

PDF（pc）（3890KB）（211）

近年来,Transformer在视觉领域的表现卓越,由于其优秀的全局建模能力以及可媲美CNN的性能表现受到了广泛关注。DETR(Detection Transformer)是在其基础上研究的首个在目标检测任务上采用Transformer架构的端到端网络,但是其全局范围内的等价建模以及目标查询键的无差别性导致其训练收敛缓慢,且性能表现欠佳。针对上述问题,利用多粒度的注意力机制替换DETR的encoder中的自注意力以及decoder中的交叉注意力,在距离近的token之间使用细粒度,在距离远的token之间使用粗粒度,增强其建模能力;并在decoder中的交叉注意力中引入空间先验限制对网络训练进行监督,使其训练收敛速度得以加快。实验结果表明,在引入多粒度的注意力机制和空间先验监督后,相较于未改进的DETR,所提改进模型在PASCAL VOC2012数据集上的识别准确度提升了16%,收敛速度快了2倍。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于眼部特征频域信息的早期疲劳检测

火星星, 胡瑞敏, 李怡欣

计算机科学 2024, 51 (6): 247-255. DOI: 10.11896/jsjkx.230300033

摘要（84）

PDF（pc）（2548KB）（240）

行李X光安检员工作疲劳是造成错检、漏检的重要原因。目前疲劳检测的方法主要通过发现打哈欠、打瞌睡和长时间闭眼等明显的迹象来检测中晚期疲劳,然而对于安检工作人员来说,出现这样明确的标志时,可能已经发生了安检事故,此时再进行疲劳检测为时已晚。因此,在早期阶段发现疲劳,并对疲劳的发生及时预警是非常有价值的。由于早期疲劳会有细微的面部表现特性,时域参数的不可逆性导致其无法完全表示。为了解决此问题,提出了一种基于眼部特征频域信息的行李X光安检员早期疲劳检测方法,将原始时域信息转换到表达能力更强的频域特征空间。该方法首先通过面部检测算法获取眼部横纵比(Eye Aspect Ratio,EAR)时间序列;然后利用频域特征提取方法得到频域特征序列,来表示更加细微的特征;最后利用分层多尺度网络HM-LSTM进行训练及验证。在公开数据集UTA-RLDD上的对比实验结果表明,所提方法对早期疲劳的识别率提升了2%,证明了频域特征比时域特征有更好的表达能力。

参考文献 | 相关文章 | 多维度评价

Select

18. 一种基于特征增强的场景文本检测算法

高楠, 张雷, 梁荣华, 陈朋, 付政

计算机科学 2024, 51 (6): 256-263. DOI: 10.11896/jsjkx.230500230

摘要（50）

PDF（pc）（3563KB）（243）

针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于改进Swin Transformer的中心点目标检测算法

刘家森, 黄俊

计算机科学 2024, 51 (6): 264-271. DOI: 10.11896/jsjkx.230300222

摘要（69）

PDF（pc）（4018KB）（249）

针对Swin Transformer在提取局部特征信息和特征表达能力上存在的不足,提出了一种基于改进Swin Transformer的中心点目标检测算法,以提高其在目标检测方面的性能。通过调整网络结构和引入反卷积模块来增强网络对局部特征信息的提取能力,利用自适应二维高斯核和回归头模块检测目标中心点来增强特征表达能力,并在Swin Transformer block模块中加入dropout激活函数,以缓解网络过拟合问题。在Pascal VOC和MS COCO 2017数据集上分别对改进后的算法进行验证,实验结果表明,改进后的Swin Transformer算法在Pascal VOC数据集上的精确度达到了81.1%,在MS COCO数据集上的精确度达到了37.2%,明显优于其他主流目标检测算法。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于深度学习的图像分割综述

黄雯珂, 滕飞, 王子丹, 冯力

计算机科学 2024, 51 (2): 107-116. DOI: 10.11896/jsjkx.230900002

摘要（292）

PDF（pc）（1716KB）（2122）

图像分割是计算机视觉中的一项基本任务,其主要目的是从图像输入中提取有意义和连贯的区域。多年来,图像分割领域已经开发出了各种各样的技术,包括基于传统方法,以及利用卷积神经网络的最新图像分割技术。随着深度学习的发展,更多的深度学习算法也被应用到图像分割任务中。特别地,近两年学者对深度学习的兴趣高涨,涌现了许多应用于图像分割任务的深度学习算法。然而大部分新的算法还没有被归纳分析,这将不利于后续研究的进行。文中对近两年发表的基于深度学习的图像分割研究进行了全面回顾。首先对图像分割的常用数据集进行简要介绍,然后阐明了基于深度学习的图像分割的新分类,最后讨论了现有的挑战并对今后的研究方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

21. 无监督单目深度估计研究综述

蔡嘉诚, 董方敏, 孙水发, 汤永恒

计算机科学 2024, 51 (2): 117-134. DOI: 10.11896/jsjkx.230400197

摘要（239）

PDF（pc）（3783KB）（1888）

深度估计作为三维重建、自动驾驶和视觉SLAM等领域中的关键环节,一直是计算机视觉领域研究的热点方向,其中无监督学习的单目深度估计技术由于具有方便部署、计算成本低等优点,受到了学术界和工业界的广泛关注。首先梳理了深度估计的基本知识及研究现状,简要介绍了基于参数学习、基于非参数学习、基于有监督学习、基于半监督学习和基于无监督学习的深度估计的优势与不足;其次全面总结了基于无监督学习的单目深度估计研究进展,按照结合可解释性掩膜、结合视觉里程计、结合先验辅助信息、结合生成式对抗网络和实时轻量级网络这五大类对无监督学习的单目深度估计进行归纳和总结,对典型的框架模型进行了介绍和分析;然后,介绍了基于无监督学习的单目深度估计在医学、自动驾驶、农业、军事等领域的应用;最后,简单介绍了用于无监督深度估计的常用数据集,提出了基于无监督学习的单目深度估计未来研究方向,并对这个快速发展领域中的各方向研究进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于自注意力机制和多尺度输入输出的医学图像分割算法

丁天舒, 陈媛媛

计算机科学 2024, 51 (2): 135-141. DOI: 10.11896/jsjkx.221100260

摘要（216）

PDF（pc）（2429KB）（1928）

更精细化的糖尿病性视网膜病变眼底图像分割结果,可以更好地辅助医生进行诊断。大规模高分辨率的分割数据集的出现,为更精细化的分割提供了有利条件。基于U-Net的主流分割网络,使用基于局部运算的卷积操作进行像素预测时无法充分挖掘全局信息,网络模型采用单输入单输出的结构,难以获取多尺度特征信息。为了最大程度地利用现有的大规模高分辨率的眼底图像病灶分割数据集,实现更精细化的分割,需要设计更好的分割方法。文中基于自注意力机制和多尺度输入输出结构对U-Net进行改造,提出了一种新的分割网络SAM-Net,用自注意力模块代替传统卷积模块,增大网络获取全局信息的能力,引入多尺度输入和多尺度输出结构,使网络更容易获取多尺度特征信息。使用图片切片方法来缩小模型的输入尺寸,防止神经网络模型因为输入图片像素过大而导致训练难度增大。最终在IDRiD数据集和FGADR数据集上进行实验,结果表明,SAM-Net可以达到比其他方法更优的性能。

参考文献 | 相关文章 | 多维度评价

Select

23. 结合注意力机制的多重引导点云配准网络

刘旭珩, 柏正尧, 许祝, 杜佳锦, 肖霄

计算机科学 2024, 51 (2): 142-150. DOI: 10.11896/jsjkx.230200073

摘要（128）

PDF（pc）（3185KB）（1778）

针对点云配准过程中仅仅利用点云特征寻求对应关系使得离群点多、配准精度不高的问题进行研究,提出了一种使用点云之间匹配点概率矩阵和点云空间信息特征矩阵共同搜寻对应关系,并且相互配合确定对应点权重的点云配准网络——AMGNet。首先使用点云特征提取网络获得两片待配准点云的高维特征;然后采用Transformer对独立特征进行上下文信息融合,之后利用关键点提取模块选取出特征更强的点,使用SoftBBS方法获得点云匹配点概率矩阵后,结合点云空间特征矩阵搜索到最终的对应关系,同时,权重分配也使用了双重矩阵共同决定的策略;最后使用奇异值分解获得需要的刚性变换矩阵。在ModelNet40,7Scenes等人工合成数据集和真实场景数据集上进行了多次实验。结果表明,在ModelNet40目标未知实验中的旋转矩阵和平移向量的均方误差分别降低至0.025和0.004 6。AMGNet配准精度较高,抗干扰能力强,泛化能力强。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于扩张卷积条件生成对抗网络的红外小目标检测

张国栋, 陈志华, 盛斌

计算机科学 2024, 51 (2): 151-160. DOI: 10.11896/jsjkx.221200045

摘要（172）

PDF（pc）（4901KB）（1805）

基于深度神经网络的目标检测方法凭借自身强大的建模能力,在通用目标检测任务中取得了良好的表现。然而,在红外小目标信号弱、像素小的本质特征的影响下,深度神经网络层次的加深和池化操作的大量使用导致小目标语义信息丢失,使得现有方法的检测效果并不理想。文中从红外小目标特性这一关键问题出发,提出了一种新颖的基于扩张卷积条件生成对抗网络的目标检测算法。所提方法应用扩张卷积设计了生成网络,充分利用上下文信息建立层与层之间的关联,将红外小目标更多的语义信息保留到深层网络中,增强目标特征,进而提高检测性能。此外,设计了融合通道与空间维度的混合注意力模块,在特征提取时有选择性地放大目标信息,抑制背景信息;设计了自注意关联模块处理层与层之间信息融合过程中产生的语义冲突问题。文中使用多种评价指标将所提网络模型与目前先进的其他红外小目标检测方法进行对比,证明了该方法在复杂背景下目标检测性能的优越性。在公开的SIRST数据集上,所提模型的F分数为64.70%,相比传统方法提高了8.29%,相比深度学习方法提高了7.29%;在公开的ISOS数据集上,所提模型的F分数为64.54%,相比传统方法提高了23.59%,相比深度学习方法提高了6.58%。

参考文献 | 相关文章 | 多维度评价

Select

25. 基于层次化Conformer的语音合成

吴克伟, 韩超, 孙永宣, 彭梦昊, 谢昭

计算机科学 2024, 51 (2): 161-171. DOI: 10.11896/jsjkx.221100125

摘要（92）

PDF（pc）（5383KB）（1824）

语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于全局与局部特征的二阶段文档图像可见水印去除模型

赵江锋, 和红杰, 陈帆, 杨树斌

计算机科学 2024, 51 (2): 172-181. DOI: 10.11896/jsjkx.230600144

摘要（164）

PDF（pc）（6094KB）（1821）

可见水印是一种常用的数字图像版权保护手段。分析可见水印去除结果可以验证图像上水印的有效性,并为水印设计者提供设计或添加水印的参考和启发。目前,大多数的水印去除方法都是基于自然图像的研究,而文档图像在生活中也被广泛使用,但由于缺乏公开的文档图像去水印数据集,相关文档图像的水印去除研究较少。为了探究水印去除方法在文档图像上的水印去除效果,构建了一个文档图像水印去除数据集(SDIWRD)。在对文档图像可见水印去除的研究中发现,使用已有的水印去除方法得到的水印去除结果中容易留下水印主体伪影或者轮廓伪影。为了解决这个问题,提出了一种基于全局与局部特征的二阶段文档图像可见水印去除模型(RWRNet),该模型采用由粗到细的二阶段的半实例归一化编解码器架构。在粗略阶段,使用全局与局部特征提取模块增强对全局空间特征的捕捉能力,同时保留对局部细节信息的提取能力,从而帮助进行水印去除;在细化阶段,细化网络共享粗略阶段权重,并构建循环特征融合模块来充分挖掘粗略阶段编解码器的重要特征,为细化阶段提供丰富的上下文信息,帮助进行细致的水印去除。此外,还结合了结构相似性损失来帮助获取更好的视觉质量。所提方法在SDIWRD数据集上进行了实验,实验结果显示PSNR达到了41.21 dB,SSIM达到了99.07%,RMSE降低至3.64,优于现有水印去除方法。另外也在公开的CLWD彩色水印去除数据集进行了实验,实验结果显示PNSR达到了39.31 dB,SSIM达到98.81%,RMSE降低至3.50,也优于现有水印去除方法。实验结果证明了所提方法具有良好的泛化性和去水印的能力,能有效减轻水印伪影。最后还提出了一些防止水印去除的建议,在相关网站¹⁾可公开访问所提出的方法和数据集。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于点云轨迹和压缩多普勒的跨场景手势识别

张宏旺, 周瑞, 程宇, 刘辰旭

计算机科学 2024, 51 (2): 182-188. DOI: 10.11896/jsjkx.230400184

摘要（111）

PDF（pc）（2510KB）（1790）

毫米波雷达能够用于各种感知任务,如活动识别、手势识别、心率感知等。手势识别作为其中的研究热点,可实现无接触人机交互。目前大多数手势识别研究使用点云或距离多普勒图通过神经网络进行识别感知,但是这些方法存在一些问题。首先,这些方法鲁棒性较差,被感知人员或其位置发生变化都会影响接收到的毫米波信号,降低感知精度。其次,这些方法将完整的距离多普勒图输入神经网络进行识别,由于图中存在较多与感知任务无关的区域,模型复杂且难以专注于感知任务。为解决这些问题,首先从连续多帧点云数据中建立手势轨迹,然后将连续多帧距离多普勒图进行局部切割并压缩获得二维局部多普勒图,最后将点云轨迹和二维局部多普勒图分别经过神经网络特征提取后,对特征进行拼接,通过全连接神经网络进行分类。实验结果表明,所提方法专注于手势,能够达到98%的识别准确率,在人员变化和位置变化情况下对新用户和在新位置的识别准确率分别能够达到93％和92％,高于现有方法。

参考文献 | 相关文章 | 多维度评价

Select

28. LNG-Transformer:基于多尺度信息交互的图像分类网络

王文杰, 杨燕, 敬丽丽, 王杰, 刘言

计算机科学 2024, 51 (2): 189-195. DOI: 10.11896/jsjkx.221100218

摘要（168）

PDF（pc）（2444KB）（1797）

鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention的广泛应用。文中提出了一种有效的、可扩展的注意力模块Local Neighbor Global Self-Attention(LNG-SA),该模块在任意时期都能进行局部信息、邻居信息和全局信息的交互。通过重复级联LNG-SA模块,设计了一个全新的网络,称为LNG-Transformer。该网络整体采用层次化结构,具有优秀的灵活性,其计算复杂度与图像分辨率呈线性关系。LNG-SA模块的特性使得LNG-Transformer即使在早期的高分辨率阶段,也可以进行局部信息、邻居信息和全局信息的交互,从而带来更高的效率、更强的学习能力。实验结果表明,LNG-Transformer在图像分类任务中具有良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于Depth-wise卷积和视觉Transformer的图像分类模型

张峰, 黄仕鑫, 花强, 董春茹

计算机科学 2024, 51 (2): 196-204. DOI: 10.11896/jsjkx.221100234

摘要（107）

PDF（pc）（3194KB）（1835）

图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于递归门控卷积的遥感图像超分辨率研究

刘长新, 吴宁, 胡俐蕊, 高霸, 高学山

计算机科学 2024, 51 (2): 205-216. DOI: 10.11896/jsjkx.230800017

摘要（122）

PDF（pc）（4547KB）（1796）

由于受到硬件条件的限制,通常难以获得具有高分辨率(HR)的遥感图像。利用单幅图像超分辨率(SISR)技术对低分辨率(LR)遥感图像进行超分辨率重建是获取高分辨率遥感图像的常用方法。近年来,在图像超分辨率领域引入的卷积神经网络(CNN)改进了图像重建性能。然而,现有的基于CNN的超分辨率模型通常使用低阶注意力机制提取深层特征,其表征能力有待提高,且常规卷积的感受野有限,缺乏对远距离依赖关系的学习。为了解决以上问题,提出了一种基于递归门控卷积的遥感图像超分辨率方法RGCSR。该方法引入递归门控卷积gⁿConv学习全局依赖和局部细节,通过高阶空间交互来获取高阶特征。首先,使用由高阶交互子模块(HorBlock)和前馈神经网络(FFN)组成的高阶交互——前馈神经网络模块(HFB)提取高阶特征。其次,利用由通道注意力(CA)和gⁿConv构建的特征优化模块(FOB)优化各个中间模块的输出特征。最后,在多个数据集上的对比结果表明,RGCSR比现有的基于CNN的超分辨率方法具备更好的重建性能和视觉效果。

参考文献 | 相关文章 | 多维度评价