栏目文章

Select

1. 复杂环境下自适应去雾的YOLOv3汽车识别算法

杨秀璋, 武帅, 李娜, 杨雯雯, 廖文婧, 周继松

计算机科学 2023, 50 (11A): 220700147-8. DOI: 10.11896/jsjkx.220700147

摘要（243）

PDF（pc）（3584KB）（203）

复杂环境因素会严重影响道路汽车目标检测算法的性能,传统方法识别精度较低且感知慢,严重威胁交通安全,为此提出一种融合自适应图像去雾的YOLOv3汽车识别算法。首先,在图像预处理阶段构建自适应图像去雾算法,融合ACE去雾算法和暗通道去雾算法,有效降低雨雾图像噪声;其次,利用改进的YOLOv3算法识别和定位汽车位置;最后,通过详细的对比实验证明方法的有效性,并准确识别出复杂天气中行驶的车辆。实验结果表明,所提方法能有效降低雨雾情况下的噪声,对行驶车辆进行有效定位,其精确率、召回率和F1值分别为0.944,0.934和0.939,均高于传统SSD,YOLO和YOLOv3算法,并且具有较好的鲁棒性和速度,这将为智慧交通的发展提供理论基础并具有实践意义。

参考文献 | 相关文章 | 多维度评价

Select

2. 多流融合的轻量级图卷积行为识别算法

李华, 赵领娣, 陈雨杰, 杨杨, 杜新兆

计算机科学 2023, 50 (11A): 220800147-6. DOI: 10.11896/jsjkx.220800147

摘要（205）

PDF（pc）（1918KB）（158）

传统的基于RGB视频的行为识别容易受到光线强度、观察视角等问题的影响。基于骨骼的行为识别受这些问题的影响较小,成为现在的主流方法之一。但目前基于骨骼信息的行为识别方法参数量较大,运算速度较慢。为了解决这些问题,提出一种多流融合的轻量级图卷积行为识别框架。首先,将融合人体关节、骨骼边、关节速度和骨骼速度的多种信息的数据输入到空间图卷积模块中;其次,在空间图卷积模块中加入了空间注意力机制来更好地提取各个关节之间的关系;最后,在时间卷积模块中使用了深度卷积和逐点卷积减少参数量。提出的网络与基线网络SGN相比,在NTU-RGB+D120数据集中,交叉视角评估下提高了2.3％,交叉设置评估下提高了1.9％,参数量减少了0.12×10⁶个,从而验证了提出网络的有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 结合门控融合网络和残差傅里叶变换重建太阳斑点图

黄亚群, 郑培煜, 蒋慕蓉, 杨磊, 罗俊

计算机科学 2023, 50 (11A): 220800229-7. DOI: 10.11896/jsjkx.220800229

摘要（231）

PDF（pc）（3877KB）（141）

使用现有深度学习算法重建云南天文台拍摄的高度模糊太阳斑点图像时,出现高频信息丢失、边缘模糊、重建难度大等问题。对此,提出一种结合门控融合网络与残差傅里叶变换的太阳斑点图重建算法,其中门控融合网络由一个生成器和两个鉴别器组成,生成器包含去模糊模块、高维特征提取模块、门控模块和重建模块。去模糊模块采用基于双注意力机制的U形网络框架,获取低分辨率图像去模糊后的特征;高维特征提取模块使用残差傅里叶变换的卷积块,提取包含图像空间细节的高维特征;门控模块将上述两个特征进行融合,得到权重图,与去模糊后的特征进行加权后,再与高维特征融合,得到融合特征;重建模块采用残差傅里叶变换的卷积块和像素混洗层,将门控模块得到的融合特征图进行重建,得到高分辨率图像。利用两个鉴别器分别鉴别去模糊模块产生的去模糊图像和重建模块产生的高分辨率图像的真实性。最后,设计包含像素内容损失、感知损失和对抗损失的组合训练损失函数,指导模型训练。实验结果显示,所提方法与现有深度学习重建方法相比,高频信息的恢复能力更强,边缘轮廓更清晰,结构相似性和峰值信噪比指标更高。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于残差网络的FMCW雷达人体行为识别

罗金燕, 常俊, 吴彭, 许妍, 卢中奎

计算机科学 2023, 50 (11A): 220800247-6. DOI: 10.11896/jsjkx.220800247

摘要（140）

PDF（pc）（3732KB）（169）

现有的基于调频连续波(Frequency Modulated Continuous Wave,FMCW)雷达的人体行为识别方法大多采用深度卷积神经网络完成,但随着网络加深,会出现网络训练难度增大或特征提取不充分的问题。针对此问题,提出一种基于残差网络的FMCW雷达人体行为识别方法。通过对雷达回波数据分析处理得到每种行为的微多普勒时域谱图,将其作为识别模型的分类特征。将卷积块注意模块(Convolutional Block Attention Module,CBAM)引入残差网络的残差块中构建识别模型,CBAM关注谱图的颜色变化情况和谱图中每种颜色的位置信息,同时引入自适配归一化和改变网络输入部分的卷积结构提高模型的特征提取能力。实验验证,该模型的平均识别准确率可达98.17%,对于微多普勒特征相似的行为,识别准确率可达95%,证明了该模型具有较好的识别性能。

参考文献 | 相关文章 | 多维度评价

Select

5. 改进YOLOv5的小型旋翼无人机目标检测算法

路琪, 于元强, 许道明, 张琦

计算机科学 2023, 50 (11A): 220900050-8. DOI: 10.11896/jsjkx.220900050

摘要（267）

PDF（pc）（4131KB）（313）

低空慢速小型目标检测一直是预警探测领域关注的重点和难点。目前,基于神经网络的主流目标检测算法在设计时主要考虑应用于VOC数据集或COCO数据集,在特定场景下检测精度不够理想。针对复杂背景下小型旋翼无人机目标检测的特定检测场景,提出一种基于改进YOLOv5的小型旋翼无人机目标检测算法。首先,增加小目标检测层以获得大尺寸的浅层特征图,从而提升算法对小目标的检测能力;其次,针对小型旋翼无人机尺寸不一的问题,利用K-Means++聚类算法对先验框的尺寸进行优化并将其与各特征层进行匹配;最后,使用Mosaic-SOD方法进行数据增强以及改进损失函数,增强算法对小目标的感知能力以及提高网络训练效率。将改进后的算法应用在复杂背景下的小型旋翼无人机目标检测中,实验结果表明,相较于原始YOLOv5算法,该算法在小型旋翼无人机目标检测上具有更高的检测精度和特征提取能力,虽然检测速度有一定下降,但通过对可见光视频流进行检测可知其仍能够满足实时性的要求。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于YOLOv5的湿润沥青路面裂缝检测

张恩华, 王卫杰, 段楠, 康楠

计算机科学 2023, 50 (11A): 220900155-5. DOI: 10.11896/jsjkx.220900155

摘要（131）

PDF（pc）（2914KB）（154）

为探究湿润环境对沥青路面裂缝自动检测效果的影响,文章通过YOLOv5深度学习目标检测算法,建立了沥青路面裂缝检测模型;并在此基础上,设置了湿润与干燥环境下的裂缝检测对比实验,对比了在两种环境下沥青路面裂缝检测结果的准确度与置信度。研究结果表明,湿润环境扩大了沥青路面裂缝在深度学习网络中的识别特征,提高了裂缝检测的效果。干燥路面裂缝检测的准确度为80.70%,湿润路面裂缝检测的准确度为89.47%,湿润环境下的沥青路面裂缝检测模型准确率提升了8.77%。同时,统计同一裂缝两种环境下检测的置信度发现,置信度平均值在干燥环境下为0.72,在湿润环境下为0.78,且湿润与否与裂缝检测的置信度存在显著正相关关系。研究成果为沥青路面裂缝自动检测效果的提升提供了新的思路,为路面养护管理的决策提供了有效工具。

参考文献 | 相关文章 | 多维度评价

Select

7. 联合边缘检测与参数自适应PCNN的遥感图像融合方法

石影, 贺新光, 刘滨瑞

计算机科学 2023, 50 (11A): 220900264-6. DOI: 10.11896/jsjkx.220900264

摘要（144）

PDF（pc）（3122KB）（124）

为了提高全色与多光谱图像的融合质量,解决脉冲耦合神经网络(PCNN)参数调整困难和融合图像边缘特征保存不完整的问题,提出了一种联合Canny算子和参数自适应PCNN的遥感图像融合方法。首先对多光谱图像进行HSV颜色空间变换,获取多光谱的V亮度分量,再利用Canny算子提取全色图像边缘特征,并根据边缘特征因子对全色图像与多光谱的V分量进行边缘特征融合,得到边缘加强的全色图像。然后对新的全色图像和多光谱V分量分别进行非下采样剪切波变换(NSST),获得相应的高频和低频系数子带。其高频子带采用参数自适应PCNN模型进行融合,其中所有PCNN参数均由输入频段自适应估计,得到具有最优参数的PCNN模型;而低频子带则采用有选择性的加权求和规则进行融合。最后由NSST逆变换得到新的V分量,再经HSV逆变换获得最终的融合图像。将所提方法与其他新近提出的方法进行对比实验,选取7种客观评价指标对融合图像的空间细节和光谱信息进行评价。实验结果表明,所提融合算法在视觉质量以及客观指标评价方面上更有优势,获得了更好的融合性能。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于自适应预测的2D人体姿态估计

郑泉石, 金城

计算机科学 2023, 50 (11A): 221000048-7. DOI: 10.11896/jsjkx.221000048

摘要（285）

PDF（pc）（3876KB）（167）

基于回归的2D人体姿态估计方法直接预测人体关键点的2D坐标,是主流的2D姿态估计方法之一。Transformer能有效建立人体部位间的关系,它的应用显著提升了回归方法的准确率。然而相关方法存在以下两个问题:1)在交叉注意力模块中,对于不同图像,固定的Query值难以准确关注到不同的关键点区域,导致注意力分散;2)直接学习关键点的标注位置,导致模型过拟合于训练集的标注,泛化性差。文中提出了一种基于自适应预测的姿态估计模型来解决以上问题。针对第一个问题,该模型自适应地预测Query的关注区域,并引导注意力集中于该区域。针对第二个问题,该模型自适应地预测关键点在所有位置上出现的可能性分布,通过软预测的方式,缓解模型对标注的过拟合。在MS-COCO数据集上的实验表明,该模型将基线方法的准确率提升了2.8%,并将相关方法的最高准确率提升了0.2%。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于自适应搜索范围调整的视觉目标跟踪

王超, 王凯

计算机科学 2023, 50 (11A): 221000172-6. DOI: 10.11896/jsjkx.221000172

摘要（59）

PDF（pc）（2998KB）（156）

当前主流的视觉目标跟踪算法检测目标时,其搜索范围是以前一帧目标位置为中心设定的。然而目标可能由于运动而偏离设定的搜索中心,其在当前帧的检测响应易受到余弦窗惩罚机制的抑制,导致跟踪失败。为解决上述问题,提出了自适应搜索范围调整(Adaptive Search Range Adjustment,ASRA)方法。该方法采用了基于循环神经网络的运动预测模型来预测当前帧目标位置,并与相关滤波响应相结合来对搜索中心进行调整,进一步根据目标的运动矢量对搜索范围尺寸进行调整。将ASRA方法应用于当前先进的基于孪生网络的目标跟踪算法,在OTB2015和VOT2018数据集上进行的实验结果表明ASRA方法可以改善跟踪算法的准确率和鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

10. 结合小波变换高频信息的可控面部性别伪造

陈万泽, 陈家祯, 黄丽清, 叶锋, 黄添强, 罗海峰

计算机科学 2023, 50 (11A): 221000241-10. DOI: 10.11896/jsjkx.221000241

摘要（59）

PDF（pc）（5820KB）（161）

基于生成对抗网络(Generative Adversarial Network,GAN)的图像到图像的翻译(Image-to-Image Translation,I2I)技术在各种领域中取得了一系列突破,并广泛应用于图像合成、图像着色、图像超分辨率,特别是在面部属性操作方面获得了深入研究。为了解决目前I2I领域由于模型架构以及数据不均衡所导致的不同翻译方向的生成图像性能表现差异的问题,提出了一种HFIGAN(High Frequency Injection GAN)模型,实现了结合高频信息的可控面部性别伪造。首先在结合高频信息的小波模块中,将编码特征通过离散小波变换进行特征级的分解,将所得到的高频信息在解码阶段对等注入,使得在上采样过程中的源域与目标域之间的信息可以达成平衡状态。其次,针对I2I任务中多域转换在不同方向的翻译难度不一致的问题,通过对损失函数进行重新设计,将难易样本的损失进行放缩,提高难样本对模型的反馈,使模型更专注于难样本的训练从而提升模型性能。最后,提出基于风格特征的多样性正则项,将风格向量在不同空间中的距离度量添加至传统的多样性损失中进行监督,使得模型能在保持生成图像多样性的同时提升图像的生成质量。分别在CelebA-HQ数据集和FFHQ数据集上进行实验并验证了所提方法的有效性。在主流的I2I模型中结合所提损失进行了损失函数通用性验证。实验结果表明,与以往先进方法相比,HFIGAN在面部性别伪造方面性能更加优异,所提出的损失函数具备一定的通用性。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于局部特征与全局表征耦合的2D人体姿态估计

陈乔松, 吴济良, 蒋波, 谭冲冲, 孙开伟, 邓欣, 王进

计算机科学 2023, 50 (11A): 221100007-5. DOI: 10.11896/jsjkx.221100007

摘要（80）

PDF（pc）（2286KB）（166）

近年来卷积神经网络和Transformer都在人体姿态估计领域中取得进步,卷积神经网络(Convolutional neural network,CNN)擅长提取局部特征,Transformer擅长捕捉全局表征,但目前结合两者实现人体姿态估计的研究较少且效果不佳。针对此问题,提出一种耦合局部特征和全局表征的的模型CNPose(CNN-Nest Pose),该框架的局部-全局特征耦合模块利用多头注意力计算和残差结构的方式深度耦合局部特征和全局表征;还提出了局部-全局信息交流模块解决局部-全局特征耦合模块在计算过程中局部特征和全局表征数据源范围不一致的问题。在COCO-val2017和COCO-dev-test2017数据集上进行了验证,实验表明,采用了局部特征和全局表征耦合的CNPose模型相较于同类型方法有着更为优越的表现。

参考文献 | 相关文章 | 多维度评价

Select

12. 跨视角地理视觉定位

刘旭东, 余平

计算机科学 2023, 50 (11A): 221100066-7. DOI: 10.11896/jsjkx.221100066

摘要（121）

PDF（pc）（3648KB）（173）

伴随着智能终端设备的爆炸性增长和移动互联网的迅速崛起,在许多场景下,例如地广人稀的偏远山区,基于位置的服务需求越来越凸显。但由于这些区域GPS信号遮挡或信号基站难以覆盖,GPS定位无法正常发挥作用。图像地理定位指仅根据视觉信息确定图像的拍摄位置。在没有任何先验知识的情况下,预测照片的地理位置是一项非常艰巨的任务,因为不同条件下(例如,不同的天气,物体或相机设置)拍摄的图像会呈现出巨大的变化。文中尝试探索图像的跨视角地理视觉定位方法,首先利用逆极坐标转换将街景视角转换为空域视角图像,以此减少两者间的域差异,再利用深度学习的方法来对不同视角的图像进行编码以获得更加鲁棒的图像全局向量描述子,然后在此基础之上进行图像匹配和街景视角查询图像的定位。在图像特征提取方面,采用了VGG16模型,利用层数更深的小卷积核的方式去增大网络模型的感受视野并节省参数。在特征编码方面,将多尺度注意力机制融入NetVLAD模型,将骨架模型提取到的特征编码成更加鲁棒的全局特征描述子向量。实验结果显示,上述方法能够实现较高精度的街景视角的匹配与定位,同目前已有的方法相比,匹配精度更高。而且无须专业设备采集的高清街景视图,普通智能手机拍摄的街景视图即可获得较好的匹配定位精度。

参考文献 | 相关文章 | 多维度评价

Select

13. 图像美学信息增强的视觉感知推荐系统

张凯煊, 蔡国永, 朱琨日

计算机科学 2023, 50 (11A): 221100083-8. DOI: 10.11896/jsjkx.221100083

摘要（200）

PDF（pc）（3536KB）（184）

视觉感知推荐系统旨在从视觉认知角度出发,通过提取物品图像的视觉特征来增强用户和物品交互的行为特征,建模用户视觉与行为相关的偏好,从而更好地进行推荐。已有的视觉感知推荐研究中,通常使用预训练的卷积神经网络(CNN)来提取视觉对象语义特征,很少考虑物品外观图像内部隐藏的美学风格特征;其次,在视觉感知推荐中用户和物品的交互行为结构嵌入信息通常被忽视。为了解决这些问题,提出了一个融合图像美学和行为交互结构嵌入的美学特征感知视觉推荐系统(ABVR)。ABVR使用预训练ViT模型提取图像的高层视觉特征——语义类别特征,利用美学提取网络挖掘出图像中的中层美学视觉特征——物品的颜色、形状等特征,利用图卷积神经网络(GCN)模块学习用户物品交互图结点的多层图结构嵌入特征,最后将3类特征关联融合,以实现美学增强的视觉推荐。在两个真实数据集上进行了大量实验,验证了ABVR模型在视觉推荐性能提升上的有效性。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于网格与超像素的图像重定向方法

陈美颖, 毕秀丽, 刘波

计算机科学 2023, 50 (11A): 221100153-8. DOI: 10.11896/jsjkx.221100153

摘要（82）

PDF（pc）（5834KB）（148）

图像是人与人之间进行交流的重要媒介,在信息高速发展的今天,利用图像重定向技术使图像能满足各式各样的设备尺寸具有重要意义。基于网格的图像重定向算法首先对输入图像生成对应的规则矩形网格,然后根据该网格内的图像内容来评估图像像素权重以此决定此网格的变形程度,对图像全局进行不断迭代直到图像重定向终止条件。此类算法仍存在对图像内容评估不全面的问题,进而导致输出图像结构扭曲、难以保持结果图像的对角线特征以及整体结构等问题。针对以上问题,提出了一种基于超像素、梯度以及显著性的图像重定向方法。首先利用超像素方法对输入图像做预处理,然后用超像素块作为后续处理单位,随后利用基于梯度和显著性的图像像素权重评估方法对超像素处理输出图像进行权重度量,输出一幅图像重定向权重热力图,最后根据此重定向权重热力图对网格进行迭代优化,实现对图像的重定向处理。实验结果表明,相比对比方法所提方法在6种无参考图像质量评估指标上都有一定优越性,在语义合理性、信息准确性和视觉自然性上都具有一定优势,在图像重定向领域有较大的应用价值。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于潜在注意力的高性能视频超分辨率技术

王宇骥, 董昊呈, 龚雪鸾, 陈艳姣

计算机科学 2023, 50 (11A): 221100156-10. DOI: 10.11896/jsjkx.221100156

摘要（73）

PDF（pc）（3278KB）（185）

为了解决视频超分辨率的问题,可以对视频中的时空相关性信息加以利用,这是将低分辨率视频重建为高分辨率视频的一种行之有效的方法。之前的相关工作主要集中在利用运动补偿来捕捉视频生成中的时间依赖性,这种阶段性重建策略是低效的。相比运动补偿,注意力模型更能在寻找时空相关性中发挥作用。为了使注意力模型可以被应用于视频超分辨率问题,利用基于摊销变分推理的注意力估计构建潜在注意力模型,并设计了长程注意力模块和短程注意力模块两个有效的注意力功能模块。在此基础上构建出一个新型深度学习网络模型,它可以有效地捕捉视频超分辨率的时空相关性,并允许端到端学习。通过在公共视频数据集的广泛实验,可以证明该方法相比当前最先进的几种方法如SPMC,DUF-16L等具有更优越的性能。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于GA-BP的圆形靶标圆心定位误差预测建模与补偿研究

陈海燕, 朱军林, 王平

计算机科学 2023, 50 (11A): 221100170-5. DOI: 10.11896/jsjkx.221100170

摘要（211）

PDF（pc）（3720KB）（170）

利用圆形靶标进行相机标定时,靶标成像效果会随着不同的相机拍摄位姿呈现为椭圆,因此利用常规圆心定位方法得到的图像圆心坐标并非真实圆心在图像中的成像位置,直接利用该圆心图像坐标进行相机标定的标定精度不高。针对此问题,提出了一种先对圆形靶标图像圆心定位误差进行预测建模,然后进行误差补偿来提高圆心定位精度的方法。首先,建立圆形靶标成像图的仿真图像集;其次,对图像预处理并利用椭圆拟合法定位图像中的圆心坐标;再次,构建并训练GA-BP神经网络,建立圆心定位误差与相机镜头位姿之间的关系模型;最后,通过误差补偿策略对定位的圆心坐标进行误差补偿。实验结果表明,所构建的GA-BP神经网络模型对圆心定位的横、纵坐标的误差预测精度明显优于BP或者E-R模型,其MAPE,RMSE,R²分别为5.51%,0.004 8,0.999 6和6.14%,0.096 4,0.999 8。误差补偿后的圆心定位精度更高,验证了采用误差预测建模和误差补偿的方法提高圆心定位精度的可行性,为高精度相机标定任务提供了方法支撑。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于文本引导图像语义融合的跨模态哈希检索

顾宝程, 刘立

计算机科学 2023, 50 (11A): 221100191-6. DOI: 10.11896/jsjkx.221100191

摘要（174）

PDF（pc）（2454KB）（171）

基于哈希的跨模态检索算法具有存储消耗低和搜索效率高的特点,跨模态哈希检索在多媒体数据中的应用成为当前的研究热点。目前对于跨模态哈希检索的主流方法是研究模态间哈希码的学习能力,忽视了不同模态之间的特征学习能力以及语义融合能力。将Clip中的图像-文本匹配问题转换为像素-文本匹配问题,文本特征经过Transformer解码器查询图片特征,鼓励文本特征学习到最相关的图片像素级信息,并将像素-文本匹配得分引导图片模态的特征学习,挖掘出不同模态之间的更深层次的相关联的语义信息,并引入二元交叉熵损失函数来提升模态之间的语义融合能力,在高维特征映射到低维的汉明空间时能够得到高质量的二值哈希码。在MIRFLICKR-25K和NUS-WIDE数据集上进行对比实验,实验结果表明所提算法模型在不同长度的哈希码条件下的检索效果均优于目前主流的算法。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于改进D2Det尺度自适应目标检测算法研究

王玲, 黄冠, 王鹏, 白燕娥, 邱天衡

计算机科学 2023, 50 (11A): 221100247-9. DOI: 10.11896/jsjkx.221100247

摘要（237）

PDF（pc）（5034KB）（167）

针对D2Det(Towards High Quality Object Detection and Instance Segmentation)面对尺度变化目标和小目标的检测效果不佳并且参数量较大的问题,基于D2Det提出一种尺度自适应的目标检测模型G-SAD2Det。首先在数据预处理阶段引入数据增强算法CutOut和Mosaic,使模型应对复杂场景时有较好的鲁棒性;其次改进特征提取网络ResNet,在每个残差块内构建多尺度特征提取结构,从细粒度层面上更好地提取目标特征,同时在网络结构上添加可切换的全局上下文语义特征提取模块,通过不同池化层来增强显著性特征和全局上下文语义信息;然后改进候选框生成模块,采用自主定位目标中心区域指导候选框的生成,增强算法对尺度变换目标的自适应能力;最后通过Ghost卷积替换普通卷积降低网络的参数量和计算量。使用VOC数据集和COCO子数据集验证算法的有效性,G-SAD2Det比D2Det在两个数据集上的mAP@0.5分别提升了3.6%和4.9%;模型参数量减少了27.42%,计算量减少了35.96%,证明改进后的算法在提高了精度的同时也减少了计算量。

参考文献 | 相关文章 | 多维度评价

Select

19. 物体区域信息引导下的RGB-D场景3D目标检测

缪永伟, 单丰, 杜思澄, 王金荣, 张旭东

计算机科学 2023, 50 (11A): 221200152-8. DOI: 10.11896/jsjkx.221200152

摘要（105）

PDF（pc）（2946KB）（156）

针对室内场景RGB-D数据的3D目标检测是图形学与三维视觉中的重要问题。针对RGB-D场景中3D目标检测对复杂背景的适应性较差、目标检测中难以有效利用物体区域信息及场景点云特征信息等缺陷,基于物体区域信息引导,提出一种融合全局和局部点云特征并排除背景干扰的3D目标检测框架。该框架以场景RGB-D数据作为输入,首先提取彩色图像中待检测目标对象2D区域并为对象进行粗分类,再将对象区域二维边界框提升到三维斜锥体区域并转化形成点云数据;然后在斜锥体点云上利用物体区域分类信息进行特征提取,并利用特征变换与最大池聚合操作将点云全局特征和局部特征有效融合;接着利用融合特征以预测各采样点与前景背景相关程度的概率分数,依据此概率分数分割场景前景点与背景点,并通过场景背景点剔除以形成屏蔽性点云;最终在屏蔽性点云中投票产生物体中心点并借助物体区域信息提出建议及3D目标预测,此外,还加入了一个角点损失,对边界框精度进行优化。针对SUN RGB-D数据集进行网络训练,实验结果表明,与传统方法相比,所提框架的目标检测结果准确率得到有效提升,同一评估指标下的点云目标检测准确率达到59.1%,并且在强遮挡或稀疏采样点区域下亦能够精确估计三维物体的边界框。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于特征变换结合KD树改进ICP的快速点云配准方法

唐佳林, 林寿南, 周壮, 司炜, 王腾辉, 郑泽鑫

计算机科学 2023, 50 (11A): 230100028-5. DOI: 10.11896/jsjkx.230100028

摘要（132）

PDF（pc）（2737KB）（223）

点云配准是三维重建的关键技术。针对迭代最近点(ICP)算法存在收敛速度慢、配准效率低、配准时间长等难题,提出了一种基于特征变换结合 KD树改进ICP的快速点云配准方法。首先利用体素网格法进行初步降采样,在其差分高斯模型上获取三维尺度不变特征变换(SIFT)关键点;其次建立快速点特征直方图(FPFH);然后使用采样一致性初始配准(SAC-IA)算法,实现粗配准;最后根据得到的初始变换矩阵使用KD树改进的ICP算法,实现精配准。在斯坦福大学公开数据集上进行配准实验,结果表明,与ICP算法相比,所提改进算法具有较高的配准精确度和时间效率,且可为精确配准选择较优的初始位姿。文中在一定程度上避免了点云配准时存在的局部最优现象,为后续目标识别匹配和三维重建提供了一种高效的方法。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于任务关联特征解耦网络的无监督领域自适应图像分类

唐珺琨, 张辉, 张邹铨, 吴天月

计算机科学 2023, 50 (11A): 230100068-8. DOI: 10.11896/jsjkx.230100068

摘要（189）

PDF（pc）（3173KB）（217）

无监督领域自适应(Unsupervised Domain Adaptation,UDA)旨在帮助模型在跨域分布差异条件下从带标注的源域中学习到知识,以迁移至无标注的目标域。当前先进的域自适应方法主要通过直接对目标域与源域分布对齐来实现,其中特征往往被当作一个整体对象用于开展域间自适应任务,忽略了特征中的任务关联信息(域间不变、域内独特信息)与无关信息(颜色对比度、图像风格)耦合的情况,使得模型难以把握关键的特征信息,从而导致次优化。针对上述问题,提出了一种基于任务关联特征解耦网络的无监督领域自适应分类方法(Task Relevant Feature Separation Network,TRFS),通过对域间风格混合干扰下的特征与原始特征的注意力进行一致性的学习,来帮助网络提炼出与下游任务相关的特征权重,并进一步采用权重差获取任务无关特征权重,而后通过正交函数约束推远任务关联与无关特征,实现特征解耦;设计了任务特征细化解耦层,减轻配对特征与域独特特征混淆的情形,优化模型对分类判别的精度。此外,为了提升伪标签质量,引入基于记忆力银行的领域聚合伪标签生成方法,用于降低伪标签噪声。综合实验结果表明,所设计解耦模块具有良好的即插即用性,能够提升自适应方法的性能;且所提方法相比其他先进的域适应方法具有明显的优势,其中在Office-Home数据集上达到了73.6%的分类精度。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于模糊遮蔽与动态推理的生成式工业异常定位模型

吴天月, 张辉, 张邹铨, 唐珺琨

计算机科学 2023, 50 (11A): 230100073-7. DOI: 10.11896/jsjkx.230100073

摘要（207）

PDF（pc）（4656KB）（158）

工业生产机械化对工业产品质量检测环节提出了新的要求,需要一种具有高精度、易于移植的异常检测算法来适应生产方式的更新。针对工业生产中,异常样本出现概率低、无法完全预测的固有难题,提出了一种基于模糊遮蔽与动态推理的生成式工业异常定位模型。首先,设计了一个基于随机模糊遮蔽的对比样本生成模块,用于获取高质量的模拟异常图像。同时,利用浅层特征融合路径保留更多的边缘信息,使用损失函数加权使模型更加关注结构相似性,以及使用对比学习的方式使网络获得更好的表示能力。其次,为了缓解生成式模型输出图像模糊的问题,设计了多分支异常动态推理方法,使迭代生成和精准修复两分支相互配合,拉远背景噪声与真实异常间的距离。实验结果表明,所提方法在MVTec数据集上取得了91.42%的平均定位精度,其中有12类达到了前三的异常定位精度,能够较完整地获取异常地位置;对于纹理复杂和背景占比较大的图像,所提方法仍然保持着较高的指标敏感度,其异常定位性能在近年来提出的生成式检测模型中取得了最佳。

参考文献 | 相关文章 | 多维度评价

Select

23. 融合多头注意力机制的图像降噪网络模型

李玥玥, 刘万平, 黄东

计算机科学 2023, 50 (11A): 230100091-8. DOI: 10.11896/jsjkx.230100091

摘要（163）

PDF（pc）（4610KB）（248）

由于GPU计算的快速发展,深度学习近年来在图像降噪方面得到了应用。大多数深度学习方法都需要无噪声图像作为训练标签,但通常它们很难获得,甚至不可能获得。于是,有学者开始研究使用噪声图像进行降噪网络训练,但其恢复的图像却面临丢失细节信息的问题。受Noise2Noise(N2N)的思想启发,文中使用成对的噪声图像训练神经网络,学习同一范围的同类型噪声之间的分布关系,实现了一种新的降噪网络模型。新开发的模型(MA-UNet)基于经典UNet架构,融合了多头注意力机制(Multi-head Attention)和简易的残差网络,可以更好地挖掘图像的关键信息,掌握特征的全局信息,从而恢复更清晰的图像。与传统算法(CBM3D)和其他方法(如DnCNN和B2U)相比,MA-UNet的性能参数优良。从视觉图像观察来看,所提模型恢复了更清晰的图像细节。与N2N设计的模型相比,在不同噪声幅值下,所提模型在4个经典数据集上的峰值信噪比和结构相似性指数的均值均有显著提高。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于改进YOLOv4的磁瓦缺陷检测算法

张晓晓, 邓承志, 吴朝明, 曹春阳, 胡诚

计算机科学 2023, 50 (11A): 230100100-7. DOI: 10.11896/jsjkx.230100100

摘要（176）

PDF（pc）（3975KB）（166）

磁瓦在生产制造过程中会因为工艺问题产生各种不同的缺陷,传统检测算法检测速度慢、精度低,为了实现磁瓦表面缺陷快速有效的检测,文中提出了一种改进YOLOv4算法的磁瓦缺陷检测方法。首先将scSE注意力模块嵌入特征提取主干网络中的CSPnet的残差单元中,增强小目标的空间特征和通道特征;其次,采用空洞卷积空间池化金字塔(ASPP)模块代替原有SPP模块,增大卷积核感受野,更多地保留图像细节并增强信息相关性;最后,在颈部部分用深度可分离卷积替换5次卷积块中的传统卷积,以此来更好地对特征信息进行提取,减小模型的参数量。实验结果表明,改进的YOLOv4算法对磁瓦表面缺陷检测的平均精度值达到96.67%,检测速度为44 ms,模型大小为249 MB,明显优于原始算法,具有较高的检测精度和实用性。关键词:缺陷检测;YOLOv4;scSE注意力;空洞卷积池化;深度可分离

参考文献 | 相关文章 | 多维度评价

Select

25. 基于混合注意力的实时图像语义分割算法

王燕, 夏创帅, 汪娜, 南佩奇

计算机科学 2023, 50 (11A): 230200010-6. DOI: 10.11896/jsjkx.230200010

摘要（98）

PDF（pc）（3335KB）（178）

针对现有语义分割算法因模型复杂、计算量庞大,导致算法较难部署在移动设备的问题,提出了一种基于混合注意力的实时图像语义分割算法。该算法是非对称的编码器解码器结构,编码器部分结合深度可分离卷积与扩张卷积设计出一个高效残差单元来提取不同网络深度的图像特征,在浅层较多关注空间位置信息,在深层增强语义信息提取。解码器部分设计了混合注意力特征融合模块,使用空间注意力强化浅层的空间位置信息,使用通道注意力增强深层特征图中关键信息的表达能力,能够有效融合不同层次特征图中空间信息与上下文信息,强化语义信息的表达,减小融合过程中图像信息的损失,最后使用分类器得到分割预测图。大量实验的结果表明,该算法在Cityscapes数据集上PA和mIoU分别达到了93.2%和73.2%,在TeslaV100图像计算显卡上以1.62×10⁶的参数量达到38FPS,在Pascal VOC 2012数据集上PA和mIoU达到了92.4%和74.8%。实验结果表明,该算法能够有效且实时地完成城市场景图片分割任务。

参考文献 | 相关文章 | 多维度评价

Select

26. 双分支注意力网络的遥感图像融合

李贺, 聂仁灿, 杨小飞, 张谷铖

计算机科学 2023, 50 (11A): 230200072-7. DOI: 10.11896/jsjkx.230200072

摘要（116）

PDF（pc）（5586KB）（179）

在遥感图像中,PAN图像具有较高的空间分辨率,而MS图像包含了更多的光谱信息,因此,将它们进行融合得到高分辨率的多光谱图像是一项重要的技术。由于CNN往往无法准确获取远距离的空间特征,因而限制了全色锐化的空间细节。为了充分提取全色图像的空间信息和多光谱图像的光谱信息,文中提出了一种双分支注意力网络用于遥感图像融合任务。与以往利用纯卷积神经网络提取空间和光谱信息的方法不同,该方法在卷积块中引入空间注意力模块和通道注意力模块,分别用于关注空间和光谱信息,并在层级之间进行信息交互,以充分提取空间信息和光谱信息;同时,以Transformer为基础架构,搭建Transformer全局分支用于充分学习图像中的空间特征和光谱特征,最后经过解码得到高空间分辨率的多光谱图像。该方法在IKONOS和WorldView-2数据集上进行了全分辨率实验和降低分辨率实验,实验结果表明,该方法相比于对比方法在客观指标和主观视觉上均取得了更好的结果。

参考文献 | 相关文章 | 多维度评价

Select

27. 一种面向工业产品表面缺陷图像的色调增强方法

罗月童, 李超, 段昶, 周波

计算机科学 2023, 50 (11A): 230200089-6. DOI: 10.11896/jsjkx.230200089

摘要（222）

PDF（pc）（3124KB）（156）

在基于深度学习的工业缺陷检测中,采样数据的色调分布、缺陷的位置分布往往与检测数据存在着差异,这会导致检测模型性能不佳,基于GAN(Generative Adversarial Networks)的数据增强方法为常用的解决方法,文中设计了HC-GAN和T-GAN来分别进行色调和缺陷位置的增强。在HC-GAN中,通过构建语义保持模块和色调控制模块,能够在不改变缺陷特征的前提下实现基于参考数据的色调增强;在T-GAN中,通过输入、输出数据的成对设定,实现了缺陷位置转移;在实际应用中,两个GAN的串联使用能降低训练数据在色调和空间上的不均衡性,提高了模型的检测性能。最后进行了实验验证,结果表明,所提方法生成的数据实现了缺陷图像的色调增强和位置增强,提高了工业产品表面缺陷检测的精度。

参考文献 | 相关文章 | 多维度评价

Select

28. 多特征感知的时空自适应相关滤波目标跟踪

孟庆姣, 姜文涛

计算机科学 2023, 50 (11A): 230200096-9. DOI: 10.11896/jsjkx.230200096

摘要（218）

PDF（pc）（3984KB）（162）

针对正则化滤波器预先定义正则化项,但无法实时抑制非目标区域学习的缺点,提出了一种多特征感知的时空自适应相关滤波目标跟踪的新方法。首先在目标函数中引入空间局部响应变化量实现空间正则化,使滤波器专注于学习对象中值得信任的部分,从而得到响应模型;其次根据全局响应变化决定滤波器的更新率;最后通过级联颜色直方图(Colour Name,CN)与降维后的梯度直方图(Fast Histogram of Oriented Gradient,fHOG)特征实现非卷积特征层面的融合,采用ImageNet-VGG-2048的Conv1,Conv5层提取目标的空间轮廓以及语义信息,并使用ReLU函数拟合训练数据,在保留主要信息的同时提高速率。在数据集DTB70上的精确率(0.747)和成功率(0.789)相较于STRCF算法的精确率(0.737)和成功率(0.760)分别提高了1％和2.9％。大量实验证明该算法在复杂背景、物体遮挡、快速运动等多种场景下基本能满足实时性需求。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于改进的YOLOv5s列车轨道线检测方法

姜珂, 石建强, 陈光武

计算机科学 2023, 50 (11A): 230200101-6. DOI: 10.11896/jsjkx.230200101

摘要（289）

PDF（pc）（3686KB）（236）

轨道线检测有助于提高列车的行驶安全,但检测效果易受列车行驶环境的影响。针对这种情况,提出了基于图像预处理并使用改进后的YOLOv5s网络进行轨道线检测的方法。首先,对图像预处理,使用HSV分离出图像的多余信息后,基于Otsu阈值处理,提高了图像检测目标的显著度,降低了目标识别的复杂程度;其次,考虑到列车车载系统轻量化的要求,对YOLOv5s目标识别网络进行了改进,通过添加 CBAM注意力机制模块改进主干网络,来加强有效的特征信息,可以在确保检测结果的基础上提高检测速度,并使得检测算法模型易于部署到移动端设备中。使用公开的列车行驶图像构建数据集进行实验,实验结果表明提出的检测算法在数据集测试中的mAP达到了94.1%,具备一定的实时性和鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于深度学习的钢轨光带检测算法

张新峰, 边浩南, 张博, 张嘉铭, 梁玉清

计算机科学 2023, 50 (11A): 230200146-6. DOI: 10.11896/jsjkx.230200146

摘要（157）

PDF（pc）（4157KB）（192）

列车在轨道上行驶的过程中,车轮的轮缘会对钢轨轨面进行碾压,形成光带。钢轨光带的形状反映钢轨与车轮之间的位置关系,对异常光带形状的捕获可以有效预防列车运行的安全问题,并且提高列车乘坐的舒适程度。传统的人工检测光带方法存在效率低和专业性强等问题。早期的计算机视觉技术利用图像的边缘信息和灰度信息对钢轨区域进行定位,在此基础之上对光带区域进行分割,在效率和鲁棒性上差强人意。因此,对钢轨以及光带区域进行高效率、高精度分割是十分必要的。首先,使用ResNet分类网络区分道岔区和非道岔区图像。然后,针对两种图像,分别利用DeeplabV3+分割网络对图像的光带和钢轨区域进行分割。最后,针对钢轨边缘容易分割不清的问题,提出一种基于Douglas-Peucker算法的后处理算法,对钢轨边缘进行拟合。研究结果表明:相比于直接利用语义分割网络对两类图像一起分割,先分类再分割并对分割结果后处理的操作能够稳步提高分割准确率。该算法对非道岔区的图像的整体分割、铁轨分割、光带分割的交并比(IOU)分别为95.45%,87.48%,92.60%;对道岔区的图像的相应指标分别为90.20%,76.56%,85.42%。因此,所提算法对钢轨以及光带区域的分割精度较高,并且能够高效完成批量图像处理,具有较高的工程价值。

参考文献 | 相关文章 | 多维度评价