栏目文章

Select

1. 面向图像分类的小样本学习算法综述

彭云聪, 秦小林, 张力戈, 顾勇翔

计算机科学 2022, 49 (5): 1-9. DOI: 10.11896/jsjkx.210500128

摘要（1500）

PDF（pc）（2244KB）（2054）

目前,以深度学习为代表的人工智能算法凭借超大规模数据集以及强大的计算资源,在图像分类、生物特征识别、医疗辅助诊断等领域取得了优秀的成果并成功落地。然而,在许多实际的应用场景中,因诸多限制,研究人员无法获取到大量样本或者获取样本的代价过高,因此研究图像分类任务在小样本情形下的学习算法成为了推动智能化进程的核心动力,同时也成为了当下的研究热点。小样本学习指在监督信息数量有限的情况下进行学习并解决问题的算法。首先,从机器学习理论的角度描述了小样本学习困难的原因;其次,根据小样本学习算法的设计动机将现有算法归为表征学习、数据扩充、学习策略三大类,并分析其优缺点;然后,总结了常用的小样本学习评价方法以及现有模型在公用数据集上的表现;最后,讨论了小样本图像分类技术的难点及未来的研究趋势,为今后的研究提供参考。

参考文献 | 相关文章 | 多维度评价

Select

2. 深度卷积神经网络图像实例分割方法研究进展

胡伏原, 万新军, 沈鸣飞, 徐江浪, 姚睿, 陶重犇

计算机科学 2022, 49 (5): 10-24. DOI: 10.11896/jsjkx.210200038

摘要（803）

PDF（pc）（4948KB）（1567）

图像实例分割是图像处理和计算机视觉技术中关于图像理解的重要环节,随着深度学习和深层卷积神经网络日趋成熟,基于深度卷积神经网络的图像实例分割方法取得了跨越性进展。实例分割任务实际上是目标检测和语义分割两项任务的结合,可以在像素层面完成识别图像中目标轮廓的任务。实例分割不仅可以定位图像中目标的位置,从像素层面上分割所有目标,还可以标注出图像中同一类别的不同个体,既是对图像的像素级分割,又是实例级理解。首先,阐述了图像实例分割产生的原因和深度卷积神经网络的作用。然后,根据图像实例分割方法的过程和特征,分别从两阶段和单阶段的角度介绍了图像实例分割的研究进展,详细阐述了两类方法的优势和不足,进而总结了各类实例分割方法对区域、特征提取和掩膜的设计思路。此外,归纳了图像实例分割方法的性能评价标准和常用的公开数据集,并在此基础上对比和评估了主流的图像实例分割模型的分割精度。最后,指出了当前图像实例分割存在的问题及解决思路,并对其未来发展进行了总结和展望。

参考文献 | 相关文章 | 多维度评价

Select

3. 一种基于遮罩的稀疏点云滤波算法

封雷, 朱登明, 李兆歆, 王兆其

计算机科学 2022, 49 (5): 25-32. DOI: 10.11896/jsjkx.210600129

摘要（514）

PDF（pc）（3761KB）（1083）

基于图像的三维重建硬件约束小、成本低、灵活度高,在实际中得到广泛应用,但物体各部分之间存在遮挡,导致由图像生成的三维点云数据稀疏和密度不均等问题,一直是处理的难点和热点。文中提出一种基于遮罩的稀疏点云滤波算法。首先计算点云的包围盒,并在包围盒中根据点云的稀疏度自适应地划分栅格;其次,利用深度优先搜索,递归求出所有由栅格组成的自定义连通域;然后基于量化重要性指标来自适应计算阈值,通过该自适应阈值选择应保留的连通域,将所有保留的连通域集合定义为遮罩,用于描述稀疏点云的全局空间拓扑信息;最后,保留遮罩覆盖区域的点云,剔除遮罩未覆盖区域的点云,从而达到滤除离群点的目的。该方法能很好地处理由于遮挡生成的、空间疏密程度有较大差异的点云数据,可以有效去除原始三维点云数据中的离群点,同时较好地保持点云的细节信息。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于共同子空间分类学习的跨媒体检索研究

韩红旗, 冉亚鑫, 张运良, 桂婕, 高雄, 易梦琳

计算机科学 2022, 49 (5): 33-42. DOI: 10.11896/jsjkx.210200157

摘要（392）

PDF（pc）（2721KB）（716）

不同媒体数据间由于存在严重的异构鸿沟和语义鸿沟,而不能直接计算它们之间的语义相似度,从而影响了跨媒体检索的实现和效果。当前提出的共同子空间学习虽能实现跨媒体语义关联和检索,但多采用一般的特征提取技术,且在语义匹配时的分类效果较差,不能有效实现跨媒体数据的高层语义关联计算,影响了检索效果。对此,提出Stacking-DSCM-WR跨媒体关联方法,用于文档和图像之间的跨媒体检索。该方法基于词向量技术形成文档的特征表示向量,通过残差网络技术抽取图像的特征表示向量,采用深度典型相关性分析技术将不同模态的数据投影到共同子空间下,然后采用Stacking集成学习算法获取文本和图像在同一高层概念语义空间上的分布,使得两种不同模态的数据可以进行语义匹配、相似性计算。在Wikipedia和Pascal Sentence两个小型跨媒体数据集和一个较大规模跨媒体数据集INRIA-Websearch上分别开展跨媒体检索实验,证实了所提方法能够有效地抽取文本和图像的特征,实现跨媒体数据在高层语义空间上的关联和匹配,与相近跨媒体检索方法在MAP指标上的对比显示,该方法能够取得较好的检索效果。

参考文献 | 相关文章 | 多维度评价

Select

5. 面向事件相机的时间信息融合网络框架

徐化池, 史殿习, 崔玉宁, 景罗希, 刘聪

计算机科学 2022, 49 (5): 43-49. DOI: 10.11896/jsjkx.210400047

摘要（474）

PDF（pc）（2516KB）（1024）

事件相机是一种启发式传感器,它通过感知光线强度变化输出事件,响应异步和稀疏事件形式的像素级亮度变化,缓解了传统相机在光线条件变化复杂和物体高速运动场景下成像不清晰的问题。最近,基于学习的模式识别方法将事件相机的输出转化为伪图像的表示形式,在光流估计、目标识别等视觉任务中取得了巨大的进步。但是,这类方法丢弃了事件流之间的时间相关性,导致伪图像的纹理不够清晰,特征提取困难。为此,提出了基于事件流划分算法的神经网络框架,显式地融合了事件流的时间信息。该框架将输入的事件流划分成多份,使用权重分配网络给每一份事件流赋予不同的权重,并使其通过卷积神经网络融合时空信息、提取高级特征,最后对输入分类。在N-Caltech101和N-Cars数据集上进行的对比实验表明,与现有最先进算法相比,所提框架在分类准确率上有明显的提升。

参考文献 | 相关文章 | 多维度评价

Select

6. 结合注意力机制的多尺度特征融合图像去雾算法

范新南, 赵忠鑫, 严炜, 严锡君, 史朋飞

计算机科学 2022, 49 (5): 50-57. DOI: 10.11896/jsjkx.210400093

摘要（703）

PDF（pc）（3843KB）（852）

针对传统图像去雾算法容易受到先验知识制约以及颜色失真等问题,提出了一种结合注意力机制的多尺度特征融合图像去雾算法。该算法首先通过下采样操作得到多个尺度的特征图,然后在不同尺度的特征图之间采用跳跃连接的方式将编码器部分的特征图与解码器部分的特征图连接起来以进行特征融合。同时,在网络中加入一个由通道注意力子模块和像素注意力子模块组成的特征注意力模块来控制不同通道与像素的重要性,这种特征注意力模块让网络更加关注细节信息和重要特征,因此能取得更好的去雾效果。为了验证所提算法的有效性,首先在RESIDE数据集上将所提算法与5种流行的去雾算法进行定性与定量对比实验。实验结果表明,所提算法能比较完全地除雾,而且对图像色彩的保持度较好;同时,在两个评价指标峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(Structure Similarity,SSIM)上的平均值分别为28.83 dB和0.957 5,相较于对比算法中性能位居第二的模型分别提高了2.23 dB和0.017 2。然后在MSD数据集以及真实图像上将所提算法与5种对比算法进行了定性对比实验。实验结果进一步证明了所提算法的去雾性能以及色彩保持度良好。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于特征分离的红外与可见光图像融合算法

高元浩, 罗晓清, 张战成

计算机科学 2022, 49 (5): 58-63. DOI: 10.11896/jsjkx.210200148

摘要（508）

PDF（pc）（3066KB）（717）

在同一场景下被捕获的一对红外与可见光图像虽然具有不同的模态,但是具有共享的公有信息和互补的私有信息,学习并融合上述信息可以得到一幅完整的融合图像。受益于残差网络的启发,在训练学习阶段,通过网络分支间特征层面的互换和相加,强制每一个分支映射到一幅具有全局特征的标签图上,来鼓励各个分支学习对应模态图像的私有特征。直接学习得到图像的私有特征可以避免设计复杂的融合规则并保证特征细节信息的完整。在融合预测阶段,采用最大值融合策略融合私有特征,并在解码层与学习得到的公有特征相叠加,最后解码出集成了红外和可见光图像信息的融合图像。使用在NYU-D2上合成的多聚焦图像数据集训练该模型,在TNO真实的红外和可见光数据集上进行测试,实验结果表明,与当前主流的红外与可见光融合算法相比,所提算法在主观效果和客观评价指标上都取得了较好的成绩。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于局部注意力图互迁移的可解释性优化方法

成科扬, 王宁, 崔宏纲, 詹永照

计算机科学 2022, 49 (5): 64-70. DOI: 10.11896/jsjkx.210400176

摘要（634）

PDF（pc）（3182KB）（698）

目前,深度学习模型已被广泛部署于各个工业领域。然而,深度学习模型具有的复杂性与不可解释性已成为其应用于高风险领域最主要的瓶颈。在深度学习模型可解释性方法中,最重要的方法是可视化解释方法,其中注意力图是可视化解释方法的主要表现方式,可通过对样本图像中的决策区域进行标注,来直观地展示模型决策依据。目前已有的基于注意力图的可视化解释方法中,单一模型注意力图存在标注区域易出现标注错误而造成可视化可解释性置信度不足的问题。针对上述问题,文中提出了一种基于局部注意力图互迁移的可解释性优化方法,用于提升模型注意力图的标注准确度,展示出精准的决策区域,加强视觉层面对模型决策依据的可解释性。具体表现为:采用轻量模型构建互迁移网络结构,于单一模型层间提取特征图并进行叠加,对全局注意力图进行局部划分,使用皮尔逊相关系数对模型间对应的局部注意力图进行相似度度量,随后将局部注意力图进行正则化并结合交叉熵函数对模型注意力图进行迁移。实验结果表明,所提算法显著提升了模型注意力图标注的准确性,并分别实现了28.2%的平均下降率和29.5%的平均增长率,与最先进的算法相比,其在平均下降率方面实现了3.3%的提升。实验结果表明,所提算法能成功地找出样本图像中预测标签最相关区域,而不局限于视觉可视化区域;与现有的同类方法相比,所提方法能更准确地揭示原始CNN模型的决策依据。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于边云协同的人脸识别方法研究

魏勤, 李瑛娇, 娄平, 严俊伟, 胡辑伟

计算机科学 2022, 49 (5): 71-77. DOI: 10.11896/jsjkx.210300222

摘要（394）

PDF（pc）（2417KB）（1223）

人脸识别被广泛应用于购物、安检、出行、支付和考勤等日常生活中,人脸识别系统需要大的算力与存储空间,因此往往将需要识别的人脸通过网络传送到云平台进行识别,但网络覆盖、拥塞或延时等问题造成人脸识别系统难以满足实际应用的需求,用户体验差。针对人脸识别中存在的问题,提出了基于边云协同的人脸识别方法。该方法结合云计算的处理能力和边缘计算的实时性,使人脸识别系统不受网络状态的约束,应用更加广泛,用户体验更好。在云端,提出了LResNet特征提取方法,改进了ResNet34网络结构,并利用ArcFace人脸损失函数监督训练过程,使网络学习到更多的人脸角度特性;在边缘端,针对计算资源和存储资源有限的问题,提出了SResNet特征提取方法,利用深度可分离卷积轻量化LResNet网络结构,大大减少了网络参数和计算量。边云协同的人脸识别实验表明,所提系统在任何网络状态下都能进行实时识别且准确率较高。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于SVM的类别增量人体活动识别方法

邢云冰, 龙广玉, 胡春雨, 忽丽莎

计算机科学 2022, 49 (5): 78-83. DOI: 10.11896/jsjkx.210400024

摘要（661）

PDF（pc）（1654KB）（799）

基于人体活动识别(Human Activity Recognition,HAR)的健康监护是发现健康异常的一种重要手段。然而,在日常活动识别中,很难提前获取包含所有可能活动类别的训练样本。当预测阶段出现新增类别时,传统的支持向量机(Support Vector Machine,SVM)会将其错误地分类为已知类别。一个鲁棒的分类器应该能够分辨出新增类别,以便后续区别于已知类别并对其进行处理。文中提出一种基于SVM的类别增量人体活动识别方法,引入超球面的思想,既能高精度地识别已知活动类别,又能检测出新增类别。通过训练得到的多个超球面将整个特征空间进行划分,使分类器具有对新增活动类别的检测能力。实验结果表明,与传统多分类SVM方法相比,该方法能够在不显著降低已知类别分类效果的前提下实现对新增类别的检测,从而提高分类器在开放环境下的人体活动识别能力。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于改进CenterNet的航拍绝缘子缺陷实时检测模型

李发光, 伊力哈木·亚尔买买提

计算机科学 2022, 49 (5): 84-91. DOI: 10.11896/jsjkx.210400142

摘要（781）

PDF（pc）（3342KB）（576）

针对无人机在电力巡检过程中对绝缘子及其缺陷检测的准确率较低、实时性较差的问题,提出一种改进CenterNet的绝缘子缺陷检测模型。首先,使用轻量级网络EfficientNet-B0代替原始模型的特征提取网络ResNet18,在保证模型提取能力的同时加快了其推理速度;其次,搭建特征加强模块(Feature Enhancement Module,FEM),并对经过上采样后的特征通道权重进行合理分配,抑制无效特征,并借鉴FPN(Feature Pyramid Networks)融合浅层与深层特征,使特征层信息更加丰富;然后在CenterNet-Head中引入空间和通道混合的注意力机制CA(Coordinate Attention),使类别和位置信息的预测更加准确;最后,使用Soft-NMS解决在模型检测过程中由中心点预测不准导致的“单目标多框”问题。实验结果表明,改进的CenterNet比原始模型的精度提高了11.92%,速度提高了8.95 FPS,模型大小减小了54 MB。与其他检测模型相比,改进模型的精度与速度均有提高,证明了其实时性和鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于ARIMA预测MFCC特征的声纹同一性鉴定方法

王学光, 诸珺文, 张爱新

计算机科学 2022, 49 (5): 92-97. DOI: 10.11896/jsjkx.210400071

摘要（455）

PDF（pc）（2920KB）（818）

声纹识别技术的关键是从语音信号中提取具有说话人特征的语音特征参数。考虑到当下大多是运用鉴定人的经验对两段语音是否来源于同一人进行判定,在前期研究的基础上,结合MFCC特征,提出一种基于ARIMA预测的声纹同一性鉴定方法,以提高具有年份差距的检材与样本比对的准确率。此方法在Mel倒谱系数声纹同一性鉴定方法基础上,采用自回归综合移动平均季节序列作出线性最小均方估计,对声纹特征进行预测,改良了包含元音与响辅音的共振峰特性。实验证明,ARIMA时间序列的预测结果很好,且使用ARIMA改良的基于Mel倒谱系数的文本无关同一性鉴定的准确率较高,相似度在60%以上。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于HVS的水下图像质量评价

鹿婷, 侯国家, 潘振宽, 王国栋

计算机科学 2022, 49 (5): 98-104. DOI: 10.11896/jsjkx.210100224

摘要（594）

PDF（pc）（3340KB）（745）

因为水的吸收和散射效应,导致水下图像普遍存在模糊、低对比度和色彩不均衡等问题,而自然图像质量评价方法没有考虑水下成像的特殊性,难以应用于水下图像;同时目前有效的水下图像的质量评价方法较少,且存在一定局限性。针对此问题,提出了一种新的与主观感知密切相关的无参考水下图像质量评价方法,选择与视觉感知相关性高的色度特征(Col)、基于人类大脑视觉皮层的对比度特征(Con)、反映图像信息丰富程度的清晰度特征(Sharp)这3种属性,来构成水下图像质量评价模型,简称CCS。这些视觉特征对水的物理特性比较敏感,而且人类视觉系统(Human Visual System,HVS)易受色彩、对比度和边缘结构等视觉特性变化的影响。为了验证所提方法的性能,在自建小型水下图像数据集上与CPDB,BRISQUE,UCIQE,UIQM这4种无参考评价算法进行了大量的对比实验,在与主观评价相关性度量方面,CCS方法比UIQM方法的RMSE度量指标提升了大约13%,比UCIQE和UIQM方法的PLCC,SROCC和KROCC度量指标提升均超过10%。实验结果表明,CCS算法与人类视觉感知具有高度一致性,能有效、准确地评估水下图像的质量。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于多分支注意力增强的细粒度图像分类

张文轩, 吴秦

计算机科学 2022, 49 (5): 105-112. DOI: 10.11896/jsjkx.210100108

摘要（487）

PDF（pc）（3181KB）（810）

针对细粒度图像类间差距小、类内差距大的问题,文中提出以弱监督学习的方式使用多分支注意力增强卷积网络,从而实现细粒度图像分类。文中采用Inception-V3网络提取图像的基础特征,从中获取多个局部响应区域并进行特征融合,在此基础上采用注意力机制对图像关键区域进行自约束的局部裁剪和局部擦除,避免仅提取目标单个部位的特征,促使网络更加关注目标物体不同部位的细节特征,同时也提升了目标区域的定位精度。此外,文中提出中心正则化损失函数来约束训练过程中获取的注意力区域,以进一步提升目标定位精度和扩大图像特征的类间差距。在3个公开数据集上进行了实验,结果表明,所提方法取得了比当前最优方法更好的结果。

参考文献 | 相关文章 | 多维度评价