1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    计算机图形学&多媒体 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于深度学习的刚体位姿估计方法综述
    郭楠, 李婧源, 任曦
    计算机科学    2023, 50 (2): 178-189.   DOI: 10.11896/jsjkx.211200164
    摘要42)      PDF(pc) (1910KB)(74)    收藏
    刚体位姿估计旨在获取刚体在相机坐标系下的3D平移信息和3D旋转信息,在自动驾驶、机器人、增强现实等快速发展的领域起着重要作用。现对2017-2021年间的基于深度学习的刚体位姿估计方向具有代表性的研究进行汇总与分析。将刚体位姿估计的方法分为基于坐标、基于关键点和基于模板的方法。将刚体位姿估计任务划分为图像预处理、空间映射或特征匹配、位姿恢复和位姿优化4项子任务,详细介绍每一类方法的子任务实现及其优势和存在的问题。分析刚体位姿估计任务面临的挑战,总结现有解决方案及其优缺点。介绍刚体位姿估计常用的数据集和性能评价指标,并对比分析现有方法在常用数据集上的表现。最后从位姿跟踪、类别级位姿估计等多个角度对未来研究方向进行了展望。
    参考文献 | 相关文章 | 多维度评价
    2. 红外和可见光图像融合算法的研究进展
    魏琦, 赵娟
    计算机科学    2023, 50 (2): 190-200.   DOI: 10.11896/jsjkx.220100074
    摘要59)      PDF(pc) (3923KB)(73)    收藏
    红外图像便于识别热源目标,可见光图像包含丰富的纹理信息。红外和可见光的融合图像兼顾了两个波段传感器的优势,可以清楚地显示热源目标及其背景,在军事侦察、安防监控、遥感监测等领域有着广泛的应用,已成为图像融合领域的重点研究方向。近年来,国内外学者对红外和可见光图像融合算法开展了大量研究。文中首先对现有的图像融合算法进行了详细介绍,包括多尺度变换、稀疏表示的传统图像处理方法和基于CNN,GAN,AE这3种常见网络结构的深度学习图像融合算法。接着综述了融合图像的评价方法,对常见的多种客观评价指标进行了归类分析。然后开展对比实验,对各种方法进行了主观评价和定量分析,指出不同方法的优势和不足。最后,对红外和可见光图像融合技术的未来发展趋势进行展望。
    参考文献 | 相关文章 | 多维度评价
    3. 基于改进区域候选网络的场景文本检测
    李俊林, 欧阳智, 杜逆索
    计算机科学    2023, 50 (2): 201-208.   DOI: 10.11896/jsjkx.211000191
    摘要41)      PDF(pc) (2791KB)(46)    收藏
    自然场景中的文本图像具有十分复杂多变的特征,使用区域候选网络(Region Proposal Network,RPN)提取文本矩形位置候选框是不可或缺的一个步骤,能够极大地提升文本检测的精度。然而最近的研究表明,通过最小化平滑的L1损失函数来回归矩形候选框中心点、宽和高的方式容易产生边界信息缺失、回归不准确等问题。针对这一问题,提出了一种基于改进区域候选网络的场景文本检测模型。首先,使用残差网络和特征金字塔网络组成的骨干网络生成共享特征图。然后,使用改进的回归取点方式和基于顶点的VIOU损失函数(Vertex-IOU)在共享特征图上生成系列文本矩形候选框。接着,使用ROI Align将这些候选框转化为固定大小的特征图在全连接层进行边界框预测。最后,在ICDAR2015数据集上进行对比实验,结果表明,与其他模型相比,所提模型可以提升检测精度,证明了所提模型的有效性。
    参考文献 | 相关文章 | 多维度评价
    4. 基于特征融合的小样本目标检测
    华杰, 刘学亮, 赵烨
    计算机科学    2023, 50 (2): 209-213.   DOI: 10.11896/jsjkx.220500153
    摘要58)      PDF(pc) (1654KB)(84)    收藏
    小样本目标检测旨在通过少量的样本学习来训练目标检测模型,现有的小样本目标检测方法大多基于经典的目标检测算法。在二阶段的检测方法中,由于新类别样本数量少,产生了许多无关的边界框,导致候选区域的准确率较低。为了解决这个问题,提出了一种基于特征融合的小样本目标检测算法FF-FSOD。该方法采用特征融合的方法进行数据增强,对新类别样本进行补充,扩大样本的覆盖范围,同时引入FPN网络进行多尺度特征提取,再对RPN网络进行改进,引入支持集图像分支,计算支持集图像特征与查询集图像特征的深度互相关性,得到注意力特征图,进而获得更精确的候选框。所提模型的有效性在MS COCO和FSOD数据集上得到了验证,实验结果表明,该方法获得了更精准的候选框,进而提升了检测精度。
    参考文献 | 相关文章 | 多维度评价
    5. 基于人脸部件掩膜的自监督三维人脸重建
    朱磊, 王善敏, 刘青山
    计算机科学    2023, 50 (2): 214-220.   DOI: 10.11896/jsjkx.220600035
    摘要45)      PDF(pc) (2402KB)(50)    收藏
    三维人脸重建旨在从二维人脸图片中恢复出三维人脸模型。自监督三维人脸重建能够缓解三维人脸数据缺乏的问题,因此成为了近年来的研究热点。现有的自监督方法通常聚焦于使用全局监督信号,对人脸的局部细节关注不足。为了更好地恢复出细节生动的精细化三维人脸,提出了一种基于人脸部件掩膜的精细化三维人脸重建方法,该方法在不需要任何三维人脸标注的情况下,可以重建出精细化三维人脸。其主要思想是在二维图片一致性损失、图片深层感知损失等基本损失函数上,通过人脸部件掩膜,给予人脸区域精细化约束,并对人脸部件掩膜进行自监督约束,从而提高重建的三维人脸局部的准确性。在AFLW2000-3D和MICC Florence数据集上进行了定性以及定量实验,验证了所提方法的有效性和优越性。
    参考文献 | 相关文章 | 多维度评价
    6. 基于TransEditor的轻量化人脸生成方法及其应用规范
    梁伟亮, 李悦, 王棚飞
    计算机科学    2023, 50 (2): 221-230.   DOI: 10.11896/jsjkx.220800166
    摘要30)      PDF(pc) (5267KB)(58)    收藏
    人脸生成可以将人脸的样式和头部的姿态进行组合,合成虚假的人脸图像,常用于性别转换、姿势修改等视觉任务。基于GAN的人脸生成方法大幅度提高了人脸生成的质量和可编辑性,但是这些生成方法网络结构复杂、计算资源需求大,很难直接应用于实际场景中。为了实现高效的人脸生成,提出了一种基于TransEditor的轻量化人脸生成方法,并探讨了相应的应用规范路径。在技术层面,首先,以TransEditor人脸编辑网络模型为基础,参考StyleGAN2等轻量化网络模型的生成器结构,设计了轻量化的人脸生成网络模型。其次,从生成损失、对抗损失、重建损失等方面分析了网络模型的损失函数,提出使用PReLU激活函数代替Softplus激活函数来提高生成器的生成效果。最后,大量实验证明,提出的基于TransEditor的轻量化人脸生成方法的LPIPS仅减少了0.0042,大幅度减少了模型的训练时间和参数量,提高了人脸生成模型的运行效率。在应用规范层面,需完善现有的规制措施,规范所提方法的使用,使技术进步更好地服务于社会发展。
    参考文献 | 相关文章 | 多维度评价
    7. 基于注意力机制和轻量级空洞卷积的混凝土路面裂缝检测
    瞿中, 王彩云
    计算机科学    2023, 50 (2): 231-236.   DOI: 10.11896/jsjkx.211200290
    摘要36)      PDF(pc) (4102KB)(49)    收藏
    混凝土路面上的裂缝会影响结构的安全性、适用性和耐久性,裂缝检测是一个充满挑战的研究热点。文中提出了由改进的全卷积网络和深监督网络组成的裂缝检测模型,以改进的VGG-16作为主干网络,首先将低层卷积特征聚合,通过空间注意力机制再次融合到主干网络;其次,将中高层卷积特征通过轻量级空洞卷积融合模块进行多尺度融合得到具有清晰边缘且分辨率较高的特征图像,所有的侧边特征图像相加产生最终的预测图像;最后,深监督网络为每个阶段的检测结果提供直接监督。该网络选择焦点损失函数作为评价函数,经过训练的网络模型能够在光照不均、背景复杂等各种条件下从输入的原始图像中高效地识别出裂缝位置。为验证所提方法的有效性和鲁棒性,在DeepCrack,CFD,Crack500这3个数据集上与6种方法进行了比较,所提算法表现出卓越的性能,F-score值达到了87.12%。
    参考文献 | 相关文章 | 多维度评价
    8. 基于深度学习的人群异常行为检测综述
    徐涛, 田崇阳, 刘才华
    计算机科学    2021, 48 (9): 125-134.   DOI: 10.11896/jsjkx.201100015
    摘要385)      PDF(pc) (1927KB)(1877)    收藏
    随着安防需求的日益增长,人群异常行为检测已经成为计算机视觉的研究热点。人群异常行为检测旨在对监控视频中行人的行为进行建模和分析,区分出人群中的正常行为和异常行为,及时发现灾难和意外事件。文中对基于深度学习的人群异常行为检测算法进行了梳理总结。首先,针对人群异常行为检测任务及其现状进行介绍;其次,重点探讨卷积神经网络、自编码网络和生成对抗网络在人群异常行为检测任务中的研究进展;然后,列举该领域常用的数据集,并比较和分析了深度学习方法在UCSD行人数据集上的性能;最后,总结人群异常行为检测的任务难点,并对该领域的未来发展趋势进行了展望。
    参考文献 | 相关文章 | 多维度评价
    9. 基于双目视觉的车辆速度测量方法
    常子霆, 施雨晴, 王俊, 于明鹤, 姚兰, 赵志滨
    计算机科学    2021, 48 (9): 135-139.   DOI: 10.11896/jsjkx.201000047
    摘要171)      PDF(pc) (1497KB)(590)    收藏
    为配合高速公路入口处的货车称重工作,需要测量车辆通过称重台时的实时速度。利用双目视觉技术测速具有成本低、部署简单、稳定性高的优点,具有广阔的应用前景。双目视觉测速的技术难点是目标的位移测量,其核心问题是目标在多帧图像间的精准匹配。文中提出了一种基于空间位置的匹配区域对齐算法与基于模板匹配的空间位移计算方法。具体地,利用车轮的空间位置关系来限制车轮的匹配区域,可有效降低相似车轮的误匹配问题;使用模板匹配的方法追踪车轮的关键点,进而获得多帧之间车轮的空间位移。使用某高速公路入口的真实通行视频数据进行实验验证,结果表明,与其他双目测速方法相比,所提方法使得测速结果的RMSE下降了20%~40%,且更加适用于车辆以较快速度(10~20 km/h)通过高速公路入口测速点的实际场景。
    参考文献 | 相关文章 | 多维度评价
    10. 基于边缘特征融合的高分影像建筑物目标检测
    赫晓慧, 邱芳冰, 程淅杰, 田智慧, 周广胜
    计算机科学    2021, 48 (9): 140-145.   DOI: 10.11896/jsjkx.200800002
    摘要185)      PDF(pc) (3703KB)(564)    收藏
    高分辨率遥感图像建筑物目标检测在国土规划、地理监测、智慧城市等领域有着广泛的应用价值,但是由于遥感图像背景复杂,建筑物目标的部分细节特征与背景区分度较低,在进行检测任务时,容易出现建筑物轮廓失真、缺失等问题。针对这一问题,设计了自适应加权边缘特征融合网络(VAF-Net)。该方法针对遥感图像建筑物检测任务,对经典编解码器网络U-Net进行拓展,通过融合RGB特征图和边缘特征图,弥补了基础网络学习中的细节特征缺失;同时,借助网络的学习自动更新融合权重,实现自适应加权融合,充分利用不同特征的互补信息。该方法在Massachusetts Buildings数据集上进行了实验,其准确率、召回率和F1-score分别达到了82.1%,82.5%和82.3%,综合指标F1-score相比于基础网络提升了约6%。VAF-Net有效提高了编解码器网络对于高分影像建筑物目标检测任务的表现性能,具有良好的实用价值。
    参考文献 | 相关文章 | 多维度评价
    11. 一种基于改进三元组损失和特征融合的行人重识别方法
    张新峰, 宋博
    计算机科学    2021, 48 (9): 146-152.   DOI: 10.11896/jsjkx.200800200
    摘要162)      PDF(pc) (2329KB)(576)    收藏
    行人重识别旨在跨摄像头条件下,从目标数据库中检索出特定的行人目标,其在视频监控领域有重要的应用价值。目前其研究难点为样本图像类内差异大、类间差异小,因此如何设计并训练深度神经网络对行人图片提取一个判别力更强的特征成为了其关键。针对以往研究只单独进行全局特征或局部特征学习的不足,提出了一种联合全局特征和局部特征学习的网络结构,该结构能够同时提取全局特征和具有较强区分力的局部细节特征;针对每部分局部特征对行人特征描述的重要性不同,文中提出了一种局部特征的融合方式,该方法能够自适应地生成各个局部特征的权重,最后将融合后的局部特征和全局特征结合使行人特征得到更全面的表征;另外,针对以往的基于难样本挖掘的三元组损失具有优化目标模糊的特点,提出了一种改进的基于难样本挖掘的三元组损失函数。文中分别在行人重识别主流数据集Market-1501和DukeMTMC-reID上验证了所提方法的有效性,其mAP值分别达到了82.16%和74.02%,Rank-1值分别达到了92.75%和86.8%。
    参考文献 | 相关文章 | 多维度评价
    12. 光谱重建约束非负矩阵分解的高光谱与全色图像融合
    官铮, 邓扬琳, 聂仁灿
    计算机科学    2021, 48 (9): 153-159.   DOI: 10.11896/jsjkx.200900054
    摘要157)      PDF(pc) (3727KB)(575)    收藏
    基于光谱重建约束的非负矩阵分解,提出了一种高光谱与全色图像的有效解混方法。首先在高光谱图像的非负矩阵分解中引入光谱重建误差最小化的正则项,通过多目标寻优寻找最佳的正则项参数,以鼓励分解的光谱特征矩阵包含更真实的光谱特征;然后对全色图像进行非负矩阵分解,以获得描述图像细节的丰度矩阵;最后利用光谱特征矩阵和丰度矩阵重建得到融合结果。实验仿真结果表明,所提方法的融合结果能在较好地保留全色图像细节的同时,有效地避免光谱畸变,在视觉效果和客观评价方面均优于传统方法。
    参考文献 | 相关文章 | 多维度评价
    13. 基于非局部相似及加权截断核范数的高光谱图像去噪
    郑建炜, 黄娟娟, 秦梦洁, 徐宏辉, 刘志
    计算机科学    2021, 48 (9): 160-167.   DOI: 10.11896/jsjkx.200600135
    摘要166)      PDF(pc) (3912KB)(461)    收藏
    受仪器噪声干扰,高光谱图像(Hyperspectral Image,HSI)往往会受到高斯噪声的破坏,严重影响图像后续处理的精度,因此图像去噪是一项重要的预处理工作。此外,由于高光谱数据维度极高,因此算法效率成为模型应用能力的重要指标。为实现高效HSI去噪,文中首先将高维高光谱图像投影到低维光谱子空间上,从中学习一个正交基矩阵,然后结合高光谱的空间非局部相似性与全局光谱低秩性对低维子空间进行去噪,最后将复原后的低维图像与正交基结合恢复成原始数据维度。其中,非局部去噪过程要先通过图像的非局部相似性以邻域匹配方法寻找相似张量块组成具有强低秩属性的张量群组。针对各张量群组,文章联合加权核范数与截断核范数各自的优势,提出加权截断核范数作为低秩约束正则项,能更好地逼近本质秩属性。进一步,为快速获取模型的最优解,提出改进的近端加速梯度(Accelerated Proximal Gradient,APG)算法对低秩项进行优化求解。通过两组高光谱图像和一组多光谱图像对所提算法进行实验验证,结果表明,所提方法在视觉效果和时间效率上取得了良好的平衡,综合性能明显优于其他基于非局部去噪的对比算法。
    参考文献 | 相关文章 | 多维度评价
    14. 融合改进密集连接和分布排序损失的遥感图像检测
    袁磊, 刘紫燕, 朱明成, 马珊珊, 陈霖周廷
    计算机科学    2021, 48 (9): 168-173.   DOI: 10.11896/jsjkx.200800001
    摘要169)      PDF(pc) (3191KB)(342)    收藏
    针对遥感图像中小目标尺寸较小、样本分布不均匀、特征不明显等问题,提出一种改进的YOLOv3目标检测算法。在使用Stitcher数据增强解决小目标样本分布不均匀的问题后,提出VOVDarkNet-53基础网络,将DarkNet-53基础网络中第4次下采样后的8个残差模块减少为4个残差模块。然后采用VOVNet的密集连接方式,使网络利用更多的浅层小目标特征信息,增加网络感受野。最后,采用分布排序损失改进YOLOv3中的分类损失,解决单阶段目标检测器正负样本不平衡的问题。实验使用YOLOv3目标检测算法和改进后的YOLOv3算法在HRRSD遥感数据集上进行对比。结果表明,改进后的YOLOv3算法对小目标和中目标的检测精确度分别提升了7.2%和2.1%,尽管对大目标的检测精度下降了1%,但在平均单张图片处理时间几乎不变的情况下,平均检测精度均值(mAP)提升了4.1%,召回率和准确率也有所提升。
    参考文献 | 相关文章 | 多维度评价
    15. 利用生成对抗网络的人脸图像分步补全法
    林椹尠, 张梦凯, 吴成茂, 郑兴宁
    计算机科学    2021, 48 (9): 174-180.   DOI: 10.11896/jsjkx.200800014
    摘要241)      PDF(pc) (3447KB)(593)    收藏
    人脸图像修复技术是近年来图像处理领域的研究热点,而人脸图像大面积缺失导致损失语义信息过多,一直是该领域的重点难点问题。针对这一问题,文中提出了一种基于生成对抗网络的图像分步补全算法。将人脸图像修复问题分为两步,设计两个串联的生成对抗网络,首先残缺图像通过预补全网络进行图像的预补全,预补全图像进入增强网络进行特征增强;判别器分别判断预补全图像和增强图像与理想图像的差异性;采用长短时记忆单元连接两部分的信息流,增强信息的传递。然后使用内容损失、对抗损失和全变分损失相结合的损失函数,提高网络的修复效果。最后在CelebA数据集上进行实验,结果显示,所提算法相较于对比算法在峰值信噪比指标上提高了16.84%~22.85%,在结构相似性指标上提高了10%~12.82%。
    参考文献 | 相关文章 | 多维度评价
    16. 基于PCANet的非下采样剪切波域多聚焦图像融合
    黄晓生, 徐静
    计算机科学    2021, 48 (9): 181-186.   DOI: 10.11896/jsjkx.200800064
    摘要182)      PDF(pc) (3610KB)(451)    收藏
    近年来,基于深度学习模型的图像融合方法备受关注。而传统的深度学习模型通常需要耗时长和复杂的训练过程,并且涉及参数众多。针对这些问题,文中提出了一种基于简单的深度学习模型PCANet的非下采样剪切波(Non-Subsanmpled Shearlet Transform,NSST)域多聚焦图像融合方法。首先,利用多聚焦图像训练两阶段PCANet,用于提取图像特征。然后,对输入源图像进行NSST分解,得到源图像的多尺度和多方向表示。低频子带利用训练好的PCANet提取其图像特征,并利用核范数构造有效的特征空间进行图像融合。高频子带利用区域能量取大的融合规则进行融合。最后对根据不同融合规则融合后的频率系数进行NSST重构,获取清晰的目标图像。实验结果表明,所提算法的训练和融合速度比基于CNN的方法提高了43%,该算法的平均梯度、空间频率、熵等融合性能分别为5.744,15.560和7.059,可以与现有融合方法相媲美或优于现有的融合方法。
    参考文献 | 相关文章 | 多维度评价
    17. 基于融合损失函数的3D U-Net++脑胶质瘤分割网络
    张晓宇, 王彬, 安卫超, 阎婷, 相洁
    计算机科学    2021, 48 (9): 187-193.   DOI: 10.11896/jsjkx.200800099
    摘要380)      PDF(pc) (2558KB)(971)    收藏
    胶质瘤是大脑和脊髓胶质细胞癌变所产生的、最常见的原发性颅脑肿瘤。从多模态MRI中对胶质瘤组织进行可靠的分割具有很重要的临床价值,但是由于脑胶质瘤本身及周边组织较为复杂以及浸润性导致的边界模糊等,导致对脑胶质瘤的自动分割有一定的难度。文中构建了使用融合损失函数的3D U-Net++网络来对脑胶质瘤的不同区域进行分割,该网络使用不同层级的U-Net模型进行密集嵌套连接,使用网络的4个分支的输出结果作为深度监督以更好地结合深层和浅层的特征进行分割,并结合了Dice损失函数和交叉熵损失函数作为融合损失函数来提升小区域的分割精度。在2019年多模态脑肿瘤分割挑战赛(BraTs)的公共数据集划分的独立测试集中,采用Dice系数、95% Hausdorff距离、平均交并比(mIoU)、查准率(PPV)指标对所提方法进行了评估。结果表明,全肿瘤区域、肿瘤核心区域和增强肿瘤区域的Dice系数分别为0.873,0.814,0.709;其95% Hausdorff距离分别为15.455,12.475,12.309;其mIoU分别为0.789,0.720,0.601;其PPV分别为0.898,0.846,0.735。与基础的3D U-Net以及带深度监督的3D U-Net相比,所提方法可以有效地利用多模态的深层和浅层的信息,有效利用了空间信息,同时使用了Dice系数和交叉熵的融合损失函数,从而有效提升了对肿瘤各区域的分割精度,尤其是对小面积的增强肿瘤区域的分割精度。
    参考文献 | 相关文章 | 多维度评价
    18. 基于特征优化的SAR图像水华识别方法
    毋琳, 白澜, 孙梦伟, 郭拯危
    计算机科学    2021, 48 (9): 194-199.   DOI: 10.11896/jsjkx.200800142
    摘要157)      PDF(pc) (2916KB)(413)    收藏
    内陆湖泊水华现象的频繁爆发,严重影响着地表水环境安全,严重阻碍了我国的生态文明建设。充分发挥合成孔径雷达(Synthetic Aperture Radar,SAR)遥感技术全天时、全天候的优势,可实现大尺度、周期性的水华识别与监测工作,对于地表水生态环境的保护与监管具有重大的现实意义。立足于SAR遥感目标识别技术的研究与应用,文中提出了一种基于特征优化的水华识别方法。该方法基于对水华SAR图像特征的深入分析与提取,应用ReliefF特征优化算法对全部的22个水华特征进行筛选与优化,得到包含10个特征的最优特征子集,并以反向传播(Back Propagation,BP)神经网络为分类识别器完成了多组对比实验,水华识别总体精度最高达81.39%,较优化之前提升了19.38%。实验结果表明,使用最优特征集不仅可以大幅降低算法复杂度,还可以有效地提升水华总体识别精度,具有进一步推广的实用价值。
    参考文献 | 相关文章 | 多维度评价
    19. 融合深度典型相关分析和对抗学习的跨模态检索
    刘立波, 苟婷婷
    计算机科学    2021, 48 (9): 200-207.   DOI: 10.11896/jsjkx.200600119
    摘要164)      PDF(pc) (2650KB)(517)    收藏
    文中提出一种融合深度典型相关分析和对抗学习的跨模态检索方法(DCCA-ACMR),该方法提高了无标签样本的利用率,能够学习到更有力的特征投影模型,进而提升了跨模态检索准确率。具体而言,在DCGAN框架下:1)在图像与文本两个单模态的表示层间增加深度典型相关分析约束,构建图文特征投影模型,充分挖掘样本对的语义关联性;2)以图文特征投影模型作为生成器,以模态特征分类模型作为判别器共同构成图文跨模态检索模型;3)利用有标签样本和无标签样本,在生成器和判别器的相互对抗中学习到样本的公共子空间表示。在Wikipedia和NUSWIDE-10k两个公开数据集上,采用平均准确率均值(mAP)作为评价指标对所提方法进行验证。图像检索文本和文本检索图像的平均mAP值在两个数据集上分别为0.556和0.563。实验结果表明,DCCA-ACMR优于现有的代表性方法。
    参考文献 | 相关文章 | 多维度评价
    20. 快速局部协同表示分类器及其在人脸识别中的应用
    陈长伟, 周晓峰
    计算机科学    2021, 48 (9): 208-215.   DOI: 10.11896/jsjkx.200800155
    摘要143)      PDF(pc) (3613KB)(430)    收藏
    针对协同表示分类器(CRC)计算时间复杂度较高的问题,利用重构系数的大小与样本标签之间的正相关性,提出了局部快速协同表示器并用于人脸识别。首先使用最小二乘法求解L2范数约束下的线性回归问题;然后对重构系数进行筛选,舍弃对分类不利的负重构系数;最后抛弃原CRC算法中的样本重构环节,转而使用最大相似性准则确定测试样本所属分类。该方法利用样本的局部相似性,使识别率得到了一定的提升。同时该方法无需样本重构,求解复杂度大幅度降低。在AR和CMU PIE数据集上的实验结果表明,所提方法的时间复杂度极大幅度优于CRC,且在各种光照、表情、角度等状态下其识别率均高于现有其他相关算法。
    参考文献 | 相关文章 | 多维度评价
    21. 基于语义边缘驱动的实时双目深度估计算法
    张鹏, 王新晴, 肖毅, 段宝国, 许鸿辉
    计算机科学    2021, 48 (9): 216-222.   DOI: 10.11896/jsjkx.200800203
    摘要175)      PDF(pc) (7033KB)(562)    收藏
    针对立体匹配中不适定区域视差边缘模糊、视差不平滑、单个物体视差不连续、存在空洞的问题,提出了一种轻量化的实时双目深度估计算法,将场景图、通过语义分割得到的语义标签图和通过边缘检测得到的边缘细节图作为辅助损失,以地面真值图为主要损失,构造了联合损失函数,以更好地监督视差图的生成。此外,构造了一个轻量化的特征提取模块,以降低特征提取模块的冗余性,从而更好地简化特征提取步骤,提高了网络的实时性和轻量性。最后利用由粗到精的思想实现视差图的渐进细化过程,利用低分辨率视差图变形与高分辨率特征图融合的方式,分阶段生成不同尺度的视差图,细节特征逐渐丰富,从而获得了最终的精准视差图。在KITTI 2012数据集上得到1.72%的3px错误率,在Middlebury 2014数据集中,Vintge错误率为1.23%,Playroom错误率为2.23%,Recycle错误率为1.65%,并且在Scene Flow数据集上计算时间低至0.76 s,内存占用量为2.4 G,显著提高了立体匹配算法在不适定区域的准确性和计算效率,能够满足工程实践中的实时性要求,对于实时三维重建任务有着很重要的指导意义。
    参考文献 | 相关文章 | 多维度评价
    22. 语音任务下声学特征提取综述
    郑纯军, 王春立, 贾宁
    计算机科学    2020, 47 (5): 110-119.   DOI: 10.11896/jsjkx.190400122
    摘要263)      PDF(pc) (1815KB)(2553)    收藏
    语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。
    参考文献 | 相关文章 | 多维度评价
    23. 弱标签环境下基于多尺度注意力融合的声音识别检测
    郑伟哲, 仇鹏, 韦娟
    计算机科学    2020, 47 (5): 120-123.   DOI: 10.11896/jsjkx.190900111
    摘要150)      PDF(pc) (2009KB)(579)    收藏
    目前大多数声音识别检测的研究都是基于强标签数据集的,但在真实环境的声音识别与检测任务中,音频标签不完整并且含有大量噪声,使得获取强标签音频数据比较困难,进而影响对声音的准确识别与检测。为此,在卷积循环神经网络模型的基础上,提出了一种多尺度注意力融合机制。该机制使用注意力门控单元,在降低声音时频图特征中噪声影响的同时,能够更多地利用有效特征。同时,通过结合多个尺寸的卷积核进行特征融合,进一步提升对声音特征的有效提取。此外,采用一种结合帧检测结果的加权法对声音信号进行识别。最后,在弱标签环境下,从AudioSet数据库中选取一个包含17种城市交通工具声音的弱标签数据集进行检测识别,所提模型对测试集声音识别结果的F1值为58.9%,检测结果的F1值为43.7%。结果表明,在弱标签城市交通工具声数据集下,网络模型相比传统的声音识别检测模型具有更高的识别检测精度;同时,重要性加权识别方法、多尺度注意力融合方法均可提升模型对声音识别检测的精度。
    参考文献 | 相关文章 | 多维度评价
    24. 基于小样本学习的SAR图像识别
    汪航, 陈晓, 田晟兆, 陈端兵
    计算机科学    2020, 47 (5): 124-128.   DOI: 10.11896/jsjkx.190400136
    摘要410)      PDF(pc) (1987KB)(1350)    收藏
    深度学习已成为图像识别领域的一个研究热点。与传统图像识别方法不同,深度学习从大量数据中自动学习特征,并且具有强大的自学习能力和高效的特征表达能力。但在小样本条件下,传统的深度学习方法如卷积神经网络难以学习到有效的特征,造成图像识别的准确率较低。因此,提出一种新的小样本条件下的图像识别算法用于解决SAR图像的分类识别。该算法以卷积神经网络为基础,结合自编码器,形成深度卷积自编码网络结构。首先对图像进行预处理,使用2D Gabor滤波增强图像,在此基础上对模型进行训练,最后构建图像分类模型。该算法设计的网络结构能自动学习并提取小样本图像中的有效特征,进而提高识别准确率。在MSTAR数据集的10类目标分类中,选择训练集数据中10%的样本作为新的训练数据,其余数据为验证数据,并且,测试数据在卷积神经网络中的识别准确率为76.38%,而在提出的卷积自编码结构中的识别准确率达到了88.09%。实验结果表明,提出的算法在小样本图像识别中比卷积神经网络模型更加有效。
    参考文献 | 相关文章 | 多维度评价
    25. 空-频域联合投票的交通视频阴影去除方法
    宋传鸣, 洪旭, 王相海
    计算机科学    2020, 47 (5): 129-136.   DOI: 10.11896/jsjkx.190400040
    摘要143)      PDF(pc) (3712KB)(390)    收藏
    交通场景中的静止或运动阴影往往会降低车辆目标跟踪的精度,因此有效地去除阴影是交通监控视频处理的重要环节之一。然而,目前尚无一种能够同时发掘阴影的空间域和频率域特性且抵抗静止和运动阴影干扰的阴影去除方法。为此,提出了一种基于空-频域联合投票策略的交通视频阴影去除方法。首先,将视频帧从RGB颜色空间转换到HSV颜色空间,再进行非下采样剪切波变换;其次,假设变换系数服从高斯分布,采用变换系数的均值和标准差计算每个尺度的加权掩码;然后,根据多尺度变换系数的零树分布特性,利用粗尺度的加权掩码校正细尺度的加权掩码,将各个尺度、各个颜色通道的加权掩码进行线性组合后得到一个公共掩码,再采用基于最小二乘法拟合的最大熵方法计算自适应分割阈值,对公共掩码进行二值化;最后,联合频率域加权掩码、S通道和V通道的掩码进行投票,进而确定去除阴影后的运动车辆区域。实验结果表明,该算法可有效去除交通监控视频中的静态/运动阴影,抑制阴影的干扰,将传统Meanshift算法的输出车辆轨迹与真实轨迹间的平均欧氏距离缩小95%,且未出现目标丢失的现象,增强了智能分析算法的鲁棒性。研究结果说明,该算法有效联合交通监控视频的空间域和频率域表示,充分发掘了运动车辆区域与阴影区域之间的纹理特性和颜色特性差异,有利于获得更精确的阴影去除结果,进而提高车辆目标跟踪的精度。
    参考文献 | 相关文章 | 多维度评价
    26. 融合极端学习机的判别性分析字典学习算法
    王军浩, 闫德勤, 刘德山, 邢钰佳
    计算机科学    2020, 47 (5): 137-143.   DOI: 10.11896/jsjkx.190600090
    摘要136)      PDF(pc) (2512KB)(488)    收藏
    研究表明,端学习机和判别性字典学习算法在图像分类领域极具有高效和准确的优势。然而,这两种方法也具有各自的缺点,极端学习机对噪声的鲁棒性较差,判别性字典学习算法在分类过程中耗时较长。为统一这种互补性以提高分类性能,文中提出了一种融合极端学习机的判别性分析字典学习模型。该模型利用迭代优化算法学习最优的判别性分析字典和极端学习机分类器。为验证所提算法的有效性,利用人脸数据集进行分类。实验结果表明,与目前较为流行的字典学习算法和极端学习机相比,所提算法在分类过程中具有更好的效果。
    参考文献 | 相关文章 | 多维度评价
    27. 量化权值激活的生成对抗网络
    郑哲, 胡庆浩, 刘青山, 冷聪
    计算机科学    2020, 47 (5): 144-148.   DOI: 10.11896/jsjkx.190700176
    摘要189)      PDF(pc) (2533KB)(747)    收藏
    近年来,生成对抗网络(Generative Adversarial Networks,GAN)在图像超分辨率、图像生成等许多计算机视觉任务中展现出优异的性能。借助于GPU强大的计算力,人们可以设计计算复杂度更高的GAN网络。然而,对于资源受限的移动端设备,高功耗、计算需求大的GAN将很难被直接部署到实际应用中。得益于神经网络压缩技术取得的巨大进展,将GAN部署到移动端设备成为可能。为此,文中提出一种同时对网络权值和激活进行量化的方案来压缩GAN网络。通过量化敏感性分析发现,与量化分类网络不同,GAN中的量化权重比量化激活更敏感,因此在量化时给予权重更多的量化比特。文中比较了两种评价GAN生成图像的指标即Inception Score(IS)和Fréchet Inception Distance(FID),发现FID更适合评估量化后GAN的性能。基于敏感性分析在Mnist和Celeb-A数据集上进行量化实验,用FID指标来评估量化GAN的性能。实验结果表明:在生成图像质量不下降的情况下,所提方法依然可以取得4倍以上的压缩率,从而有效地解决了GAN的压缩问题。
    参考文献 | 相关文章 | 多维度评价
    28. 图像的扩散界面无监督聚类算法
    王成章, 白晓明, 杜金栗
    计算机科学    2020, 47 (5): 149-153.   DOI: 10.11896/jsjkx.190300125
    摘要175)      PDF(pc) (2490KB)(533)    收藏
    图像的无监督聚类就是基于图像数据,在无任何先验信息的情况下将整个图像集合划分成若干子集的过程。由于图像的本征维度很高,在图像处理中会遇到“维数灾难”问题。针对图像无监督聚类的特点,提出了一种图像的扩散界面无监督聚类算法,将图像编码成高维观测空间中的点,再通过投影变换映射到低维特征空间,在低维特征空间中构建扩散界面无监督聚类模型,并在模型中引入维度约简算子,采用循环迭代算法优化扩散界面模型的能量函数。基于最优的扩散界面,将整个图像集合聚类成不同的子集。实验结果表明,扩散界面无监督聚类算法优于传统聚类算法中的K-means算法、DBSCAN算法和Spectral Clustering算法,能够更好地实现图像的无监督聚类,在相同条件下具有更高的准确度。
    参考文献 | 相关文章 | 多维度评价
    29. 基于WFSOA的2D-Otsu钢轨缺陷图像分割方法
    曹义亲, 段也钰, 武丹
    计算机科学    2020, 47 (5): 154-160.   DOI: 10.11896/jsjkx.190200295
    摘要165)      PDF(pc) (2070KB)(500)    收藏
    针对二维最大类间方差阈值法(2D-Otsu)抗噪性较弱、计算时间较长的问题,文中提出了一种基于随机权重及异步价值因子取值的人群搜索算法,并将其应用于2D-Otsu中对钢轨缺陷图像进行分割。该算法采用随机权重加快收敛速度,采用异步价值因子提高搜索能力,有利于全局收敛到最优值。根据测试函数分析,WFSOA算法能够快速收敛,寻优值结果精度高,收敛时间短,算法稳定性好。在钢轨缺陷图像分割中,将2D-Otsu的迹函数作为WFSOA的目标函数,实验结果表明图像检测实时性高,对表面灰度不匀或生锈的钢轨缺陷分割结果清晰,有效降低了钢轨缺陷误检率和漏检率,在计算时间上仅占2D-Otsu算法的2%,可满足实际工程对实时性的需求。
    参考文献 | 相关文章 | 多维度评价
    30. 面向陆战场目标识别的轻量级卷积神经网络
    乔梦雨, 王鹏, 吴娇, 张宽
    计算机科学    2020, 47 (5): 161-165.   DOI: 10.11896/jsjkx.190300062
    摘要206)      PDF(pc) (2366KB)(899)    收藏
    在实际陆战场环境中,作战人员无法随身携带GPU等大型计算设备,因此较难计算规模较大的神经网络参数,进而导致目标识别网络无法实时工作。现有的轻量级神经网络虽然解决了实时性的问题,但是不能满足准确率的要求。为此,文中提出了一种基于轻量级卷积神经网络的目标识别算法(E-MobilNet)。为了提升网络学习的效果,以现有深度学习的主要目标检测框架MobileNet-V2为基础,插入一种ELU函数作为激活函数。首先,使用扩张卷积来增加通道数,以获得更多的特征;接着,通过ELU函数激活输出特征,这样可以缓解线性部分的梯度消失,并且使非线性部分对输入变化的噪声更鲁棒;然后,通过残差连接的方式组合高层特征与低层特征的输出;最后,将全局池化的输出结果输入Softmax分类函数。实验数据表明,在同样的测试集和测试环境下,与现在主流的轻量级深度学习目标识别算法相比,E-MobileNet识别的准确率和每秒检测的帧率都有所提升。实验数据充分说明,使用ELU激活函数和全局池化层减少了参数的数量,增强了模型的泛化能力,提升了算法的鲁棒性,在保证神经网络模型轻量级的基础上有效地提高了目标的识别准确率。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共2页 共32条记录