1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    计算机图形学&多媒体 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. Transformer在计算机视觉场景下的研究综述
    陈洛轩, 林成创, 郑招良, 莫泽枫, 黄心怡, 赵淦森
    计算机科学    2023, 50 (12): 130-147.   DOI: 10.11896/jsjkx.221100076
    摘要121)      PDF(pc) (6634KB)(2138)    收藏
    Transformer是一种基于注意力的编码器-解码器架构,其凭借长距离建模能力与并行计算能力在自然语言处理领域取得了重大突破,并逐步拓展应用至计算机视觉领域,成为了计算机视觉任务的重要研究方向。文中重点回顾与总结了Transformer在图像分类、目标检测与图像分割三大计算机视觉任务中的应用和改进。首先,以图像分类任务为切入点,从数据规模、结构特点、计算效率等方面深入分析了当前视觉Transformer存在的关键问题,并基于关键问题对解决方法和思路进行了分类。其次,全面梳理了视觉Transformer在目标检测与图像分割两大领域的研究进展,并根据结构特点、设计动机来组织这些方法,分析对比代表性方法的优点与不足。最后,对Transformer在计算机视觉任务中亟待解决的问题以及发展趋势进行了总结和探讨。
    参考文献 | 相关文章 | 多维度评价
    2. 先验引导的虹膜图像盲修复算法
    王甲, 项刘宇, 黄昱博, 夏玉峰, 田青, 何召锋
    计算机科学    2023, 50 (12): 148-155.   DOI: 10.11896/jsjkx.230500217
    摘要121)      PDF(pc) (3594KB)(2067)    收藏
    虹膜识别作为最有潜力的生物特征识别技术之一,已得到广泛应用。然而,现有的虹膜识别系统在图像采集过程中易受外界因素干扰,存在采集的虹膜图像分辨率不足、易模糊等问题。为解决以上问题,提出了一种先验引导的虹膜图像盲修复算法,利用生成对抗网络和虹膜先验知识对低分辨率、运动模糊、离焦模糊等降质因素混合的未知退化虹膜图像进行盲修复。修复网络包括退化去除子网络、先验估计子网络和先验融合子网络,其中先验估计子网络对输入的风格信息进行分布建模,并将其作为先验知识来指导生成网络;先验融合子网络利用注意力融合机制来整合多层级的风格特征,提高了信息的利用率。实验结果表明,所提方法在定性和定量指标上都优于其他算法,实现了退化虹膜的盲修复,提高了虹膜识别的鲁棒性。
    参考文献 | 相关文章 | 多维度评价
    3. 基于空间相关性与特征级插值改进的快速图像翻译模型
    李玉强, 李欢, 刘春
    计算机科学    2023, 50 (12): 156-165.   DOI: 10.11896/jsjkx.221100027
    摘要120)      PDF(pc) (3539KB)(2019)    收藏
    近年来,深度学习算法的流行使图像翻译任务取得了显著的效果。其中,很多研究工作致力于在缩短模型运行时间的同时保持图像的生成质量,ASAPNet模型就是一个典型的代表。 但该模型的特征级损失函数无法完全解耦图像特征和外观,又由于其大多数计算在极低的分辨率下执行,导致生成的图像质量不够理想。针对上述问题,提出了一种基于空间相关性和特征级插值的ASAPNet改进模型——SRFIT。具体来说,根据自相似性原理,使用空间相关性损失替换原模型中的特征匹配损失,以缓解图像翻译时的场景结构差异的问题,从而提高图像翻译的准确性。 此外,受ReMix中数据增强方法的启发,通过线性插值在图像特征级上增加了数据量,解决了生成器过拟合的问题。最后,在两个公开数据集CMP Facades和Cityscapes上进行对比实验,结果均表明,相比当前的主流模型,所提出的改进模型SRFIT展现了更好的性能,可以在有效改善图像生成质量的同时,保持较快的运行速度。
    参考文献 | 相关文章 | 多维度评价
    4. 基于特征融合与边界修正显著性目标检测
    陈慧, 彭力
    计算机科学    2023, 50 (12): 166-174.   DOI: 10.11896/jsjkx.221100203
    摘要80)      PDF(pc) (4504KB)(2051)    收藏
    显著性目标检测旨在寻找图像中的视觉显著区域。现有的显著性目标检测方法已经展现出强大的优势,但依然在尺度感知和边界预测方面具有局限性。首先,各类场景中的显著目标存在诸多尺度,使算法难以适应不同尺度变化。其次,显著目标往往具有复杂的轮廓,这使边界像素点的检测变得更为困难。针对以上问题,文中提出了基于特征融合与边界修正的显著性目标检测网络,该网络基于特征金字塔,提取了不同层次显著特征。首先针对目标的尺度多样性设计了由多尺度特征解码模块组成的特征融合解码器,通过逐层融合相邻层特征,提高了网络对目标尺度的感知能力。同时设计了边界修正模块学习显著目标的轮廓特征,以生成边界清晰的高质量显著图。在5个常用显著性目标检测数据集上进行实验,结果表明所提算法在平均绝对误差、F指标和S指标3项定量指标上均能取得较优的结果。
    参考文献 | 相关文章 | 多维度评价
    5. 基于双空间共轭自编码器的多时相高光谱异常变化检测
    李沙沙, 邢红杰, 李刚
    计算机科学    2023, 50 (12): 175-184.   DOI: 10.11896/jsjkx.221100092
    摘要92)      PDF(pc) (3740KB)(1973)    收藏
    高光谱异常变化检测能够从多时相高光谱遥感图像中寻找到数量稀少、与整体背景变化趋势不同、难以发现且令人感兴趣的异常变化。数据集规模较小、存在噪声干扰以及线性预测模型存在局限性等问题,极大地降低了传统高光谱异常变化检测方法的检测性能。目前,自编码器已被成功地应用于高光谱异常变化检测。然而,单个自编码器在处理多时相高光谱图像时,仅关注图像的重构质量,在获取瓶颈特征时往往忽略了图像中复杂的光谱变化信息。为了解决该问题,提出了一种基于双空间共轭自编码器的多时相高光谱异常变化检测(Multi-temporal Hyperspectral Anomaly Change Detection Based on Dual Space Conjugate Autoencoder,DSCAE)方法。所提方法包含两个共轭的自编码器,即它们从不同方向构造各自的潜在特征。在该方法的训练过程中,首先,两幅不同时刻的高光谱图像经过各自的编码器分别获得相应的潜在空间特征表示,再分别经过各自的解码器获得另一时刻的预测图像;其次,在样本空间和潜在空间中施加不同的约束条件,并在两个空间中最小化相应的损失函数;最后,两幅输入图像经过共轭自编码器后获得各自的异常损失图,对所得的两幅异常损失图采用取小运算得到最终的异常变化强度图,以便在减小输入图像间背景光谱差异的同时突出异常变化。在高光谱异常变化检测基准数据集上的实验结果表明,与10种相关方法相比,DSCAE展现了更优的检测性能。
    参考文献 | 相关文章 | 多维度评价
    6. 农业场景下移动机器人的双目视觉定位与地图构建方法
    余涛, 熊盛武
    计算机科学    2023, 50 (12): 185-191.   DOI: 10.11896/jsjkx.230300116
    摘要78)      PDF(pc) (1804KB)(2010)    收藏
    视觉定位与地图构建是实现移动机器人自主导航的关键技术。针对农业场景下特征跟踪困难、场景规模大、运动不稳定引起系统精度和鲁棒性下降的问题,提出了一种适用于农业场景的双目视觉定位与地图构建方法。该方法首先利用静态立体匹配点来增加跟踪阶段地图点的数量和覆盖范围,从而增加了深度计算的准确率,同时提出一种点选择算法对密集地图点进行采样并移除离群点,进一步提高了系统的准确率和运行效率;然后通过显式尺度估计来减小大规模场景下定位与地图构建的尺度误差,并结合场景特点改进关键帧判别策略,避免了远处大目标导致关键帧稀疏的问题;最后提出新的运动假设构建位姿估计失败时的恢复策略,提高了系统在颠簸运动时的鲁棒性。在农业场景数据集上的评估结果表明,相比于当前先进的视觉定位与地图构建系统,提出的方法在困难序列上的轨迹误差降低幅度超过50%,其中3个序列上的尺度误差下降了一个数量级,取得了更高的精度和鲁棒性,能有效地应对农业场景下视觉定位与地图构建的挑战。
    参考文献 | 相关文章 | 多维度评价
    7. 基于立体相机和UWB融合的移动机器人跟随方法
    付勇, 吴炜, 万泽青
    计算机科学    2023, 50 (12): 192-202.   DOI: 10.11896/jsjkx.221000188
    摘要112)      PDF(pc) (4474KB)(2052)    收藏
    文中研究了人机共融环境下的自主跟随机器人。特别地,针对机器人确定所需跟随目标以及目标丢失后的重识别,提出了一种稳定有效的方法,即先基于立体相机的图像和点云数据实现对行人的视觉跟踪与定位;然后引入超宽带(Ultra Wide Band,UWB)的定位信息确定目标行人,并利用滤波算法融合传感器的数据得到相机坐标系下的坐标信息,最后利用坐标变换转为机器人坐标系下的位置。又提出了改进的动态窗口算法(Modified Dynamic Window Algorithm,MDWA),并将其作为机器人的跟随控制方法。另外,为保证机器人跟随能够持续稳定进行,基于传感器数据,提出了包含跟随行为、恢复行为、过渡行为的行为决策模块,通过行为间的切换,使机器人在面对因转弯抑或环境光照条件的变化使得相机失效而导致目标丢失时也能够重新找回目标。实验结果表明,所提出的跟随系统在开机时能够自动确定所需跟随目标,在有静态障碍物的场景,抑或是视野内有其他非目标行人干扰的动态场景下,机器人均能实现良好的避障跟随。特别地,机器人在转弯场景或是光照条件变化的场景下,机器人均可自主寻回被跟随目标,而且在转弯场景中,机器人的跟随成功率可达81%。
    参考文献 | 相关文章 | 多维度评价
    8. 图像情感分析的层次图卷积网络模型
    谈钱辉, 温佳璇, 唐继辉, 孙玉宝
    计算机科学    2023, 50 (12): 203-211.   DOI: 10.11896/jsjkx.221100177
    摘要126)      PDF(pc) (4395KB)(2068)    收藏
    图像情感分析任务旨在运用机器学习模型自动预测观测者对图像的情感反应。当前基于深度网络的情感分析方法广受关注,主要通过卷积神经网络自动学习图像的深度特征。然而,图像情感是图像全局上下文特征的综合反映,由于卷积核感受野的尺寸限制,无法有效捕捉远距离情感特征间的依赖关系,同时网络中不同层次的情感特征间未能得到有效的融合利用,影响了图像情感分析的准确性。为解决上述问题,文中提出了层次图卷积网络模型,分别在空间和通道维度上构建空间上下文图卷积(SCGCN)模块和动态融合图卷积(DFGCN)模块,有效学习不同层次情感特征内部的全局上下文关联与不同层级特征间的关系依赖,能够有效提升情感分类的准确度。网络结构由4个层级预测分支和1个融合预测分支组成,层级预测分支利用SCGCN学习单层次特征的情感上下文表达,融合预测分支利用DFGCN自适应聚合不同语义层次的上下文情感特征,实现融合推理与分类。在4个情感数据集上进行实验,结果表明,所提方法在情感极性分类和细粒度情感分类上的效果均优于现有的图像情感分类模型。
    参考文献 | 相关文章 | 多维度评价
    9. 面向工业图像异常检测的连续密集标准化流模型
    张邹铨, 张辉, 吴天月, 陈天才
    计算机科学    2023, 50 (12): 212-220.   DOI: 10.11896/jsjkx.221000183
    摘要145)      PDF(pc) (4429KB)(1973)    收藏
    工业产品表面异常检测是生产制造中不可或缺的环节。在实际工业生产中,普遍存在异常样本所占比例低且未知异常复杂多变等现象,进而造成在小样本数据集上过拟合、泛化能力不佳等一系列负面影响。近年来,标准化流思想为基于深度学习的工业图像异常检测带来了新途径,但标准化流的固有架构易导致模型表达能力不足。针对上述难点,提出了一种面向工业图像异常检测的连续密集标准化流模型。首先,设计一种基于对比学习的特征提取网络预训练策略,将模拟异常数据和少量真实异常数据加入对比学习任务中,并训练特征骨干网络AlexNet拉近或拉远特定样本间的距离;其次,设计连续密集标准化流模型,采用可逆变换的复合架构来构造密集流模块,增强生成式模型对分布的拟合能力。在MVTec AD和Magnetic Tile Defects以及自制的工业布匹数据集上的实验结果表明,与其他的异常检测模型相比,所提方法在3个数据集上的检测性能达到了最优或次优的水平。
    参考文献 | 相关文章 | 多维度评价
    10. 基于迭代非对称盲点网络的低剂量CT重建算法
    郭广行, 阴桂梅, 刘晨旭, 段永红, 强彦, 王艳飞, 王涛
    计算机科学    2023, 50 (12): 221-228.   DOI: 10.11896/jsjkx.230300014
    摘要75)      PDF(pc) (3134KB)(1987)    收藏
    针对通过机器学习方法进行低剂量CT重建的算法过度依赖成对图例的问题,提出了一种基于迭代非对称盲点网络的低剂量CT重建算法。首先,通过像素混洗下采样盲点网络对低剂量CT进行自监督训练,得到初步重建的CT图像;其次,建立迭代模型,迭代使用前一网络得到的结果图像作为本网络的低剂量输入进行训练,以得到最终网络模型;最后,采用非对称的方式,对像素混洗下采样的步幅进行调整,以尽可能地减少混叠伪影,得到最终的可用模型。理论分析和实验结果表明,与传统低剂量CT重建算法相比,基于迭代非对称盲点网络算法可以极大地减少低剂量CT重建算法对成对图例的依赖,且其生成结果在在图像质量、纹理特征和结构方面优于传统方法。
    参考文献 | 相关文章 | 多维度评价
    11. PSwin:基于Swin Transformer的边缘检测算法
    胡名扬, 郭燕, 金杨爽
    计算机科学    2023, 50 (6): 194-199.   DOI: 10.11896/jsjkx.220700145
    摘要193)      PDF(pc) (2106KB)(353)    收藏
    边缘检测作为一种传统的计算机视觉算法,已经被广泛应用于车牌识别、光学字符识别等现实场景。当边缘检测作为更高层级算法的基础时,比如目标检测、语义分割等算法,又可以应用于城市安防、自动驾驶等领域。好的边缘检测算法能够有效提升上述计算机视觉任务的效率和准确度。边缘提取任务的难点在于目标的大小以及边缘细节的差异性,因此边缘提取算法需能够有效处理不同尺度的边缘。PSwin首次将Transformer应用于边缘提取任务,并提出了一种新型特征金字塔网络,以充分利用骨干网络多尺度和多层次的特征。PSwin使用自注意力机制,相比卷积神经网络架构,可以更有效地提取图像中的全局结构信息。在BSDS500数据集上进行评估时,PSwin边缘检测算法达到了最佳水平,ODS F-measure 为0.826,OIS为0.841。
    参考文献 | 相关文章 | 多维度评价
    12. 基于动态卷积核的自适应图像去雾算法
    刘哲, 梁宇栋, 李嘉莹
    计算机科学    2023, 50 (6): 200-208.   DOI: 10.11896/jsjkx.220400288
    摘要152)      PDF(pc) (3864KB)(301)    收藏
    现有图像去雾方法普遍存在去雾不彻底、容易出现颜色失真等问题,基于传统深度学习模型的图像去雾方法多采用静态推理模式,在该模式下,模型对不同样本会采用同样的、固定的参数设置,从而抑制了模型的表达能力,影响图像的去雾效果。针对以上问题,文中提出了一种基于动态卷积核的自适应图像去雾算法,该算法包括编码网络、自适应特征增强网络和解码网络3个部分。文中采用动态卷积、密集残差、注意力机制设计了自适应特征增强网络,该网络主要包括动态残差组件和动态跨层特征融合组件。动态残差组件由动态密集残差模块、一个卷积层和双注意力模块构成,其中动态密集残差模块将动态卷积引入密集残差模块,同时设计了一个基于注意力的权重动态聚合子网络,动态地生成卷积核参数以达到样本自适应的目的,在减少信息丢失的同时增强了模型的表达能力;双注意力模块结合通道注意力和像素注意力,使模型更加关注图像通道之间的差异性以及雾霾分布不均匀的区域。动态跨层特征融合组件通过动态融合不同阶段的特征,来学习丰富的上下文信息,防止网络深层计算时遗忘网络的早期特征,同时极大地丰富了特征表示,有利于模型对无雾图像细节信息的恢复。在合成数据集和真实数据集上进行了大量实验,结果表明,所提方法不仅取得了较好的客观评价分数,而且重建了主观效果较好的去雾图像,超越了对比方法的性能。
    参考文献 | 相关文章 | 多维度评价
    13. 基于群稀疏的约束平滑秩近似的高光谱图像去噪
    张历洪, 叶军
    计算机科学    2023, 50 (6): 209-215.   DOI: 10.11896/jsjkx.220300236
    摘要182)      PDF(pc) (3589KB)(224)    收藏
    高光谱图像(Hyperspectral Image,HSI)在采集过程中会产生多种类型的噪声,噪声数量越多,HSI的有效信息就越少。为了更有效地从大量混合噪声中恢复HSI的有效消息,文中提出了一种基于群稀疏正则化的约束平滑秩近似HSI恢复方法。其中,群稀疏正则化被定义为基于加权$\ell_{2,1}$范数的空谱全变分,该正则化在利用空谱维信息的同时也考虑到了HSI内部的群稀疏性,增强了模型对混合噪声的去除效果及空谱维的光滑性。此外,文中采用约束的平滑函数来近似秩函数,以更好地利用HSI的低秩属性并提高了算法效率。该优化问题采用基于交替方向乘子的迭代算法进行求解。两种加噪情况的模拟数据实验和一项基于真实数据的实验的结果表明,相比5种目前主流的方法,所提方法在目视效果和评价指标上都有明显提升。
    参考文献 | 相关文章 | 多维度评价
    14. 基于空频联合卷积神经网络的GAN生成人脸检测
    王金伟, 曾可慧, 张家伟, 罗向阳, 马宾
    计算机科学    2023, 50 (6): 216-224.   DOI: 10.11896/jsjkx.220400268
    摘要140)      PDF(pc) (3227KB)(230)    收藏
    生成式对抗网络(GAN)的快速发展使其在图像生成领域取得了前所未有的成功。StyleGAN等新型GAN的出现使得生成的图像更真实且具有欺骗性,对国家安全、社会稳定和个人隐私都构成了较大威胁。文中提出了一种基于空频联合的双流卷积神经网络的检测模型。鉴于GAN图像在生成过程中因上采样操作在频谱上留下了清晰可辨的伪影,设计了可学习的频率域滤波核以及频率域网络来充分学习并提取频率域特征。为了减弱图像变换至频域过程中丢弃部分信息而带来的影响,同样设计了空间域网络来学习图像内容本身具有差异化的空间域特征,最终将两种特征融合来实现对GAN生成人脸图像的检测。在多个数据集上的实验结果表明,所提模型在高质量生成数据集上的检测精度及在跨数据集的泛化性上都优于现有算法,且对于JPEG压缩、随机剪裁、高斯模糊等图像变换具有更强的鲁棒性。不仅如此,所提方案在GAN生成的局部人脸数据集上也有不错表现,进一步证明了所提模型有着更好的通用性以及更加广泛的应用前景。
    参考文献 | 相关文章 | 多维度评价
    15. 基于分层伪标签的图像聚类方法
    蔡少填, 陈小军, 陈龙腾, 邱莉萍
    计算机科学    2023, 50 (6): 225-235.   DOI: 10.11896/jsjkx.220900197
    摘要199)      PDF(pc) (2941KB)(196)    收藏
    图像聚类是图像处理中一个重要且开放的问题。最近,一些方法利用联合对比学习的良好表征能力来进行端到端聚类学习,利用伪标签技术来生成高质量的伪标签以提升聚类模型的鲁棒性。伪标签方法通常需要设置一个较大的概率阈值,并对满足要求的样本生成one-hot的标签,同时利用生成的标签来更新模型。但是,这种简单的伪标签生成方法难以获得足够数量的高质量伪标签。为了解决以上问题,提出了一种基于分层伪标签的图像聚类方法,它旨在利用结构化信息与伪标签信息对分类模型进行训练和精炼。引入3个假设来指导聚类方法的设计,包括局部平滑假设、自训练假设及低密度分离假设。新方法包含两个阶段:1)基于流形的一致性学习,利用近邻一致性学习来初始化聚类模型;2)基于分层伪标签的模型精炼,基于第一阶段的结果生成伪标签,并利用其来提升聚类模型的鲁棒性。首先,将基于第一阶段的结果生成强伪标签数据集及弱伪标签数据集;然后,提出了基于标签传播及分层混合的伪标签提升技术来提升弱伪标签数据集的质量;最后,同时利用强伪标签数据集及弱伪标签数据集来提升分类模型的泛化能力。相较于最优结果,SPC算法在STL10和Cifar100-20基准数据集上,ACC平均结果分别提升了7.6%和5.0%。
    参考文献 | 相关文章 | 多维度评价
    16. 基于气象数据与多噪声融合的体积云模拟研究
    卢春海, 徐新海, 张帅, 李豪
    计算机科学    2023, 50 (6): 236-242.   DOI: 10.11896/jsjkx.220500070
    摘要163)      PDF(pc) (3009KB)(210)    收藏
    为了在智能无人机集群仿真中构建逼真的仿真环境,需要考虑基于气象数据对云进行建模与渲染。而当前基于真实气象数据的云模拟大多采用物理建模方法,如求解NS方程和粒子系统方法,这些方法为繁重的微积分方程求解任务所累,存在因计算量大而无法在大规模场景下实现实时仿真的缺点。针对该问题,提出了一种使用气象数据生成纹理与多噪声融合的体积云建模方法,并将气象数据与高度相关函数相结合来定义云的形状和密度在高度上的变化,有效地将气象数据与非物理建模方法进行结合。渲染时采用光线步进算法从视线方向和朝向太阳两个方向累积云的密度,结合光的吸收和散射定律计算每个样本点的颜色与透明度,最终绘制成云。实验结果表明,模拟出的体积云与气象数据中的云层信息较为一致,效率高,且在形态和颜色上都接近真实的云。
    参考文献 | 相关文章 | 多维度评价
    17. 伪异常选择驱动学习的视频异常检测
    赵松, 傅豪, 王洪星
    计算机科学    2023, 50 (5): 146-154.   DOI: 10.11896/jsjkx.220400227
    摘要205)      PDF(pc) (2926KB)(292)    收藏
    无监督视频异常检测方法通常使用正常的监控视频数据通过帧重构/帧预测方法来训练视频异常检测模型。然而,正常视频中往往包含大量的相似画面和背景帧,数据集冗余的问题尤为明显,因此不能高效地进行异常检测模型训练。针对该问题,提出了伪异常选择驱动学习的视频异常检测方法,从原始视频训练数据中迭代选取部分异常分数高的正常视频帧(伪异常帧)来构建新的训练池,用于学习和优化视频异常检测模型。在检测模型方面,设计了基于后继帧预测的双路U-Net骨干网络,以不同采样率的视频段分别作为两个支路的输入,从而从多个粒度上更好地提取和利用视频的时空特征。为了加强典型训练数据对帧预测任务和异常检测的影响,双路U-Net中设计了多层的记忆学习模块。在常用视频异常检测数据集上进行实验,验证了所提方法在检测精度和训练效率上的有效性。
    参考文献 | 相关文章 | 多维度评价
    18. 基于Swin Transformer和三维残差多层融合网络的高光谱图像分类
    王先旺, 周浩, 张明慧, 朱尤伟
    计算机科学    2023, 50 (5): 155-160.   DOI: 10.11896/jsjkx.220400035
    摘要179)      PDF(pc) (4328KB)(326)    收藏
    卷积神经网络(CNNs)具有出色的局部上下文建模能力,被广泛用于高光谱图像分类中,但由于其固有网络主干的局限性,CNNs未能很好地挖掘和表示光谱特征的序列属性。为了解决此问题,提出了一种基于Swin Transformer和三维残差多层融合网络的新型网络(ReSTrans)用于高光谱图像分类。在ReSTrans网络中,为了尽可能地挖掘高光谱图像的深层特征,采用三维残差多层融合网络来提取空谱特征,然后由基于自注意机制的Swin Transformer网络模块近一步捕获连续光谱间的关系,最后由多层感知机根据空谱联合特征完成最终的分类任务。为了验证ReSTrans网络模型的有效性,改进的模型在IP,UP和KSC 3个高光谱数据集上进行实验验证,分类精度分别达到了98.65%,99.64%,99.78%。与SST方法相比,该网络模型的分类性能分别平均提高了3.55%,0.68%,1.87%。实验结果表明该模型具有很好的泛化能力,可以提取更深层的、判别性的特征。
    参考文献 | 相关文章 | 多维度评价
    19. 基于MLUM-Net的高分遥感影像土地利用多分类方法
    胡绍凯, 赫晓慧, 田智慧
    计算机科学    2023, 50 (5): 161-169.   DOI: 10.11896/jsjkx.220300110
    摘要281)      PDF(pc) (5205KB)(259)    收藏
    针对高分辨率遥感影像土地利用多分类结果中地块结构不完整、边界质量差的问题,提出了基于MLUM-Net模型的遥感影像土地利用多分类方法。该方法利用多尺度空洞卷积和通道注意力机制构造MDSPA编码器,提高了网络多尺度特征提取能力与地块位置定位的准确性,并通过空间注意力机制自适应增强了多尺度特征表达;为消除上采样语义损失和减少分类结果噪声,设计了混合池化上采样优化模块,用于优化分类结果并消除网络分类误差;根据土地利用多分类数据集类别占比不均衡的特点和地块结构的相似性指数设计混合损失函数,消除数据类别占比产生的影响,提高地块结构完整性和精细化分类边界。在多个数据集上进行了实验验证,总体精度和kappa指标均有明显提高,其分类结果结构完整且边缘划分准确,在土地利用多分类领域具有较好的实用价值。
    参考文献 | 相关文章 | 多维度评价
    20. 残差学习与循环注意力下的SSD目标检测算法
    贾天豪, 彭力
    计算机科学    2023, 50 (5): 170-176.   DOI: 10.11896/jsjkx.220400085
    摘要212)      PDF(pc) (2244KB)(250)    收藏
    针对Single-Shot Detection的特征金字塔中生成的浅层特征语义信息不足,导致小目标检测性能较差的问题,提出了一种基于残差学习与循环注意力的SSD目标检测算法。首先主干网络采用学习能力更强的Resnet101来提取有效的特征信息;然后通过构建轻量级的单向特征融合块对原特征金字塔中的深特征层与浅特征层特征进行融合,并生成新的特征金字塔,进而丰富用于预测的有效特征层的语义信息;最后提出一种新的空间池化策略,并与残差网络中的跳跃连接相结合构成循环注意力模块,从而引入全局的上下文信息,为局部特征建立全局信息关联。为了解决难易样本数量不平衡的问题,将Focalloss作为回归损失函数。实验结果表明,在PASCAL VOC公共数据集上,该算法的平均检测精度(mAP)为79.7%,较SSD 提高了2.5%。在MS COCO公共数据集上的mAP为30.0%,较SSD 提高了4.9 %。
    参考文献 | 相关文章 | 多维度评价
    21. 基于深度学习的刚体位姿估计方法综述
    郭楠, 李婧源, 任曦
    计算机科学    2023, 50 (2): 178-189.   DOI: 10.11896/jsjkx.211200164
    摘要344)      PDF(pc) (1910KB)(399)    收藏
    刚体位姿估计旨在获取刚体在相机坐标系下的3D平移信息和3D旋转信息,在自动驾驶、机器人、增强现实等快速发展的领域起着重要作用。现对2017-2021年间的基于深度学习的刚体位姿估计方向具有代表性的研究进行汇总与分析。将刚体位姿估计的方法分为基于坐标、基于关键点和基于模板的方法。将刚体位姿估计任务划分为图像预处理、空间映射或特征匹配、位姿恢复和位姿优化4项子任务,详细介绍每一类方法的子任务实现及其优势和存在的问题。分析刚体位姿估计任务面临的挑战,总结现有解决方案及其优缺点。介绍刚体位姿估计常用的数据集和性能评价指标,并对比分析现有方法在常用数据集上的表现。最后从位姿跟踪、类别级位姿估计等多个角度对未来研究方向进行了展望。
    参考文献 | 相关文章 | 多维度评价
    22. 红外和可见光图像融合算法的研究进展
    魏琦, 赵娟
    计算机科学    2023, 50 (2): 190-200.   DOI: 10.11896/jsjkx.220100074
    摘要425)      PDF(pc) (3923KB)(641)    收藏
    红外图像便于识别热源目标,可见光图像包含丰富的纹理信息。红外和可见光的融合图像兼顾了两个波段传感器的优势,可以清楚地显示热源目标及其背景,在军事侦察、安防监控、遥感监测等领域有着广泛的应用,已成为图像融合领域的重点研究方向。近年来,国内外学者对红外和可见光图像融合算法开展了大量研究。文中首先对现有的图像融合算法进行了详细介绍,包括多尺度变换、稀疏表示的传统图像处理方法和基于CNN,GAN,AE这3种常见网络结构的深度学习图像融合算法。接着综述了融合图像的评价方法,对常见的多种客观评价指标进行了归类分析。然后开展对比实验,对各种方法进行了主观评价和定量分析,指出不同方法的优势和不足。最后,对红外和可见光图像融合技术的未来发展趋势进行展望。
    参考文献 | 相关文章 | 多维度评价
    23. 基于改进区域候选网络的场景文本检测
    李俊林, 欧阳智, 杜逆索
    计算机科学    2023, 50 (2): 201-208.   DOI: 10.11896/jsjkx.211000191
    摘要184)      PDF(pc) (2791KB)(232)    收藏
    自然场景中的文本图像具有十分复杂多变的特征,使用区域候选网络(Region Proposal Network,RPN)提取文本矩形位置候选框是不可或缺的一个步骤,能够极大地提升文本检测的精度。然而最近的研究表明,通过最小化平滑的L1损失函数来回归矩形候选框中心点、宽和高的方式容易产生边界信息缺失、回归不准确等问题。针对这一问题,提出了一种基于改进区域候选网络的场景文本检测模型。首先,使用残差网络和特征金字塔网络组成的骨干网络生成共享特征图。然后,使用改进的回归取点方式和基于顶点的VIOU损失函数(Vertex-IOU)在共享特征图上生成系列文本矩形候选框。接着,使用ROI Align将这些候选框转化为固定大小的特征图在全连接层进行边界框预测。最后,在ICDAR2015数据集上进行对比实验,结果表明,与其他模型相比,所提模型可以提升检测精度,证明了所提模型的有效性。
    参考文献 | 相关文章 | 多维度评价
    24. 基于特征融合的小样本目标检测
    华杰, 刘学亮, 赵烨
    计算机科学    2023, 50 (2): 209-213.   DOI: 10.11896/jsjkx.220500153
    摘要384)      PDF(pc) (1654KB)(434)    收藏
    小样本目标检测旨在通过少量的样本学习来训练目标检测模型,现有的小样本目标检测方法大多基于经典的目标检测算法。在二阶段的检测方法中,由于新类别样本数量少,产生了许多无关的边界框,导致候选区域的准确率较低。为了解决这个问题,提出了一种基于特征融合的小样本目标检测算法FF-FSOD。该方法采用特征融合的方法进行数据增强,对新类别样本进行补充,扩大样本的覆盖范围,同时引入FPN网络进行多尺度特征提取,再对RPN网络进行改进,引入支持集图像分支,计算支持集图像特征与查询集图像特征的深度互相关性,得到注意力特征图,进而获得更精确的候选框。所提模型的有效性在MS COCO和FSOD数据集上得到了验证,实验结果表明,该方法获得了更精准的候选框,进而提升了检测精度。
    参考文献 | 相关文章 | 多维度评价
    25. 基于人脸部件掩膜的自监督三维人脸重建
    朱磊, 王善敏, 刘青山
    计算机科学    2023, 50 (2): 214-220.   DOI: 10.11896/jsjkx.220600035
    摘要252)      PDF(pc) (2402KB)(322)    收藏
    三维人脸重建旨在从二维人脸图片中恢复出三维人脸模型。自监督三维人脸重建能够缓解三维人脸数据缺乏的问题,因此成为了近年来的研究热点。现有的自监督方法通常聚焦于使用全局监督信号,对人脸的局部细节关注不足。为了更好地恢复出细节生动的精细化三维人脸,提出了一种基于人脸部件掩膜的精细化三维人脸重建方法,该方法在不需要任何三维人脸标注的情况下,可以重建出精细化三维人脸。其主要思想是在二维图片一致性损失、图片深层感知损失等基本损失函数上,通过人脸部件掩膜,给予人脸区域精细化约束,并对人脸部件掩膜进行自监督约束,从而提高重建的三维人脸局部的准确性。在AFLW2000-3D和MICC Florence数据集上进行了定性以及定量实验,验证了所提方法的有效性和优越性。
    参考文献 | 相关文章 | 多维度评价
    26. 基于TransEditor的轻量化人脸生成方法及其应用规范
    梁伟亮, 李悦, 王棚飞
    计算机科学    2023, 50 (2): 221-230.   DOI: 10.11896/jsjkx.220800166
    摘要197)      PDF(pc) (5267KB)(257)    收藏
    人脸生成可以将人脸的样式和头部的姿态进行组合,合成虚假的人脸图像,常用于性别转换、姿势修改等视觉任务。基于GAN的人脸生成方法大幅度提高了人脸生成的质量和可编辑性,但是这些生成方法网络结构复杂、计算资源需求大,很难直接应用于实际场景中。为了实现高效的人脸生成,提出了一种基于TransEditor的轻量化人脸生成方法,并探讨了相应的应用规范路径。在技术层面,首先,以TransEditor人脸编辑网络模型为基础,参考StyleGAN2等轻量化网络模型的生成器结构,设计了轻量化的人脸生成网络模型。其次,从生成损失、对抗损失、重建损失等方面分析了网络模型的损失函数,提出使用PReLU激活函数代替Softplus激活函数来提高生成器的生成效果。最后,大量实验证明,提出的基于TransEditor的轻量化人脸生成方法的LPIPS仅减少了0.0042,大幅度减少了模型的训练时间和参数量,提高了人脸生成模型的运行效率。在应用规范层面,需完善现有的规制措施,规范所提方法的使用,使技术进步更好地服务于社会发展。
    参考文献 | 相关文章 | 多维度评价
    27. 基于注意力机制和轻量级空洞卷积的混凝土路面裂缝检测
    瞿中, 王彩云
    计算机科学    2023, 50 (2): 231-236.   DOI: 10.11896/jsjkx.211200290
    摘要362)      PDF(pc) (4102KB)(311)    收藏
    混凝土路面上的裂缝会影响结构的安全性、适用性和耐久性,裂缝检测是一个充满挑战的研究热点。文中提出了由改进的全卷积网络和深监督网络组成的裂缝检测模型,以改进的VGG-16作为主干网络,首先将低层卷积特征聚合,通过空间注意力机制再次融合到主干网络;其次,将中高层卷积特征通过轻量级空洞卷积融合模块进行多尺度融合得到具有清晰边缘且分辨率较高的特征图像,所有的侧边特征图像相加产生最终的预测图像;最后,深监督网络为每个阶段的检测结果提供直接监督。该网络选择焦点损失函数作为评价函数,经过训练的网络模型能够在光照不均、背景复杂等各种条件下从输入的原始图像中高效地识别出裂缝位置。为验证所提方法的有效性和鲁棒性,在DeepCrack,CFD,Crack500这3个数据集上与6种方法进行了比较,所提算法表现出卓越的性能,F-score值达到了87.12%。
    参考文献 | 相关文章 | 多维度评价
    28. 基于深度学习的人群异常行为检测综述
    徐涛, 田崇阳, 刘才华
    计算机科学    2021, 48 (9): 125-134.   DOI: 10.11896/jsjkx.201100015
    摘要654)      PDF(pc) (1927KB)(2604)    收藏
    随着安防需求的日益增长,人群异常行为检测已经成为计算机视觉的研究热点。人群异常行为检测旨在对监控视频中行人的行为进行建模和分析,区分出人群中的正常行为和异常行为,及时发现灾难和意外事件。文中对基于深度学习的人群异常行为检测算法进行了梳理总结。首先,针对人群异常行为检测任务及其现状进行介绍;其次,重点探讨卷积神经网络、自编码网络和生成对抗网络在人群异常行为检测任务中的研究进展;然后,列举该领域常用的数据集,并比较和分析了深度学习方法在UCSD行人数据集上的性能;最后,总结人群异常行为检测的任务难点,并对该领域的未来发展趋势进行了展望。
    参考文献 | 相关文章 | 多维度评价
    29. 基于双目视觉的车辆速度测量方法
    常子霆, 施雨晴, 王俊, 于明鹤, 姚兰, 赵志滨
    计算机科学    2021, 48 (9): 135-139.   DOI: 10.11896/jsjkx.201000047
    摘要294)      PDF(pc) (1497KB)(841)    收藏
    为配合高速公路入口处的货车称重工作,需要测量车辆通过称重台时的实时速度。利用双目视觉技术测速具有成本低、部署简单、稳定性高的优点,具有广阔的应用前景。双目视觉测速的技术难点是目标的位移测量,其核心问题是目标在多帧图像间的精准匹配。文中提出了一种基于空间位置的匹配区域对齐算法与基于模板匹配的空间位移计算方法。具体地,利用车轮的空间位置关系来限制车轮的匹配区域,可有效降低相似车轮的误匹配问题;使用模板匹配的方法追踪车轮的关键点,进而获得多帧之间车轮的空间位移。使用某高速公路入口的真实通行视频数据进行实验验证,结果表明,与其他双目测速方法相比,所提方法使得测速结果的RMSE下降了20%~40%,且更加适用于车辆以较快速度(10~20 km/h)通过高速公路入口测速点的实际场景。
    参考文献 | 相关文章 | 多维度评价
    30. 基于边缘特征融合的高分影像建筑物目标检测
    赫晓慧, 邱芳冰, 程淅杰, 田智慧, 周广胜
    计算机科学    2021, 48 (9): 140-145.   DOI: 10.11896/jsjkx.200800002
    摘要488)      PDF(pc) (3703KB)(831)    收藏
    高分辨率遥感图像建筑物目标检测在国土规划、地理监测、智慧城市等领域有着广泛的应用价值,但是由于遥感图像背景复杂,建筑物目标的部分细节特征与背景区分度较低,在进行检测任务时,容易出现建筑物轮廓失真、缺失等问题。针对这一问题,设计了自适应加权边缘特征融合网络(VAF-Net)。该方法针对遥感图像建筑物检测任务,对经典编解码器网络U-Net进行拓展,通过融合RGB特征图和边缘特征图,弥补了基础网络学习中的细节特征缺失;同时,借助网络的学习自动更新融合权重,实现自适应加权融合,充分利用不同特征的互补信息。该方法在Massachusetts Buildings数据集上进行了实验,其准确率、召回率和F1-score分别达到了82.1%,82.5%和82.3%,综合指标F1-score相比于基础网络提升了约6%。VAF-Net有效提高了编解码器网络对于高分影像建筑物目标检测任务的表现性能,具有良好的实用价值。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共2页 共52条记录