1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    计算机图形学&多媒体 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于图神经网络的乳腺癌病理图像分析方法综述
    陈思硕, 王晓东, 刘西洋
    计算机科学    2024, 51 (6): 172-185.   DOI: 10.11896/jsjkx.230400106
    摘要68)      PDF(pc) (3672KB)(153)    收藏
    病理诊断是癌症诊断和治疗过程中的金标准,利用人工智能模型对癌症病理图像进行自动分析不仅可以减轻病理学家的工作负担,还可以提高诊断结果的准确性。然而,病理图像的大尺度特点以及对预测结果可解释性的高要求为人工智能模型带来了巨大的挑战。在近年来的研究中,图神经网络在建模图像中实体的空间上下文关系及可解释性方面都展现出了强大的能力,为数字病理的研究提供了新的思路。文中回顾了近年来计算机视觉领域的相关工作,分析了图神经网络在乳腺癌病理图像分析中的优势,分类和比较了现有的面向乳腺癌病理图像的图构建方法,分析和对比了乳腺癌病理图像分析中的图神经网络模型,整理了近年来的研究中常用的工具包与公开数据集,总结了基于图神经网络的乳腺癌病理图像分析研究中存在的挑战并对未来的研究方向进行了展望。
    参考文献 | 相关文章 | 多维度评价
    2. 异质虹膜识别研究综述
    孔佳琳, 张琪, 王财勇
    计算机科学    2024, 51 (6): 186-197.   DOI: 10.11896/jsjkx.231200175
    摘要39)      PDF(pc) (4603KB)(115)    收藏
    虹膜图像采集环境和设备的不同导致虹膜注册和识别样本差异较大,给传统的虹膜识别技术带来了挑战。异质虹膜识别问题已成为学术界和工业界关注的焦点。文中从不同层级、样本差异性以及单源和多源3个角度对现有的异质虹膜识别方法进行了分类和综述,总结了目前异质虹膜识别的最新进展。按照跨质量、跨设备和跨光谱的分类对现有的异质虹膜数据集进行综述,并总结概述虹膜识别评价指标,以便研究人员更好地评估和验证算法的性能。最后,从环境鲁棒性、数据异质性建模和多模态融合3个方向,对未来异质虹膜识别研究的发展方向进行了展望。
    参考文献 | 相关文章 | 多维度评价
    3. 基于对比学习的视觉增强多模态命名实体识别
    于碧辉, 谭淑月, 魏靖烜, 孙林壮, 卜立平, 赵艺曼
    计算机科学    2024, 51 (6): 198-205.   DOI: 10.11896/jsjkx.230400052
    摘要38)      PDF(pc) (3102KB)(123)    收藏
    多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由于文本和图像的表示来自不同的编码器,很难弥合两种模态之间的语义鸿沟,因此,提出了一个基于对比学习的视觉增强多模态命名实体识别模型(MCLAug)。首先,使用ResNet收集图像特征,在此基础上提出金字塔双向融合策略,将低层次高分辨率和高层次强语义的图像信息结合起来,以增强视觉特征。其次,利用CLIP 模型中的多模态对比学习思想,计算并最小化对比损失,使两种模态的表示更加一致。最后,利用跨模态注意力机制和门控融合机制获得融合后的图像和文本表示,并通过CRF解码器来执行MNER任务。在两个公开数据集上进行了对比实验并进行消融研究和案例研究,结果证明了所提模型的有效性。
    参考文献 | 相关文章 | 多维度评价
    4. 基于加权有界形变函数的可形变图像配准模型
    闵莉花, 丁田中, 金正猛
    计算机科学    2024, 51 (6): 206-214.   DOI: 10.11896/jsjkx.230400090
    摘要30)      PDF(pc) (4146KB)(112)    收藏
    可形变图像配准是图像处理领域中一个非常重要的课题,是计算机视觉中最基本的问题之一,也是医学图像分析的一个难题。文中研究了两幅单模态灰度图像之间的图像配准问题,充分考虑了参考图像的边缘信息,提出了一个新的基于加权有界形变函数的可形变图像配准模型。首次提出了加权的有界形变函数空间,给出了该空间的定义及相关结论,并从理论上证明了所提模型解的存在性。同时,利用梯度下降法设计了有效的算法进行数值求解,分别在合成图像和医学图像上进行数值实验。实验结果和定量评估结果表明,与对比模型相比,所提模型由于引入了控制函数且将加权有界形变函数作为正则项,得到了更精确的配准结果,特别是在图像边缘及一些细节处配准效果有明显提高。
    参考文献 | 相关文章 | 多维度评价
    5. 基于BEV占位预测的激光-毫米波雷达融合目标检测算法
    李越豪, 王邓江, 鉴海防, 王洪昌, 程清华
    计算机科学    2024, 51 (6): 215-222.   DOI: 10.11896/jsjkx.230500085
    摘要28)      PDF(pc) (3080KB)(121)    收藏
    激光雷达工作环境中的光束衰减和目标遮挡会导致输出点云出现远端稀疏的问题,从而引起基于激光雷达的3D目标检测算法的检测精度随距离衰减的现象。针对这一问题,提出了一种基于鸟瞰图视角(BEV)空间内目标占位预测的激光-毫米波雷达融合目标检测算法。首先提出了一种简化的BEV占位预测子网络,用于生成位置相关的毫米波雷达特征,同时有助于解决毫米波雷达数据稀疏带来的网络收敛困难的问题。然后,为了实现跨模态特征融合,设计了一种基于BEV空间特征关联的多尺度激光-毫米波雷达特征融合层结构。在nuScenes数据集上进行实验,结果表明,所提出的毫米波雷达分支网络的平均检测精度(mAP)达到21.6%,推理时间为8.3ms。在加入融合层结构后,多模态检测算法较基线算法CenterPoint的mAP提升了2.9%,同时增加的额外推理时间开销仅为8.6ms,在距离传感器30m位置处,多模态算法对于nuScenes数据集中10个类别的检测精度达成率分别较CenterPoint提升了2.1%~16.0%。
    参考文献 | 相关文章 | 多维度评价
    6. 基于自适应光子和分层色散图的实时色散渲染方法
    罗元孟, 张军
    计算机科学    2024, 51 (6): 223-230.   DOI: 10.11896/jsjkx.230300097
    摘要26)      PDF(pc) (3764KB)(111)    收藏
    焦散是光线经过反射或折射后汇集形成的高亮区域现象,色散是由于折射焦散中不同波长的单色光折射率差异而出现的彩色光谱现象,是渲染逼真半透明物体时复杂和耗时的光照计算步骤。在渲染色散时,现有光线追踪技术必须依赖高端GPU硬件才能实现实时渲染。基于图像空间的焦散图技术,文中提出一种简洁、高效的实时色散渲染方法。提出了采样7个单色光并自适应调整7色光子尺寸的方法,用于近似整条色散光谱的渲染;并提出了分层色散图策略,避免了光子光栅化尺寸的增加,提高了渲染效率。实验结果表明,所提方法在个人电脑上可做到实时渲染,以离散采样光谱的7个单色光模拟了整条连续光谱,减少了渲染的计算量和存储量,并且改善了基于图像空间技术的噪点问题。
    参考文献 | 相关文章 | 多维度评价
    7. 融合Transformer与多阶段学习框架的点云上采样网络
    李泽锴, 柏正尧, 肖霄, 张奕涵, 尤逸琳
    计算机科学    2024, 51 (6): 231-238.   DOI: 10.11896/jsjkx.230300154
    摘要26)      PDF(pc) (3989KB)(120)    收藏
    借鉴Transformer在自然语言和计算机视觉领域强大的特征编码能力,同时受多阶段学习框架的启发,设计了一种融合Transformer与多阶段学习框架的点云上采样网络——MSPUiT。该网络采用二阶段网络模型,第一阶段是密集点生成网络,利用多层Transformer编码器逐步实现从输入点云的局部几何信息、局部特征信息到点云高级语义特征的转换,特征扩充模块在特征空间中,对点云特征上采样,坐标回归模块将点云从特征空间重新映射回欧氏空间中初步生成密集点云M′;第二阶段是逐点优化网络,使用Transformer编码器对密集点云M′中潜藏的语义特征进行编码,联合上一阶段语义特征得到点云完整的语义特征,特征精炼单元从M′的几何信息和语义特征中提取点的误差信息特征,误差回归模块从误差信息特征中计算得到欧氏空间中点的坐标偏移量,实现对点云M′的逐点优化,使得点云上点的分布更加均匀,并且更加贴近真实物体表面。在大型合成数据集PU1K上进行了大量实验,MSPUiT生成的高分辨率点云在倒角距离(CD)、豪斯多夫距离(HD)、生成点云到原始点云块的距离(P2F)上的指标分别降至0.501×10-3,5.958×10-3,1.756×10-3。实验结果表明,MSPUiT上采样后的点云表面更加光滑,噪声点更少,生成的点云质量高于当前主流的点云上采样网络。
    参考文献 | 相关文章 | 多维度评价
    8. 多粒度空间注意力与空间先验监督的DETR
    廖峻霜, 谭钦红
    计算机科学    2024, 51 (6): 239-246.   DOI: 10.11896/jsjkx.230300218
    摘要24)      PDF(pc) (3890KB)(102)    收藏
    近年来,Transformer在视觉领域的表现卓越,由于其优秀的全局建模能力以及可媲美CNN的性能表现受到了广泛关注。DETR(Detection Transformer)是在其基础上研究的首个在目标检测任务上采用Transformer架构的端到端网络,但是其全局范围内的等价建模以及目标查询键的无差别性导致其训练收敛缓慢,且性能表现欠佳。针对上述问题,利用多粒度的注意力机制替换DETR的encoder中的自注意力以及decoder中的交叉注意力,在距离近的token之间使用细粒度,在距离远的token之间使用粗粒度,增强其建模能力;并在decoder中的交叉注意力中引入空间先验限制对网络训练进行监督,使其训练收敛速度得以加快。实验结果表明,在引入多粒度的注意力机制和空间先验监督后,相较于未改进的DETR,所提改进模型在PASCAL VOC2012数据集上的识别准确度提升了16%,收敛速度快了2倍。
    参考文献 | 相关文章 | 多维度评价
    9. 基于眼部特征频域信息的早期疲劳检测
    火星星, 胡瑞敏, 李怡欣
    计算机科学    2024, 51 (6): 247-255.   DOI: 10.11896/jsjkx.230300033
    摘要33)      PDF(pc) (2548KB)(110)    收藏
    行李X光安检员工作疲劳是造成错检、漏检的重要原因。目前疲劳检测的方法主要通过发现打哈欠、打瞌睡和长时间闭眼等明显的迹象来检测中晚期疲劳,然而对于安检工作人员来说,出现这样明确的标志时,可能已经发生了安检事故,此时再进行疲劳检测为时已晚。因此,在早期阶段发现疲劳,并对疲劳的发生及时预警是非常有价值的。由于早期疲劳会有细微的面部表现特性,时域参数的不可逆性导致其无法完全表示。为了解决此问题,提出了一种基于眼部特征频域信息的行李X光安检员早期疲劳检测方法,将原始时域信息转换到表达能力更强的频域特征空间。该方法首先通过面部检测算法获取眼部横纵比(Eye Aspect Ratio,EAR)时间序列;然后利用频域特征提取方法得到频域特征序列,来表示更加细微的特征;最后利用分层多尺度网络HM-LSTM进行训练及验证。在公开数据集UTA-RLDD上的对比实验结果表明,所提方法对早期疲劳的识别率提升了2%,证明了频域特征比时域特征有更好的表达能力。
    参考文献 | 相关文章 | 多维度评价
    10. 一种基于特征增强的场景文本检测算法
    高楠, 张雷, 梁荣华, 陈朋, 付政
    计算机科学    2024, 51 (6): 256-263.   DOI: 10.11896/jsjkx.230500230
    摘要26)      PDF(pc) (3563KB)(123)    收藏
    针对自然场景下图像文本复杂背景、尺度多变等造成的漏检、误检问题,提出了一种基于特征增强的场景文本检测算法。在特征金字塔融合阶段,提出了双域注意力特征融合模块(Dual-domain Attention Feature Fusion Module,D2AAFM)。该模块能够更好地融合不同语义和尺度的特征图信息,从而提高文本信息的表征能力。同时,考虑到网络深层特征图在上采样融合过程中出现语义信息损失的问题,提出了多尺度空间感知模块(Multi-scale Spatial Perception Module,MSPM),通过扩大感受野来获取更大感受野的上下文信息,增强深层特征图的文本语义信息特征,从而有效地减少文本漏检、误检。为了评估所提算法的有效性,在公开数据集ICDAR2015,CTW1500以及MSRA-TD500上进行实验,所提方法综合指标F值分别达到了82.8%,83.4%和85.3%。实验结果表明,该算法在不同数据集上都具有良好的检测能力。
    参考文献 | 相关文章 | 多维度评价
    11. 基于改进Swin Transformer的中心点目标检测算法
    刘家森, 黄俊
    计算机科学    2024, 51 (6): 264-271.   DOI: 10.11896/jsjkx.230300222
    摘要27)      PDF(pc) (4018KB)(124)    收藏
    针对Swin Transformer在提取局部特征信息和特征表达能力上存在的不足,提出了一种基于改进Swin Transformer的中心点目标检测算法,以提高其在目标检测方面的性能。通过调整网络结构和引入反卷积模块来增强网络对局部特征信息的提取能力,利用自适应二维高斯核和回归头模块检测目标中心点来增强特征表达能力,并在Swin Transformer block模块中加入dropout激活函数,以缓解网络过拟合问题。在Pascal VOC和MS COCO 2017数据集上分别对改进后的算法进行验证,实验结果表明,改进后的Swin Transformer算法在Pascal VOC数据集上的精确度达到了81.1%,在MS COCO数据集上的精确度达到了37.2%,明显优于其他主流目标检测算法。
    参考文献 | 相关文章 | 多维度评价
    12. 基于深度学习的图像分割综述
    黄雯珂, 滕飞, 王子丹, 冯力
    计算机科学    2024, 51 (2): 107-116.   DOI: 10.11896/jsjkx.230900002
    摘要194)      PDF(pc) (1716KB)(2043)    收藏
    图像分割是计算机视觉中的一项基本任务,其主要目的是从图像输入中提取有意义和连贯的区域。多年来,图像分割领域已经开发出了各种各样的技术,包括基于传统方法,以及利用卷积神经网络的最新图像分割技术。随着深度学习的发展,更多的深度学习算法也被应用到图像分割任务中。特别地,近两年学者对深度学习的兴趣高涨,涌现了许多应用于图像分割任务的深度学习算法。然而大部分新的算法还没有被归纳分析,这将不利于后续研究的进行。文中对近两年发表的基于深度学习的图像分割研究进行了全面回顾。首先对图像分割的常用数据集进行简要介绍,然后阐明了基于深度学习的图像分割的新分类,最后讨论了现有的挑战并对今后的研究方向进行了展望。
    参考文献 | 相关文章 | 多维度评价
    13. 无监督单目深度估计研究综述
    蔡嘉诚, 董方敏, 孙水发, 汤永恒
    计算机科学    2024, 51 (2): 117-134.   DOI: 10.11896/jsjkx.230400197
    摘要201)      PDF(pc) (3783KB)(1847)    收藏
    深度估计作为三维重建、自动驾驶和视觉SLAM等领域中的关键环节,一直是计算机视觉领域研究的热点方向,其中无监督学习的单目深度估计技术由于具有方便部署、计算成本低等优点,受到了学术界和工业界的广泛关注。首先梳理了深度估计的基本知识及研究现状,简要介绍了基于参数学习、基于非参数学习、基于有监督学习、基于半监督学习和基于无监督学习的深度估计的优势与不足;其次全面总结了基于无监督学习的单目深度估计研究进展,按照结合可解释性掩膜、结合视觉里程计、结合先验辅助信息、结合生成式对抗网络和实时轻量级网络这五大类对无监督学习的单目深度估计进行归纳和总结,对典型的框架模型进行了介绍和分析;然后,介绍了基于无监督学习的单目深度估计在医学、自动驾驶、农业、军事等领域的应用;最后,简单介绍了用于无监督深度估计的常用数据集,提出了基于无监督学习的单目深度估计未来研究方向,并对这个快速发展领域中的各方向研究进行了展望。
    参考文献 | 相关文章 | 多维度评价
    14. 基于自注意力机制和多尺度输入输出的医学图像分割算法
    丁天舒, 陈媛媛
    计算机科学    2024, 51 (2): 135-141.   DOI: 10.11896/jsjkx.221100260
    摘要189)      PDF(pc) (2429KB)(1899)    收藏
    更精细化的糖尿病性视网膜病变眼底图像分割结果,可以更好地辅助医生进行诊断。大规模高分辨率的分割数据集的出现,为更精细化的分割提供了有利条件。基于U-Net的主流分割网络,使用基于局部运算的卷积操作进行像素预测时无法充分挖掘全局信息,网络模型采用单输入单输出的结构,难以获取多尺度特征信息。为了最大程度地利用现有的大规模高分辨率的眼底图像病灶分割数据集,实现更精细化的分割,需要设计更好的分割方法。文中基于自注意力机制和多尺度输入输出结构对U-Net进行改造,提出了一种新的分割网络SAM-Net,用自注意力模块代替传统卷积模块,增大网络获取全局信息的能力,引入多尺度输入和多尺度输出结构,使网络更容易获取多尺度特征信息。使用图片切片方法来缩小模型的输入尺寸,防止神经网络模型因为输入图片像素过大而导致训练难度增大。最终在IDRiD数据集和FGADR数据集上进行实验,结果表明,SAM-Net可以达到比其他方法更优的性能。
    参考文献 | 相关文章 | 多维度评价
    15. 结合注意力机制的多重引导点云配准网络
    刘旭珩, 柏正尧, 许祝, 杜佳锦, 肖霄
    计算机科学    2024, 51 (2): 142-150.   DOI: 10.11896/jsjkx.230200073
    摘要102)      PDF(pc) (3185KB)(1751)    收藏
    针对点云配准过程中仅仅利用点云特征寻求对应关系使得离群点多、配准精度不高的问题进行研究,提出了一种使用点云之间匹配点概率矩阵和点云空间信息特征矩阵共同搜寻对应关系,并且相互配合确定对应点权重的点云配准网络——AMGNet。首先使用点云特征提取网络获得两片待配准点云的高维特征;然后采用Transformer对独立特征进行上下文信息融合,之后利用关键点提取模块选取出特征更强的点,使用SoftBBS方法获得点云匹配点概率矩阵后,结合点云空间特征矩阵搜索到最终的对应关系,同时,权重分配也使用了双重矩阵共同决定的策略;最后使用奇异值分解获得需要的刚性变换矩阵。在ModelNet40,7Scenes等人工合成数据集和真实场景数据集上进行了多次实验。结果表明,在ModelNet40目标未知实验中的旋转矩阵和平移向量的均方误差分别降低至0.025和0.004 6。AMGNet配准精度较高,抗干扰能力强,泛化能力强。
    参考文献 | 相关文章 | 多维度评价
    16. 基于扩张卷积条件生成对抗网络的红外小目标检测
    张国栋, 陈志华, 盛斌
    计算机科学    2024, 51 (2): 151-160.   DOI: 10.11896/jsjkx.221200045
    摘要147)      PDF(pc) (4901KB)(1788)    收藏
    基于深度神经网络的目标检测方法凭借自身强大的建模能力,在通用目标检测任务中取得了良好的表现。然而,在红外小目标信号弱、像素小的本质特征的影响下,深度神经网络层次的加深和池化操作的大量使用导致小目标语义信息丢失,使得现有方法的检测效果并不理想。文中从红外小目标特性这一关键问题出发,提出了一种新颖的基于扩张卷积条件生成对抗网络的目标检测算法。所提方法应用扩张卷积设计了生成网络,充分利用上下文信息建立层与层之间的关联,将红外小目标更多的语义信息保留到深层网络中,增强目标特征,进而提高检测性能。此外,设计了融合通道与空间维度的混合注意力模块,在特征提取时有选择性地放大目标信息,抑制背景信息;设计了自注意关联模块处理层与层之间信息融合过程中产生的语义冲突问题。文中使用多种评价指标将所提网络模型与目前先进的其他红外小目标检测方法进行对比,证明了该方法在复杂背景下目标检测性能的优越性。在公开的SIRST数据集上,所提模型的F分数为64.70%,相比传统方法提高了8.29%,相比深度学习方法提高了7.29%;在公开的ISOS数据集上,所提模型的F分数为64.54%,相比传统方法提高了23.59%,相比深度学习方法提高了6.58%。
    参考文献 | 相关文章 | 多维度评价
    17. 基于层次化Conformer的语音合成
    吴克伟, 韩超, 孙永宣, 彭梦昊, 谢昭
    计算机科学    2024, 51 (2): 161-171.   DOI: 10.11896/jsjkx.221100125
    摘要69)      PDF(pc) (5383KB)(1798)    收藏
    语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。
    参考文献 | 相关文章 | 多维度评价
    18. 基于全局与局部特征的二阶段文档图像可见水印去除模型
    赵江锋, 和红杰, 陈帆, 杨树斌
    计算机科学    2024, 51 (2): 172-181.   DOI: 10.11896/jsjkx.230600144
    摘要135)      PDF(pc) (6094KB)(1790)    收藏
    可见水印是一种常用的数字图像版权保护手段。分析可见水印去除结果可以验证图像上水印的有效性,并为水印设计者提供设计或添加水印的参考和启发。目前,大多数的水印去除方法都是基于自然图像的研究,而文档图像在生活中也被广泛使用,但由于缺乏公开的文档图像去水印数据集,相关文档图像的水印去除研究较少。为了探究水印去除方法在文档图像上的水印去除效果,构建了一个文档图像水印去除数据集(SDIWRD)。在对文档图像可见水印去除的研究中发现,使用已有的水印去除方法得到的水印去除结果中容易留下水印主体伪影或者轮廓伪影。为了解决这个问题,提出了一种基于全局与局部特征的二阶段文档图像可见水印去除模型(RWRNet),该模型采用由粗到细的二阶段的半实例归一化编解码器架构。在粗略阶段,使用全局与局部特征提取模块增强对全局空间特征的捕捉能力,同时保留对局部细节信息的提取能力,从而帮助进行水印去除;在细化阶段,细化网络共享粗略阶段权重,并构建循环特征融合模块来充分挖掘粗略阶段编解码器的重要特征,为细化阶段提供丰富的上下文信息,帮助进行细致的水印去除。此外,还结合了结构相似性损失来帮助获取更好的视觉质量。所提方法在SDIWRD数据集上进行了实验,实验结果显示PSNR达到了41.21 dB,SSIM达到了99.07%,RMSE降低至3.64,优于现有水印去除方法。另外也在公开的CLWD彩色水印去除数据集进行了实验,实验结果显示PNSR达到了39.31 dB,SSIM达到98.81%,RMSE降低至3.50,也优于现有水印去除方法。实验结果证明了所提方法具有良好的泛化性和去水印的能力,能有效减轻水印伪影。最后还提出了一些防止水印去除的建议,在相关网站1)可公开访问所提出的方法和数据集。
    参考文献 | 相关文章 | 多维度评价
    19. 基于点云轨迹和压缩多普勒的跨场景手势识别
    张宏旺, 周瑞, 程宇, 刘辰旭
    计算机科学    2024, 51 (2): 182-188.   DOI: 10.11896/jsjkx.230400184
    摘要90)      PDF(pc) (2510KB)(1766)    收藏
    毫米波雷达能够用于各种感知任务,如活动识别、手势识别、心率感知等。手势识别作为其中的研究热点,可实现无接触人机交互。目前大多数手势识别研究使用点云或距离多普勒图通过神经网络进行识别感知,但是这些方法存在一些问题。首先,这些方法鲁棒性较差,被感知人员或其位置发生变化都会影响接收到的毫米波信号,降低感知精度。其次,这些方法将完整的距离多普勒图输入神经网络进行识别,由于图中存在较多与感知任务无关的区域,模型复杂且难以专注于感知任务。为解决这些问题,首先从连续多帧点云数据中建立手势轨迹,然后将连续多帧距离多普勒图进行局部切割并压缩获得二维局部多普勒图,最后将点云轨迹和二维局部多普勒图分别经过神经网络特征提取后,对特征进行拼接,通过全连接神经网络进行分类。实验结果表明,所提方法专注于手势,能够达到98%的识别准确率,在人员变化和位置变化情况下对新用户和在新位置的识别准确率分别能够达到93%和92%,高于现有方法。
    参考文献 | 相关文章 | 多维度评价
    20. LNG-Transformer:基于多尺度信息交互的图像分类网络
    王文杰, 杨燕, 敬丽丽, 王杰, 刘言
    计算机科学    2024, 51 (2): 189-195.   DOI: 10.11896/jsjkx.221100218
    摘要146)      PDF(pc) (2444KB)(1777)    收藏
    鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention的广泛应用。文中提出了一种有效的、可扩展的注意力模块Local Neighbor Global Self-Attention(LNG-SA),该模块在任意时期都能进行局部信息、邻居信息和全局信息的交互。通过重复级联LNG-SA模块,设计了一个全新的网络,称为LNG-Transformer。该网络整体采用层次化结构,具有优秀的灵活性,其计算复杂度与图像分辨率呈线性关系。LNG-SA模块的特性使得LNG-Transformer即使在早期的高分辨率阶段,也可以进行局部信息、邻居信息和全局信息的交互,从而带来更高的效率、更强的学习能力。实验结果表明,LNG-Transformer在图像分类任务中具有良好的性能。
    参考文献 | 相关文章 | 多维度评价
    21. 基于Depth-wise卷积和视觉Transformer的图像分类模型
    张峰, 黄仕鑫, 花强, 董春茹
    计算机科学    2024, 51 (2): 196-204.   DOI: 10.11896/jsjkx.221100234
    摘要85)      PDF(pc) (3194KB)(1812)    收藏
    图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。
    参考文献 | 相关文章 | 多维度评价
    22. 基于递归门控卷积的遥感图像超分辨率研究
    刘长新, 吴宁, 胡俐蕊, 高霸, 高学山
    计算机科学    2024, 51 (2): 205-216.   DOI: 10.11896/jsjkx.230800017
    摘要101)      PDF(pc) (4547KB)(1778)    收藏
    由于受到硬件条件的限制,通常难以获得具有高分辨率(HR)的遥感图像。利用单幅图像超分辨率(SISR)技术对低分辨率(LR)遥感图像进行超分辨率重建是获取高分辨率遥感图像的常用方法。近年来,在图像超分辨率领域引入的卷积神经网络(CNN)改进了图像重建性能。然而,现有的基于CNN的超分辨率模型通常使用低阶注意力机制提取深层特征,其表征能力有待提高,且常规卷积的感受野有限,缺乏对远距离依赖关系的学习。为了解决以上问题,提出了一种基于递归门控卷积的遥感图像超分辨率方法RGCSR。该方法引入递归门控卷积gnConv学习全局依赖和局部细节,通过高阶空间交互来获取高阶特征。首先,使用由高阶交互子模块(HorBlock)和前馈神经网络(FFN)组成的高阶交互——前馈神经网络模块(HFB)提取高阶特征。其次,利用由通道注意力(CA)和gnConv构建的特征优化模块(FOB)优化各个中间模块的输出特征。最后,在多个数据集上的对比结果表明,RGCSR比现有的基于CNN的超分辨率方法具备更好的重建性能和视觉效果。
    参考文献 | 相关文章 | 多维度评价
    23. 基于深度学习的图像数据增强研究综述
    孙书魁, 范菁, 孙中强, 曲金帅, 代婷婷
    计算机科学    2024, 51 (1): 150-167.   DOI: 10.11896/jsjkx.230500103
    摘要325)      PDF(pc) (3382KB)(1787)    收藏
    近年来,深度学习在图像分类、目标检测、图像分割等诸多计算机视觉任务中都取得了出色的性能表现。深度神经网络通常依靠大量的训练数据来避免过拟合,因此,出色的性能背后离不开海量图像数据的支持。但在很多实际应用场景中,通常很难获取到足够的图像数据,并且数据的收集也是昂贵且耗时的。图像数据增强的出现很好地缓解了数据不足的问题,作为增加训练数量、提升数据质量和多样性的有效途径,数据增强已成为深度学习模型在图像数据上成功应用的必要组成部分,理解现有算法有助于选择适合的方法以及开发新算法。文中阐述了图像数据增强的研究动机,对众多的数据增强算法进行了系统分类,详细分析了每一类数据增强算法;随后指出数据增强算法设计时的一些注意事项及其应用范围,并通过3种计算机视觉任务证明了数据增强的有效性;最后总结全文并对数据增强未来的研究方向进行展望。
    参考文献 | 相关文章 | 多维度评价
    24. 面向多视角对比学习和语义增强的多模态预训练方法
    汤嘉, 郭燕, 叶名玮, 吴桂兴
    计算机科学    2024, 51 (1): 168-174.   DOI: 10.11896/jsjkx.230700084
    摘要130)      PDF(pc) (2765KB)(1663)    收藏
    视觉语言预训练(VLP)模型通过对比学习等方法,在多模态任务上表现出了优异的性能。然而现有研究忽视了多视角描述带来的好处,以及语义和语法的重要性。为了解决这一问题,文中提出了多视角对比学习和语义增强多模态预训练(Multi-view learning and Semantic Enhancement for Multimodal pre-training,MulSE)模型。MulSE主要分为3个部分:1)在融合编码器模型中,引入带有生成器的多视角对比学习;2)提出了一种新的自监督视觉语言预训练任务——多模态文本重排序;3)增加并探寻最优MLM掩码比例,最大化利用视觉信息的能力。通过改进预训练任务,采取多种最优策略,并通过实验验证MulSE增强了模态内部和模态间的理解能力以及对文本语法和语义的理解能力。预训练仅用4×106的数据量,在图文检索任务中就达到了先前大型数据集的效果,且其在视觉问答和视觉蕴含任务上的评估效果优于先前的理解式VLP模型。
    参考文献 | 相关文章 | 多维度评价
    25. 一种多深度特征连接的红外弱小目标检测方法
    王维佳, 熊文卓, 朱圣杰, 宋策, 孙翯, 宋玉龙
    计算机科学    2024, 51 (1): 175-183.   DOI: 10.11896/jsjkx.230200037
    摘要250)      PDF(pc) (4105KB)(1573)    收藏
    针对红外弱小目标像元数量少、图像背景复杂、检测精度低且耗时较长的问题,文中提出了一种多深度特征连接的红外弱小目标检测模型(MFCNet)。首先,提出了多深度交叉连接主干形式以增加不同层间的特征传递,增强特征提取能力;其次,设计了注意力引导的金字塔结构对深层特征进行目标增强,分离背景与目标;提出非对称融合解码结构加强解码中纹理信息与位置信息保留;最后,引入点回归损失得到中心坐标。所提网络模型在SIRST公开数据集与自建长波红外弱小目标数据集上进行训练并测试,实验结果表明,与现有数据驱动和模型驱动算法相比,所提算法在复杂场景下具有更高的检测精度及更快的速度,模型的平均精度相比次优模型提升了5.41%,检测速度达到100.8 FPS。
    参考文献 | 相关文章 | 多维度评价
    26. 基于加权损失的点云占用图视频上采样
    陈航, 李礼, 刘东, 李厚强
    计算机科学    2024, 51 (1): 184-189.   DOI: 10.11896/jsjkx.230600161
    摘要158)      PDF(pc) (2326KB)(1513)    收藏
    基于视频的点云压缩标准(Video-based Point Cloud Compression,V-PCC)中,3D点云会被分成数百个块并投影到2D平面中,形成记录点云纹理信息的纹理视频和记录点云空间信息的几何视频。同时,还需要生成一个占用图视频(Occupancy Map Video),以记录纹理视频和几何视频中每一个像素点是否对应重建点云中的某个点。因此,占用图视频质量与重建点云质量直接相关。为了节约编码比特数,占用图视频在编码端会先被下采样,然后在解码端通过简单的上采样恢复到原分辨率。文中的基本思路是引入深度学习来代替V-PCC中的简单上采样方法,使得上采样后的占用图视频质量更高,从而提高点云的重建质量。在网络训练阶段提出使用加权损失函数,使得在重建点云时能尽可能少地移除正常点并尽可能多地移除噪声点。实验结果证明,所提方法可以大幅提升V-PCC的主客观性能。
    参考文献 | 相关文章 | 多维度评价
    27. 雨滴实地拍摄基准图像数据集及评估
    陈天一, 薛文, 全宇晖, 许勇
    计算机科学    2024, 51 (1): 190-197.   DOI: 10.11896/jsjkx.230500125
    摘要205)      PDF(pc) (4328KB)(1594)    收藏
    在雨天透过玻璃窗拍摄时,附着在玻璃表面的雨滴通常会出现在图像中,这不仅降低了图像的可见度,还会使许多计算视觉算法无法正常工作。图像雨滴去除研究,是指从这类雨天图像中去除雨滴的具体科研研究。该研究领域面临着很大的挑战,主要原因是自然界中的雨滴形态多种多样、各不相同,不同透明度的雨滴也会影响背景图像的成像质量,从而增加了识别并去除雨滴的困难度,对去雨滴算法的性能提升造成了负面影响。为了方便研究者全面了解该领域,将从以下两个方面详尽介绍单幅图像去雨滴研究:单幅图像去雨滴算法和单幅图像联合去雨算法;同时也对该领域的所有算法进行了总结与评估。在基于深度学习的方法中,算法的性能往往受限于数据集的质量,但现有的雨滴数据集中均存在雨滴图像质量不高、图像数量不足等常见情况。为此,建立了雨滴实地拍摄基准图像数据集(HEMC),在拍摄过程中,尽量避免相机抖动、窗户反射和其他外界条件的干扰,从而提高了数据集中训练集的图像质量和测试集的精准度,进而间接提升了算法性能。同时,利用主观视觉效果以及客观指标对数据集进行了多方面的评估,实验结果展现了HEMC数据集中图像的多样性以及客观指标的稳定性。此外,通过对雨滴数据集间的交叉验证,证实了HEMC数据集在已有去雨滴算法中的通用性与稳定性。
    参考文献 | 相关文章 | 多维度评价
    28. 基于生成对抗门控卷积网络的文档图像印章消除
    伍贵宾, 杨宗元, 熊永平, 张兴, 王伟
    计算机科学    2024, 51 (1): 198-206.   DOI: 10.11896/jsjkx.230500232
    摘要292)      PDF(pc) (4303KB)(1603)    收藏
    发票和文档上的印章严重影响文字识别的准确率,因此印章消除技术在文档识别和文档增强的预处理过程中发挥着重要作用。然而,现有的阈值分割方法和基于深度学习的方法存在印章消除不全以及会修改背景像素等问题。文中提出了一个两阶段式印章消除网络SealErase。第一阶段是一个用于生成包含印章位置信息的二值化掩膜的U型分割网络,第二阶段是一个用于进行精细化印章消除的修复网络。由于目前缺乏公开的用于印章消除的成对数据集,现有的方法无法设计像素级的评价指标来衡量生成图像的质量。并且,利用配对的训练集训练神经网络可以有效提高网络的性能。为此,文中兼顾真实场景的泛化性以及对噪声的鲁棒性构建了一个包含8 000个样本的高仿真的印章消除数据集。其中的印章分为两种:真实文档图像中的印章和合成的印章。为了客观地评价SealErase的性能,文中设计了基于图像生成质量和被印章遮盖的字符识别准确率的综合评价指标用于评估SealErase网络的消除性能。在构建的印章消除数据集上对比了现有的印章消除模型,实验结果表明,SealErase网络在图像生成质量的评价指标中的峰值信噪比相比最先进的方法提升了26.79%,平均结构相似性指标提升了4.48%。经过SealErase网络进行印章消除后,被印章遮盖的字符识别准确率提高了38.86%。SealErase在真实场景下同样可以有效消除印章并保留被遮盖的文字。
    参考文献 | 相关文章 | 多维度评价
    29. 逼近误差有界的相容性高阶网格生成
    张文祥, 郭佳鹏, 傅孝明
    计算机科学    2024, 51 (1): 207-214.   DOI: 10.11896/jsjkx.230700116
    摘要168)      PDF(pc) (4120KB)(1532)    收藏
    文中提出了一种构造逼近误差有界的高质量相容性高阶网格的方法。给定两个定向的、拓扑同构的三角形网格和一组稀疏的对应点,此方法包含两个步骤:(1)生成满足误差有界的相容性高阶网格;(2)在确保逼近误差总是有界的前提下,降低网格的几何复杂度,并在该过程中通过优化控制顶点来降低相容性网格之间的扭曲以及与原始网格之间的几何近似误差。第一步先生成满足误差有界的相容性线性网格,然后升阶为高阶网格。第二步通过迭代地执行基于边长的重新网格化和增加相容性目标边长场,有效地降低了网格几何复杂度。从切空间的角度,推导出了3DBézier三角形之间映射的雅可比矩阵,从而可以有效地优化扭曲能量。通过对扭曲能量和几何近似误差能量的优化,有效地降低了相容性网格之间的扭曲以及相容性网格与原始网格之间的几何近似误差。通过大量实验,证明了此方法对于构造误差有界的高质量相容性高阶网格的有效性和实用性。
    参考文献 | 相关文章 | 多维度评价
    30. 基于观测数据的地表太阳形状B-样条函数模型
    沈童, 赵乐, 冯结青
    计算机科学    2024, 51 (1): 215-224.   DOI: 10.11896/jsjkx.230700209
    摘要176)      PDF(pc) (5255KB)(1517)    收藏
    描述地面上接收太阳辐射能分布的函数被称为地表太阳形状模型。它对塔式光热太阳能发电中接收器上辐射能密度分布的精确仿真至关重要。光晕辐射能占太阳辐射总能量的百分比,也被称为光晕辐射能占比(CircumSolar Ratio,CSR),它是地表太阳形状模型中的一个重要参数。目前,常用的地表太阳形状模型普遍存在精度不高、计算所得CSR 无法与输入CSR对齐、辐射能分布不连续、模型函数不能解析积分等不足。针对这些问题,文中提出了基于观测数据拟合的地表太阳形状张量积B-样条函数模型。首先,对两个观测数据集进行数据清洗、去噪、归一化、分组平均和拼接,得到具有不同CSR值、随入射角度偏移θ变化的84组太阳辐射能扫描剖面数据;其次,选择变化最剧烈的CSR为0.005这组数据,以θ为自变量,进行带约束的B-样条函数拟合(二次规划问题),拟合过程中,通过差分进化算法优化节点向量,并通过实验确定最优控制系数的数量;然后,采用上述节点向量、控制系数数量,以相同的方式拟合其他CSR值的83组数据;最后,将所得84个单变量B-样条函数模型作为输入,以CSR为自变量对其控制系数进行拟合,并类似地确定节点向量和控制系数数目,最终得到以CSR和θ为自变量、具有12×15个控制系数的张量积B-样条函数模型,即地表太阳形状模型。与已有模型相比,该B-样条函数模型是一个C2光滑的模型,具有 CSR 对齐、拟合精度高和辐射能分布可解析积分的优点。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共12页 共355条记录