栏目文章

Select

1. 基于深度学习的图像分割综述

黄雯珂, 滕飞, 王子丹, 冯力

计算机科学 2024, 51 (2): 107-116. DOI: 10.11896/jsjkx.230900002

摘要（102）

PDF（pc）（1716KB）（1854）

图像分割是计算机视觉中的一项基本任务,其主要目的是从图像输入中提取有意义和连贯的区域。多年来,图像分割领域已经开发出了各种各样的技术,包括基于传统方法,以及利用卷积神经网络的最新图像分割技术。随着深度学习的发展,更多的深度学习算法也被应用到图像分割任务中。特别地,近两年学者对深度学习的兴趣高涨,涌现了许多应用于图像分割任务的深度学习算法。然而大部分新的算法还没有被归纳分析,这将不利于后续研究的进行。文中对近两年发表的基于深度学习的图像分割研究进行了全面回顾。首先对图像分割的常用数据集进行简要介绍,然后阐明了基于深度学习的图像分割的新分类,最后讨论了现有的挑战并对今后的研究方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

2. 无监督单目深度估计研究综述

蔡嘉诚, 董方敏, 孙水发, 汤永恒

计算机科学 2024, 51 (2): 117-134. DOI: 10.11896/jsjkx.230400197

摘要（109）

PDF（pc）（3783KB）（1716）

深度估计作为三维重建、自动驾驶和视觉SLAM等领域中的关键环节,一直是计算机视觉领域研究的热点方向,其中无监督学习的单目深度估计技术由于具有方便部署、计算成本低等优点,受到了学术界和工业界的广泛关注。首先梳理了深度估计的基本知识及研究现状,简要介绍了基于参数学习、基于非参数学习、基于有监督学习、基于半监督学习和基于无监督学习的深度估计的优势与不足;其次全面总结了基于无监督学习的单目深度估计研究进展,按照结合可解释性掩膜、结合视觉里程计、结合先验辅助信息、结合生成式对抗网络和实时轻量级网络这五大类对无监督学习的单目深度估计进行归纳和总结,对典型的框架模型进行了介绍和分析;然后,介绍了基于无监督学习的单目深度估计在医学、自动驾驶、农业、军事等领域的应用;最后,简单介绍了用于无监督深度估计的常用数据集,提出了基于无监督学习的单目深度估计未来研究方向,并对这个快速发展领域中的各方向研究进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于自注意力机制和多尺度输入输出的医学图像分割算法

丁天舒, 陈媛媛

计算机科学 2024, 51 (2): 135-141. DOI: 10.11896/jsjkx.221100260

摘要（122）

PDF（pc）（2429KB）（1808）

更精细化的糖尿病性视网膜病变眼底图像分割结果,可以更好地辅助医生进行诊断。大规模高分辨率的分割数据集的出现,为更精细化的分割提供了有利条件。基于U-Net的主流分割网络,使用基于局部运算的卷积操作进行像素预测时无法充分挖掘全局信息,网络模型采用单输入单输出的结构,难以获取多尺度特征信息。为了最大程度地利用现有的大规模高分辨率的眼底图像病灶分割数据集,实现更精细化的分割,需要设计更好的分割方法。文中基于自注意力机制和多尺度输入输出结构对U-Net进行改造,提出了一种新的分割网络SAM-Net,用自注意力模块代替传统卷积模块,增大网络获取全局信息的能力,引入多尺度输入和多尺度输出结构,使网络更容易获取多尺度特征信息。使用图片切片方法来缩小模型的输入尺寸,防止神经网络模型因为输入图片像素过大而导致训练难度增大。最终在IDRiD数据集和FGADR数据集上进行实验,结果表明,SAM-Net可以达到比其他方法更优的性能。

参考文献 | 相关文章 | 多维度评价

Select

4. 结合注意力机制的多重引导点云配准网络

刘旭珩, 柏正尧, 许祝, 杜佳锦, 肖霄

计算机科学 2024, 51 (2): 142-150. DOI: 10.11896/jsjkx.230200073

摘要（55）

PDF（pc）（3185KB）（1682）

针对点云配准过程中仅仅利用点云特征寻求对应关系使得离群点多、配准精度不高的问题进行研究,提出了一种使用点云之间匹配点概率矩阵和点云空间信息特征矩阵共同搜寻对应关系,并且相互配合确定对应点权重的点云配准网络——AMGNet。首先使用点云特征提取网络获得两片待配准点云的高维特征;然后采用Transformer对独立特征进行上下文信息融合,之后利用关键点提取模块选取出特征更强的点,使用SoftBBS方法获得点云匹配点概率矩阵后,结合点云空间特征矩阵搜索到最终的对应关系,同时,权重分配也使用了双重矩阵共同决定的策略;最后使用奇异值分解获得需要的刚性变换矩阵。在ModelNet40,7Scenes等人工合成数据集和真实场景数据集上进行了多次实验。结果表明,在ModelNet40目标未知实验中的旋转矩阵和平移向量的均方误差分别降低至0.025和0.004 6。AMGNet配准精度较高,抗干扰能力强,泛化能力强。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于扩张卷积条件生成对抗网络的红外小目标检测

张国栋, 陈志华, 盛斌

计算机科学 2024, 51 (2): 151-160. DOI: 10.11896/jsjkx.221200045

摘要（77）

PDF（pc）（4901KB）（1707）

基于深度神经网络的目标检测方法凭借自身强大的建模能力,在通用目标检测任务中取得了良好的表现。然而,在红外小目标信号弱、像素小的本质特征的影响下,深度神经网络层次的加深和池化操作的大量使用导致小目标语义信息丢失,使得现有方法的检测效果并不理想。文中从红外小目标特性这一关键问题出发,提出了一种新颖的基于扩张卷积条件生成对抗网络的目标检测算法。所提方法应用扩张卷积设计了生成网络,充分利用上下文信息建立层与层之间的关联,将红外小目标更多的语义信息保留到深层网络中,增强目标特征,进而提高检测性能。此外,设计了融合通道与空间维度的混合注意力模块,在特征提取时有选择性地放大目标信息,抑制背景信息;设计了自注意关联模块处理层与层之间信息融合过程中产生的语义冲突问题。文中使用多种评价指标将所提网络模型与目前先进的其他红外小目标检测方法进行对比,证明了该方法在复杂背景下目标检测性能的优越性。在公开的SIRST数据集上,所提模型的F分数为64.70%,相比传统方法提高了8.29%,相比深度学习方法提高了7.29%;在公开的ISOS数据集上,所提模型的F分数为64.54%,相比传统方法提高了23.59%,相比深度学习方法提高了6.58%。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于层次化Conformer的语音合成

吴克伟, 韩超, 孙永宣, 彭梦昊, 谢昭

计算机科学 2024, 51 (2): 161-171. DOI: 10.11896/jsjkx.221100125

摘要（46）

PDF（pc）（5383KB）（1714）

语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于全局与局部特征的二阶段文档图像可见水印去除模型

赵江锋, 和红杰, 陈帆, 杨树斌

计算机科学 2024, 51 (2): 172-181. DOI: 10.11896/jsjkx.230600144

摘要（81）

PDF（pc）（6094KB）（1719）

可见水印是一种常用的数字图像版权保护手段。分析可见水印去除结果可以验证图像上水印的有效性,并为水印设计者提供设计或添加水印的参考和启发。目前,大多数的水印去除方法都是基于自然图像的研究,而文档图像在生活中也被广泛使用,但由于缺乏公开的文档图像去水印数据集,相关文档图像的水印去除研究较少。为了探究水印去除方法在文档图像上的水印去除效果,构建了一个文档图像水印去除数据集(SDIWRD)。在对文档图像可见水印去除的研究中发现,使用已有的水印去除方法得到的水印去除结果中容易留下水印主体伪影或者轮廓伪影。为了解决这个问题,提出了一种基于全局与局部特征的二阶段文档图像可见水印去除模型(RWRNet),该模型采用由粗到细的二阶段的半实例归一化编解码器架构。在粗略阶段,使用全局与局部特征提取模块增强对全局空间特征的捕捉能力,同时保留对局部细节信息的提取能力,从而帮助进行水印去除;在细化阶段,细化网络共享粗略阶段权重,并构建循环特征融合模块来充分挖掘粗略阶段编解码器的重要特征,为细化阶段提供丰富的上下文信息,帮助进行细致的水印去除。此外,还结合了结构相似性损失来帮助获取更好的视觉质量。所提方法在SDIWRD数据集上进行了实验,实验结果显示PSNR达到了41.21 dB,SSIM达到了99.07%,RMSE降低至3.64,优于现有水印去除方法。另外也在公开的CLWD彩色水印去除数据集进行了实验,实验结果显示PNSR达到了39.31 dB,SSIM达到98.81%,RMSE降低至3.50,也优于现有水印去除方法。实验结果证明了所提方法具有良好的泛化性和去水印的能力,能有效减轻水印伪影。最后还提出了一些防止水印去除的建议,在相关网站¹⁾可公开访问所提出的方法和数据集。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于点云轨迹和压缩多普勒的跨场景手势识别

张宏旺, 周瑞, 程宇, 刘辰旭

计算机科学 2024, 51 (2): 182-188. DOI: 10.11896/jsjkx.230400184

摘要（57）

PDF（pc）（2510KB）（1667）

毫米波雷达能够用于各种感知任务,如活动识别、手势识别、心率感知等。手势识别作为其中的研究热点,可实现无接触人机交互。目前大多数手势识别研究使用点云或距离多普勒图通过神经网络进行识别感知,但是这些方法存在一些问题。首先,这些方法鲁棒性较差,被感知人员或其位置发生变化都会影响接收到的毫米波信号,降低感知精度。其次,这些方法将完整的距离多普勒图输入神经网络进行识别,由于图中存在较多与感知任务无关的区域,模型复杂且难以专注于感知任务。为解决这些问题,首先从连续多帧点云数据中建立手势轨迹,然后将连续多帧距离多普勒图进行局部切割并压缩获得二维局部多普勒图,最后将点云轨迹和二维局部多普勒图分别经过神经网络特征提取后,对特征进行拼接,通过全连接神经网络进行分类。实验结果表明,所提方法专注于手势,能够达到98%的识别准确率,在人员变化和位置变化情况下对新用户和在新位置的识别准确率分别能够达到93％和92％,高于现有方法。

参考文献 | 相关文章 | 多维度评价

Select

9. LNG-Transformer:基于多尺度信息交互的图像分类网络

王文杰, 杨燕, 敬丽丽, 王杰, 刘言

计算机科学 2024, 51 (2): 189-195. DOI: 10.11896/jsjkx.221100218

摘要（64）

PDF（pc）（2444KB）（1700）

鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention的广泛应用。文中提出了一种有效的、可扩展的注意力模块Local Neighbor Global Self-Attention(LNG-SA),该模块在任意时期都能进行局部信息、邻居信息和全局信息的交互。通过重复级联LNG-SA模块,设计了一个全新的网络,称为LNG-Transformer。该网络整体采用层次化结构,具有优秀的灵活性,其计算复杂度与图像分辨率呈线性关系。LNG-SA模块的特性使得LNG-Transformer即使在早期的高分辨率阶段,也可以进行局部信息、邻居信息和全局信息的交互,从而带来更高的效率、更强的学习能力。实验结果表明,LNG-Transformer在图像分类任务中具有良好的性能。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于Depth-wise卷积和视觉Transformer的图像分类模型

张峰, 黄仕鑫, 花强, 董春茹

计算机科学 2024, 51 (2): 196-204. DOI: 10.11896/jsjkx.221100234

摘要（51）

PDF（pc）（3194KB）（1705）

图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于递归门控卷积的遥感图像超分辨率研究

刘长新, 吴宁, 胡俐蕊, 高霸, 高学山

计算机科学 2024, 51 (2): 205-216. DOI: 10.11896/jsjkx.230800017

摘要（64）

PDF（pc）（4547KB）（1715）

由于受到硬件条件的限制,通常难以获得具有高分辨率(HR)的遥感图像。利用单幅图像超分辨率(SISR)技术对低分辨率(LR)遥感图像进行超分辨率重建是获取高分辨率遥感图像的常用方法。近年来,在图像超分辨率领域引入的卷积神经网络(CNN)改进了图像重建性能。然而,现有的基于CNN的超分辨率模型通常使用低阶注意力机制提取深层特征,其表征能力有待提高,且常规卷积的感受野有限,缺乏对远距离依赖关系的学习。为了解决以上问题,提出了一种基于递归门控卷积的遥感图像超分辨率方法RGCSR。该方法引入递归门控卷积gⁿConv学习全局依赖和局部细节,通过高阶空间交互来获取高阶特征。首先,使用由高阶交互子模块(HorBlock)和前馈神经网络(FFN)组成的高阶交互——前馈神经网络模块(HFB)提取高阶特征。其次,利用由通道注意力(CA)和gⁿConv构建的特征优化模块(FOB)优化各个中间模块的输出特征。最后,在多个数据集上的对比结果表明,RGCSR比现有的基于CNN的超分辨率方法具备更好的重建性能和视觉效果。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于深度学习的图像数据增强研究综述

孙书魁, 范菁, 孙中强, 曲金帅, 代婷婷

计算机科学 2024, 51 (1): 150-167. DOI: 10.11896/jsjkx.230500103

摘要（170）

PDF（pc）（3382KB）（1598）

近年来,深度学习在图像分类、目标检测、图像分割等诸多计算机视觉任务中都取得了出色的性能表现。深度神经网络通常依靠大量的训练数据来避免过拟合,因此,出色的性能背后离不开海量图像数据的支持。但在很多实际应用场景中,通常很难获取到足够的图像数据,并且数据的收集也是昂贵且耗时的。图像数据增强的出现很好地缓解了数据不足的问题,作为增加训练数量、提升数据质量和多样性的有效途径,数据增强已成为深度学习模型在图像数据上成功应用的必要组成部分,理解现有算法有助于选择适合的方法以及开发新算法。文中阐述了图像数据增强的研究动机,对众多的数据增强算法进行了系统分类,详细分析了每一类数据增强算法;随后指出数据增强算法设计时的一些注意事项及其应用范围,并通过3种计算机视觉任务证明了数据增强的有效性;最后总结全文并对数据增强未来的研究方向进行展望。

参考文献 | 相关文章 | 多维度评价

Select

13. 面向多视角对比学习和语义增强的多模态预训练方法

汤嘉, 郭燕, 叶名玮, 吴桂兴

计算机科学 2024, 51 (1): 168-174. DOI: 10.11896/jsjkx.230700084

摘要（107）

PDF（pc）（2765KB）（1569）

视觉语言预训练(VLP)模型通过对比学习等方法,在多模态任务上表现出了优异的性能。然而现有研究忽视了多视角描述带来的好处,以及语义和语法的重要性。为了解决这一问题,文中提出了多视角对比学习和语义增强多模态预训练(Multi-view learning and Semantic Enhancement for Multimodal pre-training,MulSE)模型。MulSE主要分为3个部分:1)在融合编码器模型中,引入带有生成器的多视角对比学习;2)提出了一种新的自监督视觉语言预训练任务——多模态文本重排序;3)增加并探寻最优MLM掩码比例,最大化利用视觉信息的能力。通过改进预训练任务,采取多种最优策略,并通过实验验证MulSE增强了模态内部和模态间的理解能力以及对文本语法和语义的理解能力。预训练仅用4×10⁶的数据量,在图文检索任务中就达到了先前大型数据集的效果,且其在视觉问答和视觉蕴含任务上的评估效果优于先前的理解式VLP模型。

参考文献 | 相关文章 | 多维度评价

Select

14. 一种多深度特征连接的红外弱小目标检测方法

王维佳, 熊文卓, 朱圣杰, 宋策, 孙翯, 宋玉龙

计算机科学 2024, 51 (1): 175-183. DOI: 10.11896/jsjkx.230200037

摘要（170）

PDF（pc）（4105KB）（1490）

针对红外弱小目标像元数量少、图像背景复杂、检测精度低且耗时较长的问题,文中提出了一种多深度特征连接的红外弱小目标检测模型(MFCNet)。首先,提出了多深度交叉连接主干形式以增加不同层间的特征传递,增强特征提取能力;其次,设计了注意力引导的金字塔结构对深层特征进行目标增强,分离背景与目标;提出非对称融合解码结构加强解码中纹理信息与位置信息保留;最后,引入点回归损失得到中心坐标。所提网络模型在SIRST公开数据集与自建长波红外弱小目标数据集上进行训练并测试,实验结果表明,与现有数据驱动和模型驱动算法相比,所提算法在复杂场景下具有更高的检测精度及更快的速度,模型的平均精度相比次优模型提升了5.41%,检测速度达到100.8 FPS。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于加权损失的点云占用图视频上采样

陈航, 李礼, 刘东, 李厚强

计算机科学 2024, 51 (1): 184-189. DOI: 10.11896/jsjkx.230600161

摘要（98）

PDF（pc）（2326KB）（1452）

基于视频的点云压缩标准(Video-based Point Cloud Compression,V-PCC)中,3D点云会被分成数百个块并投影到2D平面中,形成记录点云纹理信息的纹理视频和记录点云空间信息的几何视频。同时,还需要生成一个占用图视频(Occupancy Map Video),以记录纹理视频和几何视频中每一个像素点是否对应重建点云中的某个点。因此,占用图视频质量与重建点云质量直接相关。为了节约编码比特数,占用图视频在编码端会先被下采样,然后在解码端通过简单的上采样恢复到原分辨率。文中的基本思路是引入深度学习来代替V-PCC中的简单上采样方法,使得上采样后的占用图视频质量更高,从而提高点云的重建质量。在网络训练阶段提出使用加权损失函数,使得在重建点云时能尽可能少地移除正常点并尽可能多地移除噪声点。实验结果证明,所提方法可以大幅提升V-PCC的主客观性能。

参考文献 | 相关文章 | 多维度评价

Select

16. 雨滴实地拍摄基准图像数据集及评估

陈天一, 薛文, 全宇晖, 许勇

计算机科学 2024, 51 (1): 190-197. DOI: 10.11896/jsjkx.230500125

摘要（139）

PDF（pc）（4328KB）（1490）

在雨天透过玻璃窗拍摄时,附着在玻璃表面的雨滴通常会出现在图像中,这不仅降低了图像的可见度,还会使许多计算视觉算法无法正常工作。图像雨滴去除研究,是指从这类雨天图像中去除雨滴的具体科研研究。该研究领域面临着很大的挑战,主要原因是自然界中的雨滴形态多种多样、各不相同,不同透明度的雨滴也会影响背景图像的成像质量,从而增加了识别并去除雨滴的困难度,对去雨滴算法的性能提升造成了负面影响。为了方便研究者全面了解该领域,将从以下两个方面详尽介绍单幅图像去雨滴研究:单幅图像去雨滴算法和单幅图像联合去雨算法;同时也对该领域的所有算法进行了总结与评估。在基于深度学习的方法中,算法的性能往往受限于数据集的质量,但现有的雨滴数据集中均存在雨滴图像质量不高、图像数量不足等常见情况。为此,建立了雨滴实地拍摄基准图像数据集(HEMC),在拍摄过程中,尽量避免相机抖动、窗户反射和其他外界条件的干扰,从而提高了数据集中训练集的图像质量和测试集的精准度,进而间接提升了算法性能。同时,利用主观视觉效果以及客观指标对数据集进行了多方面的评估,实验结果展现了HEMC数据集中图像的多样性以及客观指标的稳定性。此外,通过对雨滴数据集间的交叉验证,证实了HEMC数据集在已有去雨滴算法中的通用性与稳定性。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于生成对抗门控卷积网络的文档图像印章消除

伍贵宾, 杨宗元, 熊永平, 张兴, 王伟

计算机科学 2024, 51 (1): 198-206. DOI: 10.11896/jsjkx.230500232

摘要（190）

PDF（pc）（4303KB）（1535）

发票和文档上的印章严重影响文字识别的准确率,因此印章消除技术在文档识别和文档增强的预处理过程中发挥着重要作用。然而,现有的阈值分割方法和基于深度学习的方法存在印章消除不全以及会修改背景像素等问题。文中提出了一个两阶段式印章消除网络SealErase。第一阶段是一个用于生成包含印章位置信息的二值化掩膜的U型分割网络,第二阶段是一个用于进行精细化印章消除的修复网络。由于目前缺乏公开的用于印章消除的成对数据集,现有的方法无法设计像素级的评价指标来衡量生成图像的质量。并且,利用配对的训练集训练神经网络可以有效提高网络的性能。为此,文中兼顾真实场景的泛化性以及对噪声的鲁棒性构建了一个包含8 000个样本的高仿真的印章消除数据集。其中的印章分为两种:真实文档图像中的印章和合成的印章。为了客观地评价SealErase的性能,文中设计了基于图像生成质量和被印章遮盖的字符识别准确率的综合评价指标用于评估SealErase网络的消除性能。在构建的印章消除数据集上对比了现有的印章消除模型,实验结果表明,SealErase网络在图像生成质量的评价指标中的峰值信噪比相比最先进的方法提升了26.79%,平均结构相似性指标提升了4.48%。经过SealErase网络进行印章消除后,被印章遮盖的字符识别准确率提高了38.86%。SealErase在真实场景下同样可以有效消除印章并保留被遮盖的文字。

参考文献 | 相关文章 | 多维度评价

Select

18. 逼近误差有界的相容性高阶网格生成

张文祥, 郭佳鹏, 傅孝明

计算机科学 2024, 51 (1): 207-214. DOI: 10.11896/jsjkx.230700116

摘要（123）

PDF（pc）（4120KB）（1464）

文中提出了一种构造逼近误差有界的高质量相容性高阶网格的方法。给定两个定向的、拓扑同构的三角形网格和一组稀疏的对应点,此方法包含两个步骤:(1)生成满足误差有界的相容性高阶网格;(2)在确保逼近误差总是有界的前提下,降低网格的几何复杂度,并在该过程中通过优化控制顶点来降低相容性网格之间的扭曲以及与原始网格之间的几何近似误差。第一步先生成满足误差有界的相容性线性网格,然后升阶为高阶网格。第二步通过迭代地执行基于边长的重新网格化和增加相容性目标边长场,有效地降低了网格几何复杂度。从切空间的角度,推导出了3DBézier三角形之间映射的雅可比矩阵,从而可以有效地优化扭曲能量。通过对扭曲能量和几何近似误差能量的优化,有效地降低了相容性网格之间的扭曲以及相容性网格与原始网格之间的几何近似误差。通过大量实验,证明了此方法对于构造误差有界的高质量相容性高阶网格的有效性和实用性。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于观测数据的地表太阳形状B-样条函数模型

沈童, 赵乐, 冯结青

计算机科学 2024, 51 (1): 215-224. DOI: 10.11896/jsjkx.230700209

摘要（117）

PDF（pc）（5255KB）（1455）

描述地面上接收太阳辐射能分布的函数被称为地表太阳形状模型。它对塔式光热太阳能发电中接收器上辐射能密度分布的精确仿真至关重要。光晕辐射能占太阳辐射总能量的百分比,也被称为光晕辐射能占比(CircumSolar Ratio,CSR),它是地表太阳形状模型中的一个重要参数。目前,常用的地表太阳形状模型普遍存在精度不高、计算所得CSR 无法与输入CSR对齐、辐射能分布不连续、模型函数不能解析积分等不足。针对这些问题,文中提出了基于观测数据拟合的地表太阳形状张量积B-样条函数模型。首先,对两个观测数据集进行数据清洗、去噪、归一化、分组平均和拼接,得到具有不同CSR值、随入射角度偏移θ变化的84组太阳辐射能扫描剖面数据;其次,选择变化最剧烈的CSR为0.005这组数据,以θ为自变量,进行带约束的B-样条函数拟合(二次规划问题),拟合过程中,通过差分进化算法优化节点向量,并通过实验确定最优控制系数的数量;然后,采用上述节点向量、控制系数数量,以相同的方式拟合其他CSR值的83组数据;最后,将所得84个单变量B-样条函数模型作为输入,以CSR为自变量对其控制系数进行拟合,并类似地确定节点向量和控制系数数目,最终得到以CSR和θ为自变量、具有12×15个控制系数的张量积B-样条函数模型,即地表太阳形状模型。与已有模型相比,该B-样条函数模型是一个C²光滑的模型,具有 CSR 对齐、拟合精度高和辐射能分布可解析积分的优点。

参考文献 | 相关文章 | 多维度评价

Select

20. 曲线曲面局部最小二乘渐进迭代逼近

高杨, 蒋旖旎, 蔺宏伟

计算机科学 2024, 51 (1): 225-232. DOI: 10.11896/jsjkx.230700152

摘要（127）

PDF（pc）（2555KB）（1450）

作为一种有效的大数据拟合方法,曲线曲面最小二乘渐进迭代逼近方法(LSPIA) 吸引了众多研究者的关注,并获得了广泛的应用。针对LSPIA算法拟合局部数据点效果较差的问题,提出了一种局部的LSPIA算法,称为LOCAL-LSPIA。首先,给定初始曲线(曲面)并从给定的数据点中选择部分数据点; 然后在初始曲线(曲面)上选择需要调整的控制点; 最后,LOCAL-LSPIA通过迭代调整这一部分控制点来生成一系列局部变化的拟合曲线(曲面),并且保证生成的曲线(曲面)的极限是在仅调整这部分控制点的情况下拟合部分数据点的最小二乘结果。在多个曲线曲面拟合上的实验结果表明,为达到相同的拟合精度,LOCAL-LSPIA 算法比 LSPIA 算法需要的步骤和运算时间更少。因此,LOCAL-LSPIA 是有效的,而且在拟合局部数据的情况下比LSPIA 算法的收敛速度更快。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于伪标签的弱监督显著特征增强目标检测方法

史殿习, 刘洋洋, 宋林娜, 谭杰夫, 周晨磊, 张轶

计算机科学 2024, 51 (1): 233-242. DOI: 10.11896/jsjkx.230500035

摘要（92）

PDF（pc）（4005KB）（1489）

显著性目标检测旨在检测图像中最明显的区域。传统的基于单一标签的算法不可避免地受到所采用的细化算法的影响,表现出偏见特征,从而进一步影响了显著性网络的检测性能。针对这一问题,基于多指令滤波器结构,提出了一种基于伪标签的弱监督显著特征增强目标检测方法FeaEM,通过从多个标签中集成更全面和准确的显著性线索,从而有效提升目标检测的性能。FeaEM方法的核心是引入一个新的多指令滤波器结构,利用多个伪标签来避免单一标签带来的负面影响;通过在指令滤波器中引入特征选择机制,从噪声伪标签中提取和过滤更准确的显著性线索,从而学习更多有效的具有代表性的特征;同时,针对现有的弱监督目标检测方法对输入图像的尺度十分敏感,同一图像的不同尺寸输入的预测结构存在较大偏差问题,通过引入尺度特征融合机制,以确保在输入不同尺寸的同一图像时,能输出一致的显著图,进而有效提高模型的尺度泛化能力。在多个数据集上进行的大量实验表明,所提出的FeaEM方法优于最具代表性的方法。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于双重动态记忆网络的弱监督视频异常检测

周文浩, 胡宏涛, 陈旭, 赵春晖

计算机科学 2024, 51 (1): 243-251. DOI: 10.11896/jsjkx.230300134

摘要（128）

PDF（pc）（3019KB）（1491）

视频异常检测需从整段视频中识别帧级别的异常行为。弱监督方法使用正常与异常视频,辅以视频级别标签训练模型,相比无监督视方法展现出了更优越的性能。然而,目前的弱监督视频异常检测方法无法记录视频长期模态,且部分方法为了获得更优的检测效果,利用了未来帧的信息,导致无法在线应用。为此,文中首次提出了一种基于双重动态记忆网络的弱监督视频异常检测方法,通过设计包含两个记忆模块的记忆网络来分别记录视频中长期的正常和异常模态。为了实现视频特征和记忆项的协同更新,采用读操作基于记忆模块中的记忆项对视频帧的特征进行增强,采用写操作基于视频帧特征对记忆项的内容进行更新,同时记忆项的数量在训练的过程中会动态调整从而适应不同视频监控场景的需求。在训练时,设计模态分离损失增加记忆项之间的区分度。在测试时,仅需要记忆项而不需要未来视频帧的参与,从而实现准确的在线检测。在两个公开的弱监督视频异常检测数据集上的实验结果表明,所提方法优于所有在线应用的方法,相比只能离线应用的方法也具有很强的竞争力。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于多粒度的Transformer目标检测算法

徐放, 苗夺谦, 张红云

计算机科学 2023, 50 (11): 143-150. DOI: 10.11896/jsjkx.230600028

摘要（233）

PDF（pc）（4143KB）（1849）

与其他尺度目标不同,小目标具有携带语义信息和训练样本数量较少等特点。因此,当前目标检测算法存在小目标检测精度较低的问题。针对该问题,提出了基于多粒度的Transformer目标检测算法。首先,采用多粒度思想,设计了一种新的Transformer序列化方法,从粗到细逐个粒度地预测目标位置,从而提升模型的目标定位效果。然后,基于三支决策思想,细粒度挖掘小目标样本和常规尺度目标样本,从而增加小目标样本和难例负样本数量。最后,实验结果表明,在COCO数据集上,该算法的小目标检测精度(APs)达到了31.5%,平均检测精度(mAP)达到了49.1%;相比基线模型,AP_S提升了1.4%,mAP提升了2.2%;改进后的算法有效地提升了小目标检测效果,并显著提高了目标检测的整体精度。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于图像重构与语义差异识别的表面异常检测

王尚尚, 金城

计算机科学 2023, 50 (11): 151-159. DOI: 10.11896/jsjkx.221100023

摘要（121）

PDF（pc）（3596KB）（1841）

基于图像重构的方法是表面异常检测中一类广泛使用的方法。该类方法仅期望模型较好地重构正常模式,并通过异常区域较大的重构误差来检测和定位异常。已有方法一方面易出现“泛化”过好的现象,异常区域也被高保真地重构了出来;另一方面仅在图像空间度量重构误差,并没有真正捕捉到原图和重构图之间的语义差异。为了解决上述问题,文中提出了由重构网络和识别网络组成的表面异常检测框架,其中重构网络嵌入了多尺度位置增强动态原型单元,强化了对正常模式的学习;识别网络进行了输入图和重构图的多尺度深度特征融合,从多个尺度利用了重构前后的语义差异信息,强化了对重构差异的识别。在MVTec数据集上,所提方法在异常检测任务上取得了99.5%的 AUROC,在异常定位任务上取得了98.5% 的AUROC,以及95.0%的RPO检测表现,与之前基于重构的表面异常检测方法相比取得了较大提升。

参考文献 | 相关文章 | 多维度评价

Select

25. 基于非关键掩码和注意力机制的深度伪造人脸篡改视频检测方法

俞洋, 袁家斌, 蔡纪元, 查可可, 陈章屿, 戴加威, 冯煜翔

计算机科学 2023, 50 (11): 160-167. DOI: 10.11896/jsjkx.221100109

摘要（140）

PDF（pc）（3400KB）（1801）

自深度伪造技术(Deepfake)被提出以来,其非法应用对个人、社会、国家安全造成了恶劣影响,存在巨大隐患,因此针对人脸视频的深度伪造检测是计算机视觉领域中的热点及难点问题。针对上述问题,提出了一种基于非关键掩码和CA_S3D模型的深度伪造视频检测方法。该方法首先将人脸图像划分为关键区域和非关键区域,通过对非关键区域掩码的处理,提高了深度神经网络对人脸图像关键区域的关注程度,减少了无关信息对深度神经网络的影响和干扰;接着在S3D网络中引入上下文注意力模块,增强了对样本数据信息长程依赖的捕获能力,提高了对关键通道和特征的关注程度。实验结果表明,该方法在DFDC数据集上得到了明显的性能提升,准确率从83.85%提升到了90.10%,AUC值从0.931提升到了0.979;同时与现有的深度伪造视频检测方法进行了对比,所提方法的表现优于现有方法,验证了该方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于QDCT全局均分策略的鲁棒视频水印方案

陶新宇, 熊礼治, 张翔

计算机科学 2023, 50 (11): 168-176. DOI: 10.11896/jsjkx.221000228

摘要（214）

PDF（pc）（2993KB）（1885）

视频水印作为一种应用前景广阔的版权保护技术,近年来受到了广泛关注。与原始域方案不同,压缩域方案不需要完全编解码视频,具有更高的效率;并且视频存储和传输一般需要经过压缩编码才能进行,使得压缩域的鲁棒视频水印方案成为了研究热点。但现有的压缩域方案大多利用压缩域中的QDCT系数个体来嵌入水印,使得算法的鲁棒性不高。为了增加压缩域算法的鲁棒性,文中提出了一种基于QDCT全局均分策略的鲁棒视频水印方案。首先,利用非零系数个数选出视频中兼具纹理和高空间复杂度的块作为水印块,将两块水印块组成块对;然后,分别计算出块对中所有系数的总和,根据系数总和的大小以及水印信息,通过全局均分策略修改后序块内所有非零系数的幅值,来满足方案设置的块对系数和规则,以实现水印的嵌入。实验结果表明,在保证含水印视频具有较高视觉质量的前提下,该方案抵抗重压缩攻击和噪声攻击的鲁棒性均优于现有压缩域的鲁棒视频水印方案,分别提高了8%,9%。

参考文献 | 相关文章 | 多维度评价

Select

27. 一种三维度基于改进MFCC特征模型的AI克隆语音源鉴定方法

王学光, 诸珺文, 张爱新

计算机科学 2023, 50 (11): 177-184. DOI: 10.11896/jsjkx.221000024

摘要（291）

PDF（pc）（4051KB）（1871）

AI克隆语音技术的出现将对现代社会法治秩序造成致命冲击。近年来研究人员仅关注了AI合成语音与样本语音内容相同领域的研究,而对AI合成语音与样本内容不同的检材的鉴定研究却甚少,相关鉴定内容无法识别。为此,提出了一种三维度基于改进MFCC特征模型对AI克隆语音源进行鉴定。首先对先前研究人员人工分析的AI克隆语音特性进行验证,总结出可识别的“共振峰F5异常活跃”与“能量、共振峰、音高曲线异常突变”的特征。其次基于AI克隆语音的特征运用二阶差分修正MFCC系数并采用“逆差逻辑推演法”将能量、共振峰、音高曲线突变特性进一步量化采样,将其定义为语音鉴定的特征向量三元组。然后以特征向量三元组为输入,运用D-S证据合成规则将三组检材与样本比对的结果融合。最后形成三维度基于改进MFCC特征参量的检材评定模型。人群随机采样实验结果表明,该AI克隆语音源鉴定方法对以同一人为克隆源所合成的AI克隆语音鉴定的平均概率为67.324%,标准差为7.32%,鉴定效果很好。

参考文献 | 相关文章 | 多维度评价

Select

28. 融合跟踪器:融合图像特征和事件特征的单目标跟踪框架

王琳, 刘哲, 史殿习, 周晨磊, 杨绍武, 张拥军

计算机科学 2023, 50 (10): 96-103. DOI: 10.11896/jsjkx.220900075

摘要（279）

PDF（pc）（2834KB）（1440）

目标跟踪是计算机视觉领域的一项基本研究问题。作为主流目标跟踪方法传感器,传统相机可以提供丰富的场景信息。但是由于受到采样原理的限制,传统相机在极端光照条件下会出现过曝光或欠曝光的问题,且在高速运动场景中存在运动模糊的现象。而事件相机是一种仿生传感器,它能够感知光照强度变化输出事件流,具有高动态范围、高时间分辨率等优点,但难以捕捉静态目标。受传统相机和事件相机的特性启发,提出了一种双模态融合的单目标跟踪方法,称为融合跟踪器(Fusion Tracker)。该方法通过特征增强的方式自适应地融合来自传统相机和事件相机数据中的视觉线索,同时设计一种基于注意力机制的特征匹配网络,将模板帧的目标线索与搜索帧相匹配,建立长期特征关联,使跟踪器关注目标信息。融合跟踪器可以解决特征匹配过程中相关性运算导致的语义丢失问题,提升目标跟踪的性能。在两个公开数据集上的实验展示了所提方法的优越性,并且通过消融实验验证了融合跟踪器中关键部分的有效性。融合跟踪器可以有效提升在复杂场景中目标跟踪任务的鲁棒性,为下游应用提供可靠的跟踪结果。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于自适应正则化的无偏场景图生成方法

李浩晨, 曹付元, 乔世昌

计算机科学 2023, 50 (10): 104-111. DOI: 10.11896/jsjkx.221000084

摘要（202）

PDF（pc）（4153KB）（1422）

场景图生成旨在给定一张图片,通过目标检测模块得到实体和实体间关系的视觉三元组形式,即主语、关系和宾语,构建语义结构化表示。场景图可应用于图像检索和视觉问答等下游任务。然而,由于数据集中的实体间关系呈长尾分布,因此现有模型在预测关系时更偏向于粗粒度的头部关系。这样的场景图无法对下游任务起到辅助性作用。以往工作普遍采用再平衡策略,如重采样和重加权的方法,来解决长尾问题。但模型反复学习尾部关系样本,易出现过拟合现象。为了解决上述问题,文中提出了一种自适应正则化无偏场景图生成方法。具体来说,该方法通过设计一个基于先验关系频率的正则项,自适应地调整模型全连接分类器权重,从而实现对模型的平衡预测。所提方法在场景图VG(Visual Genome)数据集上进行了实验,实验结果表明,该方法不仅能防止模型过拟合,也能缓解关系长尾分布问题对场景图生成的负面影响,且最先进的场景图生成方法在结合所提方法后能更有效地改善无偏场景图生成的性能。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于多尺度Transformer融合多域信息的伪造人脸检测

马欣, 吉立新, 李邵梅

计算机科学 2023, 50 (10): 112-118. DOI: 10.11896/jsjkx.220900048

摘要（307）

PDF（pc）（2733KB）（1527）

当前,基于Deepfakes等深度伪造技术生成的“换脸”类伪造视频泛滥,给公民个人隐私和国家政治安全带来巨大威胁,为此,研究视频中深度伪造人脸检测技术具有重要意义。针对已有伪造人脸检测方法存在的面部特征提取不充分、泛化能力弱等不足,提出一种基于多尺度Transformer对多域信息进行融合的伪造人脸检测方法。基于多域特征融合的思路,同时从视频帧的频域与RGB域进行特征提取,提高模型的泛化性;联合EfficientNet和多尺度Transformer,设计多层级的特征提取网络以提取更精细的伪造特征。在开源数据集上的测试结果表明,相比已有方法,所提方法具有更好的检测效果;同时在跨数据集上的实验结果证明了所提模型具有较好的泛化性能。

参考文献 | 相关文章 | 多维度评价