栏目文章

Select

1. 计算机视觉:理论与应用专题序言

计算机科学 2022, 49 (2): 1-3. DOI: 10.11896/jsjkx.qy20220201

摘要（328）

PDF（pc）（1202KB）（563）

相关文章 | 多维度评价

Select

2. 结合特征融合和注意力机制的微表情识别方法

李星燃, 张立言, 姚树婧

计算机科学 2022, 49 (2): 4-11. DOI: 10.11896/jsjkx.210900028

摘要（720）

PDF（pc）（2093KB）（1293）

微表情指当人们试图隐藏或抑制自己的真实情感时,脸上出现的一种无法控制的肌肉运动。此类情绪面部表情由于具有持续时间短、动作幅度小、难以掩饰和抑制的特点,因此其识别精度受到了制约。为了应对这些挑战,文中提出一种结合特征融合和注意力机制的微表情识别方法,同时考虑了光流特征和人脸特征,通过进一步加入注意力机制来提升识别性能。该网络由3个部分组成:1)提取每个微表情片段中Onset到Apex的光流与光学应变,将垂直光流、水平光流、光学应变输入到一个浅层3DCNN中,以提取光流特征;2)以深度卷积神经网络ResNet-10为迁移模型,加入卷积注意力模块以提取人脸特征;3)将两个特征向量拼接起来进行分类。利用所提方法在3个自发微表情数据集中进行实验,结果表明,所提方法在微表情识别方面优于传统方法和现有深度学习方法。

参考文献 | 相关文章 | 多维度评价

Select

3. 人脸伪造检测泛化性方法综述

董琳, 黄丽清, 叶锋, 黄添强, 翁彬, 徐超

计算机科学 2022, 49 (2): 12-30. DOI: 10.11896/jsjkx.210900146

摘要（943）

PDF（pc）（2379KB）（1938）

深度学习技术的快速发展为深度伪造的研究提供了强有力的工具,人眼越来越难区分伪造视频图像的真假。伪造的视频图像会对社会生活造成巨大的负面影响,如:金融欺诈、假新闻传播、人身欺凌等。目前,基于深度学习的假脸检测技术在多个基准数据库(如FaceForensics++)上已经达到了较高的准确率,但在跨数据库上的检测精度远低于源数据库内的检测精度,即许多检测方法难以推广到不同的或未知的伪造类型上。专注于基于深度学习的人脸伪造检测方法泛化性研究,首先对伪造检测常用的数据库进行简单介绍和比较;其次从数据、特征和学习策略3个方面对视频图像篡改检测方法的泛化性进行分类总结和分析;最后讨论未来人脸篡改检测泛化性的发展方向和挑战。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于改进CycleGAN的人脸性别伪造图像生成模型

石达, 芦天亮, 杜彦辉, 张建岭, 暴雨轩

计算机科学 2022, 49 (2): 31-39. DOI: 10.11896/jsjkx.210600012

摘要（708）

PDF（pc）（3239KB）（1444）

深度伪造可以将人的声音、面部及身体动作拼接,从而合成虚假内容,用于转换性别、改变年龄等。基于生成对抗式图像翻译网络的人脸性别伪造图像存在容易改变无关图像域、人脸细节不够丰富等问题。针对这些问题,文中提出基于改进CycleGAN的人脸性别伪造图像生成模型。首先,优化生成器结构,利用注意力机制与自适应残差块提取更丰富的人脸特征;然后,借鉴相对损失的思想对损失函数进行改进,提高判别器的判别能力。最后,提出基于年龄约束的模型训练策略,减小了年龄变化对生成图像的影响。在CelebA和IMDB-WIKI数据集上进行实验,实验结果表明,与原始CycleGAN方法和UGATIT方法相比,所提方法能够生成更加真实的人脸性别伪造图像,伪造男性和伪造女性的平均内容准确率分别为82.65%和78.83%,FID平均得分分别为32.14和34.50。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于深度学习的单幅图像三维人脸重建研究综述

何嘉玉, 黄宏博, 张红艳, 孙牧野, 刘亚辉, 周哲海

计算机科学 2022, 49 (2): 40-50. DOI: 10.11896/jsjkx.210500215

摘要（745）

PDF（pc）（2361KB）（2167）

在计算机视觉领域中,三维人脸重建是一个具有研究价值的方向,高质量地重建出三维人脸在人脸识别、防伪、游戏娱乐、影视动画和美容医疗等领域具有重要的意义。近二十年来,虽然基于单幅图像的三维人脸重建领域已经取得很大的进展,但使用传统算法进行重建的结果仍会受到人脸表情、遮挡、环境光的影响,并且会出现重建效果精度不佳和鲁棒性不足等问题。随着深度学习进入三维人脸重建领域,各种优于传统重建算法的方法相继出现。文中首先重点介绍了基于深度学习的单幅图像三维人脸重建算法,将算法按不同的网络架构分为4类,并对各类最具有代表性的方法进行了详细阐述。然后汇总了基于单幅图像的三维人脸重建算法常用的三维人脸数据集,并在数据集上对具有代表性的方法进行了性能评估。最后对基于单幅图像的三维人脸重建领域进行了总结与展望。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于深度生成模型的人脸编辑研究进展

唐雨潇, 王斌君

计算机科学 2022, 49 (2): 51-61. DOI: 10.11896/jsjkx.210400108

摘要（635）

PDF（pc）（3231KB）（1573）

人脸编辑广泛应用于公安追逃、人脸美化等领域,传统的统计学方法、基于原型的方法是解决人脸编辑的主要手段,然而这些传统技术面临着操作难度大、计算成本高等问题。近年来,深度学习快速发展,特别是生成网络的出现,为人脸编辑提供了一种全新的思路,采用深度生成模型的人脸编辑技术具有速度快、模型泛化能力强的优势。为总结近年利用深度生成模型解决人脸编辑问题的相关理论与研究,首先介绍了基于深度生成模型的人脸编辑技术采用的网络框架与原理;然后对该项技术所运用的方法进行详述,将其归纳为图像翻译、在网络内部引入条件信息、操纵潜在空间3个方面;最后总结了该项技术所面临的身份一致性、属性解耦、属性编辑精确性的挑战,并指出未来该方向亟待解决的若干问题。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于动态拓扑图的人体骨架动作识别算法

解宇, 杨瑞玲, 刘公绪, 李德玉, 王文剑

计算机科学 2022, 49 (2): 62-68. DOI: 10.11896/jsjkx.210900059

摘要（903）

PDF（pc）（1920KB）（1125）

传统的人体骨架动作识别算法采用手动构建拓扑图的方式来建模包含在多个视频帧中的动作序列,并针对性地学习每个视频帧以反映数据变化,这容易造成计算代价大、网络泛化性低和灾难性遗忘等问题。针对上述问题,提出了基于动态拓扑图的人体骨架动作识别算法,使用持续学习思想动态构建人体骨架拓扑图。将具有多关系特性的人体骨架序列数据重新编码为关系三元组,并基于长短期记忆网络,通过解耦合的方式学习特征嵌入。当处理新骨架关系三元组时,使用部分更新机制动态构建人体骨架拓扑图,并采用基于时空图卷积网络的骨架动作识别算法来实现动作识别。实验结果表明,所提方法在Kinetics-Skeleton,NTU-RGB+D(X-Sub)和NTU-RGB+D(X-View)基准数据集上分别取得了40%,85%和90%的识别准确率,提高了人体骨架动作识别的准确率。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于深度学习和H&E染色病理图像的肿瘤相关指标预测研究综述

颜锐, 梁智勇, 李锦涛, 任菲

计算机科学 2022, 49 (2): 69-82. DOI: 10.11896/jsjkx.210900140

摘要（1183）

PDF（pc）（5973KB）（2769）

肿瘤的精确诊断对患者的治疗方案选择和预后预测都非常重要。病理学诊断被认为是肿瘤诊断的 “金标准”,但是,病理学发展目前仍然面临着巨大的挑战,如病理医生的缺乏,特别是在欠发达地区和小医院,这将导致病理医生长期超负荷工作,同时,病理诊断严重依赖于病理医生的专业知识和诊断经验,病理医生的主观性导致了诊断不一致性的激增。全切片扫描图像 (Whole Slide Images,WSI)技术和深度学习方法的突破性进展为计算机辅助诊断和预后预测提供了新的发展机遇。苏木精-伊红( Hematoxylin-Eosin,H&E) 染色的组织病理切片可以很好地显示细胞形态和组织结构,而且制作简单、成本便宜、使用广泛。仅仅从H&E染色的病理图像可以预测什么？在将深度学习方法应用到病理图像领域之后,这个问题得到了新的答案。文中首先总结了基于深度学习和病理图像的肿瘤相关指标预测的整体研究框架,按照整体研究框架发展的顺序将其总结为3个逐渐推进的阶段:基于人工选取感兴趣的单张图片小块进行WSI预测研究、基于多数投票的WSI预测研究以及具有普遍适用性的WSI预测研究。其次简单介绍了4种在WSI预测中经常用到的监督学习或弱监督学习方法:卷积神经网络、循环神经网络、图神经网络和多示例学习。然后综述了可以通过病理图像预测的肿瘤相关指标以及其最新研究进展,文中主要从两个方面进行文献的综述:预测专家可以阅片识别的肿瘤相关指标(肿瘤分类、肿瘤分级、肿瘤区域识别)和预测专家无法阅片识别的肿瘤相关指标(基因变异预测、分子亚型预测、治疗效果评估、生存期预测)。最后展望了该领域面临的挑战和机遇。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于生成对抗网络的多目标类别对抗样本生成算法

李建, 郭延明, 于天元, 武与伦, 王翔汉, 老松杨

计算机科学 2022, 49 (2): 83-91. DOI: 10.11896/jsjkx.210800130

摘要（544）

PDF（pc）（3708KB）（1444）

深度神经网络在很多领域表现出色,但是研究表明其很容易受到对抗样本的攻击。目前针对神经网络进行攻击的算法众多,但绝大多数攻击算法的攻击速度较慢,因此快速生成对抗样本逐渐成为对抗样本领域的研究重点。AdvGAN是一种使用网络攻击网络的算法,生成对抗样本的速度极快,但是当进行有目标攻击时,其要为每个目标训练一个网络,使攻击的效率较低。针对上述问题,提出了一种基于生成对抗网络的多目标攻击网络MTA,在进行攻击时MTA仅需要训练一次就可以完成多目标攻击并快速生成对抗样本。实验结果表明,MTA在CIFAR10和MNIST数据集上有目标攻击的成功率高于AdvGAN。文中还做了对抗样本的迁移实验和防御背景下的攻击实验,结果表明,MTA生成的对抗样本的迁移性比其他多目标攻击算法更强,而且在防御背景下攻击成功率更高。

参考文献 | 相关文章 | 多维度评价

Select

10. 图像对抗样本研究综述

陈梦轩, 张振永, 纪守领, 魏贵义, 邵俊

计算机科学 2022, 49 (2): 92-106. DOI: 10.11896/jsjkx.210800087

摘要（1132）

PDF（pc）（4336KB）（2720）

随着深度学习理论的发展,深度神经网络取得了一系列突破性进展,相继在多个领域得到了应用。其中,尤其以图像领域中的应用(如图像分类)最为普及与深入。然而,研究表明深度神经网络存在着诸多安全隐患,尤其是来自对抗样本的威胁,严重影响了图像分类的应用效果。因此,图像对抗样本的研究近年来越来越受到重视,研究者们从不同的角度对其进行了研究,相关研究成果也层出不穷,呈井喷之态。首先介绍了图像对抗样本的相关概念和术语,回顾并梳理了图像对抗样本攻击和防御方法的相关研究成果。特别是,根据攻击者的能力以及防御方法的基本思路对其进行了分类,并给出了不同类别的特点及存在的联系。接着,对图像对抗攻击在物理世界中的情况进行了简要阐述。最后,总结了图像对抗样本领域仍面临的挑战,并对未来的研究方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于Transformer交叉注意力的文本生成图像技术

谈馨悦, 何小海, 王正勇, 罗晓东, 卿粼波

计算机科学 2022, 49 (2): 107-115. DOI: 10.11896/jsjkx.210600085

摘要（825）

PDF（pc）（3673KB）（1287）

近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展。文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像。目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码,忽略了语言空间与图像空间之间的语义鸿沟问题。为解决这一问题,文中设计了一种基于交叉注意力编码器的对抗生成网络(CAE-GAN),该网络通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本与图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度。实验结果表明,在CUB和coco数据集上,与当前主流的方法DM-GAN模型相比,CAE-GAN模型的IS(Inception Score)分数分别提升了2.53%和1.54%,FID (Fréchet Inception Distance)分数分别降低了15.10%和5.54%,由此可知,CAE-GAN模型生成图像的细节更加完整、质量更高。

参考文献 | 相关文章 | 多维度评价

Select

12. 自然场景下遥感图像超分辨率重建算法研究

陈贵强, 何军

计算机科学 2022, 49 (2): 116-122. DOI: 10.11896/jsjkx.210700095

摘要（667）

PDF（pc）（3459KB）（987）

在遥感图像超分辨率重建领域,大部分数据集缺少成对的图像用于训练,当前的方法主要是通过双三次插值的方式来获取低分辨率图像,因退化模型过于理想化导致在处理真实低分辨率遥感图像时效果较差,基于此,文中提出了一种自然场景下真实遥感图像的超分辨率重建算法。针对缺少成对图像的数据集的问题,构建了一种更合理的退化模型,将成像过程中的退化先验知识(如模糊、噪声、降采样等)随机混洗,以模拟自然场景下低分辨遥感图像的生成过程,生成逼真的低分辨率图像用于训练;同时,改进了一种基于生成对抗网络的超分辨率重建算法,在生成网络中引入注意力机制,以增强遥感图像纹理细节。在UC Merced数据集上,所提方法的PSNR/SSIM较ESRGAN和RCAN分别提升了1.407 1 dB/0.067 2,0.821 1 dB/0.023 5;在真实遥感数据集Alsat2B上,所提方法在3种地形上的平均PSNR/SSIM较基线模型提升了1.758 4 dB/0.048 5,重建图像视觉效果也优于基线模型,从而验证了退化模型和重建模型的有效性。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于深度学习的视频超分辨率重构进展综述

冷佳旭, 王佳, 莫梦竟成, 陈泰岳, 高新波

计算机科学 2022, 49 (2): 123-133. DOI: 10.11896/jsjkx.211000007

摘要（1203）

PDF（pc）（2634KB）（1736）

视频超分辨率是根据给定的低分辨率视频序列恢复其对应的高分辨率视频帧的过程。近年来,VSR在深度学习的驱动下取得了重大突破。为了进一步促进VSR的发展,文中对基于深度学习的VSR算法进行了归类、分析和比较。首先,根据网络结构将现有方法分为两大类,即基于迭代网络的VSR和基于递归网络的VSR,并对比分析了不同网络模型的优缺点。然后,全面介绍了VSR数据集,并在一些常用的公共数据集上对已有算法进行了总结和比较。最后,对VSR算法中的关键问题进行了分析,并对其应用前景进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

14. 分子可视化中的光线追踪棋盘渲染

李家振, 纪庆革, 朱泳霖

计算机科学 2022, 49 (2): 134-141. DOI: 10.11896/jsjkx.210900126

摘要（595）

PDF（pc）（3275KB）（727）

在分子可视化中使用光线追踪渲染图像能够极大地促进研究人员对分子结构的观察和感知,但现有的光线追踪方法存在实时性能不足以及渲染质量不佳的问题。文中提出了一种光线追踪棋盘渲染方法。该方法利用棋盘渲染技术对光线追踪方法进行优化,其流程主要划分为重投影、渲染、重建和孔填充4个阶段,在各阶段中,提出了针对棋盘渲染的改进,包括光线追踪前向重投影、分子着色包围盒、动态图像重建方法和八邻居插值填孔策略。在6个拥有不同原子数量的分子上与目前的先进方法进行对比,实验结果表明,所提方法整体的实时帧率明显高于同样基于CPU计算的Tachyon-OSPRay方法,是后者的1.58~1.86倍。另外,在原子数量相对较少的实验分子上,所提方法比基于GPU加速计算的Tachyon-Optix方法拥有更好的帧率表现。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于隐式视角转换的视频异常检测

冷佳旭, 谭明圮, 胡波, 高新波

计算机科学 2022, 49 (2): 142-148. DOI: 10.11896/jsjkx.210900266

摘要（354）

PDF（pc）（2298KB）（711）

目前,基于深度学习的视频异常检测方法都是在单一视角下对视频片段中的异常行为或异常事物进行检测,忽视了视角信息在视频异常检测中的重要性。在单一视角下,当异常事物被遮挡或异常行为不明显时,现有算法的性能将难以得到保证。为此,文中首次将视角转换的概念引入到视频异常检测中,通过级联网络结构在多视角下进行异常判断来提升模型的鲁棒性。针对受限于数据集没有多视角的监督信息,难以实现真正的显式的视角转换问题,提出了一种基于隐式视角转换的视频异常检测方法.对初步检测结果为正常的目标帧,利用其与特定帧的光流信息,通过光流映射实现目标帧到特定帧视角的隐式视角转换,并对视角转换后的目标帧进行二次异常检测。通过多个视角来判定目标帧是否异常,为视频异常检测提供了一种新的思路。实验结果表明,所提方法对异常数据的反应更灵敏,具有更鲁棒的正常数据拟合能力,在UCSD Ped2和CUHK Avenue数据集上的AUC值分别达到了97.0%和88.9%。

参考文献 | 相关文章 | 多维度评价

Select

16. 面向智慧教育行为分析的图卷积骨架动作识别方法

苗启广, 辛文天, 刘如意, 谢琨, 王泉, 杨宗凯

计算机科学 2022, 49 (2): 156-161. DOI: 10.11896/jsjkx.220100061

摘要（556）

PDF（pc）（1737KB）（702）

智慧教育即教育信息化,是利用现代信息技术的新一代教育模式,智慧行为分析是智慧教育系统的核心组成。在面对复杂的教室应用场景时,针对传统的行为识别分类算法的精确性与时效性都存在严重不足的问题,提出了一种基于分离与注意力机制的图卷积(Depthwise Separable Attention Graph Convolutional Network,DSA-GCN)骨架动作识别算法。首先,为解决传统算法在通道域信息聚合天生不充分的难题,通过逐点卷积进行多维通道映射,将时空图卷积对输入骨骼序列的原始时空信息的保护能力与深度可分离卷积在空间和通道特征学习上的分离能力相结合,以增强模型特征学习与抽象表达性。其次,采用多维度融合的注意力机制,在空间卷积域利用自注意力与通道注意力机制来提升模型的动态敏感性,在时间卷积域利用时间与通道注意力融合法来增强对关键帧的判别力。实验结果表明,在NTU RGB+D 和 N-UCLA两个大型数据集上,DSA-GCN都获得了优异的性能和效能表现,证明了模型对通道域信息聚合能力的提升。

参考文献 | 相关文章 | 多维度评价