栏目文章

Select

1. 端到端优化的图像压缩技术进展

刘东, 王叶斐, 林建平, 马海川, 杨闰宇

计算机科学 2021, 48 (3): 1-8. DOI: 10.11896/jsjkx.201100134

摘要（1550）

PDF（pc）（2746KB）（3853）

图像压缩是数据压缩技术在数字图像上的应用,其目的是减少图像数据中的冗余,从而用更加高效的格式存储和传输数据。传统的图像压缩方法中,图像压缩分为预测、变换、量化、熵编码等步骤,每一步均采用人工设计的算法分别进行优化。近年来,基于深度神经网络的端到端图像压缩方法在图像压缩中取得了丰硕的成果,相比传统方法,端到端图像压缩可以进行联合优化,能够取得比传统方法更高的压缩效率。文中首先对端到端图像压缩的方法和网络结构进行了介绍;接着对端到端图像压缩中的关键技术进行了阐述,包括量化技术、概率建模和熵编码技术以及编码端码率分配技术;然后介绍了端到端图像压缩的扩展应用研究,包括可伸缩编码、可变码率压缩、面向视觉感知和机器感知的压缩;最后通过实验对端到端图像压缩方法目前可达到的压缩效率与传统方法进行了对比,展示了其压缩性能。实验结果表明,目前最新的端到端图像压缩方法的压缩效率远高于JPEG,JPEG2000,HEVC intra等传统图像编码方法,相比目前最先进的编码标准VVC intra,在同样的MS-SSIM上节省了高达48.40%的编码码率。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于深度学习的图像去模糊方法研究进展

潘金山

计算机科学 2021, 48 (3): 9-13. DOI: 10.11896/jsjkx.201200043

摘要（1342）

PDF（pc）（1258KB）（4262）

近年来,随着便携、轻巧的数码成像设备的日益普及,人们获取图像的手段日益方便与灵活,数字图像在视频监控、医疗诊断、太空探测等领域起到了重要的作用。然而,在现有的成像过程中存在诸多问题,如相机的感光单元质量差、摄影者专业水平低、拍摄环境恶劣等,往往导致最终得到的图像含有明显的模糊以及噪声。如何使计算机自动地从模糊图像中把清晰的图像恢复出来,从而为其他的图像处理问题以及后续的计算机智能化分析提供高质量的图像,成为了亟待解决的问题。图像去模糊是典型的病态问题,解决该问题的常用方法主要包括基于统计先验建模和数据驱动的方法。然而,传统的统计先验建模的方法对清晰图像特征的刻画能力有限。而数据驱动的方法尤其是以深度学习为代表的方法依靠其强大的特征表示能力,为解决图像去模糊提供了一种新的、有效的方式。文中基于深度学习的图像去模糊方法,概述了目前图像去模糊方法的研究现状,分析了当前方法所面临的问题,并展望了图像去模糊方法的研究趋势。

参考文献 | 相关文章 | 多维度评价

Select

3. 图像修复研究进展综述

赵露露, 沈玲, 洪日昌

计算机科学 2021, 48 (3): 14-26. DOI: 10.11896/jsjkx.210100048

摘要（1725）

PDF（pc）（2724KB）（6310）

图像修复是计算机视觉领域中极具挑战性的研究课题。近年来,深度学习技术的发展推动了图像修复性能的显著提升,使得图像修复这一传统课题再次引起了学者们的广泛关注。文章致力于综述图像修复研究的关键技术。由于深度学习技术在解决“大面积缺失图像修复”问题时具有重要作用并带来了深远影响,文中在简要介绍传统图像修复方法的基础上,重点介绍了基于深度学习的修复模型,主要包括模型分类、优缺点对比、适用范围和在常用数据集上的性能对比等,最后对图像修复潜在的研究方向和发展动态进行了分析和展望。

参考文献 | 相关文章 | 多维度评价

Select

4. 多媒体模型对抗攻防综述

陈凯, 魏志鹏, 陈静静, 姜育刚

计算机科学 2021, 48 (3): 27-39. DOI: 10.11896/jsjkx.210100079

摘要（854）

PDF（pc）（1638KB）（2351）

近年来,随着以深度学习为代表的人工智能技术的快速发展和广泛应用,人工智能正深刻地改变着社会生活的各方面。然而,人工智能模型也容易受到来自精心构造的“对抗样本”的攻击。通过在干净的图像或视频样本上添加微小的人类难以察觉的扰动,就能够生成可以欺骗模型的样本,进而使多媒体模型在推理过程中做出错误决策,为多媒体模型的实际应用部署带来严重的安全威胁。鉴于此,针对多媒体模型的对抗样本生成与防御方法引起了国内外学术界、工业界的广泛关注,并出现了大量的研究成果。文中对多媒体模型对抗攻防领域的进展进行了深入调研,首先介绍了对抗样本生成与防御的基本原理和相关背景知识,然后从图像和视频两个角度回顾了对抗攻防技术在多媒体视觉信息领域的发展历程与最新成果,最后总结了多媒体视觉信息对抗攻防技术目前面临的挑战和有待进一步探索的方向。

参考文献 | 相关文章 | 多维度评价

Select

5. 视觉目标跟踪十年研究进展

张开华, 樊佳庆, 刘青山

计算机科学 2021, 48 (3): 40-49. DOI: 10.11896/jsjkx.201100186

摘要（1169）

PDF（pc）（2602KB）（2405）

视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务。通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临极大的挑战。在过去的十年中,随着深度学习在计算机视觉领域的广泛应用,目标跟踪领域也迅速发展,研究人员提出了一系列优秀算法。鉴于该领域处于快速发展的阶段,文中对视觉目标跟踪研究进行了综述,内容主要包括跟踪的基本框架改进、目标表示改进、空间上下文改进、时序上下文改进、数据集和评价指标改进等;另外,还综合分析了这些改进方法各自的优缺点,并提出了可能的未来的研究趋势。

参考文献 | 相关文章 | 多维度评价

Select

6. 视频人脸识别进展综述

白子轶, 毛懿荣, 王瑞平

计算机科学 2021, 48 (3): 50-59. DOI: 10.11896/jsjkx.210100210

摘要（796）

PDF（pc）（2916KB）（2480）

人脸识别是生物特征识别领域的一项关键技术,长期以来得到研究者的广泛关注。视频人脸识别任务特指从一段视频中提取出人脸的关键信息,从而完成身份识别。相较于基于图像的人脸识别任务来说,视频数据中的人脸变化模式更为多样且视频帧之间存在较大差异,如何从冗长而复杂的视频中抽取到人脸的关键特征成为当前的研究重点。以视频人脸识别技术为研究对象,首先介绍了该技术的研究价值和存在的挑战;接着对当前研究工作的发展脉络进行了系统的梳理,依据建模方式将传统基于图像集合建模的方法分为线性子空间建模、仿射子空间建模、非线性流形建模、统计建模四大类,同时对深度学习背景下基于图像融合的方法进行了介绍;另外对现有视频人脸识别数据集进行分类整理并简要介绍了常用的评价指标;最后分别采用灰度特征和深度特征在YTC数据集及IJB-A数据集上对代表性工作进行评测。实验结果表明:神经网络可以从大规模数据中提取到鲁棒的视频帧特征,从而带来识别性能的大幅提升,而有效的视频数据建模能够挖掘出人脸潜在的变化模式,从视频序列包含的大量样本中找到更具判别力的关键信息,排除噪声样本的干扰,因此基于视频的人脸识别具有广泛的通用性和实用价值。

参考文献 | 相关文章 | 多维度评价

Select

7. 手语识别、翻译与生成综述

郭丹, 唐申庚, 洪日昌, 汪萌

计算机科学 2021, 48 (3): 60-70. DOI: 10.11896/jsjkx.210100227

摘要（1312）

PDF（pc）（2250KB）（4056）

手语研究是典型的多领域交叉研究课题,涉及计算机视觉、自然语言处理、跨媒体计算、人机交互等多个方向,主要包括离散手语识别、连续手语翻译和手语视频生成。手语识别与翻译旨在将手语视频转换成文本词汇或语句,而手语生成是根据口语或文本语句合成手语视频。换言之,手语识别翻译与手语生成可视为互逆过程。文中综述了手语研究的最新进展,介绍了研究的背景现状和面临的挑战;回顾了手语识别、翻译和生成任务的典型方法和前沿研究;并结合当前方法中存在的问题,对手语研究的未来发展方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于视觉和语言的跨媒体问答与推理研究综述

武阿明, 姜品, 韩亚洪

计算机科学 2021, 48 (3): 71-78. DOI: 10.11896/jsjkx.201100176

摘要（723）

PDF（pc）（1726KB）（2028）

基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。

参考文献 | 相关文章 | 多维度评价

Select

9. 跨媒体分析与推理技术研究综述

王树徽, 闫旭, 黄庆明

计算机科学 2021, 48 (3): 79-86. DOI: 10.11896/jsjkx.210200086

摘要（799）

PDF（pc）（2405KB）（4021）

当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一步实现分析和推理以及对复杂认知目标的不断逼近,建立语义层级的逻辑推理机制,最终实现跨媒体类人智能推理。文中对跨媒体分析推理技术的研究背景和发展历史进行概述,归纳总结视觉-语言关联等任务的关键技术,并对研究应用进行举例。基于已有结论,分析目前跨媒体分析领域所面临的关键问题,最后探讨未来的发展趋势。

参考文献 | 相关文章 | 多维度评价

Select

10. 视觉问答与对话综述

牛玉磊, 张含望

计算机科学 2021, 48 (3): 87-96. DOI: 10.11896/jsjkx.201200174

摘要（1197）

PDF（pc）（1426KB）（2768）

视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进行了总结,最后对视觉问答与对话的未来发展趋势进行了讨论。

参考文献 | 相关文章 | 多维度评价

Select

11. 多媒体社会事件分析综述

钱胜胜, 张天柱, 徐常胜

计算机科学 2021, 48 (3): 97-112. DOI: 10.11896/jsjkx.210200023

摘要（754）

PDF（pc）（3323KB）（1872）

由于网络技术的飞速发展,自媒体、微博、论坛等基于互联网的多种交流渠道日渐完善,人们能够方便地在线生成和共享丰富的社会多媒体内容。社会事件数据具有跨平台、多模态、大规模、噪声大等特点,基于多媒体社会事件的分析研究非常具有挑战性。因此,如何对社会媒体数据进行处理,研究社会事件分析方法、设计有效的社会事件分析模型成为社会事件分析研究的关键问题。文中对近年来多媒体社会事件分析的相关研究展开了综述,重点回顾了多媒体社会事件表示方法及其在虚假新闻检测、多媒体热点事件检测跟踪及演化分析、社交媒体危机事件响应等领域的应用,并对不同应用涉及的数据集进行了详细介绍。最后对多媒体社会事件分析方面未来可能的研究课题进行了展望。

参考文献 | 相关文章 | 多维度评价