栏目文章

Select

1. 弹幕信息协助下的视频多标签分类

陈洁婷, 王维莹, 金琴

计算机科学 2021, 48 (1): 167-174. DOI: 10.11896/jsjkx.200800198

摘要（666）

PDF（pc）（2404KB）（1433）

文中探究了弹幕信息协助下的视频多标签分类任务。多标签视频分类任务根据视频内容从不同角度赋予视频多个标签,与视频推荐等应用紧密相关。多标签视频数据集的高标注成本和对视频内容的多角度理解是该研究领域面临的主要问题。弹幕是一种新近出现的用户评论形式,受到了众多用户的欢迎。由于用户参与度高,弹幕视频网站的视频拥有大量用户自发添加的标签,这些标签是天然的多标签数据。文中以此构建了一个多标签视频数据集,并整理出了视频标签间的层级语义关系,该数据集在未来将公开发布。同时,弹幕文本模态包含大量与视频内容相关的细粒度信息,因此在以往视频分类工作融合视觉和音频模态的基础上,引入弹幕文本模态进行视频多标签分类研究。在基于聚类的NeXtVLAD模型、注意力Dbof模型和基于时序的GRU模型上进行实验,在增加弹幕模态后,GAP指标最高提升了23%,证明了弹幕信息对该任务具有辅助作用。此外,还探索了如何在分类中利用标签层级关系,通过构建标签关系矩阵来改造标签,进而将标签语义融入训练。实验结果表明,加入标签关系后,Hit@1指标提升了15%,因此其能优化多标签分类的效果。此外,MAP指标在细粒度小类上提升了4%,说明标签语义的引入有利于预测样本量较少的类别,具有研究价值。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于域适应的X光图像的目标检测

何彦辉, 吴桂兴, 吴志强

计算机科学 2021, 48 (1): 175-181. DOI: 10.11896/jsjkx.200200023

摘要（568）

PDF（pc）（3097KB）（1472）

随着卷积神经网络的发展,X光安全检查图像的自动目标检测算法已经取得了重大进步。但是,当将这些目标检测算法应用到不同于训练集数据的新数据,即训练域数据和测试域数据的图像数据服从不一致的分布时,这些检测算法的性能通常会降低。根据X光成像的变化,提出一种基于上下文的透射率自适应域对齐方法,用于解决检测算法的域不适应问题。首先,通过利用X光图像中存在的颜色信息,设计了一种注意力机制来分别处理X光图像的每个颜色通道特征,解决不同X光机器的颜色差异问题。接着,提出一种多分辨率特征对齐方法,以解决不同厂商不同X光图像之间的数据分布差异。最后,使用上下文向量作为对抗训练的正则化,利用邻域信息提高测试精度。基于X光图像数据集和Cityscape数据集的实验表明,所提方法解决了目标检测算法在不同于训练域数据的测试域中精度下降的问题。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于改进生成对抗网络的动漫人物头像生成算法

张扬, 马小虎

计算机科学 2021, 48 (1): 182-189. DOI: 10.11896/jsjkx.191100092

摘要（702）

PDF（pc）（4547KB）（2084）

针对已有的动漫人物头像生成方法中生成结果的多样性较差,且难以准确地按照用户想法按类生成或按局部细节生成的问题,基于含辅助分类器的对抗生成网络(ACGAN),结合互信息理论、多尺度判别等提出了一种改进模型LMV-ACGAN(Latent label attached Multi scale ACGAN with improved VGG mode),用于动漫人物头像的生成。文中设计的模型主要包括特征整合的反卷积生成器,多尺度特征提取器以及真假、类别、隐参数,还原3个全连接神经网络。对于网络结构,所提模型除了类别标签外,额外引入了一组连续值的隐参数,用来增强对模型的约束,同时将卷积神经网络部分的VGG模型中的池化层替换为跨步卷积,并且判别器引入了图像的多尺度信息进行特征融合且改进了网络末端结构以及各部分的参数更新方式,以尽可能减弱末端的分类部分、真假判别部分和隐参数还原部分之间的相互影响。实验结果表明,所提模型有效地解决了模式崩塌的问题,同时较ACGAN提高了模型生成指定类型图像的成功率和准确度,对于ACGAN等生成失败或者类型判别错误的图像,可以做到正确生成,且能够通过调整连续的隐参数有效地实现一些简单的图像编辑功能,如人脸的朝向等。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于多尺度与注意力特征增强的遥感图像描述生成方法

赵佳琦, 王瀚正, 周勇, 张迪, 周子渊

计算机科学 2021, 48 (1): 190-196. DOI: 10.11896/jsjkx.200600076

摘要（636）

PDF（pc）（2149KB）（1402）

遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提出了一种基于多尺度与注意力特征增强的遥感图像描述生成方法,该方法通过软注意力机制实现生成单词与图像特征之间的对齐关系。此外,针对遥感图像分辨率较高、目标尺度变化较大的特点,还提出了一种基于金字塔池化和通道注意力机制的特征提取网络(Pyramid Pool and Channel Attention Network,PCAN),用于捕获遥感图像多尺度以及局部跨通道交互信息。将该模型提取到的图像特征作为描述生成阶段软注意力机制的输入,通过计算得到上下文信息,然后将该上下文信息输入至LSTM网络中,得到最终的输出序列。在RSICD与MSCOCO数据集上对PCAN及软注意力机制进行有效性实验,结果表明,PCAN及软注意力机制的加入能够提升生成语句的质量,实现单词与图像特征之间的对齐。通过对软注意力机制的可视化分析,提高了模型结果的可信度。此外,在语义分割数据集上进行实验,结果表明所提PCAN对于语义分割任务同样具有有效性。

参考文献 | 相关文章 | 多维度评价

Select

5. 一种结合非局部和多区域注意力机制的细粒度图像识别方法

刘洋, 金忠

计算机科学 2021, 48 (1): 197-203. DOI: 10.11896/jsjkx.191000135

摘要（490）

PDF（pc）（2787KB）（1092）

细粒度图像识别的目标是对细粒度级别的物体子类进行分类,由于不同子类间的差异非常细微,使得细粒度图像识别具有非常大的挑战性。目前细粒度图像识别算法的难度在于如何定位细粒度目标中具有分辨性的部位以及如何更好地提取细粒度级别的细微特征。为此,提出了一种结合非局部和多区域注意力机制的细粒度识别方法。Navigator只利用图像标签便可以较好地定位到一些鉴别性区域,通过融合全局特征以及鉴别性区域特征取得了不错的分类结果。然而,Navigator仍存在缺陷:1)Navigator未考虑不同位置间的联系,因此所提算法通过引入非局部模块与Navigator相结合,来加强模型的全局信息感知能力;2)针对非局部模块未建立特征通道间联系的缺陷,构建基于通道注意力机制的特征提取网络,使得网络关注更加重要的特征通道。最后,所提算法在3个公开的细粒度图像库CUB-200-2011,Stanford Cars 和FGVC Aircraft上分别达到了88.1%,94.3%,92.0%的识别精度,并且相比Navigator有明显的精度提升。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于PatchMatch的半全局高效双目立体匹配算法

桑苗苗, 彭进先, 达通航, 张旭峰

计算机科学 2021, 48 (1): 204-208. DOI: 10.11896/jsjkx.191000205

摘要（433）

PDF（pc）（2562KB）（1619）

近年来双目立体匹配技术发展迅速,高精度、高分辨率、大视差的应用需求无疑对该技术的计算效率提出了更高的要求。由于传统立体匹配算法固有的计算复杂度正比于视差范围,已经难以满足高分辨率、大视差的应用场景。因此,从计算复杂度、匹配精度、匹配原理等多方面综合考虑,提出了一种基于PatchMatch的半全局双目立体匹配算法,在路径代价计算过程中使用空间传播机制,将可能的视差由整个视差范围降低为t个候选视差(t远远小于视差范围),显著减少了候选视差的数量,大幅提高了半全局算法的计算效率。对KITTI2015数据集的评估结果表明,该算法以5.81%的错误匹配率和20.2 s的匹配时间实现了准确性和实时性的明显提高。因此,作为传统立体匹配改进算法,该设计可以为大视差双目立体匹配系统提供高效的解决方案。

参考文献 | 相关文章 | 多维度评价

Select

7. 图像描述技术综述

苗益, 赵增顺, 杨雨露, 徐宁, 杨皓然, 孙骞

计算机科学 2020, 47 (12): 149-160. DOI: 10.11896/jsjkx.200500039

摘要（1442）

PDF（pc）（3031KB）（2915）

图像描述技术就是以图像为输入通过数学模型和计算使计算机输出对应图像的自然语言描述文字使计算机拥有"看图说话"的能力是图像处理领域中继图像识别、图像分割和目标跟踪之后的又一新型任务.文中以图像描述技术的发展历程为主线对图像描述任务的方法、评价指标和常用数据集进行了详细的综述.针对图像描述任务的技术方法总结了基于模板、检索和深度学习的图像描述生成方法重点介绍了基于深度学习的图像描述的多种方法并对不同方法的实验结果进行了总结和讨论;详细介绍了图像描述任务的实验结果评价指标及其计算方法和该任务中常用的数据集;最后提出了该任务现有的问题和未来的发展方向.

参考文献 | 相关文章 | 多维度评价

Select

8. 基于语言描述的细粒度美妆图片排序

姚林丽, 陈师哲, 金琴

计算机科学 2020, 47 (12): 161-168. DOI: 10.11896/jsjkx.200800209

摘要（384）

PDF（pc）（2150KB）（778）

文中研究了化妆领域中基于文本的细粒度视觉推理问题具体探究了一个新颖的多模态任务即根据有序的化妆步骤描述对化妆过程中打乱顺序的人脸图片进行排序.针对这个新颖的任务通过数据的处理和分析提出了两个排序模型:第一个排序模型从单模态的角度出发只利用图片的信息进行排序;第二个模型从多模态的角度出发通过建立文本描述和图片之间的联系来指导图片排序.在You Makeup VQA Challenge数据集上进行了详实的实验以及分析实验结果表明所提出的两个模型在不同的图片对数据上具有互补性在美妆图片排序任务上具有良好的表现在测试集上的选择准确率分别达到了70%和58.93%.

参考文献 | 相关文章 | 多维度评价

Select

9. 采用多相关滤波策略的鲁棒长时自适应目标跟踪

谭建豪, 殷旺, 刘力铭, 王耀南

计算机科学 2020, 47 (12): 169-176. DOI: 10.11896/jsjkx.191000021

摘要（328）

PDF（pc）（5328KB）（830）

传统相关滤波方法在目标运动模糊和光照变化上取得了一定的鲁棒效果但当目标存在形变、颜色变化、重度遮挡等干扰因素时难以实现跟踪鲁棒性差且当目标丢失后不能再恢复无法实现长时间跟踪.因此文中提出了一种鲁棒长时自适应目标跟踪算法.首先提出了一种特征互补策略将方向梯度直方图和全局颜色直方图的特征响应线性加权学习对颜色变化和形变都具有鲁棒性的相关滤波模型用以估计目标位移;然后仅提取目标前景HOG特征学习一个判别滤波器用以保持对目标外观的长期记忆使用该长期滤波器的输出响应来判别是否出现遮挡或跟踪失败采用在线SVM分类器对丢失目标进行再检测从而能够跟踪已丢失目标以实现长期跟踪;其次学习了以目标位置为中心的特征金字塔模型以预测尺度变化防止目标框漂移;最后在OTB目标跟踪基准数据集上对算法进行实验并与目前较为流行的目标跟踪算法进行对比进一步验证了所提算法的鲁棒性、准确性和优越性.

参考文献 | 相关文章 | 多维度评价

Select

10. 基于深度多任务学习的社交图像标签和分组联合推荐

耿蕾蕾, 崔超然, 石成, 申朕, 尹义龙, 冯仕红

计算机科学 2020, 47 (12): 177-182. DOI: 10.11896/jsjkx.191000141

摘要（665）

PDF（pc）（2998KB）（862）

随着在线社交的多媒体共享网站的蓬勃发展社交图像推荐逐渐成为研究热点.人们通常对社交图像进行标签化、分组化使得图像数据更加易于管理.传统的图像标签或分组推荐方法往往只关注特定任务忽略了标签推荐和分组推荐任务之间的隐含关系.多任务学习则可以充分挖掘不同任务对图像的共享或相互关联的隐含表示融合多种任务抽取图像特征对于提高单一任务的准确性具有积极意义.因此文中提出了一种基于深度多任务学习的社交图像标签和分组联合推荐模型.该方法使用基于比较的偏序学习深度网络分别进行标签推荐和分组推荐有效缓解了单任务中的数据稀疏性问题.此外在处理社交图像视觉特征的卷积神经网络中首先使用多任务学习将来自不同任务的中间层特征进行连接然后通过卷积实现降维和特征的自动融合使得不同任务的图像特征得到共享同时降维后的融合特征能够满足下一层卷积神经网络的尺寸要求使得单一任务的整体结构得以保持.从大量Flickr图片共享网站上爬取的真实数据集上的实验结果表明与现有经典推荐算法相比所提算法获得的准确率和召回率均有较大提升证明了该方法的有效性和可行性.

参考文献 | 相关文章 | 多维度评价

Select

11. 双语图像标题联合生成研究

张凯, 李军辉, 周国栋

计算机科学 2020, 47 (12): 183-189. DOI: 10.11896/jsjkx.190900181

摘要（442）

PDF（pc）（1960KB）（737）

图像标题(ImageCaption)的研究大多是对图像生成单一语言的标题而在当今各国语言交汇融合的情况下对一张图像生成两门甚至多门语言标题是必然趋势以让不同母语的人理解其他人对同一张图片的评价.对此提出一种双语图像标题即图像同时生成两种语言标题的方法.该方法由一个编码器和两个不同的解码器组成其中编码器基于卷积神经网络用于提取图像特征;解码器基于长短时记忆网络两个不同的解码器分别用于解码两种不同的语言特征.由于两种语言标题之间存在着互译的特性因此提出了双语料图像标题的联合生成模型.具体地在解码端采用交替的方式生成两种语言的标题使得在预测某种语言的下一个单词时不仅可以利用该语言标题的历史信息还可以利用另一门语言标题的历史信息同时促进两种语言标题生成的性能.基于MSCOCO2014数据集的实验结果表明双语图像标题联合生成能够同时提高两门语言的性能在英文上较英文单语言标题生成的性能提高了1.0个BLEU_4值和0.98个CIDEr值在日文上较日文单语言标题生成的性能提高了1.0个BLEU_4值和0.31个CIDEr值.

参考文献 | 相关文章 | 多维度评价

Select

12. 面向分块压缩感知的交叉子集导引自适应观测

田伟, 刘浩, 陈根龙, 宫晓蕙

计算机科学 2020, 47 (12): 190-196. DOI: 10.11896/jsjkx.200800197

摘要（618）

PDF（pc）（2940KB）（710）

相比传统的图像信号处理方法分块压缩感知能够以较低的复杂度实现图像信号的采集与编码这为功耗受限的无线传感设备提供了一种较为理想的选择方案.针对传感图像的分块压缩感知提出了一种结合螺旋顺序的交叉子集导引自适应观测方法通过为不同区域分配与其内容大小相适应的采样率并且融入观测块预测可以在提高图像重构质量的同时提升观测块的编码效率.所提方法以一幅图像的中心块为起点采用螺旋式扫描顺序将图像平均分成内区、中区、外区3个区域将每个区域每隔若干块放入交叉子集3个区域的交叉子集块以基本采样率进行采样观测根据得到的观测数据结果按权重自适应分配不同的采样率给3个区域的剩余子集剩余子集分别采用给定的自适应采样率进行采样观测.此外对于每一个剩余子集中的观测块所提方法自适应地扩大该观测块的周围邻域来寻找最佳预测块对预测差值进行标量量化.实验结果表明与目前比较流行的观测方法相比所提方法不仅可以在主观上改善图像重构质量还可以在客观上将图像重构的平均率失真性能至少提升3.2%.

参考文献 | 相关文章 | 多维度评价

Select

13. 结合LoG边缘检测和增强局部相位量化的模糊图像识别

陈晓文, 刘光帅, 刘望华, 李旭瑞

计算机科学 2020, 47 (12): 197-204. DOI: 10.11896/jsjkx.191000054

摘要（431）

PDF（pc）（4315KB）（997）

针对原始的局部相位量化(Local Phase QuantizationLPQ)算法对具有模糊不变性的相位特征描述不准确、缺少对图像重要细节信息描述的缺点提出了一种结合高斯拉普拉斯(Laplace of GaussianLoG)边缘检测和增强局部相位量化(Enhanced Local Phase QuantizationELPQ)的模糊图像识别算法记为MrELPQ&MsLoG(Multi-resolution ELPQand Multi-scaleLoG).首先在频域中将图像进行短时傅里叶变换后得到的实部与虚部进行正负量化和幅值量化得到互补的符号特征ELPQ_S和幅值特征ELPQ_M;其次在空间域中利用多尺度高斯拉普拉斯与图像进行卷积得到图像空间域的边缘特征;最后将频域上的符号特征ELPQ_S和幅值特征ELPQ_M与空间域上的边缘特征结合生成最终的特征直方图采用SVM进行识别.在有模糊干扰的Brodatz和KTH-TIPS纹理库中文中提出的ELPQ算法相比原始的LPQ算法有较大的性能提升且空间域和频域结合的MrELPQ&MsLoG算法能进一步提高算法的识别性能;在具有模糊的AR、Extend YaleB人脸库和实际拍摄的铁路扣件库中将MrELPQ&MsLoG算法与目前模糊鲁棒性较好的算法进行对比发现MrELPQ&MsLoG算法保持着较高的识别率.实验结果表明MrELPQ&MsLoG算法对模糊具有较强的鲁棒性且特征提取时间较短具有实时性.

参考文献 | 相关文章 | 多维度评价

Select

14. 基于深度学习的特种车辆跨模态检索方法

邵阳雪, 孟伟, 孔德珍, 韩林轩, 刘扬

计算机科学 2020, 47 (12): 205-209. DOI: 10.11896/jsjkx.191000132

摘要（549）

PDF（pc）（2297KB）（932）

保证正在执行任务的特种车辆的道路优先通行权是合理配置城市交通资源、实施和保证应急救援的前提.特种车辆的跨模态识别是实现智慧交通的重要核心技术尤其是在智能车联网尚未成熟、未来长期存在无人驾驶和有人驾驶混合交通的环境中实现无人车对正在执行任务的特种车辆进行合理避让显得尤为重要.针对无人驾驶对特种车辆识别的需求文中构建了跨模态检索与识别网络(Cross-Modal Retrievaland Recognition NetCMR²Net)提出了一种基于深度学习的特种车辆跨模态检索和识别方法.CMR²Net由两个卷积子网络和一个特征融合网络组成卷积子网络分别用于提取特种车的图像与音频特征在高层语义空间中利用相似性度量的方法进行特征匹配以达到跨模态检索和识别的目的.在特种车跨模态数据集上进行的跨模态识别实验表明所提方法对跨模态检索和识别任务具有较高的识别率甚至在缺失一种模态的场景下也可准确识别出特种车辆.本研究对于提升"城市大脑"的性能具有重要的理论指导意义对设计、实现和改善未来智慧交通具有较高的工程应用价值.

参考文献 | 相关文章 | 多维度评价