1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    计算机图形学&多媒体 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于规则推理的足球视频任意球射门事件检测
    华晓凤, 冯娜, 于俊清, 何云峰
    计算机科学    2023, 50 (3): 181-190.   DOI: 10.11896/jsjkx.220300062
    摘要27)      PDF(pc) (2971KB)(37)    收藏
    足球视频事件检测对视频检索具有重要意义。然而,足球视频中事件较少,且主要发生在远镜头中,难以捕捉关键球员和关键动作,导致足球事件检测困难。近年来,基于深度学习的方法在足球视频事件检测上取得了一定的进展,但对事件的高层语义学习仍不够充分,检测结果有待进一步提高。如何提升足球视频事件检测的准确性是亟待解决的问题。以任意球射门事件为研究对象,提出了足球规则与深度学习相结合的事件检测模型。为了深入了解任意球射门事件的内在特性,人工总结了事件规则并在公共足球数据集上进行了验证,同时提出了规则的应用场景。针对足球视频中事件过少的问题,设计了基于规则的初始定位算法对视频进行预处理。通过多规则组合和应用,从原始视频中初步定位可能发生任意球射门事件的位置,并将其作为深度学习模型的输入进行进一步预测。在公共足球数据集上将所提模型与其他模型进行对比实验。结果表明,该模型取得了最好的效果,其精确率达到78%,召回率达到81.25%。相比其他模型,其精确率的提升尤为明显。可见,足球规则与深度学习相结合的任意球事件检测模型有效提升了任意球射门事件的检测性能,为足球视频中其他事件的检测提供了参考依据。
    参考文献 | 相关文章 | 多维度评价
    2. 一种基于三维卷积的声学事件联合估计方法
    梅鹏程, 杨吉斌, 张强, 黄翔
    计算机科学    2023, 50 (3): 191-198.   DOI: 10.11896/jsjkx.220500259
    摘要28)      PDF(pc) (3439KB)(29)    收藏
    声学事件定位与检测在监控、异常检测等任务中应用广泛,以基于卷积递归神经网络架构为代表的深度学习方法可以联合实现声学事件检测和声源定位。为提高定位与检测的综合性能,提出了一种基于三维卷积的声学事件联合估计方法SELD3Dnet。通过对输入的多通道音频计算幅度相位特征,并经过多重三维卷积结构提取高层特征表示,最后利用循环网络和全连接层实现声音事件类别和空间位置的估计。在处理多通道的声学信号特征时,三维卷积可以同时对时间、频率、信号通道3个维度进行卷积计算,最大程度地利用信号通道间的相关性,克服噪声和混响的影响。在TUT2018和TAU2019等公开数据集上进行了充分的对比实验。结果表明,所提方法在TUT2018 REAL和TUT2019 MREAL数据集上的综合性能都有显著提升。其中,在TUT2018 REAL数据集上声学事件检测的F1指标显著提升了13.9%,帧准确率显著提升了21.1%;在TUT2019 MREAL数据集上F1指标显著提升了10.8%,帧准确率显著提升了14.4%。表明所提方法能有效克服实际信号中混响的影响。
    参考文献 | 相关文章 | 多维度评价
    3. 基于特征融合的边缘引导乳腺超声图像分割方法
    白雪飞, 马亚楠, 王文剑
    计算机科学    2023, 50 (3): 199-207.   DOI: 10.11896/jsjkx.211200294
    摘要38)      PDF(pc) (3397KB)(41)    收藏
    针对乳腺超声图像边缘模糊、斑点噪声多、对比度低等问题,提出了一种融合多特征的边缘引导多尺度选择性核U-Net(Edge-guided Multi-scale Selective Kernel U-Net,EMSK U-Net)方法。EMSK U-Net采用基于U-Net的对称编解码结构可以适应小数据集医学图像分割的特点,将扩张卷积与传统卷积构成选择性核模块作用于编码路径,并提取下采样过程中的选择性核特征进行边缘检测任务,在丰富图像空间信息的同时细化边缘信息,有效缓解斑点噪声和边缘模糊的问题,在一定程度上可以提升小目标的检测精度。然后在解码路径通过多尺度特征加权聚合获取丰富的深层语义信息,多种信息之间相互补充,从而提升网络的分割性能。在3个公开的乳腺超声图像数据集上的实验结果表明,与其他分割方法相比,EMSK U-Net算法各项指标表现良好,分割性能有显著提升。
    参考文献 | 相关文章 | 多维度评价
    4. 极化自注意力约束颜色溢出的图像自动上色
    刘航, 普园媛, 吕大华, 赵征鹏, 徐丹, 钱文华
    计算机科学    2023, 50 (3): 208-215.   DOI: 10.11896/jsjkx.220100149
    摘要33)      PDF(pc) (5154KB)(28)    收藏
    自动上色可以将灰度图像转换为色彩合理的自然彩色图像,可以为老旧照片、黑白影视作品等重新恢复颜色,因此在计算机视觉和图形学领域受到广泛关注。然而,为灰度图像分配色彩是一项极具挑战性的任务,存在颜色溢出问题。为解决该问题,提出了一种极化自注意力约束颜色溢出的图像自动上色方法。首先,将前景中的实例和背景分开,降低背景对前景的上色影响,从而减少前景和背景之间的颜色溢出;然后,使用极化自注意力模块把特征分为颜色通道和空间位置两部分,使上色更加准确、具体,从而减少全局图像、实例对象内的颜色溢出;最后,结合融合模块,将全局特征和实例特征通过不同权重融合为一体,完成最终上色。实验结果表明,与ChromaGAN,MemoGAN等算法相比,所提方法在主要指标FID,LPIPS上分别提升了9.7%和10.9%,且SSIM和PSNR指标均达到最优。
    参考文献 | 相关文章 | 多维度评价
    5. 基于多粒度特征融合的叶片分类与分级方法
    刘松岳, 王欢
    计算机科学    2023, 50 (3): 216-222.   DOI: 10.11896/jsjkx.211100203
    摘要25)      PDF(pc) (2674KB)(21)    收藏
    长期以来,已有很多工作致力于研究植物叶片分类,虽然它们在公开数据集上表现较好,但实际应用并不理想,且难以应用于更复杂的问题,如叶片分级,即要求在对叶片进行分类的基础上,再对同一类的叶片进行更细级别(质量等级)的划分。为此,提出了一种新的植物叶片分类以及分级模型,该模型关注叶片的多粒度信息,并将粗粒度与细粒度进行有效融合。该模型包含粗粒度和细粒度两个分支,由粒度混合损失将两个分支联系起来,促使模型逐步学习由粗到细的粒度表征。采用了多步骤训练方式,每一步提取不同层级的特征,实现浅层特征与深层特征的融合。此外,还提出了几何通道注意力模块,该模块由空间变换和双线性注意力池化组成,使模型可以关注图像中更具区分度的局部区域,提取出的特征更具区分性。所提方法在Flavia leaf和Swedish leaf两个公开的叶片分类数据集上分别达到了99.8%和99.7%的分类准确率,且在所构建的烟叶分级数据集上达到了71.9%的分级准确率,均超过了目前最优的方法。
    参考文献 | 相关文章 | 多维度评价
    6. 基于多特征融合的油画艺术风格分类
    谢秦秦, 何朗, 徐汝利
    计算机科学    2023, 50 (3): 223-230.   DOI: 10.11896/jsjkx.211200110
    摘要29)      PDF(pc) (2615KB)(30)    收藏
    针对现有油画艺术风格分类算法忽略画面主体区域与整体效果对其艺术风格影响的问题,提出了一种基于多特征融合的油画分类算法(Multi-Feature Fusion Classifier,MFFC)。首先,基于油画艺术元素间常见的排列形式,设计重叠式图像分块法,提取油画空间特征,弥补现有算法中的构图风格缺失,同时区分主体区域与背景区域;其次,将空间特征与底层特征串联融合,增加画面元素的位置信息;最后,设计空间票选法,优先将主体区域的分类结果作为算法结果输出,进一步突出油画主体区域在分类中的作用,实现油画艺术风格的自动分类。在FS-Classifier模型创建的数据集上对所提算法进行测试,其准确率、精确率、召回率、F1-score和AUC分别为96.92%,63.69%,98.75%,98.57%和0.917,相比FS-Classifier分别提升了6.72%,5.85%,9.05%,7.1%和0.128;在公共数据集WIKIART上进行测试,并与其他6种算法进行比较,准确率至少提升了13.27%。实验结果表明,该算法有效提高了空间特征对油画艺术风格分类任务的表现性能,具有良好的实用价值。
    参考文献 | 相关文章 | 多维度评价
    7. 跨层融合和感受野扩增的SSD目标检测算法
    张卫良, 陈秀宏
    计算机科学    2023, 50 (3): 231-237.   DOI: 10.11896/jsjkx.211100281
    摘要29)      PDF(pc) (3432KB)(34)    收藏
    鉴于SSD(Single Shot Multibox Detector)不同层缺乏信息的交互以及模型感受野的限制,提出了一种改进的SSD目标检测算法——ESSD(Enhanced SSD),以提高目标检测的准确性。首先,使用SSD模型中原有的多尺度特征图,利用FPN(Feature Pyramid Networks)的思想,设计了一种跨层信息交互模块,在增强了不同层的语义信息能力的同时减小了不同层的信息差异。然后,为了提高模型的感受野和多尺度检测能力,设计了一种感受野扩增模块。最后,采用批处理归一化层缩短训练时间,以提高模型的收敛速度。为了评价ESSD的有效性,在PASCAL VOC2007测试集以及PASCAL VOC2012测试集上进行了实验。实验结果表明,在PASCAL VOC2007数据集上其mAP为82.1%且检测速度为15.7FPS,相比原有的SSD512,其mAP提升了2.3%;在PASCAL VOC2012测试集上其mAP达到了80.6%,也比SSD512高2.1%。实验证明了ESSD检测器在达到较高检测精度的情况下,仍然可以满足实时性。
    参考文献 | 相关文章 | 多维度评价
    8. 基于深度学习的可视化仪表板生成技术研究
    陈亮, 王璐, 李生春, 刘昌宏
    计算机科学    2023, 50 (3): 238-245.   DOI: 10.11896/jsjkx.230100064
    摘要39)      PDF(pc) (3758KB)(33)    收藏
    仪表板是支持制造企业开展数据可视化分析和经营决策的重要手段。为解决可视化仪表板设计与实现过程中用户对专业知识依赖性强及流程迭代繁杂的问题,提出了一种基于深度学习技术YOLOv5s算法的可视化仪表板自动识别与生成方法。首先,基于YOLOv5s算法对仪表板图像及手绘草图中包含的可视化图表组件进行检测,并针对在检测过程中出现的手绘草图中不规则线条对识别图表的干扰及误检等问题,引入CA注意力机制来增强模型对重要特征的关注及目标精确定位能力,从而提高模型的识别精度;其次,将图表检测模型部署在Web中,服务器根据模型检测结果调用封装好的可视化图表组件代码,生成多组件组合的初始仪表板;最后,基于此Web设计,开发了一款数据可视化仪表板构建平台,为用户提供可修改配置仪表板样式及数据的详细选项,以方便用户快速构建完整的仪表板。通过收集Tableau,Power BI等可视化工具产生的仪表板图像及企业应用过程中手绘仪表板草图形成数据集,基于该数据集进行实验验证,改进的模型识别精度比原YOLOv5s模型提升了2.1%,mAP为98.4%,并通过系统部署应用验证了图表识别方法及开发的平台可有效识别及生成相应图表组件,满足用户的基本需求。
    参考文献 | 相关文章 | 多维度评价
    9. 特征增强损失与前景注意力人群计数网络
    张译, 吴秦
    计算机科学    2023, 50 (3): 246-253.   DOI: 10.11896/jsjkx.220100219
    摘要23)      PDF(pc) (6985KB)(36)    收藏
    人群计数旨在准确估计图像中的总人数并呈现其分布。相关数据集中的图像通常涉及各类场景且包含多人。为节约人力,大多数数据集通常在每个人头部以单点标注作为标签。然而,点标签无法囊括人头部的完整范围,使得人群特征与分布标签的匹配难以收敛,预测值无法聚集在前景区域,严重影响密度估计图质量和模型计数准确度。为了解决这个问题,使用计数损失来约束全图上的预测值范围,并佐以像素级的分布一致损失优化密度图匹配过程。此外,复杂场景中存在许多易与人群特征混淆的背景噪声,为了避免假阳性预测对后续计数和密度图估计的干扰,提出前景分割模块和特征增强损失来自适应地聚焦前景区域,并加大前景位置上人头特征对计数的贡献,从而达到抑制背景误判的作用。此外,为了使网络更好地适应人头的多尺度形态,对每个待训练图片分别进行上下采样操作,以获得具有同目标的多尺度形态。在多个数据集上进行了实验,结果表明,与最先进的方法相比,所提方法取得了更好或更有竞争力的结果。
    参考文献 | 相关文章 | 多维度评价
    10. 基于稀疏点云分割的适应视角变化的场景识别方法
    何雄辉, 谭杰夫, 刘哲, 薛超, 杨绍武, 张拥军
    计算机科学    2023, 50 (1): 87-97.   DOI: 10.11896/jsjkx.211000118
    摘要72)      PDF(pc) (5776KB)(89)    收藏
    在机器人自主导航中,同时定位与建图负责感知周围环境并定位自身位姿,为后续的高级任务提供感知支撑。场景识别作为其中的关键模块,可以帮助机器人更加准确地感知周围环境,它通过识别当前的观测和之前的观测是否属于同一个场景来校正传感器硬件固有误差导致的误差累积。现有的方法主要关注稳定视角下的场景识别,根据两个观测之间的视觉相似性来判断它们是否属于同一个场景。然而,当观测视角发生变化时,同一个场景的观测可能存在较大的视觉差异,使得观测之间可能只是局部相似,进而导致传统方法失效,因此,一种基于稀疏点云分割的场景识别方法被提出。它将场景进行分割,以解决局部相似的问题,并且结合视觉信息和几何信息实现准确的场景描述和匹配,使得机器人能识别出不同视角下的相同场景,支撑单机的回环检测模块或多机的地图融合模块。该方法基于稀疏点云分割将每个观测分割为若干部分,分割结果对视角具有不变性,并且从每个分割部分中提取出局部词袋向量和β角直方图来准确描述其场景内容,前者包含场景的视觉语义信息,后者包含场景的几何结构信息。之后,基于分割部分匹配观测之间的相同部分,丢弃不同部分,实现准确的场景内容匹配,提高场景识别的成功率。最后,在公开数据集上的结果表明,该方法在稳定视角和变化视角下的表现均优于在场景识别领域受到较多关注的词袋模型方法。
    参考文献 | 相关文章 | 多维度评价
    11. 一种基于脉冲神经网络的星体表面岩石检测算法
    马玮琦, 袁家斌, 查可可, 范利利
    计算机科学    2023, 50 (1): 98-104.   DOI: 10.11896/jsjkx.211100149
    摘要71)      PDF(pc) (2229KB)(79)    收藏
    深空环境下对星体表面进行岩石障碍物检测是保障巡视器安全探测的重要前提。由于星载计算设备存储容量和数据处理能力受限,大规模复杂计算并不适用于遥远的深空环境;此外,传统的岩石检测算法存在复杂度较高、能耗过大等问题。因此,文中提出了一种多分类语义分割算法Spiking-Unet,利用深度脉冲神经网络实现星体表面岩石的有效检测。首先针对星体表面岩石图像中存在的类不平衡问题,构建LovaszS_CE损失函数并训练Unet网络模型;其次,获取Unet网络模型参数,并通过参数归一化方法将其映射到Spiking-Unet网络;最后,使用基于脉冲发放频率的S-softmax函数实现岩石图像像素级分类。在公开数据集Artificial Lunar Landscape上对所提算法进行了实验,结果表明,Spiking-Unet与拓扑结构相同的Unet模型相比,在精度相近的情况下,Flops减少为原来的1/1000左右,能耗降低为原来的1/600左右。
    参考文献 | 相关文章 | 多维度评价
    12. 基于移位窗口金字塔Transformer的遥感图像目标检测
    蔡肖, 陈志华, 盛斌
    计算机科学    2023, 50 (1): 105-113.   DOI: 10.11896/jsjkx.211100208
    摘要88)      PDF(pc) (4168KB)(93)    收藏
    目标检测任务是计算机视觉领域中基础且备受关注的工作,遥感图像目标检测任务因在交通、军事、农业等方面具有重要应用价值,也成为研究的一大热点。相比自然图像,遥感图像由于受到复杂背景的干扰,以及天气、小型和不规则物体等诸多因素的影响,遥感图像目标检测任务要实现较高的精度是极具挑战性的。文中提出了一种新颖的基于移位窗口Transformer的目标检测网络。模型应用了移位窗口式Transformer模块作为特征提取的骨干,其中,Transformer的自注意力机制对于检测混乱背景下的目标十分有效,移位窗口式的模式则有效避免了大量的平方级复杂度计算。在获得骨干网络提取的特征图之后,模型使用了金字塔架构以融合不同尺度、不同语义的局部和全局特征,有效地减少了特征层之间的信息丢失,并捕捉到固有的多尺度层级关系。此外,文中还提出了自混合视觉转换器模块和跨层视觉转换器模块。自混合视觉转换器模块重新渲染了深层特征图以增强目标特征识别和表达,跨层视觉转换器模块则依据特征上下文交互等级重新排列各特征层像素的信息表达。模块融入到自下而上和自上而下双向特征路径之中,以充分利用包含不同语义的全局和局部信息。所提网络模型在UCAS-AOD数据集和RSOD数据集上进行训练并测试,实验结果表明,模型在遥感图像目标检测任务上效果显著,尤其适用于不规则的目标和小目标类别,如立交桥和汽车。
    参考文献 | 相关文章 | 多维度评价
    13. 基于Transformer的多任务图像拼接篡改检测算法
    张婧媛, 王宏霞, 何沛松
    计算机科学    2023, 50 (1): 114-122.   DOI: 10.11896/jsjkx.211100269
    摘要85)      PDF(pc) (2765KB)(110)    收藏
    现有基于深度学习的图像拼接篡改检测方法大多依赖卷积操作的局部计算过程,感受野有限。此外,现有方法大多仅将篡改区域定位用于指导检测模型训练,难以学习更加丰富的篡改痕迹特征。针对上述局限性,提出了基于Transformer的多任务图像拼接篡改检测网络(Multitask Transformer-based Network,MT-Net),利用Transformer中的自注意力机制在特征提取过程获取图像像素之间的相关性,自适应地为各像素提供不同的关注度,提升检测网络对篡改痕迹的表征能力。此外,MT-Net同时考虑多个子任务从局部细化和整体感知两个方面共同引导网络学习,包括篡改区域定位、篡改边缘定位和篡改比例预测,并根据子任务特点设计了对应的损失函数来指导网络进行优化。实验结果表明,相比现有算法,所提算法在CASIA V2.0,Columbia和IDM2020这3个公开数据集上均取得了更好的检测准确性,F1值分别达到了0.808,0.913和0.675。可视化检测结果图表明,所提算法在定位拼接篡改区域时也有较好的表现。
    参考文献 | 相关文章 | 多维度评价
    14. 亮度自调节的无监督图像去雾与低光图像增强算法研究
    王斌, 梁宇栋, 刘哲, 张超, 李德玉
    计算机科学    2023, 50 (1): 123-130.   DOI: 10.11896/jsjkx.211100058
    摘要83)      PDF(pc) (3127KB)(76)    收藏
    在低质图像降质问题中,亮度偏离(如图像偏亮及偏暗)是较为常见的图像降质现象。基于全监督学习的图像增强方法面临训练数据难以获取或获取成本过高、训练数据和应用场景不一致的困境。针对以上问题,提出了一种能够克服数据依赖和亮度自适应的无监督图像增强方法。方法的具体细节为:针对图像去雾与低光增强任务,设计了一个基于通道与像素注意力的深度卷积网络,对增强图像与输入图像进行比较,采用亮度饱和度、空间一致性、照明平滑度、伪标签监督损失等多种无监督损失函数,在保证增强图像与输入图像一致性的同时,调节图像的亮度偏离程度,有效提高图像质量。实验结果表明,所提方法在客观指标及视觉效果上不仅优于传统方法和基于无监督学习的方法,甚至优于近年来的全监督图像增强方法。将所提方法与5种图像去雾方法及4种低光增强方法分别进行对比,相比性能次优的方法,其在图像去雾任务的Reside数据集上,PSNR和SSIM值分别提高了2.8 dB和0.01;在低光增强任务的SICE数据集上,PSNR和SSIM分别提高了0.56 dB和0.01。结果表明,所提无监督图像去雾与低光增强算法能够有效调节图像的亮度偏离程度,重建了亮度正常、细节清晰、对比度较好的增强复原图像,较为有效地克服了当前底层视觉任务数据难以获取、训练数据与应用数据不一致、存在域迁移的难题,提升了算法在应用中的适用性。
    参考文献 | 相关文章 | 多维度评价
    15. 基于互相关注意力的链式帧处理多目标跟踪算法
    陈云芳, 陆洋洋, 周鑫, 张伟
    计算机科学    2023, 50 (1): 131-137.   DOI: 10.11896/jsjkx.211100097
    摘要58)      PDF(pc) (3680KB)(59)    收藏
    多目标跟踪的一阶段方法因其在推理速度方面的优势逐渐成为主流。然而,与两阶段方法相比,其跟踪精度较差。一方面是因为采用单幅图像输入,目标间的关联性不强,容易导致目标丢失,另一方面忽视了检测和跟踪两个任务之间的差异性。为了减轻上述限制,提出了一种基于互相关注意力的链式帧处理多目标跟踪算法(MOT-CCC)。MOT-CCC将连续的两帧图片作为输入,将目标关联问题转化为两帧检测框对回归的问题,增强了目标间的关联性;采用互相关注意力模块将检测任务和身份识别任务解耦,以平衡并减少这两个任务之间的竞争。此外,所提算法将目标检测、特征提取和数据关联3个模块融合到一个网络中,实现了端到端的优化,提高了跟踪准确性,减少了跟踪耗时。在MOT16和MOT17基准测试中,MOT-CCC比原有的基准CTracker算法的MOTA提高了1.3%,FP减少了13%。
    参考文献 | 相关文章 | 多维度评价
    16. 融合注意力特征的无锚框视觉目标跟踪方法
    李雪辉, 张拥军, 史殿习, 徐化池, 史燕燕
    计算机科学    2023, 50 (1): 138-146.   DOI: 10.11896/jsjkx.211000083
    摘要74)      PDF(pc) (3601KB)(82)    收藏
    目标跟踪作为计算机视觉领域的一个重要分支,在智能视频监控、人机交互和自动驾驶等诸多领域具有很高的研究价值。尽管目标跟踪近年来已取得较好的发展,但在复杂跟踪环境下,遮挡、目标形变、光照变化等因素仍会导致跟踪精度下降,跟踪性能不稳定。因此,提出了一种融合注意力特征的无锚框视觉目标跟踪方法(Anchor-Free object Tracking Method,AFTM)。首先,在分类和回归过程中构建自适应生成的注意力权重因子组,实现了一种高效的自适应响应图融合策略,提高了目标定位和边界框尺度计算的准确性;其次,针对数据集中样本类别不均衡的现象,使用可动态缩放的交叉熵损失作为目标定位网络的损失函数,修正模型的优化方向,使跟踪性能更加稳定可靠;最后,设计相应的学习率调整策略,对一定数量的模型进行随机权重平均,增强模型的泛化能力。公开数据集上的实验结果表明,在复杂跟踪环境下,AFTM具有更高的精度和更稳定的跟踪效果。
    参考文献 | 相关文章 | 多维度评价
    17. 残差注意力与多特征融合的图像去模糊
    赵倩, 周冬明, 杨浩, 王长城
    计算机科学    2023, 50 (1): 147-155.   DOI: 10.11896/jsjkx.211100161
    摘要123)      PDF(pc) (4889KB)(83)    收藏
    动态场景下的非均匀盲去模糊是一个极具挑战性的计算机视觉问题。虽然基于深度学习的去模糊算法已经取得很大进展,但仍存在去模糊不彻底和细节丢失等问题。针对这些问题,提出了一种基于残差注意力和多特征融合的去模糊网络。与现有的单分支网络结构不同,所提网络由两个独立的特征提取子网组成。主干网络采用基于U-Net结构的编码器-解码器网络来获取不同层级的图像特征,并使用残差注意力模块对特征进行筛选,从而自适应地学习图像的轮廓特征和空间结构特征。另外,为了补偿主干网络中下采样操作和上采样操作造成的信息损失,进一步利用具有大感受野的深层次加权残差密集子网来提取特征图的细节信息。最后,使用多特征融合模块逐步融合原分辨率模糊图像以及主干网络和加权残差密集子网生成的特征信息,使得网络能够以整体的方式自适应地学习更有效的特征来复原模糊图像。为了评估网络的去模糊效果,在基准数据集GoPro数据集和HIDE数据集上进行了测试,结果表明所提方法能够有效复原模糊图像。与现有方法相比,提出的去模糊算法在视觉效果上和客观评价指标上均取得了很好的去模糊效果。
    参考文献 | 相关文章 | 多维度评价
    18. 基于地形认知的布料模拟滤波算法
    孟华儒, 吴国伟
    计算机科学    2023, 50 (1): 156-165.   DOI: 10.11896/jsjkx.211100183
    摘要52)      PDF(pc) (3077KB)(65)    收藏
    数字高程模型(Digital Elevation Model,DEM)可以反映一个地区的地形特征,具有广泛的科研应用。对激光雷达点云数据进行点云滤波以提取地面点,并对地面点进行插值是构建DEM的常用步骤,其中在点云滤波过程中使用的滤波算法直接影响到最终构建的DEM的精度。布料模拟滤波(Cloth Simulation Filtering,CSF)算法作为一种点云滤波算法,具有模型简单、滤波效率高等优点,其针对平坦地区的滤波精度较高,但在处理复杂地形时会因布料模型的内部弹力以及重力惯性等因素,导致滤波结果的精度较差。为了提升CSF算法在处理复杂地形时的滤波精度和地形适应性,提高其构建DEM的精度,提出了基于地形认知的布料模拟滤波算法(Cloth Simulation Filtering Algorithm with Topography Cognition,CSFTC)。该算法提出了地形认知模型,基于点云数据点的局部分布特征构建认知模型,并将其扩展为粗精度数字高程模型(Rough Digital Elevation Mo-del,R-DEM);通过点云地形归一化实现宏观地形趋势与微观地形细节的分离;最终使用经典CSF算法结合R-DEM实现了点云滤波。文中设计了CSFTC算法与经典CSF算法的对比实验,CSFTC算法的平均总误差率从9.30%下降到5.10%,平均II类误差率从30.02%下降到8.46%。实验结果表明,与经典CSF算法相比,CSFTC算法在平坦地区的滤波精度小幅上升,对复杂地形的滤波精度明显上升,提升了算法的地形适应性;II类误差显著下降有助于提高构建的DEM的精度。
    参考文献 | 相关文章 | 多维度评价
    19. 变分推断域适配驱动的城市街景语义分割
    金玉杰, 初旭, 王亚沙, 赵俊峰
    计算机科学    2022, 49 (11): 126-133.   DOI: 10.11896/jsjkx.220500193
    摘要89)      PDF(pc) (1978KB)(191)    收藏
    街景语义分割技术旨在从图像中识别分割出行人、障碍物、道路、标志物等要素,为车辆提供道路上自由空间的信息,是自动驾驶的关键技术之一。高性能的语义分割系统非常依赖于训练时所需的大量真实标注数据,然而为图像中的每个像素进行标注成本很高,往往难以实现。一种低成本获取标注数据的方法是利用视频游戏收集逼真且标注成本低的合成图片,来帮助机器学习模型对现实世界中的图片作语义分割,这对应域适配技术。与当前基于VC维理论或Rademacher复杂度理论的主流语义分割域适配方法不同,受基于PAC-Bayes理论的兼容伪标签函数的域适配目标域Gibbs风险上界启发,考虑假设空间的平均情况而非最差情况,以避免主流方法过度约束隐空间上的领域差异,从而导致目标域泛化误差上界未能被有效估计并优化的问题。在上述思想的指导下,提出了一种变分推断语义分割域适配方法(VISA),该方法在利用Dropout变分族进行变分推断求解假设空间上的理想后验分布的同时能快速得到一个近似Bayes分类器,并通过目标域熵最小化和筛选像素点使得对风险上界的估计更加准确。在街景语义分割数据集GTA5→Cityscapes上的适配的实验结果表明,VISA方法相比基线方法平均交并比提高了0.5%~6.6%,且在行人、车辆等关键街景要素上具有较高的识别准确率。
    参考文献 | 相关文章 | 多维度评价
    20. 基于粒度感知和语义聚合的图像-文本检索网络
    缪岚芯, 雷雨, 曾鹏鹏, 李晓瑜, 宋井宽
    计算机科学    2022, 49 (11): 134-140.   DOI: 10.11896/jsjkx.220600010
    摘要97)      PDF(pc) (2980KB)(153)    收藏
    图像-文本检索是视觉-语言领域中的基本任务,其目的在于挖掘不同模态样本之间的关系,即通过一种模态样本来检索具有近似语义的另一种模态样本。然而,现有方法大多高度依赖于将图像特定区域和句中单词进行相似语义关联,低估了视觉多粒度信息的重要性,导致了错误匹配以及语义模糊嵌入等问题。通常,图片包含了目标级、动作级、关系级以及场景级的粗、细粒度信息,而这些信息无显式多粒度标签,难以与模糊的文本表达直接一一对应。为了解决此问题,提出了一个粒度感知和语义聚合(Granularity-Aware and Semantic Aggregation,GASA)网络,用于获得多粒度视觉特征并缩小文本和视觉之间的语义鸿沟。具体来说,粒度感知的特征选择模块挖掘视觉多粒度信息,并在自适应门控融合机制和金字塔空洞卷积结构的引导下进行了多尺度融合。语义聚合模块在一个共享空间中对来自视觉和文本的多粒度信息进行聚类,以获得局部表征。模型在两个基准数据集上进行了实验,在MSCOCO 1k上R@1优于最先进的技术2%以上,在Flickr30K上R@Sum优于之前最先进的技术4.1%。
    参考文献 | 相关文章 | 多维度评价
    21. 基于边缘引导的自校正皮肤检测
    郑顺源, 胡良校, 吕晓倩, 孙鑫, 张盛平
    计算机科学    2022, 49 (11): 141-147.   DOI: 10.11896/jsjkx.220600012
    摘要111)      PDF(pc) (4107KB)(187)    收藏
    皮肤检测作为计算机视觉领域中的研究热点多年来被广泛研究,且仍然是一项具有挑战性的任务。尽管目前的方法在许多常规场景下取得了成功,但仍然存在预测不完整和泛化能力差等问题。针对该问题,提出了一种基于边缘引导的神经网络,并且由大量经过自校正的皮肤检测数据驱动网络训练,实现鲁棒的皮肤检测。首先,提出一种基于多任务学习的网络,对皮肤检测和边缘检测两个任务进行联合优化。进一步,提出边缘注意力模块,将预测所得的边缘检测结果通过该模块重新融合到皮肤检测支路中。最后,提出一种自校正算法,通过借助人体解析任务中的大量低质量数据以增强皮肤检测模型的泛化能力。通过自校正算法对带噪声标签的优化,逐步消除使用带噪声标签进行监督训练的副作用。实验结果表明,所提皮肤检测方法优于现有的其他方法。
    参考文献 | 相关文章 | 多维度评价
    22. 基于分解极限学习机的手写字符识别方法
    何玉林, 李旭, 金一, 黄哲学
    计算机科学    2022, 49 (11): 148-155.   DOI: 10.11896/jsjkx.211200265
    摘要112)      PDF(pc) (3522KB)(146)    收藏
    手写字符识别是图像识别的一个重要分支,是基于数据挖掘和机器学习技术对数字、字母和文字等的手写体进行识别。当前手写字符识别方法主要集中在对不同深度学习模型的完善和改进上,其中多层极限学习机由于其快于深度信念网络和深度玻尔兹曼机的训练速度以及更高的识别精度引起了学术界和工业界的广泛关注。但是,多层极限学习机的预测表现极易受随机权重的影响,层数越多影响就越明显。文中在深入分析浅层极限学习机训练模式的基础上,提出了一种基于隐含层输出矩阵分解的浅层极限学习机模型,并将其应用于对手写字符的识别。分解极限学习机不需要对手写字符图像进行特征提取,而是通过对大规模隐含层输出矩阵的分解来获得极限学习机的输出层权重。相比深层极限学习机,分解极限学习机降低了基于极限学习机的手写字符识别模型训练的随机性。同时,在MNIST类数据集(即MNIST,EMNIST,KMNIST和K49-MNIST)上的比较结果表明,在相同的训练时间下,分解极限学习机能够获得优于多层极限学习机的识别精度;在相同的识别精度下,分解极限学习机的训练时间明显短于多层极限学习机。实验结果证实了分解极限学习的可行性以及在处理手写字符识别问题上的有效性。
    参考文献 | 相关文章 | 多维度评价
    23. 基于时序信息对齐的连续手语跨模态知识蒸馏
    肖正业, 林世铨, 万修安, 方昱春, 倪兰
    计算机科学    2022, 49 (11): 156-162.   DOI: 10.11896/jsjkx.220600036
    摘要108)      PDF(pc) (2645KB)(98)    收藏
    近年来,连续手语识别的研究工作主要围绕RGB模态的数据展开,并且在现实场景数据集和实验室采集数据集上都取得了显著进展。然而,RGB模态的处理对设备计算能力具有很高的要求,而骨骼关键点模态则由于输入数据复杂度相对低,因此处理速度更快,只是在识别性能上弱于RGB模态。为了综合两种方法的优点,文中提出了一种基于时序关联信息对齐的跨模态知识蒸馏方法(Temporally Related Knowledge Distillation,TRKD)。该方法使用RGB模态的神经网络作为教师网络来指导使用骨骼关键点模态的学生网络,以快速准确地实现连续手语识别。由于教师网络对手语语境的理解能力十分值得学生网络学习,因此提出了具有先验信息以及自适应学习方法的图卷积网络来提取两类模态中的时序关联特征,并通过特征对齐来实现教学。在特征对齐过程中,在教师网络中引入可学习参数会导致教师提供的监督信息丢失。为了解决这个问题,所提出的TRKD方法引入了自监督学习中的对比学习来提供监督信息,从而实现了教师网络与学生网络在时序关联特征上的对齐。文中在Phoenix-2014手语数据集上组织了多项蒸馏任务,以验证所提方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    24. 背景估计和局部自适应集成的手写图像二值化
    何皇兴, 陈爱国, 王蛟龙
    计算机科学    2022, 49 (11): 163-169.   DOI: 10.11896/jsjkx.210900225
    摘要93)      PDF(pc) (4157KB)(126)    收藏
    手写文档图像中存在光照不均、笔墨浸染、纸张退化、阴影等复杂情况,针对文档图像在复杂背景下二值化后OCR效果不理想的问题,提出了一种对改进的背景估计和局部自适应集成的二值化方法。首先利用局部自适应方法得到具有高召回率的二值化图像,然后对背景估计的方法进行改进得到具有高精确率的二值化图像,最后基于连通域的方法将两种类型的图像集成得到结果。使用4种评价指标在DIBCO2013和DIBCO2016手写数据集上进行了对比实验,结果表明该方法整体性能优于Otsu,Wolf,Niblack,Sauvola,Singh和Howe等经典算法。
    参考文献 | 相关文章 | 多维度评价
    25. 基于多尺度特征融合的驾驶员注意力分散检测方法
    张宇欣, 陈益强
    计算机科学    2022, 49 (11): 170-178.   DOI: 10.11896/jsjkx.211000040
    摘要124)      PDF(pc) (2813KB)(181)    收藏
    近年来,道路交通事故的发生逐年增加。驾驶员注意力不集中是造成交通事故的主要原因之一。该项工作利用多源数据来检测驾驶员是否注意力分散。由于每个数据源能为其余数据源提供一定的信息,即多源数据之间的关联性较强,因此对不同来源的数据进行同等处理或对多源特征进行简单的连接整合会导致特征耦合度高,不能保证挖掘任务的有效性。另外,注意力分散驾驶可能受到许多因素的影响,当已知类别的集合中不存在驾驶员注意力分散的类型时,常见的有监督方法可能会导致分类错误。对此,提出了一种基于多尺度特征融合的驾驶员注意力分散检测方法(Multi-Scale Feature Fusion Network,MSFFN)。首先,通过多个嵌入式子网络从多源数据中学习低维表示。然后,提出一种多尺度特征融合方法,从时空关联性的角度聚合这些特征表示,降低多源特征之间的耦合度。最后,设计基于卷积长短期记忆的编解码模型进行无监督检测。在训练阶段,模型仅对正常驾驶实例进行训练,确定正常数据的一类分类边界。在检测阶段,计算模型重构误差并将其作为每一个测试数据的评分,从而做出细粒度的检测决策。该方法在公开的驾驶员行为数据集上取得了很好的实验结果,优于现有方法。
    参考文献 | 相关文章 | 多维度评价
    26. 基于优化YOLO-V4的交通标志检测识别方法
    潘惠苹, 王敏琴, 张福泉
    计算机科学    2022, 49 (11): 179-184.   DOI: 10.11896/jsjkx.220300251
    摘要167)      PDF(pc) (3021KB)(209)    收藏
    交通标志检测识别是自动驾驶系统的核心功能,为了实时准确地识别交通标志,在YOLO-V4的基础上进行改进,并结合了空间金字塔池化(Spatial Pyramid Pooling,SPP)模块。首先,为了提高分辨率和增大感受野,将原特征图3个尺度的分辨率更改为26×26和52×52;然后,在连接层中添加SPP模块,消除网络对固定尺度的约束,在最大池化层中得到最优特征,改善网络性能。实验中,利用行车记录仪采集各种交通标志图像,与其他优秀方法相比,所提方法取得了更优的性能,其平均检测识别准确度达99.0%,平均检测时间为0.449 s,达到了实时检测的要求。
    参考文献 | 相关文章 | 多维度评价
    27. 面向复杂场景的行人重识别综述
    张敏, 余增, 韩云星, 李天瑞
    计算机科学    2022, 49 (10): 138-150.   DOI: 10.11896/jsjkx.211200207
    摘要439)      PDF(pc) (3098KB)(503)    收藏
    行人重识别(Person Re-Identification,简称Re-ID)旨在研究多个不相交摄像头间特定行人的匹配问题。文中首次以复杂场景中需要克服的挑战为行人重识别论文的分类依据,将2010-2021年期间发表的研究成果分为7类,即姿势问题、遮挡问题、照明问题、视角问题、背景问题、分辨率问题以及开放性问题,该分类方式有利于研究人员从实际需求出发,根据要解决的问题找到相应的解决方案。首先回顾行人重识别的研究背景、意义及研究现状,总结当前主流的行人重识别框架,统计了2013年以来发表在三大计算机视觉顶级会议CVPR,ICCV以及ECCV的论文情况和国家基金项目中Re-ID的相关项目情况;其次就复杂场景中面临的七大挑战,分别从问题成因和解决方案两方面对现有文献展开分析,归纳总结出处理各类挑战的主流方法;然后给出了行人重识别研究中泛化性较高的方法,并列举了当前行人重识别研究的难点;最后讨论了行人重识别未来的发展趋势。
    参考文献 | 相关文章 | 多维度评价
    28. 基于空间和多层级联合编码的图像描述算法
    方仲俊, 张静, 李冬冬
    计算机科学    2022, 49 (10): 151-158.   DOI: 10.11896/jsjkx.210900159
    摘要117)      PDF(pc) (2444KB)(111)    收藏
    图像描述是图像理解领域的热点研究课题之一,它是结合计算机视觉和自然语言处理的跨媒体数据分析任务,通过理解图像内容并生成语义和语法都正确的句子来描述图像。现有的图像描述方法多采用编码器-解码器模型,该类方法在提取图像中的视觉对象特征时大多忽略了视觉对象之间的相对位置关系,但它对于正确描述图像的内容是非常重要的。基于此,提出了基于Transformer的空间和多层级联合编码的图像描述方法。为了更好地利用图像中所包含的对象的位置信息,提出了视觉对象的空间编码机制,将各个视觉对象独立的空间关系转换为视觉对象间的相对空间关系,以此来帮助模型识别各个视觉对象间的相对位置关系。同时,在视觉对象的编码阶段,顶部的编码特征保留了更多的贴合图像语义信息,但丢失了图像部分视觉信息,考虑到这一点,文中提出了多层级联合编码机制,通过整合各个浅层的编码层所包含的图像特征信息来完善顶部编码层所蕴含的语义的信息,从而获取到更丰富的贴合图像的语义信息的编码特征。文中在MSCOCO数据集上使用多种评估指标(BLEU,METEOR,ROUGE-L和 CIDEr等)对提出的图像描述方法进行评估,并通过消融实验证明了提出的基于空间的编码机制以及多层级联合编码机制能够辅助产生更为准确有效的图像描述语句。对比实验结果表明,所提方法能够产生准确、有效的图像描述并优于大多数最新的算法。
    参考文献 | 相关文章 | 多维度评价
    29. 一种鲁棒的双教师自监督蒸馏哈希学习方法
    苗壮, 王亚鹏, 李阳, 王家宝, 张睿, 赵昕昕
    计算机科学    2022, 49 (10): 159-168.   DOI: 10.11896/jsjkx.210800050
    摘要152)      PDF(pc) (4472KB)(119)    收藏
    为了提高无监督哈希学习的性能,实现鲁棒的哈希图像检索,提出了一种鲁棒的双教师自监督蒸馏哈希学习方法。该方法包括自监督双教师学习和鲁棒哈希学习两个阶段:第一阶段设计了一种改进的聚类算法,有效提高了硬伪标签的标注精度,而后通过微调教师网络得到了图像的初始软伪标签;第二阶段提出了一种结合混合去噪和双教师共识去噪策略的软伪标签去噪方法,有效去除了初始软伪标签中的噪声,而后利用蒸馏学习将双教师网络中的信息通过去噪软伪标签传递给学生网络,进而获得无标签图像的鲁棒哈希码。在CIFAR-10,FLICKR25K和EuroSAT上进行了实验,实验结果表明,与TBH方法相比,在CIFAR-10上所提方法的MAP平均提高了18.6%;与DistillHash方法相比,在FLICKR25K上所提方法的MAP平均提高了2.4%;与ETE-GAN方法相比,在EuroSAT上所提方法的MAP平均提高了18.5%。
    参考文献 | 相关文章 | 多维度评价
    30. 基于多阶段多生成对抗网络的互学习知识蒸馏方法
    黄仲浩, 杨兴耀, 于炯, 郭亮, 李想
    计算机科学    2022, 49 (10): 169-175.   DOI: 10.11896/jsjkx.210800250
    摘要110)      PDF(pc) (2029KB)(211)    收藏
    针对传统的知识蒸馏方法在图像分类任务中对知识蒸馏的效率不高、阶段训练方式单一、训练过程复杂且难收敛的问题,设计了一种基于多阶段多生成对抗网络(MS-MGANs)的互学习知识蒸馏方法。首先,将整个训练过程划分为多个阶段,得到不同阶段的老师模型,用于逐步指导学生模型,获得更好的精度效果;其次,引入逐层贪婪策略取代传统的端到端训练模式,通过基于卷积块的逐层训练来减少每阶段迭代过程中需优化的参数量,进一步提高模型蒸馏效率;最后,在知识蒸馏框架中引入生成对抗结构,使用老师模型作为特征辨别器,使用学生模型作为特征生成器,促使学生模型在不断模仿老师模型的过程中更好地接近甚至超越老师模型的性能。在多个公开的图像分类数据集上对所提方法和其他流行的知识蒸馏方法进行对比实验,实验结果表明所提知识蒸馏方法具有更好的图像分类性能。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共10页 共289条记录