计算机科学

第50卷第12期目录

计算机科学. 2023, 50 (12): 0-0.

摘要 ( 408 )

PDF(257KB) ( 848 )

相关文章 | 多维度评价

过程间流敏感的指针分析技术研究

帅东昕, 葛丽丽, 谢金言, 张迎周, 薛渝川, 杨嘉毅, 密杰, 卢跃

计算机科学. 2023, 50 (12): 1-13. doi:10.11896/jsjkx.221000195

摘要 ( 595 )

PDF(2019KB) ( 2125 )

参考文献 | 相关文章 | 多维度评价

指针分析技术是一种基础的静态程序分析技术,也是软件安全方向的研究热点之一,在软件缺陷检测、恶意代码分析、程序验证、编译器优化等应用场景中发挥着重要的作用,指针分析的精度在这些应用场景中至关重要。流敏感分析和过程间分析是提高指针分析精度最有效的两种技术。文中对现有的提高过程间流敏感指针分析精度的技术进行总结,从为提高精度所消除的信息入手,将分析方法分为两大类:一类是消除分析中的虚假信息,以避免指向信息沿虚假的返回路径或是虚假调用关系传播;另一类是消除分析中保守的指向关系,在每个程序点处根据设置的规则尽可能确定指针的唯一指向,而不是笼统地计算指针的多个可能指向。据此,详细比较了过程间流敏感指针分析技术的异同,并对指针分析技术未来的研究方向进行了展望。

软件缺陷标题质量的实证研究

续永, 孙龙飞, 张汤浩然, 毛新军

计算机科学. 2023, 50 (12): 14-23. doi:10.11896/jsjkx.230300211

摘要 ( 532 )

PDF(2840KB) ( 1879 )

参考文献 | 相关文章 | 多维度评价

软件缺陷标题用简洁的语言描述了软件缺陷的关键信息,有助于软件开发者快速地掌握软件缺陷的梗概,进而高效地开展软件缺陷管理工作。当前诸多软件开发实践中可以发现,软件缺陷标题的质量参差不齐,存在冗长、晦涩、缺乏对关键信息的描述等问题,导致难以阅读和理解,影响了软件缺陷管理的效率和质量。因此有必要深入探究影响软件缺陷标题质量的具体因素以及当前软件缺陷标题的质量情况。文中围绕这两个方面的问题开展了定性和定量相结合的实证研究,选取190个在线文档进行定性分析以获取开发者对缺陷标题质量的需求,基于分析结果采取GQM范式构建了缺陷标题质量度量模型,并以此对GitHub中5个开源项目的1 804个软件缺陷标题进行质量问题普遍性分析。研究结果表明:1)开发者主要关注软件缺陷标题4个方面的质量需求,即简洁(110,58%)、清楚(65,34%)、提供期望信息(157,83%)和提供具体描述(67,35%);2)70%的软件缺陷标题存在不同程度的质量问题。缺乏期望信息和描述不具体是最常见的两类质量问题,42%的软件缺陷标题缺乏期望信息,24%的软件缺陷标题需要补充具体描述。文中的研究发现有助于指导报告者提交高质量的软件缺陷标题。

基于GAN数据增强的软件缺陷预测聚合模型

徐金鹏, 郭新峰, 王瑞波, 李济洪

计算机科学. 2023, 50 (12): 24-31. doi:10.11896/jsjkx.221100171

摘要 ( 677 )

PDF(1772KB) ( 2404 )

参考文献 | 相关文章 | 多维度评价

在软件缺陷预测任务中,通常基于C&K等静态软件特征数据集,使用机器学习分类算法来构建软件缺陷预测(SDP)模型。然而,大多数静态软件特征数据集中缺陷数较少,数据集的类不平衡问题较为严重,导致学习到的SDP模型的预测性能较差。文中基于生成对抗网络(GAN),并利用FID得分筛选生成正例样本数据,增强正例样本量,然后在组块正则化m×2交叉验证(m×2BCV)框架下,通过众数投票法聚合多个子模型的结果,最终构成SDP模型。以PROMISE数据库下的20个数据集为实验数据集,采用随机森林算法构建SDP聚合模型。实验结果表明,与传统的随机上采样、SMOTE、随机下采样相比,所提SDP聚合模型的F1平均值分别提高了10.2%,5.7%,3.4%,且F1的稳定性也得到相应提高;所提SDP聚合模型在20个数据集的评测中,有17个F1值最高。从AUC指标来看,所提方法与传统的采样方法没有明显差异。

基于录制回放的移动应用可访问性增强方法

李向民, 沈立炜, 董震

计算机科学. 2023, 50 (12): 32-48. doi:10.11896/jsjkx.230300164

摘要 ( 455 )

PDF(5601KB) ( 1827 )

参考文献 | 相关文章 | 多维度评价

移动应用的可访问性指在不受身体和认知障碍的影响下便捷地使用移动应用的能力,其对老年人与残疾人群体具有重要意义。缩短一个应用使用过程中的交互路径(减少操作步骤数)是增强移动应用可访问性的一种重要方式。录制回放技术基于所录制的脚本自动执行交互过程中的固定操作,实现交互操作的缩减。然而,现有的录制回放工具仍存在局限性,包括依赖ROOT权限或使用侵入式手段才能进行录制并实现脚本可迁移。另外,已有工具录制的脚本不支持参数化的操作。针对这些问题,提出了基于录制回放的移动应用可访问性增强方法。在该方法的录制过程中,以可访问性服务为媒介,避免申请ROOT权限或使用侵入式手段,设计路径索引算法保证脚本的可迁移性,设计脚本参数化算法记录参数化操作,从而生成具有终端迁移性和操作数据泛化性的应用执行脚本。基于该方法开发了录制回放原型工具RRA并构建了面向10个流行应用的50个常见执行脚本。使用这些脚本在同一设备上的回放成功率为80%,与对比方法SARA相当。对RRA成功回放的40个脚本中的5个脚本进行参数化录制,在同一设备上的回放成功率达100%。对两种方法均能录制成功的29个脚本以及5个参数化脚本进行迁移执行,RRA的回放成功率为94%,高于SARA。

面向JavaScript引擎报错机制的类别导向模糊测试方法

卢凌, 周志德, 任志磊, 江贺

计算机科学. 2023, 50 (12): 49-57. doi:10.11896/jsjkx.221200166

摘要 ( 385 )

PDF(1646KB) ( 1849 )

参考文献 | 相关文章 | 多维度评价

报错机制是JavaScript引擎必不可少的一部分。面对错误的程序,JavaScript引擎报错机制应输出合理的错误信息,指出错误的原因和位置,帮助开发人员修复错误。然而,JavaScript引擎报错机制中存在会阻碍开发人员修复错误的缺陷。文中提出了首个面向JavaScript引擎报错机制的类别导向模糊测试方法CAFJER。给定一个种子程序,CAFJER首先为其选择一个目标类别的错误信息,并进行动态分析得到其上下文信息。其次,CAFJER根据种子程序的上下文信息生成能触发目标类别错误信息的测试用例。然后,CAFJER将生成的测试用例输入不同JavaScript引擎中进行差分测试。若输出的错误信息间有所差异,则说明其中可能存在缺陷。最后,CAFJER自动过滤重复的和无效的测试用例,有效减少了人工的参与。为了验证CAFJER的有效性,将CAFJER与目前先进的相似方法JEST和DIPROM进行比较,实验结果表明,CAFJER在JavaScript引擎报错机制中发现的独特缺陷数分别是JEST和DIPROM的2.17倍和26倍。在为期3个月的实验中,CAFJER还向开发者提交了17个缺陷报告,其中7个已被确认。

基于测试用例自动化生成的协议模糊测试方法

徐威, 武泽慧, 王子木, 陆丽

计算机科学. 2023, 50 (12): 58-65. doi:10.11896/jsjkx.221000225

摘要 ( 644 )

PDF(2254KB) ( 1750 )

参考文献 | 相关文章 | 多维度评价

网络协议作为设备之间交互的规范,在计算机网络中发挥着至关重要的作用。协议实体中的漏洞会使设备遭受远程攻击,存在巨大的安全隐患。模糊测试是发现程序中安全漏洞的重要方法。在协议进行模糊测试之前需要对其进行逆向分析,在协议格式以及状态机模型的指导下生成高质量的测试用例。但上述过程中,测试用例生成需要手工构造,并且构造的测试用例难以覆盖深层次状态。针对上述问题,提出了一种自动化的测试用例生成技术。在模板中定义测试用例生成规则,基于状态迁移路径生成算法构建完备的测试路径,有效地对协议程序进行模糊测试。实验结果表明,与当前先进的协议模糊器Boofuzz相比,所提方法的有效测试用例生成数量增加了51.8%。在4个真实软件中进行测试,验证了3个已公开漏洞,同时发现了一个新的缺陷并得到了开发人员的确认。

RVTDS:面向微处理器的追踪调试系统

高轩, 何港兴, 车文博, 扈啸

计算机科学. 2023, 50 (12): 66-74. doi:10.11896/jsjkx.230100030

摘要 ( 459 )

PDF(2922KB) ( 1617 )

参考文献 | 相关文章 | 多维度评价

软件调试是嵌入式系统开发中最具挑战性的难点之一。在进行高复杂性、高实时性系统调试时,单步-断点时间开销大,易破坏程序执行行为;采用串接机制的JTAG接口,在实现对处于工作状态的复杂多核处理器的并行访问时存在缺陷。片上追踪调试技术通过专用硬件非侵入地获取程序执行状态,有效解决了上述问题。现有的片上追踪调试技术相关研究以追踪完整信息为主,易产生大量无意义的数据;此外,也未考虑压缩后的数据在窄总线上的传输问题。文中设计并实现了一种基于RISC-V指令集的面向多核微处理器的非侵入式追踪调试系统RVTDS,通过复用RISC-V核内平台级别中断控制器,解决多核微处理器高速并行调试时的数据丢失问题;提出了面向片上总线的数据流追踪方案和基于指令位域匹配的控制流过滤机制以实现信息筛选,提供总线带宽统计功能;提出了基于差分编码的数据压缩方法,数据平均压缩率达82%以上;提出了一种数据打包方案以实现窄总线上的数据传输问题,每拍有效数据平均可容纳约1.5个路径信息。系统验证结果表明,RVTDS与传统片上追踪调试方法相比,追踪数据量小,可以灵活高效地完成复杂多核微处理器多种片内运行信息的采集、传输和存储。

基于CodeBERT的设计模式语言模型

陈时非, 刘东, 江贺

计算机科学. 2023, 50 (12): 75-81. doi:10.11896/jsjkx.230100115

摘要 ( 480 )

PDF(2161KB) ( 2235 )

参考文献 | 相关文章 | 多维度评价

设计模式是对实际软件设计方案的经验性总结,是软件开发中辅助软件设计的有效方案之一。现有设计模式挖掘研究的任务大多是在源代码中识别设计模式的实例,少有考虑用自然语言语料对设计模式建模。为了提升设计模式语言分类模型的推荐效果,将代码、类图或对象协作纳入考虑范围,提出了一种基于CodeBERT的设计模式分类挖掘模型dpCodeBERT,以实现自然语言与代码语言的对照理解。首先,通过随机组合合成多分类算法数据和代码搜索数据作为模型输入,dpCodeBERT模型能够获取transformer层中的模型为令牌生成的注意力权重;然后,分析令牌和语句注意力权重以发现更有效的模型输入类别,进一步改造训练输入;最后,dpCodeBERT模型能够通过全连接层将分布式特征映射到样本空间并输出复数值的方式实现具体软件工程任务,如设计模式选择和设计模式代码搜索任务。在拥有80个软件设计问题的设计模式选择任务的数据集上的实验结果显示,相比同类基准模型,所提模型在设计模式检测准确率(RCDDP)和平均倒数排名(MRR)两个指标上平均提升了10%～20%,设计模式选择更加准确。通过深度研究模型数据需求,dpCodeBERT挖掘了CodeBERT对类级代码的理解,探索了CodeBERT在设计模式挖掘中的应用,具有预测准确、拓展性强等特点。

RPA流程标准化定义与设计

赖琪, 蔡宇辉, 夏斯琼, 谢晓全, 刘沛, 李肯立

计算机科学. 2023, 50 (12): 82-88. doi:10.11896/jsjkx.230100020

摘要 ( 574 )

PDF(1745KB) ( 1977 )

参考文献 | 相关文章 | 多维度评价

为解决机器人流程自动化(Robotic Process Automation,RPA)领域缺乏统一流程描述方法的问题,文中提出了一种用于定义和描述RPA流程的规范,主要包括RPA流程中的各类对象,可用于分析复杂RPA应用场景;同时,为更好地定义与描述工作流系统的流程,并解决RPA领域暂无流程建模标准而导致的流程脚本不兼容问题,以业务流程模型和符号(Business Process Model and Notation,BPMN)标准为基础,定义了一套RPA流程建模符号及标签系统。最后,以一种银行系统的典型业务流程为例,展示了使用该规范定义与描述此业务流程的结果,并使用Petri网进行了流程的正确性证明。

基于条带配对合并算法的局部可修复码冗余度转换机制

杜清鹏, 许胤龙, 吴思

计算机科学. 2023, 50 (12): 89-96. doi:10.11896/jsjkx.221100257

摘要 ( 601 )

PDF(1990KB) ( 1889 )

参考文献 | 相关文章 | 多维度评价

相比传统的多副本技术,纠删码是一种以高修复代价换取低存储开销的数据冗余机制。局部可修复码是一类具有低修复代价的纠删码,被广泛应用在大数据存储系统中。为了应对动态变化的工作负载和存储介质动态改变的故障率,现代存储系统需要对纠删码数据进行冗余度转换,以调节数据访问性能和可靠性。设计了一种基于条带配对合并的局部可修复码冗余度转换方法,通过选择特定位置的条带进行配对合并,实现了冗余度转换与数据布局的解耦合;进一步通过设计代价量化方法与最优化模型,降低了冗余度转换的网络通信开销。相比设计数据布局的算法,所提算法有与其近似的性能,但对数据布局无限制,可级联迭代地多次运行。实验结果表明,在两种冗余度转换设置下,所提算法均近似于理论最优值,相比随机布局的朴素算法,网络流量分别降低了27.74%和27.47%,耗时分别缩短了39.10%和22.32%。

基于Transformer特征融合的时间序列分类网络

段梦梦, 金城

计算机科学. 2023, 50 (12): 97-103. doi:10.11896/jsjkx.221100112

摘要 ( 871 )

PDF(1806KB) ( 2410 )

参考文献 | 相关文章 | 多维度评价

在时间序列分类任务中,模型集成方法通过训练多个基础模型并利用一定的规则来聚合基础模型的输出,从而得到比单一基础模型更准确的结果。目前模型集成方法主要关注基础模型的选择以及如何提高基础模型的差异性和多样性,忽视了对聚合规则的探索。针对这一问题,提出了基于Transformer特征融合的时间序列分类网络(Transformer Feature Fusion Network,TFFN)。该网络包含二重Transformer编解码器(Dual Transformer Encoder Decoder,Dual TED)和基于Transformer的具有样本分布感知特性的分类模块(Transformer Encoder Head,TEH)两个核心组件。Dual TED利用Transformer的注意力模块对基础特征进行提取和融合,得到具有更强辨别性的融合特征。具有样本分布感知特性的分类模块根据融合特征对时间序列进行更准确的分类,从而弥补现有集成模型方法忽视特征融合、集成规则过于简单的不足。实验结果表明,TFFN在多个主流时间序列分类数据集上取得了最好的成绩。

联合ZINB模型与图注意力自编码器的自优化单细胞聚类

孔凤玲, 吴昊, 董庆庆

计算机科学. 2023, 50 (12): 104-112. doi:10.11896/jsjkx.221000167

摘要 ( 611 )

PDF(4286KB) ( 1965 )

参考文献 | 相关文章 | 多维度评价

单细胞数据聚类在生物信息分析中具有重要作用,但受测序原理和测序平台的限制,单细胞数据集普遍存在高维稀疏性、高方差噪声和基因数据缺失的问题,导致单细胞数据在聚类分析和应用方面仍面临诸多挑战。现有的单细胞聚类方法主要针对细胞和基因表达间的关系进行建模,忽略了对细胞间潜在特征关系的充分挖掘以及对噪声的去除,导致聚类结果不理想,从而阻碍了后期对数据的分析。针对上述问题,提出了一种联合零膨胀负二项(Zero Inflated Negative Binomial,ZINB)模型与图注意力自编码器的自优化单细胞聚类算法(Self-optimized Single Cell Clustering Using ZINB Model and Graph Attention Autoencoder,scZDGAC)。该算法首先使用ZINB模型并结合可扩展的DCA去噪算法,通过ZINB分布更好地拟合数据特征分布,提升自编码器的去噪性能,并减小噪声和数据丢失对KNN算法输出的影响;然后通过图注意力自编码器在不同权重的细胞之间传播信息,更好地捕获细胞间的潜在特征进行聚类;最后scZDGAC采用自优化的方法使原本两个独立的聚类模块和特征模块相互受益,不断迭代更新聚类中心,进一步提升聚类性能。为了对聚类结果进行评价,文中使用调整兰德指数(ARI)和标准化互信息(NMI)两个通用评价指标。在6个不同规模的单细胞数据集上与其他算法进行对比实验,结果表明,所提聚类算法在聚类性能上较其他方法有很大提高,很好地展现了该算法的鲁棒性。

基于时间聚类和用户动态相似度的自适应位置推荐算法

朱俊, 韩立新, 宗平, 刘红英, 谢玲, 李景仙

计算机科学. 2023, 50 (12): 113-122. doi:10.11896/jsjkx.230200105

摘要 ( 537 )

PDF(3126KB) ( 2059 )

参考文献 | 相关文章 | 多维度评价

位置推荐是位置社交网络中为商家和用户提供的一项重要服务,推荐结果易受用户上下文和时空上下文影响。针对当前研究忽略了用户的动态相似度、推荐模型自适应性较弱以及存在严重的数据稀疏问题,提出了一种基于时间聚类和用户动态相似度的自适应位置推荐算法(ALRTU)。首先,基于时间槽的签到数据统计特征,对时间进行模糊C均值聚类,提取聚类内的时间相似度,利用平滑技术更新原始评分矩阵,以解决数据稀疏问题。分别计算用户在不同时间槽的动态相似度,根据目标时间段所属的时间聚类自适应选择不同的评分数据集,完成用户偏好和时间特征挖掘。其次,根据用户的访问频率特征,为活跃用户和非活跃用户自适应选择核密度估计或幂律分布模型,完成地理特征挖掘。最后,融合用户、时间和空间上下文的综合影响完成位置推荐。在两个真实的位置社交网络数据集Brightkite和Gowalla中开展准确度评估实验,实验结果表明,与基准方法中最高的推荐精度相比,ALRTU算法在Brightkite和Gowalla数据集中的准确度仍分别平均提高了3.74%和1.42%。

一种基于SCD文件的合并单元高速数据压缩方法

陈星田, 熊小伏, 白勇, 胡海洋

计算机科学. 2023, 50 (12): 123-129. doi:10.11896/jsjkx.230700230

摘要 ( 482 )

PDF(1470KB) ( 1802 )

参考文献 | 相关文章 | 多维度评价

在现代智能电网中,智能变电站安装了大量合并单元来同步发布电流互感器和电压互感器的暂态量,这些暂态数据有必要保存长达数年,从而覆盖设备生命周期,为设备状态维修、可靠性等研究提供原始信息支撑,但是如此长时与高频的海量数据给存储设备带来了巨大压力。文中首先将高频暂态数据分为固定不变的、状态变化的和周期变化的3种形式来进行预处理,将固定不变部分用SCD文件中的唯一标识代替,状态变化部分用事件记录文件代替,周期变化部分用SCD文件中双通道差量和周期差量来表示。然后使用16位哈夫曼完成最终压缩编码,并对比测试了各种预处理前后的压缩结果和不同编码的压缩结果。最终的测试结果表明该压缩方法比普通硬件压缩卡压缩比更大,压缩速率比普通压缩卡更快。

Transformer在计算机视觉场景下的研究综述

陈洛轩, 林成创, 郑招良, 莫泽枫, 黄心怡, 赵淦森

计算机科学. 2023, 50 (12): 130-147. doi:10.11896/jsjkx.221100076

摘要 ( 789 )

PDF(6634KB) ( 2860 )

参考文献 | 相关文章 | 多维度评价

Transformer是一种基于注意力的编码器-解码器架构,其凭借长距离建模能力与并行计算能力在自然语言处理领域取得了重大突破,并逐步拓展应用至计算机视觉领域,成为了计算机视觉任务的重要研究方向。文中重点回顾与总结了Transformer在图像分类、目标检测与图像分割三大计算机视觉任务中的应用和改进。首先,以图像分类任务为切入点,从数据规模、结构特点、计算效率等方面深入分析了当前视觉Transformer存在的关键问题,并基于关键问题对解决方法和思路进行了分类。其次,全面梳理了视觉Transformer在目标检测与图像分割两大领域的研究进展,并根据结构特点、设计动机来组织这些方法,分析对比代表性方法的优点与不足。最后,对Transformer在计算机视觉任务中亟待解决的问题以及发展趋势进行了总结和探讨。

先验引导的虹膜图像盲修复算法

王甲, 项刘宇, 黄昱博, 夏玉峰, 田青, 何召锋

计算机科学. 2023, 50 (12): 148-155. doi:10.11896/jsjkx.230500217

摘要 ( 662 )

PDF(3594KB) ( 2825 )

参考文献 | 相关文章 | 多维度评价

虹膜识别作为最有潜力的生物特征识别技术之一,已得到广泛应用。然而,现有的虹膜识别系统在图像采集过程中易受外界因素干扰,存在采集的虹膜图像分辨率不足、易模糊等问题。为解决以上问题,提出了一种先验引导的虹膜图像盲修复算法,利用生成对抗网络和虹膜先验知识对低分辨率、运动模糊、离焦模糊等降质因素混合的未知退化虹膜图像进行盲修复。修复网络包括退化去除子网络、先验估计子网络和先验融合子网络,其中先验估计子网络对输入的风格信息进行分布建模,并将其作为先验知识来指导生成网络;先验融合子网络利用注意力融合机制来整合多层级的风格特征,提高了信息的利用率。实验结果表明,所提方法在定性和定量指标上都优于其他算法,实现了退化虹膜的盲修复,提高了虹膜识别的鲁棒性。

基于空间相关性与特征级插值改进的快速图像翻译模型

李玉强, 李欢, 刘春

计算机科学. 2023, 50 (12): 156-165. doi:10.11896/jsjkx.221100027

摘要 ( 490 )

PDF(3539KB) ( 2591 )

参考文献 | 相关文章 | 多维度评价

近年来,深度学习算法的流行使图像翻译任务取得了显著的效果。其中,很多研究工作致力于在缩短模型运行时间的同时保持图像的生成质量,ASAPNet模型就是一个典型的代表。但该模型的特征级损失函数无法完全解耦图像特征和外观,又由于其大多数计算在极低的分辨率下执行,导致生成的图像质量不够理想。针对上述问题,提出了一种基于空间相关性和特征级插值的ASAPNet改进模型——SRFIT。具体来说,根据自相似性原理,使用空间相关性损失替换原模型中的特征匹配损失,以缓解图像翻译时的场景结构差异的问题,从而提高图像翻译的准确性。此外,受ReMix中数据增强方法的启发,通过线性插值在图像特征级上增加了数据量,解决了生成器过拟合的问题。最后,在两个公开数据集CMP Facades和Cityscapes上进行对比实验,结果均表明,相比当前的主流模型,所提出的改进模型SRFIT展现了更好的性能,可以在有效改善图像生成质量的同时,保持较快的运行速度。

基于特征融合与边界修正显著性目标检测

陈慧, 彭力

计算机科学. 2023, 50 (12): 166-174. doi:10.11896/jsjkx.221100203

摘要 ( 357 )

PDF(4504KB) ( 2671 )

参考文献 | 相关文章 | 多维度评价

显著性目标检测旨在寻找图像中的视觉显著区域。现有的显著性目标检测方法已经展现出强大的优势,但依然在尺度感知和边界预测方面具有局限性。首先,各类场景中的显著目标存在诸多尺度,使算法难以适应不同尺度变化。其次,显著目标往往具有复杂的轮廓,这使边界像素点的检测变得更为困难。针对以上问题,文中提出了基于特征融合与边界修正的显著性目标检测网络,该网络基于特征金字塔,提取了不同层次显著特征。首先针对目标的尺度多样性设计了由多尺度特征解码模块组成的特征融合解码器,通过逐层融合相邻层特征,提高了网络对目标尺度的感知能力。同时设计了边界修正模块学习显著目标的轮廓特征,以生成边界清晰的高质量显著图。在5个常用显著性目标检测数据集上进行实验,结果表明所提算法在平均绝对误差、F指标和S指标3项定量指标上均能取得较优的结果。

基于双空间共轭自编码器的多时相高光谱异常变化检测

李沙沙, 邢红杰, 李刚

计算机科学. 2023, 50 (12): 175-184. doi:10.11896/jsjkx.221100092

摘要 ( 508 )

PDF(3740KB) ( 2558 )

参考文献 | 相关文章 | 多维度评价

高光谱异常变化检测能够从多时相高光谱遥感图像中寻找到数量稀少、与整体背景变化趋势不同、难以发现且令人感兴趣的异常变化。数据集规模较小、存在噪声干扰以及线性预测模型存在局限性等问题,极大地降低了传统高光谱异常变化检测方法的检测性能。目前,自编码器已被成功地应用于高光谱异常变化检测。然而,单个自编码器在处理多时相高光谱图像时,仅关注图像的重构质量,在获取瓶颈特征时往往忽略了图像中复杂的光谱变化信息。为了解决该问题,提出了一种基于双空间共轭自编码器的多时相高光谱异常变化检测(Multi-temporal Hyperspectral Anomaly Change Detection Based on Dual Space Conjugate Autoencoder,DSCAE)方法。所提方法包含两个共轭的自编码器,即它们从不同方向构造各自的潜在特征。在该方法的训练过程中,首先,两幅不同时刻的高光谱图像经过各自的编码器分别获得相应的潜在空间特征表示,再分别经过各自的解码器获得另一时刻的预测图像;其次,在样本空间和潜在空间中施加不同的约束条件,并在两个空间中最小化相应的损失函数;最后,两幅输入图像经过共轭自编码器后获得各自的异常损失图,对所得的两幅异常损失图采用取小运算得到最终的异常变化强度图,以便在减小输入图像间背景光谱差异的同时突出异常变化。在高光谱异常变化检测基准数据集上的实验结果表明,与10种相关方法相比,DSCAE展现了更优的检测性能。

农业场景下移动机器人的双目视觉定位与地图构建方法

余涛, 熊盛武

计算机科学. 2023, 50 (12): 185-191. doi:10.11896/jsjkx.230300116

摘要 ( 338 )

PDF(1804KB) ( 2602 )

参考文献 | 相关文章 | 多维度评价

视觉定位与地图构建是实现移动机器人自主导航的关键技术。针对农业场景下特征跟踪困难、场景规模大、运动不稳定引起系统精度和鲁棒性下降的问题,提出了一种适用于农业场景的双目视觉定位与地图构建方法。该方法首先利用静态立体匹配点来增加跟踪阶段地图点的数量和覆盖范围,从而增加了深度计算的准确率,同时提出一种点选择算法对密集地图点进行采样并移除离群点,进一步提高了系统的准确率和运行效率;然后通过显式尺度估计来减小大规模场景下定位与地图构建的尺度误差,并结合场景特点改进关键帧判别策略,避免了远处大目标导致关键帧稀疏的问题;最后提出新的运动假设构建位姿估计失败时的恢复策略,提高了系统在颠簸运动时的鲁棒性。在农业场景数据集上的评估结果表明,相比于当前先进的视觉定位与地图构建系统,提出的方法在困难序列上的轨迹误差降低幅度超过50%,其中3个序列上的尺度误差下降了一个数量级,取得了更高的精度和鲁棒性,能有效地应对农业场景下视觉定位与地图构建的挑战。

基于立体相机和UWB融合的移动机器人跟随方法

付勇, 吴炜, 万泽青

计算机科学. 2023, 50 (12): 192-202. doi:10.11896/jsjkx.221000188

摘要 ( 581 )

PDF(4474KB) ( 2708 )

参考文献 | 相关文章 | 多维度评价

文中研究了人机共融环境下的自主跟随机器人。特别地,针对机器人确定所需跟随目标以及目标丢失后的重识别,提出了一种稳定有效的方法,即先基于立体相机的图像和点云数据实现对行人的视觉跟踪与定位;然后引入超宽带(Ultra Wide Band,UWB)的定位信息确定目标行人,并利用滤波算法融合传感器的数据得到相机坐标系下的坐标信息,最后利用坐标变换转为机器人坐标系下的位置。又提出了改进的动态窗口算法(Modified Dynamic Window Algorithm,MDWA),并将其作为机器人的跟随控制方法。另外,为保证机器人跟随能够持续稳定进行,基于传感器数据,提出了包含跟随行为、恢复行为、过渡行为的行为决策模块,通过行为间的切换,使机器人在面对因转弯抑或环境光照条件的变化使得相机失效而导致目标丢失时也能够重新找回目标。实验结果表明,所提出的跟随系统在开机时能够自动确定所需跟随目标,在有静态障碍物的场景,抑或是视野内有其他非目标行人干扰的动态场景下,机器人均能实现良好的避障跟随。特别地,机器人在转弯场景或是光照条件变化的场景下,机器人均可自主寻回被跟随目标,而且在转弯场景中,机器人的跟随成功率可达81%。

图像情感分析的层次图卷积网络模型

谈钱辉, 温佳璇, 唐继辉, 孙玉宝

计算机科学. 2023, 50 (12): 203-211. doi:10.11896/jsjkx.221100177

摘要 ( 536 )

PDF(4395KB) ( 2808 )

参考文献 | 相关文章 | 多维度评价

图像情感分析任务旨在运用机器学习模型自动预测观测者对图像的情感反应。当前基于深度网络的情感分析方法广受关注,主要通过卷积神经网络自动学习图像的深度特征。然而,图像情感是图像全局上下文特征的综合反映,由于卷积核感受野的尺寸限制,无法有效捕捉远距离情感特征间的依赖关系,同时网络中不同层次的情感特征间未能得到有效的融合利用,影响了图像情感分析的准确性。为解决上述问题,文中提出了层次图卷积网络模型,分别在空间和通道维度上构建空间上下文图卷积(SCGCN)模块和动态融合图卷积(DFGCN)模块,有效学习不同层次情感特征内部的全局上下文关联与不同层级特征间的关系依赖,能够有效提升情感分类的准确度。网络结构由4个层级预测分支和1个融合预测分支组成,层级预测分支利用SCGCN学习单层次特征的情感上下文表达,融合预测分支利用DFGCN自适应聚合不同语义层次的上下文情感特征,实现融合推理与分类。在4个情感数据集上进行实验,结果表明,所提方法在情感极性分类和细粒度情感分类上的效果均优于现有的图像情感分类模型。

面向工业图像异常检测的连续密集标准化流模型

张邹铨, 张辉, 吴天月, 陈天才

计算机科学. 2023, 50 (12): 212-220. doi:10.11896/jsjkx.221000183

摘要 ( 648 )

PDF(4429KB) ( 2666 )

参考文献 | 相关文章 | 多维度评价

工业产品表面异常检测是生产制造中不可或缺的环节。在实际工业生产中,普遍存在异常样本所占比例低且未知异常复杂多变等现象,进而造成在小样本数据集上过拟合、泛化能力不佳等一系列负面影响。近年来,标准化流思想为基于深度学习的工业图像异常检测带来了新途径,但标准化流的固有架构易导致模型表达能力不足。针对上述难点,提出了一种面向工业图像异常检测的连续密集标准化流模型。首先,设计一种基于对比学习的特征提取网络预训练策略,将模拟异常数据和少量真实异常数据加入对比学习任务中,并训练特征骨干网络AlexNet拉近或拉远特定样本间的距离;其次,设计连续密集标准化流模型,采用可逆变换的复合架构来构造密集流模块,增强生成式模型对分布的拟合能力。在MVTec AD和Magnetic Tile Defects以及自制的工业布匹数据集上的实验结果表明,与其他的异常检测模型相比,所提方法在3个数据集上的检测性能达到了最优或次优的水平。

基于迭代非对称盲点网络的低剂量CT重建算法

郭广行, 阴桂梅, 刘晨旭, 段永红, 强彦, 王艳飞, 王涛

计算机科学. 2023, 50 (12): 221-228. doi:10.11896/jsjkx.230300014

摘要 ( 432 )

PDF(3134KB) ( 2723 )

参考文献 | 相关文章 | 多维度评价

针对通过机器学习方法进行低剂量CT重建的算法过度依赖成对图例的问题,提出了一种基于迭代非对称盲点网络的低剂量CT重建算法。首先,通过像素混洗下采样盲点网络对低剂量CT进行自监督训练,得到初步重建的CT图像;其次,建立迭代模型,迭代使用前一网络得到的结果图像作为本网络的低剂量输入进行训练,以得到最终网络模型;最后,采用非对称的方式,对像素混洗下采样的步幅进行调整,以尽可能地减少混叠伪影,得到最终的可用模型。理论分析和实验结果表明,与传统低剂量CT重建算法相比,基于迭代非对称盲点网络算法可以极大地减少低剂量CT重建算法对成对图例的依赖,且其生成结果在在图像质量、纹理特征和结构方面优于传统方法。

融合关系传递信息的双图文档级关系抽取方法

寇嘉颖, 赵卫东, 柳先辉

计算机科学. 2023, 50 (12): 229-235. doi:10.11896/jsjkx.230500010

摘要 ( 471 )

PDF(2384KB) ( 2723 )

参考文献 | 相关文章 | 多维度评价

文档级关系抽取指在长段落的非结构性文本中抽取实体以及实体之间的关系。相较于传统的句子级关系抽取,文档级关系抽取需要融合多个句子的上下文信息,并且加以逻辑推理,才能抽取出关系三元组。针对目前文档级关系抽取方法中存在的文档语义信息建模不够完整且抽取效果具有局限性等问题,提出了一种融合关系传递信息的双图文档级关系抽取方法。利用关系信息传递性将不同句子中提及之间的交互信息引入路径构造中,加以使用同句子中提及的交互信息以及提及之间的共指信息,构建提及节点间的路径集合,提高文档建模的完整性;应用路径集合和提及节点搭建提及层次的图聚合网络,建立文档语义信息模型;经过图卷积网络的信息迭代后,将相同实体的不同提及节点的信息进行融合,形成实体节点,构成实体层次的图推理网络;最终根据实体图节点间的路径信息进行逻辑推理,抽取出实体间的关系。在公开数据集DocRED上的实验结果表明,相对于基准模型,所提模型的F1值有1.2的提升,证明了该方法的有效性。

多层面语义结构增强的对话情感诱因片段抽取

秦鸣飞, 付国宏

计算机科学. 2023, 50 (12): 236-245. doi:10.11896/jsjkx.221100189

摘要 ( 568 )

PDF(2657KB) ( 2631 )

参考文献 | 相关文章 | 多维度评价

对话情感诱因片段抽取旨在从对话历史中抽取出诱发目标情感表达的原因片段,在情感对话系统中起到枢纽的作用。然而,已有方法抽取出的诱因片段仍存在话轮定位错误、边界识别错误等亟待解决的问题。为此,提出了一种多层面语义结构增强的对话情感诱因片段抽取方法。该方法基于篇章层面的指代结构,增强对诱因片段所处话轮的定位;基于句子层面的句法结构,增强对诱因片段边界的识别。首先,依据预处理后的语义结构及对话内容特征表示,使用图注意力网络分别在词符级别与话轮级别构图、建模对话,并通过双仿射机制促进两种级别构图的交互与融合,从而获得结构增强的语义综合表示;然后,使用线性层抽取诱因片段。在两个公开数据集上进行实验,结果表明,与基准模型相比,该模型的F1值和EM_pos值最高分别提升了2.42%和2.26%;同时,在F1_pos和EMpos指标上的性能均优于其他基线模型,且该模型也能有效兼容话轮级别的对话情感诱因蕴含。

基于可信细粒度对齐的多模态方面级情感分析

范东旭, 过弋

计算机科学. 2023, 50 (12): 246-254. doi:10.11896/jsjkx.221100038

摘要 ( 563 )

PDF(3164KB) ( 2923 )

参考文献 | 相关文章 | 多维度评价

基于方面的多模态情感分析任务(Multimodal Aspect-Based Sentiment Analysis,MABSA),旨在根据文本和图像信息识别出文本中某特定方面词的情感极性。然而,目前主流的模型并没有充分利用不同模态之间的细粒度语义对齐,而是采用整个图像的视觉特征与文本中的每一个单词进行信息融合,忽略了图像视觉区域和方面词之间的强对应关系,这将导致图片中的噪声信息也被融合进最终的多模态表征中,因此提出了一个可信细粒度对齐模型TFGA(MABSA Based on Trusted Fine-grained Alignment)。具体来说,使用FasterRCNN捕获到图像中包含的视觉目标后,分别计算其与方面词之间的相关性,为了避免视觉区域与方面词的局部语义相似性在图像文本的全局角度不一致的情况,使用置信度对局部语义相似性进行加权约束,过滤掉不可靠的匹配对,使得模型重点关注图片中与方面词相关性最高且最可信的视觉局域信息,降低图片中多余噪声信息的影响;接着提出细粒度特征融合机制,将聚焦到的视觉信息与文本信息进行充分融合,以得到最终的情感分类结果。在Twitter数据集上进行实验,结果表明,文本与视觉的细粒度对齐对方面级情感分析是有利的。

结合多种语言学特征的中文隐式情感分类

陆靓倩, 王中卿, 周国栋

计算机科学. 2023, 50 (12): 255-261. doi:10.11896/jsjkx.221000214

摘要 ( 568 )

PDF(2784KB) ( 2697 )

参考文献 | 相关文章 | 多维度评价

情感分析一直是自然语言处理中的热点研究方向,隐式情感分类指无显式情感词的情感分类任务,目前,隐式情感分析还处于起步阶段。隐式情感分析面临缺乏显式情感词、表达方式委婉、语义难以理解等问题,传统的情感分析方法如情感词典、词袋模型等难以生效,使得隐式情感分类任务更加艰巨。针对以上问题,提出了一种结合文本、词性与依存关系的图神经网络模型来进行隐式情感分类。具体来说,模型首先抽取文本的词性和依存特征,然后使用预训练语言模型BERT提取文本向量特征,从而构建了一个基于多种语言学特征的图注意力神经网络。该模型在SMP2021隐式情感识别公开数据集上进行了多次实验。实验结果表明,相较于多种基线模型,所提模型取得了较好的分类效果,证实了所提出的融合了多种语言学特征的隐式情感分类方法具有可行性和有效性。

融合句法距离与方面注意力的方面级情感分析

张隆基, 赵晖

计算机科学. 2023, 50 (12): 262-269. doi:10.11896/jsjkx.221000090

摘要 ( 326 )

PDF(2417KB) ( 2593 )

参考文献 | 相关文章 | 多维度评价

目前,基于句法依存树的图卷积网络面临着卷积层数过深而产生过平滑的问题,无法提取句法依存树的全局节点信息。虽然搭配序列模型可以提取到语句的上下文的信息,但是序列模型依赖时序的特点导致图卷积网络无法有效地区分上下文特征对方面项的贡献度。针对上述问题,提出了一种基于句法距离和方面关注注意力机制的新型图卷积网络模型。首先,该模型利用双向长短期记忆网络分别学习语句和方面项的上下文信息,同时结合图卷积网络学习语句的句法依存信息。其次,依据句法依存树计算所有节点之间的句法依存距离,设定阈值削弱长距离特征的权重占比,提高图卷积模型区分上下文特征的能力。最后,设计具有残差连接的注意力机制,指导方面项自动聚焦于语句中的重要信息。实验结果表明,相较于基线方法,所提模型在多个公开数据集上展现出了较好的分析性能,在Twitter数据集和Laptop数据集上的情感分类准确率分别高达75.94%和78.59%,表明了所提方法的有效性。

SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型

王振东, 董开坤, 黄俊恒, 王佰玲

计算机科学. 2023, 50 (12): 270-278. doi:10.11896/jsjkx.230300239

摘要 ( 531 )

PDF(2408KB) ( 2590 )

参考文献 | 相关文章 | 多维度评价

大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K 和Wiki10-31K 两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。

基于多教师网络模型的半监督语义分割方法

许华杰, 肖毅烽

计算机科学. 2023, 50 (12): 279-284. doi:10.11896/jsjkx.221000245

摘要 ( 518 )

PDF(2238KB) ( 2767 )

参考文献 | 相关文章 | 多维度评价

基于一致性正则化的方法在半监督语义分割任务中展现出了较好的性能,这类方法通常涉及两个角色:一个显式或隐式的教师网络和一个学生网络。其中学生网络通过最小化两个网络对不同扰动样本预测结果之间的一致性损失实现训练。但是来自单个教师网络的不可靠预测可能会导致学生网络学习到错误的信息。通过将平均教师模型MT的单教师网络扩展为多教师网络,提出了多平均教师网络(Multiple Mean Teacher Network,MMTNet)模型,使学生网络从多个教师网络的平均预测结果进行学习,有效降低单个教师网络预测错误的影响。此外,MMTNet通过对无标签数据进行强、弱数据增强的方式对无标签数据进行数据扰动,增加了无标签数据的多样性,在一定程度上缓解了学生网络和教师网络之间存在的耦合问题,避免了学生网络对教师网络的过度拟合,从而进一步降低了教师网络进行伪标签预测错误时所产生的影响。在PASCAL VOC 2012扩充数据集上的实验结果表明,所提出的多平均教师网络MMTNet模型可获得比其他目前主流的半监督语义分割方法更高的平均交并比,且实际分割效果更优。

面向绿色节能的智能网联电动车调度方法

陈瑞, 沈鑫, 万得胜, 周恩亦

计算机科学. 2023, 50 (12): 285-293. doi:10.11896/jsjkx.230100099

摘要 ( 423 )

PDF(3852KB) ( 2545 )

参考文献 | 相关文章 | 多维度评价

随着新能源电动车的飞速发展,以智能化、网联化、节能化为特点的智能网联电动车具备群体智能的优点,适合执行大规模城市任务,被广泛用于智慧城市的社会服务建设中。为此,以智能网联电动车为研究对象,重点研究电动车群体的城市任务调度问题,主要面临以下挑战:由于城市任务的分配策略与车辆个体执行任务的能力密切相关,在面向车辆群体制定派遣策略时,需要综合考虑车辆个体在其行驶轨迹上所产生的区域效益,以保证车辆在有限电量的约束条件下完成任务并顺利返回。因此,车辆群体派遣策略与车辆个体路径规划方案之间相互影响,是一个带权二分图匹配问题和旅行商问题紧耦合的NP-hard问题。为了解决上述挑战,提出了基于最大权值匹配的车辆派遣算法,首先采用贪心策略为单个车辆在子区域内选择任务路段;然后利用车辆行驶轨迹产生的区域效益,制定车辆与子区域的最优派遣策略,从而最大化区域效益总量。最后,基于四川省成都市238辆智能环卫车30天的作业数据集,对所提算法进行评估。实验结果表明,所提算法的城市道路清扫率相比源数据方法、随机算法和不更新地图算法平均提升了11.2%。

融合多头注意力机制和孪生网络的语义匹配方法

臧洁, 周万林, 王妍

计算机科学. 2023, 50 (12): 294-301. doi:10.11896/jsjkx.221000083

摘要 ( 463 )

PDF(1667KB) ( 2852 )

参考文献 | 相关文章 | 多维度评价

考虑企业资源与客户需求匹配问题,现有的方法存在资源和需求封装不够准确以及匹配效果无法满足用户需求等问题。为解决企业资源与需求描述的多样性和歧义性,提出了动态自定义模板封装。针对封装后的需求与资源大多都是中文短文本这一特点,兼顾句子间语义的差异性和相似性,提出了融合多头注意力机制和孪生网络的交互型文本匹配模型。模型使用字词混向量作为输入增强文本的语义信息,将孪生网络与多头注意力机制相融合,作为独立单元提取上下文的语义特征并使语义特征充分交互。为了验证模型的有效性,在经典数据集LCQMC和自我构建的CSMD数据集上对模型进行了实验,结果表明所提模型在准确率和性能等方面均有不同程度的提升,为企业资源与需求提供了更精准的匹配方法。

DL⁺:一种增强型双层知识图谱推理框架

武月佳, 周建涛

计算机科学. 2023, 50 (12): 302-313. doi:10.11896/jsjkx.221000170

摘要 ( 652 )

PDF(3734KB) ( 2525 )

参考文献 | 相关文章 | 多维度评价

知识图谱是图数据库的一个重要研究领域,它可以形式化地描述现实世界中的事物及其关系,但其不完整性和稀疏性阻碍了其在诸多领域中的应用。知识图谱推理技术旨在根据知识图谱中已有的知识来推断新的知识或识别错误的知识以完善知识图谱。尽管现有的各类推理方法可以获得部分有效知识,但仍然存在获取路径不全、忽略局部信息和引入噪声等问题。基于此,发现且明确提出路径连通性差问题并证明推理有效性与实体间路径连通比率呈正相关规律,进一步提出一种用于增强现有推理方法性能的双层框架DL⁺。模型第一层是知识增广器,主要利用社区发现算法在初始知识图谱上提取实体邻域信息,构建新知识以增广知识规模,然后设计社区剪枝优化去除构建时引入的噪声,最后将增广后的知识图谱抽取还原为与初始图谱表示相同的结构并输出到第二层以保证模型“即插即用”的特性。第二层是知识推理机,通过在知识增广后的图谱上进行学习推理以达到增强现有知识图谱推理模型的目的,使模型可以在图谱路径连通性比率较高的情况下获得更优的推理结果。最终在4个标准知识图谱数据集上进行的大量实验结果表明DL⁺算法可以有效缓解实体间路径连通性差的问题,与9类基准方法相比,所提算法的预测精度平均提高了4.798%。

基于轨迹信息量的分层强化学习方法

徐亚鹏, 刘全, 栗军伟

计算机科学. 2023, 50 (12): 314-321. doi:10.11896/jsjkx.221100096

摘要 ( 471 )

PDF(3071KB) ( 2595 )

参考文献 | 相关文章 | 多维度评价

基于option的分层强化学习(The Option-Based Hierarchical Reinforcement Learning,O-HRL)算法具有时序抽象的特点,可以有效处理强化学习中难以解决的长时序、稀疏奖励等复杂问题。目前O-HRL方法的研究主要集中在数据效率提升方面,通过提高智能体的采样效率以及探索能力,来最大化其获得优秀经验的概率。然而,在策略稳定性方面,由于在上层策略引导下层动作的过程中仅仅考虑了状态信息,造成了option信息的利用不充分,进而导致下层策略的不稳定。针对这一问题,提出了一种基于轨迹信息量的分层强化学习(Hierarchical Reinforcement Learning Method Based on Trajectory Information,THRL)方法。该方法利用option轨迹的不同类型信息指导下层动作选择,通过得到的扩展轨迹信息生成推断option。同时引入鉴别器将推断option与原始option作为输入,以获得内部奖励,使得下层动作的选择更符合当前option策略,从而解决下层策略不稳定的问题。将THRL算法以及目前优秀的深度强化学习算法应用于MuJoCo环境问题中,实验结果表明,THRL算法具有更好的稳定性以及性能表现,验证了算法的有效性。

基于混合路径HMC的分子树空间采样方法

李晓鹏, 凌诚, 高敬阳

计算机科学. 2023, 50 (12): 322-329. doi:10.11896/jsjkx.221100057

摘要 ( 518 )

PDF(2095KB) ( 2719 )

参考文献 | 相关文章 | 多维度评价

随着现代分子序列数据越来越丰富,描述物种间历史关系的树状拓扑空间也急剧扩大,系统发育树的可靠推断仍面临着巨大挑战。近年来,马尔可夫链蒙特卡洛算法(MCMC)家族中最先进的哈密顿马尔可夫蒙特卡洛(HMC)算法被证明可以应用于系统发育分析,可以避免传统MCMC算法中存在的大量随机游走行为,加快马氏链的混合。但在更为复杂的多模态发育树空间中,HMC算法无法通过从其他模式中获得提议来逃离局部的高概率区域,为了提升算法的健壮性,文中提出了一种混合路径哈密顿马尔可夫蒙特卡洛(MPHMC)的优化方法。在不增加额外的计算成本的情况下,所提算法采样路径中添加针对离散参数的非HMC更新组件,与HMC确定性更新交替进行,进而在树空间中引入了拓扑变化更大的分支重排策略,能更自由地遍历整个后验分布的树空间。在5组经验数据集上进行实验,结果证明,MPHMC方法能更好地从正确的后验分布中采样;在比较难采样的大数据集上运行时,HMC单一路径的采样算法可能会失效,而MPHMC方法能获得比使用广泛的系统发育分析工具Mrbayes(MCMC)高14%以上的采样效率。

针对视频语义描述模型的稀疏对抗样本攻击

邱江兴, 汤学明, 王天美, 王成, 崔永泉, 骆婷

计算机科学. 2023, 50 (12): 330-336. doi:10.11896/jsjkx.221100068

摘要 ( 501 )

PDF(2242KB) ( 2598 )

参考文献 | 相关文章 | 多维度评价

在多模态深度学习领域,尽管有很多研究表明图像语义描述模型容易受到对抗样本的攻击,但是视频语义描述模型的鲁棒性并没有得到很多的关注。主要原因有两点:一是与图像语义描述模型相比,视频语义描述模型的输入是一个图像流,而不是单一的图像,如果对视频的每一帧进行扰动,那么整体的计算量将会很大;二是与视频识别模型相比,视频语义描述模型的输出不是一个单词,而是更复杂的语义描述。为了解决上述问题以及研究视频描述模型的鲁棒性,提出了一种针对视频语义描述模型的稀疏对抗样本攻击方法。首先,基于图像识别领域的显著性分析的原理,提出了一种评估视频中不同帧对模型输出贡献度的方法。在此基础上,选择关键帧施加扰动。其次,针对视频语义描述模型,设计了基于L₂范数的优化目标函数。在数据集MSR-VTT上的实验结果表明,所提方法在定向攻击上的成功率为96.4%,相比随机选择视频帧,查询次数减少了45%以上。上述结果验证了所提方法的有效性并揭示了视频语义描述模型的脆弱性。

一种融合字词双通道的Domain-Flux僵尸网络检测方法

李晓冬, 宋元凤, 李育强

计算机科学. 2023, 50 (12): 337-342. doi:10.11896/jsjkx.221000179

摘要 ( 571 )

PDF(2195KB) ( 3424 )

参考文献 | 相关文章 | 多维度评价

Domain-Flux是僵尸网络中常用的一种命令与控制信道隐蔽技术,其能有效躲避网络安全设备的检测。针对现有检测方法中对Domain-Flux域名信息提取不全面,无法有效捕获词典类域名关键分类特征的问题,提出了一种融合字词双通道的Domain-Flux僵尸网络检测方法。在字符向量和词根向量两个通道上分别采用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)提取局部特征和全局特征,丰富输入域名的特征信息,提升分类性能。其中,字符向量通道针对随机字符域名提取局部空间特征,而词根向量通道基于TF-IDF算法,引入类内因子将词根重要性加权到词向量中,然后提取域名单词组合序列前后的时序特征。实验结果表明,与单一采用TextCNN或BiLSTM的模型相比,融合字词双通道的模型检测准确率分别提高7.12%和5.86%,针对词典类Domain-Flux的检测也具有更高的精确率。

面向全局不平衡问题的基于贡献度的联邦学习方法

吴飞, 宋一波, 季一木, 胥熙, 王木森, 荆晓远

计算机科学. 2023, 50 (12): 343-348. doi:10.11896/jsjkx.221100111

摘要 ( 502 )

PDF(2001KB) ( 3141 )

参考文献 | 相关文章 | 多维度评价

联邦学习在保护各方数据隐私的前提下,协同多方共同训练,提高了全局模型的精度。数据的类不平衡问题是联邦学习范式中具有挑战的问题,联邦学习中的数据不平衡问题可分为局部数据不平衡和全局数据不平衡,目前针对全局数据不平衡问题的相关研究较少。文中提出了一种面向全局不平衡问题的基于贡献度的联邦学习方法(CGIFL)。首先,设计了一种基于贡献度的全局判别损失函数,用于调整本地训练过程中的模型优化方向,使模型在训练中给予全局少数类更多的关注,以提高模型的泛化能力;然后,在全局模型更新阶段,设计了一种基于贡献度的动态联邦汇聚策略,优化了各节点的参与权重,更好地平衡了全局模型的更新方向。在MNIST,CIFAR10和CIFAR100这3个数据集上进行实验,实验结果表明了CGIFL在解决全局数据不平衡问题上的有效性。

基于贝叶斯攻击图的网络资产安全评估模型

曾昆仑, 张尼, 李维皓, 秦媛媛

计算机科学. 2023, 50 (12): 349-358. doi:10.11896/jsjkx.221000019

摘要 ( 570 )

PDF(2506KB) ( 3126 )

参考文献 | 相关文章 | 多维度评价

当前攻击图模型没有考虑漏洞的重复利用,并且风险概率计算不够全面、准确。为了准确评估网络资产环境安全,提出了一种基于贝叶斯攻击图的网络资产安全评估模型。首先根据漏洞可利用性、主机安防强度、漏洞时间可利用性和漏洞来源计算原子攻击成功概率,并结合贝叶斯网络量化攻击图。其次,根据漏洞的重复利用情况,对部分原子攻击成功概率和相应先验可达概率进行修正,作为对网络资产静态安全风险的评估。再次,根据实时发生的攻击事件,动态更新相关节点的可达概率,实现对网络资产安全风险的动态评估。最后,通过实验仿真和与现有工作的对比分析,对所提模型进行有效分析和验证。

使用RAP生成可传输的对抗网络流量

杨有欢, 孙磊, 戴乐育, 郭松, 毛秀青, 汪小芹

计算机科学. 2023, 50 (12): 359-367. doi:10.11896/jsjkx.221000155

摘要 ( 639 )

PDF(3012KB) ( 3043 )

参考文献 | 相关文章 | 多维度评价

越来越多的深度学习方法被用于解决网络流量分类任务,但同时也带来了对抗网络流量(ANT)的威胁。对抗网络流量会使基于深度学习方法的网络流量分类器预测错误,进而导致安全防护系统做出错误的决策。视觉领域的对抗攻击算法虽然也可以运用于网络流量上产生对抗网络流量,但是这些算法产生的对抗扰乱会改变网络流量的头部信息,使得网络流量丢失了自己的特有属性和信息。文中分析了对抗样本在网络流量任务和视觉任务上的不同之处,提出了适用于对抗网络流量的攻击算法Reversible Adversarial Padding(RAP)。RAP利用网络流量Packet长度和网络流量分类器输入长度的不同,在尾部填充区域填充没有-ball限制的对抗扰乱。并且,为了解决无法比较不同长度的对抗扰乱会导致不同攻击效果的问题,文中提出了指标收益,其综合考虑了对抗扰乱长度和对抗攻击算法强度对分类器攻击效果的影响。结果表明,RAP不仅保留了网络流量可传递性的属性,而且获得了比传统对抗攻击算法更高的攻击收益。

CASESC:基于以太坊智能合约的云审计方案

郭彩彩, 金瑜

计算机科学. 2023, 50 (12): 368-376. doi:10.11896/jsjkx.221000185

摘要 ( 401 )

PDF(2237KB) ( 2960 )

参考文献 | 相关文章 | 多维度评价

云存储凭借其高扩展性、低成本等优点受到广泛关注,但确保云数据的完整性成为了目前亟待解决的问题。由于区块链具有去中心化、不可篡改等特点,可以很好地解决基于第三方审计者的云审计方案中存在的单点失效和安全威胁等问题,因此有学者提出了基于区块链的云审计方案,但这类方案的审计证明均由数据拥有者(DO)或委托其他DO进行验证,需要DO保持在线状态,加重了审计负担,且绝大部分方案并未在真正的区块链环境中实现。基于此,提出了一种基于以太坊智能合约的云审计方案——CASESC,使用solidity语言编写可实现向云服务提供商发起审计请求和验证其返回的审计证明等功能的以太坊智能合约代码,并将审计结果和相关信息记录在以太坊中供DO随时查询,使得CASESC能代替DO完成审计工作,无需DO委托验证与实时在线,降低了审计开销。此外,CASESC分别在以太坊Goerli公有链测试网络和Ganache搭建的私有链中运行,验证了其可用性。理论分析和实验结果表明,CASESC可在不增加整体审计开销的情况下大幅降低DO的审计开销。