1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2021年第12期, 刊出日期:2021-12-15
  
目录
第48卷第12期目录
计算机科学. 2021, 48 (12): 0-0. 
摘要 ( 291 )   PDF(376KB) ( 864 )   
相关文章 | 多维度评价
计算机体系结构*
基于流线的流场可视化绘制方法综述
张倩, 肖丽
计算机科学. 2021, 48 (12): 1-7.  doi:10.11896/jsjkx.201200108
摘要 ( 1188 )   PDF(3214KB) ( 2626 )   
参考文献 | 相关文章 | 多维度评价
流场可视化是科学计算可视化中一个重要的分支,主要对计算流体动力学的模拟计算结果进行可视化,给研究人员提供视觉上直观可见的图形图像,方便研究人员进行分析。流场可视化的已知技术包括基于几何的方法(如流线和粒子追踪法)以及基于纹理的方法(如LIC、噪声点、IBFV等)。流线可视化是流场可视化的一个重要且常用的几何可视化手段。在流线可视化的研究中,流线的放置是整个流线可视化的重点,流线的数目和位置影响了整个可视化效果。当流线放置过多时,会造成视觉的杂乱;而流线放置过少会使流场信息表达不完整,无法传递完整的信息给领域专家。为了实现对科学数据的精确显示,流线可视化产生了两个重要的研究方向:种子点的放置和流线的约减。文中介绍了种子点放置方法和流线的约减方法的相关研究,总结了在2D和3D流场上出现的一些问题和采取的解决方案,并针对日益增长的科学数据,提出流线可视化下一步需要解决的问题。
一种面向异常传播的微服务故障诊断方法
王焘, 张树东, 李安, 邵亚茹, 张文博
计算机科学. 2021, 48 (12): 8-16.  doi:10.11896/jsjkx.210100149
摘要 ( 901 )   PDF(1563KB) ( 2014 )   
参考文献 | 相关文章 | 多维度评价
微服务软件架构将大型复杂应用软件拆分成多个可独立部署的相互之间通过轻量级通信机制协作的微服务,从而实现了应用软件的敏捷开发和持续交付。然而,应用软件的微服务数量众多,调用关系复杂,当某个微服务出现故障时会引发与之交互的微服务也出现异常,从而大幅增加了软件应用出现故障的可能性。面对众多异常微服务,考虑到异常的传播性,如何高效、准确地定位引发异常的故障微服务,成为亟待解决的问题。针对该问题,文中提出一种面向异常传播的微服务故障诊断方法。首先,监测微服务度量信息与微服务之间的调用行为;然后,基于回归分析构建度量与API调用之间的回归模型以检测异常微服务;同时,构建微服务依赖图以刻画微服务间的异常传播;最后,基于服务依赖图以及异常服务集合得到故障传播子图,并基于PageRank算法找出最有可能引发异常的根因,即故障微服务。实验结果表明,该方法能够有效检测异常服务,准确诊断故障微服务,同时具有较低的开销。
一种基于微服务架构的服务划分方法
江郑, 王俊丽, 曹芮浩, 闫春钢
计算机科学. 2021, 48 (12): 17-23.  doi:10.11896/jsjkx.210500078
摘要 ( 696 )   PDF(2010KB) ( 1698 )   
参考文献 | 相关文章 | 多维度评价
对单体系统进行微服务划分能有效缓解单体架构中系统冗余、难以维护等问题,但是现有的微服务划分方法未能充分利用微服务架构的属性信息,导致服务划分结果的合理性不高。文中给出了一种基于微服务架构的服务划分方法。该方法通过系统服务与属性的关联信息来构建实体-属性关系图,然后结合微服务架构的特征信息与目标系统的需求信息制定服务划分规则,量化两类顶点之间的关联信息,生成实体-属性加权图,最后应用加权的GN算法自动地实现系统的微服务划分。实验结果表明,该方法在服务划分的时效性上有较大提升,并且生成的微服务划分方案在评估指标上的表现更好。
基于GPU加速的并行WMD算法
胡蓉, 阳王东, 王昊天, 罗辉章, 李肯立
计算机科学. 2021, 48 (12): 24-28.  doi:10.11896/jsjkx.210600213
摘要 ( 692 )   PDF(1806KB) ( 1519 )   
参考文献 | 相关文章 | 多维度评价
Word Mover's Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离。WMD利用词汇表,将文本表示为归一化的词袋向量。文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本向量很稀疏。多个文本可以组成一个高维的稀疏矩阵,这样的稀疏矩阵会生成大量不必要的运算。通过一次性对多个目标文本计算单个源文本的WMD,可以使计算过程高度并行化。针对文本向量的稀疏性,文中提出了一种基于GPU的并行Sinkhorn-WMD算法,采取压缩格式存储目标文本的方式来提高内存利用率,根据稀疏结构减少中间过程的计算。利用预训练词嵌入向量计算单词距离矩阵,对WMD算法进行改进,在两个公开的新闻数据集上进行优化算法的验证。实验结果表明,在NVIDIA TITAN RTX上并行算法与CPU串行相比最高可以达到67.43倍的加速。
基于SIMD的三角函数高性能实现与优化
姚建宇, 张祎维, 张广婷, 贾海鹏
计算机科学. 2021, 48 (12): 29-35.  doi:10.11896/jsjkx.201200135
摘要 ( 724 )   PDF(1337KB) ( 2668 )   
参考文献 | 相关文章 | 多维度评价
作为基本的数学运算,三角函数的高性能实现对构建处理器的基础软件生态具有重要意义,特别是当前处理器都采用了SIMD架构,基于SIMD实现高性能三角函数具有重要的研究意义和应用价值。对此,文中采用数值分析的方法,对5个常用的三角函数sin,cos,tan,atan,atan2进行了高性能的实现与优化。首先通过分析浮点数IEEE754标准,设计了高效的三角函数算法;然后通过多项式逼近算法中的泰勒公式、帕德近似及雷米兹算法提升了算法精度;最后利用指令流水线与SIMD优化进一步提升了算法性能。实验结果表明,在满足精度的前提下,所实现的三角函数,相较于libm算法库和ARM_M 算法库,在ARM V8计算平台上都获得了较大的性能提升,其中相比libm算法库有1.77~6.26倍的时间性能提升,相比ARM_M算法库有1.34~1.5倍的时间性能提升。
基于“嵩山”超级计算机系统的量子傅里叶变换模拟
谢景明, 胡伟方, 韩林, 赵荣彩, 荆丽娜
计算机科学. 2021, 48 (12): 36-42.  doi:10.11896/jsjkx.201200023
摘要 ( 418 )   PDF(1622KB) ( 1375 )   
参考文献 | 相关文章 | 多维度评价
“嵩山”超级计算机系统是中国自主研发的新一代异构超级计算机集群,其搭载的CPU和DCU加速器均为我国自主研发。为扩充该平台的科学计算生态,验证量子计算研究在该平台上开展的可行性,文中使用异构编程模型实现了量子傅里叶变换模拟在“嵩山”超级计算机系统上的异构版本,将程序的计算热点部分分配至DCU上运行;然后使用MPI在单计算节点上开启多进程,实现DCU加速器数据传输和计算的并发;最后,通过计算与通信的隐藏避免了DCU在数据传输时处于较长时间的空闲状态。实验首次在超算系统上实现了44 Qubits规模的量子傅里叶变换模拟,结果显示,异构版本的量子傅里叶变换模拟充分利用了DCU加速器计算资源,相较于传统CPU版本,其取得了11.594的加速比,且在集群上具有良好的可拓展性,该方法为其他量子算法在“嵩山”超级计算机系统上的模拟实现以及优化提供了参考。
基于DGX-2的湍流燃烧问题优化研究
文敏华, 汪申鹏, 韦建文, 李林颖, 张斌, 林新华
计算机科学. 2021, 48 (12): 43-48.  doi:10.11896/jsjkx.201200129
摘要 ( 473 )   PDF(2335KB) ( 898 )   
参考文献 | 相关文章 | 多维度评价
湍流燃烧问题的数值模拟是航空发动机设计的关键工具。由于需要使用高精度计算模型求解NS方程,湍流燃烧的数值模拟需要庞大的计算量,而物理化学模型的引入则导致流场极为复杂,使得计算域内的负载平衡问题成为大规模并行计算的瓶颈。为此文中将湍流燃烧的数值模拟方法在单台具有强大计算能力的服务器——DGX-2上进行移植和优化,设计了通量计算的线程分配方式,并以Roofline模型为工具分析指导了实际的优化方向。此外,还设计了高效的数据通信方式,并结合DGX-2的高速互联实现了湍流燃烧数值模拟方法的多GPU并行版本。实验结果表明,相较于双路Intel Xeon 6248 CPU 40核心的并行版本,迭代过程的计算部分在单块V100上获得了8.1倍的性能提升,在DGX-2共16块V100上达到了66.1倍的加速,优于CPU并行版本所能达到的最高性能。
基于数据重用分析的多面体循环合并策略
胡伟方, 陈云, 李颖颖, 商建东
计算机科学. 2021, 48 (12): 49-58.  doi:10.11896/jsjkx.210200071
摘要 ( 737 )   PDF(2471KB) ( 1258 )   
参考文献 | 相关文章 | 多维度评价
现有多面体编译工具往往使用一些简单的启发式策略来寻找最优的语句合并,对于不同的待优化程序,需要手工调整循环合并策略以获得最佳性能。针对这一问题,面向多核CPU目标平台,文中提出了一种基于数据重用分析的循环合并策略。该策略避免了不必要的且会影响数据局部性利用的合并限制:针对调度的不同阶段,提出了面向不同并行层次的并行性合并限制;对于数组访问关系较为复杂的语句,提出了面向CPU高速缓存优化的分块性合并限制。相较于以往的合并策略,该策略在计算合并收益时考虑到了空间局部性的变化。文中基于LLVM编译框架中的多面体编译模块Polly实现了这一策略,并选用Polybench等测试套件中的部分测试用例进行测试。实验结果表明,相较于现有的多种合并策略,在单核执行情况下,测试用例平均获得了14.9%~62.5%的性能提升;在多核执行情况下,多个测试用例平均获得了19.7%~94.9%的性能提升,在单个测试用例中最高获得了1.49x~3.07x的加速效果。
计算机软件
基于演化和语义特征的上帝类检测方法
王继文, 吴毅坚, 彭鑫
计算机科学. 2021, 48 (12): 59-66.  doi:10.11896/jsjkx.210100077
摘要 ( 465 )   PDF(1514KB) ( 876 )   
参考文献 | 相关文章 | 多维度评价
随着软件开发迭代速度的加快,开发人员在编码过程中往往由于交付压力等种种原因违反软件设计的基本原则,造成代码坏味,进而影响软件质量。上帝类是最常见的代码坏味之一,指承担了太多职责的类。上帝类违反“高内聚、低耦合”的设计原则,损害软件系统的质量,会影响代码的可理解性和可维护性。因此,文中提出一种新的上帝类检测方法。首先抽取实际项目中方法在演化、语义等维度上的特征;然后对演化、语义特征进行融合,并基于融合后的结果重新聚类,将彼此关系紧密的方法重新划归到新的类簇中;通过分析实际项目中各个类的成员方法在新的聚类结果中的分布情况,计算类的内聚度,从而找出内聚度低的类作为上帝类检测结果。实验表明,所提方法优于目前主流的上帝类检测方法。与基于度量的传统检测方法相比,该方法在查全率、查准率上均提升超过20个百分点;与基于机器学习的检测方法相比,该方法尽管查全率略低,但查准率、F1值均有显著提升。
基于元模型的协同建模模型组装与更新方法
张子良, 庄毅, 叶彤
计算机科学. 2021, 48 (12): 67-74.  doi:10.11896/jsjkx.201100024
摘要 ( 525 )   PDF(1872KB) ( 909 )   
参考文献 | 相关文章 | 多维度评价
随着软件规模日益增大,软件复杂度不断提高,飞机、轮船等大型系统的设计与开发往往是由多个不同专业领域、具有不同职能的团队相互协同完成的。针对协同建模中局部模型之间缺失信息所导致的模型不完整问题和更新操作之间发生冲突所导致的模型不一致问题,文中首先提出了一种基于元模型的协同建模模型组装与更新方法(Model Combination and Update,MCAU),该方法在元模型上定义了协同关系与更新操作,可在协同建模过程中保证模型的完整性与一致性,并通过一个实例对所提方法进行了应用与分析。其次,文中还提出了一种基于模型驱动的软件协同建模框架(Software Collaborative Modeling Framework,SCMF),该框架可有效支持多种建模语言的扩展。最后,基于Eclipse框架开发了软件协同建模原型系统CorMo-del,并通过相关实验进一步验证了MCAU方法的有效性。
基于次模函数最大化的测试用例集约简
文进, 张星宇, 沙朝锋, 刘艳君
计算机科学. 2021, 48 (12): 75-84.  doi:10.11896/jsjkx.210300086
摘要 ( 546 )   PDF(6167KB) ( 972 )   
参考文献 | 相关文章 | 多维度评价
随着软件回归测试规模的不断增大和成本的不断增加,测试用例集约简对于提高软件的回归测试效率显得愈发重要。在选取测试用例子集时,需考虑该子集的代表性和多样性,并采用一个有效的算法来求解。针对该测试用例集约简问题,文中提出了一种基于次模函数最大化的算法SubTSR。尽管引入的离散优化问题是NP-hard问题,但文中利用其目标函数的次模性,采用启发式贪心搜索,求得有近似度保证的次优解。在15个数据集上对SubTSR算法与其他测试用例集约简算法展开实验,针对平均错误检出率、错误检测损失率、首次错误检出位等指标,尝试改变LDA处理中的主题个数以及衡量测试用例相似度的距离,以验证SubTSR算法的有效性。实验结果表明,SubTSR算法在错误检出性能上较其他算法有着较大提升,且在多个数据集上的表现保持相对稳定。在主题个数变化引起文本表示变化时,采用曼哈顿距离的SubTSR算法的性能相较其他算法仍能保持相对稳定。
基于深度优先搜索的模糊测试用例生成方法
李毅豪, 洪征, 林培鸿
计算机科学. 2021, 48 (12): 85-93.  doi:10.11896/jsjkx.200800178
摘要 ( 623 )   PDF(2584KB) ( 1030 )   
参考文献 | 相关文章 | 多维度评价
模糊测试是挖掘网络协议漏洞的重要方法之一。现有的模糊测试方法存在覆盖路径不完全、效率低下等问题。为了解决这些问题,文中提出了基于深度优先搜索的模糊测试用例生成方法,该方法将状态机转换成有向无回路图,以获得状态迁移路径,并通过提高测试用例在发送报文中的占比来提升模糊测试效率。该方法主要包括合并状态迁移、消除循环路径、搜索状态迁移路径、标记重复状态迁移和基于测试用例引导的模糊测试5个阶段。在合并状态迁移阶段,将首尾状态相同的状态迁移进行合并。在消除循环路径阶段,根据深度优先搜索判断图中的循环,并通过删除边将状态机转换成有向无回路图。在搜索状态迁移路径阶段,搜索有向无回路图从初始状态到终止状态的全路径,并对原状态机图使用Floyd算法补充被去除的边构造测试路径,以确保充分测试状态机中的每一个状态迁移。在标记重复状态迁移阶段,对重复状态迁移进行标记,避免对重复的状态迁移进行反复测试,以缩减测试的冗余。在基于测试用例引导的模糊测试阶段,生成针对状态迁移的测试用例,并将测试用例均匀分发到重复的状态迁移上,其中的部分测试用例能够起到引导状态迁移的作用,对被测目标进行模糊测试。实验结果表明,所提方法能够取得更高的有效测试用例比例。
基于多维度特征和混合神经网络的代码可读性评估方法
米庆, 郭黎敏, 陈军成
计算机科学. 2021, 48 (12): 94-99.  doi:10.11896/jsjkx.200800193
摘要 ( 459 )   PDF(1631KB) ( 1027 )   
参考文献 | 相关文章 | 多维度评价
对代码可读性进行定量、准确的评估是有效保障软件质量、降低沟通成本以及维护成本、提高软件开发和演化效率的重要途径。然而,现有的针对代码可读性评估的研究方案大多是基于特征工程的,受到源代码表征方式、技术手段等多方面因素影响,其评估准确率并不高。为此,文中采用深度学习作为主要技术手段,提出了一种基于多维度特征和混合神经网络的代码可读性评估方法,通过整合并运用各种单一神经网络的优势,从字符级、词条级等不同维度挖掘源代码中蕴含的结构信息和语义信息,最终实现对代码可读性的量化评估。实验表明,该方法能够获得高达84.6%的评估准确率,比单独使用卷积神经网络提升了9.2%,比单独使用循环神经网络模型提升了6.5%,并且其表现优于现有的5个可读性模型,验证了所提出的多维度特征和混合神经网络的有效性。
基于情境感知的API个性化推荐
陈晨, 周宇, 王永超, 黄志球
计算机科学. 2021, 48 (12): 100-106.  doi:10.11896/jsjkx.201000127
摘要 ( 409 )   PDF(1865KB) ( 858 )   
参考文献 | 相关文章 | 多维度评价
在软件开发的过程中,开发人员在遇到编程困境时通常会检索合适的API来完成编程任务。情境信息和开发者画像在有效的API推荐中起着至关重要的作用,却在很大程度上被忽视了。因而文中提出了一种基于情境感知的API个性化推荐方法。该方法利用程序静态分析技术,对代码文件做抽象语法树解析,提取信息构建代码库,并对开发者API使用偏好建模。然后计算开发者当前查询语句与历史代码库中查询的语义相似度,检索出top-k个相似历史查询。最终利用查询语句信息、方法名信息、情境信息以及开发者API使用偏好信息对API进行重排序并推荐给开发者。通过模拟编程任务开发的不同阶段,使用MRR,MAP,Hit,NDCG评估指标来验证所提方法的有效性。实验结果表明,所提方法的API推荐效果优于基准方法,能够为开发者推荐更想要的API。
进化算法与符号执行结合的程序复杂度分析方法
周晟伊, 曾红卫
计算机科学. 2021, 48 (12): 107-116.  doi:10.11896/jsjkx.210200052
摘要 ( 480 )   PDF(1765KB) ( 921 )   
参考文献 | 相关文章 | 多维度评价
程序的最坏执行路径是计算程序复杂度的一项重要指标,有助于发现系统可能存在的复杂性漏洞。近年来将符号执行应用于程序复杂度分析的研究取得了不小的进展,但现有方法存在通用性较差、分析时间较长的问题。文中提出一种面向最坏路径探测的进化算法——EvoWca,其核心思想是利用程序在较小输入规模下的已知最坏路径特征指导较大输入规模下初始路径集合的构建,然后模拟进化算法,对路径进行组合、突变和选择迭代,使得在搜索范围内探测到的最坏路径逼近于最坏时间复杂度对应的路径。基于该算法实现了一个用于程序复杂度分析的原型工具EvoWca2j,使用该工具和已有技术对一组Java程序进行最坏路径探索和执行效率评估,实验结果表明,相比现有方法,EvoWca2j的通用性和探索效率都有明显提高。
基于卷积神经网络的代码注释自动生成方法
彭斌, 李征, 刘勇, 吴永豪
计算机科学. 2021, 48 (12): 117-124.  doi:10.11896/jsjkx.201100090
摘要 ( 720 )   PDF(2547KB) ( 1166 )   
参考文献 | 相关文章 | 多维度评价
自动化代码注释生成技术通过分析源代码的语义信息生成对应的自然语言描述文本,可以帮助开发人员更好地理解程序,降低软件维护的时间成本。大部分已有技术是基于递归神经网络(Recurrent Neural Network,RNN)的编码器和解码器神经网络实现的,但这种方法存在长期依赖问题,即在分析距离较远的代码块时,生成的注释信息的准确性不高。为此,文中提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)的自动化代码注释生成方法来缓解长期依赖问题,以生成更准确的注释信息。具体而言,通过构造基于源代码的CNN和基于AST的CNN来捕获源代码的语义信息。实验结果表明,与DeepCom和Hybrid-DeepCom这两种最新的方法相比,在常用的BLEU和METEOR两种评测指标下,所提方法能更好地生成代码注释,且执行时间更短。
基于程序转化的SCADE模型检测
冉丹, 陈哲, 孙毅, 杨志斌
计算机科学. 2021, 48 (12): 125-130.  doi:10.11896/jsjkx.201100080
摘要 ( 468 )   PDF(1520KB) ( 1031 )   
参考文献 | 相关文章 | 多维度评价
SCADE同步语言是一种常用的嵌入式系统程序设计语言。在航空、航天、交通等安全关键领域的装备研发中,SCADE同步语言通常被用于实现实时嵌入式自动控制系统。SCADE语言是工业级的开发工具,它源于Lustre语言,并在其基础上增加了更多的语言结构来精简代码。目前,相比Lustre语言,SCADE程序模型检测的学术研究相对落后。为此,文中提出了一种对SCADE程序进行模型检测的方法并实现了一款SCADE模型检测工具,该方法的核心思想是基于程序转化,即把SCADE程序经过词法分析、语法分析、抽象语法树生成与化简等操作最终转化为等价的Lustre程序,然后用JKind与SMT求解器完成模型检测。此外,通过理论推导和大量实验证明了工具的模型检测的正确性。实验结果表明,功能相同的两个SCADE和Lustre测试用例模型的检测结果相同,但SCADE程序的模型检测效率相对较低。
噪声可容忍的软件缺陷预测特征选择方法
滕俊元, 高猛, 郑小萌, 江云松
计算机科学. 2021, 48 (12): 131-139.  doi:10.11896/jsjkx.201000168
摘要 ( 345 )   PDF(2647KB) ( 847 )   
参考文献 | 相关文章 | 多维度评价
通过对缺陷数据集进行挖掘,缺陷预测模型能够提前预测出被测软件中的缺陷模块,帮助测试人员实现更有针对性的测试,而普遍存在的数据集标签噪声会影响预测模型的性能。已有的特征选择方法很少对噪声可容忍性进行针对性设计,同时在主流的具有噪声容忍能力的特征选择框架中策略选取只能依靠经验手动执行,难以在软件工程实践中得到应用。鉴于此,文中提出一种噪声可容忍的软件缺陷预测特征选择方法NTFES (Noise Tolerable FEature Selection),即通过Bootstrap抽样技术生成多个自助样本集,在自助样本集上基于近似马尔可夫毯将特征进行分组并采用两种启发式特征选择策略从每个组中选出候选特征,随后利用遗传算法在候选特征空间中搜索最优特征子集。为了验证NTFES方法的有效性,选择了NASA MDP软件项目集作为实验对象并对标签注入噪声以获得带有噪声标签的数据集,通过控制标签噪声比例对NTFES方法以及其他基准方法(如FULL,FCBF,CFS)进行了比较。实验结果表明:在可接受的标签噪声比例下,NTFES方法不仅具有更高的分类性能,还具有更好的噪声可容忍性。
面向缺陷定位的代码搜索引擎
常建明, 薄莉莉, 孙小兵
计算机科学. 2021, 48 (12): 140-148.  doi:10.11896/jsjkx.201100209
摘要 ( 519 )   PDF(2729KB) ( 941 )   
参考文献 | 相关文章 | 多维度评价
随着软件项目规模的扩大以及软件复杂性的增加,缺陷修复的难度越来越大。其中,绝大多数缺陷问题都是由代码的错误编写导致的,在软件缺陷修复过程中开发维护人员需要花费大量的时间定位并修改缺陷代码。针对这个问题,对缺陷报告以及对应的项目变更信息进行整合,根据代码抽象语法树结构信息计算代码块与缺陷报告之间的关系,从而构建缺陷-代码知识库。在此知识库的基础上构建面向缺陷定位的代码搜索引擎,以向用户推荐更全面的缺陷定位信息,包括相似缺陷报告、相关缺陷代码文件以及缺陷代码块,从而帮助开发和维护人员及时有效地定位缺陷。实验结果说明,相比现有的缺陷定位方法,所提方法能够更准确地定位缺陷代码文件,并且可有效定位到代码粒度。
基于图神经网络的软件系统中关键类的识别
张健雄, 宋坤, 何鹏, 李兵
计算机科学. 2021, 48 (12): 149-158.  doi:10.11896/jsjkx.210100200
摘要 ( 434 )   PDF(2347KB) ( 941 )   
参考文献 | 相关文章 | 多维度评价
软件系统中通常存在一些在拓扑结构上处于核心位置的关键类,这些类上的缺陷往往会给系统带来极大的安全隐患,识别关键类对工程师理解或维护一个软件系统至关重要。针对这一问题,提出一种基于图神经网络的关键类识别方法。首先利用复杂网络理论,将软件系统抽象为软件网络;其次结合无监督网络节点嵌入学习以及邻域聚合的方式,构建一个编码-解码(encoder-decoder)框架,提取软件系统中类节点的表征向量;最后利用Pairwise排序学习实现网络中节点的重要性排序,从而实现软件系统中关键类的识别。为验证所提方法的有效性,选取4个Java开源软件作为实验对象,并与常用的5种节点重要性度量方法以及2个已有工作进行对比分析。实验结果表明:与介数中心性、K-core、接近中心性、节点收缩法和PageRank等方法相比,该方法识别关键类的效果更好;另外,相比已有工作,在前15%的关键类节点中,所提方法的召回率和准确率的提高幅度均在10%以上。
基于模型的故障树自动生成方法
展万里, 胡军, 谷青范, 荣灏, 祁健, 董彦宏
计算机科学. 2021, 48 (12): 159-169.  doi:10.11896/jsjkx.200800177
摘要 ( 425 )   PDF(2151KB) ( 1044 )   
参考文献 | 相关文章 | 多维度评价
基于模型的安全性分析方法能够提高复杂安全关键系统的建模与分析能力。目前故障树被广泛应用于系统安全及可靠性分析中。故障树分析(Fault Tree Analysis,FTA)是一种自上而下的演绎式失效方法,根据故障树分析系统中不希望出现的状态,系统工程中可以尽早确定当前系统模型可能出现的问题并及时避免。面向一类安全关键性系统领域中的系统安全性建模语言AltaRica,基于其语义模型卫士转换系统(Guarded Transition Systems,GTS),设计了从平展化的GTS模型自动构造系统故障树的方法,节省了人工构造故障树的时间,从而加快了系统分析的进度。根据AltaRica3.0语言的语义规则,提取平展化GTS模型的数据构建实例对象;设计了GTS模型划分算法,得到一组独立GTS模型与一个独立断言,通过邻接矩阵构建独立GTS的可达图并获取关键事件序列。最后将处理结束的独立GTS与独立断言相结合,通过断言传播算法得到整个系统的状态及关键事件序列,生成系统故障树。最后通过实例来检验算法的有效性,结果表明,该算法能有效完成从平展化GTS模型自动生成故障树。
基于分组公平控制流结构的流程变体合并方法
王吴松, 方欢, 郑雪文
计算机科学. 2021, 48 (12): 170-180.  doi:10.11896/jsjkx.201100157
摘要 ( 249 )   PDF(1834KB) ( 762 )   
参考文献 | 相关文章 | 多维度评价
合并流程变体模型能够快速地构建满足新需求的单一流程模型,对流程变体进行合并具有较大的实际应用价值,因此,文中提出了一种利用分组公平控制流结构的流程变体合并方法。首先,利用Petri网中的分组公平将流程变体分割为单个的变体片段;其次,提取出变体片段的控制流路径,并在此基础上构建其矩阵表现形式,进而将流程变体合并为单一的流程模型;最后,通过形式化证明验证合并后的流程模型可以捕获输入流程模型的所有行为,并且可以检测在合并模型中是否产生了不期望的行为。
数据库&大数据&数据科学
多空间交互协同过滤推荐
李康林, 古天龙, 宾辰忠
计算机科学. 2021, 48 (12): 181-187.  doi:10.11896/jsjkx.201100031
摘要 ( 456 )   PDF(2449KB) ( 2802 )   
参考文献 | 相关文章 | 多维度评价
大数据时代,由于信息过载,用户很难从海量数据中寻找出感兴趣的内容,个性化推荐系统的诞生极好地解决了这个问题。协同过滤算法被广泛应用于个性化推荐领域,但由于模型的限制,推荐效果未能得到进一步提升。现有的基于协同过滤模型的改进方法大多都是通过引入表示学习方法来得到更好的用户表示向量和项目表示向量,或通过改进用户项目匹配函数来提升推荐能力,但此类工作都致力于从单个交互提取用户-项目交互信息。文中提出了一种多空间交互协同过滤推荐算法,将用户向量和项目向量映射到多空间,从多角度做用户-项目交互,使用两层注意力机制聚合最终的用户表示向量和项目表示向量,以进行评分预测。在公开的真实数据集上,多空间交互协同过滤模型(MSICF)与多个基线模型进行了对比实验,MSICF模型的评估优于对比的基线方法。
基于全局注意力机制的属性网络表示学习
许营坤, 马放南, 杨旭华, 叶蕾
计算机科学. 2021, 48 (12): 188-194.  doi:10.11896/jsjkx.210100203
摘要 ( 495 )   PDF(1511KB) ( 1146 )   
参考文献 | 相关文章 | 多维度评价
属性网络不仅具有复杂的拓扑结构,其节点还包含丰富的属性信息。属性网络表示学习方法同时提取网络拓扑结构和节点的属性信息来学习大型属性网络的低维向量表示,在节点分类、链路预测和社区识别等网络分析技术方面具有非常重要和广泛的应用。文中首先根据属性网络的拓扑结构得到网络的结构嵌入向量;接着通过全局注意力机制来学习相邻节点的属性信息,先用卷积神经网络对节点的属性信息作卷积操作得到隐藏向量,再对卷积的隐藏向量生成全局注意力的权重向量和相关性矩阵,进而得到节点的属性嵌入向量;最后将结构嵌入向量和属性嵌入向量连接得到同时反映网络结构和节点属性的联合嵌入向量。在3个真实数据集上,将提出的新算法与当前的8种知名网络表示学习模型在链路预测和节点分类等任务上进行比较,实验结果表明新算法具有良好的属性网络表示效果。
基于3D卷积和LSTM编码解码的出行需求预测
滕建, 滕飞, 李天瑞
计算机科学. 2021, 48 (12): 195-203.  doi:10.11896/jsjkx.210400022
摘要 ( 585 )   PDF(3399KB) ( 970 )   
参考文献 | 相关文章 | 多维度评价
可靠的区域出行需求预测能够为交通资源的调度和规划提供合理有效的建议。但是,出行预测是一个非常具有挑战性的问题,面临海量的时空大数据建模问题,如何有效地提取时空大数据中的空间特征和时间特征,成为当前城市计算的研究热点。文中提出了一种基于3D卷积和编码-解码注意力机制的需求预测模型(3D Convolution and Encoder-Decoder Attention Demand Forecasting,3D-EDADF),用于同时预测城市区域的出行需求流入量和流出量。3D-EDADF模型首先利用3D卷积来提取时空数据的时空相关性,然后使用LSTM编码解码来对时间依赖性进行捕获,并结合注意力机制来描述流入流出的差异性。3D-EDADF模型对临近依赖性、日常依赖性和周期依赖性这3种时间依赖特征进行混合建模,然后将它们的多维特征进行加权融合得到最终的预测结果。采用真实的出行需求数据集进行了大量的实验,结果表明,与基准模型相比,3D-EDADF模型的整体预测误差较低,具有较好的预测性能。
基于矩阵分解的属性网络嵌入和社区发现算法
徐新黎, 肖云月, 龙海霞, 杨旭华, 毛剑飞
计算机科学. 2021, 48 (12): 204-211.  doi:10.11896/jsjkx.210300060
摘要 ( 511 )   PDF(2180KB) ( 861 )   
参考文献 | 相关文章 | 多维度评价
属性网络不但包含节点之间复杂的拓扑结构,还包含拥有丰富属性信息的节点,其可以比传统网络更有效地建模现代信息系统,属性网络的社区划分对于分析复杂系统的层次结构、控制信息在网络中的传播和预测网络用户的群体行为等方面具有重要的研究价值。为了更好地利用拓扑结构信息和属性信息进行社区发现,提出了一种基于矩阵分解的属性网络嵌入和社区发现算法(CDEMF)。首先提出基于矩阵分解的属性网络嵌入方法,基于网络局部链接信息计算相邻节点的相似性,将其与属性接近度联合建模,通过矩阵分解的分布式算法得到每个节点对应的低维嵌入向量,即把网络节点映射为低维向量表示的数据点集合。接着提出基于曲率和模块度的社区划分方法,自动确定数据点集合中蕴含的社区数量,并通过对数据点集合聚类完成属性网络社区划分。在真实网络数据集上,将CDEMF方法与其他8种知名算法进行比较,实验结果表明CDEMF具有良好的性能。
基于不完全信息的深度网络表示学习方法
富坤, 赵晓梦, 付紫桐, 高金辉, 马浩然
计算机科学. 2021, 48 (12): 212-218.  doi:10.11896/jsjkx.201000015
摘要 ( 314 )   PDF(2252KB) ( 762 )   
参考文献 | 相关文章 | 多维度评价
网络表示学习的目标是将网络中的节点嵌入到低维的向量空间,为下游任务提供有效特征表示。在现实场景中,大规模网络通常具有不完整的链路,而现有的大多数网络表示学习模型都是在网络是完整的假设下设计的,因此其性能很容易受到链路缺失的影响。针对该问题,文中提出了一种基于不完全信息的深度网络表示学习方法DNRL(Deep Network Representation Learning)。首先采用转移概率矩阵将结构信息和属性信息进行动态融合,弥补了结构信息不完整带来的过大损失,然后采用一种具有强大特征提取能力的深度生成模型(变分自编码器)来学习节点的低维表示,并捕获网络数据中潜在的高非线性特征。在3个真实属性网络上的实验结果表明,与当前常用的网络表示学习模型相比,所提模型在不同程度链路缺失的节点分类任务中都明显地改善了分类效果,在可视化任务中更清晰地反映了节点的团簇关系。
基于多粒度文本特征表示的微博用户兴趣识别
郁友琴, 李弼程
计算机科学. 2021, 48 (12): 219-225.  doi:10.11896/jsjkx.201100128
摘要 ( 336 )   PDF(2552KB) ( 1022 )   
参考文献 | 相关文章 | 多维度评价
微博用户兴趣发现对社交网络的个性化推荐和信息传播的正确引导具有重要意义,因此提出了一种基于多粒度文本特征表示的微博用户兴趣识别方法。首先,从主题层、词序层和词汇层3个方面对微博用户构造文本向量,利用LDA提取内容的主题特征,通过LSTM学习内容的语义特征,引入腾讯AI Lab开源词向量获取词义特征;然后,将以上3种特征向量拼接得到的多粒度文本特征表示矩阵输入CNN中,进行文本分类训练;最后,通过多端输出层实现对微博用户的兴趣识别。实验结果表明,多粒度特征表示模型的分类实验结果比单粒度特征表示模型的精准率、召回率和F1值分别提高了8%,12%和13%。基于对文本粗、细语义粒度和词粒度的综合考量,结合神经网络分类算法,多粒度特征表示模型的评价指标均优于单粒度特征表示模型。
基于拓扑相似和XGBoost的复杂网络链路预测方法
龚追飞, 魏传佳
计算机科学. 2021, 48 (12): 226-230.  doi:10.11896/jsjkx.200800026
摘要 ( 490 )   PDF(1722KB) ( 907 )   
参考文献 | 相关文章 | 多维度评价
为了提高复杂网络链路预测的性能,采用拓扑相似和XGBoost算法来完成复杂网络链路预测。利用复杂网络拓扑结构建立邻接矩阵,求解共同邻居集合,然后根据拓扑相似理论计算复杂网络相似得分函数,将各个时间窗的得分函数和权重参数作为输入,采用XGBoost算法实现复杂网络的链路预测。通过差异化设置XGBoost算法的两个正则化系数,测试其对链路预测准确率的影响,获取最优正则化系数,从而得到稳定的XGBoost链路预测模型。实验证明,时间窗数量设置合理的情况下,相比常用网络链路预测算法,基于拓扑相似和XGBoost算法的预测准确率优势明显,且预测时间性能和其他算法的差距较小,尤其适用于大规模的复杂网络链路预测。
计算机图形学&多媒体
图像去雨算法在云物联网应用中的研究综述
张育龙, 王强, 陈明康, 孙静涛
计算机科学. 2021, 48 (12): 231-242.  doi:10.11896/jsjkx.201000055
摘要 ( 509 )   PDF(5222KB) ( 1190 )   
参考文献 | 相关文章 | 多维度评价
《2020 年中国智能物联网(AIoT)白皮书》显示,随着我国5G网络的迅猛发展,大容量低价格的IoT(Internet of Things)传感器设备快速普及,数据呈爆发性增长,图像处理在物联网的诸多领域(如智慧城市、智慧交通、智慧医疗等)得到了广泛应用。在这些领域研究中,科研人员往往相对轻视数据收集过程中的实际问题,如天气变化、季节迁移、昼夜交替等时间变化带来的图像数据退化,以及随着物体移动、叠加、模糊、部分遮挡等诸多空间变化带来的噪声问题。其中,以雨天为代表的复杂天气下的图像模糊问题非常常见,也最具挑战。因此,文中对数据收集过程中的上述实际问题进行了系统性的调查,归类和总结了复杂天气下的图像去雨算法。与此同时,鉴于此类算法的执行需要消耗大量GPU计算资源,文中通过利用Amazon EC2云服务器中G4和P3系列的GPU实例对综述的各种去雨算法的处理时长和去雨效果进行了定量化评估,并阐述了各类去雨算法的特点和在云物联网应用中的最新趋势。
结合多粒度特征融合的自然场景文本检测方法
陈卓, 王国胤, 刘群
计算机科学. 2021, 48 (12): 243-248.  doi:10.11896/jsjkx.201000154
摘要 ( 310 )   PDF(1738KB) ( 1076 )   
参考文献 | 相关文章 | 多维度评价
自然场景下的文本信息通常具有多样性和复杂性的特点。由于采用手工设计特征的方式,传统的自然场景文字检测方法缺乏鲁棒性,而已有的基于深度学习的文本检测方法在各层网络提取特征的过程中存在丢失重要特征信息的问题。文中从多粒度和认知学的角度,提出了一种结合多粒度特征融合的自然场景文本检测方法。该方法的主要贡献是通过对通用特征提取网络的不同粒度特征进行融合,并加入残差通道注意力机制,使得模型在充分学习图像中不同粒度特征信息的基础上,更加关注目标特征信息并抑制无用的信息,提升了模型的鲁棒性和准确率。实验结果表明,相比其他最新的方法,该方法在公开数据集上取得了85.3%的准确率和82.53%的F值,具有更好的性能。
基于多级文本检测的复杂文档图像扭曲矫正算法
寇喜超, 张鸿锐, 冯杰, 郑雅羽
计算机科学. 2021, 48 (12): 249-255.  doi:10.11896/jsjkx.200700072
摘要 ( 470 )   PDF(5171KB) ( 1691 )   
参考文献 | 相关文章 | 多维度评价
文档的扭曲矫正是进行文档OCR(Optical Character Recognition)的基础步骤,对提高OCR的准确率有重要作用。文档图像的扭曲矫正常常依赖于文本的提取,然而目前文档图像矫正算法大都无法对复杂文档中的文本进行准确定位和分析,导致其矫正效果不理想。针对此问题,提出了一种基于全卷积网络的文字检测框架,并使用合成文档对网络进行针对性训练,可实现对字符、词、文本行三级文本信息的准确获取,进而对文本进行自适应采样并利用三次函数对页面进行三维建模,将矫正问题转化为模型参数优化问题,达到矫正复杂文档图像的目的。使用合成扭曲文档以及真实测试数据进行矫正实验,结果表明,提出的矫正方法能够对复杂文档进行精确的文本提取,明显改善了复杂文档图像矫正后的视觉效果,相比于其他算法,该算法矫正后OCR的准确率得到显著提高。
夜间行驶车辆远光灯检测方法
龚航, 刘培顺
计算机科学. 2021, 48 (12): 256-263.  doi:10.11896/jsjkx.200700026
摘要 ( 525 )   PDF(3964KB) ( 1059 )   
参考文献 | 相关文章 | 多维度评价
有效地对夜间车辆违规使用远光灯的行为进行管理,可以降低夜间交通事故的发生,但目前缺乏高效的远光灯检测方法,相关交通法规无法得到有效执行。针对此问题,文中提出了一种夜间车辆远光灯检测深度学习算法。该算法基于YOLOv3进行设计,通过降低各层卷积层维数的方式,来减少整体网络的参数量,提高算法的运行速度;然后对网络的残差组件进行改进,使用标准的残差组件,同时设计了一个空洞卷积模块来加强网络局部和全局特征的融合,增强了网络的特征表达能力;接着对YOLOv3的损失函数进行了改进,优化小尺寸目标对坐标损失的贡献,增强了小尺度目标的检测能力;最后对YOLOv3先验框聚类算法和个数进行优化,提高模型的表达能力和检测速度。实验结果表明,所设计的算法的平均准确率(mAP)达到了99.09%,相比YOLOv3提升了30%,满足了实用化要求,能够有效地检测违规行为。
基于相邻特征融合的目标检测
李亚泽, 刘宏哲
计算机科学. 2021, 48 (12): 264-268.  doi:10.11896/jsjkx.201200196
摘要 ( 278 )   PDF(1694KB) ( 862 )   
参考文献 | 相关文章 | 多维度评价
随着智能驾驶领域的发展,人们对目标检测的精度要求越来越高,尤其是针对高速行驶时对距离较远的小目标的检测和低速行驶时对密集目标的检测。在当前的两阶段检测框架的特征融合部分,使用bottom-up的双向融合方法虽然能够更有效地对大目标进行语义信息和位置信息的特征融合,但会给几个或几十个像素的小目标造成很大的信息损失。当检测网络特征融合部分使用top-down的单向融合方法时,则对大目标检测的效果欠佳。为此,文中提出了相邻特征融合(Neighbour Feature Pyramid Network,NFPN)方法、Double RoI(Region of Interest)方法和递归特征金字塔(Recursive Feature Pyramid,RFP)的方法。以Faster RCNN 50为基准,同时使用提出的NFPN,Double RoI和RFP后,在Lisa交通数据集中平均精度(mAP)提升了2.6个百分点。在VOC2007数据集上,以VOC07+12 train数据集为训练集,VOC2007 test为测试集,以Faster RCNN101为基准,同时使用提出的3个模型,mAP提升了6个百分点,同时小、中、大目标的精度也得到提高。
基于多粒度区域相关深度特征学习的行人重识别
董虎胜, 钟珊, 杨元峰, 孙逊, 龚声蓉
计算机科学. 2021, 48 (12): 269-277.  doi:10.11896/jsjkx.210400121
摘要 ( 278 )   PDF(3095KB) ( 704 )   
参考文献 | 相关文章 | 多维度评价
在对行人重识别的研究中,联合使用从图像中提取的全身与局部特征已经成为当前的主流方法。但是许多基于深度学习的重识别模型在提取局部特征时忽略了它们在空间上的相互联系,当不同行人具有局部相似的外观时,这些局部特征的辨别能力会受到很大影响。针对该问题,提出了一种学习多粒度区域相关特征的行人重识别方法。该方法在对骨干网络提取的卷积特征张量作不同粒度的区域划分后,设计了区域相关子网络模块来学习融入空间结构关系的各局部区域特征。在区域相关子网络模块中,为了赋予局部特征与其他区域相关联的空间结构信息,综合利用了平均池化运算的空间保持能力与最大池化运算的性能优势。通过对当前特征和其他各区域的局部特征进行联合处理,使各局部特征间产生很强的空间相关性,提升了特征判别能力。在区域相关子网络模块的设计上,采用了与深度残差网络相同的短路连接结构,使得网络更易于优化。最后,由全身特征与使用区域相关子网络增强后的各局部区域特征联合实现行人重识别。Market-1501,CUHK03,DukeMTMC-reID 3个公开数据集上的实验结果表明,所提算法取得了优于当前主流算法的行人身份匹配准确率,具有非常优秀的重识别性能。
人工智能
检索式聊天机器人技术综述
吴俣, 李舟军
计算机科学. 2021, 48 (12): 278-285.  doi:10.11896/jsjkx.210900250
摘要 ( 846 )   PDF(2335KB) ( 2235 )   
参考文献 | 相关文章 | 多维度评价
随着自然语言处理技术的飞速发展以及互联网上对话语料的不断积累,闲聊导向对话系统(简称聊天机器人)取得了令人瞩目的进展,受到了学术界的广泛关注,并在产业界进行了初步的尝试。当前,聊天机器人分为检索式聊天机器人和生成式聊天机器人,而检索式聊天机器人由于其生成的回复流畅且计算资源消耗小,仍然是目前工业界聊天机器人的主要实现手段。文中首先简要介绍了检索式聊天机器人的研究背景、基本架构以及组成模块,重点阐述了回复选择模块的约束要求和相关数据集;然后,针对检索式聊天机器人中最为核心的回复选择技术,进行了深入分析与详细梳理。文中将近年来经典的回复选择技术归纳为如下4类:基于统计模型的方法、基于表示的神经网络模型的方法、基于交互的神经网络模型的方法以及基于预训练技术的方法,并指出了这4类方法的优点和不足。在此基础上,分析了目前检索式聊天机器人技术研究所面临的问题,并对其未来的发展趋势进行了展望。
基于深度学习的交互式问答研究综述
黄欣, 雷刚, 曹远龙, 陆明名
计算机科学. 2021, 48 (12): 286-296.  doi:10.11896/jsjkx.210100209
摘要 ( 812 )   PDF(1814KB) ( 1608 )   
参考文献 | 相关文章 | 多维度评价
相比传统的一问一答,交互式问答增加了对话上下文和背景等信息,这为理解用户输入和推理答案带来了新的挑战。首先,用户输入不再局限于问题,还可以是告知问题细节、反馈答案可行与否等带有意图的语句,因此需要理解对话中每个语句的意图。其次,交互式问答允许多个角色同时参与一个问题的讨论,为每个角色生成个性化的答案,因此需要理解对话中存在的角色。再次,当交互式问答围绕一段背景文本展开时,需要理解这段背景文本,并从中抽取出问题的答案。文章对交互式问答的发展及前沿动态进行了调研,分别对无背景交互式问答、有背景交互式问答以及迁移学习在交互式问答的应用3个子方向的新方法和新发现进行了介绍,并对交互式问答的研究前景进行了分析和展望。
基于自指导动作选择的近端策略优化算法
申怡, 刘全
计算机科学. 2021, 48 (12): 297-303.  doi:10.11896/jsjkx.201000163
摘要 ( 556 )   PDF(2499KB) ( 1372 )   
参考文献 | 相关文章 | 多维度评价
强化学习领域中策略单调提升的优化算法是目前的一个研究热点,在离散型和连续型控制任务中都具有了良好的性能表现。近端策略优化(Proximal Policy Optimization,PPO)算法是一种经典策略单调提升算法,但PPO作为一种同策略(on-policy)算法,样本利用率较低。针对该问题,提出了一种基于自指导动作选择的近端策略优化算法(Proximal Policy Optimization based on Self-Directed Action Selection,SDAS-PPO)。SDAS-PPO算法不仅根据重要性采样权重对样本经验进行利用,而且增加了一个同步更新的经验池来存放自身的优秀样本经验,并利用该经验池学习到的自指导网络对动作的选择进行指导。SDAS-PPO算法大大提高了样本利用率,并保证训练网络模型时智能体能快速有效地学习。为了验证SDAS-PPO算法的有效性,将SDAS-PPO算法与TRPO算法、PPO算法和PPO-AMBER算法用于连续型控制任务Mujoco仿真平台中进行比较实验。实验结果表明,该方法在绝大多数环境下具有更好的表现。
基于改进鲸鱼算法的无人机三维路径规划
郭启程, 杜晓玉, 张延宇, 周毅
计算机科学. 2021, 48 (12): 304-311.  doi:10.11896/jsjkx.201000021
摘要 ( 610 )   PDF(2732KB) ( 1110 )   
参考文献 | 相关文章 | 多维度评价
无人机三维路径规划是一个比较复杂的全局优化问题,其目标是在考虑威胁和约束的条件下,获得最优或接近最优的飞行路径。针对鲸鱼算法在进行无人机三维航迹规划时,存在容易陷入局部最优、收敛速度较慢、收敛精度不够高等问题,提出了一种基于莱维飞行(Lévy flight)的鲸鱼优化算法(Levy Flight Based on Whale Optimization Algorithm,LWOA),用于解决无人机三维路径规划问题。该算法在迭代过程中加入了Levy飞行对最优解进行随机扰动;引入了信息交流机制,通过当前全局最优解和个体记忆最优解以及邻域最优解来更新个体的位置,能够更好地权衡局部收敛和全局开发。仿真结果表明,所提路径规划算法可以有效避开威胁区,收敛速度更快,收敛精度更高,且更不易陷入局部最优解。当迭代次数为300次、种群个数为50时,LWOA算法求得的成本函数值是PSO算法的91.1%,是GWO算法的92.1%,是WOA算法的95.9%,航迹代价更小。
融合频率和通道卷积注意的脑电(EEG)情感识别
柴冰, 李冬冬, 王喆, 高大启
计算机科学. 2021, 48 (12): 312-318.  doi:10.11896/jsjkx.201000141
摘要 ( 457 )   PDF(2099KB) ( 1085 )   
参考文献 | 相关文章 | 多维度评价
现有的脑电(EEG)情感识别研究普遍采用神经网络和单一注意机制来学习情感特征,具有相对单一的特征表示。而神经科学研究表明,不同频率和电极通道的脑电信号对情感有不同的响应程度,因此文中提出了一种融合频率和电极通道卷积注意的方法,用于脑电情感识别。具体来说,首先将EEG信号分解到不同的频带上并提取相应的帧级特征,然后用预激活残差网络来学习深层次的脑电情感相关特征,同时在残差网络的每个预激活残差单元中都融入频率和电极通道卷积注意模块,以建模脑电信号的频率和电极通道信息,并生成脑电特征的最终注意表示。在DEAP和DREAMER数据集上的独立于受试者场景下的实验结果表明,所提出的卷积注意方法相比单一注意机制更有助于增强EEG信号中情感显著信息的导入,并且能产生更好的情感识别结果。
基于双嵌入卷积神经网络的涉案微博评价对象抽取
王晓涵, 谭陈琛, 相艳, 余正涛
计算机科学. 2021, 48 (12): 319-323.  doi:10.11896/jsjkx.201100105
摘要 ( 224 )   PDF(1416KB) ( 739 )   
参考文献 | 相关文章 | 多维度评价
涉案微博的评价对象抽取是一个特定领域的任务,其评价对象词表达多样且含义与通用领域不同,仅依赖于通用领域的词嵌入无法很好地表征这些评价对象词。为此,提出了一种综合利用领域词嵌入和通用词嵌入的涉案微博评价对象抽取方法。首先对涉案微博文本进行预训练,得到具有涉案领域特征的嵌入层,其次将微博评论分别输入两个嵌入层,得到不同领域对评价对象的表征结果并进行拼接操作,然后通过卷积层抽取出与案件相关的特征,最后利用分类器对序列进行标记,以提取涉案微博评价对象。实验结果表明,所提方法的F1值在#重庆公交车坠江案#和#奔驰女司机维权案#的两个数据集上分别达到了72.36%和71.02%,较现有的基准模型有所提升,验证了不同领域词嵌入对涉案微博评价对象抽取的影响。
多域SFC部署中基于强化学习的多目标优化方法
王珂, 曲桦, 赵季红
计算机科学. 2021, 48 (12): 324-330.  doi:10.11896/jsjkx.201100159
摘要 ( 549 )   PDF(2046KB) ( 914 )   
参考文献 | 相关文章 | 多维度评价
随着网络虚拟化技术的发展,多域网络中的服务功能链部署为服务功能链优化部署问题带来了新的挑战。传统的部署方法通常对单一目标进行优化,不适用于多目标优化问题,且无法对优化目标间权重进行衡量及平衡。因此,为了对大规模服务功能链部署请求下的时延、网络负载均衡性及接受率进行同步优化,提出了一种数据归一化处理方案,并设计了基于强化学习的两步SFC部署算法。该算法以传输时延与负载均衡性为反馈参数,平衡了两者的权重关系,并对其进行了同步优化,同时利用强化学习框架优化了SFC接受率。实验结果表明,所提算法在大规模请求数下,相比时延感知方法时延降低了71.8%,相比多域部署方法接受率提高了4.6%,相比贪心算法平均负载均衡性提高了39.1%,保证了多目标优化效果。
面向法律裁判文书的生成式自动摘要模型
周蔚, 王兆毓, 魏斌
计算机科学. 2021, 48 (12): 331-336.  doi:10.11896/jsjkx.210500028
摘要 ( 612 )   PDF(1940KB) ( 1899 )   
参考文献 | 相关文章 | 多维度评价
当前面向中文内容的自动摘要模型应用于法律裁判文书时,主要采用抽取式方法进行摘要。但由于法律文本比较冗长、结构化程度较低,抽取式摘要的精准度和可靠性有所欠缺。为了获得法律裁判文书的高质量文本摘要,文中提出了一种生成式多模型融合的自动摘要方法。在Seq2Seq模型的基础上,引入注意力(attention)机制,同时通过Bert预训练和强化学习等方法,结合选择门技术,提出了BASR(Bert Based Attention Seq2Seq Reinforced Model)模型。将50 000篇法律裁判文书作为语料,以小额诉讼和简易程序类型的裁判文书为代表性研究对象,实验结果证明新模型有较好的效果,在ROUGE评价中相比传统的Seq2Seq+Attention模型取得了均值5.81%的性能提升。
基于非均衡数据层次学习的案件案由预测方法
曲浩, 崔超然, 王萧萧, 苏雅茜, 韩晓晖, 尹义龙
计算机科学. 2021, 48 (12): 337-342.  doi:10.11896/jsjkx.201100212
摘要 ( 460 )   PDF(1780KB) ( 827 )   
参考文献 | 相关文章 | 多维度评价
案件案由是对案件所涉及法律关系性质的描述,科学、完善的案由设置有利于正确适用法律,是人民法院实行案件分类管理的重要途径。案件案由预测技术指基于案件案情的文本描述由计算机自动给出案件所属类别。在案件属性预测研究中,由于低频类别的样本数量较少且难以学习相关特征,因此已有方法在数据处理部分通常会对低频类别样本进行剔除。然而,在案件案由预测问题中,关键的挑战正是如何对属于低频案由的案件做出准确预测。为此,文中提出了一种基于非均衡数据层次学习的案件案由预测方法。在案件案由预测中,根据案由层次结构将案由划分为一级案由和二级案由,二级案由中的大量尾部类别被汇聚成上层样本数较多的大类,进而通过层次学习的方式来实现二级案由的预测,使二级案由有一级案由的信息支撑。最后,引入调整数据不平衡的损失函数来实现案件案由的预测。实验结果表明,所提方法整体优于对比方法,其平均精确率比现有方法提高了4.81%,这表明通过层次学习和引入非均衡数据损失函数能较好地解决案件案由预测问题。
信息安全
基于MFCC特征的声纹同一性鉴定方法
王学光, 诸珺文, 张爱新
计算机科学. 2021, 48 (12): 343-348.  doi:10.11896/jsjkx.210100038
摘要 ( 556 )   PDF(2614KB) ( 1050 )   
参考文献 | 相关文章 | 多维度评价
声纹作为当代司法鉴定技术发展的产物,在现代声像资料鉴定中发挥了至关重要的作用。传统的声纹分析方法是基于声音处理工具进行手工分析的,考虑到其具有严格的文本相关性以及比对的臆断性的缺点,其作为证据鉴定意见的证明力有待加强。文中提出了一种基于Mel频率倒谱系数的同一性鉴定方法,即提取并量化包含原始声音的共振峰及其时间轴信息的包络作为声纹特征进行同一性比对。此方法改进了传统Mel频率倒谱系数的不足,提取共振峰的突变并将元音与响辅音的转变特性加入声纹特征,以提高其识别度。实验证明,此方法在检材与样本无关的情况下,同一性鉴定的准确率达到了85%,方差控制在9%左右,具有良好的同一性识别;而在非同一性鉴定中,该方法也能在结合人工分析的情况下给出较准确的结果。
基于时间因子和复合CNN结构的网络安全态势评估
赵冬梅, 宋会倩, 张红斌
计算机科学. 2021, 48 (12): 349-356.  doi:10.11896/jsjkx.210400227
摘要 ( 393 )   PDF(2288KB) ( 762 )   
参考文献 | 相关文章 | 多维度评价
为了解决传统的网络安全态势感知研究方法在网络信息复杂情况下准确率不高等缺陷,文中结合深度学习,提出了一种基于时间因子和复合CNN结构的网络安全态势评估模型,将卷积分解技术和深度可分离技术相结合,形成4层串联复合最优单元结构;将一维网络数据转换为二维矩阵,以灰度值的形式载入神经网络模型,从而有效发挥卷积神经网络的优势。为充分利用数据间的时序关系,引入时间因子形成融合数据,使网络同时学习具备时序关系的原始数据和融合数据,增强模型的特征提取能力,同时利用时间因子和点卷积建立时序数据的空间映射,提高模型结构的完整性。实验结果证明,所提模型在两个数据集上的准确率分别达到了92.89%和92.60%,相比随机森林和LSTM算法提升了2%~6%。
基于SSC-BP神经网络的异常检测算法
石琳姗, 马创, 杨云, 靳敏
计算机科学. 2021, 48 (12): 357-363.  doi:10.11896/jsjkx.201000086
摘要 ( 373 )   PDF(2469KB) ( 866 )   
参考文献 | 相关文章 | 多维度评价
针对物联网环境下产生的新型网络攻击的数量持续上升和复杂性不断升高,传统的异常检测算法误报率高、检测率低以及数据量大而造成计算困难等问题,提出了一种基于子空间聚类(Subspace Clustering,SSC)和BP神经网络相结合的异常检测算法。首先在网络数据集上通过子空间聚类算法中最常用的CLIQUE算法得到不同的子空间;其次对不同子空间中的数据进行BP神经网络异常检测,计算预测误差值,通过与预先设定好的精度进行比较,来不断更新阈值进行修正,以达到提高识别网络攻击的能力。仿真实验采用NSL-KDD公开数据集和物联网环境下的网络攻击数据集,将NSL-KDD公开数据集分割为4种单一攻击子集和1种混合攻击子集,通过与K-means,DBSCAN,SSC-EA以及k-KNN异常检测模型进行比较,在混合攻击子集中,SSC-BP神经网络模型的检测率比传统的K-means模型的检测率提高了6%,误检率降低了0.2%;而在4种单一攻击子集中,SSC-BP神经网络模型都能以最低的误检率检测出最多的受到攻击的网络。在物联网环境下的网络攻击数据集上,SSC-BP神经网络模型的性能均优于其他几种对比模型。