计算机科学

47卷第3期目录

计算机科学. 2020, 47 (3): 0-0.

摘要 ( 350 )

PDF(279KB) ( 1017 )

相关文章 | 多维度评价

代码标识符归一化研究现状及发展趋势

张静宣, 江贺

计算机科学. 2020, 47 (3): 1-4. doi:10.11896/jsjkx.200200009

摘要 ( 1043 )

PDF(1397KB) ( 2189 )

参考文献 | 相关文章 | 多维度评价

作为代码分析和理解的重要内容,代码标识符及其归一化是国际学术界的前沿热点研究领域。标识符归一化旨在将标识符解析成自然语言词汇,以提高代码的可理解性和可维护性。标识符归一化主要包括两个极具挑战性的步骤,分别为组合词拆分和缩写词扩充。文中详细介绍了代码标识符归一化的研究现状,并进行了深入分析,总结出现有工作的困难和不足。同时,为了解决标识符归一化面临的困难和挑战,对该领域可行的解决思路和未来的发展趋势进行了归纳和展望,希望引导更多的研究者投入到这个重要的研究领域。

代码相似性检测方法与工具综述

张丹,罗平

计算机科学. 2020, 47 (3): 5-10. doi:10.11896/jsjkx.190500148

摘要 ( 1373 )

PDF(1428KB) ( 7462 )

参考文献 | 相关文章 | 多维度评价

在代码开源的潮流下,代码克隆在提高代码质量和降低开发成本的同时,一定程度地影响了软件系统的稳定性、健壮性与可维护性。代码相似性检测在计算机与信息安全发展方面具有重要的意义。为应对代码克隆带来的各种危害,目前学术界和工业界提出了很多代码相似性检测的方法,这些方法按照源代码信息处理程度可分为基于文本、词法、语法、语义和度量值5类;并开发了相应的检测工具,这些工具实现了很好的检测效果,但在大数据时代背景下也面临着数据规模不断扩大带来的一系列挑战。文中综述了代码相似性检测的方法,对5类检测方法做了详细比较;结合传统方法与机器学习技术,归类了不同检测方法对应的检测工具;按照不同评价标准评估了检测工具的检测效果,总结了每种检测方法的首选检测工具,并对未来代码相似性检测的研究方向做出了展望。

智能化信息物理系统中非确定性的分类研究

杨文华,许畅,叶海波,周宇,黄志球

计算机科学. 2020, 47 (3): 11-18. doi:10.11896/jsjkx.191100052

摘要 ( 964 )

PDF(1853KB) ( 1843 )

参考文献 | 相关文章 | 多维度评价

信息物理系统呈现出日趋智能化的特征,而非确定性又是系统中普遍且固有的特性。例如,系统通过传感器感知环境时,会不可避免地存在误差。非确定性若未被妥当处理,往往会影响系统的正确运行,并带来一系列的问题。因此,对信息物理系统中的非确定性进行处理是至关重要的,也是促进信息物理系统进一步智能化的关键。对非确定性进行处理的前提是需要对其有充分的理解和认识,然而现有工作对信息物理系统中非确定性的研究尚处于探索阶段。针对这一问题,研究了信息物理系统中的非确定性分类。具体而言,根据信息物理系统中被广泛认可的5C技术架构对非确定性进行了分类,详细介绍了该架构每一层次上可能存在的非确定性,并结合典型的信息物理系统应用进行了举例说明;同时,总结了当前的相关研究工作,并展望了未来信息物理系统在应对非确定性方面的智能化研究方向。

设计模式组合操作优化研究

纪程宇,朱雪峰

计算机科学. 2020, 47 (3): 19-24. doi:10.11896/jsjkx.190100046

摘要 ( 682 )

PDF(1622KB) ( 1267 )

参考文献 | 相关文章 | 多维度评价

作为软件设计经验的总结,恰当使用设计模式能够有效提高软件系统的可复用性,确保最终所得软件产品的质量。但在实际应用中,人们很少使用单一的设计模式,通常需要根据实际的应用场景进行多个模式的组合,这可能会导致所得结果不确定,严重影响软件产品的质量。虽然现有的模式组合形式化方法能够有效地表达模式组合后的结果,但是组合方法逻辑复杂并包含大量的冗余操作,设计人员很难熟练使用。针对上述模式组合过程中存在的问题,文中对多模式之间的组合关系进行了深入探讨,从设计模式的形式化描述出发,结合Z语言的特点对现有的模式组合形式化方法进行了深入研究,并对现有的模式组合操作符进行了初步优化;在现有操作符集合的基础上提出了基于模式的约束、叠加和扩展操作符,通过操作符定义了模式组合的精确语义,并采用代数推理过程验证了优化后的方法可以有效地替代现有的模式组合形式化方法,且能够解决现有模式组合形式化方法中操作符冗余、数量过多导致的效率低等问题。最后,通过模式组合案例的研究,验证了所提方法的有效性。

基于特征提取的开源社区Fork摘要自动生成方法

张超,毛新军,卢遥

计算机科学. 2020, 47 (3): 25-33. doi:10.11896/jsjkx.191000087

摘要 ( 1090 )

PDF(2504KB) ( 1528 )

参考文献 | 相关文章 | 多维度评价

当前,基于P/R的分布式协同开发已经成为开源社区中的主导软件开发方式。开发者通过Fork复制软件项目的版本库,创建自身分支,并在新建分支中进行独立开发。由于P/R协同开发模型具有开放性、透明性和并行化等特征,开发人员在Fork项目时难以掌握项目的Fork概况,不知道其他开发人员是否已通过Fork开展相同或类似的开发工作,从而容易产生重复性的贡献和冗余性开发。针对这个问题,提出一种Fork摘要的自动生成方法以帮助项目管理者加强项目管控,避免冗余贡献,增强合作交流。该方法首先爬取开源社区中具有Feature和Bug标签信息的Issue数据,采用随机森林方法训练一个分类器模型,以对Fork特征进行分类;随后收集Fork分支的软件开发活动数据,采用TextRank算法生成Fork详细信息以解释Fork的主要目的;最后设计了一组组合规则及相应的算法来整合Fork的类别、特征和其他信息,以形成完整的Fork摘要。为了检验所提方法在指导分布式协同开发方面的有效性,在Github上进行了30组人工测试和60组实际案例测试。结果表明,所提方法生成的Fork摘要的准确率达到67.2%,实验中76%的项目管理者认为Fork摘要有助于更好地管理项目,加强沟通与合作。

基于语义相似度的API使用模式推荐

张云帆,周宇,黄志球

计算机科学. 2020, 47 (3): 34-40. doi:10.11896/jsjkx.190300053

摘要 ( 1090 )

PDF(1878KB) ( 2233 )

参考文献 | 相关文章 | 多维度评价

在软件开发过程中,复用应用程序编程接口(Application Programming Interface,API)可以提高软件开发效率,但是使用不熟悉的API是一项耗时且困难的挑战。已有的研究往往将API作为用户输入的查询,通过在语料库中搜索该API的使用模式来进行推荐,但这并不符合开发人员的查询习惯。文中提出了一种基于自然语言语义相似度的API使用模式推荐方法(Semantic Similazing Based API Recommendation,SSAPIR)。该方法使用层次聚类算法来提取API使用模式,然后通过计算查询信息和API使用模式来描述信息之间的语意相似度,向开发人员推荐相关度高且被广泛使用的API使用模式。为了验证SSAPIR的有效性,文中从GitHub的高质量Java项目中提取9个流行的第三方API库的API使用模式以及API使用模式的描述信息,并根据这9个流行的第三方API库的自然语言查询进行API使用模式推荐。通过计算推荐结果的Hit@K准确率来验证SSAPIR的有效性,实验结果表明,层次聚类能有效提高推荐准确率,且SSAPIR在Hit@10平均准确率上达到了85.02%,优于现有研究工作,能够很好地完成API使用模式推荐任务,为开发人员输入的自然语言查询提供精准的API使用模式。

基于用户评论的代码质量识别与分析

徐海燕,姜瑛

计算机科学. 2020, 47 (3): 41-47. doi:10.11896/jsjkx.191100132

摘要 ( 716 )

PDF(1729KB) ( 1870 )

参考文献 | 相关文章 | 多维度评价

随着IT社区和代码托管平台的发展,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含丰富的静态和动态代码质量信息,对其进行提取与分析将有助于开发者了解用户关注的代码质量信息,以有针对性地提升代码质量,还有助于用户选择满足要求的代码。为此,文中提出了包含静态特性和动态特性的代码质量模型,以及识别并分析用户评论中代码质量信息的方法。首先,根据评价对象和评价句型规则识别出具有代码质量的用户评论;然后,应用评价对象和评价观点抽取代码质量属性表现;最后,通过分析代码质量属性表现和情感倾向给出代码静态和动态质量的相关结果。实验结果表明,所提方法能够有效地分析用户评论中的代码质量信息。

融合自注意力机制和多路金字塔卷积的软件需求聚类算法

康雁,崔国荣,李浩,杨其越,李晋源,王沛尧

计算机科学. 2020, 47 (3): 48-53. doi:10.11896/jsjkx.190700146

摘要 ( 811 )

PDF(1892KB) ( 1402 )

参考文献 | 相关文章 | 多维度评价

随着软件数量的急剧增长以及种类的日益多样化,挖掘软件需求文本特征并对软件需求特征聚类,成为了软件工程领域的一大挑战。软件需求文本的聚类为软件开发过程提供了可靠的保障,同时降低了需求分析阶段的潜在风险和负面影响。然而,软件需求文本存在离散度高、噪声大和数据稀疏等特点,目前有关聚类的工作局限于单一类型的文本,鲜有考虑软件需求的功能语义。文中鉴于需求文本的特点和传统型聚类方法的局限性,提出了融合自注意力机制和多路金字塔卷积的软件需求聚类算法(SA-MPCN&SOM)。该方法通过自注意力机制捕获全局特征,然后基于多路金字塔卷积从不同窗口的通路深度挖掘需求文本特征,使得感知的文本片段逐倍增加,最终融合多路文本特征,利用SOM完成聚类。在软件需求数据上的实验表明,所提方法能较好地挖掘需求特征并对其聚类,性能上优于其他特征提取方式和聚类算法。

基于强化学习的Web服务众测任务分派方法

唐文君,张佳丽,陈荣,郭世凯

计算机科学. 2020, 47 (3): 54-60. doi:10.11896/jsjkx.191100085

摘要 ( 1065 )

PDF(1783KB) ( 1635 )

参考文献 | 相关文章 | 多维度评价

如何将众包测试任务分派给合适的众测工人,以较低的成本获得更好的测试结果,是一个重要问题。文中将CWS众测任务分派问题建模为一个基于马尔可夫决策过程的问题,且使用Deep Q Network进行学习和实时在线测试任务分派。该基于强化学习的方法被命名为WTA-C。此外,文中根据众测工人执行任务的历史时间,通过统计条件概率计算测试工人在任务期限内完成任务的概率,将其作为工人信誉值来反映工人质量,并在每次分派完成后对工人信誉值进行更新。实验结果显示,WTA-C在控制测试任务的“质量-成本”权衡和保证工人可靠度方面优于其他基于启发式策略的实时分派方法,并在分派效果上高于各启发式策略18%以上,从而证明了其可以更好地适应CWS的结构和众测环境的特点。

基于边界域的邻域知识距离度量模型

杨洁,王国胤,李帅

计算机科学. 2020, 47 (3): 61-66. doi:10.11896/jsjkx.190500174

摘要 ( 774 )

PDF(1389KB) ( 1199 )

参考文献 | 相关文章 | 多维度评价

粗糙集的不确定性度量在知识获取中扮演着非常重要的角色。在邻域粗糙集理论中,当前不确定性度量方面的研究工作主要专注于度量单个知识空间的不确定性及其随粒度变化的单调性规律,其仍存在以下缺点:1)邻域粗糙集不确定性来自于邻域粒中属于目标概念的元素和不属于目标概念的元素,当前的方法没有同时考虑每个邻域信息粒的这两部分;2)不能反映不同知识空间对目标概念刻画能力的差异性;3)由于当前的知识距离包含了粒度划分的信息,已有方法在一些应用场合下不够准确,例如属性约简中的知识启发式搜索及其粒度选择。对此,文中首先构建了一种更加直观准确的邻域粗糙集的不确定性度量方法——邻域熵,并证明了不确定性度量随着粒度的细化具有单调性;为了反映不同邻域信息粒对目标概念刻画能力的差异性,提出了一种带近似描述能力的邻域粒距离,称为相对邻域粒距离,并介绍了它的相关性质;针对分层递阶的多粒度知识空间中的粒度选择问题,建立了基于边界域的邻域知识距离度量模型,该知识距离可以反映不同邻域知识空间对目标概念的刻画能力的差异性。

基于距离比值尺度的模糊粗糙集属性约简

陈毅宁,陈红梅

计算机科学. 2020, 47 (3): 67-72. doi:10.11896/jsjkx.190100196

摘要 ( 638 )

PDF(2194KB) ( 1174 )

参考文献 | 相关文章 | 多维度评价

属性约简能有效地去除不必要属性,提高分类器的性能。模糊粗糙集是处理不确定信息的重要范式,能有效地应用于属性约简。在模糊粗糙集中,样本分布的不确定性会影响对象的近似集,进而影响有效属性约简的获取。为有效地定义近似集,文中提出了基于距离比值尺度的模糊粗糙集,该模型引入了基于距离比值尺度的样本集的定义,通过对距离比值尺度的控制,避免了样本分布不确定性对近似集的影响;给出了该模型的基本性质,定义了新的依赖度函数,进而设计了属性约简算法;以SVM,NaiveBayes和J48作为测试分类器,在UCI数据集上评测所提算法的性能。实验结果表明,所提出的属性约简算法能够有效获取约简并提高分类的精度。

基于优化可辨识矩阵和改进差别信息树的属性约简算法

徐怡,唐静昕

计算机科学. 2020, 47 (3): 73-78. doi:10.11896/jsjkx.190500125

摘要 ( 777 )

PDF(1409KB) ( 1143 )

参考文献 | 相关文章 | 多维度评价

运用可辨识矩阵表示信息系统中所有对象的区分信息,为研究属性约简提供了新方向。然而,传统的可辨识矩阵在构造结束后才利用核属性消除冗余元素项,忽略了核属性在矩阵构建过程中的作用。针对这一问题,文中做了以下研究:1)优化可辨识矩阵的构造方式,在计算任意两个对象的区分信息之前,先判断核属性上的取值是否相等,如果不相等,则直接将对应元素项记为ø,忽略对其他条件属性的判断;2)提出属性加权重要度的概念,综合考虑每个条件属性占可辨识矩阵中非空元素项的比率(称为宏观重要度)与每个属性对区分对象的贡献程度(称为微观重要度),并通过例子说明了该度量方法的合理性;3)针对优化后的矩阵仍然存在大量冗余元素和空集这一缺陷,结合差别信息树的概念提出基于优化可辨识矩阵和属性加权重要度的差别信息树。按照属性加权重要度对优化可辨识矩阵中所有非空元素项进行排序,使得重要度高的属性被更多的节点共享;且在构建过程中将不包含核属性的元素项映射到树中的一条路径上,而包含核属性的元素项则被直接忽略。最后,提出基于优化可辨识矩阵和改进差别信息树的约简算法HSDI-tree。在UCI的5个数据集上分别比较了HSDI-tree算法与CDI-tree,DI-tree和IDI-tree算法的约简结果和节点个数,实验结果表明HSDI-tree算法能有效找到最小属性约简且空间压缩能力更好。

复杂高维数据的密度峰值快速搜索聚类算法

陈俊芬,张明,赵佳成

计算机科学. 2020, 47 (3): 79-86. doi:10.11896/jsjkx.190400123

摘要 ( 1043 )

PDF(4067KB) ( 1568 )

参考文献 | 相关文章 | 多维度评价

机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。

基于局部可调节多粒度粗糙集的属性约简

侯成军,米据生,梁美社

计算机科学. 2020, 47 (3): 87-91. doi:10.11896/jsjkx.190500162

摘要 ( 577 )

PDF(1387KB) ( 1187 )

参考文献 | 相关文章 | 多维度评价

经典的多粒度粗糙集模型采用多个等价关系(多粒度结构)来逼近目标集。根据乐观和悲观策略,常见的多粒度粗糙集分为两种类型:乐观多粒度粗糙集和悲观多粒度粗糙集。然而,这两个模型缺乏实用性,一个过于严格,另一个过于宽松。此外,多粒度粗糙集模型由于在逼近一个概念时需要遍历所有的对象,因此非常耗时。为了弥补这一缺点,进而扩大多粒度粗糙集模型的使用范围,首先在不完备信息系统中引入了可调节多粒度粗糙集模型,随后定义了局部可调节多粒度粗糙集模型。其次,证明了局部可调节多粒度粗糙集和可调节多粒度粗糙集具有相同的上下近似。通过定义下近似协调集、下近似约简、下近似质量、下近似质量约简、内外重要度等概念,提出了一种基于局部可调节多粒度粗糙集的属性约简方法。在此基础上,构造了基于粒度重要性的属性约简的启发式算法。最后,通过实例说明了该方法的有效性。实验结果表明,局部可调节多粒度粗糙集模型能够准确处理不完备信息系统的数据,降低了算法的复杂度。

基于特定类的区间值决策系统的分布约简

杨文静,张楠,童向荣,杜贞斌

计算机科学. 2020, 47 (3): 92-97. doi:10.11896/jsjkx.190500180

摘要 ( 796 )

PDF(2103KB) ( 1220 )

参考文献 | 相关文章 | 多维度评价

在粗糙集理论中,属性约简是重要的研究内容之一。通过属性约简可以去除冗余属性,求得保持决策系统某种分类能力不变的最小属性子集。分布约简保持决策系统中所有决策类的分布不变,但针对所有决策类的分布约简在实际问题中可能是不必要的。针对以上问题,文中给出了区间值决策系统中基于α-相容关系的特定类分布约简的概念,证明了特定类分布约简的相关定理,构造了特定类分布约简对应的差别矩阵,提出了基于差别矩阵的特定类的分布约简算法(CDRDM),并分析了特定类的分布约简算法和全局分布约简算法(DRDM)构造的差别矩阵中非空元素的集合之间的关系。实验中选取了6组UCI数据集,引入了区间参数,当区间参数为1.2、阈值为0.5时,比较了DRDM算法和3种不同决策类下的CDRDM算法的约简结果和平均约简长度,并且当区间参数分别为1.2和1.6、阈值分别为0.4和0.5时,给出了DRDM算法和两种不同决策类下的CDRDM算法的约简时间随着对象数目和属性数目的变化情况。实验结果表明,特定类分布约简算法针对不同决策类的约简结果可能不同,并且当决策系统中的决策类数量大于1时,特定类分布约简算法的平均约简长度小于或等于全局分布约简算法的平均约简长度,特定类分布约简算法针对不同的决策类在约简效率上有不同程度的改进。

对偶区间集概念格上区间集协调集的判定方法

郭庆春,马建敏

计算机科学. 2020, 47 (3): 98-102. doi:10.11896/jsjkx.190500098

摘要 ( 766 )

PDF(1524KB) ( 1104 )

参考文献 | 相关文章 | 多维度评价

对偶区间集概念格是将区间集引入到对偶概念格产生的,它将对偶概念的外延与内涵从经典集合推广到区间集,使之成为一种描述不确定性概念的数学方法。而属性约简是数据挖掘的核心内容之一,是一种研究概念格本质特征的方法,它通过删除冗余属性使数据表中概念的获取与表示变得更简洁。文中主要研究对偶区间集概念格上区间集协调集的判定方法。首先基于对偶区间集概念格的同构,引入了区间集协调集,给出了对偶区间集概念格上区间集协调集的一系列判定定理,进而讨论了利用区间集协调集获取区间集属性约简的方法。

基于循环时间卷积网络的序列流推荐算法

李太松,贺泽宇,王冰,颜永红,唐向红

计算机科学. 2020, 47 (3): 103-109. doi:10.11896/jsjkx.190500183

摘要 ( 1105 )

PDF(1616KB) ( 2248 )

参考文献 | 相关文章 | 多维度评价

针对循环神经网络(Recurrent Neural Network,RNN)模型在序列流推荐中只能从宏观上捕捉序列的演变模式,忽略了物品(Item)间内部的微观联系,无法长程建模序列数据的变化规律的问题,提出了多维度序列建模算法循环时间卷积网络(Recurrent Temporal Convolutional Network,RTCN)。首先,将每个物品表示成定长向量,采用多层因果卷积和扩张卷积操作扩大感受野范围,建立序列元素间的长程依赖关系。利用残差连接网络提取不同层次的特征信息,解决反向传播中梯度衰减甚至消失的问题。综合设计时间卷积网络(Temporal Convolutional Network,TCN)提取序列流中前后物品间的局部特征,将物品信息映射到隐藏空间,得到细粒度的特征向量。为进一步建立元素间的宏观联系,将特征向量依次输入门限循环单元(Gated Recurrent Unit,GRU),迭代更新现有隐藏状态并预测下一时刻的输出。RTCN通过时间卷积网络,从输入序列流提取出长时间、多维度、细粒度的局部关联特征;经过门限循环网络,建模序列间的长距离依赖关系,捕捉序列元素的演变模式,并预测下一个出现的物品。利用网站、手机应用和音乐3个不同场景中的数据对模型进行了实验。实验结果显示,RTCN模型在召回率(Recall)和平均排序倒数(MRR)两个指标上比RNN模型高出6%~13%,比传统推荐算法高出9%~59%。通过对比不同的损失函数,模型在交叉熵损失函数下表现最优。此外,由于TCN中的卷积层具有多通道的结构,当数据维度丰富时,该模型对物品和用户的上下文信息具有很强的综合能力。

融合语义特征的关键词提取方法

高楠,李利娟,李伟,祝建明

计算机科学. 2020, 47 (3): 110-115. doi:10.11896/jsjkx.190700041

摘要 ( 1559 )

PDF(2044KB) ( 2137 )

参考文献 | 相关文章 | 多维度评价

关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。

可见光遥感图像海面目标检测技术综述

刘俊琦,李智,张学阳

计算机科学. 2020, 47 (3): 116-123. doi:10.11896/jsjkx.190300102

摘要 ( 1043 )

PDF(1769KB) ( 3216 )

参考文献 | 相关文章 | 多维度评价

基于可见光遥感图像的海面目标检测技术是当前遥感领域的研究热点,为推进基于可见光遥感图像的海面目标检测技术的发展,文中对当前主要的检测方法进行了总结。首先,介绍了可见光遥感图像目标特性以及图像目标检测基本流程,并分析了遥感图像目标检测的研究现状;然后,针对海面目标快速检测问题,详细介绍了视觉显著性方法在遥感图像目标检测方面的研究现状;接着,针对遥感图像分类识别问题,详细介绍了卷积神经网络在遥感图像目标检测方面的研究现状;最后,总结了现有方法应用于海面目标检测存在的问题以及未来的研究方向。

基于改进的BEMD的红外与可见光图像融合方法

朱莹,夏亦犁,裴文江

计算机科学. 2020, 47 (3): 124-129. doi:10.11896/jsjkx.190100038

摘要 ( 836 )

PDF(2266KB) ( 1453 )

参考文献 | 相关文章 | 多维度评价

将红外图像与可见光图像融合在一起,可增强视觉效果,使人产生更完整的场景感知。基于二维经验模态分解(Bidimensional Empirical Mode Decomposition,BEMD)的图像融合方法运行时间较长,因此,文中提出了一种基于改进的二维经验模态分解的红外与可见光图像快速自适应融合方法,采用顺序统计滤波器和高斯滤波器直接生成均值包络曲面,从而加速图像的分解过程。首先,将可见光图像转化到HIS(Hue-Intensity-Saturation)颜色空间;然后,用改进的BEMD对强度分量I和红外图像进行分解,生成高频分量和低频分量,高频分量和低频分量分别采用自适应局部加权融合规则和算术平均融合规则;最后,将强度分量I与红外图像的融合结果图经过逆HIS变换到RGB颜色空间,从而得到融合图像。仿真实验表明,该融合算法不仅运行速度快,而且融合效果最佳,最大程度地保留了红外图像的边缘细节特征和可见光图像的光谱信息。

网格驱动的双向图像拼接算法

庞荣来,林静,张磊

计算机科学. 2020, 47 (3): 130-136. doi:10.11896/jsjkx.190100239

摘要 ( 837 )

PDF(6934KB) ( 1680 )

参考文献 | 相关文章 | 多维度评价

图像拼接是将不同视角下的多幅图像合并成一幅宽视角图像的技术。该技术不仅要求拼接后的重叠区域重影尽可能少,而且要求非重叠区域的扭曲尽可能小。在Moving DLT(Moving Direct Linear Transformation)的基础上,文中提出了网格驱动的双向图像拼接算法。对于重叠区域,利用双向Moving DLT做特征点对齐,并通过定量评估的方式来判断图像叠加的方式,进而得到拼接准确、重影少的结果;对于非重叠区域,利用网格在单应变换和相似变换后的顶点插值进行矫正,进而减小非重叠区域的扭曲。实验结果显示,提出的双向拼接算法比单向拼接算法更准确,对应点的MAE(Mean Absolute Error)会下降0.2个点,而且得到的拼接结果更加自然平滑。

面向三维重建的自适应列文伯格-马夸尔特点云配准方法

曾俊飞,杨海清,吴浩

计算机科学. 2020, 47 (3): 137-142. doi:10.11896/jsjkx.190200261

摘要 ( 793 )

PDF(2871KB) ( 1437 )

参考文献 | 相关文章 | 多维度评价

针对三维重建时点云配准过程易受环境噪声、点云曝光、光照、物体遮挡等因素的影响,以及传统ICP配准算法配准精度低、耗时长等问题,提出一种基于自适应列文伯格-马夸尔特迭代式的点云配准方法。首先,对初始点云数据采用统计滤波和体素栅格滤波相结合的方式进行降噪预处理;然后,对滤波后的点云进行分层,剔除位于层外的外点数据,以提高后续点云配准的精度;针对传统点云特征描述方法计算量大的问题,使用平滑度参数提取点云特征,以提升点云配准的效率;最后,根据点云特征建立帧间点到线及点到面的约束关系,采用改进的列文伯格-马夸尔特(Levenberg-Marquardt)方法完成点云配准,构建较理想的三维重建模型。实验结果表明,提出的点云配准方法适用于室内及室外场景的三维重建,环境适应性强,且点云配准精度和效率都有较大提升。

基于卷积神经网络的压缩感知重构算法优化

刘玉红,刘树英,付福祥

计算机科学. 2020, 47 (3): 143-148. doi:10.11896/jsjkx.190100199

摘要 ( 1147 )

PDF(2964KB) ( 2282 )

参考文献 | 相关文章 | 多维度评价

压缩感知理论因其编码复杂度低、节省资源、抗干扰能力强等特点,被广泛应用于图像和视频信号处理。然而,传统的压缩感知技术也面临着重构时间长、算法复杂度高、迭代次数多、计算量大等问题。针对图像重构时间和重构质量的问题,文中提出一种新的卷积神经网络结构Combine Network (CombNet),它将压缩感知的测量值作为卷积神经网络的输入,连接一个全连接层,然后通过CombNet获得最终输出。实验结果表明,CombNet具有较低的复杂度及较好的恢复性能,在相同的采样率下,CombNet的峰值信噪比(PSNR)较TVAL3提高了7.2%~13.95%,较D-AMP提高了7.72%~174.84%。CombNet重构的耗时比传统重构算法提高了3个数量级,实现了实时重构。在采样率极低(采样率为0.01时)的情况下,CombNet的平均PSNR较D-AMP高出11.982dB,因此所提算法具有更好的视觉吸引力。

基于MFCC和常数Q变换的乐器音符识别

陈燕文,李坤,韩焱,王燕平

计算机科学. 2020, 47 (3): 149-155. doi:10.11896/jsjkx.190100224

摘要 ( 1173 )

PDF(4003KB) ( 2061 )

参考文献 | 相关文章 | 多维度评价

音符识别是音乐信号分析处理领域内非常重要的研究内容,它为计算自动识谱、乐器调音、音乐数据库检索和电子音乐合成提供技术基础。传统的音符识别方法通过估计音符基频与标准频率进行一一对应识别。然而一一对应较为困难,且随着音符基频的增大将导致误差增大,可识别的音符基频范围不广。为此,文中采用分类的思想进行音符识别。首先,建立所需识别的音符音频库,并针对音乐信号低频信息的重要性,选取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)和常数Q变换(Constant Q Transform,CQT)作为音符信号提取特征。然后,将提取的特征MFCC和CQT分别作为音符识别的单一特征输入和两者特征融合输入;结合Softmax回归模型在多分类问题中的优势以及BP神经网络良好的非线性映射能力与自学习能力,构建基于Softmax回归模型的BP神经网络多分类识别器。在MATLAB R2016a的仿真环境下,将特征参数输入到多分类器中进行学习与训练,通过调整网络参数来寻找最优解。通过改变训练样本数进行对比实验。实验结果表明,将融合特征(MFCC+CQT)作为特征输入时,可以识别出从大字组到小字三组的25类音符,并可以获得95.6%的平均识别率;在识别过程中,特征CQT比特征MFCC的贡献更大。实验数据充分说明,利用分类的思想提取音符信号的MFCC和CQT特征来进行音符识别,可以取得很好的识别效果,并且不受音符基频范围的限制。

基于Multi-Path RefineNet的多特征高分辨率SAR图像道路提取算法

陈立福,刘燕芝,张鹏,袁志辉,邢学敏

计算机科学. 2020, 47 (3): 156-161. doi:10.11896/jsjkx.190100124

摘要 ( 661 )

PDF(2964KB) ( 1558 )

参考文献 | 相关文章 | 多维度评价

为解决现有高分辨率SAR图像道路提取算法自动化较差、普适性不高的问题,提出了一种基于多路径优化网络的多特征提取算法。首先,对SAR图像进行Gabor变换及灰度梯度共生矩阵变换,获取丰富的道路特征信息,联结级联优化网络和残差网络形成多路径优化网络;然后,对SAR原图、获取的低级特征图和标签图进行训练,充分利用每层网络提取的道路特征获取初始分割的道路结果;最后,利用数学形态学运算连接初始道路断裂处并去除虚警。利用所提算法对不同分辨率的SAR图像进行道路提取,实验结果表明,该算法在提取SAR图像道路方面适用范围广且道路提取效果佳。

面向自然语言处理的预训练技术研究综述

李舟军,范宇,吴贤杰

计算机科学. 2020, 47 (3): 162-173. doi:10.11896/jsjkx.191000167

摘要 ( 1471 )

PDF(1678KB) ( 6864 )

参考文献 | 相关文章 | 多维度评价

近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。

阅读眼动追踪语料库的构建与应用研究综述

王晓明,赵歆波

计算机科学. 2020, 47 (3): 174-181. doi:10.11896/jsjkx.190800040

摘要 ( 836 )

PDF(1586KB) ( 1873 )

参考文献 | 相关文章 | 多维度评价

阅读文字时眼球的运动反映了人类的认知过程。阅读眼动数据是认知心理学、应用语言学、计算机科学等领域中重要的基础数据,而我国在阅读眼动研究的基础数据方面较欠缺。针对这一现状,首先介绍了阅读眼动追踪语料库产生的背景以及国内外的相关文献;然后从影响阅读眼动的低水平视觉因素和高水平视觉因素角度介绍了阅读眼动追踪语料库的内容及所使用的各项眼动指标,如单一注视时间、首次注视时间、凝视时间、总注视时间、回视出次数、回视入次数等,并分析了使用语料库研究法进行阅读眼动研究相比传统阅读眼动研究具有的3个优势;最后从语料库眼动指标变量、语料规模、语料内容、语料语种、被试规模、被试特征、采集设备等方面介绍了国外已经建成的较有影响力的若干阅读眼动追踪语料库,以供阅读眼动研究者参考。在眼动追踪语料库应用研究方面,对认知心理学、应用语言学和计算机科学等相关领域已开展的主要研究进行述评,重点介绍了在计算机科学的眼动可计算模型、自然语言处理、模式识别3个领域中基于阅读眼动追踪语料库开展的典型研究。在中文阅读眼动追踪语料库的构建与应用研究方面,介绍了我国相关研究的开展现状,分析了我国在眼动基础数据方面欠缺的原因,并从国家、科研机构、科研工作者3个层面提出了解决此问题的对策和建议。

深度强化学习中稀疏奖励问题研究综述

杨惟轶,白辰甲,蔡超,赵英男,刘鹏

计算机科学. 2020, 47 (3): 182-191. doi:10.11896/jsjkx.190200352

摘要 ( 2171 )

PDF(1664KB) ( 5688 )

参考文献 | 相关文章 | 多维度评价

强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。

基于深度学习的多标签生成研究进展

刘晓玲,刘柏嵩,王洋洋,唐浩

计算机科学. 2020, 47 (3): 192-199. doi:10.11896/jsjkx.190300137

摘要 ( 787 )

PDF(1713KB) ( 2251 )

参考文献 | 相关文章 | 多维度评价

大数据时代,数据呈现维度高、数据量大和增长快等特点。如何有效利用其中蕴含的有价值信息,以实现数据的智能化处理,已成为当前理论和应用的研究热点。针对现实普遍存在的多义性对象,数据多标签被提出并被广泛应用于数据智能化组织。近年来,深度学习在数据特征提取方面呈现出高速、高精度等优异性,使基于深度学习的多标签生成得到广泛关注。文中分五大类别总结了最新研究成果,并进一步从数据、关系类型、应用场景、适应性及实验性能方面对其进行对比和分析,最后探讨了多标签生成面临的挑战和未来的研究方向。

基于深度学习网络模型的端到端航迹关联

黄虹玮,刘玉娇,沈卓恺,张少伟,陈志敏,高阳

计算机科学. 2020, 47 (3): 200-205. doi:10.11896/jsjkx.190400037

摘要 ( 955 )

PDF(1853KB) ( 2264 )

参考文献 | 相关文章 | 多维度评价

为提高雷达数据处理中航迹关联的智能性,充分利用目标的特征信息,并简化系统处理流程,提出了一种基于深度学习网络模型的端到端航迹关联算法。首先分析了基于神经网络的航迹关联存在样本细节少、处理流程繁杂的问题,然后提出了端到端的深度学习模型。该模型根据航迹关联数据的处理特征,改进了卷积神经网络结构用于特征提取,充分利用了长短期记忆网络对历史信息和将来信息的处理能力,并分析了前后航迹的关联性。在对原始数据进行卡尔曼滤波后,将全部航迹信息特征作为输入,并由基于卷积神经网络特征提取的长短期记忆深度神经网络模型直接输出航迹关联结果。仿真结果表明,提出的模型可以充分学习推演目标的多个特征信息,具有较高的航迹关联准确率,对航迹关联的智能化分析具有一定的参考价值。

基于门控卷积网络的篇章级事件可信度识别方法

张赟,李培峰,朱巧明

计算机科学. 2020, 47 (3): 206-210. doi:10.11896/jsjkx.190200265

摘要 ( 840 )

PDF(1607KB) ( 1361 )

参考文献 | 相关文章 | 多维度评价

事件可信度表示文本中事件的真实程度,描述了事件是否是一个事实,或是一种可能性,又或者是一种不可能的情况。事件可信度识别是问答系统、篇章理解等诸多相关任务的重要基础。目前,事件可信度识别的研究基本上还停留在句子级,很少涉及篇章级。因此,文中提出了一个基于门控卷积网络的篇章级事件可信度识别方法DEFI(Document-level Event Factuality Identification)。该方法首先使用门控卷积网络从句子和句法路径中抽取篇章中事件的语义和句法信息,然后通过自注意力(Self-Attention)层获取每个序列相对于自身更重要的整体信息的特征表示,从而识别出篇章级事件可信度。在中英文语料上的实验显示,与基准系统相比,DEFI的宏平均F1值和微平均F1值均得到了提高,其中在中英文语料上宏平均F1值分别提高了2.3%和4.4%,微平均F1值分别提升了2.0%和2.8%;同时,所提方法在训练速度上也提升了3倍。

融入语言模型和注意力机制的临床电子病历命名实体识别

唐国强,高大启,阮彤,叶琪,王祺

计算机科学. 2020, 47 (3): 211-216. doi:10.11896/jsjkx.190200259

摘要 ( 1015 )

PDF(1557KB) ( 1900 )

参考文献 | 相关文章 | 多维度评价

临床电子病历命名实体识别(Clinical Named Entity Recognition,CNER)的主要任务是对给定的一组电子病历文档进行识别并抽取出与医学临床相关的命名实体,然后将它们归类到预先定义好的类别中,如疾病、症状、检查等实体。命名实体识别任务通常被看作一个序列标注问题。目前,深度学习方法已经被广泛应用于该任务并取得了非常好的效果。但其中大部分方法未能有效利用大量的未标注数据;并且目前使用的特征相对简单,未能深入捕捉病历文本自身的特征。针对这两个问题,文中提出一种融入语言模型和注意力机制的深度学习方法。该方法首先从未标注的临床医疗数据中训练字符向量和语言模型,然后利用标注数据来训练标注模型。具体地,将句子的向量表示送入一个双向门控循环网络(Bidirectional Gated Recurrent Units,BiGRU)和预训练好的语言模型,并将两部分的输出进行拼接。之后,将前一层的拼接向量输入另一个BiGRU和多头注意力(Multi-head Attention)模块。最后,将BiGRU和多头注意力模块的输出进行拼接并输入条件随机场(Conditional Randoin Field,CRF),预测全局最优的标签序列。通过利用语言模型特征和多头注意力机制,该方法在CCKS-2017 Shared Task2标准数据集上取得了良好的结果(F1值为91.34%)。

基于目标演绎距离的一阶逻辑子句集预处理方法

曹锋,徐扬,钟建,宁欣然

计算机科学. 2020, 47 (3): 217-221. doi:10.11896/jsjkx.190100004

摘要 ( 667 )

PDF(1597KB) ( 1154 )

参考文献 | 相关文章 | 多维度评价

一阶逻辑定理证明是人工智能的核心基础,研究一阶逻辑自动定理证明器的相关理论和高效的算法实现具有重要的学术意义。当前一阶逻辑自动定理证明器首先通过子句集预处理约简子句集规模,然后通过演绎方法对定理进行判定。现有的应用于证明器中的子句集预处理方法普遍只从与目标子句项符号相关性角度出发,不能很好地从文字的互补对关系中体现子句间的演绎。为了在子句集预处理时从演绎的角度刻画子句间的关系,定义了目标演绎距离的概念并给出了计算方法,提出了一种基于目标演绎距离的一阶逻辑子句集预处理方法。首先对原始子句集进行包含冗余子句约简并应用纯文字删除规则,然后根据目标子句计算剩余子句集中的文字目标演绎距离、子句目标演绎距离,并最终通过设定子句演绎距离阈值来实现对子句集的进一步预处理。将该预处理方法应用于顶尖证明器Vampire,以2017年国际一阶逻辑自动定理证明器标准一阶逻辑问题组竞赛例为测试对象,在标准的300s内,加入提出的子句集预处理方法的Vampire4.1相比原始的Vampire4.1多证明4个定理,能证明10个Vampire4.1未证明的定理,占其未证明定理总数的13.5%;在证明的定理中,提出的子句集预处理方法能对77.2%的子句集进行约简,最大子句集约简规模达到51.7%。实验结果表明,提出的一阶逻辑子句集预处理方法是一种有效的方法,能有效地约简一阶逻辑子句集的规模,提高一阶逻辑自动定理证明器的证明能力。

基于OCC模型和贝叶斯网络的情绪句分类方法

徐源音,柴玉梅,王黎明,刘箴

计算机科学. 2020, 47 (3): 222-230. doi:10.11896/jsjkx.190200331

摘要 ( 764 )

PDF(2801KB) ( 1528 )

参考文献 | 相关文章 | 多维度评价

情绪句分类是情绪分析研究领域的核心问题之一,旨在解决情绪句类别的自动判断问题。传统基于情绪认知模型(OCC模型)的情绪句分类方法大多依赖词典和规则,在文本信息缺失的情况下分类精度不高。文中提出基于OCC模型和贝叶斯网络的情绪句分类方法,通过分析OCC模型的情绪生成规则,提取情绪评估变量并结合情绪句中含有的表情符号特征构建情绪分类贝叶斯网络;通过概率推理,可以实现句子级文本的情绪分类,并减小句中信息缺失所带来的影响。与NLPCC2014中文微博情绪分析评测的子任务情绪句分类评测结果的对比表明,所提方法具有有效性。

融入结构信息的指代消解

付健,孔芳

计算机科学. 2020, 47 (3): 231-236. doi:10.11896/jsjkx.190100108

摘要 ( 722 )

PDF(2001KB) ( 1432 )

参考文献 | 相关文章 | 多维度评价

随着深度学习的兴起与发展,越来越多的学者开始将深度学习技术应用于指代消解任务中。但现有的神经指代消解模型普遍只关注文本的线性特征,忽略了传统方法中已证明非常有效的结构信息的融入。以目前表现最佳的Lee等提出的神经网络模型为基础,借助成分句法树对上述问题进行了改进:1)提出了一种枚举句法树中以结点为短语的抽取策略,避免了暴力枚举策略所受到的长度限制与不符合句法规则的短语集噪音的引入;2)利用树的遍历得到结点序列,结合结点的高度与路径等特征,直接对成分句法树进行上下文表示并将其融入模型中,避免了只使用字、词序列而产生的结构信息缺失问题。在CoNLL 2012 Shared Task的数据集上对所提模型进行了一系列实验,实验结果显示,其中文指代消解的F1值达到了62.35,英文指代消解的F1值也达到了67.24,从而验证了所提结构信息融入策略能大大提升指代消解的性能。

基于气动参数调节的无人机抗扰动控制算法

赵敏,戴凤智

计算机科学. 2020, 47 (3): 237-241. doi:10.11896/jsjkx.190200371

摘要 ( 798 )

PDF(1984KB) ( 1411 )

参考文献 | 相关文章 | 多维度评价

无人机飞行受到气动阻尼扰动,从而导致控制稳定性不好。当前采用翼型截面气动参数调节的方法进行无人机抗扰控制,以扭角以及振动方向等参数为约束指标,参数调节的模糊度较大,对气动姿态参数调节的稳定性不好。文中提出基于气动参数调节的无人机抗扰动控制算法。该算法根据无人机的飞行工况构建各阶模态对应的气弹耦合方程,在速度坐标系、体坐标系、弹道坐标系三维坐标系下构建无人机的飞行动力学和运动学模型;采用卡尔曼滤波方法实现对无人机飞行参数的融合调节和小扰动抑制处理,并采用末端位置参考模型进行无人机飞行轨迹的空间规划设计;在卡尔曼滤波预估模型中实现对动力学模型的线性化处理,采用气弹模态参数识别方法进行无人机的飞行扰动调节;将姿态控制作为内环,获得位置环状态反馈调节参数;以无人机的升力系数和扭力系数作为气动惯性参数进行飞行姿态的稳定性调节,从而实现无人机抗扰动控制律的优化设计。采集飞机的俯仰角、横滚角和航向角作为原始数据在Matlab中进行仿真分析,仿真结果表明,采用所提方法进行无人机抗扰动控制的稳定性较好,对气动参数进行在线估计的准确性较高,航向角误差降低12.4%,抗扰动能力提升8dB,收敛时间比传统方法缩短0.14s,无人机飞行的抗扰动性和飞行稳定性得到提高。所提方法在无人机飞行控制中具有很好的应用价值。

异构无线网络中动态优先级接纳控制算法研究

陶洋,纪瑞娟,杨理,王进

计算机科学. 2020, 47 (3): 242-247. doi:10.11896/jsjkx.190100089

摘要 ( 605 )

PDF(1805KB) ( 1195 )

参考文献 | 相关文章 | 多维度评价

针对在应急情况下的异构网络环境中不同类型业务在群组切换时出现的网络拥塞问题,以及现有研究中较少考虑不同类型用户所进行的业务的重要性和紧急性不同,从而不能合理分配有限的网络资源的情况,提出了一种异构无线网络中动态优先级接纳控制算法。首先,根据用户类型和业务类型对业务设定初始优先级;然后,根据业务的执行紧迫性和业务的剩余价值密度对业务优先级进行动态调整,并提出了一种基于业务优先级的抢占调度算法;最后为避免在业务优先级进行动态调整过程中出现颠簸调度现象,给出了避免颠簸调度的条件。所提算法考虑了实际情况中不同用户类型所进行的业务重要程度的不同,对业务进行了优先级设定,使初始优先级高的业务能够优先得到服务,在此基础上为尽量满足整体用户的用网需求,对业务的优先级进行了动态调整。为验证所提方法的有效性,将基于优先级队列调度算法和基于阻塞率约束的群组切换方法作为对比算法,在MATLAB软件环境下进行仿真分析。结果表明,所提方法相较于对比算法能够在减少业务切换的阻塞率的同时,使总体业务的完成率提高10%左右,证明了该算法在使初始优先级高的业务能够优先得到服务的同时,为初始优先级低的业务提供了网络切换的条件,从而提高了网络资源分配的合理性和公平性。

一种基于卫星网络的虚拟网络功能快速映射算法

魏德宾,杨鹏,杨力,石怀峰

计算机科学. 2020, 47 (3): 248-254. doi:10.11896/jsjkx.190300383

摘要 ( 804 )

PDF(2843KB) ( 1423 )

参考文献 | 相关文章 | 多维度评价

针对卫星网络中卫星载重有限,不允许大规模部署物理硬件,导致其网络功能欠缺且网络管理和配置不灵活的问题,文中提出了基于软件定义网络(Software Defined Networking,SDN)/网络功能虚拟化(Network Function Virtualization,NFV)协同部署的卫星网络新架构。它通过SDN数控分离思想对网络进行动态管控,利用NFV技术在SDN的数字平面虚拟出网络功能,使网络功能能够从硬件设备中解耦出来,从而提高网络的灵活性。为了解决此框架中虚拟网络功能(Virtual Network Function,VNF)映射到底层物理网络上的时延过大且无法满足高动态卫星网络实时性的问题,进一步提出了Viterbi和图形模式匹配(Graph Pattern Matching,GPM)相结合的动态映射方法(Viterbi and GPM Dynamic Placement Approach,VG-DPA)。该算法将映射过程建模为隐马尔可夫服务链,采用Viterbi算法预计算满足软硬件限制的映射路径,然后根据预计算结果通过GPM来制定VNF编排策略。该算法解决了卫星网络中将所需的VNF映射到底层物理网络中时延过大的问题。实验结果表明,VG-DPA与传统的RAND和OMD算法相比能在很大程度上降低时延,减少资源消耗。

大规模MIMO室外无线光通信系统中基于分段高斯近似的最大似然盲检测算法

李豪,崔新凯,高向川

计算机科学. 2020, 47 (3): 255-260. doi:10.11896/jsjkx.190200310

摘要 ( 758 )

PDF(2012KB) ( 1196 )

参考文献 | 相关文章 | 多维度评价

在室外可见光通信场景下,现有的盲检测算法在近似信道模型时,往往未能与真实信道模型的概率密度函数在截尾处充分拟合,导致在寻找最佳判决门限时存在误差,从而影响系统的平均误符号率性能。因此,针对大规模MIMO(Multiple-Input Multiple-Output)室外无线光通信系统,提出了一种基于分段高斯近似的最大似然盲检测算法。该算法在强大气湍流情况下,得到各个子信道叠加后的等效信道模型服从伽马分布,依据等效信道概率密度函数的唯一极值点确定左右两个分段区间,得到各个子信道在两个分段区间的一阶和二阶统计信息,然后利用中心极限定理和大数定理得到等效信道在两个分段区间都近似服从高斯分布,弥补了等效信道模型与真实信道模型的概率密度函数在截尾处拟合较差的缺点,获得了精确的最佳判决门限,从而改善了系统的平均误符号率性能。为了验证该算法的优越性,通过MATLAB仿真实验将其与现有的盲检测算法进行平均误符号率性能对比。实验数据表明,在收发天线数为4和小信噪比的情况下,所提算法的平均误符号率性能相比现有盲检测算法性能提高近10倍。同时,在接收天线数为8时,所提算法的平均误符号率性能与现有盲检测算法在接收天线数为16时的性能接近,接收天线数是原来的50％。实验数据充分说明,相比于现有的盲检测算法,所提算法在仅利用信道的数学模型和统计信息的情况下,随着收发天线数的增加能够明显提高系统的平均误符号率性能。

基于系统最优的航空信息网络流量均衡方案

高航航,赵尚弘,王翔,张晓燕

计算机科学. 2020, 47 (3): 261-266. doi:10.11896/jsjkx.190200296

摘要 ( 698 )

PDF(1947KB) ( 1263 )

参考文献 | 相关文章 | 多维度评价

随着未来空战的需求,当前的航空信息网络逐渐暴露出种种不足,如针对不同作战任务网络应具备较强的差异化服务能力、网络中各平台节点间的信息不能得到及时共享、网络规模的增加导致网络中流量发生拥塞和网络架构更加臃肿等问题,而SDN的出现较好地解决了这一问题,通过将SDN与航空信息网络相结合,创新性地提出了一种软件定义航空信息网络。文中面向航空信息网络中的流量传输问题,针对网络中流量分布不均衡的情况,提出了一种基于系统最优(System Optiminzation,SO)的流量负载均衡方案。文中通过构建混合SDN/IP航空信息网络模型,在网络中利用SDN控制器的集中控制特性使SDN节点对业务流量进行多路径转发,进而实现对其调度优化,并定义链路拥塞系数和SDN数据流,以链路利用率最小为目标,利用Wardrop均衡理论分析求解,参照系统最优原则,并提出一种基于SO的流量均衡分配算法。为体现所提算法的优越性,仿真中同时设置了SMR算法和MSR算法,结果表明SOA算法在业务完成率与业务吞吐量方面均有显著提升,如在大规模网络中,MSR和SMR算法的业务完成率分别为58.4%和52.2%,而SOA算法的业务完成率大约为70.5%,性能分别提升了20.7%和35.1%,因此所提算法对网络中流量的转发实现了较好的处理,为解决未来航空信息网络下的流量传输问题提供了一种新思路。

认知智能电网邻域网络的频谱分配策略

王依柔,张达敏,徐航,宋婷婷,樊英

计算机科学. 2020, 47 (3): 267-272. doi:10.11896/jsjkx.190600027

摘要 ( 679 )

PDF(2226KB) ( 1279 )

参考文献 | 相关文章 | 多维度评价

可靠、高效的通信网络是充分发挥智能电网潜力的前提。针对智能电网的无线通信环境存在频谱短缺、资源利用效率低等问题,文中将认知无线电技术应用于智能电网的邻域网络通信中,引入认知智能电网概念以保证业务传输的公平性和有效性,考虑了通信过程中的信噪比和路径损耗后,选择网络吞吐量作为信道效益,并在拓扑结构固定的城市居民小区进行建模仿真。在此基础上,提出了一种改进二进制猫群(Weight Binary Cat Swarm Optimization,WBCSO)优化的频谱分配算法。首先,在二进制猫群算法(Binary Cat Swarm Optimization,BCSO)的速度更新公式中加入非线性动态的惯性权重,它随着迭代次数的增加而非线性地递减,以防止算法早熟;其次,引入繁殖算子,产生子代猫群以增加种群的多样性,以获取更好的全局最优解;然后,选用了4个常用的基准函数对改进后的算法进行性能测试,测试结果表明WBCSO算法的优化均值和标准差都优于BCSO算法;最后,以系统总效益和用户公平性为优化目标,将其与二进制遗传算法(Binary Genetic Algorithm,BGA)和二进制粒子群算法(Binary Particle Swarm Optimization,BPSO)进行了对比实验,仿真实验表明,WBCSO算法最终的系统总效益和用户公平性指数比BCSO算法分别高出了13.7%和14.6%,且比二进制群算法和遗传算法的性能都要好,进而表明改进二进制猫群算法在认知智能电网邻域网的频谱分配中具有收敛速度快、搜索能力强的特点。

基于跳跃Hash和异步共识组的区块链动态分片模型

潘吉飞,黄德才

计算机科学. 2020, 47 (3): 273-280. doi:10.11896/jsjkx.190100238

摘要 ( 1005 )

PDF(2305KB) ( 1437 )

参考文献 | 相关文章 | 多维度评价

区块链系统的实现方案普遍存在性能和容量上的缺陷,使其无法取得更广泛的普及和应用。分片被视为最有可能解决区块链瓶颈的技术,然而目前主流的实现方案普遍存在牺牲去中心化或者安全性来提升性能的问题。基于现有分片技术的研究,文中提出了基于跳跃Hash和动态权重的分片构建算法,该算法满足高效性、公平性、自适应性等特点,网络分片效率对比以太坊提升了8%,分片数量动态增减时节点迁移的工作量对比以太坊降低了25%;同时引入了异步共识组机制,提升了分片的交易安全性,能够有效处理跨分片交易。理论分析和实验证明,基于跳跃Hash和异步共识组的区块链动态分片模型的最大交易性能可达5000笔每秒。

区块链交易数据隐私保护方法

许重建,李险峰

计算机科学. 2020, 47 (3): 281-286. doi:10.11896/jsjkx.190300086

摘要 ( 1152 )

PDF(2163KB) ( 3799 )

参考文献 | 相关文章 | 多维度评价

区块链具有开放性、不可篡改、分布式共享全局账本等优点,但同时这些特性也造成了交易数据隐私泄露问题,严重影响其在许多业务领域的应用,特别是在企业联盟链领域的应用,随着区块链应用的不断发展,如何在区块链平台上对交易数据进行隐私保护是一个非常值得研究的问题。为此,首先对现有的区块链交易数据隐私保护方法进行研究并指出其不足,其次对区块链交易数据隐私保护需求进行定性分析,将每一笔交易数据分为敏感数据和基础数据两部分,建立需求分析矩阵,得出交易隐私保护的本质需求和隐含需求以及可能的应用场景;然后结合对称加密与非对称加密各自的特点以及智能合约的共识特性,设计了一套基于双重加密的区块链交易数据隐私保护方法,该方法主要包括私密数据提供方加密存储交易数据、私密数据使用方解密读取交易数据、私密数据可访问方共享交易数据3个模块,同时对每个模块的工作流程进行了详细论述;最后在蚂蚁区块链平台上结合国际贸易多方共同参与的实际业务对该方法进行验证。测评结果表明,该方法能够实现字段级别细粒度的交易数据隐私保护,能够在链上高效稳定地进行私密数据共享和完成私密数据的全链路操作;在使用4个节点搭建的区块链平台上完成了超过100万笔的交易测试,平均TPS达到了800;相比原来没有使用隐私保护的系统,交易性能并没有明显降低,相比比特币、以太坊等区块链平台,文中使用的区块链平台通过加密后的交易性能得到了几十倍的提升。

改进的TLS指纹增强用户行为安全分析能力

胡建伟,徐明洋,崔艳鹏

计算机科学. 2020, 47 (3): 287-291. doi:10.11896/jsjkx.190200332

摘要 ( 860 )

PDF(1418KB) ( 3681 )

参考文献 | 相关文章 | 多维度评价

随着攻防对抗的升级,用户行为分析与网络安全的结合逐渐进入了研究者的视野。用户行为分析技术可以做到在被成功攻击前识别不可信用户,遏制入侵,达到主动防御的效果。当前在Web安全中用户行为分析所使用的数据源主要是应用层HTTP维度的数据,这不足以确定用户身份,容易造成漏报。在安全性和隐私性更好的HTTPS技术被大规模应用的情况下,文中提出了基于n-gram和Simhash的改进的TLS指纹数据,该方法提高了现有TLS(Transport Layer Security)指纹的容错性。将该指纹应用到用户行为分析中可提高用户身份判定的准确率。对比实验使用卷积神经网络对从真实环境中得到的指纹数据和日志型用户行为数据进行建模分析。结果表明,改进的TLS指纹数据可以更有效地识别用户和黑客,将准确率提高了4.2%。进一步的分析表明,通过改进的TLS指纹关联用户行为和时间轴回溯,还能在一定程度上对黑客进行追踪溯源,从而为安全事件调查提供情报上下文。

内部威胁检测中用户属性画像方法与应用

钟雅,郭渊博,刘春辉,李涛

计算机科学. 2020, 47 (3): 292-297. doi:10.11896/jsjkx.190200379

摘要 ( 938 )

PDF(2281KB) ( 1565 )

参考文献 | 相关文章 | 多维度评价

随着信息技术与互联网技术在企业组织中的广泛应用,企业安全面临着前所未有的挑战。大多数企业既面临着企业外部的攻击,也面临着内部人员的内部攻击。由于缺乏及时有效的检测手段,内部攻击对企业和组织造成的损害在一定程度上比外部攻击更加严重。在组织和企业内部,“人”是实施破坏行为的主体,是内部威胁检测中的主要研究对象。针对现有内部威胁检测中对内部员工完全隔离监管方法的相似威胁检测关联性低、检测效率低等问题,文中把研究重点从发现诱因转移到相似用户的聚类和监管上,以组织内的用户作为研究主体,提出了内部威胁检测中用户属性画像方法。该方法首先定义了画像相似度计算方法;然后,从用户性格、人格、过往经历、工作状态、遭遇的挫折等多方面着手,利用本体理论、标签式画像方法将多因素整合;最后,通过改进的K-Means算法实现用户聚类与分组管理,实现了潜在恶意用户共同监管的目的,减少了相似破坏多次发生的可能性。实验结果证明了所提方法的可行性,其为组织预防内部威胁提供了思路和方法。

基于链上链下相结合的日志安全存储与检索

吕建富,赖英旭,刘静

计算机科学. 2020, 47 (3): 298-303. doi:10.11896/jsjkx.190200298

摘要 ( 819 )

PDF(2018KB) ( 1947 )

参考文献 | 相关文章 | 多维度评价

信息系统中存在着大量的安全设备日志,这些安全设备日志对系统监控、查询、安全审计和故障诊断等都十分重要,因此对其进行安全存储与处理具有重要意义。文中提出了一种基于链上链下相结合的日志安全存储与检索模型,该模型结合区块链与分布式存储技术,实现了去中心化、去信任、数据难以篡改的安全设备日志存储,并对外向安全管理员提供密文检索接口,同时可以利用区块链技术实现数据的完整性校验。安全性分析论证了该模型能够保证安全设备日志的安全可靠存储,同时性能分析证明了该模型具有良好的检索效率。

物理层安全星座模糊设计方法的性能研究

奚晨婧,高媛媛,沙楠

计算机科学. 2020, 47 (3): 304-311. doi:10.11896/jsjkx.190200369

摘要 ( 742 )

PDF(2883KB) ( 1393 )

参考文献 | 相关文章 | 多维度评价

物理层安全加密技术是一种有效保证信息安全传输的物理层安全方法。此技术通过相位旋转、调制星座多样性、符号模糊、幅度调节和符号顺序变化等手段设计信号星座,保护调制方式与调制符号信息。现有的物理层安全加密技术存在密钥共享不保密和星座模糊度不足等缺点。多符号模糊(Mutiple Inter-symbol Obfuscation,MIO)方案采用人工噪声符号密钥与已调符号矢量叠加的加密方法来解决星座模糊度不足的问题。受MIO的启发,文中将信道系数与已调符号矢量叠加,提出了一种基于星座模糊设计(Constellation Obfuscatio Design,COD)的物理层安全加密方案。在TDD模式和信道互易的条件下,将合法信道的信道系数作为密钥,来解决密钥预分享不保密的问题。文中详细介绍了发端加密与合法接收端解密的完整传输过程,并针对高阶累积量的调制识别和智能攻击型窃听者进行接收处理分析;推导出瑞利衰落信道下的合法接收端误码率理论公式;对合法接收端、高阶累积量的调制识别窃听端和智能攻击型窃听端的误码率进行仿真,并对比了MIO方案合法接收端、窃听端的性能。仿真结果显示:合法接收端误码率为1×10^－4时,COD方案的信噪比比MIO方案的低6dB;对COD方案加密后,当信噪比为0时,调制识别成功率为11.8%,调制识别成功率最高可达25%且在信噪比大于40dB后保持稳定;前3个数据包中,COD方案智能攻击型窃听端的误码率始终为0.284,知晓起始密钥的MIO方案窃听端的误码率则较低;信噪比在0~54dB范围内时,合法接收端的误码率性能始终优于调制识别窃听端和智能攻击型窃听端。因此,所提COD方案能够保障安全通信,抵御调制识别和智能攻击型窃听者的攻击,并且COD方案的有效性和可靠性均优于MIO方案。

VANET中基于无证书环签密的可认证隐私保护方案

赵楠,章国安

计算机科学. 2020, 47 (3): 312-319. doi:10.11896/jsjkx.190100115

摘要 ( 889 )

PDF(2018KB) ( 1402 )

参考文献 | 相关文章 | 多维度评价

针对车载自组织网络(Vehicular ad-hoc Network,VANET)中车辆用户隐私信息保护和通信消息传输安全的问题,提出了一种可认证的无证书环签密方案。车辆通过可信机构生成的伪身份通信,有且仅有可信机构可以根据车辆节点的原始注册信息和追踪密钥确定消息发送车辆的真实身份,保证了通信的匿名性和对恶意车辆身份的可追踪性;消息发送车辆和接收车辆基于所构建的可认证环签密模型分别执行签密和解签密算法,实现了签密车辆身份和所发送消息的可认证;在随机预言模型下证明了所提方案具有机密性和不可伪造性。将所提的隐私保护方案与现有的VANET隐私保护方案进行安全性能的比较,证明了所提方案的机密性、可认证性和可追踪性等安全性较完善。通过列表比较了所提方案中环签密和解签密算法中各项运算的数量。将两种算法中双线性运算和标量乘运算的开销之和作为所提方案的计算开销,列表并进行数值分析。仿真实验基于Intel I7、3.07GHz的硬件平台和MATLAB软件。结果表明,所提方案的计算开销远小于其余3个方案。当车辆数量增大到适用范围的上限100时,所提方案的计算开销仍小于150ms。因此,该隐私保护方案满足了安全性和即时通信的要求,尤其适用于城市交通系统。