1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2020年第9期, 刊出日期:2020-09-15
  
目录
47卷第9期目录
计算机科学. 2020, 47 (9): 0-0. 
摘要 ( 186 )   PDF(160KB) ( 669 )   
相关文章 | 多维度评价
计算机软件*
CodeSearcher:基于自然语言功能描述的代码查询
陆龙龙, 陈统, 潘敏学, 张天
计算机科学. 2020, 47 (9): 1-9.  doi:10.11896/jsjkx.191200170
摘要 ( 852 )   PDF(1915KB) ( 1371 )   
参考文献 | 相关文章 | 多维度评价
在项目开发过程中,开发者需要为实现某一功能而编写代码;在不确定如何使用特定编程语言来实现当前待开发功能时,其往往会在文档或网络资源中进行代码查询。因此,代码查询的有效性会直接影响软件开发的效率。目前,已有相当数量的工具可以用来辅助开发者进行代码查询,但这些工具普遍存在输入形式复杂或者匹配精确度低等问题。文中提出的CodeSearcher 是一种基于自然语言功能描述的代码查询方法。CodeSearcher 将软件开发垂直领域的问答网站Stack OverFlow 的问答记录转换为〈自然语言描述,代码片段〉数据对,使用神经网络模型将“自然语言描述”和“代码片段”映射到相同的向量空间并进行匹配,从而能够支持开发者使用待开发功能的自然语言描述来查询相应代码。CodeSearcher 不同于一般的代码查询系统,一方面,它只需要代码本身而不依赖于代码的注释或说明,因此可以支持更多代码查询的场景;另一方面,它拓展了代码查询的流程,使其不再局限于一次性的查询反馈流程,而是在这中间加入了代码询答的流程,利用返回代码片段之间的差异性元素帮助开发者挑选目标代码,使得开发者不需要详细阅读所有返回的代码片段。实验结果表明,CodeSearcher 相较于基准有着更好的效果。
基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测
欧阳鹏, 陆璐, 张凡龙, 邱少健
计算机科学. 2020, 47 (9): 10-16.  doi:10.11896/jsjkx.200400041
摘要 ( 639 )   PDF(1534KB) ( 1015 )   
参考文献 | 相关文章 | 多维度评价
近年来,随着软件需求的不断增加,开发人员通过复用已有的代码向项目中引入了大量的克隆代码。随着软件版本的迭代和更新,克隆代码会发生变化,而克隆代码变化会导致额外的维护代价,并逐渐成为软件维护的负担。研究人员尝试利用机器学习方法开展克隆代码一致性维护需求预测研究,通过预测克隆代码的变化是否会导致额外的维护代价,来帮助软件质量保障团队更有效地分配维护资源,从而提高工作效率并降低运维成本。然而,在软件开发的初期阶段,软件项目往往没有经过充分的演化,缺少历史数据用于构建有效的预测模型,因此跨项目克隆代码一致性维护需求预测方法被提出。文中以减少跨项目数据分布差异为切入点,提出了基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测方法CPCCP+,旨在将测试集与数据集映射到核空间中,通过迁移主成分分析方法减小跨项目数据的分布差异,并对数据集的类不平衡问题进行处理,从而提高跨项目预测模型的性能。在实验数据集方面,选取了7个开源数据集,合计形成42组跨项目克隆代码一致性维护需求预测任务。将提出的方法与使用基分类器的方法进行比较,评估指标包含Precision,Recall和F-Measure。实验结果表明,CPCCP+能更有效地进行跨项目克隆代码一致性维护需求的预测。
CompCert编译器目标代码生成机制分析
杨萍, 王生原
计算机科学. 2020, 47 (9): 17-23.  doi:10.11896/jsjkx.200400018
摘要 ( 609 )   PDF(1472KB) ( 1343 )   
参考文献 | 相关文章 | 多维度评价
CompCert是著名的C语言可信编译器,是经过形式化验证的编译器的杰出代表,近年来被广泛应用于学术界和工业界的许多研发工作中。CompCert编译器的当前版本支持多种目标机结构。文中对CompCert编译器目标代码生成机制进行剖析,主要介绍其设计逻辑、翻译过程、语义保持性以及代码结构,并给出了CompCert编译器重定向设计的要点。文中工作有助于实现CompCert重定向,比如实现面向重要国产处理器的后端。
面向Java的Randoop自动化单元测试生成工具性能分析
刘芳, 洪玫, 王潇, 郭丹, 杨正卉, 黄小丹
计算机科学. 2020, 47 (9): 24-30.  doi:10.11896/jsjkx.200200116
摘要 ( 918 )   PDF(2432KB) ( 1830 )   
参考文献 | 相关文章 | 多维度评价
自动化单元测试是现代软件开发研究的热点。Randoop自动化单元测试用例生成工具针对Java和.NET代码,基于反馈指导随机生成测试用例,在业界应用广泛。为了有效使用Randoop进行自动化测试,采用经验软件工程的方法,通过实验分析Randoop的性能特点;实验选取4个有代表性的Java开源项目,分析Randoop生成测试用例的代码覆盖率和变异体检测能力,以及它们与时间成本和被测类源代码的代码结构之间的关系。实验发现,Randoop可以在短时间内生成有效的测试用例,生成测试用例的性能随时间增加而上升,并在测试用例生成时间为120s时趋于稳定,其平均变异体覆盖率达55.59%,且平均变异体杀死率为28.15%。Randoop生成的测试用例的性能与被测类源代码的代码结构和复杂度存在一定的关系。该研究为软件测试人员有效使用Randoop工具提供了有价值的参考。
基于脚本预测和重组的内存泄漏测试加速技术
李吟, 李必信
计算机科学. 2020, 47 (9): 31-39.  doi:10.11896/jsjkx.200100075
摘要 ( 341 )   PDF(2425KB) ( 677 )   
参考文献 | 相关文章 | 多维度评价
内存泄漏是云应用、Web服务、中间件等各类连续工作型软件中的一种常见缺陷,它会导致程序运行速度减慢、资源耗尽崩溃等软件稳定性问题。现有测试一般以较长周期运行测试用例来检测泄漏缺陷,用于检测泄漏的测试用例通常需要运行数小时以上才能产生足以暴露泄漏的内存表现。整个测试过程代价高昂,若对测试用例不加筛选,可能会耗费大量的时间在暴露泄漏可能性低的测试用例上,降低了泄漏发现的效率。为了弥补现有技术的不足,并解决Java Web程序长时间运行的内存泄漏缺陷不易发现、不易诊断及不易修复的难题,文中对内存泄漏的发现技术进行了研究,提出了基于机器学习的内存泄漏测试脚本预测方法,通过构建内存特征模型,对存在内存泄漏的脚本进行训练及预测,基于训练的模型进行脚本内存泄漏风险值预测,并给出相应的参数打分,以指导后续的脚本重组,从而预测获取更可能造成内存泄漏的功能测试脚本。同时,提出了脚本重组优化方法,改善其缺陷揭示能力。对预测和重组后的脚本进行优先测试,可以加速泄漏缺陷的发现。最后通过案例验证表明了所提框架具有较强的泄漏发现能力,重组优化后的测试脚本在发现缺陷的速度方面比普通脚本高出一倍以上,从而缩短了内存膨胀问题的暴露时间,达到了提高测试效率以及保障软件质量的目的。
基于支配关系的数据流测试用例生成方法
吉顺慧, 张鹏程
计算机科学. 2020, 47 (9): 40-46.  doi:10.11896/jsjkx.200700021
摘要 ( 430 )   PDF(1706KB) ( 747 )   
参考文献 | 相关文章 | 多维度评价
程序控制流的设计是为实现正确的数据流服务的,数据流测试是非常重要的。文中将面向all-uses数据流准则的测试用例生成问题建模为多目标优化问题,提出了一种基于遗传算法的测试用例生成方法。通过构建待测程序的控制流图进行数据流分析,计算出程序中所有的定义-使用对,得到测试目标,利用面向多测试目标的遗传算法生成满足all-uses准则的最优解。遗传算法中定义了一种改进的基于支配关系的适应度函数,在分析测试用例对定义-使用对的覆盖程度时考虑了存在重定义的可能性,且考虑了定义结点和使用结点在执行路径中的先后顺序。实验结果表明,所提方法可以有效地生成满足all-uses准则的测试用例,相比其他方法可以有效地提升测试目标的覆盖率,降低生成测试用例所需的迭代次数。
基于关键词Trie树的GCC抽象语法树消除冗余算法
韩磊, 胡建鹏
计算机科学. 2020, 47 (9): 47-51.  doi:10.11896/jsjkx.190600042
摘要 ( 577 )   PDF(1549KB) ( 1174 )   
参考文献 | 相关文章 | 多维度评价
GCC(GNU Compiler Collection)编译器编译C语言源程序所生成的抽象语法树文本中包含大量与源代码无关的冗余信息,若直接进行解析,会严重影响分析效率,降低分析精确度,同时会占用大量存储空间。针对此问题,提出一种基于关键词Trie树的GCC抽象语法树消除冗余算法,其根据包含抽象语法树文本有用信息节点的关键词建立Trie树,可实现对抽象语法树文本无用节点的过滤,从而达到优化编译的效果。相比传统KMP消除冗余算法,关键词Trie树算法可以有效避免去冗余过程中常量、变量等有用信息节点的丢失,确保数据的完整性;同时,关键词Trie树算法可以最大限度地减少重复前缀或后缀字符串的比较次数,节省了时空开销。挑选不同长度的C语言源码文件进行去冗余实验,测试该算法的性能,并将其与传统KMP算法进行对比。实验结果表明,所提算法的去冗效率和查准率均得到了极大的提高。
数据库&大数据&数据科学
网络表示学习算法综述
丁钰, 魏浩, 潘志松, 刘鑫
计算机科学. 2020, 47 (9): 52-59.  doi:10.11896/jsjkx.190300004
摘要 ( 864 )   PDF(2403KB) ( 2785 )   
参考文献 | 相关文章 | 多维度评价
网络是一系列节点和边的集合,通常表示成一个包含节点和边的图。许多复杂系统都以网络的形式来表示,如社交网络、生物网络和信息网络。为了使网络数据的处理变得简单有效,针对网络中节点的表示学习成为了近年来的研究热点。网络表示学习旨在为网络中的每个节点学习一个低维稠密的表示向量,进而可将得到的向量表示运用到常见的网络分析任务中,如节点聚类、节点分类和链路预测等。然而,绝大多数真实网络节点都有丰富的属性信息,如社交网络中的用户资料和引文网络中的文本内容。网络的属性信息对网络表示具有重要的作用,当网络高度稀疏时,网络的属性信息是网络表示重要的辅助信息,有助于更好地学习网络表示。传统的邻接矩阵仅仅表示了边的信息,而无法加入节点的属性信息。因此,网络表示不仅要保存网络的结构信息,还要保存网络的属性信息。此外,大多数真实世界网络都是动态变化的,这种变化包括网络节点的增加和减少,以及网络边的新建和消失。同时,与网络结构变化相似,网络中的属性也会随着时间的推移发生变化。随着机器学习技术的发展,针对网络表示学习问题的研究成果层出不穷,文中将针对近年来的网络表示学习方法进行系统性的介绍和总结。
基于字段嵌入的数据库自然语言查询接口
田野, 寿黎但, 陈珂, 骆歆远, 陈刚
计算机科学. 2020, 47 (9): 60-66.  doi:10.11896/jsjkx.190800138
摘要 ( 672 )   PDF(1397KB) ( 841 )   
参考文献 | 相关文章 | 多维度评价
将自然语言转化成数据库可以执行的查询语句,是目前智能交互和人机对话系统的核心难题,也是新型供电列车大数据运用支撑平台对接应用平台及建立城轨列车个性化运维系统的难点。现有的基于神经网络的方法没有充分利用数据表的丰富信息,影响了查询的准确率。针对数据表内容作为输入的情况下,如何提升自然语言查询接口的查询准确率的问题,文中创新地提出了基于数据表内容的字段嵌入方法,利用数据表中每个字段存储的内容对字段进行嵌入表示,并据此提出了新的模型嵌入层结构;此外,提出了一种基于数据表内容的数据增强方法,通过用数据表相同字段中的其他记录去代替查询语句中的属性值,来产生新的训练样本。最后,针对提出的字段嵌入表示和数据增强方法,在WikiSQL数据集上进行了对比实验。实验结果显示,相比当前效果最好的模型,单独使用这两种方法时能够提升0.6%~0.8%的查询准确率,共同使用时则能够提升接近1%的查询准确率,证明所提字段嵌入和数据增强方法对查询准确率有一定的提升作用。
不确定时态数据Top-k查询
韦建华, 许建秋
计算机科学. 2020, 47 (9): 67-73.  doi:10.11896/jsjkx.190800143
摘要 ( 264 )   PDF(2314KB) ( 558 )   
参考文献 | 相关文章 | 多维度评价
时态数据在医疗、经济和电子商务等领域有着广泛的应用。由于时间的测量技术不精确等因素,时态数据具有不确定性。文中针对该数据进行研究,处理Top-k查询,即返回与查询点相交的k个权值最大的数据,该权值是根据数据权值和相交概率按一定规则组合计算所得。为有效解决该查询问题,提出了一个基于关系模型和辅助结构的2D R-tree结构,其中关系模型用于管理所有区间数据的R-tree,辅助结构用于管理R-tree中每个节点内部数据权值的大小关系。基于该结构,提出了按权值的降序访问数据的查询算法。从根节点开始遍历R-tree,对于与查询点相交的节点,根据辅助结构中存储的信息找到数据权值最大的项,将它确定为下一个访问对象。实验使用数据规模在30万到1000万的合成数据集,以及包括大约320万条的航班信息的真实数据集。在可扩展数据库SECONDO系统下,将所提方法与无索引方法、R-tree和区间树方法在性能上进行比较,并以平均I/O访问次数和CPU时间作为性能的评判指标。实验结果表明,在1000万条的数据规模下,所提方法优于对比方法2~3个数量级。通过将实验返回的k个结果的概率与权值和实际相交数据的概率和权值作比较可以发现,实验返回的k个结果的概率与权值均靠近实际相交数据的概率和权值的最大值,因此所提算法可行且有效。
面向非易失性内存文件系统的NVM模拟与验证方法
王鑫鑫, 诸葛晴凤, 吴林
计算机科学. 2020, 47 (9): 74-80.  doi:10.11896/jsjkx.190700037
摘要 ( 364 )   PDF(2628KB) ( 938 )   
参考文献 | 相关文章 | 多维度评价
现有非易失性内存文件系统都以DRAM模拟非易失性内存(Non-Volatile Memory,NVM)进行测试,而没有充分考虑两者间的写时延和写磨损特性差异,使得测试结果无法准确反映文件系统在NVM物理设备上的写性能以及对NVM造成的磨损情况。现有NVM模拟器准确度不高,且仿真接口不完备,无法满足内存文件系统对NVM的仿真需求。对此,提出一种面向非易失性内存文件系统的NVM模拟与验证方法。首先,结合非易失性内存文件系统本身的数据读写特性,提出内存文件系统中NVM写时延的模拟方案;其次,跟踪内存文件系统对NVM的读写操作,以验证文件系统对NVM物理设备的写磨损分布情况。选取多个典型内存文件系统实现上述方法。实验结果表明,提出的写时延模拟方法能够将写时延的模拟误差平均降低65%,写磨损验证方法能够较准确地反映内存文件系统对不同粒度NVM页面的磨损分布情况。
话题-位置-类别感知的兴趣点推荐
马理博, 秦小麟
计算机科学. 2020, 47 (9): 81-87.  doi:10.11896/jsjkx.191100120
摘要 ( 452 )   PDF(1993KB) ( 726 )   
参考文献 | 相关文章 | 多维度评价
随着基于位置的社交网络(Location-Based Social Networks,LBSN)的不断发展,有助于用户探索新地点和商家发现潜在客户的兴趣点(Point-of-Interest,POI)推荐受到了广泛关注。然而,用户签到数据的高稀疏性,为兴趣点推荐带来了严峻挑战。针对这一挑战,文中探索兴趣点的文本、地理和类别信息,有效融合兴趣话题、地理影响及类别偏好因素,提出了一种话题-位置-类别感知的协同过滤兴趣点推荐算法,称之为TGC-CF。该算法利用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型挖掘兴趣点相关的文本信息,学习用户的兴趣话题分布,并计算用户间兴趣话题分布的相似度,通过结合地理距离和用户的区域偏好来建模地理影响;使用TF-IDF统计方法评估目标用户对类别的偏好程度,并考虑其他用户的类别偏好在推荐过程中的作用和影响,最后将这些影响因素整合到一个协同过滤推荐模型中,从而生成包含用户感兴趣的兴趣点的推荐列表。在两个真实数据集上的实验结果表明,TGC-CF算法比其他推荐算法表现更好。
历史图上基于CSR结构的PageRank算法
潘培贤, 邹兆年, 李发明
计算机科学. 2020, 47 (9): 88-93.  doi:10.11896/jsjkx.190800122
摘要 ( 272 )   PDF(1810KB) ( 797 )   
参考文献 | 相关文章 | 多维度评价
近年来,学者们对静态图的研究越来越全面、深入,已经形成了完善的理论体系。但是,对于生活中的一些应用问题,如社交网络中不断变化的关系等,使用静态图表示此类动态变化的关系似乎显得有些乏力。而历史图可以表示动态的变化。PageRank算法是用于衡量网页重要程度的算法,而网络中不断有网站新建或删除,这样的网络用历史图来表示更为合适,因此考虑在历史图上利用CSR(Compressed Sparse Row)结构实现PageRank,使得程序能够给出几个目标时间上各网站的评分,进而能够提供网站评分的变化情况,给出网站影响力趋势的预测。在Wekipedia提供的网页互相连接的Hyperlink networks数据集上,将所提方法与在链表上实现PageRank算法做比较,结果显示其性能大大优于使用链表的结构,并且随着数据规模和目标时间规模的增大,其优势将会越来越明显。
基于PCA和随机树的数据库异常访问检测
冯安然, 王旭仁, 汪秋云, 熊梦博
计算机科学. 2020, 47 (9): 94-98.  doi:10.11896/jsjkx.190800056
摘要 ( 464 )   PDF(1338KB) ( 818 )   
参考文献 | 相关文章 | 多维度评价
数据库作为数据存储与交互的平台,其中包含了机密与重要信息,是恶意人员攻击的对象。外部人员的攻击可通过基于角色的权限控制系统对未经授权的用户访问进行限制,而来自内部人员的伪装攻击往往不易被察觉。针对数据库的访问行为,提出一种基于主成分分析(Principal Component Analysis,PCA)和随机树(Random Tree,RT)的异常访问检测算法PCA-RT。首先,根据用户提交的查询语句特征构造用户数据库访问行为轮廓向量;然后,利用PCA算法对用户行为轮廓进行降维,使用随机树算法训练异常检测器。基于事务处理性能委员会(Transaction Processing Performance Council,TPC)组织发布的新一代数据库性能评测标准TPC-E构造实验数据集,提取较为全面的用户数据库访问行为轮廓特征向量。仿真实验结果表明,使用PCA算法对数据的约简达到35%以上,PCA-RT算法的精确率和召回率分别提高了1.78%和9.76%,从而证明了用户行为轮廓向量构造方法和PCA-RT算法对TPC-E数据库用户访问行为的异常检测是有效的。
高阶多视图离群点检测
钟颖宇, 陈松灿
计算机科学. 2020, 47 (9): 99-104.  doi:10.11896/jsjkx.200600170
摘要 ( 616 )   PDF(1580KB) ( 734 )   
参考文献 | 相关文章 | 多维度评价
由于数据在不同视图之间的分布比较复杂,传统的单视图离群点检测方法不再适用于多视图离群点的检测,使得多视图离群点检测成为一个颇具挑战性的研究课题。多视图离群点可分为3种类型:属性离群点、类离群点和类-属性离群点。现有方法采用跨视图成对约束来学习新的特征表示,并根据这些特征来定义离群点评分度量。这些方法没有充分利用视图间的交互信息,并且在面对3个或更多视图时会导致计算的复杂度更高。为此,文中考虑将多视图数据重塑成张量集形式,定义高阶多视图离群点,并且证明现有的三类多视图离群点都满足高阶多视图离群点的定义,从而提出一种新的多视图离群点检测算法——高阶多视图离群点检测算法(High-Order Multi-View Outlier Detection,HOMVOD)。该算法首先将多视图数据重塑成张量集形式,然后学习其低秩表示,最后设计张量表示下的离群值函数来实现检测。在UCI 数据集上的实验表明,HOMVOD算法在检测多视图离群点方面优于现有方法。
基于Zoneout的跨尺度循环神经网络及其在短期电力负荷预测中的应用
庄世杰, 於志勇, 郭文忠, 黄昉菀
计算机科学. 2020, 47 (9): 105-109.  doi:10.11896/jsjkx.190800030
摘要 ( 350 )   PDF(1618KB) ( 673 )   
参考文献 | 相关文章 | 多维度评价
通过精确的电力负荷预测,智能电网可以提供比传统电网更高效、可靠和环保的电力服务。现实生活中,电力负荷数据往往存在着与历史数据较高的时间相关性,而传统的神经网络却很少关注它。近年来,循环神经网络(Recurrent Neural Network,RNN)由于可以很好地捕获在时间上距离很远的数据之间的相关性,因此在电力负荷预测中受到越来越多的关注。但是,由于RNN特有的自循环结构,当采用随时间的反向传播算法(Back-Propagation Through Time,BPTT)进行网络训练时,随着网络层数的增加,很容易发生梯度消失等问题,从而导致预测精度下降。目前已有多种解决梯度消失问题的RNN架构,如长短期记忆网络(Long Short-Term Memory,LSTM)和门控制单元(Gated Recurrent Unit,GRU),但其复杂的内部结构会增加训练时长。为了解决上述问题,文中首先对目前流行的各种RNN架构进行了研究和分析,其次结合最新提出的Zoneout技术,设计了一种跨时间尺度的分模块循环神经网络架构,重点研究了隐藏层模块的随机更新策略,不仅有效解决了梯度消失问题,而且大幅度减少了待训练的网络参数。基于基准数据集和实际负载数据集的实验结果表明,该结构可以获得比目前流行的RNN架构更好的性能。
一种大数据估价算法
赵会群, 吴凯锋
计算机科学. 2020, 47 (9): 110-116.  doi:10.11896/jsjkx.191000156
摘要 ( 341 )   PDF(1780KB) ( 625 )   
参考文献 | 相关文章 | 多维度评价
“大数据”已经成为计算机领域使用频率最高的专业词汇之一,而且已经逐渐变成了一个商品名称。无论是从学术研究角度,还是从数据交易需求角度,对大数据集的可用性进行评价都是一个新的问题。文中提出了一个大数据可用性评价模型,为学术和流通领域提供参考。结合大数据的4V(Volume,Variety,Velocity,Value)特性,分段统计样本数据的4V特性分布,从而给出基于分段分布的大数据特性概率模型,以及大数据可用性加权评价模型。文中还提出了实现大数据分块抽样的算法,以及大数据评价模型的各个特性加权系数的估计算法。结合视频大数据的可用性评价需求,展示所提模型和算法的具体应用。大数据可用性评价模型可以用于数据科学实验的数据评价,也可以用于大数据交易市场的数据集定价。给出了实际评价工作中,标准化(商品化)数据集以及确定数据评价基准等具体操作方面的解决方案。应用案例对所提模型有支持作用,进一步检验了模型的可行性。
计算机图形学&多媒体
显示导向型的大规模地理矢量实时可视化技术
马梦宇, 吴烨, 陈荦, 伍江江, 李军, 景宁
计算机科学. 2020, 47 (9): 117-122.  doi:10.11896/jsjkx.190800121
摘要 ( 256 )   PDF(2142KB) ( 716 )   
参考文献 | 相关文章 | 多维度评价
对大规模地理矢量要素进行实时可视化是当今地理信息科学领域面临的一个严峻挑战。在现有地理矢量要素可视化方法中,随着数据规模的增长,计算规模也急剧扩大,这导致尽管使用了高性能计算技术,仍很难应对大规模地理矢量要素的实时可视化。基于此,文中提出了一种基于显示导向型计算的地理矢量要素可视化技术。该技术从显示角度出发,将每个用于屏幕显示的像素点作为独立的计算单元,根据用户浏览地理矢量要素时屏幕显示的区域及分辨率确定待计算的像素点范围,通过直接计算每个像素点的值来生成最终的显示结果。该技术使得可视化的计算规模仅依赖于屏幕显示的像素数量,具有对数据规模不敏感的优点,可用于支持大规模地理矢量要素的实时可视化。实验结果表明,显示导向型地理矢量可视化技术可用于支持亿级矢量数据的实时可视化绘制。
行为关联网络:完整的变化行为建模
何鑫, 许娟, 金莹莹
计算机科学. 2020, 47 (9): 123-128.  doi:10.161896/jsjkx.190800101
摘要 ( 410 )   PDF(1271KB) ( 626 )   
参考文献 | 相关文章 | 多维度评价
针对视频中的完整行为建模,目前常用的方法为时间分段网络(Temporal Segment Network,TSN),但TSN不能充分获取行为的变化信息。为了在时间维度上充分发掘行为的变化信息,文中提出了行为关联网络Action-Related Network(ARN),首先使用BN-Inception网络提取视频中行为的特征,然后将提取到的视频分段特征与Long Short-Term Memory(LSTM)模块输出的特征拼接,最后进行分类。通过以上方法,ARN可以兼顾行为的静态信息和动态信息。实验结果表明,在通用数据集HMDB-51上,ARN的识别准确率为73.33%,比TSN提高了7%;当增加行为信息时,ARN的识别准确率将比TSN提高10%以上。而在行为变化较多的数据集Something-Something V1上,ARN的识别准确率为28.12%,比TSN提高了51%。最后在HMDB-51数据集的一些行为类别上,文中进一步分析了ARN和TSN分别利用更完整的行为信息时识别准确率的变化情况,结果表明ARN的单个类别识别准确率高于TSN 10个百分点以上。由此可见,ARN通过关联行为变化,对完整行为信息进行了更充分的利用,从而有效地提高了变化行为的识别准确率。
多分支卷积神经网络肺结节分类方法及其可解释性
张佳嘉, 张小洪
计算机科学. 2020, 47 (9): 129-134.  doi:10.11896/jsjkx.190700203
摘要 ( 687 )   PDF(1856KB) ( 1363 )   
参考文献 | 相关文章 | 多维度评价
肺结节CT图像表征复杂且多样,导致对肺结节进行分类较为困难。虽然越来越多的深度学习模型被应用到计算机辅助肺癌诊断系统的肺结节分类任务中,但这些模型的“黑盒”特性无法解释模型从数据中学习到了哪些知识,以及这些知识是如何影响决策的,导致诊断结果缺乏可信性。为此,文中提出了一种可解释的多分支卷积神经网络模型来判别肺结节的良恶性。该模型利用医生诊断时所用的肺结节语义特征信息来辅助诊断肺结节的良恶性,并将这些特征与肺结节良恶性判别网络融合成多分支网络,在完成肺结节良恶性诊断任务的同时,得到肺结节相关语义特征的预测结果,为医生提供可信的诊断依据。在LIDC-IDRI数据集上的实验结果表明,与现有方法相比,所提模型不仅可以得到可解释的诊断结果,而且实现了更好的肺结节良恶性分类效果,其准确率可达97.8%。
基于残差字典及协作表达的单图像超分辨率算法
田旭, 常侃, 黄升, 覃团发
计算机科学. 2020, 47 (9): 135-141.  doi:10.11896/jsjkx.190600146
摘要 ( 411 )   PDF(2107KB) ( 654 )   
参考文献 | 相关文章 | 多维度评价
通过传统的单图像超分辨率(Super Resolution,SR)算法重建的高分辨率图像往往存在高频信息不足、边缘模糊的问题。为了提升重建图像的质量,提出了一种基于残差字典及协作表达的单图像SR算法(Residual Dictionary and Collaborative Representation,RDCR)。在训练环节,该算法结合字典学习及协作表达的思想,首先训练一个主字典及主投影矩阵,其次利用重建的样本图像训练多层残差字典及多层残差投影矩阵;在测试环节,通过逐层重建残差信息,得到不断精细化的高频信息,以提升重建的高分辨率图像的质量。通过实验证明,相比传统算法A+,所提算法在4倍上采样下的Set5及Set14图像集上可以分别获得0.20dB及0.18dB的峰值信噪比增益,在运算时间上所提算法与A+接近。
基于改进CycleGan模型和区域分割的表情动画合成
叶亚男, 迟静, 于志平, 战玉丽, 张彩明
计算机科学. 2020, 47 (9): 142-149.  doi:10.11896/jsjkx.190900203
摘要 ( 351 )   PDF(4489KB) ( 1130 )   
参考文献 | 相关文章 | 多维度评价
针对现有人脸表情合成大多依赖于数据源驱动,且存在生成效率低、真实感差的问题,提出一种基于改进CycleGan模型和区域分割的表情动画合成新方法。新方法可实时地合成新表情动画,且具有较好的稳定性和鲁棒性。所提方法在传统CycleGan模型的循环一致损失函数中构造新的协方差约束条件,可有效避免新表情图像生成时出现的色彩异常和模糊不清等现象;提出分区域训练的思想,用Dlib人脸识别数据库对人脸图像进行关键点检测,通过检测到的关键特征点将源域和目标域的人脸分割成左眼、右眼、嘴部和剩余人脸部分共4个区域块,并利用改进的CycleGan模型对每块区域单独进行训练;最后将训练结果加权融合成最终的新表情图像。分区域训练进一步增强了表情合成的真实感。实验数据来自英国萨里大学的语音视觉情感(SAVEE)数据库,在Tensorflow框架下,用python 3.4软件进行实验结果的展示。实验表明,新方法无需数据源驱动,可直接在源人脸动画序列上实时地生成真实、自然的新表情序列,且对于语音视频可保证新面部表情序列与源音频同步。
基于视差信息的无参考立体图像质量评价
朱玲莹, 桑庆兵, 顾婷婷
计算机科学. 2020, 47 (9): 150-156.  doi:10.11896/jsjkx.190700213
摘要 ( 307 )   PDF(2737KB) ( 1029 )   
参考文献 | 相关文章 | 多维度评价
近年来,随着深度学习在图像质量评价领域的快速发展,平面图像质量评价得到了有效的改善,但是立体图像质量评价还有待提高。为此,文中结合三分支卷积神经网络,提出了基于视差信息的无参考立体图像质量评价方法,并分析了不同视差图对模型性能的影响。该方法将左右视图以及视差图小块作为输入,自动提取特征,通过训练得到回归模型,从而实现对立体图像的预测。文中使用了5种不同立体匹配算法来生成视差图,实验结果表明使用SAD算法得到的效果最好。在立体图像库LIVE3D和MCL3D上的实验结果表明,该方法不仅适用于评估对称失真图像,还适用于非对称失真的立体图像评价。该方法在总体失真上的结果优于其他对比算法,尤其是在MCL3D图像库上,所提方法的PLCC和SROCC比其他方法高出1%和4%。实验数据表明,所提模型提高了立体图像质量评价的性能,与人类主观感知高度一致。
基于信息熵的级联Siamese网络目标跟踪
赵钦炎, 李宗民, 刘玉杰, 李华
计算机科学. 2020, 47 (9): 157-162.  doi:10.11896/jsjkx.190800160
摘要 ( 543 )   PDF(2738KB) ( 685 )   
参考文献 | 相关文章 | 多维度评价
目标跟踪是计算机视觉领域的一个重要研究方向,针对目前算法对于目标外观变化的鲁棒性较差等问题,提出了一种基于信息熵的级联Siamese网络目标跟踪方法。首先利用孪生神经网络(Siamese network)对第一帧目标模板和当前帧待检测区域提取深度卷积特征,并通过相关性计算响应图;然后根据定义的信息熵和平均峰值系数评价响应图质量,针对质量差的响应图对卷积特征进行模型因子更新;最后利用最终的响应图确定目标位置并计算最佳尺度。在VOT2016,VOT2017数据集上进行实验,结果证明在保证实时运行的基础上所提算法的精度优于其他算法。
基于深度学习与多哈希相似度加权实现快速人脸识别
邓良, 许庚林, 李梦杰, 陈章进
计算机科学. 2020, 47 (9): 163-168.  doi:10.11896/jsjkx.190900118
摘要 ( 505 )   PDF(2177KB) ( 1233 )   
参考文献 | 相关文章 | 多维度评价
无论是使用传统的方法进行人脸识别,还是使用神经网络进行人脸识别,都存在运算量大、运算时间长等问题,很难对视频中的人脸进行实时检测与匹配。针对上述问题,使用轻量化神经网络进行人脸检测,使用运算简单的哈希算法计算人脸图像相似度,并对多个哈希相似度值加权进行人脸匹配,是减少运算时间、实现快速人脸识别的可行方案。使用轻量化神经网络Mobilenet作为人脸特征提取网络,使用剪枝的SSD模型作为检测网络,通过级联Mobilenet与SSD实现人脸的检测,之后对检测到的人脸图像进行识别。首先,分别计算人脸图像的均值哈希相似度与感知哈希相似度。然后,分别使用αβ作为均值哈希与感知哈希的加权系数对图像的均值哈希与感知哈希相似度值进行加权,并将结果作为图像的最终相似度。当加权后的相似度值大于设定的阈值I时,则认为两张图像中的人脸是同一个人;当加权后的相似度值小于设定的阈值K时,则认为两张图像中的人脸是不同的人。对于相似度处于阈值I和阈值K之间的图像,将它们按照相似度值从高到低的顺序择优匹配。所提方法在WiderFace和FDDB上的人脸检测准确率分别达到92.5%和94.2%,每张图片的平均处理时间为56ms;在ORL标准人脸库进行人脸匹配的准确率达到96.2%。使用摄像头进行实时人脸识别测试时,所提方法的人脸识别准确率为95%,平均人脸识别速度为80ms。实验证明,所提方法在保证较高准确率的前提下,能够实现实时的人脸检测与匹配。
基于改进Seq2Seq的短时AIS轨迹序列预测模型
游兰, 韩雪薇, 何正伟, 肖丝雨, 何渡, 潘筱萌
计算机科学. 2020, 47 (9): 169-174.  doi:10.11896/jsjkx.190800060
摘要 ( 461 )   PDF(2280KB) ( 1877 )   
参考文献 | 相关文章 | 多维度评价
采用深度学习进行船舶轨迹序列预测对于智能航运具有重要意义。船舶自动识别系统(Automatic Identification System,AIS)蕴藏着大量船舶轨迹特征,基于AIS数据预测船舶轨迹是近年智能航运研究的热点之一。文中提出了一种基于改进Seq2Seq的短时AIS轨迹序列预测模型,该模型使用门控循环单元网络将历史时空序列编码为一个上下文向量,用以保留轨迹空间点间的时序关系,同时缓解梯度下降的问题。通过使用门控循环单元网络作为解码器来预测船舶轨迹的时空序列。实验采用了大规模真实船舶AIS数据,选取两类典型河段(重庆弯曲河段和武汉顺直河段)为实验区域,以评估和验证模型的有效性和适用性。实验证明,该模型能够有效提高短时轨迹序列预测的准确性和效率,为智能航船碰撞预警提供了一种有效可行的方法。
基于1DCNN-LSTM的船舶轨迹分类方法
崔彤彤, 王桂玲, 高晶
计算机科学. 2020, 47 (9): 175-184.  doi:10.11896/jsjkx.191000162
摘要 ( 726 )   PDF(2447KB) ( 1458 )   
参考文献 | 相关文章 | 多维度评价
由于监控设备视野有限、代价昂贵等问题,导致基于船舶图像或视频的船舶分类效果欠佳,改进船舶分类方法、提高船舶分类的准确率迫在眉睫。近几年,随着各类轨迹数据采集系统的兴起,通过船舶航行轨迹数据实现船舶类型的分类逐渐成为可能。针对使用传统二维卷积神经网络(Convolutional Neural Network,CNN)对船舶轨迹分类存在特征压缩和时序特征表达能力匮乏的问题,文中提出了一种一维CNN(One-Dimensional CNN,1DCNN)与长短期记忆网络(Long Short-Term Memory,LSTM)相结合的混合分类模型,对采集到的船舶自动识别系统(Automatic Identification System,AIS)数据进行船舶类型识别。首先,针对AIS采集到的船舶轨迹数据进行预处理,过滤噪声数据;然后,针对隐含在船舶轨迹信息中的特征对于1DCNN而言过于隐晦的问题,提出了一种针对大规模航舶轨迹数据的,且1DCNN能够识别的轨迹分布特征向量的构建算法,同时在此基础上提取了LSTM能够识别的时序特征向量;最后,将训练后的1DCNN模型与LSTM模型进行数据融合得到混合船舶分类模型。以渤海区域2016年6月的船舶AIS数据为基础,使用1DCNN与LSTM相结合的混合模型对渔船、客船、油船、集装箱船和散货船5类典型船舶的轨迹数据进行分类,并将其与使用一种神经网络如LSTM作为分类器的方法进行对比,结果表明所提方法具有明显的有效性,是一种有效的船舶轨迹分类方法。
人工智能
基于层次注意力机制的多任务疾病进展模型
潘祖江, 刘宁, 张伟, 王建勇
计算机科学. 2020, 47 (9): 185-189.  doi:10.11896/jsjkx.190900001
摘要 ( 647 )   PDF(1639KB) ( 1111 )   
参考文献 | 相关文章 | 多维度评价
阿尔茨海默症是一种不可逆的神经退化疾病,由于脑组织的退化而产生的严重的认知问题。目前已有许多临床实验和研究计划来研究阿尔茨海默症的病理学,这些实验和计划会产生一些可以用来分析的数据。文中着重结合多种临床特征,对阿尔茨海默症进行自动诊断,并预测潜在的预后风险,进而提出了一个基于层次注意力机制的多任务疾病进展模型。该模型将疾病自动诊断任务作为主任务,疾病预后预测任务作为辅任务,以提升模型的泛化能力,进而提升疾病自动诊断任务的效果。其应用了两层的注意力机制,注意力分别应用在特征层和就诊记录层,使得模型可以对不同的特征以及不同的就诊记录有不同的注意力。在ADNI(Alzheimer’s Disease Neuroimaging Initiative)数据集上进行实验,并将所提模型与多个基准模型进行比较,实验结果表明,提出的模型具有更好的效果,为临床实际应用提供了更好的鲁棒性。
基于边际概率分布匹配的主动标记分布学习
董心悦, 范瑞东, 侯臣平
计算机科学. 2020, 47 (9): 190-197.  doi:10.11896/jsjkx.200700077
摘要 ( 390 )   PDF(2017KB) ( 707 )   
参考文献 | 相关文章 | 多维度评价
标记分布学习是在以标记分布标注的示例上学习的新型学习范式,近年来已成功应用于面部年龄估计、头部姿势估计和情感识别等实际场景中。在标记分布学习中,需要足够多的标记分布数据才能训练出预测性能好的模型。然而,标记分布学习有时会面临标记数据不足和注释成本太高的困境。基于边际概率分布匹配的主动标记分布学习(Active Label Distribution Learning Based on Marginal Probability Distribution Matching,ALDL-MMD)算法是针对标记分布学习注释成本过高的问题而设计的,以减少训练模型所需的标注数据量,从而降低注释成本。ALDL-MMD算法训练了一个线性回归模型,在保证其训练误差最小的同时,学习一个反映未标记数据上选点需求的稀疏向量,使选点后的训练集和未标记集的数据分布尽量相似,并对这个向量做松弛化处理,以简计算。在多个标记分布数据集上的实验结果表明,在“Canberra Metric”和“Intersection”这两个衡量标记分布的指标上,ALDL-MMD算法优于已有的主动示例选择方法,体现了其在降低注释成本方面的有效性。
动态环境下的语义地图构建
齐少华, 徐和根, 万友文, 付豪
计算机科学. 2020, 47 (9): 198-203.  doi:10.11896/jsjkx.191000040
摘要 ( 858 )   PDF(2579KB) ( 2153 )   
参考文献 | 相关文章 | 多维度评价
三维语义地图在移动机器人的导航、路径规划、智能抓取、人机交互等任务中有着关键的作用,因此如何实时地构建三维语义地图尤为重要。当前同时定位和地图构建(Simultaneous Localization And Mapping,SLAM)算法已经可以达到较高的定位和制图精度,但是在动态环境下如何通过剔除动态物体来获得较高的定位精度,以及理解周围场景中存在的物体及其位置信息等问题没有得到很好的解决。在此,文中提出了一种可在动态环境下构建语义地图的算法。该算法在ORB-SLAM2上进行改进,在跟踪线程中加入动静点检测算法来剔除检测为动点的特征点,提高了动态环境下的定位精度;添加目标检测线程对关键图像进行目标检测,在地图构建线程中构建Octo-Map地图,同时根据检测结果构建3D目标数据库。为了证明该算法的可行性,以实验室为测试环境,分别进行了目标检测、动态点检测、三维目标信息获取和动态环境下语义地图构建的实验。在目标检测实验中,训练了速度和精度较高的目标检测网络——mobilenet-v2-ssdlite,检测速度可以达到7帧/秒,基本可以实现实时检测。在动态点检测中,采用光流法剔除动态点,处理速度为16.5帧/秒。文中创建了数据集来评测算法性能,相比原版ORB-SLAM2算法,结合光流法后的算法的定位精度提高了5倍;在三维目标信息获取上,采用了基于深度滤波和基于点云分割两种方法,结果表明后者的3D目标获取更为精确。最后,对整个实验室进行动态环境下的语义地图构建,构建Octo-Map稠密地图,根据检测结果构建3D目标数据库,并将目标尺寸和位置的检测值与真实值进行对比,误差均在5厘米以内。实验结果表明所提算法具有较高的精度和实时性。
基于自适应渐消UKF的FastSLAM算法
王秉洲, 王慧斌, 沈洁, 张丽丽
计算机科学. 2020, 47 (9): 213-218.  doi:10.11896/jsjkx.190700186
摘要 ( 493 )   PDF(2114KB) ( 828 )   
参考文献 | 相关文章 | 多维度评价
同时定位与地图构建(Simultaneous Lolalization And Mapping,SLAM)是未知环境下实现机器人自主导航的主要方法,FastSLAM是一个著名的SLAM问题解决方法。由于FastSLAM使用序贯重要性采样的方法,随着算法迭代计算,大部分粒子的权重值变得很小,只有很少粒子具有较大的权重,算法发生退化。为了使采样的粒子分布更加精确,避免粒子出现退化情况,从而进一步提高FastSLAM算法的估计精度,提出了一种基于自适应渐消无迹卡尔曼滤波(AFUKF)的快速同步定位和地图创建(FastSLAM)算法。针对FastSLAM的粒子退化问题,从研究粒子的建议分布函数出发,采用渐消无迹卡尔曼滤波(Adaptive Fading Unscented Kalman Filter,AFUKF)代替扩展卡尔曼滤波器(Extended Kalman Filter,EKF)来估计机器人位姿的建议分布函数,避免了EKF的线性化误差。同时,利用自适应渐消滤波思想产生一种参数可自适应调节的建议分布函数,使其更接近移动机器人的后验位姿概率分布,减缓粒子集的退化。在MATLAB平台上的仿真实验结果表明,所提方法的位置估计均方误差比标准FastSLAM降低了28.7%,即估计精度提升了28.7%。在与近几年相关算法的对比实验中,所提方法也取得了较高的估计精度。改变粒子数量条件进行实验时,随着粒子数量的增加,各算法的估计精度都在提升,所提算法依然取得了最好的估计精度。实验结果充分说明,提出的算法计算建议分布函数更加精确,有效缓解了FastSLAM算法中的粒子退化问题,从而显著提高了算法的估计精度。
基于深度图卷积胶囊网络的图分类模型
刘海潮, 王莉
计算机科学. 2020, 47 (9): 219-225.  doi:10.11896/jsjkx.190900044
摘要 ( 407 )   PDF(3276KB) ( 1190 )   
参考文献 | 相关文章 | 多维度评价
针对提取图表征用于图分类过程中的结构信息提取过程的问题,提出了一种图卷积神经网络与胶囊网络融合的图分类模型。首先,利用图卷积神经网络处理图中的节点信息,迭代以后得到节点表征,表征中蕴含着该节点的子树结构信息;然后,利用Weisfeiler-Lehman图核算法的思想对节点表征的多维度进行排序,得到多视角的图表征;最后,将多视角的图表征整理成胶囊的形式并输入胶囊网络,使用动态路由算法得到更高层次的分类胶囊,进而进行分类。实验结果表明,所提模型在公共数据集上的分类准确度提升了1%~3%,同时具备更强的结构特征提取能力,在少样本情况下的表现比DGCNN更加稳定。
计算机网络
大规模无人机自组网分层体系架构研究综述
游文静, 董超, 吴启晖
计算机科学. 2020, 47 (9): 226-231.  doi:10.11896/jsjkx.190900164
摘要 ( 483 )   PDF(1673KB) ( 4158 )   
参考文献 | 相关文章 | 多维度评价
近年来,随着电子与通信等技术的发展,无人机趋于小型化,以蜂群为代表的大规模无人机集群得到了工业界与学术界的广泛关注。为了适应日益复杂的任务与应用环境,自主集群成为了大规模无人机集群的重要发展方向。为了实现自主控制,能够提供高效且灵活的机间通信的无人机自组网是关键。大规模无人机集群给无人机自组网的资源分配、信道接入以及网络路由等带来了一系列的挑战,而分层的体系架构可以有效应对上述挑战。首先,分别介绍了分簇与联盟这两类大规模无人机自组网常见的分层架构的研究现状,分析了各类分簇算法以及联盟适合的应用场景;然后,对两类分层架构进行了对比研究;最后,讨论了大规模无人机自组织网络分层体系架构未来的研究方向。
适用于线性网络编码关键路径的实时性算法
韩晓冬, 高飞, 张立炜
计算机科学. 2020, 47 (9): 232-237.  doi:10.11896/jsjkx.190800023
摘要 ( 422 )   PDF(1640KB) ( 692 )   
参考文献 | 相关文章 | 多维度评价
如今,人类社会存储和交换的信息总量呈几何级数飞速增长,数据传输的吞吐量和实时性亟待提升。然而,现有的网络编码研究专注于提升吞吐量,忽略了实时性对大数据网络多路径传输性能的重大影响。为此,文中针对线性网络编码的最快到达问题,提出一种矩阵优化相乘的关键路径算法,以提高算法的实时性。具体地,使用抽象代数分析关键路径算法,构造了关键路径的交换环代数,并证明了最优子结构性质。仿真结果显示,随着网络节点个数n的增加,基于Strassen思想优化的关键路径算法能够极大地降低计算复杂度,成功将时间复杂度降至O(n2.81lgn),缩短了传播时延,提高了数据传输的实时性。当n>6时,相比基于重复平方关键路径算法,基于Strassen关键路径算法的时间开销的增长速率明显更低;特别地,当n=12时,基于Strassen关键路径算法的计算量约是基于重复平方关键路径算法的2/3,而其所需的时间开销约为后者的1/2。
基于自适应虚拟机迁移的云资源调度机制
李双刚, 张爽, 王兴伟
计算机科学. 2020, 47 (9): 238-245.  doi:10.11896/jsjkx.190900189
摘要 ( 284 )   PDF(2453KB) ( 962 )   
参考文献 | 相关文章 | 多维度评价
虚拟机迁移是当前云计算资源调度的重要研究方向之一。目前,用户规模的不断增长带来了一些新的挑战,传统迁移策略很难适应动态变化的内外部环境。对此,设计了自适应虚拟机迁移的总体框架,通过对虚拟机迁移建模,提出了“迁移路径”和“服务开销”等概念,并以服务器的CPU利用率和服务器间的带宽利用率为指标,为系统中所有迁移的虚拟机规划最优的迁移路径,以使系统总的服务开销最小化。首先,设计了基于阈值的虚拟机筛选算法来挑选可迁移的虚拟机;接着,设计了基于自回归积分滑动平均模型的时间序列预测算法,用以预测服务器未来时间窗口内的服务开销;然后,利用动态规划基于服务器服务开销的预测值设计了迁移路径计算算法,为每个待迁移虚拟机规划出最优的迁移方案;最后,利用迁移路径下服务器服务开销的预测值与真实值之间的差距所反映出的预测窗口性能的优劣,设计并实现了一个预测窗口自适应调整算法。实验表明,该自适应虚拟机迁移算法在自适应性调整和最小化服务开销等方面具有良好的效果。
面向5G通信网络的NFV内存资源管理方法
苏畅, 张定权, 谢显中, 谭娅
计算机科学. 2020, 47 (9): 246-251.  doi:10.11896/jsjkx.190800008
摘要 ( 356 )   PDF(2371KB) ( 711 )   
参考文献 | 相关文章 | 多维度评价
随着5G研究的深入和商用的推进,出现了各式各样的挑战,其中,5G通信系统的资源管理对于5G网络的研究来说是一个关键性的挑战。网络功能虚拟化技术为5G的实现提供了关键支撑,同时也为5G的资源管理问题引入了新的研究方向,但是网络功能虚拟化场景中的资源管理是一个比较复杂问题。特别地,虚拟网络功能的不同放置位置会为其性能带来不同的影响。文中首先对网络功能虚拟化的资源分配方法及放置对性能的影响进行了分析和研究,在此基础上,主要根据知识定义网络所提出的范例,探讨了将机器学习技术应用于虚拟网络功能内存资源管理的研究,构建神经网络学习模型,预测内存资源消耗。其次,重点对输入流量的特征进行提取,流量主要由一组特征表示,这些特征代表了从数据链路层到传输层的小批次信息,其中的内存消耗是从虚拟机管理程序的性能监测工具上得出的批量的平均内存消耗。最后,利用神经网络模型预测内存资源消耗,从而达到对内存资源进行管理的目的。
基于ARIMA模型的RFID室内相对位置定位算法
徐鹤, 吴满星, 李鹏
计算机科学. 2020, 47 (9): 252-257.  doi:10.11896/jsjkx.200400038
摘要 ( 647 )   PDF(2790KB) ( 930 )   
参考文献 | 相关文章 | 多维度评价
针对室内场景中存在获取目标对象相对位置的需求,RFID(Radio Frequency Identification)因其轻便、成本低的特点成为最经济的解决方案之一。通过研究基于相位和时间序列预测模型ARIMA来解决目标相对位置定位的问题,提出了基于UHF(Ultra-High Frequency) RFID无源标签的室内相对位置定位算法。使用RFID无源标签、阅读器和移动RFID天线来获取相位的变化,选取天线移动过程中一个相位翻转周期的时间序列值,运用ARIMA模型对该时间序列后续值进行预测,并选择达到某些值的时间戳,给预测时间戳和相位变化过程中关键相位点的时间戳分配权重,得到最终的时间戳并进行相对位置排序。实验结果表明,提出的RFID室内相对位置定位算法在图书馆环境下对图书顺序侦测的识别准确率可以达到96.48%,与经典的STPP算法和HMRL算法相比具有更好的定位性能。
HATBED:分布式硬件辅助追踪物联网测试平台
马峻岩, 李易, 李尚荣, 张特, 张颖
计算机科学. 2020, 47 (9): 258-264.  doi:10.11896/jsjkx.191000048
摘要 ( 300 )   PDF(3708KB) ( 756 )   
参考文献 | 相关文章 | 多维度评价
无线传感器网络等物联网系统通常具有资源高度受限且与物理世界耦合的特性,这使得该类系统部署后的设备通常难以调试。因此,在部署前对整个系统进行充分的测试与评价显得尤为重要。传统基于串口的网络化测试手段具有较大的侵入性,且无法对资源受限设备的运行情况进行详细的跟踪。文中对硬件辅助追踪技术在物联网测试评价中的应用进行了研究,设计并实现了一种硬件辅助追踪测试平台——HATBED(Hardware Assisted Tracing Testbed)。HATBED由控制器、观察者以及被测目标组成,可以提供网络级远程调试、灵活的软件追踪以及非侵入式软件分析等主要功能,并在不依赖操作系统与应用的前提下,实现对系统的非侵入式追踪与分析。实验中,首先使用裸机与FreeRTOS操作系统下的标准例程,从功耗开销、时间精度以及代码覆盖率3个方面对HATBED进行了基准性能的测试;然后,以物联网RIOT-OS代码库程序为例,通过HATBED实现了ping6的高精度时间特性分析,及其底层gnrc协议栈UDP通信过程函数覆盖与基本块覆盖的评估。实例分析表明,借助硬件辅助追踪技术,HATBED可以对资源受限的物联网系统开展更加高效、充分的测试与评价。
基于TASEP模型的复杂网络级联故障研究
杨超, 刘志
计算机科学. 2020, 47 (9): 265-269.  doi:10.11896/jsjkx.190700069
摘要 ( 244 )   PDF(2423KB) ( 671 )   
参考文献 | 相关文章 | 多维度评价
研究复杂网络的级联故障对网络内部动力学行为的影响,对维护网络安全、保障网络稳定具有极高的应用价值。从网络级联角度分析,对于完全非对称的简单排它过程模型中系统流量变化的问题,采用基于完全非对称的简单排它过程的网络模型进行级联故障研究。通过研究网络最大强连通子图尺寸、网络强连通子图个数以及网络流量之间的关系得出,网络最大强连通子图尺寸与流量呈正相关,网络流量达到最低阈值的决定性因素是网络强连通子图个数。在不同平均度的网络中进行仿真实验,结果表明随着连边去除率的增加,网络平均度越大,网络流量的下降率越低;取不同粒子密度再对网络进行仿真实验,结果表明在低密度区间与高密度区间上,平均密度的变化对流量下降率的影响较小,在中间密度区间上流量下降率几乎不变。
节点拓扑感知的高效节能虚拟网络映射算法
朱国晖, 张茵, 刘秀霞, 孙天骜
计算机科学. 2020, 47 (9): 270-274.  doi:10.11896/jsjkx.190700162
摘要 ( 502 )   PDF(1964KB) ( 754 )   
参考文献 | 相关文章 | 多维度评价
针对现有网络资源过度饱和的问题,提出一种节点拓扑感知的高效节能的虚拟网络映射算法。该算法在节点映射阶段,量化节点映射成本的同时考虑拓扑属性,通过改进后的节点排序方法对每个虚拟节点的候选物理节点进行资源评估,计算最佳映射节点。在链路映射阶段,采用Dijkstra算法,对于每条候选物理链路,综合考虑链路剩余带宽资源、途径节点剩余资源以及跳数,重新计算链路排序值,从而获得高效节能的最佳映射链路。仿真实验数据表明,该算法能有效降低能量成本,节省物理网络资源,在虚拟网络请求接受率和收益开销比等参数指标上具有显著提升。
信息安全
安全性电子投票方案研究综述
蒲泓全, 崔喆, 刘霆, 饶金涛
计算机科学. 2020, 47 (9): 275-282.  doi:10.11896/jsjkx.190900125
摘要 ( 478 )   PDF(1745KB) ( 2328 )   
参考文献 | 相关文章 | 多维度评价
近年来,电子投票因可以大幅度提高投票活动的效率和结果的准确性而得到高度关注。安全性问题一直是制约电子投票发展的瓶颈,许多研究者针对某一应用功能场景提出了相关的电子投票方案。结合电子投票的学术研究现状,详细分析了电子投票的类型、模型和安全性要求,并结合盲签名、秘密分享等相关密码学技术对4种类型的典型电子投票方案进行了综述和分析,然后介绍了成熟的电子投票系统,最后研究了电子投票未来可能的发展方向,对电子投票方案的进一步优化和改进提供借鉴和参考。
深度伪造视频检测技术综述
暴雨轩, 芦天亮, 杜彦辉
计算机科学. 2020, 47 (9): 283-292.  doi:10.11896/jsjkx.200400130
摘要 ( 666 )   PDF(2576KB) ( 4287 )   
参考文献 | 相关文章 | 多维度评价
深度伪造的滥用,给国家、社会和个人带来了潜在威胁。首先,介绍了深度伪造的概念和当前发展趋势,分析了基于生成对抗网络的深度伪造视频的生成原理和模型,并介绍了视频数据处理算法及主流的深度伪造数据集;其次,综述了基于视频帧内篡改特征的检测方法,针对深度伪造视频帧内的视觉伪影、面部噪声特征的检测问题,介绍了相关机器学习、深度学习等分类算法、模型;然后,针对深度伪造视频在帧间时空状态不一致的情形,阐述了相关时间序列算法和检测方法;接着,介绍了作为检测补充手段的基于区块链溯源的防篡改公共机制和数字水印、视频指纹等信息安全方法;最后,总结了深度伪造视频检测技术的未来研究方向。
基于格的抗量子认证密钥协商协议研究综述
倪亮, 王念平, 谷威力, 张茜, 刘伎昭, 单芳芳
计算机科学. 2020, 47 (9): 293-303.  doi:10.11896/jsjkx.200400138
摘要 ( 491 )   PDF(1512KB) ( 1669 )   
参考文献 | 相关文章 | 多维度评价
最近在量子计算研究领域所取得的进展对当前网络安全协议中大多数的安全性依赖传统数论难题的方案构成了严重的潜在安全威胁,作为基础性网络安全协议的认证密钥协商协议首当其冲。由此,抗量子认证密钥协商协议成为了近来的一个研究热点。其中,基于格的后量子密码(Post-Quantum Cryptography)方案由于安全性强、计算效率高,于近年得到了广泛重视且现在正快速发展,有望被列入未来的抗量子密码算法标准。文中重点关注基于格的后量子认证密钥协商协议研究。首先,对抗量子认证密钥协商协议的研究背景进行介绍,并对当前基于格的后量子密码方案安全性设计所基于的主要计算性困难问题进行描述;接着,对现有典型基于格的后量子认证密钥协商协议进行概述,并以两方协议为主要研究对象,对相关方案的基本构造模式和若干当前典型相关协议的性能进行讨论、分析和比较;最后,对当前研究中存在的问题进行总结,并对相关研究的未来发展进行展望。
无双线性对的无证书签名方案及其在配电网中的应用
刘帅, 陈建华
计算机科学. 2020, 47 (9): 304-310.  doi:10.11896/jsjkx.200500002
摘要 ( 311 )   PDF(1476KB) ( 714 )   
参考文献 | 相关文章 | 多维度评价
无证书密码体制解决了传统公钥密码体制存在的公钥证书管理复杂的问题,以及基于身份的密码体制存在的密钥托管问题。因此,文中提出了一种基于椭圆曲线的无双线性对的无证书签名方案,在随机预言机模型以及椭圆曲线离散对数困难问题假设下,利用分叉引理(The Forking Lemma)证明了该方案可以抵抗第一类强敌手和第二类敌手的攻击。然后,将该方案与2016年以来提出的其他4种基于椭圆曲线的无证书签名方案在理论上进行性能比较,并采用C语言实现所有签名方案,对所有方案进行效率比较。实验结果表明,该方案与Jia方案相比平均总耗时相近,与Hassouna方案、Zhang方案和Karati方案相比,平均总耗时分别减少了约51.0%,10.4%和22.1%,说明所提方案的总效率具有一定的优势。最后,将提出的签名方案应用到配电网Modbus TCP(Transmission Control Protocol)模式通信的报文认证中,对提出的认证协议进行了安全性分析,结果表明其可以抵抗重放攻击、伪装攻击和中间人攻击。
基于人工特征与深度特征的DGA域名检测算法
胡鹏程, 刁力力, 叶桦, 仰燕兰
计算机科学. 2020, 47 (9): 311-317.  doi:10.11896/jsjkx.191000118
摘要 ( 486 )   PDF(2760KB) ( 1800 )   
参考文献 | 相关文章 | 多维度评价
当前,各种各样的恶意软件常使用域名生成算法(Domain Generation Algorithms,DGAs)来生成大量的随机域名,然后尝试与C&C服务器建立通信,发动相应的攻击。现有的检测方法基于DGA域名的随机性构建人工特征,利用机器学习方法学习分类模式,但该类算法存在人工构建特征费时费力、检测误报率高等问题;或利用LSTM,GRU等深度学习技术学习DGA域名的序列关系,但该类算法对低随机性的DGA域名的检测准确率较低。文中提出了一种域名通用特征的提取方案,建立了包含41种DGA域名家族的数据集,并设计了基于人工特征与深度特征的检测算法,提高了模型的泛化能力,增加了对DGA域名家族的识别种类。实验结果表明,基于人工特征与深度特征的DGA域名检测算法取得了比传统深度学习方法更高的准确率和更好的泛化能力。
面向加密云数据的多关键字语义搜索方法
李彦, 申德荣, 聂铁铮, 寇月
计算机科学. 2020, 47 (9): 318-323.  doi:10.11896/jsjkx.190800139
摘要 ( 368 )   PDF(1811KB) ( 675 )   
参考文献 | 相关文章 | 多维度评价
由于云服务具有灵活性、通用性和低成本等特性,将数据交由云服务器管理变得日益普遍。然而,云服务器不是完全可信的,因此将加密数据交由云服务器管理并支持加密搜索成为了当前研究的热点问题之一。加密虽然能够很好地保护数据隐私安全,但是会掩盖数据本身的语义信息,加大搜索难度。文中面向加密云数据提出了一种支持多关键字的安全语义搜索解决方案,其核心思想是基于主题模型获取文档的主题向量和主题的词分布向量,通过计算查询关键字与各个主题的语义相似度生成查询向量,支持在同一向量空间内评价查询向量与文档主题向量的相似度;提出了基于EMD并结合词嵌入计算查询向量与主题相似度的方法,提升了查询关键词与主题之间语义相似度的准确性;为支持高效语义搜索,构建了主题向量索引树,并采用“贪婪搜索”算法优化关键字搜索。理论分析和实验结果表明:所提解决方案可实现安全的多关键字语义排序搜索,并且大大提高了搜索效率。
基于安全性的成对约束扩充算法
杨帆, 王俊斌, 白亮
计算机科学. 2020, 47 (9): 324-329.  doi:10.11896/jsjkx.200700092
摘要 ( 380 )   PDF(1429KB) ( 620 )   
参考文献 | 相关文章 | 多维度评价
基于成对约束的聚类分析是半监督学习的一个重要研究方向。成对约束的数量已成为影响该类算法有效性的重要因素。然而,在现实应用中,成对约束的获取需要耗费大量的成本。因此,文中提出了一种基于安全性的成对约束扩充方法(Extended Algorithm of Pairwise Constraints Based on Security,PCES)。该算法将传递闭包中最大局部连通距离作为安全值,并根据安全值来修改传递闭包之间的相似性,减少合并传递闭包带来的风险,最后利用图聚类方法合并相似的传递闭包达到扩充成对约束的目的。该算法不仅可以安全有效地扩充成对约束,同时可以将扩充后的成对约束应用到不同半监督聚类算法中。文中在8个基准数据集上进行了成对约束扩充算法的比较。实验结果表明,该算法可以安全有效地扩充成对约束。
基于TBchain区块链的高可信云存储模型
李莹, 于亚新, 张宏宇, 李振国
计算机科学. 2020, 47 (9): 330-338.  doi:10.11896/jsjkx.190800147
摘要 ( 370 )   PDF(2673KB) ( 767 )   
参考文献 | 相关文章 | 多维度评价
云存储中的数据可能会遭受非法窃取或篡改,从而使用户数据的机密性面临威胁。为了更加安全、高效地存储海量数据,提出一种支持索引、可追溯、可验证的云存储与区块链结合的存储模型CBaaS(Cloud and Blockchain as a service),它可以增强云中数据的可信性。另外,区块链的协商一致协议导致交易的吞吐量低,处理速度慢,严重制约了去中心化应用的发展。基于此,文中实现了一个三层架构的区块链模型TBchain(Three-tier architecture Blockchain),其通过分割区块链的一部分并将其锁定在更高级别区块链的块中提高区块链的可伸缩性,从而提高区块链中交易的吞吐量。此外,区块链由于去中心化的需求占用了海量节点的大量存储空间,这极大地限制了以区块链技术为基础的数据库系统的发展与应用。通过TBchain将一部分交易存储在本地,增加了区块链存储容量的可扩展性。云存储对象元数据中的ETag标示一个Object的内容,可以用来检查Object内容是否发生变化。将云存储中的对象元数据存储在区块链上,利用ETag值可以用于检查Object内容是否发生变化的特性和区块链上的数据不可篡改的特性来验证云上存储的数据是否安全,从而提高云上存储数据的可信性。实验结果表明,TBchain模型提高了区块链的可伸缩性和区块链存储容量的可扩展性,CBaaS模型也有效地提高了云上存储数据的可信性。