计算机科学

范吉立, 李晓华, 聂铁铮, 于戈

计算机科学. 2019, 46 (11): 1-10. doi:10.11896/jsjkx.190300013

摘要 ( 2937 )

PDF(1481KB) ( 5945 )

参考文献 | 相关文章 | 多维度评价

区块链是一个全球性的去中心化分布式数据库账本。智能合约作为一段由事件驱动的、具有状态的、运行于区块链系统之上的程序,能够保管、处理区块链账本上的数字资产;运行在通用平台上的智能合约还能够实现传统应用系统的部分功能。区块链技术的发展为智能合约提供了很好的运行基础,智能合约在区块链上能够发挥重要作用。随着比特币和以太坊等区块链平台的迅速发展,智能合约具备了良好的发展契机。然而,智能合约应用还处于早期发展阶段,相关研究相对较少,实际应用中智能合约的适用场景不够丰富。文中从智能合约编程语言、实现技术、发展现状和存在的挑战、未来前景等几个方面进行研究和探讨,重点描述了不同智能合约开发语言的特性,以及相互之间的对比;以智能合约运行环境为标准进行分类,研究了各种区块链系统中智能合约的开发、部署和运行机制,并探讨了不同类型智能合约平台的应用范围,对不同区块链系统在智能合约开发、社区支持以及相应的生态系统等方面进行了全面的比较;然后,介绍智能合约的研究现状和面临的挑战,从安全性、可扩展性、可维护性等方面进行深入分析;最后,分析了区块链和智能合约技术的发展趋势,探讨了未来的应用场景。

FPGA应用于高性能计算的研究现状和未来挑战

贾迅, 钱磊, 邬贵明, 吴东, 谢向辉

计算机科学. 2019, 46 (11): 11-19. doi:10.11896/jsjkx.191100500C

摘要 ( 1282 )

PDF(1580KB) ( 3055 )

参考文献 | 相关文章 | 多维度评价

提升计算能效并满足新兴应用的性能需求是目前超级计算系统面临的两大挑战。FPGA(Field-Programmable Gate Array)低功耗和可重构的特性为应对上述挑战提供了可能。现有研究通过分析FPGA上计算核心的实际性能,探索了FPGA应用于高性能计算的可行性,但其性能分析未考虑卷积神经网络的计算核心且缺乏高性能处理器作为参照。文中针对当前高性能计算领域主要的计算核心(包括广度优先搜索、稀疏矩阵向量乘、Stencil、Smith-Waterman和卷积神经网络),总结了FPGA上各计算核心的实现和性能优化,并将其与SW26010众核处理器进行了对比;同时探讨了FPGA应用于高性能计算时存在的若干问题。分析表明,当前FPGA的能效最高为SW26010的63倍;FPGA上新兴应用(如图计算和深度学习)的性能最高为SW26010的26倍。未来,降低FPGA与主机的通信开销,提升其可编程性并完善基于FPGA的科学计算软件库,可有效推动FPGA在高性能计算方面的应用。

数据资产相关概念综述

叶雅珍, 刘国华, 朱扬勇

计算机科学. 2019, 46 (11): 20-24. doi:10.11896/jsjkx.190800019

摘要 ( 1474 )

PDF(1228KB) ( 3150 )

参考文献 | 相关文章 | 多维度评价

在不同的信息技术、经济和社会发展背景下,不同领域人士对“网络空间中的内容”有不同认识,从而产生了信息资产、数字资产、数据资产等不同的名词术语。由于“资源、资产、资本、经济”等术语紧密关联,因此衍生出一系列概念:信息资源、信息资本和信息经济,数字资源、数字资本和数字经济,数据资源、数据资本和数据经济等。文中综述了这些概念的内涵和发展状况,在大数据背景下,提出依据数据的物理属性、存在属性和信息属性,将相关概念统一为数据资源、数据资产、数据资本和数据经济的建议,以利于数据资源的开发利用。

基于DNA计算的计算树逻辑模型检测方法研究进展

韩英杰, 周清雷, 朱维军

计算机科学. 2019, 46 (11): 25-31. doi:10.11896/jsjkx.181102091

摘要 ( 824 )

PDF(1421KB) ( 1828 )

参考文献 | 相关文章 | 多维度评价

计算树逻辑(CTL)模型检测是保证系统正确性和可靠性的重要手段,但严峻的时空复杂性问题制约着CTL模型检测在工业界的应用。DNA计算的大规模并行性和DNA分子巨大的存储密度为解决CTL模型检测的时空复杂性问题提供了新思路。文中介绍了基于DNA计算的CTL模型检测的背景,并概述了基于DNA计算的CTL模型检测方法的基本原理。从检测能力的提升、自治化程度的提升和相关问题的解决这3个方面综述了方法的研究进展。在方法检测能力的提升方面,分3个层次综述了研究进展,即从只能检测单个CTL基本公式到能够检测一般公式,从只能检测带未来时间算子的CTL公式到能够检测带过去时间算子的CTL公式,从只能检测CTL公式到能够检测线性时序逻辑、投影时序逻辑和区间时序逻辑公式,表明了方法的检测能力在公式数量和种类上均有大幅提升;在方法自治化程度的提升方面,综述了从基于无记忆过滤模型的人工操作的非自治方法到基于粘贴自动机的分子自治下的自治方法的研究进展,表明基于DNA计算的CTL模型检测方法已实现高度自治化;在相关问题的解决方面,阐述了提升DNA分子特异性杂交有效性预测的效率和构建CTL公式的DNA表示等的研究进展。最后,指出了基于DNA计算的CTL模型检测在研究新方法、构建专用的DNA计算模型和扩展应用领域等方面的研究趋势。

移动边缘计算中的计算卸载策略研究综述

董思岐, 李海龙, 屈毓锛, 张钊, 胡磊

计算机科学. 2019, 46 (11): 32-40. doi:10.11896/jsjkx.181001872

摘要 ( 1143 )

PDF(1756KB) ( 5240 )

参考文献 | 相关文章 | 多维度评价

科技的进步使得智能移动设备越来越普及化,移动设备流量急剧增长。但智能移动设备由于自身资源及计算性能有限,在处理计算密集型和时间敏感型应用时可能会面临能力不足的情况。将移动终端需要处理的计算卸载到边缘网络中的计算节点进行计算,能有效解决此问题。基于移动边缘网络介绍了已有的计算卸载策略,从最小化延迟、最小化能耗、最大化收益这几个方面进行阐述,对比了不同侧重点的卸载策略的优缺点,并对移动边缘计算卸载策略的未来发展进行了思考与展望。

动态无线传感网中数据查询技术的研究进展

梁俊斌, 马方强, 蒋婵

计算机科学. 2019, 46 (11): 41-48. doi:10.11896/jsjkx.181202258

摘要 ( 920 )

PDF(1513KB) ( 1145 )

参考文献 | 相关文章 | 多维度评价

无线传感器网络(Wireless Sensor Networks,WSN)是由大量通信、计算及存储能力有限的传感器节点通过自组织方式构成的网络,可以部署在恶劣环境中执行长期的监测任务。数据查询是 WSN中最基础的操作之一,主要指用户通过特定节点向网络分发查询请求,而网络中满足要求的节点再将数据返回给用户。在查询过程中,由于网络存在动态性(如:节点由于受到外力破坏而损毁、移动或睡眠,导致网络拓扑及连通性发生变化;通信链路不可靠等),使得数据传输出现延迟大、能耗高甚至数据丢失等情况,导致查询成功率低。目前有很多学者对该问题进行了研究,并取得了一定的进展,但实际应用中依然有很多问题仍待解决。为了进一步推进动态无线传感网中数据查询技术的深入研究,对近年来的典型工作进行了分析、归纳和总结,并对比了它们的优缺点;然后讨论了该领域亟需解决的关键问题,并指出了下一步的研究方向。

弱监督学习下的目标检测算法综述

周小龙, 陈小佳, 陈胜勇, 雷帮军

计算机科学. 2019, 46 (11): 49-57. doi:10.11896/jsjkx.181001899

摘要 ( 1746 )

PDF(2223KB) ( 4363 )

参考文献 | 相关文章 | 多维度评价

目标检测是计算机视觉领域的基本问题之一,基于监督学习的目标检测算法是当前目标检测的主流算法。在现有的研究中,高精度的图像标记是强监督学习目标检测能够获得良好性能的前提。然而,实际场景中背景的复杂性以及目标的多样性等因素,使得图像标注任务非常费时费力。随着深度学习的不断发展,如何通过低成本的图像标注获得良好的训练结果成为当前的研究重点。文中主要综述了基于图像级别标签的弱监督目标检测算法,首先介绍了目标检测的发展历程,主要基于强监督学习对目标检测算法进行了阐述并指出其训练数据的局限性;然后从图像分割、多示例学习以及卷积神经网络3个方面对弱监督目标检测方法进行了分析,从显著性学习、多网络协作学习等角度对多示例学习和卷积神经网络进行了详细的描述;最后通过实验对弱监督学习下的多种主流方法进行了横向比较,并且将其与当前主流的强监督目标检测算法进行了比较。实验结果表明:弱监督学习已经取得了很大的进步,卷积神经网络的应用极大地促进了弱监督目标检测算法的发展,逐步替代了传统的多示例学习方法,尤其是采用了联合算法之后在Pascal VOC 2007上的准确率有了显著提高,达到了79.3%。但是由于其性能依然低于强监督学习下的目标检测算法,因此弱监督目标检测依然有很大的发展空间。基于卷积神经网络的联合算法逐渐成为当前基于弱监督学习的目标检测的主流方法。

基于跳频的认知无线电网络中的时隙优化策略

吉毅, 贾俊铖, 盛凯

计算机科学. 2019, 46 (11): 58-64. doi:10.11896/jsjkx.181001865

摘要 ( 814 )

PDF(2611KB) ( 1342 )

参考文献 | 相关文章 | 多维度评价

随着近几年无线通信技术的快速发展,无线电频谱资源越来越匮乏。认知无线电网络(CRN)由于可提高现有频谱资源的利用率,受到了广泛关注。针对传统的认知无线电网络中随机跳频交汇策略没有考虑信道碰撞和切换延迟的问题,提出了一种基于时隙ALOHA协议,融入了切换延迟的最优随机跳频交汇策略。首先,将整个交汇过程以时隙微分化,定义信道时长和切换时长时隙模型,并将跳频过程与ALOHA协议融合,给出策略交汇时长(TTR)的计算方法;然后,分步骤详细分析交汇策略的流程,根据联合概率推导出时隙期望关于信道数目、切换时延的公式;最后,根据求导和函数趋势图计算最低点,进而提出一种基于整数规化的时隙最优数目计算算法,以取得整体交汇策略的最优化。通过模拟实验考查了可用时隙数目和切换时延这两个重要参数,实验结果表明切换时延比可用信道数目对交汇效率的影响更大。此外,实验结果还表明:该策略在充分考虑时延的同时,总能以最优方式交汇,相比传统方式可大幅度地缩短平均交汇时间(ATTR),当时延的时隙数目不大于5时,ATTR整体上缩短了15%左右,这可促进节点快速交汇,进而加速节点信息交互,进一步提高现有频谱的利用率。

一种用于无线传感器网络三维定位的迭代估计方法

蒋锐, 吴谦, 徐友云

计算机科学. 2019, 46 (11): 65-71. doi:10.11896/jsjkx.181001855

摘要 ( 761 )

PDF(1796KB) ( 1286 )

参考文献 | 相关文章 | 多维度评价

现有无线传感器网络三维定位算法大部分借鉴并基于相对成熟并且算法性能较好的二维定位算法原理,将其扩展至三维空间以实现节点定位,相比二维定位算法具有更好的定位精度。基于质心迭代估计的无线传感器网络二维定位算法通过对连通锚节点所围成平面的质心进行迭代计算,缩小了未知节点所在二维平面的范围,提高了节点的定位精度。基于此二维定位方法的原理,提出了一种用于无线传感器网络三维定位的迭代估计方法。首先,该算法计算当前连通锚节点所张成三维空间的质心坐标及其与未知节点间的接收信号强度;其次,以该质心节点为虚拟锚节点替代距离未知节点最远的连通锚节点,为未知节点自身的定位提供帮助。由于节点定位精度随着未知节点所处三维空间范围的缩小而不断提高,因此通过多次迭代后可以获得理想的定位精度。在3.50GHz电脑平台上模拟实际无线传感器网络环境,利用交互式数据语言对所提算法进行仿真,以验证算法的性能。仿真结果表明,所提算法与基于质心迭代估计的无线传感器网络二维定位算法相比,其定位精度可提高3%~6%;与三维质心定位算法相比,其定位精度可提高5%~23%。同时,所提算法具有较好的抗RSSI测量误差的能力,并通过多次迭代定位使得节点定位覆盖率可以达到99%以上,是一种适用于无线传感器网络三维定位的有效方法。

基于Ka频段的低轨卫星自适应信息传输方案

于秀兰, 王思仪

计算机科学. 2019, 46 (11): 72-79. doi:10.11896/jsjkx.181001862

摘要 ( 719 )

PDF(4241KB) ( 2043 )

参考文献 | 相关文章 | 多维度评价

针对Ka频段卫星通信信号传输易受降雨和地面移动环境影响的问题,结合低轨卫星高速移动特点及星地链路电波传播特性,对Ka频段下的低轨卫星信道雨衰分布进行了研究,提出了一种基于Ka频段的低轨卫星自适应信息传输方案。首先,针对信号在空间传输受降雨及周围环境两种因素影响的问题,建立了Ka频段的低轨卫星移动通信信道模型;其次,根据卫星仰角变化范围以及仰角概率密度函数推导得到基于卫星仰角变化的雨衰概率密度函数;然后,根据当前信道状态和雨衰概率密度函数计算得到信道参数值,从而确定信道状态信息;接着,根据已确定的信道状态信息,计算得到当目标误码率为1×10^－4时不同信道状态和调制编码方式下的信噪比阈值;最后,利用自适应调制编码选择算法,将反馈信噪比与计算得到的信噪比阈值进行对比,选出最佳调制编码方式对信号进行调制编码之后再传输,以提高空间信息传输的可靠性。仿真结果表明,在不同信道状态下,卫星仰角越小,地面阴影程度越严重,系统误码率越高,自适应信息传输方案使得系统误码率始终低于目标误码率1×10^－4。从而进一步说明,所提出的自适应信息传输方案可以有效地解决信号因降雨、地面移动环境以及卫星移动性三方面因素共同导致的严重衰减问题,从而有效提升了Ka频段低轨卫星系统的信息传输质量。

扩散的多播分子通信网络的比特错误率分析

程珍, 赵慧婷, 章益铭, 林飞

计算机科学. 2019, 46 (11): 80-87. doi:10.11896/jsjkx.181001925

摘要 ( 687 )

PDF(1727KB) ( 1160 )

参考文献 | 相关文章 | 多维度评价

考虑到多播分子通信网络由1个发送方纳米机器、2个接收方纳米机器和4个中继纳米机器组成,提出通过每跳采用同种类型和不同类型的分子来传输信息的中继策略,以保证多播分子通信的可靠性。首先,提出调整阈值的方式来有效减少并行中继纳米机器间发送相同类型分子时的干扰;然后,推导出两种中继策略下多播分子通信网络平均比特错误率的数学表达式;最后,通过实验仿真展示了不同参数(包括检测阈值、每个时隙发送的分子数、发送方和接收方纳米机器间的距离、样本个数、比特间隔时长以及扩散系数)对多播分子通信网络的比特错误率的影响,并提出了可降低该多播分子通信网络的平均比特错误率的中继方案。

无人机视频回传中的动态资源分配机制

贺超, 谢智东, 田畅

计算机科学. 2019, 46 (11): 88-93. doi:10.11896/jsjkx.190500106

摘要 ( 750 )

PDF(2178KB) ( 1379 )

参考文献 | 相关文章 | 多维度评价

无人机(Unmanned Aerial Vehicles,UAV)通过所携带的传感器实时获取图像和视频。特别地,多架无人机通过构成集群来协同工作,能够高效地完成侦察、感知、测绘等任务,在军事和民用领域都有广泛的应用。然而,无人机拍摄的视频均需要通过无线信道传输到地面站或控制中心,视频业务高清程度的不断提高和集群数量的不断增加,导致对无线信道传输速率的要求越来越高。因此,在有限的无线传输资源约束下,如何在无人机集群中分配资源,使得无人机集群回传视频的质量最大化,是亟需解决的问题。针对该问题,设计了一种分布式资源分配算法。首先,为了区分视频业务与普通数据业务,提出了一种面向用户体验质量的效用函数;然后,围绕该问题建立了势博弈模型,所有的用户仅基于很少的局部信息交互就可以不断独立更新其策略。该算法最终收敛于一组相关均衡,实现了无线资源在集群中的全局优化分配。从视频应用的角度出发,根据不同视频信号的特性,每个无人机用户能够智能地调整信道资源的使用,在有限的无线信道资源情况下,能够实现无人机集群总体效用的最大化。仿真结果表明,该算法能够同时为无线通信资源提供方和无人机视频用户带来便利。

多媒体系统群体行为的雾计算智能激励机制

刘璐, 赵国庆

计算机科学. 2019, 46 (11): 94-99. doi:10.11896/jsjkx.181001975

摘要 ( 599 )

PDF(2027KB) ( 1319 )

参考文献 | 相关文章 | 多维度评价

为了改善多媒体数据的传输效率和系统执行度,降低多媒体服务的运营成本,从多媒体系统群体行为的分析模型和演化出发,研究了一种基于雾计算的智能激励机制。首先,从单一化、分散部署与冗余健壮特征和自主管理的群体特质出发,为分布式多媒体系统建立群体行为分析演化模型,并给出了多媒体系统进行群体行为分析的演化算法。接着,根据获取的最大化系统效用,通过自组织和主动演化来调度雾服务器节点。以优化个体服务策略为目标,雾计算结合演化进程控制群体行为参与度。在此基础上,雾服务器节点逐步更新个体调度,并实时统计系统拓扑调度效应。仿真实验基于Matlab的网络控制系统仿真平台,部署了多媒体系统。通过Matlab仿真了分布式多媒体系统的拓扑与无线传输,结合C语言实现提出的EMSSB(Evolution algorithm of Multimedia Systems Swarming Behavior)算法和IIFS(Intelligent Incentive algorithm with Fog computing and Swarming Behavior)算法。仿真实验的数据均为100次重复时延的平均值。每次重复实验中,除了将用户发出多媒体请求的时间和次数设置为随机,其他参数均保持一致。仿真结果表明,所提激励算法在多媒体数据传输的实时性、雾节点激励有效性和用户请求响应等方面表现良好。所提激励算法可以将端到端时延缩短45%,有效控制参与度,并根据用户请求数控制不同的参与比例,此外可以将用户响应时延和多媒体数据流传输延迟分别缩短53%和45%。

面向SysML模型的安全性分析与验证方法

李宛倩, 胡军, 陈松, 张维珺

计算机科学. 2019, 46 (11): 100-108. doi:10.11896/jsjkx.181001850

摘要 ( 842 )

PDF(2171KB) ( 1625 )

参考文献 | 相关文章 | 多维度评价

近年来,随着航空、交通、医疗等安全关键系统的规模越来越大,涉及到的复杂度也越来越高,基于模型的系统安全性分析与验证成为安全关键系统工程领域的一个重要研究方向,因而如何对以 SysML为典型的系统模型进行安全性分析与验证是一个非常重要的问题。文中以基于模型的安全性分析(MBSA)为框架,设计了一个面向SysML模型的系统安全性分析与验证方法,实现了从模型构建到安全性分析与属性验证的完整过程。首先,从需求层面和设计层面对SysML系统架构设计模型和最新系统安全性建模语言AltaRica3.0进行了介绍,构建了从SysML的核心模型元素到AltaRica3.0模型的语义等价的转换规则,给出了转换规则的形式化描述并分析证明转换规则的正确性;然后,基于模型驱动的方法设计了一个原型工具平台来完成模型的自动转换和安全性分析过程,该原型工具集成了转换、编译生成故障树、故障树分析、单步仿真及故障路径动态演示等功能,实现了系统设计和安全性分析的同步性,并在此基础上给出了AltaRica3.0至Promela模型的转换关键点,结合穷尽式模型验证工具SPIN对模型的属性进行安全性验证;最后,根据4761标准中对机轮刹车系统的体系结构设计描述和安全性的需求建立SysML模型,依据原型工具平台和属性验证工具实现模型的自动转换和安全性分析验证,进而来说明此转换方法的有效性。

拟态构造Web服务器的服务质量量化方法

张杰鑫, 庞建民, 张铮, 邰铭, 刘浩

计算机科学. 2019, 46 (11): 109-118. doi:10.11896/jsjkx.181001922

摘要 ( 667 )

PDF(1781KB) ( 1400 )

参考文献 | 相关文章 | 多维度评价

随着新兴的“互联网+”快速成为驱动社会经济发展的重要动力,Web服务的地位越来越重要,其面临的安全问题也越来越严重。拟态构造Web服务器是一种基于拟态防御原理的新型Web防御系统,其利用异构性、动态性、冗余性等特性阻断或扰乱网络攻击。虽然其已经展开应用部署,并取得了较好的防御效果,但至今仍缺乏有效的服务质量量化评估方法。首先在分析拟态构造Web服务器系统架构的基础上,讨论其服务质量量化与传统的Web服务质量量化的区别和关键问题,分析了影响其服务质量的因素;然后基于“木桶”原理提出了拟态构造Web服务器服务质量的量化评估方法,并利用向量相似度方法量化服务质量的损耗值。文中在理论上为拟态构造Web服务器服务质量量化评估提供了一种新方法,在工程实践上为优化其服务质量提供了指导。仿真和实验结果表明,与现有的评价方法相比,提出的量化方法能够更加有效地量化评估拟态构造Web服务器的服务质量。

改进的Camellia-256高阶中间相遇攻击

张丽, 卫宏儒

计算机科学. 2019, 46 (11): 119-122. doi:10.11896/jsjkx.180901786

摘要 ( 748 )

PDF(1346KB) ( 1114 )

参考文献 | 相关文章 | 多维度评价

Camellia是一种具有Feistel结构的迭代型分组密码。Camellia算法的分组长度为128比特,密钥长度为128比特、192比特或256比特,其中密钥长度为128比特时迭代轮数为18轮,当密钥长度为192比特或256比特时,迭代轮数为24轮。目前,对Camellia算法的安全性分析一直是研究的热点。文中根据Camellia的密钥扩展算法和密钥相关性,分析了轮密钥之间的关系,并借助密钥桥找到了猜测密钥的8条关系。因此在对16轮Camellia-256进行高阶中间相遇攻击时,减少了在计算相关值时所需的子密钥数量,使得时间复杂度减少了2⁸。这个结果比之前任何不带函数和白化层的Camellia密码分析的结果都要好。

基于经纪人的多云访问控制模型研究

赵鹏, 吴礼发, 洪征

计算机科学. 2019, 46 (11): 123-129. doi:10.11896/jsjkx.190300112

摘要 ( 643 )

PDF(1901KB) ( 1284 )

参考文献 | 相关文章 | 多维度评价

多云(Multicloud)无需改变提供商的技术方案及运营方式,以独立于提供商的方式自由组合云资源,是一种认可度较高、具有重要推广价值的互联云模型。云经纪人支持向云提供商和云用户提供透明服务,按需组合多个云提供商的资源,降低了跨云协作难度、提供商锁定风险和用户成本开销。然而,云提供商间的访问控制策略的异构性和信任机制的缺乏,极易造成隐私泄露和数据丢失等安全隐患,严重影响了多云的推广应用。文中综合考虑信任、上下文和服务等级协议(SLA)等因素,提出了基于经纪人的多云访问控制模型(MC-ABAC)。首先,构建了多云访问控制模型结构,该结构由虚拟资源管理器(VRM)、访问控制管理器(ACM)和云访问控制经纪人(CACB)等模块组成;其次,设计了多云访问控制模型,该模型定义了主体、资源、环境和操作等,形式化描述了信任、上下文、SLA和授权策略等,实现了云提供商信任度量和跨云的授权;再次,设计了多云访问控制的工作流程,包括从本地提供商访问多云的工作流程和从CACB访问多云的工作流程;最后,利用CloudSim 4.0和OpenAZ搭建多云访问控制环境,验证该模型的请求成功率和响应时间等可用性指标。实验结果表明,当正常使用且请求数量较大时,该模型的请求成功率比ABAC模型提升了18%左右,且响应时间性能优于ABAC模型。

一种基于差分隐私的数据查询分级控制策略

李森有, 季新生, 游伟, 赵星

计算机科学. 2019, 46 (11): 130-136. doi:10.11896/jsjkx.180901690

摘要 ( 840 )

PDF(2027KB) ( 1461 )

参考文献 | 相关文章 | 多维度评价

在数据的查询、发布和共享过程中,保护用户的隐私数据至关重要。现有的隐私保护模型大多未考虑不同信任等级用户的查询结果不同,而为查询数据集的所有用户提供相同隐私保护级别的数据。这种“一刀切”的方法忽略了不同个体之间数据隐私保护要求的差异性。并且多个查询用户可能具有不同的查询权限和信誉值,所查询的数据隐私属性也不尽相同。因此,这些提供相同级别的隐私保护方法无法满足隐私保护的差异化需求。为此,提出一种基于差分隐私的数据查询分级控制策略。当查询用户提交查询请求时,该隐私保护策略可以根据查询者的权限、信誉值和数据隐私属性计算查询安全信任度并量化分级,对不同信任等级的查询返回结果添加服从不同分布特性的Laplace噪声以保护数据隐私。为保证高可用性的数据不被低等级查询用户获取,引入可用性评估模块,在保护隐私的同时对数据的可用性进行分析。仿真实验结果表明:所提出的查询分级控制模型能够为不同等级的查询用户提供误差率在0.1%~30%范围内的数据信息,解除了差分隐私仅提供相同级别隐私保护的重要限制,有效解决了多信任等级用户查询的隐私泄露问题。并且,对最终查询返回结果进行可用性分析能够在差分隐私保护范围内最大程度地提高数据的可用性。

基于约束求解的代码查询技术在StackOverflow上的实证研究

陈正钊, 姜人和, 潘敏学, 张天, 李宣东

计算机科学. 2019, 46 (11): 137-144. doi:10.11896/jsjkx.191100501C

摘要 ( 824 )

PDF(1464KB) ( 1256 )

参考文献 | 相关文章 | 多维度评价

代码查询在代码复用的过程中起着十分重要的作用,而面向程序员的专业问答网站StackOverflow上围绕代码的问答则是代码复用的一个典型场景。在这个现实场景中,采取的是人工回答的方式,而人工回答往往存在实时性较差、提问描述不准确、回答可用性不高等缺点,但如果采取代码查询的方式搜寻可用代码来实现自动化并替代人工回答,则可以省去大量的人力和时间成本。目前已经出现了许多代码查询技术,但大都缺少在真实案例上的应用经验,文中以Satsy的思路为参考,实现了针对Java语言的基于约束求解的代码查询技术,并设计了实证研究,以StackOverflow为研究对象,主要研究如何将基于约束求解的代码查询技术应用在该网站上围绕代码的问答中。首先对网站上的问题进行了分析,针对Java语言提取了浏览量高的35个问题作为查询问题;然后在GitHub上抓取了约3万行代码,将它们转换成约束的形式并构建了一个较大规模的代码库以支持代码查询;最后通过对这35个问题的查询结果进行分析,评估了该技术在StackOverflow上的实际应用效果。结果表明,该技术在所研究的具体问题和代码规模上具有较好的实际应用效果,在相当高的程度上能替代人工回答。

基于日志可视化分析的微服务系统调试方法

李文海, 彭鑫, 丁丹, 向麒麟, 郭晓峰, 周翔, 赵文耘

计算机科学. 2019, 46 (11): 145-155. doi:10.11896/jsjkx.181102210

摘要 ( 1170 )

PDF(2474KB) ( 1948 )

参考文献 | 相关文章 | 多维度评价

云计算时代,越来越多的企业开始采用微服务架构进行软件开发或者传统巨石应用改造。然而,微服务系统具有较高的复杂性和动态性,当系统出现故障时,目前没有方法或者工具能够有效支持对故障根源的定位。为此,文中首次提出通过调用链信息关联单次业务请求在所有服务上产生的业务日志,并在此基础上研究基于日志可视化分析的微服务系统调试方法。首先定义了微服务的日志模型,规范化微服务日志可视化分析所需要的数据信息;然后针对4种典型的微服务故障(有异常抛出的普通故障、无异常抛出的逻辑故障、服务异步调用序列未控制导致的故障以及服务多实例版本或状态不一致导致的故障)总结出5种可视化调试策略,用于支持对故障根源的定位,5种策略包括:单条调用链日志查看、不同调用链对比、服务异步调用分析、服务多实例分析以及调用链分段。为了实现服务异步调用分析和服务多实例分析,文中设计了两个算法,同时,设计并实现了一个原型工具LogVisualization。LogVisua-lization可以收集微服务系统运行时产生的日志信息、调用链数据以及集群的节点和服务实例信息,能够以较小的代码侵入性,实现通过调用链信息关联所有业务日志,支持用户使用5种策略进行可视化调试。最后,将该原型工具应用于实际的微服务系统,通过与现有工具(Zipkin＋ELK)的实验对比,验证了该原型工具在4种微服务故障根源定位上的有用性和高效性。

基于卷积神经网络的代价敏感软件缺陷预测模型

邱少健, 蔡子仪, 陆璐

计算机科学. 2019, 46 (11): 156-160. doi:10.11896/jsjkx.191100502C

摘要 ( 872 )

PDF(1522KB) ( 1415 )

参考文献 | 相关文章 | 多维度评价

基于机器学习的软件缺陷预测方法受到软件工程领域学者们的普遍关注,通过缺陷预测模型可一定程度地分析软件中的缺陷分布,以此帮助软件质量保障团队发现软件中潜在的错误并合理分配测试资源。然而,现有多数的缺陷预测方法是基于代码行数、模块依赖程度、栈引用深度等人工提取的软件特征进行缺陷预测的。此类方法未考虑到软件源码中潜在的语义特征,可能导致预测效果不理想。为了解决以上问题,文中利用卷积神经网络挖掘源码中隐含的语义特征,并将其用于软件缺陷预测的任务中。在源码语义特征的有效挖掘方面,采用三层卷积神经网络提取数据抽象特征。在数据不平衡处理方面,采用代价敏感的方法,即分别给予正例与反例不同的权重,平衡正反例对模型训练的影响。在实验数据集方面,选取了开源缺陷标注数据集PROMISE中8个软件中的多个版本,合计19个项目。在模型性能比较方面,将提出的基于卷积神经网络的代价敏感软件缺陷预测模型(Cost-Sensitive Three-Layer Convolutional Neural Network,CS-TCNN)分别与逻辑回归、深度置信网络等模型进行比较,评估指标为在缺陷预测研究领域中普遍使用的AUC和MCC。实验结果充分说明了CS-TCNN能更有效地提取程序代码中的语义特征,进而提高软件缺陷预测模型的预测效果。

基于校正因子的随机TBFL方法

王蓁蓁, 刘嘉

计算机科学. 2019, 46 (11): 161-167. doi:10.11896/jsjkx.191100503C

摘要 ( 597 )

PDF(1406KB) ( 1077 )

参考文献 | 相关文章 | 多维度评价

运用测试集对程序错误语句定位的算法被统称为TBFL(Testing Based Fault Localization)方法。目前通用算法一般都没有利用测试员、程序员关于测试用例和程序的先验知识,致使这些“资源”被浪费。随机TBFL方法是一类新型TBFL方法,其精神就是在随机理论的框架下,把这些先验知识(抽象为先验分布)和实际测试活动结合起来,从而更好地定位程序错误语句。事实上,随机TBFL算法可以看成这类算法的一般“模式”,人们可以从这个一般框架里开发出不同的算法。文中方法就是将随机TBFL算法加以简化得到的,主要是从各个测试用例的具体测试活动着手,对程序变量X的先验概率加以校正,如果测试集里有n个用例,便可以得到程序变量X的n个校正值,将n个校正值效应迭加,并且标准化,即得到程序变量X的后验概率,用它作为寻找错误语句的向导。由于提出的简化算法是借助一个校正因子矩阵而得到的,因此所提算法被称为基于校正因子的随机TBFL方法。文中还提出了3个有关不同TBFL算法的比较标准,并依据它们在一些具体实例上的表现证实所提算法的有效性。

改进的神经语言模型及其在代码提示中的应用

张献, 贲可荣

计算机科学. 2019, 46 (11): 168-175. doi:10.11896/jsjkx.191100504C

摘要 ( 772 )

PDF(1928KB) ( 1235 )

参考文献 | 相关文章 | 多维度评价

语言模型旨在刻画文本段的发生概率,作为自然语言处理领域中的一类重要模型,近年来其被广泛应用于不同软件分析任务,例如代码提示。为提高模型对代码特征的学习能力,文中提出了一种改进的循环神经网络语言模型——CodeNLM。该模型通过分析词向量形式表示的源代码序列,能够捕获代码规律,实现对序列联合概率分布的估计。考虑到现有模型仅学习代码数据,信息的利用不充分,提出了附加信息引导策略,通过非代码信息的辅助来提高代码规律的刻画能力。针对语言建模任务的特点,提出了节点逐层递增策略,通过优化网络结构来改善信息传递的有效性。实验中,针对9个Java项目共203万行代码,CodeNLM得到的困惑度指标明显优于n-gram类模型和传统神经语言模型,在代码提示应用中得到的平均准确度(MRR指标)较对比方法提高了3.4%～24.4%。实验结果表明,CodeNLM能有效地实现程序语言建模和代码提示任务,并具有较强的长距离信息学习能力。

用于软件缺陷预测的集成模型

胡梦园, 黄鸿云, 丁佐华

计算机科学. 2019, 46 (11): 176-180. doi:10.11896/jsjkx.180901685

摘要 ( 687 )

PDF(1263KB) ( 1447 )

参考文献 | 相关文章 | 多维度评价

软件缺陷预测的目的是有效地识别出有缺陷的模块。对于类别平衡数据,传统的分类器具有较好的预测效果,但当数据类别比例分布不均衡时,传统的分类器往往偏向于多数类,易使得少数类模块被误分。但是,真实的软件缺陷预测中的数据往往是类别不平衡的。为了处理软件缺陷中的这种类别不平衡问题,文中提出了基于改进的类权自适应、软投票与阈值移动的集成模型,该模型在不改变原始数据集的情况下,从训练阶段和决策阶段同时考虑处理类别不平衡的问题。首先,在类权值学习阶段,通过类权自适应学习得到不同类的最优权值;然后,在训练阶段,使用前一步得到的最优权值训练3个基分类器,并通过软集成的方法组合3个基分类器;最后,在决策阶段,根据阈值移动模型来做出决策,以得到最终预测类别。为了证明所提方法的有效性,实验采用NASA软件缺陷标准数据集和Eclipse软件缺陷标准数据集进行预测,并在相同的数据集上将其与近年提出的几种软件缺陷预测方法在召回率值Pd、假正例率值Pf和F1度量值F-measure方面进行了对比。实验结果表明,所提方法的召回率Pd平均提高了0.09,在F1度量值F-measure上平均提高了0.06。因此,文中提出的处理软件缺陷预测中类别不平衡问题的方法的整体性能优于其他软件缺陷预测方法,具有较好的预测效果。

基于上下文增强LSTM的多模态情感分析

刘启元, 张栋, 吴良庆, 李寿山

计算机科学. 2019, 46 (11): 181-185. doi:10.11896/jsjkx.181001941

摘要 ( 1107 )

PDF(1836KB) ( 2591 )

参考文献 | 相关文章 | 多维度评价

近年来,多模态情感分析成为了越来越受欢迎的热门领域,它将传统的基于文本的情感分析扩展到文本、图像以及声音相结合的多模态分析层面。多模态情感分析通常需要获取单模态内部的信息以及多模态之间的交互信息。为了利用每个模态中语言表达的上下文来帮助获取这两种信息,文中提出了一种基于上下文增强LSTM的多模态情感分析方法。具体而言,首先对于多模态的每种表达,结合上下文特征,分别使用LSTM进行编码,再分别捕捉单模态内部的信息;接着融合这些单模态的独立信息,再使用LSTM获得多模态间的交互信息,从而形成多模态特征表示;最后采用最大池化策略,对多模态表示进行降维,从而构建情感分类器。该方法在MOSI数据集上的ACC值达到75.3%,F1达到了74.9。相比传统的机器学习方法(如SVM),所提方法的ACC值高出8.1%,F1值高出7.3。相比目前较为先进的深度学习方法值,所提方法在ACC值上高出0.9%,F1值上高出1.3,与此同时可训练参数量只有之前方法的1/20,训练速度提高了约10倍。大量的对比实验结果表明,相比传统的多模态情感分类方法,所提方法的性能有显著提升。

用于短文本分类的DC-BiGRU_CNN模型

郑诚, 薛满意, 洪彤彤, 宋飞豹

计算机科学. 2019, 46 (11): 186-192. doi:10.11896/jsjkx.180901702

摘要 ( 717 )

PDF(1877KB) ( 1732 )

参考文献 | 相关文章 | 多维度评价

文本分类是自然语言处理中一项比较基础的任务,如今深度学习技术被广泛用于处理文本分类任务。在处理文本序列时,卷积神经网络可以提取局部特征,循环神经网络可以提取全局特征,它们都表现出了不错的效果。但是,卷积神经网络不能很好地捕获文本的上下文相关语义信息,循环神经网路对语义的关键信息不敏感。另外,利用更深层次的网络虽然可以更好地提取特征,但是容易产生梯度消失或梯度爆炸问题。针对以上问题,文中提出了一种基于密集连接循环门控单元卷积网络的混合模型(DC-BiGRU_CNN)。该模型首先用一个标准的卷积神经网络训练出字符级词向量,然后将其与词级词向量进行拼接并作为网络输入层。受密集连接卷积网络的启发,在对文本进行高级语义建模阶段时,采用文中提出的密集连接双向门控循环单元,其可以弥补梯度消失或梯度爆炸的缺陷,并且加强了每一层特征之间的传递,实现了特征复用;对前面提取的深层高级语义表示进行卷积和池化操作以获得最终的语义特征表示,再将其输入到softmax层,实现对文本的分类。在多个公开数据集上的研究结果表明,DC-BiGRU_CNN模型在执行文本分类任务时准确率有显著提升。此外,通过实验分析了模型的不同部件对性能提升的作用,研究了句子的最大长度值、网络的层数、卷积核的大小等参数对模型效果的影响。

基于零阶减小方差方法的鲁棒支持向量机

鲁淑霞, 蔡莲香, 张罗幻

计算机科学. 2019, 46 (11): 193-201. doi:10.11896/jsjkx.181001840

摘要 ( 690 )

PDF(5002KB) ( 1293 )

参考文献 | 相关文章 | 多维度评价

采用传统的支持向量机方法对含有噪声的数据进行分类时会产生较大的损失,使得分类超平面严重偏离最优超平面,从而导致分类性能较差。为了解决此问题,文中提出了一种鲁棒的支持向量机(Robust Support Vector Machine,RSVM )方法,该方法给出了一种正弦平方形式的损失函数,根据正弦函数的特点,即使对于噪声数据,其损失函数的值也会被限制在[0,1]区间,从而提高了支持向量机的抗噪性。另外,在求解支持向量机时,传统的随机梯度下降方法在每次迭代中利用单个样本梯度近似代替全梯度,这样必然会产生方差,而随着迭代次数的增加,方差也不断累积,从而严重影响算法的分类性能。为了减小方差的影响,引入零阶减小方差的随机梯度下降(Zeroth Order-Stochastic Variance Reduced Gradient,ZO-SVRG )算法。该算法使用坐标梯度估计方法近似代替梯度,通过在每轮迭代中引入梯度修正项来减小方差的影响;同时,采取加权平均的输出形式进行内外循环的输出,加快了优化问题的收敛速度。实验结果表明,提出的基于零阶减小方差方法的鲁棒支持向量机算法对噪声数据具有更好的鲁棒性,且有效降低了方差的影响;为了进一步提高算法的性能,对实验中主要参数λ,k对算法精度的影响进行了分析。对于线性和非线性两种情况,当其参数对(λ,k)分别满足(λ＝1,k=5)和(λ＝10,k=3)时,可以达到各自的最高精度。

基于半监督协同训练算法的微博水军识别

韩晴晴, 张艳梅, 牛娃

计算机科学. 2019, 46 (11): 202-208. doi:10.11896/jsjkx.180901617

摘要 ( 1071 )

PDF(2258KB) ( 1799 )

参考文献 | 相关文章 | 多维度评价

在迅速发展的互联网时代,微博产生了大量的信息,但是在微博话题等地带存在着较多水军,水军在一定程度上影响了普通用户了解某人或者某事的真实情况。因此,为了高效、准确地识别水军,针对水军样本数量少、非水军样本数量庞大等问题,综合考虑使用半监督协同训练算法。该算法通过研究微博用户的多个特征并对其进行综合分析,重新定义了6个属性特征值,包括账户关注度、每日发表微博数、微博影响力等。依据算法的特点,将6个属性特征值分为两个属性集,每个属性集对应一个视图,每个视图利用Scikit-Learn 机器学习库中的7种分类方法训练出分类器,以对微博用户进行水军识别,最后在爬取的微博用户数据集上进行实验。实验结果表明,两个视图在分别使用朴素贝叶斯算法、逻辑回归算法训练分类器时,分类结果的准确率、召回率、精度和F1-measure值都较高。因此,综合分析微博用户特征并且使用符合实际情况的半监督协同训练算法,能够准确、高效、快速地识别微博水军。

基于非结构化文本增强关联规则的知识推理方法

李智星, 任诗雅, 王化明, 沈柯

计算机科学. 2019, 46 (11): 209-215. doi:10.11896/jsjkx.181001939

摘要 ( 662 )

PDF(1906KB) ( 1549 )

参考文献 | 相关文章 | 多维度评价

知识图谱用一种结构化的方式存储实体、实体的属性以及实体之间的关系。由于知识图谱中的知识易于被计算机处理,因此它在许多自然语言处理任务中都起着至关重要的作用。虽然从绝对数量来看,现有的知识图谱已经包含了海量的三元组事实,但是与真实世界中存在的知识相比它远远不够。因此,如何完善知识图谱成为目前的研究热点。现有的研究方向主要分为内部推理和外部抽取两类,然而这些方法仍有很大的提升空间:一方面,由于知识图谱内部知识存在错误或缺失,可能会在推理时产生错误的扩散;另一方面,现有的知识抽取方法主要集中于对实体类型、关系等知识的抽取,从而导致抽取的知识不够全面。鉴于此,提出了一种基于非结构化文本增强关联规则的知识推理方法。该方法从非结构化文本表述中抽象出文本表述模式,并以词语分布袋的形式对其进行表示,进而结合知识图谱已有的知识构建关联规则。与传统关联规则的区别在于,该方法得到的关联规则可以通过与非结构化文本匹配的方式来完成知识推理。实验结果表明,与传统方法相比,该方法可以高效地从非结构化文本中推理出数量更大且质量更高的三元组知识。

基于影响空间的稳健密度峰值聚类算法

陈春涛, 陈优广

计算机科学. 2019, 46 (11): 216-221. doi:10.11896/jsjkx.181001846

摘要 ( 695 )

PDF(1481KB) ( 1113 )

参考文献 | 相关文章 | 多维度评价

DP(Clustering by Fast Search and Find of Density Peaks)是一种新提出的基于局部密度和距离的聚类算法,具有能够发现任意形状的类簇、易于理解并且可以高效划分数据的优点。但是该算法无法处理单个类簇中同时存在多个密度峰值的情况,并且数据划分不稳定,容易导致连锁错误划分;当类簇间的密度差异较大时,其无法准确识别稀疏的类簇。为弥补以上不足,提出一种基于影响空间的稳健密度峰值聚类算法。该改进算法通过邻近数据计算局部密度,增强对小规模类簇的识别能力。为了提高数据划分的稳定性,引入了影响空间,并定义了一种新的对称关系,提出了一种新的分配策略。其通过计算目标数据与邻近数据的局部密度比值,并对影响空间进行加权,使算法能够处理具有多密度分布特征的数据。基于人工合成数据集和UCI数据集的模拟对比实验表明,提出的改进策略增强了算法对稀疏类簇的识别能力,提高了数据划分的稳定性,在NMI和Acc评价指标方面取得了较优的结果。

多线路信息融合的公交车行程时间预测算法

马林宏, 陈廷伟, 郝明, 张雷

计算机科学. 2019, 46 (11): 222-227. doi:10.11896/jsjkx.180901764

摘要 ( 635 )

PDF(1995KB) ( 1669 )

参考文献 | 相关文章 | 多维度评价

针对公交车行程时间预测存在数据稀疏、数据缺失及更新间隔长等问题,提出了一种基于相似路段划分并融合多线路信息的卡尔曼滤波算法。该算法对每条路段的属性特征和空间结构特征进行归一化处理,利用属性特征和空间结构的相似性及POI(Point of Interest)对交通影响的变化动态地划分相似路段;然后融合相似路段与目标路段上的多条公交线路的数据信息,用相似路段的数据丰富实验数据;最后结合卡尔曼滤波算法动态性高、实时性强等特点建立模型,从而实现短时预测,并对信息进行修正。选取沈阳市162线路和299线路作为实验线路,各划取一段相似路段进行基础数据采集并进行实验。通过相似路段上的信息来推断数据稀疏或缺失路段的信息,能够缩短数据更新间隔并提高算法预测的实时性及精准性,尤其在早高峰时段,提出的算法模型的绝对平均百分误差达到13.2%,能达到实时查询的性能需求。

一种新型解决非光滑伪凸优化问题的神经网络方法

喻昕, 马崇, 胡悦, 伍灵贞, 汪炎林

计算机科学. 2019, 46 (11): 228-234. doi:10.11896/jsjkx.181001926

摘要 ( 626 )

PDF(1474KB) ( 1240 )

参考文献 | 相关文章 | 多维度评价

优化问题的研究一直以来深受科研工作者的关注,凸优化问题作为优化问题的一个重要部分更是成为研究重点,许多应用神经网络思想提出的模型已经被应用到实际问题中。然而,在机器学习、信号处理、生物信息学等领域中涉及的优化问题往往不是凸优化问题,而是伪凸优化及非凸优化的问题,因此解决后一类问题变得刻不容缓。针对目标函数是非光滑伪凸函数、约束函数由等式和不等式函数构成的优化问题,基于罚函数以及微分包含的思想,构建了一个新型的不含惩罚参数的单层神经网络模型。该模型的主要设计思路是根据已经提出的神经网络模型思想,为目标函数的梯度设计一个制约的函数,使其值始终保持在一个范围之内,再结合一个关于时间的函数,确保其值随时间变小。同时,考虑到不等式约束对状态解进入等式约束之前的收敛方向有影响,加入一个条件函数来限制它。与已提出的神经网络模型相比,所提模型具有结构简单、无须提前进行惩罚参数的计算、对初始点的位置无特殊要求等优势。而且,对于任意初始点,理论证明了状态解的有界性、状态解能够在有限时间内收敛到等式约束内并永驻其中、状态解能够在有限时间内收敛到可行域并永驻其中以及状态解最终收敛到优化问题的最优解。在MATLAB环境下,通过数学仿真实验,状态解都能快速地收敛到一个最优解。同时,用已经提出的类似神经网络模型解决同样的优化问题时,若罚参数或初始点选择不恰当则会导致状态解不能很好地收敛。这不仅验证了所提出的理论结果的正确性,同时也说明了所提网络具有更广泛的应用范围。

基于协同过滤和认知诊断的试题推荐方法

齐斌, 邹红霞, 王宇, 李冀兴

计算机科学. 2019, 46 (11): 235-240. doi:10.11896/jsjkx.180901827

摘要 ( 849 )

PDF(1451KB) ( 1906 )

参考文献 | 相关文章 | 多维度评价

智能教育中,试题推荐方法是数据挖掘在教育测量领域的新运用,是自适应测试的智能化和个性化程度的重要体现,目前主流的试题推荐方法有两类,分别是协同过滤试题推荐方法和认知诊断试题推荐方法,前者忽略了独立个体的知识属性,后者缺乏对种群的共性评估。针对上述问题,为提高试题推荐的精确度和效率,综合考虑独立被试者的知识属性和类环境群体的知识共性,文中提出了基于协同过滤和认知诊断的试题推荐方法。首先,设计了基于多级属性评分的认知诊断模型,并利用该模型对被试者的答题情况进行建模;然后,将被试者的知识属性掌握模式用于概率矩阵分解,预测被试者的潜在答题情况;最后,根据信息量指标向被试者动态地推荐合适的试题。试题推荐方法综合考虑了个体的个性特征和群体的共性特征,提高了解释性和可靠性。实验结果表明,相比单协同过滤试题推荐算法和认知诊断选题策略,所提方法的测试效率分别提升了20.35%和2.5%。

基于核超限学习机群组算法的交通拥堵预测

邢一鸣, 班晓娟, 刘旭, 尹航, 沈晴

计算机科学. 2019, 46 (11): 241-246. doi:10.11896/jsjkx.191100507C

摘要 ( 537 )

PDF(1804KB) ( 1214 )

参考文献 | 相关文章 | 多维度评价

城市交通拥堵预测是智能交通系统研究的重要内容之一。交通运行状态具有高度不确定性和复杂性,目前已经有多种基于神经网络的预测技术被引入交通预测领域中。然而,传统的神经网络具有训练时间长、易陷入过拟合和局部最优等缺点,这严重阻碍了神经网络在交通预测领域的大规模应用。超限学习机是一种新型的单隐层前馈神经网络,具有泛化能力强、训练速度快、产生唯一最优解等诸多优点。基于超限学习机算法,文中提出了核超限学习机群组算法,此算法由多个超限学习机子模型组成,每个子模型只负责某一类样本的学习,该算法使每一类样本均能达到全局最优,整体可以获得比超限学习机更高的预测准确率。实验结果表明,单进程的核超限学习机群组算法比超限学习机的训练时间稍短,但前者的准确率较后者提高了8%;相比其他流行的机器学习算法,核超限学习机群组算法的训练速度快、预测准确度高;经过核超限学习机群组算法预测的结果与实际情况较为符合,可靠性高,具有很强的实用价值。

基于云计算平台的仿生优化聚类数据挖掘算法

申燕萍, 顾苏杭, 郑丽霞

计算机科学. 2019, 46 (11): 247-250. doi:10.11896/jsjkx.190800042

摘要 ( 542 )

PDF(1296KB) ( 1101 )

参考文献 | 相关文章 | 多维度评价

为了提高云计算平台数据挖掘的有效性以及数据聚类的性能,采用仿生优化算法与相似聚类相结合的方法来实现云计算平台数据聚类。在相似聚类的优化函数求解过程中,采用狼群优化算法,以头狼的位置来确定聚类中心点,从而实现类别中心点的优化与更新。文中分别采用PBM和DB聚类效果评价方法来对聚类效果进行检验,在满足预设评价标准的情况下,不断进行狼群优化和相似聚类计算,直到达到聚类指标要求为止。经过实验证明,相比一般聚类算法,狼群优化的聚类算法对数据量大且数据维度高的云计算平台数据聚类效果更好,收敛速度更快。

基于领域偏好的可变时间窗口时序数据主题模式识别算法

王一博, 彭广举, 何远舵, 王亚沙, 赵俊峰, 王江涛

计算机科学. 2019, 46 (11): 251-259. doi:10.11896/jsjkx.191100505C

摘要 ( 943 )

PDF(2389KB) ( 1407 )

参考文献 | 相关文章 | 多维度评价

随着传感器的普及,智慧城市、普适计算等领域应用不断涌现,对时序数据处理的需求也在不断增长。时序数据中反复出现的高度相似的模式被称为主题模式。时序数据的主题模式蕴含有了大量的信息,对主题模式的识别是时序数据处理的重要分支领域。现有主题模式识别算法无法根据特定应用或领域的知识来指定主题模式识别的偏好,从而难以发现对分析领域问题最具价值的模式。针对这一问题,文中给出了一种可以根据领域偏好定义子序列相似性的机制,并设计了一种针对上述相似性度量机制的可变时间窗口主题模式识别加速剪枝算法。实验证明,所提方法在多个公开数据集上,能高效且准确地发现具有领域偏好的主题模式。

基于快速自适应的二维经验模态分解的图像去噪算法

刘佩, 贾建, 陈莉, 安影

计算机科学. 2019, 46 (11): 260-266. doi:10.11896/jsjkx.190400159

摘要 ( 935 )

PDF(4225KB) ( 1739 )

参考文献 | 相关文章 | 多维度评价

为了能够对图像进行自适应的分解,并准确刻画分解系数的分布状态,提出了一种新的基于快速自适应二维经验模态分解的图像去噪算法。该算法首先对图像进行快速自适应二维经验模态分解,通过确定分解后以噪声主导的子带的个数,进一步利用正态逆高斯模型对以噪声主导的子带系数分布进行建模;然后使用贝叶斯最大后验概率估计理论从模型导出相应的阈值;最后采用最优线性插值阈值函数算法完成去噪。仿真结果表明,对于添加不同标准差大小高斯白噪声的测试图像,所提算法在峰值信噪比上相比sym4小波去噪、双变量阈值去噪、邻近算子的全变分算法和重叠组稀疏的全变分算法分别平均提高了4.36dB,0.85dB,0.78dB和0.48dB,结构相似性指数也有不同程度的提高,有效地保留了更多的图像细节。实验结果证明,所提算法在视觉性能和评价指标方面均优于对比算法。

基于双向KNN排序优化的行人再识别算法

包宗铭, 龚声蓉, 钟珊, 燕然, 戴兴华

计算机科学. 2019, 46 (11): 267-271. doi:10.11896/jsjkx.181001861

摘要 ( 944 )

PDF(1462KB) ( 1218 )

参考文献 | 相关文章 | 多维度评价

在跨摄像头的行人再识别任务中,光照、视角以及遮挡物等成像因素导致行人外观在不同视角下呈现出巨大变化,这使得对目标行人的再识别工作变得十分困难。利用重排序算法虽然可以在一定程度上提高行人再识别的准确率,但增加了时间成本和人力成本,且容易引入新的噪声。为此,文中提出了一种基于双向KNN排序优化的行人再识别算法。首先,采用预训练加微调的策略来提取行人的深度特征;然后,利用XQDA和KISSME两种度量学习方法来比较特征间的距离,计算初始排名;最后,根据查询图像和候选图像间的双向KNN关系计算Jaccard距离,并将其与初始距离加权求和作为重排序的参照,计算出新的排名。在CUHK03,Market1501和PRW 3个数据集上的实验表明,文中提出的重排序算法在Rank1和mAP两个评价指标上分别获得了12.2%和13.4%的提升。实验数据充分说明,基于双向KNN排序优化的行人再识别算法可以有效降低重排序时引入噪声的概率,从而提高行人再识别的准确率。

融合权重与卷积核删减的SSD网络压缩

韩佳林, 王琦琦, 杨国威, 陈隽, 王以忠

计算机科学. 2019, 46 (11): 272-276. doi:10.11896/jsjkx.180901630

摘要 ( 1080 )

PDF(1726KB) ( 1233 )

参考文献 | 相关文章 | 多维度评价

目标检测是计算机视觉领域中重要的研究方向。近几年,深度学习在基于视频的目标检测领域取得了突破性研究进展。深度学习强大的特征学习和特征表达能力,使其能够自动学习和提取相关特征并加以利用。然而,复杂的网络结构使得深度学习模型具有参数规模大、计算需求高、占用存储空间大等问题。基于深度神经网络的单发多框检测器(Single-shot Multi-box Detector 300,SSD300)能够对视频中的目标进行实时检测,但无法移植到嵌入式设备或移动终端以满足实际应用中的需求。为了解决该问题,文中提出了一种权重删减和卷积核删减融合的方法。首先,针对深度卷积神经网络模型权重参数过多导致模型过大的问题,采用权重删减的方法移除各卷积层中的冗余权重,确定各层权重的稀疏度;然后,针对卷积层计算量大的问题,根据各卷积层中的权重稀疏度对冗余卷积核进行删减,以减少冗余参数和计算量;最后,对删减后的神经网络进行训练,以恢复其检测精度。为验证该方法的有效性,在卷积神经网络框架caffe平台上对SSD网络模型进行验证。结果表明,压缩加速后的SSD300网络模型的大小为12.5MB,检测速度最高可达50FPS (frames per second)。实验实现了在网络检测准确率下降尽量小的前提下,将SSD300网络压缩了8.4×,加速了2×。权重删减和卷积核删减融合的方法为SSD300网络在视频检测中的智能化应用提供了可行性方案。

高分影像复杂背景下的城市水体自动提取方法

王卫红, 陈骁, 吴炜, 高星宇

计算机科学. 2019, 46 (11): 277-283. doi:10.11896/jsjkx.181001985

摘要 ( 820 )

PDF(3109KB) ( 1654 )

参考文献 | 相关文章 | 多维度评价

城市水体分布信息对于理解城市水循环、热岛效应等地理现象具有重要意义。利用高分辨率影像进行水体提取和水体制图是常用的信息获取方式。由于城市环境背景复杂、高分影像光谱通道少以及水体在影像上分布比例不均匀等原因,将高分影像应用于水体自动提取仍存在较大难度。对此,基于国产高分影像发展一种面向复杂环境的城市水体自动化提取方法。首先,根据水体近红外通道灰度值较低的特征,自适应选取阈值进行分割,获取初始水体;其次,对初始水体进行缓冲以得到靶区域,使用高斯混合模型来表达其整体分布,通过改进期望最大算法估计水体类别分布参数后,使用最大似然法进行水体自动提取;在此基础上,针对粗提取水体中混杂阴影的问题,提出了融合特征方法来去除阴影,从而获得准确的水体提取结果。对上海市金山区的水体提取实验表明,使用所提方法可以有效提取实验影像中占比较小的水体结构,整体精度较目前常用的自动提取算法有明显提升。

基于多任务学习的多模态情绪识别方法

吴良庆, 张栋, 李寿山, 陈瑛

计算机科学. 2019, 46 (11): 284-290. doi:10.11896/jsjkx.180901665

摘要 ( 1084 )

PDF(2194KB) ( 3642 )

参考文献 | 相关文章 | 多维度评价

情绪分析是自然语言处理的一项基本任务,目前在单模态信息(文本)上的研究已经相当成熟。但是对于包含文本、图像和语音3种模态信息的多模态内容(如视频)来说,额外增加的模态信息让情绪分析变得更具挑战性。为了提升多模态情绪识别任务的性能,文中提出了一种基于多任务学习的神经网络方法,该方法在考虑模态内部信息的同时,充分结合了3种模态之间的联系。具体而言,首先对3种模态信息进行预处理,得到相应的特征表示;其次,分别为每个模态构建私有的双向LSTM,从而获得单模态的内部信息;分别为两两组合(文本-图像、文本-语音和图像-语音)的双模态信息构建共享的双向LSTM层,以学习双模态之间的动态交互信息;接着,为3种模态组合的信息构建一个共享的双向LSTM,从而捕捉3种模态之间的动态交互信息;最后,把网络层中得到的单模态的内部信息和多模态的动态交互信息进行融合,通过全连接层和Sigmoid层获取最终的情绪识别结果。在单模态实验中,相比于目前的最佳方法,所提方法在文本、图像和语音3个方面对所有情绪识别的效果分别平均提高了6.25%,0.75%和2.38%;在多模态实验中,该方法在情绪识别任务中达到了平均65.67%的准确率,相比其他基准方法有了明显的提升。

基于改进双流卷积网络的火灾图像特征提取方法

徐登, 黄晓东

计算机科学. 2019, 46 (11): 291-296. doi:10.11896/jsjkx.180901640

摘要 ( 656 )

PDF(2147KB) ( 1750 )

参考文献 | 相关文章 | 多维度评价

基于图像处理技术的火灾监测,是近年来火灾监控领域的重要分支。对于开阔场景的火灾监测,利用火灾发生时产生的烟雾和火焰的动、静特性,以双流(Two-Stream)卷积神经网络作为理论基础对火灾进行检测识别。双流卷积神经网络采用空间流与时序流分别提取视频中的空间信息与时序信息,然而火灾初期的信息较为微弱,特征不够明显。为进一步提高初期的识别率,提出一种空间增强网络作为双流卷积神经网络的空间流来提取并增强视频的空间信息。空间增强网络同时对当前帧图片V_t和上一帧图片V_t－1做卷积,用V_t的卷积特征与V_t－1的卷积特征做减法,保留卷积特征差异性,再将卷积特征差与当前帧V_t的卷积特征相加,从而增强对V_t的空间特征卷积;双流卷积网络的时间卷积流对当前帧的光流图片V_t′进行时序特征卷积;最后将增强后的空间特征与时序特征融合进行分类。实验结果表明,改进后的双流卷积网络的识别率比原始的双流卷积网络提高了6.2%,且在公开数据集上的测试准确率达到了92.15%,从而证明了该方法的有效性和优越性。此外,与其他方法相比,该网络具有低深度、高识别率的特征,不仅能提高火灾和烟雾的识别率,而且实现了火灾的早期发现,缩短了检测时间。

WiCount:一种基于WiFi-CSI的人数识别方法

丁亚三, 郭斌, 辛通, 王沛, 王柱, 於志文

计算机科学. 2019, 46 (11): 297-303. doi:10.11896/jsjkx.191100506C

摘要 ( 1213 )

PDF(2584KB) ( 2222 )

参考文献 | 相关文章 | 多维度评价

人数识别即是对一定区域内活动人数的监测计数,在人群控制、流量监管等方面有着重要应用。例如,在百货商场或者机场中,对排队人数或者服务区休息人数进行估计可以为提升服务质量做出贡献。目前,研究人员已提出了一些基于摄像头和可穿戴设备的人数识别方法,但是这些方案均存在一些不足,例如摄像头只能提供可视范围内的监控,可穿戴设备需要被监控对象有意识地穿戴。也有一些学者利用雷达相关技术实现了穿墙式感知识别,但是这类系统设计复杂,应用成本较高,多用于军事领域。文中提出了一种基于WiFi信号的室内人数识别方案WiCount,其利用信道状态信息(Channel State Information,CSI)的幅值波动来刻画室内人数的变化,利用机器学习算法实现对人的计数。WiCount旨在进行更细粒度的室内人数识别,即人在室内任意位置时该方法均能准确识别人数。它根据室内人数与CSI幅值变化的关系,提取了有效的数学特征,减弱了相同人数在室内不同位置所产生的CSI幅值波动差异,然后通过训练3种分类器(SVM、KNN、BP神经网络)来识别监测区域内的人数。在实验室和会议室分别部署了验证系统,结果显示,在人数规模较小的情况下,所提方法的识别效果良好。其中,实验室环境下,不超过4人时,系统的识别率达90%;会议室环境下,不超过2人,在监测区域内任意位置活动时,系统的识别率可达89.58%。

基于Wi-Fi信号的免训练呼吸检测

于怡然, 常俊, 吴柳繁, 张永鸿

计算机科学. 2019, 46 (11): 304-308. doi:10.11896/jsjkx.190600143

摘要 ( 811 )

PDF(1962KB) ( 1501 )

参考文献 | 相关文章 | 多维度评价

随着无线通信技术的飞速发展,Wi-Fi已被广泛应用于公共和私人领域。基于无线技术的非入侵式呼吸检测技术在智能家居领域有着广阔的应用前景。针对现有的解决方案难以解释不同场景下存在的巨大性能差异,文中在自由空间中引入菲涅耳区刃形绕射模型,设计了一种基于Wi-Fi信号的免训练呼吸检测方案。首先,通过菲涅耳区刃形绕射模型,在室内环境中验证了Wi-Fi信号的衍射传播特性;其次,研究了人体呼吸对接收端Wi-Fi信号的影响,并量化了衍射增益与人体呼吸时微小胸腔位移之间的关系,不仅解释了可以使用Wi-Fi设备检测到人体呼吸的原理,还论证了在哪些位置更容易检测到呼吸;最后,通过快速傅里叶变换(FFT)从接收信号强度(RSS)中估计呼吸速率。利用所提算法,可以清楚地知道呼吸检测的好位置和坏位置的分布,并且对于好的位置来说,平均呼吸估计的准确率可达93.8%。实验结果证明了仅使用一对收发器便可使厘米尺度的呼吸感知成为可能,并有望通过普及的Wi-Fi基础设施提供一种无处不在的呼吸检测方案。

基于改进细菌觅食算法的云计算资源调度策略

赵宏伟, 田力威

计算机科学. 2019, 46 (11): 309-314. doi:10.11896/jsjkx.181002000

摘要 ( 637 )

PDF(1996KB) ( 1715 )

参考文献 | 相关文章 | 多维度评价

资源调度是云计算的核心问题之一,调度算法的好坏直接影响着系统的处理能力。生物群体智能算法是一类模仿群体生物在自然界进化过程中表现出的群体智能性的算法,具有良好的协调性和整体稳定性。将菌群觅食算法应用到云计算资源调度的计算方法中,可以利用菌群算法对节点进行复制和消亡,对云计算资源调度节点的分配情况进行控制。针对传统菌群算法中随机选择趋化过程所造成的资源变化区间过大的问题,文中提出了改进的基于群体感应交流机制的细菌觅食CBFO优化算法和在群体协作过程中引入细菌趋化动作的MPSOBS优化算法,根据节点周围的节点情况和整个菌群的情况选取趋化因子,使趋化的过程更加准确。仿真实验结果表明,所提算法在任务的执行时间、系统负载均衡和资源服务质量方面均优于BFO算法,在提高资源利用率的同时能保证云应用的服务质量。

基于改进混合蛙跳算法的云工作流负载均衡调度优化

徐俊, 项倩红, 肖刚

计算机科学. 2019, 46 (11): 315-322. doi:10.11896/jsjkx.181001866

摘要 ( 851 )

PDF(1834KB) ( 1400 )

参考文献 | 相关文章 | 多维度评价

在实例密集型和开放的云环境下,工作流调度通常面临着廉价和优质资源被频繁调用的问题,导致调度效率低下,云环境稳定性遭到破坏。此外,区别于一般的任务调度,工作流任务之间通常具有关联依赖性,极大地提高了任务分配的复杂度。针对目前大多数云工作流调度中存在虚拟机间负载不均衡的现象,首先提出一种工作流分层调度模型,按任务优先级进行层级划分,将优先级相近且相互独立的任务置于同一层级,通过分层执行任务来有效缓解虚拟机的负载压力。其次,基于混合蛙跳算法进行改进,采用时间贪心算法来优化初始种群,以提高搜索效率;并增加对局部最优个体的重建策略来跳出局部最优,增强全局搜索能力。最后,将改进后的混合蛙跳算法(ISFLA)应用于云工作流调度,通过WorkflowSim仿真平台来模拟工作流调度的真实场景,并将改进后的混合蛙跳算法与传统的混合蛙跳算法及粒子群算法进行对比,从负载均衡度、工作流整体完成时间和搜索效率3个方面进行评价。实验结果表明,在迭代相同次数后,ISFLA的负载均衡度最优,并且随着任务数的增加,其值最先趋于稳定;同时,在工作流整体完成时间上,ISFLA也显著低于其他算法;在搜索效率方面,由于使用贪心算法提高了初始种群质量,ISFLA的搜索耗时大幅缩短。

基于变分贝叶斯的轴承故障诊断方法

王岩, 罗倩, 邓辉

计算机科学. 2019, 46 (11): 323-327. doi:10.11896/jsjkx.180901719

摘要 ( 854 )

PDF(1442KB) ( 1439 )

参考文献 | 相关文章 | 多维度评价

滚动轴承是旋转机械结构中常用的零件,如果发生故障,会造成极大的危害。随着大数据时代的到来,现代智能诊断方法已被广泛应用到轴承故障诊断中。针对目前智能诊断方法存在的问题,将统计模型引入轴承故障诊断中,提出了基于变分贝叶斯的轴承故障诊断方法。该方法对轴承振动信号进行局部特征尺度分解,得到若干个内禀尺度分量,并分别提取时域特征组成特征集,使用特征集训练产生基于变分贝叶斯的混合多维高斯分布模型,通过计算不同轴承故障的概率实现故障诊断。实验结果表明,所提方法的诊断正确率达到99.6%,与基于支持向量机的轴承诊断方法相比,在所组成的特征集上诊断正确率最高提升了39.6%。文中提出的方法能够全面且有效地诊断滚动轴承故障,对高维复杂的故障数据也有很好的诊断效果。

基于查找表的ADMM译码算法中量化算法优化研究

刘华军, 唐诗迪, 张迪科, 夏巧桥

计算机科学. 2019, 46 (11): 328-333. doi:10.11896/jsjkx.181001871

摘要 ( 819 )

PDF(2377KB) ( 1291 )

参考文献 | 相关文章 | 多维度评价

在基于ADMM的线性规划译码中,待投影向量向校验多胞体进行欧几里得投影计算是最复杂和耗时的部分。基于查找表的ADMM-LDPC译码算法通过简单的查表操作来替代复杂的投影运算,简化了投影过程,提升了算法的效率,但消耗了大量的内存资源。之后研究者提出了非均匀量化方法,该方法虽然极大地减少了内存消耗,但是所采用的量化方案的计算复杂度较高,从而使得该方法在量化段数较多的条件下难以实现。针对该问题,文中提出了一种新的非均匀量化方法。首先,针对不同的码字,在不同信噪比条件下,通过实验统计待投影向量中元素的分布特性,探究其分布规律,并设计相应的函数作为量化映射关系;然后,采用差分进化算法对函数的参数进行优化,从而得出在该函数下的最优量化方案,最终确定量化函数。仿真实验表明:与已有的量化方法相比,文中设计的非均匀量化方法具有不受量化段数、精度等因素影响的优点;且针对不同的码字,所提方法在高信噪比下均能达到0.05dB左右的性能增益。

一种利用日志划分从复杂日志中挖掘块结构过程的方法

段瑞, 方欢, 詹悦

计算机科学. 2019, 46 (11): 334-339. doi:10.11896/jsjkx.180901710

摘要 ( 431 )

PDF(1544KB) ( 1041 )

参考文献 | 相关文章 | 多维度评价

随着企业的发展,系统产生并记录的日志越来越多,从繁琐复杂的日志中挖掘块结构的过程变得更加具有挑战性。文中提出了纵向划分日志的方法,该方法极大地减少了每个日志划分的实例数,并缩短了每条迹的长度。该方法被用来处理复杂日志,并从中挖掘出精确的模型。日志划分的基础是活动划分。首先,基于行为关联的思想,提出共同变迁的概念,实现相互关联活动的聚集划分。然后,从日志所含共同变迁的数量的角度出发,用相互区别但又相互交错的方法划分活动集,从而实现模块和日志的划分。所提出的模块和日志划分方法可以迭代进行,直到日志划分得足够简单为止。最后,从每个划分后的简单日志中挖掘出一个块结构,通过组合块结构形成合理的整体系统模型,并通过Prom实验验证了所提方法的可行性。