计算机科学

旅游推荐系统研究综述

常亮,曹玉婷,孙文平,张伟涛,陈君同

计算机科学. 2017, 44 (10): 1-6. doi:10.11896/j.issn.1002-137X.2017.10.001

摘要 ( 834 )

PDF(1187KB) ( 3795 )

参考文献 | 相关文章 | 多维度评价

为用户提供个性化推荐服务并提高推荐的准确度和用户满意度,是当前旅游推荐系统的主要研究任务。文中分析了旅游推荐系统与传统推荐系统的异同点,并从基于内容的推荐、基于协同过滤的推荐、基于知识的推荐、基于人口统计的推荐、混和型推荐以及基于位置感知的推荐共6个方面考查了旅游推荐的研究现状。在此基础上,给出了旅游推荐系统的一个总体框架。最后,总结分析了旅游推荐系统面临的6个重点和难点问题,并指出了下一步需要关注的研究方向。

多目标蚁群优化研究综述

刁兴春,刘艺,曹建军,尚玉玲

计算机科学. 2017, 44 (10): 7-13. doi:10.11896/j.issn.1002-137X.2017.10.002

摘要 ( 855 )

PDF(1411KB) ( 2257 )

参考文献 | 相关文章 | 多维度评价

多目标蚁群优化是一类重要的多目标进化算法,它在解决多目标优化问题,尤其是多目标组合优化方面,具有优异的性能。首先,通过总结多目标蚁群优化的研究成果,将多目标蚁群优化分为基于帕累托的方法、基于指标函数的方法和目标分解法3类,并阐述了每类方法的特点和代表性算法;然后,展现了多目标蚁群优化在实际问题中的广泛应用；最后,探讨了目前多目标蚁群优化存在的问题。

基于ARIMA模型的虚拟资源动态调度方法

杨冬菊,邓崇彬

计算机科学. 2017, 44 (10): 14-18. doi:10.11896/j.issn.1002-137X.2017.10.003

摘要 ( 489 )

PDF(1292KB) ( 997 )

参考文献 | 相关文章 | 多维度评价

将应用部署到云端已经成为业界越来越普遍的做法,高并发、大流量已经成为多数云应用的一大特征。如何应对不断增长的高并发和用户流量的激增、合理利用资源、保障应用的稳定运行是云资源管理需要解决的重要问题。针对基于监控数据进行资源调整的方式容易引发资源调整滞后的问题,提出了一种基于ARIMA预测模型进行资源调整的虚拟资源动态调度方法。该方法能够根据预测的请求量,结合当前资源的负载能力来计算所需的资源规模,从而进行虚拟机资源的配置或释放。实验结果表明,所采用的预测模型能够较好地拟合实验的场景,通过使用基于预测模型的资源调度算法能够及时、有效地保证云服务质量。

数据中心虚拟机节能管理机制

朱德剑,白光伟,蔡炎伟,任栋,沈航

计算机科学. 2017, 44 (10): 19-25. doi:10.11896/j.issn.1002-137X.2017.10.004

摘要 ( 519 )

PDF(1331KB) ( 995 )

参考文献 | 相关文章 | 多维度评价

大规模数据中心需要消耗大量的电能,由此带来了高额的运营成本以及环境污染等问题。为了降低数据中心的能耗,在构造了数据中心管理模型的基础上,提出了虚拟机静态安置算法与动态调整算法。虚拟机的动态迁移技术能够有效地降低数据中心能耗,提升资源利用率。然而,过度地迁移虚拟机,会影响应用的运行质量,造成SLA违背。动态调整阶段,采用了动态阈值的方法来控制虚拟机的迁移,降低能耗。最后,利用CloudSim平台进行了大量的模拟实验。实验结果表明,所提出的数据中心虚拟机节能管理机制(EAMVM)能够降低能源消耗,减少虚拟机的迁移次数。

引力波cWB处理流水线的GPU加速

都志辉,林璋熙,顾彦祺,Eric O.LEBIGOT,郭翔宇

计算机科学. 2017, 44 (10): 26-32. doi:10.11896/j.issn.1002-137X.2017.10.005

摘要 ( 530 )

PDF(1417KB) ( 1025 )

参考文献 | 相关文章 | 多维度评价

引力波是爱因斯坦广义相对论的一个重要预言。大爆炸,特别是双黑洞、双中子星等双星系统是理论上最容易探测到的引力波波源。因为可以通过引力波了解这些重大的天体现象,所以对引力波的探测具有十分重要的科学意义。为此, 建造了多个耗费巨资的基于激光干涉原理的引力波观测站(Laser Interferometer Gravitational-Wave Observatory,LIGO),以期能够首次直接探测到引力波。cWB(coherent Wave Burst)是一条能对多个观测站的数据进行实时分析处理的流水线。如何提高cWB程序的计算能力,成为了探测引力波的道路上亟待解决的问题。在分析cWB流水线特点的基础上,找到其性能瓶颈,设计并实现了一种有效的并行方法,在具有很强并行处理能力的GPU硬件上实现了对cWB流水线的加速。实验结果表明,与原来基于SSE优化加速的CPU实现相比,该CPU可以达到至少10倍的加速,这对于实现多个站点引力波信号的实时处理具有重要意义,在实时数据处理技术上为使用高精度的探测设备发现引力波提供了支持。

SBV:基于SVG的生物信息可视化软件

蔡瑞初,林殷娴,艾鹏

计算机科学. 2017, 44 (10): 33-37. doi:10.11896/j.issn.1002-137X.2017.10.006

摘要 ( 900 )

PDF(1550KB) ( 1938 )

参考文献 | 相关文章 | 多维度评价

生物信息可视化是从生物大数据中挖掘有效信息的重要手段。针对生物信息的海量性、可视化效果的精确性、各种可视化需求的多样性等挑战,设计并实现了一款基于SVG矢量图的生物信息可视化软件SBV (SVG for Bioinformatics Visualization)。SBV充分利用了SVG的可伸缩性、DOM和CSS表现形式的可定制性,实现了10余种常用的生物信息用图,可支持现有的大部分生物信息可视化,是一款易于操作的综合型生物信息画图软件。目前该软件已经在Github上开源,为后续开发更多功能奠定了较好的基础。

基于改进的PSO算法的关键蛋白质识别方法研究

洪海燕,刘维

计算机科学. 2017, 44 (10): 38-44. doi:10.11896/j.issn.1002-137X.2017.10.007

摘要 ( 602 )

PDF(1370KB) ( 1077 )

参考文献 | 相关文章 | 多维度评价

关键蛋白质是生物体内维持所有生命活动最重要的物质基础。随着高通量技术的发展,如何从蛋白质相互作用网络中识别出关键蛋白质成为目前蛋白质组学的研究热点。针对大部分现有方法仅仅基于网络拓扑结构信息进行识别以及蛋白质相互作用数据假阳性高的问题,提出了改进的粒子群算法来识别关键蛋白质。通过综合考虑网络拓扑结构特性和多源生物属性信息构建了高质量的加权网络,还考虑使用蛋白质节点间联系的紧密程度来衡量蛋白质的关键性,并扩展局部网络拓扑至二阶邻居,大大提高了预测的准确率。提出了衡量top-p关键蛋白质的整体性指标,降低了计算复杂度。在标准数据集上的实验结果表明,与其他经典算法相比,所提算法更具优势,能够识别出更多的蛋白质,具有较高的准确率。

基于一种改进的LBP算法和超限学习机的肝硬化识别

雷一鸣,赵希梅,王国栋,于可歆

计算机科学. 2017, 44 (10): 45-50. doi:10.11896/j.issn.1002-137X.2017.10.008

摘要 ( 541 )

PDF(1400KB) ( 973 )

参考文献 | 相关文章 | 多维度评价

肝硬化的计算机辅助诊断对肝脏疾病的早期治疗和诊断具有重要意义。针对B超图像中肝硬化病变区域边缘模糊和回声不均匀、尺度因素影响等问题,提出了改进的LBP算法并提取了相应的SLBP特征。该特征较传统的纹理特征更准确地描述了B超图像中肝硬化病变的特征,结合二维Gabor变换,解决了上述难题。鉴于传统的机器学习方法的训练时间较长,采用基于超限学习机的训练方法,并首次将其应用于肝硬化识别。实验结果表明,所提方法对测试集的分类准确率达到95.4%,在时间效率上较传统方法有很大提高。ROC曲线表明,提出的分类方法在准确率和泛化能力上均优于传统方法,有助于肝硬化的临床诊断。

隐蔽脉搏波潮波定位研究

郑刚,范琳琳,孙莹,戴敏

计算机科学. 2017, 44 (10): 51-54. doi:10.11896/j.issn.1002-137X.2017.10.009

摘要 ( 661 )

PDF(1213KB) ( 1269 )

参考文献 | 相关文章 | 多维度评价

中心动脉压的临床医学意义虽大于传统肱动脉和桡动脉血压,但其推算方法一直以来受基于有创伤数据的通用转换函数(General Transform Function,GTF)的建立和桡动脉脉搏波中隐蔽潮波位置的确定的约束。提出利用公开的有创伤中心动脉数据(麻省理工学院医学院的MIMIC重症监护数据,MIT MIMIC),通过傅里叶变换获得GTF,根据中心动脉收缩压数值,结合小波变换,反推脉搏波的隐蔽型潮波位置。研究发现,桡动脉脉搏波经小波sym4和haar变换后,其各自第3阶差值波的最大值后的第6个过零点为隐蔽型潮波位置。实验结果表明,利用所提方法获得隐蔽型潮波位置的识别准确率达到91.11%。

多序列星比对算法的改进及其在Spark中的并行化研究

董改芳,付学良,李宏慧

计算机科学. 2017, 44 (10): 55-58. doi:10.11896/j.issn.1002-137X.2017.10.010

摘要 ( 635 )

PDF(1188KB) ( 1419 )

参考文献 | 相关文章 | 多维度评价

多序列星比对算法在确定中心序列时需要计算任意两个输入序列的距离及分数,其较高的时间复杂度耗费了大量时间,因此提出了通过综合计算每个序列产生的k-mers及各个k-mer在各序列中出现的次数来确定k-mers的拼接选择,由k-mers进行拼接从而得到中心序列。进而,在双序列比对过程中采用搜索两个序列最大相似子串的思想,改进的星比对算法的精度在一定程度上得到了明显提升。接着, 将改进的星比对算法在Spark中进行并行化设计与实现。采用Spark的Yarn-Client运行模式,对正常人线粒体的多组数据进行实验,分析了算法性能上的不足及改进方向。

基于Openstack的高能物理虚拟计算集群系统及应用

黄秋兰,李海波,石京燕,孙震宇,伍文静,程耀东,程振京

计算机科学. 2017, 44 (10): 59-63. doi:10.11896/j.issn.1002-137X.2017.10.011

摘要 ( 724 )

PDF(1223KB) ( 1073 )

参考文献 | 相关文章 | 多维度评价

高能物理计算是典型的高性能计算的应用,运行时需要大量的CPU资源。如果系统的CPU资源利用率不高,会使得计算效率大大下降。传统的高能物理计算环境资源管理是静态的,很难同时满足突发、批处理、CPU密集型、数据密集型等不同类型的作业对于不同的物理资源的需求。文中基于Openstack构建的虚拟计算集群系统,实现以CPU核为粒度进行调度作业,根据当前的作业和虚拟资源情况,动态调度资源,大大提高了资源的利用率。首先介绍本系统的相关研究工作,包括KVM虚拟机的测试优化、高能物理作业在虚拟机上的性能测试及高能物理公共服务云IHEPCloud,这些工作进一步表明了高能物理实验的数据分析在虚拟机上的性能是完全可以被接受的；然后详细介绍了虚拟计算集群系统的设计与实现；最后给出虚拟机计算集群在高能物理计算中的实际应用情况,证明了虚拟计算集群系统能很好地满足高能物理的计算需求。

神威太湖之光上OpenFOAM的移植与优化

孟德龙,文敏华,韦建文,林新华

计算机科学. 2017, 44 (10): 64-70. doi:10.11896/j.issn.1002-137X.2017.10.012

摘要 ( 1047 )

PDF(1372KB) ( 1786 )

参考文献 | 相关文章 | 多维度评价

神威太湖之光是最新一期Top500榜单上排名第一的超级计算机,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。OpenFOAM(Open Source Field Operation and Manipulation)是计算流体力学领域使用最广泛的开源软件包,但是由于其基于C++实现,与神威太湖之光上的异构众核处理器SW26010的编译器不兼容,因此无法直接在该架构上有效运行。基于SW26010的主核/从核的体系架构移植了OpenFOAM的核心计算代码,并采用混合语言编程实现的方式来解决编译不兼容的问题。此外,通过寄存器通信、向量化和双缓冲等优化手段,单核组的性能较优化后的主核代码提高了8.03倍,较Intel(R) Xeon(R) CPU E5-2695 v3的串行执行性能提高了1.18倍。同时,将单核组的实现扩展到了神威太湖之光的大规模集群上,并进行了强可扩展性测试,256个核组上实现了184.9倍的加速。采用的移植方式和优化手段也可以为其他复杂C++程序在神威太湖之光上的应用提供借鉴。

多核/众核平台上推荐算法的实现与性能评估

陈静,方建滨,唐滔,杨灿群

计算机科学. 2017, 44 (10): 71-74. doi:10.11896/j.issn.1002-137X.2017.10.013

摘要 ( 549 )

PDF(1139KB) ( 1109 )

参考文献 | 相关文章 | 多维度评价

用OpenCL语言标准设计并实现了推荐系统领域的两种经典算法:交替最小二乘法(Alternating Least Squares,ALS)与循环坐标下降法(Cyclic Coordinate Descent,CCD)。将其应用到CPU,GPU,MIC多核与众核平台上,探索了在该平台上影响算法性能的因子:潜在特征维数与线程个数。同时,将OpenCL实现的两种算法与CUDA和OpenMP的实现进行比较,得出了一系列结论。在同等条件下,与ALS算法相比,CCD算法的精度更高,收敛速度更快且更稳定,但所耗时间更长。ALS和CCD算法基于OpenCL的实现性能不亚于CUDA(CCD 上加速比为1.03x,ALS上加速比为1.2x)和OpenMP的实现(CCD与ALS上加速比大约为1.6~1.7x),并且两种算法在CPU平台上的性能均比GPU与MIC好。

高能物理环境中混合存储系统的设计与优化

徐琪,程耀东,陈刚

计算机科学. 2017, 44 (10): 75-79. doi:10.11896/j.issn.1002-137X.2017.10.014

摘要 ( 479 )

PDF(1296KB) ( 1193 )

参考文献 | 相关文章 | 多维度评价

高能物理是典型的数据密集型计算环境,数据处理包括模拟计算、重建计算以及物理分析。其中大文件计算占据较大比重,并且高能物理文件访问模式以跳读为主,因此大文件的高速访问成为整个系统性能的重要影响因素。首先剖析传统高能物理计算环境的典型架构及其文件访问模式的特点,介绍混合存储模式在高能物理计算环境中的优势,总结其数据访问方式的特点,对其各种读写方式进行数据测试；然后提出针对该环境的混合存储系统的部署设计和优化,使该环境下的数据读写性能得到明显提高；同时将成本因素考虑到系统设计中,实现了一个低成本高性能的存储系统。测试表明,混合存储系统在高能物理等大数据存储系统中具有高效的I/O性能。文中全面分析了影响其性能的各种因素,实现了最优化配置的低成本高性能混合存储系统,并对该系统的未来发展趋势进行了分析和展望。

星系分组算法的并行设计与优化:SGI系统与分布式集群对比

司雨濛,韦建文,Simon SEE,林新华

计算机科学. 2017, 44 (10): 80-84. doi:10.11896/j.issn.1002-137X.2017.10.015

摘要 ( 653 )

PDF(1209KB) ( 1097 )

参考文献 | 相关文章 | 多维度评价

Halo-based Galaxy Group Finder (HGGF) 是一种有效的星系分组算法,它根据星系的空间位置、红移、质量等多种属性将星系分组,从而为星系组的形成与演化研究提供重要依据。但是,算法当前的OpenMP实现版本仅能利用单节点提供的资源,在大规模星系分组问题上的应用受到限制。一种优化思路是采用多机并行,使其可以利用更多资源来解决更大规模的星系分组问题,并缩短执行时间。因此,有必要对算法重新进行设计与实现。实现此目标的一大挑战是程序中存在大量半随机性远端内存访问,其在多机并行环境下会对性能造成重大影响。为克服这一难题,设计中提出了邻接星系链表思想,并采用Unified Parallel C (UPC)进行程序实现。对于核代码部分,使用4,8,16节点时,可分别取得2.25,2.78,5.07倍的加速比；同时,对单个节点的内存需求也显著减少。OpenMP版本在SGI UV 2000上的实验结果显示,受限于程序的访存特性与机器体系架构的特点,类似HGGF算法这种具有随机数据访问特征的程序,很难有效利用NUMA结构的共享内存系统中提供的大规模线程与内存资源来直接取得高加速比。在分布式内存集群上采用两级并行设计,以更好地利用局部性原理,可能是更好的解决方案。

大型高能物理计算集群资源管理方法的评测

孙震宇,石京燕,姜晓巍,邹佳恒,杜然

计算机科学. 2017, 44 (10): 85-90. doi:10.11896/j.issn.1002-137X.2017.10.016

摘要 ( 633 )

PDF(1272KB) ( 2071 )

参考文献 | 相关文章 | 多维度评价

高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下。SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案。在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性。

CRH2型动车组列车信息传输网络流量建模与预测

葛诗春,刘雄飞,周锋

计算机科学. 2017, 44 (10): 91-95. doi:10.11896/j.issn.1002-137X.2017.10.017

摘要 ( 666 )

PDF(1410KB) ( 988 )

参考文献 | 相关文章 | 多维度评价

针对CRH2型动车组列车网络流量数据日益复杂的特性,提出了一种将主成分分析法(PCA)与后馈神经网络(BP网络)相结合的网络流量建模预测思路。基于已搭建好的CRH2型列车通信仿真平台,对该仿真网络各条链路进行流量采集。为了降低分析的复杂度,流量数据先进行PCA降维预处理分析,再将数据输入到BP神经预测网络模型进行仿真预测。经验证,该思路能有效拟合列车主体网络流量的变化趋势,为CRH2型动车组通信网络的故障诊断分析提供了一定的参考。

一种改进的加权网络链接预测方法

陈旭,陈可佳

计算机科学. 2017, 44 (10): 96-98. doi:10.11896/j.issn.1002-137X.2017.10.018

摘要 ( 472 )

PDF(1175KB) ( 1187 )

参考文献 | 相关文章 | 多维度评价

目前,复杂网络的链接挖掘问题已得到了广泛研究,而加权网络的相关研究还较少且结果不甚理想。鉴于此,提出一种新的针对加权网络的链接预测方法,对以往方法中的加权相似性度量进行改造。新方法主要基于这一假定:链接xz为强关系而链接zy为弱关系时,链路〈x,z,y〉对节点x和 y之间形成链接的贡献最低。因此,新方法中链接xz为强关系而链接zy为弱关系时,链路〈x,z,y〉对节点x和节点y之间的相似性得分S(x,y)的贡献度的削弱程度最大。在带权网络数据集USAir和NetScience上的比较实验表明,新方法在AUC指标上具有一定的优势。

基于无网格压缩感知的DOA估计算法

张星航,郭艳,李宁,孙保明

计算机科学. 2017, 44 (10): 99-102. doi:10.11896/j.issn.1002-137X.2017.10.019

摘要 ( 753 )

PDF(1346KB) ( 1244 )

参考文献 | 相关文章 | 多维度评价

应用传统的压缩感知理论对天线阵列信号的波达方向(Direction-of-arrival,DOA) 进行估计,存在基的失配问题。基于交替方向乘子法 (Alternative Direction Method of Multiplier,ADMM) 的无网格压缩感知(Grid-less Compressive Sensing) 技术能够解决该问题,但仍存在收敛速度慢的缺陷。针对该缺陷, 提出带自适应惩罚项的ADMM (ADMM with adaptive penalty,AP-ADMM)算法,即根据输入信号的噪声功率,自适应地选择惩罚项的初始值；同时在算法迭代求解的过程中,自适应地对目标函数的惩罚项进行调整。与传统算法相比,在保证收敛精度和DOA的恢复成功概率的条件下,带自适应惩罚项的ADMM算法收敛速率明显加快。仿真结果验证了新算法的有效性。

基于信誉机制的认知Ad hoc网络分簇协作频谱感知

齐全,王可人,杜奕航

计算机科学. 2017, 44 (10): 103-108. doi:10.11896/j.issn.1002-137X.2017.10.020

摘要 ( 617 )

PDF(1464KB) ( 910 )

参考文献 | 相关文章 | 多维度评价

为了提高认知Ad hoc网络频谱感知的准确率,并抵抗可能存在的SSDF攻击,提出一种基于信誉机制的认知Ad hoc网络分簇协作频谱感知方法。首先,引入检测因子来描述节点的感知能力,采用基于公平性的分簇方法将SU分为不同的簇；然后,对簇内SU设定初始信誉值,并根据感知结果对信誉值进行更新；最后,采用检测因子判决机制对感知数据进行融合,并计算得出漏检概率与虚警概率上界。仿真结果表明,所提方法能有效识别恶意次用户和抵御频谱感知数据伪造攻击,同时具有较小的虚警概率、漏检概率和较好的容错能力。

基于粒子群算法的无线信道资源分配算法研究

王晓楠,巨永锋,高婷,张福泉

计算机科学. 2017, 44 (10): 109-112. doi:10.11896/j.issn.1002-137X.2017.10.021

摘要 ( 716 )

PDF(1296KB) ( 1020 )

参考文献 | 相关文章 | 多维度评价

为了最大化多媒体无线信道资源分配的网络效用,提出了一种新的基于粒子群算法的信道时间分配算法。该算法能够优化分配给网络内每个设备的时间,以便为每位网络用户提供最优化的服务质量(QoS)。所提算法结合了多样性增加函数以及基于个体最优值的学习方法,并基于自适应粒子群算法进行了改进,在持续增强QoS的同时加快了收敛速度。在多达40个设备的千兆网络环境内对所提算法进行了测试。实验结果表明,提出的算法能够大大提升资源分配能力,尤其是在网络规模较大的情况下。

城市车载自组织网络中带有冲突估计的节点转发策略

胡长俊,袁树杰

计算机科学. 2017, 44 (10): 113-116. doi:10.11896/j.issn.1002-137X.2017.10.022

摘要 ( 472 )

PDF(1222KB) ( 925 )

参考文献 | 相关文章 | 多维度评价

针对目前城市环境中车载自组织网络车辆节点分布不均衡引起的消息传递冲突率高、传递效率低、路由可靠性差等问题,在IF(Irresponsible Forwarding)算法的基础上提出一种带有冲突估计的节点转发策略(NFCE算法)。收到消息的车辆节点首先确定自身的转发冲突概率,在不超过一定门限值的条件下,再根据节点的密度、通信半径大小以及到源节点的距离来确定自己的转发概率,最终概率大的节点优先转发消息。仿真结果表明,相比于其他算法,NFCE算法降低了节点传递冲突率,其路由有更高的效率和可靠性,特别在车辆密度较大时NFCE算法有明显的优势,更适合应用在城市环境中。

车载自组织网络基于簇的协作MAC协议研究

叶翔,章国安,金喜龙,陈峰

计算机科学. 2017, 44 (10): 117-121. doi:10.11896/j.issn.1002-137X.2017.10.023

摘要 ( 475 )

PDF(1334KB) ( 1030 )

参考文献 | 相关文章 | 多维度评价

随着无线通信技术的发展,车载自组织网络(Vehicular Ad Hoc Network,VANET)已经成为一个新型的研究领域。针对VANET中车辆行驶的特征以及车辆间安全信息传输严格的时延限制和高可靠性要求,提出了一种基于簇的协作MAC(CCB-MAC)协议用于安全信息的传输。当在广播期间节点没有接收到安全信息时,被选择的辅助节点重传先前侦听到的安全信息到目的节点,并且重传是在未被预留的时隙中进行的,这将不会中断正常的传输。数值分析和仿真结果表明,CCB-MAC明显提高了安全信息传输成功的概率,降低了传输时延和丢包率。

复杂网络中节点暂态中心性预测研究

童林萍,徐守志,周欢,蒋廷耀

计算机科学. 2017, 44 (10): 122-126. doi:10.11896/j.issn.1002-137X.2017.10.024

摘要 ( 648 )

PDF(1293KB) ( 887 )

参考文献 | 相关文章 | 多维度评价

对复杂网络中节点的3种暂态中心性进行了预测研究。通过在真实数据集中分析节点不同时刻的暂态中心性值发现,不同时刻节点的暂态中心性具有很强的相关性。基于此,提出几种预测方法对真实数据集中节点未来的暂态中心性值进行预测。通过对真实值与预测值进行误差分析,比较了不同预测方法在不同真实数据中的预测性能。结果表明,在MIT数据集中,最近时窗加权平均方法的性能最好；在Infocom 06数据集中,最近时窗平均方法的性能最好。

基于Android平台的隐私泄漏静态检测工具的分析与比较

燕季薇,李明素,卢琼,严俊,高红雨

计算机科学. 2017, 44 (10): 127-133. doi:10.11896/j.issn.1002-137X.2017.10.025

摘要 ( 657 )

PDF(1245KB) ( 1616 )

参考文献 | 相关文章 | 多维度评价

近年来,Android平台应用程序的隐私泄漏问题受到越来越多的关注。应用程序恶意获取用户隐私信息将会增加智能手机用户的隐私泄漏风险,针对该问题,国内外研究人员研究并提出了多种Android平台应用程序的隐私泄漏检测工具。对9种Android平台应用程序的隐私泄漏静态检测工具进行了分析与比较,总结了这些静态检测工具的检测对象、检测方法、能够检测的错误类型和检测效果,并为两种开源工具FlowDroid和IccTA设计了相关实验,以检验其性能及检测效果。针对50个下载的应用程序,FlowDroid成功检测出9个应用存在隐私泄漏,IccTA成功检测到7个组件间泄漏；针对12个自主设计的测试集,FlowDroid和IccTA都成功检测出其中涉及的多种隐私泄漏。

Xen混合多策略模型的设计与形式化验证

祝现威,朱智强,孙磊

计算机科学. 2017, 44 (10): 134-141. doi:10.11896/j.issn.1002-137X.2017.10.026

摘要 ( 496 )

PDF(1393KB) ( 1860 )

参考文献 | 相关文章 | 多维度评价

Xen作为一种虚拟化工具因开源、高效等特点而受到越来越多的关注。作为Xen安全的基础,XSM决定了其安全性。原生XSM没有对系统资源进行安全分级,并且以虚拟机为管理对象使得Dom0作为一个唯一管理域不符合最小特权,文中设计了一种混合多策略模型SV_HMPMD。在该模型中,针对BLP引入多级安全标签,从而增加BLP的实用性,并通过DTE和RBAC对特权进行更细致的划分,从而对Dom0特权进行合理限制。提出了一种分层模型,利用该模型对混合模型进行形式化的描述。运用系统不变量构造访问规则的安全属性需求,通过Isabelle/HOL对模型设计与安全需求的一致性进行验证。

基于伪ID的RFID认证协议及串空间证明

徐扬,苑津莎,高会生,胡晓宇,赵振兵

计算机科学. 2017, 44 (10): 142-146. doi:10.11896/j.issn.1002-137X.2017.10.027

摘要 ( 495 )

PDF(1351KB) ( 918 )

参考文献 | 相关文章 | 多维度评价

安全有效的认证协议是对RFID系统安全的有力保障,适宜的形式化分析方法能为RFID认证协议提供有效的证明。设计了基于伪ID的RFID认证协议,伪ID由标签ID、标签认证数值和随机数产生。标签ID不出现在协议执行过程中,减少了系统遭受攻击的可能性。协议通过标签ID、标签认证值和随机数的Hash运算实现认证。利用串空间模型对协议进行形式化分析,建立认证协议的串空间模型丛图,证明了协议的保密性和匿名性。通过分析常规的基于Hash函数的认证协议的性能可知,该协议在使用较低运算成本的情况下可以抵抗多种攻击,并能够完成标签和读写器之间的双向认证。

用不可能差分法分析12轮ESF算法

高红杰,卫宏儒

计算机科学. 2017, 44 (10): 147-149. doi:10.11896/j.issn.1002-137X.2017.10.028

摘要 ( 823 )

PDF(1248KB) ( 1072 )

参考文献 | 相关文章 | 多维度评价

轻量级分组密码算法ESF是一种具有广义Feistel结构的32轮迭代型分组密码,轮函数具有SPN结构,分组长度为64比特,密钥长度为80比特。为了研究ESF算法抵抗不可能差分攻击的能力,基于一条8轮不可能差分路径,根据轮密钥之间的关系,通过向前增加2轮、向后增加2轮的方式,对12轮ESF算法进行了攻击。计算结果表明,攻击12轮ESF算法所需的数据复杂度为O(2⁵³),时间复杂度为O(260.43),由此说明12轮的ESF算法对不可能差分密码分析是不免疫的。

基于混合流策略的按需分布式云信息流控制模型

杜远志,杜学绘,杨智

计算机科学. 2017, 44 (10): 150-158. doi:10.11896/j.issn.1002-137X.2017.10.029

摘要 ( 488 )

PDF(1621KB) ( 864 )

参考文献 | 相关文章 | 多维度评价

为确保云平台上虚拟机系统用户信息的安全,提出了一种基于混合流策略的按需分布式云信息流控制模型(Mixed Flow Policy Based On-demand Distributed Cloud Information Flow Control Model,MDIFC)。该模型以分布式信息流控制模型为基础,结合中国墙策略形成混合流策略,通过引入污点传播思想跟踪来敏感数据以实现策略,为用户数据提供更好的安全保障。为提高模型的灵活性,考虑到虚拟域行为更具主动性的特征,提出了“按需受控”的概念及与之相适应的“输出型机密性”。同时,通过按需受控显著地降低了污点传播造成的开销。利用π演算对模型规格进行形式化描述,并借助 PicNic工具证明模型的无干扰性。最后,通过一个应用示例说明了模型的实用性。

DWNAF:带门限的动态窗口的NAF标量乘法

史量,徐明

计算机科学. 2017, 44 (10): 159-164. doi:10.11896/j.issn.1002-137X.2017.10.030

摘要 ( 509 )

PDF(1297KB) ( 1163 )

参考文献 | 相关文章 | 多维度评价

为了提高水声信道传输数据的安全性,针对非对称加密对节点性能要求较高的问题,提出了一种带门限的动态窗口的NAF标量乘法(DWNAF)。该方法通过“门限” 对经典的窗口法的窗口大小进行动态控制,优化了预处理过程,有效降低了预计算和标量乘计算的开销。实验表明,在预计算量相同的情况下,DWNAF的点加次数仅为RWNAF的25%。在安全性方面,DWNAF采用窗口法、平衡能量法与masking方法相结合的方式,能有效抵御SPA,DPA及其变种RPA和ZPA等常见的边信道攻击。

基于Bully算法的Redis集群选举方案优化

王芬,顾乃杰,黄增士

计算机科学. 2017, 44 (10): 165-170. doi:10.11896/j.issn.1002-137X.2017.10.031

摘要 ( 574 )

PDF(1299KB) ( 1241 )

参考文献 | 相关文章 | 多维度评价

随着互联网的迅速发展,用户从系统获取的信息越来越多,访问系统的频率也在迅速增加。当大量客户端访问系统时,请求的响应时间也会大幅增加,传统关系型数据库已经无法满足用户的需求,而内存数据库在保证系统稳定的前提下,改善了用户体验,并得到了越来越广泛的应用。作为NoSQL内存数据库,Redis支持很多数据类型,适用于多种情况下的缓存与存储需求。文中主要介绍Redis集群,它是Redis的分布式实现,支持主从复制,也具有一定的容错性和线性可扩展性,当前使用Redis集群的网站有新浪微博、github等。虽然 Redis集群应用广泛,但目前它在节点下线后会出现恢复时间长的现象,这与现有Redis集群的选举算法有关,即与Raft算法的实现有关。分析了Redis集群的可靠性,并优化了集群的选举算法。测试结果显示,在单个主节点下线50s内,优化后的集群都能成功恢复,比社区版本的集群提高了40%。

虚拟旅游中海量3D点云数据的细节层次索引技术研究

赵尔平,党红恩,刘炜

计算机科学. 2017, 44 (10): 171-176. doi:10.11896/j.issn.1002-137X.2017.10.032

摘要 ( 469 )

PDF(1278KB) ( 915 )

参考文献 | 相关文章 | 多维度评价

虚拟旅游中的3D点云数据特别庞大,批量索引成为了当今的研究热点。许多索引树存在兄弟结点空间区域重叠、不能实现细节层次索引、索引效率低等问题。为此,将点数据反射强度和细节层次技术引入R树,在改进R树的基础上提出LODR树。建树前,将点云数据进行排序、分组、去除空间重叠等预处理。树的每层设有不同反射强度阈值,把叶结点中满足阈值条件的索引记录沿父-祖父-曾祖父的家谱关系上移,并插入对应的非叶结点,利用该方法创建细节层次索引树。利用反射强度控制数据冗余,棱锥裁剪技术实现查询优化。实验结果表明,LODR树在细节层次索引、查询效率等方面具有明显优势。

无线传感器网络中基于聚簇结构的Skyline查询方法

李青,肖迎元,王晓晔,李玉坤

计算机科学. 2017, 44 (10): 177-181. doi:10.11896/j.issn.1002-137X.2017.10.033

摘要 ( 606 )

PDF(1253KB) ( 908 )

参考文献 | 相关文章 | 多维度评价

现有的基于单服务器的Skyline查询算法已经不能很好地应用于无线传感器网络这类分布式多跳自组织网络中。基于聚簇结构的Skyline查询算法就是针对这类特定的网络结构而提出的。该算法采用基于聚簇的路由结构,为了减少Skyline查询处理过程中传感器节点的通信开销,挑选具有最大支配力的数据元组作为全局过滤元组来过滤不满足Skyline条件的数据。同时,在Skyline查询处理过程中引入滑动窗口机制,该机制也能有效地降低通信开销。大量的仿真实验结果显示,所提Skyline查询算法在确保能耗的基础上仍然具有很好的性能。

基于码本聚类和因子分解机的多指标推荐算法

丁永刚,李石君,余伟,王俊

计算机科学. 2017, 44 (10): 182-186. doi:10.11896/j.issn.1002-137X.2017.10.034

摘要 ( 467 )

PDF(1286KB) ( 942 )

参考文献 | 相关文章 | 多维度评价

传统的协同过滤推荐算法普遍存在数据稀疏问题,且仅利用单一综合评分来计算用户相似度,无法找到在多个指标上偏好相似的用户,因而影响推荐的准确度。多指标评分推荐算法力图寻找在多个指标上偏好相似的用户,但是其评价成本高,导致数据稀疏性问题更加严重。为了找到与目标用户在多个指标上偏好相似的用户,提出基于码本聚类的思想来获取用户在各指标上的评分风格信息,然后基于评分风格信息将用户和项目在各指标上进行双向聚类,最后利用因子分解机模型(Factorization Machines,FMs)基于同一簇内的用户、项目、多指标评分信息、评分风格信息进行推荐。实验结果表明,与传统的协同过滤算法和其他多指标推荐方法相比,基于多指标评分信息的因子分解机推荐算法能够在一定程度上缓解数据稀疏问题,提高推荐的准确度。

基于密度调整和流形距离的近邻传播算法

夏春梦,倪志伟,倪丽萍,张霖

计算机科学. 2017, 44 (10): 187-192. doi:10.11896/j.issn.1002-137X.2017.10.035

摘要 ( 596 )

PDF(1425KB) ( 1083 )

参考文献 | 相关文章 | 多维度评价

针对近邻传播聚类算法在构造相似度矩阵时因对多重尺度和任意形状数据敏感而聚类效果不理想的缺陷,提出一种基于密度调整和流形距离的近邻传播算法。该算法将“领域密度”和“流形理论”的思想引入近邻传播算法,利用基于密度调整和流形的距离更好地刻画了样本空间的真实分布状况,解决了相似度矩阵不能充分表示数据之间内在关系的问题,在一定程度上提高了近邻传播聚类算法的聚类效果。通过在人工数据集和标准数据集上进行实验对比,验证了算法的有效性和优越性。

基于多信息源的股价趋势预测

饶东宁,邓福栋,蒋志华

计算机科学. 2017, 44 (10): 193-202. doi:10.11896/j.issn.1002-137X.2017.10.036

摘要 ( 601 )

PDF(1705KB) ( 1511 )

参考文献 | 相关文章 | 多维度评价

股票价格及趋势预测是金融智能研究的热门话题。一直以来,各种各样的信息源被不断尝试用于股价预测,例如基本经济特征、技术指标、网络舆情、财务公告、财政新闻、金融研报等。然而,此类研究大多数只使用一种或两种信息源,使用3种及以上信息源的极为少见。信息源越多意味着能够提供更加丰富的信息内容和更多不同的信息层面。但是由于各种信源的本质不同,其对股票市场的影响程度不同,因此将多种信源融合起来进行股价预测并非易事。此外,多信源也增加了维度灾难的风险。基于信息融合的目的,尝试同时利用基本经济特征、技术指标、网络舆情3种信息源来进行股价预测。具体做法:先对不同类型的信息源数据进行针对性的处理,使其形成统一的数据集,然后使用SVM分类器建立预测模型。实验结果表明,在选用线性核函数和考虑非交易日数据时,使用这3种信源组合的预测模型的预测效果要比使用单一信源或者两两组合的预测效果好。此外,在收集数据时发现,在非交易日(例如周末或停牌期)虽没有买卖但网络舆情剧增。因此,在实验数据中添加了非交易日的舆情情感数据,分类精准度有所提高。研究结果表明,基于多信源融合的股价预测虽然困难,但是在适当地选择特征和针对性地进行数据预处理后会有较好的预测效果。

基于动态函数连接神经网络的自适应逆控制系统辨识研究

虎涛涛,康波,单要楠

计算机科学. 2017, 44 (10): 203-208. doi:10.11896/j.issn.1002-137X.2017.10.037

摘要 ( 556 )

PDF(1389KB) ( 926 )

参考文献 | 相关文章 | 多维度评价

自适应逆控制将系统扰动消除和动态响应性能独立分开控制,其性能的优劣取决于系统对象、逆对象及逆控制器模型辨识精度的高低。文中提出用动态函数连接神经网络来实现自适应逆控制系统对象、逆对象的同时在线建模和逆控制器的离线建模,并将模型参数的辨识转化为空间参数寻优。针对混沌初始化对已收敛种群结构的破坏性,提出用变参数混沌粒子群优化算法对神经网络权值进行全局寻优,通过仿真实验可以看出基于动态函数连接神经网络的建模误差小,辨识精度高；与当前的参考模型自适应控制方法进行对比分析,所提方法能取得较好的扰动消除效果,并能使系统的跟踪响应性能得到提高,从而验证了方法的有效性、可行性。

城市交通过饱和状态下干线信号的多目标仿真优化研究

高光,赵新灿,王黎明

计算机科学. 2017, 44 (10): 209-215. doi:10.11896/j.issn.1002-137X.2017.10.038

摘要 ( 426 )

PDF(1569KB) ( 1201 )

参考文献 | 相关文章 | 多维度评价

针对城市交通过饱和状态下的干线信号优化问题,分析了交通控制目标对车辆排队的影响,提出以绿信比、相序、相位差和周期为优化参数,以车辆平均时延、系统平均排队-车道长度比和系统通行能力为优化目标的交通信号仿真优化模型。构建了优化模型的实施框架,该框架采用自主构建的微观交通仿真环境来获取信号方案评价指标,改进多目标优化算法NSGAII中的重复个体问题,完成对干线各交叉口信号配时方案的同时优化。最后,利用采集的交通数据对由3个交叉口组成的干线进行实例验证,验证结果表明,在过饱和状态下,所提出的信号优化方法不仅可以有效控制车辆排队长度,均衡车辆分布,同时在系统通行能力、车均时延方面表现更佳。

基于模拟退火的自适应水波优化算法

王万良,陈超,李笠,李伟琨

计算机科学. 2017, 44 (10): 216-221. doi:10.11896/j.issn.1002-137X.2017.10.039

摘要 ( 561 )

PDF(1364KB) ( 1018 )

参考文献 | 相关文章 | 多维度评价

水波优化算法(Water Wave Optimization,WWO)是一种基于浅水波理论的新兴智能优化算法。在简化水波优化算法(Simplified Water Wave Optimization,SimWWO)的基础上,提出水波优化算法的一个改进版本。针对WWO算法在寻优过程中未能有效利用水波历史状态和经验的问题,提出一种自适应的参数调整策略:根据水波进化过程中的性能改善指标自适应调整算法的波长系数,提高搜索效率；同时,针对算法后期容易陷入局部最优的情况,加入模拟退火的思想,以一定的概率接受劣质解,避免算法陷入局部最优。通过以上两个操作可以更好地平衡全局搜索和局部搜索。在CEC 2015函数测试集上进行比较,结果证明改进后的算法有效地提高了综合性能。

多分支的降水量概率预测模型研究

余霖,吕鑫,周思琪,刘璇

计算机科学. 2017, 44 (10): 222-227. doi:10.11896/j.issn.1002-137X.2017.10.040

摘要 ( 450 )

PDF(1331KB) ( 1207 )

参考文献 | 相关文章 | 多维度评价

降水量大小对水资源调度决策、防汛防旱预警等方面有着决定性作用。目前已有大量降水量预测模型被提出,但其由于缺乏对降水过程非线性性态的考虑,因此预测准确度不高。另外,单独的预测值难以对决策判断形成有效支持,使预测结果的应用性不好。针对上述问题,基于降水量的平稳性及周期性,构建了同比分支及环比分支预测模型,进而提出了一种多分支的降水量概率预测模型MBPPFM。该模型采用十字交叉选择算法,精细化筛选同比、环比分支预测结果,提高了预测准确性,并能避免异常预测。同时,预测结果包括区间概率和结果置信度,能有效支持决策形成。

基于深度置信网络的维吾尔语人称代词待消解项识别

秦越,禹龙,田生伟,赵建国,冯冠军

计算机科学. 2017, 44 (10): 228-233. doi:10.11896/j.issn.1002-137X.2017.10.041

摘要 ( 538 )

PDF(1298KB) ( 1092 )

参考文献 | 相关文章 | 多维度评价

针对维吾尔语人称代词指代消解研究忽略了待消解项识别而引入了噪声的问题,提出一种基于深度置信网络(Deep Belief Networks,DBN)的维吾尔语人称代词待消解项识别方法。在分析维吾尔语人称代词语法特征和语言规则的基础上,总结出包含10项特征的维吾尔语人称代词待消解项特征集。所提方法首先通过逐层贪婪地训练每一层受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)网络,来保证特征向量映射到不同的特征空间,尽可能多地保留特征信息；并在最后一层设置BP网络,对RBM输出的特征向量进行分类,以有监督的方式训练整个网络并进行微调。实验结果表明,所提方法正确识别维吾尔语人称代词待消解项的准确率达到95.17%,比SVM算法提高了9%,从而验证了其有效性和可行性。

元搜索中成员搜索引擎的选择问题研究

刘登洪,徐贤

计算机科学. 2017, 44 (10): 234-236. doi:10.11896/j.issn.1002-137X.2017.10.042

摘要 ( 602 )

PDF(1164KB) ( 875 )

参考文献 | 相关文章 | 多维度评价

随着网络的普及,网上检索成为了人们获取信息的主要方式。目前的搜索引擎相对独立,覆盖范围比较有限。相比之下,元搜索能够更好地满足用户的检索需求。当用户在元搜索提供的统一界面中输入一个查询时,元搜索会将处理后的用户请求发送给相关的成员搜索引擎。但是一个重要的问题是如何识别出潜在的搜索引擎以便更好地处理用户的请求。鉴于此提出了一种基于遗传算法的选择机制,该方法将各个成员搜索引擎的权重考虑在内。实验结果表明,该方法确实能够提高引擎选择中的效率和精度。

生态金字塔粒子群优化算法

刘亚红,张玮,樊吕彬

计算机科学. 2017, 44 (10): 237-244. doi:10.11896/j.issn.1002-137X.2017.10.043

摘要 ( 451 )

PDF(1512KB) ( 985 )

参考文献 | 相关文章 | 多维度评价

为解决粒子群优化算法在处理高维复杂函数时容易陷入局部最优和早熟收敛的问题,提出生态金字塔粒子群优化算法(EP-PSO)。该算法引入生态金字塔系统,使粒子在搜索空间分等级、分子群寻优,有效增加了群体多样性；为增强算法的全局搜索能力,对处于停滞状态的个体极值和全局极值进行动态变异,以达到扩大种群潜在搜索空间的效果。选择15个测试函数验证算法的有效性,结果表明EP-PSO有着良好的寻优性能,能够得到较高精度解,具有较高的效率和可信度。

业务流程模型抽象中最优子流程数的确定

孙善武,王楠

计算机科学. 2017, 44 (10): 245-248. doi:10.11896/j.issn.1002-137X.2017.10.044

摘要 ( 483 )

PDF(1252KB) ( 901 )

参考文献 | 相关文章 | 多维度评价

根据业务流程模型的特征,基于笔者前期工作中给出的两个不同约束条件下的受限k-means行为聚类算法,提出确定最优子流程数的方法。基于对流程结构的假设,同时结合行为语义的经验阈值限定,给出了确定子流程数恰当上限值的方法,以达到减少循环次数的目的。根据k值的变化,分别基于子流程结构紧密性特征和流程结构树,在循环过程中设计增量式方法 ,对簇中心进行简便的递增；设计合理的有效性指标,对抽象结果模型进行评估,进而生成最佳子流程数；利用真实的流程模型库对设计的方法进行实验验证,得到的最优子流程数与人工设计的结果非常接近。

基于卷积神经网络的中文医疗弱监督关系抽取

刘凯,符海东,邹玉薇,顾进广

计算机科学. 2017, 44 (10): 249-253. doi:10.11896/j.issn.1002-137X.2017.10.045

摘要 ( 766 )

PDF(1176KB) ( 1054 )

参考文献 | 相关文章 | 多维度评价

随着医疗领域受到越来越多的关注,自然语言处理的理论和应用逐渐拓展到该领域,其中信息抽取技术在该领域的应用成为研究热点。针对信息抽取技术在医疗领域实体关系抽取中的应用,提出一种基于卷积神经网络的弱监督关系抽取方法。该方法通过添加人工规则使训练语料带有实体关系标签,然后将该弱关系训练语料转换为向量特征矩阵,并输入到卷积神经网络进行分类模型训练,最终实现实体关系抽取。实验结果表明,该方法比常规机器学习方法更加准确高效。

基于主题模型和情感分析的垃圾评论识别方法研究

金相宏,李琳,钟珞

计算机科学. 2017, 44 (10): 254-258. doi:10.11896/j.issn.1002-137X.2017.10.046

摘要 ( 614 )

PDF(1172KB) ( 1167 )

参考文献 | 相关文章 | 多维度评价

随着电子商务的飞速发展,网络购物越来越被消费者认同,而随之产生的产品评论给消费者的购买决策带来了影响。产品评论是指用户在购物站点上对商品的评价信息,而经过分析和研究发现这些评论中充斥着大量的垃圾评论,因此垃圾评论的识别成了电子商务在提高服务质量的过程中需解决的重要问题之一。根据垃圾评论的主要特点提出LDA-SP(LDA-Sentiment Polarity)垃圾评论识别方法。首先利用LDA主题模型过滤出内容型垃圾评论,然后结合情感分析识别出欺骗型垃圾评论。对网络商城的大量评论数据进行准确度分析实验的结果表明,LDA-SP方法的识别准确度高于传统的LDA主题模型和单一的情感极性分析方法,能够有效地检测垃圾评论,从而使产品评论信息更加客观准确,为电子商务用户提供了有效的参考信息。

语料预处理对蒙古文-汉文统计机器翻译的影响

李金廷,侯宏旭,武静,王洪彬,樊文婷

计算机科学. 2017, 44 (10): 259-264. doi:10.11896/j.issn.1002-137X.2017.10.047

摘要 ( 673 )

PDF(1145KB) ( 985 )

参考文献 | 相关文章 | 多维度评价

传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息。蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量。因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量。通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点。

二值矩阵分解的认知建模方法研究

张猛,付丽华,何婷婷,杨青

计算机科学. 2017, 44 (10): 265-268. doi:10.11896/j.issn.1002-137X.2017.10.048

摘要 ( 442 )

PDF(1207KB) ( 1149 )

参考文献 | 相关文章 | 多维度评价

根据考试反馈数据,提出新颖的逻辑斯提克二值矩阵分解方法,来预测未来的学生考试成绩并自动对考题进行模式分类,同时设计新的算法对建模中遇到的非凸优化问题进行求解。在模拟数据和真实的美国SAT考试数据上进行的实验发现,新方法不仅可以准确地预测学生的考试表现,而且能够将考题按照知识点进行自动模式分类。实验结果表明, 新的方法相比经典方法在结果的可解释性和估计精度方面有明显的提升。

基于发车时刻表的单线公交组合调度模型

王洋,沈记全

计算机科学. 2017, 44 (10): 269-275. doi:10.11896/j.issn.1002-137X.2017.10.049

摘要 ( 704 )

PDF(1439KB) ( 1129 )

参考文献 | 相关文章 | 多维度评价

针对目前全程车和大站快车的单线公交组合调度模型中对乘客的分类及滞站乘客乘车处理方法的不足,分3个步骤对模型进行了补充:首先,系统地探讨了乘客的构成及转化关系,并基于滞站乘客等车数、滞站原因及目的站距离提出一种处理滞站乘客乘车的方法,并以此方法计算滞站乘客等车的时间成本;其次,通过发车车型、模式和间隔的变量组合构建发车时刻表,进而以此表的信息为基础推算运营时刻表的各项变量,从而计算出公交服务各项指标及乘客和车辆的相关成本;最后,根据问题特征,应用最大最小蚁群系统算法求解模型。结合实例,对比分析了给定配车数和限定时间段内4种调度策略的发车时刻表最优解及相应最优解的公交服务指标和相关成本。实验结果表明,采用间隔不定的组合调度策略能够使车辆均衡分配站点客流,最大限度地降低乘客的时间成本及车辆耗燃成本。

基于词频统计规律的文本数据预处理方法

池云仙,赵书良,罗燕,高琳,赵骏鹏,李超

计算机科学. 2017, 44 (10): 276-282. doi:10.11896/j.issn.1002-137X.2017.10.050

摘要 ( 703 )

PDF(1634KB) ( 1471 )

参考文献 | 相关文章 | 多维度评价

在大数据时代,文本挖掘面临特征的“高维-稀疏”问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式；然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达 2/3；最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。

基于特征扩展与深度学习的短文本情感判定方法

杜永萍,陈守钦,赵晓铮

计算机科学. 2017, 44 (10): 283-288. doi:10.11896/j.issn.1002-137X.2017.10.051

摘要 ( 492 )

PDF(1492KB) ( 990 )

参考文献 | 相关文章 | 多维度评价

针对中文短文本信息量少、特征稀疏等特点,面向微博短文本进行情感分类研究,为了更好地提取短文本情感特征,从评论转发等上下文内容中挖掘具有语义递进关系的语料对原文本进行扩展,并抽取具有潜在感情色彩的特征词,采用Word2vec计算词语相似度以进行候选特征词扩展,最后引入深度信念网络(Deep Belief Network,DBN)对候选特征词进行深度自适应学习。在COAE(Chinese Opinion Analysis Evaluation)2015任务评测数据集上的实验表明,该方法能够有效地缓解短文本特征稀疏问题,并且能够较为准确地挖掘情感特征,提高情感分类的准确率。

基于标记权重的多标记特征选择算法

林梦雷,刘景华,王晨曦,林耀进

计算机科学. 2017, 44 (10): 289-295. doi:10.11896/j.issn.1002-137X.2017.10.052

摘要 ( 725 )

PDF(1591KB) ( 1192 )

参考文献 | 相关文章 | 多维度评价

在多标记学习中,特征选择是解决多标记数据高维性的有效手段。每个标记对样本的可分性程度不同,这可能会为多标记学习提供一定的信息。基于这一假设,提出了一种基于标记权重的多标记特征选择算法。该算法首先利用样本在整个特征空间的分类间隔对标记进行加权,然后将特征在整个标记集合下对样本的可区分性作为特征权重,以此衡量特征对标记集合的重要性。最后,根据特征权重对特征进行降序排列,从而得到一组新的特征排序。在6个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记特征选择算法。

基于语义相似度的情感特征向量提取方法

林江豪,周咏梅,阳爱民,陈锦

计算机科学. 2017, 44 (10): 296-301. doi:10.11896/j.issn.1002-137X.2017.10.053

摘要 ( 492 )

PDF(1378KB) ( 1312 )

参考文献 | 相关文章 | 多维度评价

针对现有情感特征在语义表达和领域拓展等方面的不足,提出了一种基于语义相似度的情感特征向量提取方法。利用25万篇sogou新闻语料和50万条微博语料,训练得到Word2vec模型；选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集；通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感近义词和反义词相似度分析、情感词极性分类和文本情感分析任务中,实验结果表明Senti2vec能实现情感词的语义表示和情感表示。基于大规模语料的语义相似计算,使得提取的情感特征更具有领域拓展性。

一种用于农作物叶部病害图像识别的双权重协同表示分类方法

杜海顺,蒋曼曼,王娟,王胜

计算机科学. 2017, 44 (10): 302-306. doi:10.11896/j.issn.1002-137X.2017.10.054

摘要 ( 746 )

PDF(1418KB) ( 1028 )

参考文献 | 相关文章 | 多维度评价

农作物病害是我国主要的农业灾害之一,准确识别病害类型是防治农作物病害的关键。因此,首先采集了小麦、玉米、花生、棉花4种农作物的22种常见叶部病害的441张图像；然后,在对每张病害图像中的叶片和病斑进行分割的基础上,分别提取了描述农作物种类的叶片特征参数和描述病害类型的病斑特征参数；其次,将这两类特征参数组合并作归一化处理,得到病害图像的数据特征向量；再次,采用所有病害图像的数据特征向量,构建了一个农作物叶部病害数据集；最后,在同时考虑数据特征重要性和数据空间局部性的基础上,提出了一种双权重协同表示分类(DWCRC)方法并将其用于农作物叶部病害识别。在农作物叶部病害数据集上的实验结果表明,提出的双权重协同表示分类方法在用于农作物叶部病害识别时具有较高的识别率。

交互标记跟踪的三维动态数据对齐

潘翔,林俊勉,王学成,刘志,周小龙

计算机科学. 2017, 44 (10): 307-311. doi:10.11896/j.issn.1002-137X.2017.10.055

摘要 ( 596 )

PDF(1387KB) ( 907 )

参考文献 | 相关文章 | 多维度评价

针对三维动态数据特征点匹配所导致的错误对齐问题,采用交互标记和运动跟踪来提高特征点匹配的可靠性和稳定性。首先,对三维动态数据特定帧交互标定特征点；然后,通过运动跟踪和最优预测窗口得到标定特征点在其他帧上的位置；最后,以跟踪匹配的特征点为约束条件来构造等距二分图,得到三维动态数据紧密对齐结果。实验结果表明,所提算法的对齐准确率高于已有算法。

基于压缩域编码长度的视频显著性检测

张兆丰,吴泽民,杜麟,胡磊

计算机科学. 2017, 44 (10): 312-317. doi:10.11896/j.issn.1002-137X.2017.10.056

摘要 ( 399 )

PDF(1438KB) ( 965 )

参考文献 | 相关文章 | 多维度评价

生物学研究表明,人会明显地注意视频中的运动目标。为模拟该特性并快速完成视频显著图的计算,提出一种压缩域时空显著度检测方法(Temporal-Spatial Saliency in Compress Domain model,TS2CD)。分别利用H.264视频中对宏块的残差编码长度和运动矢量编码长度模拟人眼的显著性刺激强度,从而得到视频显著特征。通过线性的加权融合算法,综合两种编码长度得到的空域显著图和时域显著图,得到最终的视频显著图。在3个公开的数据库上的实验表明,TS2CD算法是当前性能最优的方法。

资源稀缺蒙语语音识别研究

张爱英,倪崇嘉

计算机科学. 2017, 44 (10): 318-322. doi:10.11896/j.issn.1002-137X.2017.10.057

摘要 ( 446 )

PDF(1254KB) ( 1071 )

参考文献 | 相关文章 | 多维度评价

随着语音识别技术的发展,资源稀缺语言的语音识别系统的研究吸引了更广泛的关注。以蒙语为目标识别语言,研究了在资源稀缺的情况下(如仅有10小时的带标注的语音)如何利用其他多语言信息提高识别系统的性能。借助基于多语言深度神经网络的跨语言迁移学习和基于多语言深度Bottleneck神经网络的抽取特征可以获得更具有区分度的声学模型。通过搜索引擎以及网络爬虫的定向抓取获得大量的网页数据,有助于获得文本数据,以增强语言模型的性能。融合多个不同识别结果以进一步提高识别精度。与基线系统相比,多种系统融合的识别绝对错误率减少12%。