1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2018年第1期, 刊出日期:2018-01-15
  
综述
数据科学研究的现状与趋势
朝乐门,邢春晓,张勇
计算机科学. 2018, 45 (1): 1-13.  doi:10.11896/j.issn.1002-137X.2018.01.001
摘要 ( 731 )   PDF(3414KB) ( 833 )   
参考文献 | 相关文章 | 多维度评价
大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。然后,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。
面向环境感知的无线传感网络路由方法综述
董海俊,韦素媛,刘兴成,齐小刚,刘立芳,范英盛
计算机科学. 2018, 45 (1): 14-23.  doi:10.11896/j.issn.1002-137X.2018.01.002
摘要 ( 313 )   PDF(4115KB) ( 994 )   
参考文献 | 相关文章 | 多维度评价
路由传输与数据聚合是无线传感器网络中 的两个重要方面,有着广泛的应用。网络的多样性 导致没有普适的路由算法与数据聚合方案,因此对二者进行总结很有必要。对无线传感器网络中的路由方法与数据聚合进行了总结。首先,介绍了典型的无线传感器网络路由方法;其次,面向多类传感器描述了不同的数据聚合与路由方法;然后,阐述了一维传感器网络中的数据收集与路由方法;最后,总结了相关的研究方向和发展趋势。
个性化视频情感内容分析:综述
张立刚,张九龙
计算机科学. 2018, 45 (1): 24-28.  doi:10.11896/j.issn.1002-137X.2018.01.003
摘要 ( 395 )   PDF(1029KB) ( 914 )   
参考文献 | 相关文章 | 多维度评价
个性化视频情感内容分析是近几年兴起的一个研究热点,其目的是基于视频用户的个人兴趣和爱好来向其推荐个性化的视频内容。然而,当前仍然缺乏对该研究方向的最新研究进展的综述和讨论。为解决此问题,从3个方面对该领域的研究成果进行论述,讨论了各类现有方法的优缺点、存在的问题和挑战,并对未来的研究方向提出一些思路和建议。
2017年度国家自然科学基金计算机学科项目资助情况分析
孟志鑫,邢星,楚涵婷,贾志淳
计算机科学. 2018, 45 (1): 29-33.  doi:10.11896/j.issn.1002-137X.2018.01.004
摘要 ( 283 )   PDF(6857KB) ( 637 )   
参考文献 | 相关文章 | 多维度评价
文中统计了2017年国家自然科学基金计算机学科面上项目、青年项目、地区项目、重点项目、海外港澳项目、优秀青年项目的资助情况,分析总结了计算机学科资助重点项目的研究特点,为该领域研究人员的自然科学基金项目申请提供了参考。
CRSSC-CWI-CGrC-3WD 2017
一种多强度攻击下的对抗逃避攻击集成学习算法
刘晓琴,王婕婷,钱宇华,王笑月
计算机科学. 2018, 45 (1): 34-38.  doi:10.11896/j.issn.1002-137X.2018.01.005
摘要 ( 662 )   PDF(5110KB) ( 673 )   
参考文献 | 相关文章 | 多维度评价
在对抗性学习中,攻击者在非法目的的驱使下,通过探索分类器的漏洞并利用漏洞,使得恶意样本逃过分类器的检测。目前,对抗性学习已被广泛应用于计算机网络中的入侵检测、垃圾邮件过滤和生物识别等领域。现有研究者仅把现有的集成方法应用在对抗性分类中,并证明了多分类器比单分类器更鲁棒。然而,在对抗性学习中,攻击者的先验信息对分类器的鲁棒性有较大的影响。基于此,通过在学习过程中模拟不同强度的攻击,并增大错分样本的权重,提出的 多强度攻击下的对抗逃避攻击集成学习算法 可以在保持多分类器准确性的同时提高鲁棒性。将其与Bagging集成的多分类器进行比较,结果表明所提算法 具有更强的鲁棒性。最后,分析了算法的收敛性以及参数对算法的影响。
基于Lasso算法的中文情感混合特征选择方法研究
李燕,卫志华,徐凯
计算机科学. 2018, 45 (1): 39-46.  doi:10.11896/j.issn.1002-137X.2018.01.006
摘要 ( 605 )   PDF(6865KB) ( 884 )   
参考文献 | 相关文章 | 多维度评价
中文情感分析中的一个重要问题就是情感倾向分类,情感特征选择是基于机器学习的情感倾向分类的前提和基础,其作用在于通过剔除无关或冗余的特征来降低特征集的维数。提出一种将Lasso算法与过滤式特征选择方法相结合的情感混合特征选择方法:先利用Lasso惩罚回归算法对原始特征集合进行筛选,得出冗余度较低的情感分类特征子集;再对特征子集引入CHI,MI,IG等过滤方法来评价候选特征词与文本类别的依赖性权重,并据此剔除候选特征词中相关性较低的特征词;最终,在使用高斯核函数的SVM分类器上对比所提方法与DF,MI,IG和CHI在不同特征词数量下的分类效果。在微博短文本语料库上进行了实验,结果表明所提算法具有有效性和高效性;并且在特征子集维数小于样本数量时,提出的混合方法相比DF,MI,IG和CHI的特征选择效果都有一定程度的改善;通过对比识别率和查全率可以发现,Lasso-MI方法相比MI以及其他过滤方法更为有效。
专家权重完全未知的区间直觉不确定语言多属性群决策方法
庞继芳,宋鹏
计算机科学. 2018, 45 (1): 47-54.  doi:10.11896/j.issn.1002-137X.2018.01.007
摘要 ( 374 )   PDF(1103KB) ( 563 )   
参考文献 | 相关文章 | 多维度评价
针对专家权重信息完全未知且属性值为区间直觉不确定语言数的模糊多属性群决策问题,提出一种基于混合权重信息及决策者风险态度的群决策分析方法。在定义区间直觉不确定语言数差异度的基础上,分别利用专家在方案评价值上的贴近度以及方案排序上的一致度来计算两类专家权重,并基于均衡度得到专家的客观综合权重。进而通过融合专家客观综合权重以及基于相似度的个体综合评价值权重,提出一种混合加权集结方法,从而得到方案的群体综合评价值,并通过定义带有风险态度因子的期望值与精确函数实现对方案的比较和排序。最后,通过实例分析证明所提方法的有效性和合理性。
基于Nystrm采样和凸NMF的偏好聚类
杨美姣,刘惊雷
计算机科学. 2018, 45 (1): 55-61.  doi:10.11896/j.issn.1002-137X.2018.01.008
摘要 ( 281 )   PDF(7023KB) ( 711 )   
参考文献 | 相关文章 | 多维度评价
大规模的稀疏图数据在现实中大量出现,例如协同图、拉普拉斯矩阵等。非负矩阵分解(NMF)已经成为数据挖掘、信息检索和信号处理的一个非常重要的工具。随着数据量的不断增大,如何实现大规模数据的偏好聚类是一个重要的问题。采用两阶段的方法来实现大规模的偏好聚类,即首先利用Nystrm的近似采样方法,从大数据上获得数据的初始轮廓,获得部分用户-用户相似矩阵或电影-电影相似矩阵,从而可以将原始的高维空间降低到一个低维子空间;然后通过对低维相似矩阵进行凸的非负矩阵分解,从而得到聚类的中心和指示器,聚类的中心表示电影或用户的特征,指示器表示用户或电影特征的权重。该两阶段偏好聚类方法的优点是,初始数据轮廓的近似获取以及凸的非负矩阵分解,使得该方法具有较好的鲁棒性和抗噪性;另外,子空间的数据来源于真实的矩阵行列数据,使得偏好聚类结果具有良好的可解释性。采用Nystrm方法解决了大规模的数据无法在内存中存储的问题,从而大大节省了内存,提高了运行效率。最后在含有100000条电影的数据集上进行偏好聚类,结果表明了该聚类算法的有效性。
基于动态邻域的三支聚类分析
王平心,刘强,杨习贝,米据生
计算机科学. 2018, 45 (1): 62-66.  doi:10.11896/j.issn.1002-137X.2018.01.009
摘要 ( 349 )   PDF(4799KB) ( 850 )   
参考文献 | 相关文章 | 多维度评价
目前,大多数聚类方法是二支聚类,即对象要么属于一个类,要么不属于一个类,聚类的结果必须具有清晰的边界。然而,将某些不确定的对象强制分配到某个类中将降低聚类结果的结构和精度。三支聚类是一种重叠聚类,它采用核心域和边界域来表示每个类别,较好地处理了具有不确定性对象的聚类问题。提出了一种使用样本邻域将二支聚类转化为三支聚类的方法。该方法利用二支聚类的结果和每个类中元素的邻域是否完全包含在该类中来对集合进行收缩,同时利用不在该类中的元素的邻域是否与该类有交集来进行扩张。收缩的区域称为核心域,扩张域和核心域的差集称为边界域。在UCI数据集上的实验结果显示,该方法在提高聚类结果的结构和F1值方面有较好的效果。
结合词向量和Bootstrapping的领域实体上下位关系获取与组织
马晓军,郭剑毅,线岩团,毛存礼,严馨,余正涛
计算机科学. 2018, 45 (1): 67-72.  doi:10.11896/j.issn.1002-137X.2018.01.010
摘要 ( 317 )   PDF(1289KB) ( 887 )   
参考文献 | 相关文章 | 多维度评价
实体上下位关系是构建领域知识图谱不可或缺的一种重要的语义关系,传统抽取上下位关系的方法大多不考虑关系的组织。提出一种结合词向量和Bootstrapping的方法来实现领域实体上下位关系的获取与组织。首先,选取旅游领域的种子语料集;然后,采用基于词向量的相似度计算方法对种子集中包含的上下位关系模式进行聚类,筛选出置信度高的模式并对未标注语料进行上下位关系识别,得到候选关系实例,同时选择置信度高的关系实例加入到种子集中,进行下一轮的迭代,直到得到所有的关系实例;最后,根据领域实体上下位关系对的向量偏移并结合领域实体层级关系的特点,采用映射的学习方法进行领域实体层级关系组织。实验结果表明,与传统的方法相比,所提方法的F值提高了近10%。
基于单边区间集概念格的不完备形式背景的属性约简
王振,魏玲
计算机科学. 2018, 45 (1): 73-78.  doi:10.11896/j.issn.1002-137X.2018.01.011
摘要 ( 418 )   PDF(2084KB) ( 588 )   
参考文献 | 相关文章 | 多维度评价
单边区间集概念的提出为不完备形式背景的数据分析奠定了理论基础,也为研究其属性约简提供了思路。首先给出了不完备形式背景上的4种约简,即保持单边区间集概念格结构不变的约简、保持并(交)不可约元外延不变的约简与保持对象单边区间集概念外延不变的约简,并研究了它们的关系,最后给出了基于差别矩阵与差别函数计算约简的方法。
串行概率粗糙集近似
马建敏,姚红娟,潘笑晨
计算机科学. 2018, 45 (1): 79-83.  doi:10.11896/j.issn.1002-137X.2018.01.012
摘要 ( 235 )   PDF(949KB) ( 593 )   
参考文献 | 相关文章 | 多维度评价
经典的概率粗糙集模型是基于等价关系和条件概率提出的。但在实际应用中,知识库存在多种不确定性因素,使得对象间的关系未必满足等价关系。因此在保证条件概率有意义的情况下,将等价关系推广到串行二元关系,讨论了串行关系下的概率粗糙集近似;研究了当目标概念发生变化时,串行概率粗糙下、上近似的性质;进一步,通过调整两个阈值,给出了对应的串行概率粗糙下、上近似的变化趋势。
概念格中基于粗糙熵的属性约简方法
李美争,李磊军,米据生,解滨
计算机科学. 2018, 45 (1): 84-89.  doi:10.11896/j.issn.1002-137X.2018.01.013
摘要 ( 465 )   PDF(1082KB) ( 648 )   
参考文献 | 相关文章 | 多维度评价
属性约简是概念格理论的研究重点内容之一。通过将粗糙熵引入概念格理论中,定义了一种粗糙熵约简。首先,基于所有概念外延定义了形式背景的粗糙熵,并分析了它的性质;其次,定义了形式背景的粗糙熵约简,并揭示了粗糙熵约简与概念格约简之间的关系;在此基础上,基于属性重要度设计了计算粗糙熵的启发式算法,并通过实验验证了该算法的有效性。
基于协同过滤的三支粒推荐算法研究
叶晓庆,刘盾,梁德翠
计算机科学. 2018, 45 (1): 90-96.  doi:10.11896/j.issn.1002-137X.2018.01.014
摘要 ( 248 )   PDF(3340KB) ( 747 )   
参考文献 | 相关文章 | 多维度评价
为了降低传统协同过滤算法的推荐成本,并解决该算法评分信息单一的问题,提出了一种基于协同过滤的三支粒推荐算法。该算法在传统协同过滤的基础上,考虑项目特征对用户评分的影响,根据项目特征、粒化用户项目评分矩阵,形成用户对项目粒度的评分矩阵,并以此作为用户偏好的测度依据。同时,该算法在推荐过程中引入三支决策,考虑了推荐过程中产生的误分类成本和学习成本,并基于用户真实的评分偏好构建三支推荐。实验结果显示,基于协同过滤的三支粒推荐算法与传统协同过滤算法相比,不但提高了算法的推荐质量,而且降低了推荐成本。
基于Spark的点排序识别聚类结构算法
瞿原,邓维斌,胡峰,张其龙,王鸿
计算机科学. 2018, 45 (1): 97-102.  doi:10.11896/j.issn.1002-137X.2018.01.015
摘要 ( 285 )   PDF(3970KB) ( 666 )   
参考文献 | 相关文章 | 多维度评价
点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。
带弱通配符的模式匹配及其在时序分析中的应用
檀朝东,闵帆,吴霄,李欣伦
计算机科学. 2018, 45 (1): 103-107.  doi:10.11896/j.issn.1002-137X.2018.01.016
摘要 ( 250 )   PDF(1136KB) ( 662 )   
参考文献 | 相关文章 | 多维度评价
针对模式匹配的准确性和灵活性问题,提出了一种基于弱通配符的匹配算法,以快速定位重要的时间点,辅助用户决策。首先通过数据预处理得到编码字符串序列,然后定义具有特殊语义的弱通配符及区间长度,最后设计一种高效的模式匹配算法。在时序分析中,模式反映了数据的变化趋势,预示着事件的发生。传统的精确匹配受噪声的影响比较大,匹配的灵活性低。通过添加弱通配符可以兼顾匹配过程的灵活性和准确性。油田产量与股票交易数据实验表明,所提方法较精确匹配而言,能够更有效地找到符合用户要求的模式。
多李群覆盖学习优化算法
吴鲁辉,李凡长,张莉
计算机科学. 2018, 45 (1): 108-112.  doi:10.11896/j.issn.1002-137X.2018.01.017
摘要 ( 357 )   PDF(5200KB) ( 787 )   
参考文献 | 相关文章 | 多维度评价
目前,已针对李群多连通空间上的道路交叉问题提出了多李群核覆盖学习算法,降低了道路交叉情况,使得分类正确率有了显著提高。但是,核学习算法的性能依赖于核函数的选择。考虑利用李群同态映射将原始李群样本映射到目标李群空间中,使在目标李群空间中不同单连通空间上的道路的关联度最小化,同一单连通空间上的道路的关联度最大化,从而减少道路交叉问题。
对象更新环境下的多粒度决策系统的最优粒度选择
铁文彦,范敏,李金海
计算机科学. 2018, 45 (1): 113-117.  doi:10.11896/j.issn.1002-137X.2018.01.018
摘要 ( 221 )   PDF(1004KB) ( 525 )   
参考文献 | 相关文章 | 多维度评价
多粒度决策系统是一类重要的关系数据库,最优粒度选择是研究多粒度决策系统的主要目的之一。讨论了对象更新环境下的多粒度决策系统的最优粒度选择。首先,介绍了多粒度信息系统和多粒度决策系统;然后,引入了广义决策函数,并利用此函数定义多粒度决策系统的协调性和最优粒度;最后,讨论了对象更新环境下不同协调性的多粒度决策系统的最优粒度的变化规律。
基于等价关系的完全确定时序逻辑电路状态化简算法
尚奥,裴晓鹏,吕迎春,陈泽华
计算机科学. 2018, 45 (1): 118-121.  doi:10.11896/j.issn.1002-137X.2018.01.019
摘要 ( 319 )   PDF(897KB) ( 573 )   
参考文献 | 相关文章 | 多维度评价
完全确定时序逻辑电路状态化简是指找到并合并逻辑电路中的等价状态,进而简化电路,提高电路安全性,节约硬件电路成本。电路状态化简的关键是依据等价关系找到电路中的最大状态等价类集合。针对此类问题,提出了一种基于等价关系构建状态转移系统矩阵进行状态化简的算法,并将粒计算理论中的分层粒化思想用于最大等价类集合的求取过程中。在定义输出矩阵和次态矩阵的基础上,根据输出矩阵对原始状态进行初级等价类的划分与标记,可以得到初态标记矩阵和次态标记矩阵,然后构建状态转移系统矩阵。利用等价关系将状态转移系统矩阵中相同的列进行合并,则完成一次对原始状态最大等价类的划分。根据迭代原则,等价类粒子由粗到细,直到分类不再改变时便得到最终的最大状态等价类集合。最后进行状态合并,得到最小化状态表。算法分析表明,该算法简单、准确、有效。
基于改进的灰色模型的旅游需求预测研究
李瑶,曹菡,马晶
计算机科学. 2018, 45 (1): 122-127.  doi:10.11896/j.issn.1002-137X.2018.01.020
摘要 ( 270 )   PDF(4798KB) ( 914 )   
参考文献 | 相关文章 | 多维度评价
针对海南省旅游需求预测问题,对传统的灰马尔科夫模型进行改进,提出了一种动态优化子集模糊灰马尔科夫预测模型。该模型首先根据GM(1,1)模型预测结果的平均绝对误差百分比,通过输入子集法来确定最优输入子集个数;然后利用模糊集理论,将计算出的隶属度向量作为马尔科夫转移矩阵向量的权重,以修正预测值。为了能够根据时间推移进行预测,建立了等维递补的动态预测模型。实验以海南省各市县旅游饭店接待情况为例,验证了该模型可以有效地提高预测数据的准确性。
第十六届中国机器学习会议
基于领域本体的文本分割方法研究
刘耀,帅远华,龚幸伟,黄毅
计算机科学. 2018, 45 (1): 128-132.  doi:10.11896/j.issn.1002-137X.2018.01.021
摘要 ( 429 )   PDF(1030KB) ( 529 )   
参考文献 | 相关文章 | 多维度评价
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。
加权模糊粗糙约简
范星奇,李雪峰,赵素云,陈红,李翠平
计算机科学. 2018, 45 (1): 133-139.  doi:10.11896/j.issn.1002-137X.2018.01.022
摘要 ( 325 )   PDF(3298KB) ( 599 )   
参考文献 | 相关文章 | 多维度评价
基于模糊粗糙集的传统约简算法的时间代价较高,在处理大规模数据时耗时过长,且在许多实际大规模数据集上存在有限时间内无法收敛等问题。因此将权重引入属性约简的定义中,其中属性权重是属性重要度的数值指标。通过构建优化问题来求解属性权重,证明了属性依赖度即是属性权重的最优解。因此,提出了基于属性权重排序的约简算法,从而大大提升了约简的速度,使得约简算法可以应用于大规模数据集,特别是高维数据集中。
双人博弈问题中的蒙特卡洛树搜索算法的改进
季辉,丁泽军
计算机科学. 2018, 45 (1): 140-143.  doi:10.11896/j.issn.1002-137X.2018.01.023
摘要 ( 696 )   PDF(7598KB) ( 2078 )   
参考文献 | 相关文章 | 多维度评价
蒙特卡洛树搜索(MCTS)是一种针对决策类博弈游戏,运用蒙特卡洛模拟方法进行评估博弈策略的启发式搜索算法。但是,在面对计算机围棋这种复杂的决策过程时,简单的蒙特卡洛树搜索过程往往由于计算量大,收敛速度非常慢。 由于双人博弈游戏中的蒙特卡洛树搜索不能收敛于双人博弈的最佳决策策略,因此提出蒙特卡洛树搜索结合极大极小值算法的改进算法,使得搜索结果不会因为蒙特卡洛方法的随机性而失真。为了进一步提高复杂双人博弈游戏中搜索算法的计算效率,还结合了几种常见的剪枝策略。实验结果说明,所提算法显著改进了蒙特卡洛树搜索的准确性和效率。
基于分类的中文文本摘要方法
庞超,尹传环
计算机科学. 2018, 45 (1): 144-147.  doi:10.11896/j.issn.1002-137X.2018.01.024
摘要 ( 424 )   PDF(5192KB) ( 723 )   
参考文献 | 相关文章 | 多维度评价
自动文本摘要是自然语言处理领域中一项重要的研究内容,根据实现方式的不同其分为摘录式和理解式,其中理解式文摘是基于不同的形式对原始文档的中心内容和概念的重新表示,生成的文摘中的词语无需与原始文档相同。提出了一种基于分类的理解式文摘模型。该模型将基于递归神经网络的编码-解码结构与分类结构相结合,并充分利用监督信息,从而获得更多的摘要特性;通过在编码-解码结构中使用注意力机制,模型能更精确地获取原文的中心内容。模型的两部分可以同时在大数据集下进行训练优化,训练过程简单且有效。所提模型表现出了优异的自动摘要性能。
带偏好度量的直觉模糊序决策信息系统的部分一致约简
林冰雁,徐伟华,杨倩
计算机科学. 2018, 45 (1): 148-151.  doi:10.11896/j.issn.1002-137X.2018.01.025
摘要 ( 278 )   PDF(967KB) ( 554 )   
参考文献 | 相关文章 | 多维度评价
现实生活中,不同的需求导致许多信息系统的属性值是基于直觉模糊数的。针对这一现象,在加权得分函数的基础上建立了一种直觉模糊序关系,并给出了不协调带偏好度量的直觉模糊序决策信息系统。进一步,在该复杂系统中引入了部分一致函数,并通过部分一致可辨识矩阵研究求解部分一致约简的方法。最后,通过案例分析验证了该方法的可行性与有效性。
基于集成卷积神经网络的人脸年龄分类算法研究
马文娟,董红斌
计算机科学. 2018, 45 (1): 152-156.  doi:10.11896/j.issn.1002-137X.2018.01.026
摘要 ( 259 )   PDF(3308KB) ( 592 )   
参考文献 | 相关文章 | 多维度评价
人脸年龄估计由于在人机交互和安全控制等领域有潜在应用,因此得到了广泛关注。文中主要进行人脸年龄分组的研究,针对人脸年龄分类问题提出了一种基于集成卷积神经网络的年龄分类算法。首先,训练两个以人脸图像为输入的卷积神经网络,当用卷积神经网络直接提取人脸图像的特征时,主要对 深度的全局特征 进行提取。为了补充人脸图像的局部特征,尤其是纹理信息,将提取的LBP(Local Binary Pattern)特征作为另一个网络的输入。最后,为了结合人脸的全局特征和局部特征,将这3个网络进行集成。该算法在广泛使用的年龄分类数据集Group上取得了不错的效果。
一种用于构建用户画像的二级融合算法框架
李恒超,林鸿飞,杨亮,徐博,魏晓聪,张绍武,古丽孜热·艾尼外
计算机科学. 2018, 45 (1): 157-161.  doi:10.11896/j.issn.1002-137X.2018.01.027
摘要 ( 394 )   PDF(7280KB) ( 713 )   
参考文献 | 相关文章 | 多维度评价
用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”。基于用户的查询词历史记录,提出一种用于预测用户多维标签的二级融合算法框架。在第一级模型中,分别在各个标签预测子任务上建立多种模型,使用传统机器学习方法与Trigram特征相结合来抽取用户用词习惯的差异,使用doc2vec浅层神经网络模型来抽取查询词的语义关联信息,使用卷积神经网络模型来抽取查询词之间的深层语义关联信息。实验表明,doc2vec在处理用户查询这样的短文本相关任务时有着相对较好的预测准确性。在第二级模型中,针对用户画像这样的多标签预测任务,使用XGBTree模型及Stacking多模型相融合的方法提取出用户各标签属性之间的关联信息,使得平均预测准确率进一步提高了2%左右。在2016年中国计算机学会(CCF)组织的大数据竞赛《大数据精准营销中搜狗用户画像挖掘》中,所提二级融合算法框架在894支队伍中夺得了冠军。
多输入卷积神经网络肺结节检测方法研究
赵鹏飞,赵涓涓,强彦,王峰智,赵文婷
计算机科学. 2018, 45 (1): 162-166.  doi:10.11896/j.issn.1002-137X.2018.01.028
摘要 ( 313 )   PDF(3676KB) ( 691 )   
参考文献 | 相关文章 | 多维度评价
针对传统计算机辅助诊断系统中肺部结节检出过程复杂,检出结果依赖于分类前期每个步骤的性能,以及存在假阳性率高的问题,提出了一种基于卷积神经网络的端到端的肺结节检测方法。该方法首先使用大量带标签的肺结节数据对构建的多输入卷积神经网络进行训练,实现从原始数据到语义标签的有监督学习。然后采用快速边缘检测方法和二维高斯概率密度函数构建候选区域模板,从待检测CT序列中获取候选区域并将其作为多输入卷积神经网络的输入数据。最后采用判定阈值实现疑似肺结节区域标注,同时在相邻的CT影像中进行重点检测。在LIDC-IDRI数据集上的大量实验结果表明,所提方法在肺部CT影像中对微、小结节的检出率较高;同时,重点检测模板能够小幅降低微、小结节检测的假阳率。
基于多分类器加权投票法的越南语组合歧义消歧
李佳,郭剑毅,刘艳超,余正涛,线岩团,阮氏青娥
计算机科学. 2018, 45 (1): 167-172.  doi:10.11896/j.issn.1002-137X.2018.01.029
摘要 ( 364 )   PDF(3634KB) ( 635 )   
参考文献 | 相关文章 | 多维度评价
组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段;其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果;最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。
一种基于邻域粗糙集的多标记专属特征选择方法
孙林,潘俊方,张霄雨,王伟,徐久成
计算机科学. 2018, 45 (1): 173-178.  doi:10.11896/j.issn.1002-137X.2018.01.030
摘要 ( 252 )   PDF(974KB) ( 610 )   
参考文献 | 相关文章 | 多维度评价
在多标记学习中,数据降维是一项重要且具有挑战性的任务,而特征选择又是一种高效的数据降维技术。在邻域粗糙集理论的基础上提出一种多标记专属特征选择方法,该方法从理论上确保了所得到的专属特征与相应标记具有较强的相关性,进而改善了约简效果。首先,该方法运用粗糙集理论的约简算法来减少冗余属性,在保持分类能力不变的情况下获得标记的专属特征;然后,在邻域精确度和邻域粗糙度概念的基础上,重新定义了基于邻域粗糙集的依赖度与重要度的计算方法,探讨了该模型的相关性质;最后,构建了一种基于邻域粗糙集的多标记专属特征选择模型,实现了多标记分类任务的特征选择算法。在多个公开的数据集上进行仿真实验,结果表明了该算法是有效的。
一种用于构建用户画像的多视角融合框架
费鹏,林鸿飞,杨亮,徐博,古丽孜热·艾尼外
计算机科学. 2018, 45 (1): 179-182.  doi:10.11896/j.issn.1002-137X.2018.01.031
摘要 ( 354 )   PDF(5618KB) ( 1041 )   
参考文献 | 相关文章 | 多维度评价
电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、缴费、欠费等电力服务具有强烈反应。快速定位电费敏感客户,对降低客户投诉率、提升客户满意度、树立供电企业良好的服务形象具有重要的作用。基于电网用户数据,提出了一种用于构建用户画像的多视角融合框架,该框架能够快速、准确地识别出电费敏感客户。首先,对电网用户进行了分析研究,利用双通道对不同特性的用户分别建模预测;其次,提出了多种特征萃取方法,用于构建用户多源特征体系;最后,为了充分利用多源特征,进一步提出了基于双层Xgboost的多视角融合模型。该框架在2016CCF大数据与计算智能大赛“客户画像”竞赛中获得了F1值为0.90379(第一名)的成绩,其有效性得到了验证。
网络与通信
基于关键节点的域内路由保护算法
耿海军,施新刚,王之梁,尹霞,尹少平
计算机科学. 2018, 45 (1): 183-187.  doi:10.11896/j.issn.1002-137X.2018.01.032
摘要 ( 338 )   PDF(3421KB) ( 602 )   
参考文献 | 相关文章 | 多维度评价
随着互联网规模的膨胀,大量的实时应用部署在互联网上,这些实时应用对网络时延提出了更加严格的要求。然而,目前互联网部署的域内路由协议无法满足实时应用对网络时延的要求,因此提高域内路由可用性成为了一项亟待解决的关键性科学问题。学术界和工业界提出利用路由保护方案来提高路由可用性,从而减少由于网络故障造成的网络中断和报文丢失。已有的路由保护方案将网络中的节点同等对待,没有考虑节点在网络中的重要程度,然而实际情况并非如此。因此,提出了一种基于关键节点的域内路由保护算法(Intra-domain Routing Protection Algorithm Based on Critical Nodes,RPBCN)。首先,建立路由可用性模型,以定量衡量路由可用性;其次,建立节点关键度模型,以定量衡量网络中节点的重要程度;最后,基于路由可用性模型和节点关键度模型,提出基于关键节点的域内路由保护方案。实验结果表明,RPBCN在保证路由可用性的前提下极大地降低了算法的计算开销,从而为ISP解决路由可用性问题提供了一种全新的高效解决方案。
基于时空相关性的多签到数据匹配算法
张晨,李志,朱红松,孙利民
计算机科学. 2018, 45 (1): 188-195.  doi:10.11896/j.issn.1002-137X.2018.01.033
摘要 ( 259 )   PDF(5949KB) ( 634 )   
参考文献 | 相关文章 | 多维度评价
智能产品往往具有标识其唯一性的标签,如公交卡编号、Wi-Fi设备MAC地址等,设备标签以及其使用的时间、地点信息构成了代表人们离散轨迹的签到数据。研究人员针对单种签到数据开展了多方面的研究,但单种签到数据通常比较稀疏,其适应性和性能等受到限制。为此,研究了新的多签到数据问题,提出了一种基于多签到数据的标签匹配算法MIMA,丰富了签到数据,提高了应用性能。该算法首先基于单人多签到数据具有的时空相关性,通过计算多个标签之间的正负关系构建面向多标签的符号网络;在此基础上,摒弃了不适用于签到数据符号网络的分割条件,并通过增加权值分布密度来改进已有FEC(Finding and Extracting Communities from singed social networks)社区发现算法的分割机制,以适应签到数据符号网络的特性,实现多标签的划分。模拟仿真和真实数据的实验均显示MIMA算法具有较好的时间复杂效率和精度。
全局负载均衡下云环境中的大数据动态迁移方法
章勇,张洁卉,柳斌
计算机科学. 2018, 45 (1): 196-199.  doi:10.11896/j.issn.1002-137X.2018.01.034
摘要 ( 284 )   PDF(4715KB) ( 552 )   
参考文献 | 相关文章 | 多维度评价
在云环境中,数据负载均衡化速度较慢且易出现数据倾斜,这严重干扰了系统状态。为了减小数据迁移的代价,提出一种在全局负载均衡下云环境中的大数据动态迁移方法。首先构造负载均衡模型,在均衡负载下计算数据迁移成本,并给出最小数据迁移成本模型。计算数据迁移成本并评估虚拟机数据负载资源利用率,从而使数据重载的服务器转移到数据轻载的服务器上,达到云环境中的数据均衡化。仿真实验结果证明,所提方法提高了数据负载的均衡化速度和均衡效率,降低了数据迁移成本,且提高了资源利用率。
基于邻近序列的IP地址地理定位方法
郭立轩,卓子寒,何跃鹰,李强,李舟军
计算机科学. 2018, 45 (1): 200-204.  doi:10.11896/j.issn.1002-137X.2018.01.035
摘要 ( 473 )   PDF(5461KB) ( 2112 )   
参考文献 | 相关文章 | 多维度评价
IP地址地理定位旨在准确地确定给定的IP地址的物理空间位置,通常采用基于测量的技术或者基于数据分析的技术。现有的基于数据分析的IP地址地理定位技术,对IP地址之间的关系考虑较少。考虑到IP地址的聚集特性,提出了一种基于邻近序列的IP地址地理定位方法。首先计算IP地址的邻近序列,并将其转化为对应的经纬度序列,然后建立模型并求解。以IP地址定位库和含有GPS信息的移动流量数据为原始数据,对该方法进行了实验验证。实验结果表明,通过邻近IP序列确实可以确定IP地址的物理空间位置,平均定位误差在20~30km,实现了区县一级的定位。该方法给IP地址地理定位问题提供了新的解决方案,同时该方法也可以与其他基于测量或者基于数据分析的方法相结合,以获得更优的结果。
RESSP:基于FPGA的可重构SDN交换结构
何璐蓓,厉俊男,杨翔瑞,孙志刚
计算机科学. 2018, 45 (1): 205-210.  doi:10.11896/j.issn.1002-137X.2018.01.036
摘要 ( 334 )   PDF(5502KB) ( 837 )   
参考文献 | 相关文章 | 多维度评价
SDN采用转发与控制分离的架构和集中的控制管理机制,可有效满足不同网络中不同粒度的管理控制需求。当高校科研人员进行SDN的教学和创新实验时,需要一个处理过程可感且可重新编程的数据平面来支持原理展示和自主研究。然而,传统ASIC交换机的内部实现流程不透明且转发查表架构固定,软件交换机的处理性能较低,因此无法充分支持数据平面的研究。目前,通过FPGA设计可编程数据平面,为满足不同科研场景下多样化的处理需求提供了一条可行路径。但是,在基于FPGA的可重构交换机架构和设计方法方面还缺少深入研究,主要表现在难以实现基于模块细粒度的SDN处理流程重构,现有工作复用程度低,同时无法为开源的SDN数据平面设计提供技术支持。为此,提出一种基于FPGA的SDN交换平面实现结构——RESSP(FPGA-based REconfigurable SDN Swi-tching Pipeline)。RESSP将报文处理流程拆解成多个可动态加载的模块,针对交换机具体的应用场景,利用FPGA可编程特性对硬件功能模块进行增加、删除或替换,从而针对实际需求设计出相应的报文处理逻辑。此外,基于RESSP实现了一个SDN交换机的原型系统MiniSwitch。MiniSwitch验证了RESSP在教学科研实验中快速重构所需SDN数据平面的可行性和可扩展性。
基于多路广播树的SDN多路径路由算法
覃匡宇,黄传河,刘柯威,史姣丽,陈希
计算机科学. 2018, 45 (1): 211-215.  doi:10.11896/j.issn.1002-137X.2018.01.037
摘要 ( 464 )   PDF(4990KB) ( 630 )   
参考文献 | 相关文章 | 多维度评价
传统的网络使用基于最短路径的单一路径路由,无法有效地利用网络的全部带宽。软件定义网络(Software Defined Networking,SDN)采用中心化的控制平面能方便地实现对路由的精确控制。针对SDN网络下的多路径路由问题,提出了基于多路广播树的路由存储结构及相应的多路径选择算法。该算法根据各路径的可用带宽和时延进行概率分配,优先选择可用带宽大和时延小的路径。实验结果表明,该算法能快速地进行路由,并有效地减小传输时延和增大吞吐率。
基于多层节点相似度的社区发现方法
张虎,吴永科,杨陟卓,刘全明
计算机科学. 2018, 45 (1): 216-222.  doi:10.11896/j.issn.1002-137X.2018.01.038
摘要 ( 237 )   PDF(2654KB) ( 984 )   
参考文献 | 相关文章 | 多维度评价
社区发现是复杂网络研究中的一项重要研究内容,基于节点相似度的凝聚方法是一种典型的社区发现方法。针对现有节点相似度计算方法中存在的不足,提出一种基于多层节点的节点相似度计算方法,该方法既可以有效地计算节点之间的相似度,又可以解决节点相似度相同时的节点合并选择问题。进一步基于这种改进的节点相似度计算方法和团体之间的连接紧密度度量准则构建社区发现模型,并在真实世界的网络上进行社区发现实验。与GN算法、Fast Newman算法和改进的标签传播算法的实验结果相比,该模型可以更加准确地找到各个社区的成员。
基于动态格点的压缩感知目标计数和定位算法
杨思星,郭艳,刘杰,孙保明
计算机科学. 2018, 45 (1): 223-227.  doi:10.11896/j.issn.1002-137X.2018.01.039
摘要 ( 204 )   PDF(4866KB) ( 504 )   
参考文献 | 相关文章 | 多维度评价
基于压缩感知技术的无线传感器网络定位,一般将定位区域划分为一定数目的网格并假定目标位于网格中心,然后通过求解一个1范数最小化问题来获得目标的位置。事实上,目标的随机性导致其很难位于网格中心,此时假定的变换基将无法稀疏表示位置信号,从而造成字典失配,使得定位精度下降。因此,提出一种基于动态格点的压缩感知定位算法。该算法能够自适应地调整格点的划分,使目标位于网格中心处。在求解过程中,该算法将复杂的优化问题转化成字典的更新和位置向量的求解两个部分的迭代来完成,同时实现了目标的计数和定位功能。仿真结果证明,与传统的压缩感知定位算法相比,所提算法在目标计数和定位方面都有更好的性能。
切换网络分布式次梯度优化算法
李甲地,李德权
计算机科学. 2018, 45 (1): 228-232.  doi:10.11896/j.issn.1002-137X.2018.01.040
摘要 ( 365 )   PDF(1184KB) ( 598 )   
参考文献 | 相关文章 | 多维度评价
研究了切换网络的多个体分布式次梯度优化算法。在有向切换网络是周期强连通的且对应的邻接矩阵是随机的而非双随机的条件下,利用非二次李雅普诺夫函数方法证明了所提多个体分布式次梯度优化算法的收敛性。最后,通过仿真实例验证了所提算法的有效性。
信息安全
基于行为模型的工控异常检测方法研究
宋站威,周睿康,赖英旭,范科峰,姚相振,李琳,李巍
计算机科学. 2018, 45 (1): 233-239.  doi:10.11896/j.issn.1002-137X.2018.01.041
摘要 ( 629 )   PDF(5657KB) ( 765 )   
参考文献 | 相关文章 | 多维度评价
目前,工业控制系统(Industrial Control Systems,ICS)网络安全已经成为信息安全领域的重点问题,而检测篡改行为数据及控制程序等攻击是ICS网络安全的难点问题,据此提出了基于行为模型的工控异常检测方法。该方法从工控网络流量中提取行为数据序列,根据ICS的控制和被控过程构建正常行为模型,通过比较分析实时提取的行为数据与模型预测的行为数据,判断是否出现异常。通过实验分析,验证了所提方法能有效实现对篡改行为数据及控制程序等攻击的异常检测。
基于多路径分发的ROP框架构造方法
彭建山,周传涛,王清贤,丁大钊
计算机科学. 2018, 45 (1): 240-244.  doi:10.11896/j.issn.1002-137X.2018.01.042
摘要 ( 372 )   PDF(7057KB) ( 697 )   
参考文献 | 相关文章 | 多维度评价
ROP是一种流行的软件漏洞利用技术,它与ROP检测技术的对抗正在不断升级。主流的ROP检测工具kBouncer和ROPecker通过LBR寄存器追踪间接跳转指令的执行过程,结合ROP特征检测,对传统的ROP以及改进的JOP等攻击行为都有很好的检测效果。Nicholas提出了绕防方法,但它存在可用gadget数量少、实现难度大等问题。提出了一种基于多路径分发的ROP框架构造方法,基于3种类型的gadget模块构造了一个gadget循环执行的框架,在该框架内可以使用丰富的常规gadget,从而形成一条完整、高效的ROP攻击链。实验表明该方法的实现难度低,不仅能够完成复杂的ROP功能,而且特征足够小,能够绕过主流ROP检测工具的检测。
多阶段大规模网络攻击下的网络安全态势评估方法研究
唐赞玉,刘宏
计算机科学. 2018, 45 (1): 245-248.  doi:10.11896/j.issn.1002-137X.2018.01.043
摘要 ( 401 )   PDF(3119KB) ( 589 )   
参考文献 | 相关文章 | 多维度评价
针对传统的网络安全态势评估方法一直存在评估偏差较大的问题,为了准确分析网络安全状况,提出一种新的多阶段大规模网络攻击下的网络安全态势评估方法。首先根据多阶段大规模网络攻击下的网络安全多数据源的特点,建立基于信息融合的多阶段大规模网络攻击下的网络安全态势评估模型;然后对大规模网络攻击阶段进行识别,计算网络攻击成功的概率和网络攻击阶段的实现概率;最后利用CVSS中的3个评价指标对网络安全态势进行评估。实例分析证明,所提方法更加符合实际应用,评估结果准确且有效。
软件与数据库技术
基于半监督聚类方法的测试用例选择技术
程雪梅,杨秋辉,翟宇鹏,陈伟
计算机科学. 2018, 45 (1): 249-254.  doi:10.11896/j.issn.1002-137X.2018.01.044
摘要 ( 442 )   PDF(5103KB) ( 631 )   
参考文献 | 相关文章 | 多维度评价
回归测试的目的是保证软件修改后没有引入新的错误。但是随着软件的演化,回归测试用例集不断增大,为了控制成本,回归测试用例选择技术应运而生。近年来,聚类分析技术被运用到回归测试用例选择问题中。将半监督学习引入到聚类技术中,提出了判别型半监督K-means聚类方法(Discriminative Semi-supervised K-means clustering Method,DSKM)。该方法从回归测试的历史执行记录中挖掘出隐藏的成对约束信息,同时利用大量的无标签样本和少量的有标签样本进行学习,优化聚类的结果,并进一步优化测试用例选择的结果。实验表明,相对于Constrained-Kmeans方法和SSKM方法,DSKM方法能够更好地提高约简率并保持覆盖率。
基于符号零压缩二叉决策图的组合测试用例生成方法
黄钰尧,李凤英,常亮,孟瑜
计算机科学. 2018, 45 (1): 255-260.  doi:10.11896/j.issn.1002-137X.2018.01.045
摘要 ( 416 )   PDF(1183KB) ( 616 )   
参考文献 | 相关文章 | 多维度评价
组合测试是系统测试中一种非常有效的方法,能够在保证错误检出率的前提下采用较少的测试用例来测试系统。但是,组合测试用例集构造问题的复杂度是NP完全的。给出了一种基于符号零压缩二叉决策图(Zero-suppressed Binary Decision Diagram,ZBDD)的组合测试用例生成方法。该方法首先利用ZBDD的结构特性,对测试系统进行紧凑的符号表示。然后利用ZBDD的隐式操作,结合贪心算法的思想,不断地覆盖更多的组合并缩小未覆盖组合集合,生成2~4维覆盖强度的较小测试用例集。实验证明,所提方法不仅可行而且节点开销小。
概率模型检测在动态能耗管理中的应用
杜伊,何洋,洪玫
计算机科学. 2018, 45 (1): 261-266.  doi:10.11896/j.issn.1002-137X.2018.01.046
摘要 ( 165 )   PDF(4088KB) ( 492 )   
参考文献 | 相关文章 | 多维度评价
如何平衡嵌入式设备的能耗和性能表现,成为了一个热门话题。动态能耗管理是一种在保证系统性能的基础上降低其能耗的有效方法,其关键点是如何生成有效的动态能耗管理策略。在概率模型检测技术的基础上,提出了一种生成和验证动态能耗管理策略的方法。首先对目标系统和能耗管理目标建模,然后利用PRISM-games工具进行动态能耗管理策略的合成,同时利用模型检测工具PRISM对合成的动态能耗管理策略进行验证。实验表明,该方法具备可行性和有效性。
PPQ:一种基于区域划分的c-skyline查询算法
董雷刚,刘国华,崔晓微
计算机科学. 2018, 45 (1): 267-272.  doi:10.11896/j.issn.1002-137X.2018.01.047
摘要 ( 261 )   PDF(8732KB) ( 523 )   
参考文献 | 相关文章 | 多维度评价
c-skyline技术能针对数据集获得以组为单位的查询结果,非常适用于多标准决策。现有算法采用迭代方式求解,不仅运算过程冗余,而且对无效数据的过滤效果不理想。基于此,设计了一种PPQ(Partition-Prune-Query)算法,首次提出了支配区的概念,并在此基础上对整个数据集区域进行划分;然后根据高效的剪枝策略过滤大部分“无用”的组合,快速获得查询结果。通过实验验证了所提算法的正确性和高效性。
人工智能
基于精英多策略的货位分配优化方法
张贵军,姚俊,周晓根,王文
计算机科学. 2018, 45 (1): 273-279.  doi:10.11896/j.issn.1002-137X.2018.01.048
摘要 ( 251 )   PDF(5841KB) ( 721 )   
参考文献 | 相关文章 | 多维度评价
针对智能立体仓库货位分配问题,提出一种基于精英多策略的货位分配优化方法。首先,考虑货物重量、出入库频率和出入库时间等因素,以货架重心低、出入库频率高、货物离出入库口近等为原则建立货位分配优化模型;然后,提出一种精英多策略差分进化算法,通过提取部分精英个体的信息指导变异,并根据精英个体的拥挤度变化对不同的阶段使用不同的策略,从而产生高质量的解,同时加快算法的收敛速度;最后,通过10个经典测试函数验证了所提算法的有效性,并基于该方法对某智能制造企业的成品库进行了优化,得到了满意的货位分配方案。
基于SDA与SVR混合模型的迁移学习预测算法
任俊,胡晓峰,李宁
计算机科学. 2018, 45 (1): 280-284.  doi:10.11896/j.issn.1002-137X.2018.01.049
摘要 ( 250 )   PDF(7745KB) ( 524 )   
参考文献 | 相关文章 | 多维度评价
为了解决大数据时代下小样本数据预测精度不高的问题,提出一种基于堆栈降噪自编码(SDA)与支持向量回归机(SVR)的混合模型。该方法采用源域大样本数据对堆栈降噪自编码和支持向量回归机混合模型进行迁移预训练,再利用目标域小样本数据微调混合模型。堆栈降噪自编码器具有良好的通用深层特征自主抽取能力,能够发掘源领域与目标领域相似任务间的共有特征知识,该知识能够辅助支持向量回归机在高维噪声小样本数据集上的预测。在多种数据集上的实验结果证明了该方法的有效性。
改进的鸡群优化算法及其在DTI-FA图像配准中的应用
郑伟,蒋晨娇,刘帅奇,赵杰
计算机科学. 2018, 45 (1): 285-291.  doi:10.11896/j.issn.1002-137X.2018.01.050
摘要 ( 196 )   PDF(5525KB) ( 526 )   
参考文献 | 相关文章 | 多维度评价
鸡群优化算法(Chicken Swarm Optimization,CSO)是一个全新的群智能优化算法,简单且具有良好的扩展性。针对鸡群优化算法中因为母鸡的寻优能力差而使算法容易陷入局部极值的问题,提出了一种结合混沌思想的改进鸡群优化算法(Chaotic Improved Chicken Swarm Optimization Algorithm,CICSO)。该算法结合混沌思想的遍历性初始化鸡群位置,将母鸡的位置更新公式改为仅向全局适应度值最好的公鸡学习,并引入学习系数来避免陷入局部最优。最后将改进的鸡群优化算法(CICSO)应用于DTI-FA图像配准。仿真实验结果表明,在解决高维问题时,改进的鸡群优化算法避免了陷入局部极值,提高了收敛精度,在DTI-FA图像配准中提高了图像的配准精确度。
基于Laplacian中心性的密度聚类算法
杨旭华,朱钦鹏,童长飞
计算机科学. 2018, 45 (1): 292-296.  doi:10.11896/j.issn.1002-137X.2018.01.051
摘要 ( 175 )   PDF(4591KB) ( 705 )   
参考文献 | 相关文章 | 多维度评价
聚类分析是一种重要的数据挖掘工具,可以衡量不同数据之间的相似性,并把它们分到不同的类别中,在模式识别、经济学和生物学等领域有着广泛的应用。 文中提出了一种新的聚类算法。首先,把待分类的数据集转换成一个加权的完全图,每个数据点为一个节点,两个数据点之间的距离为相应两个节点之间边的权值。然后,用Laplacian中心性来计算和评价该网络每个节点的局部重要性,聚类中心为局部的密度中心,它具有比周围的邻居节点更高的Laplacian中心性,并且与具有更高Laplacian中心性的节点之间的距离也较大。新算法是一种真正的无参数聚类方法,不需要任何先验参数便可以自动地对数据集进行分类。在6种数据集中将其与9种知名聚类算法做了对比,结果显示该算法具有良好的聚类效果。
图形图像与模式识别
对数极坐标特征指导的迭代就近点法
周诗豪,张云
计算机科学. 2018, 45 (1): 297-306.  doi:10.11896/j.issn.1002-137X.2018.01.052
摘要 ( 298 )   PDF(3125KB) ( 504 )   
参考文献 | 相关文章 | 多维度评价
在多模态图像,有光照、取向及尺度或纹理变化的图像,以及宽基线图像之间通常存在大的形貌畸变。然而,当前主流推广的双自举迭代就近点法(GDB-ICP)在配准这类图对时存在困难。主要原因是,该方法利用提取的尺度不变泡点(SIFT keypoint)来引导迭代就近点法(ICP),但在大畸变图像上提取的SIFT点是不可靠的。为此,提出了一种用对数极坐标特征点(LPF)来引导迭代就近点的图像配准新方法(LPF-ICP)。实验结果表明,LPF-ICP方法成功地从Rensselaer数据组中的所有22对挑战性图对提取了可靠的LPF种子,并顺利实现了全图配准,而GDB-ICP方法则只完成了其中的19对,从而证实了LPF-ICP方法的有效性。
基于差异性聚类的选择性集成人体行为识别模型
王忠民,张爽,贺炎
计算机科学. 2018, 45 (1): 307-312.  doi:10.11896/j.issn.1002-137X.2018.01.053
摘要 ( 236 )   PDF(6044KB) ( 553 )   
参考文献 | 相关文章 | 多维度评价
为了提高基于智能手机的人体行为识别率,优化多分类器集成系统的泛化性能及个体分类器的差异性,提出了基于差异性增量聚类(Diversity Measure Increment-Affinity Propagation clustering,DMI-AP)的选择性集成人体行为识别模型。首先对训练集的所有样本进行bootstrap抽样并训练基分类器,选出大于平均识别率的基分类器构成分类器集合;然后将集合的基分类器作为聚类对象进行分组,通过计算基分类器间的双误差异性值求出表征个体分类器特征的双误差异性增量值,输入近邻传播聚类算法得到k个类簇,选取每簇的中心分类器构成多分类器集成系统;最后使用等概率均值法融合k个分类器的输出结果。实验表明,该模型算法使个体分类器的差异性增大、分类器搜索空间缩小;与传统的Bagging,Adaboost以及RF方法相比,该模型的识别准确率平均提高了8.11%。
基于改进相位相关与特征点配准的多图拼接算法
厉丹,肖理庆,田隽,孙金萍
计算机科学. 2018, 45 (1): 313-319.  doi:10.11896/j.issn.1002-137X.2018.01.054
摘要 ( 393 )   PDF(2074KB) ( 516 )   
参考文献 | 相关文章 | 多维度评价
针对拼接过程易受图像采集时曝光、尺度变化、旋转、环境噪声、光照等因素的影响,以及多图手动排序出错率高、耗时长等问题,提出了一种基于改进相位相关与特征点配准的多图拼接算法。首先,基于对数极坐标变换的改进相位相关算法来计算缩放、旋转和平移参数,根据冲激函数峰值实现多图自动排序;接着,在重叠位置提取Harris角点,改进的Ransac算法精确提纯匹配点对,优化变换矩阵以完成拼接;最后,通过利用NSCT变换算法多尺度分解低频、高频子带来制定融合策略,从而解决接缝明显的问题。实验结果表明,新算法 建立的模型参数准确且高效,拼接融合效果过渡自然,能较好地解决复杂环境及乱序图像的拼接问题。