栏目文章

Select

1. 记忆计算:概念、特性及研究进展

郭斌,陈荟慧,李文鹏,於志文,姜佳君,王文辉

计算机科学 2016, 43 (9): 32-38. DOI: 10.11896/j.issn.1002-137X.2016.09.006

摘要（273）

PDF（pc）（603KB）（507）

随着信息技术的发展,尤其是移动互联网与物联网的发展,有关个人工作和生活的数据呈指数型增长。这些海量的数据中蕴含着丰富而有价值的个人信息,如何从这些数据中挖掘出有价值的信息成为当前信息领域的重要问题。针对该问题,介绍了普适计算领域新兴起的研究主题——记忆计算。记忆计算旨在通过各种带感知和计算功能的设备,比如智能手机、可穿戴设备等,实时感知和捕获用户线上线下活动的数据,分析并挖掘其内在价值,进而组织和管理有意义的记忆数据,实现基于情境的记忆数据呈现,以辅助个体记忆,支持社群交流与协作。讨论了基于移动情境感知的记忆计算的概念、特性、系统模型以及当前研究的关键技术与挑战,综述了记忆计算在生活日志、记忆提醒、往事回忆和群体记忆分享等方面的研究进展,并对其未来发展进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

2. FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法

刘冶,潘炎,夏榕楷,刘荻,印鉴

计算机科学 2016, 43 (9): 39-46. DOI: 10.11896/j.issn.1002-137X.2016.09.007

摘要（668）

PDF（pc）（1417KB）（1486）

在大数据时代,图像检索技术在大规模数据上的应用是一个热门的研究领域。近年来,大规模图像检索系统中, 图像哈希算法由于具备提高图像的检索效率同时减少储存空间的优点而受到广泛的关注。现有的有监督学习哈希算法存在一些问题,主流的有监督的哈希算法需要通过图像特征提取器获取人为构造的图像特征表示,这种做法带来的图像特征损失影响了哈希算法的效果,也不能较好地处理图像数据集中语义的相似性问题。随着深度学习在大规模数据上研究的兴起,一些相关研究尝试通过深度神经网络进行有监督的哈希函数学习,提升了哈希函数的效果,但这类方法需要针对数据集人为设计复杂的深度神经网络,增大了哈希函数设计的难度,而且深度神经网络的训练需要较多的数据和较长的时间,这些问题影响了基于深度学习的哈希算法在大规模数据集上的应用。针对这些问题,提出了一种基于深度卷积神经网络的快速图像哈希算法,该算法通过设计优化问题的求解方法以及使用预训练的大规模深度神经网络,提高了哈希算法的效果,同时明显地缩短了复杂神经网络的训练时间。根据在不同图像数据集上的实验结果分析可知, 与现有的基准算法相比,提出的算法在哈希函数训练效果和训练时间上都具有较大的提高。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于随机谱梯度的在线学习

薛伟,张文生,任俊宏

计算机科学 2016, 43 (9): 47-51. DOI: 10.11896/j.issn.1002-137X.2016.09.008

摘要（280）

PDF（pc）（344KB）（675）

考虑一类学习问题,问题的目标函数可表示为大量组函数的平均,并且假设每一个组件函数都是光滑的。在众多机器学习方法中,在线学习操作流程简洁、收敛速度快,而且可以实现模型的自动更新,为大数据的学习提供了有利的工具。针对这类问题,提出了一种基于随机谱梯度下降(Stochastic Spectral Gradient Descent,S²GD)的在线学习方法。该方法利用Rayleigh商收集目标函数的二阶信息来构造Hessian阵逆的近似。S²GD方法可以看作是谱梯度方法从确定性优化到随机优化的延伸。算法每次迭代所产生的搜索方向具有下降性,且现有结论表明算法收敛。在LIBSVM数据库上的初步实验表明S²GD方法是可行的、有效的。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于标签相似度计算的学术圈构建方法

傅城州,汤庸,贺超波,王津凌,袁成哲

计算机科学 2016, 43 (9): 52-56. DOI: 10.11896/j.issn.1002-137X.2016.09.009

摘要（244）

PDF（pc）（495KB）（475）

为面向学者的社交网络系统中的用户构建学术圈,对促进学者之间的交流具有重要的应用价值。根据学者之间的共同属性进行相似度计算,形成学术领域相似和研究课题相近的学术圈,能让学者们更加紧密和频繁地协同合作。提出了利用学者的学术信息提取代表个人特征的学术标签,并对不同类别标签的权重进行衡量,再通过相似度计算和聚类算法构建学术圈的方法。通过抓取学者社交网络平台SCHOLAT公开的学者信息进行实验,进而验证所提方法的可靠性和实用性。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于主题模型的网络异常行为分类学习方法研究

马钲然,张博锋,王勇军

计算机科学 2016, 43 (9): 57-60. DOI: 10.11896/j.issn.1002-137X.2016.09.010

摘要（271）

PDF（pc）（382KB）（724）

提出了一种新的用于学习和分辨网络异常行为的方法。与之前的工作相比,将采用主题模型对网络异常行为进行建模并构建分类器。根据连接的分类标签,在训练模型之前将数据集分成两部分,即正常的部分和异常的部分。通过分析模型参数对结果的影响可以发现α(主题的狄利克雷参数)和主题数量对于预测结果具有正相关性,而β(特征号的狄利克雷参数)对于预测结果具有负相关性。通过KDDCUP’99数据集对该模型进行评估,结果显示预测的准确度达到91.69%,比SVM等算法在正常和异常行为分类上的表现更好。

参考文献 | 相关文章 | 多维度评价

Select

6. 一种基于局部拓展的并行重叠社区发现算法

张忠正,李建武

计算机科学 2016, 43 (9): 61-65. DOI: 10.11896/j.issn.1002-137X.2016.09.011

摘要（332）

PDF（pc）（393KB）（547）

处理海量级数据的有效途径之一是将算法分解为一系列互不依赖的任务,然后利用开源工具并行地执行算法。而在重叠社区发现算法中,基于局部拓展的方法在拓展阶段往往仅需要局部社区及其相应的邻居结点的信息,因而具备可并行执行的可能性。提出了一种可并行化执行的局部拓展算法,并借助开源工具Spark将其实现。算法分为4个阶段。首先,挑选出一组不相关的中心结点并使用其对应的局部网络作为种子；其次,通过删除本身连接不是很紧密的局部网络来过滤选出的种子；然后,采用一种批量式的拓展策略来拓展种子,即一次向局部社区中添加一批邻居结点或从社区中删除一批结点；最后,融合相似的社区。在人工生成的网络以及真实世界中的网络上的实验结果显示 ,所提算法既准确又高效。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于MapReduce的新型微博用户影响力排名算法研究

徐文涛,刘锋,朱二周

计算机科学 2016, 43 (9): 66-70. DOI: 10.11896/j.issn.1002-137X.2016.09.012

摘要（248）

PDF（pc）（447KB）（560）

微博凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的自媒体平台。用户影响力评价是微博社交网络中基本而又重要的问题,它对于优化与推动社会信息传播来说有着重要意义。以新浪微博为实验对象,通过综合考虑微博用户关系网络特性和用户行为,结合MapReduce编程计算模型,提出了一种基于MapReduce的新型用户影响力排名算法——QRank。在Hadoop平台上的实验结果表明,QRank算法具有良好的可扩展性,能够有效结合微博用户关系网络与行为特性,从而更加真实与充分地反映用户的实际影响力。

参考文献 | 相关文章 | 多维度评价

Select

8. 上下文分解机的自适应更新策略

姚杏,朱福喜,阳小兰,郑麟,刘世超

计算机科学 2016, 43 (9): 71-76. DOI: 10.11896/j.issn.1002-137X.2016.09.013

摘要（398）

PDF（pc）（489KB）（543）

分解机模型已经被成功应用于上下文推荐系统。在分解机模型的学习算法中,交替最小二乘法是一种固定其他参数只求单一参数最优值的学习算法,其参数数目影响计算复杂度。然而当特征数目很大时,参数数目随着特征数目急剧增加,导致计算复杂度很高；即使有些参数已经达到了最优值,每次迭代仍更新所有的参数。因此,主要改进了交替最小二乘法的参数更新策略,为参数引入自适应误差指标,通过权重和参数绝对误差共同决定该参数更新与否,使得每次迭代时重点更新最近两次迭代取值变化较大的参数。这种仅更新自适应误差大于阈值的参数的策略不但减少了需要更新的参数数目,进而加快了算法收敛的速度和缩短了运行时间,而且参数权重由误差决定,又修正了误差。在Yahoo和Movielens数据集上的实验结果证明:改进的参数更新策略运行效率有明显提高。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于实体关系网络的微博文本摘要

薛竹君,杨树强,束阳雪

计算机科学 2016, 43 (9): 77-81. DOI: 10.11896/j.issn.1002-137X.2016.09.014

摘要（311）

PDF（pc）（1652KB）（756）

在解析微博文本语法的基础上,结合实体关系的定义和形式化表示,提出了采用关系网络有向图模型的方法来反映文本之间的结构关系,较好地表达了文本的语义信息,弥补了词频特征刻画的不足之处。利用改进后的TPR(Topic-PAGERANK)测算各节点对应的度来表现关系元组的重要程度,按序输出关系元组对应的原博文语义字段作为摘要。最后,通过实验证明了基于关系网络的文本自动文摘方法抽取出的摘要涵盖信息更全面,冗余更少。

参考文献 | 相关文章 | 多维度评价

Select

10. 融入内部语义关系对文本分类的影响研究

朱建林,杨小平,彭鲸桥

计算机科学 2016, 43 (9): 82-86. DOI: 10.11896/j.issn.1002-137X.2016.09.015

摘要（192）

PDF（pc）（388KB）（527）

为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。

参考文献 | 相关文章 | 多维度评价

Select

11. AGM信念收缩算子的拓扑式刻画

孟华,原雅燕,储节磊,王红军

计算机科学 2016, 43 (9): 87-90. DOI: 10.11896/j.issn.1002-137X.2016.09.016

摘要（222）

PDF（pc）（321KB）（479）

当agent的信念集是无限集时,传统的基于有限逻辑语言的刻画信念变化(belief change)的简单语义模型通常不再适用。Grdenfors和Makinson 引入的epistemic entrenchment(认知牢固度)模型虽然可以用来从语义上刻画AGM型信念收缩算子,但他们并未给出如何构造一个具体的epistemic entrenchment 的方法。在无限命题逻辑语言的背景下,通过在模型集上引入一个拓扑结构,构造出一种新的用来刻画AGM信念收缩的语义结构,称为认知链,并给出相应表示定理。讨论了epistemic entrenchment与认知链之间的关系。相对epistemic entrenchment而言,认知链具有结构简单并易于构造的特点。

参考文献 | 相关文章 | 多维度评价

Select

12. 模式级链接关联数据集上的关联规则挖掘研究

袁柳,张龙波

计算机科学 2016, 43 (9): 91-98. DOI: 10.11896/j.issn.1002-137X.2016.09.017

摘要（267）

PDF（pc）（740KB）（521）

针对关联数据集合呈现出的大数据特性和蕴含的语义信息,提出了首先建立关联数据集的模式级链接,再进行关联规则挖掘的方法。在同领域RDF数据集上定义RDF数据项模式并提出数据项模式的产生规则;利用RDF数据查询技术从数据项模式获得RDF数据项集合,进而再推导出特定领域内的关联规则。提出的基于关联数据RDF数据项模式的关联规则挖掘方法将关联规则挖掘扩展到同一领域内的数据集合而不再局限于单一数据集,同时给出了基于Hadoop的大规模RDF数据集上的关联规则挖掘的实现方案。实验结果验证了模式级链接对于关联规则挖掘的价值和所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于LT⁺模型的社交网络影响力最大化研究

蔡国永,裴广战

计算机科学 2016, 43 (9): 99-102. DOI: 10.11896/j.issn.1002-137X.2016.09.018

摘要（268）

PDF（pc）（290KB）（695）

影响力最大化问题的目标是寻找社交网络中一组种子结点集合,在给定的传播模型下,使得这些结点最终传播的影响范围最大。Kempe和Kleinberg提出的贪心算法可以获得很好的影响范围,但是因复杂度太高而并不适用于大型社交网络。Chen和Yuan等人基于线性阈值(LT)模型提出了构造局部有向无环图的启发式算法,但是LT模型只考虑了邻居结点的直接影响力,忽略了结点之间存在的间接影响力。因此,在LT模型的基础上,结合网络中结点之间存在的间接影响力,提出了LT⁺影响力模型,并利用构造局部有向无环图的启发式算法求解LT⁺模型的影响力最大化,称为LT⁺DAG算法。真实数据集上的对比实验表明,LT⁺DAG算法具有更好的影响范围以及较好的可扩展性。

参考文献 | 相关文章 | 多维度评价

Select

14. 半监督学习的老挝语词性标注方法研究

杨蓓,周兰江,余正涛,刘丽佳

计算机科学 2016, 43 (9): 103-106. DOI: 10.11896/j.issn.1002-137X.2016.09.019

摘要（290）

PDF（pc）（323KB）（580）

针对老挝语语料资源极少而无法直接利用有监督学习的方法实现老挝语词法分析的问题,提出了基于半监督学习的老挝语词性标注方法。首先利用仅有的少量标注词典和未标注语料资源,采用简单概率模型建模,获取较为完整的标注词典；其次利用整数规划获取大量自动标注的语料；最后在训练语料充足的情况下,利用二阶隐马尔科夫模型建模,实现高质量的老挝语词性标注。提出的方法在老挝语词性标注方面取得了较好的效果,其准确率达到89.8%。

参考文献 | 相关文章 | 多维度评价

Select

15. URTP:一种基于用户-区域-时间-商品的因子分解推荐模型

胡亚慧,杨莎,刘晶,余伟,李石君,王俊,方其庆

计算机科学 2016, 43 (9): 107-110. DOI: 10.11896/j.issn.1002-137X.2016.09.020

摘要（282）

PDF（pc）（419KB）（458）

如何从海量的数据中将不同的商品在恰当的时间、合理的位置推荐给适当的人(或人群)是当前面临的主要挑战。考虑到不同国家不同区域的人(或人群)在宗教信仰、职业、教育程度等方面有着不同的文化背景差异,以及大数据环境下商品推荐常常面临数据稀疏和冷启动等问题,从签到数据中抽取出目标用户所在的地理位置,根据该位置的文化背景特点筛选出与目标用户有相似或相同的文化背景的人群；再根据每个商品适宜购买的最佳合理时间和间隔购买时间选出恰当的商品,运用因子分解机的思想建立用户-区域-时间-商品因子分解模型。大量真实数据集上的实验表明该模型能够在数据量大、高稀疏的数据环境下进行商品推荐,验证了该方法的可行性、有效性和高效性。

参考文献 | 相关文章 | 多维度评价

Select

16. 一种结合用户评分信息的改进好友推荐算法

汤颖,钟南江,范菁

计算机科学 2016, 43 (9): 111-115. DOI: 10.11896/j.issn.1002-137X.2016.09.021

摘要（185）

PDF（pc）（431KB）（550）

传统的好友推荐算法在计算好友相似度时通常仅仅考虑用户在社交网络的拓扑结构的相似性,而对用户的兴趣相似性考虑较少,因此推荐的结果往往不够精准。现有的很多社交网站(如豆瓣网)提供了用户评分功能,用户可以对某类物品(如电影)给出自己的评分。为了在推荐时计算用户的兴趣相似度,提出基于用户给出的对某类物品的评分来计算用户的兴趣相似度,从而在拓扑相似度的基础上结合兴趣相似度得到更精准的推荐结果。首先使用余弦相似度计算出用户间拓扑相似度；其次在计算基于评分的用户兴趣相似度时,通过建立概率模型得到用户聚类评分相似度矩阵,从该评分矩阵推导出用户间基于评分的兴趣相似度；最后,结合拓扑相似度和评分相似度得到最终的改进好友推荐算法,计算出相似度值最高的N个人推荐给当前用户。为了验证所提方法的有效性,用提出的方法对豆瓣网抓取的用户数据进行好友推荐,实验结果证明所提方法与传统的基于拓扑的好友推荐算法相比可以有效提高好友推荐的准确性。

参考文献 | 相关文章 | 多维度评价

Select

17. SparkDE:一种基于RDD云计算模型的并行差分进化算法

谭旭杰,邓长寿,董小刚,袁斯昊,吴志健,彭虎

计算机科学 2016, 43 (9): 116-119. DOI: 10.11896/j.issn.1002-137X.2016.09.022

摘要（257）

PDF（pc）（392KB）（596）

云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。

参考文献 | 相关文章 | 多维度评价

Select

18. 面向临床检验指标的非同步时间序列聚类算法研究

陈德华,韩学士,乐嘉锦,朱立峰

计算机科学 2016, 43 (9): 120-123. DOI: 10.11896/j.issn.1002-137X.2016.09.023

摘要（319）

PDF（pc）（411KB）（682）

对临床检验指标时间序列进行聚类,从中发现临床检验指标变化趋势相似的患者群体,对开展精准医疗具有非常重要的价值。考虑到不同患者的检验次数及检验时间点不完全同步,首先通过对非同步时间序列进行预处理,实现不同时间序列维度及时间点的同步化。在此基础上,通过引入一个用户自定义参数即噪声点占有率NoisePro,对DBScan算法进行改进,提出了一种基于密度划分思想的非同步临床检验指标时间序列聚类LabTS-CLU算法。最后利用某三甲医院十余万糖尿病患者近10年的糖化血红蛋白时间序列数据集进行实验,结果证明了所提算法的有效性。

参考文献 | 相关文章 | 多维度评价