1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    2015 年第三届CCF 大数据学术会议 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 记忆计算:概念、特性及研究进展
    郭斌,陈荟慧,李文鹏,於志文,姜佳君,王文辉
    计算机科学    2016, 43 (9): 32-38.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.006
    摘要 (90)   PDF (603KB) (155)  
    随着信息技术的发展,尤其是移动互联网与物联网的发展,有关个人工作和生活的数据呈指数型增长。这些海量的数据中蕴含着丰富而有价值的个人信息,如何从这些数据中挖掘出有价值的信息成为当前信息领域的重要问题。针对该问题,介绍了普适计算领域新兴起的研究主题——记忆计算。记忆计算旨在通过各种带感知和计算功能的设备,比如智能手机、可穿戴设备等,实时感知和捕获用户线上线下活动的数据,分析并挖掘其内在价值,进而组织和管理有意义的记忆数据,实现基于情境的记忆数据呈现,以辅助个体记忆,支持社群交流与协作。讨论了基于移动情境感知的记忆计算的概念、特性、系统模型以及当前研究的关键技术与挑战,综述了记忆计算在生活日志、记忆提醒、往事回忆和群体记忆分享等方面的研究进展,并对其未来发展进行了展望。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(1)
    2. FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法
    刘冶,潘炎,夏榕楷,刘荻,印鉴
    计算机科学    2016, 43 (9): 39-46.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.007
    摘要 (208)   PDF (1417KB) (745)  
    在大数据时代,图像检索技术在大规模数据上的应用是一个热门的研究领域。近年来,大规模图像检索系统中, 图像哈希算法 由于具备提高图像的检索效率同时减少储存空间的优点而受到广泛的关注。现有的有监督学习哈希算法存在一些问题,主流的有监督的哈希算法需要通过图像特征提取器获取人为构造的图像特征表示,这种做法带来的图像特征损失影响了哈希算法的效果,也不能较好地处理图像数据集中语义的相似性问题。随着深度学习在大规模数据上研究的兴起,一些相关研究尝试通过深度神经网络进行有监督的哈希函数学习,提升了哈希函数的效果,但这类方法需要针对数据集人为设计复杂的深度神经网络,增大了哈希函数设计的难度,而且深度神经网络的训练需要较多的数据和较长的时间,这些问题影响了基于深度学习的哈希算法在大规模数据集上的应用。针对这些问题,提出了一种基于深度卷积神经网络的快速图像哈希算法,该算法通过设计优化问题的求解方法以及使用预训练的大规模深度神经网络,提高了哈希算法的效果,同时明显地缩短了复杂神经网络的训练时间。根据在不同图像数据集上的实验结果分析可知, 与现有的基准算法相比,提出的算法在哈希函数训练效果和训练时间上都具有较大的提高。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(5)
    3. 基于随机谱梯度的在线学习
    薛伟,张文生,任俊宏
    计算机科学    2016, 43 (9): 47-51.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.008
    摘要 (124)   PDF (344KB) (259)  
    考虑一类学习问题,问题的目标函数可表示为大量组函数的平均,并且假设每一个组件函数都是光滑的。在众多机器学习方法中,在线学习操作流程简洁、收敛速度快,而且可以实现模型的自动更新,为大数据的学习提供了有利的工具。针对这类问题,提出了一种基于随机谱梯度下降(Stochastic Spectral Gradient Descent,S2GD)的在线学习方法。该方法利用Rayleigh商收集目标函数的二阶信息来构造Hessian阵逆的近似。S2GD方法可以看作是谱梯度方法从确定性优化到随机优化的延伸。算法每次迭代所产生的搜索方向具有下降性,且现有结论表明算法收敛。在LIBSVM数据库上的初步实验表明S2GD方法是可行的、有效的。
    参考文献 | 相关文章 | 多维度评价
    4. 基于标签相似度计算的学术圈构建方法
    傅城州,汤庸,贺超波,王津凌,袁成哲
    计算机科学    2016, 43 (9): 52-56.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.009
    摘要 (73)   PDF (495KB) (143)  
    为面向学者的社交网络系统中的用户构建学术圈,对促进学者之间的交流具有重要的应用价值。根据学者之间的共同属性进行相似度计算,形成学术领域相似和研究课题相近的学术圈,能让学者们更加紧密和频繁地协同合作。提出了利用学者的学术信息提取代表个人特征的学术标签,并对不同类别标签的权重进行衡量,再通过相似度计算和聚类算法构建学术圈的方法。通过抓取学者社交网络平台SCHOLAT公开的学者信息进行实验,进而验证所提方法的可靠性和实用性。
    参考文献 | 相关文章 | 多维度评价
    5. 基于主题模型的网络异常行为分类学习方法研究
    马钲然,张博锋,王勇军
    计算机科学    2016, 43 (9): 57-60.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.010
    摘要 (103)   PDF (382KB) (246)  
    提出了一种新的用于学习和分辨网络异常行为的方法。与之前的工作相比,将采用主题模型对网络异常行为进行建模并构建分类器。根据连接的分类标签,在训练模型之前将数据集分成两部分,即正常的部分和异常的部分。通过分析模型参数对结果的影响可以发现α(主题的狄利克雷参数)和主题数量对于预测结果具有正相关性,而β(特征号的狄利克雷参数)对于预测结果具有负相关性。通过KDDCUP’99数据集对该模型进行评估,结果显示预测的准确度达到91.69%,比SVM等算法在正常和异常行为分类上的表现更好。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(3)
    6. 一种基于局部拓展的并行重叠社区发现算法
    张忠正,李建武
    计算机科学    2016, 43 (9): 61-65.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.011
    摘要 (101)   PDF (393KB) (168)  
    处理海量级数据的有效途径之一是将算法分解为一系列互不依赖的任务,然后利用开源工具并行地执行算法。而在重叠社区发现算法中,基于局部拓展的方法在拓展阶段往往仅需要局部社区及其相应的邻居结点的信息,因而具备可并行执行的可能性。提出了一种可并行化执行的局部拓展算法,并借助开源工具Spark将其实现。算法分为4个阶段。首先,挑选出一组不相关的中心结点并使用其对应的局部网络作为种子;其次,通过删除本身连接不是很紧密的局部网络来过滤选出的种子;然后,采用一种批量式的拓展策略来拓展种子,即一次向局部社区中添加一批邻居结点或从社区中删除一批结点;最后,融合相似的社区。在人工生成的网络以及真实世界中的网络上的实验结果显示 ,所提算法既准确又高效。
    参考文献 | 相关文章 | 多维度评价
    7. 基于MapReduce的新型微博用户影响力排名算法研究
    徐文涛,刘锋,朱二周
    计算机科学    2016, 43 (9): 66-70.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.012
    摘要 (94)   PDF (447KB) (174)  
    微博凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的自媒体平台。用户影响力评价是微博社交网络中基本而又重要的问题,它对于优化与推动社会信息传播来说有着重要意义。以新浪微博为实验对象,通过综合考虑微博用户关系网络特性和用户行为,结合MapReduce编程计算模型,提出了一种基于MapReduce的新型用户影响力排名算法——QRank。在Hadoop平台上的实验结果表明,QRank算法具有良好的可扩展性,能够有效结合微博用户关系网络与行为特性,从而更加真实与充分地反映用户的实际影响力。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(8)
    8. 上下文分解机的自适应更新策略
    姚杏,朱福喜,阳小兰,郑麟,刘世超
    计算机科学    2016, 43 (9): 71-76.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.013
    摘要 (85)   PDF (489KB) (154)  
    分解机模型已经被成功应用于上下文推荐系统。在分解机模型的学习算法中,交替最小二乘法是一种固定其他参数只求单一参数最优值的学习算法,其参数数目影响计算复杂度。然而当特征数目很大时,参数数目随着特征数目急剧增加,导致计算复杂度很高;即使有些参数已经达到了最优值,每次迭代仍更新所有的参数。因此,主要改进了交替最小二乘法的参数更新策略,为参数引入自适应误差指标,通过权重和参数绝对误差共同决定该参数更新与否,使得每次迭代时重点更新最近两次迭代取值变化较大的参数。这种仅更新自适应误差大于阈值的参数的策略不但减少了需要更新的参数数目,进而加快了算法收敛的速度和缩短了运行时间,而且参数权重由误差决定,又修正了误差。在Yahoo和Movielens数据集上的实验结果证明:改进的参数更新策略运行效率有明显提高。
    参考文献 | 相关文章 | 多维度评价
    9. 基于实体关系网络的微博文本摘要
    薛竹君,杨树强,束阳雪
    计算机科学    2016, 43 (9): 77-81.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.014
    摘要 (108)   PDF (1652KB) (335)  
    在解析 微博文本语法的基础上,结合实体关系的定义和形式化表示,提出了采用关系网络有向图模型的方法来反映文本之间的结构关系,较好地表达了文本的语义信息,弥补了词频特征刻画的不足之处。利用改进后的TPR(Topic-PAGERANK)测算各节点对应的度来表现关系元组的重要程度,按序输出关系元组对应的原博文语义字段作为摘要。最后,通过实验证明了基于关系网络的文本自动文摘方法抽取出的摘要涵盖信息更全面,冗余更少。
    参考文献 | 相关文章 | 多维度评价
    10. 融入内部语义关系对文本分类的影响研究
    朱建林,杨小平,彭鲸桥
    计算机科学    2016, 43 (9): 82-86.   https://doi.org/10.11896/j.issn.1002-137X.2016.09.015
    摘要 (74)   PDF (388KB) (196)  
    为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(1)
    首页 | 前页| 后页 | 尾页 第1页 共2页 共18条记录