栏目文章

1974年1月创刊（月刊）
主管/主办:重庆西南信息有限公司

ISSN 1002-137X

CN 50-1075/TP
CODEN JKIEBK

作者中心

审稿中心

编辑中心

编辑登录

第五届CCF 大数据学术会议栏目所有文章列表
(按年度、期号倒序)

一年内发表的文章 |

两年内 |

三年内 |

全部

Please wait a minute...

选择:

导出引用
EndNote Ris BibTeX

显示/隐藏图片

Select

1. 深度强化学习研究综述

赵星宇, 丁世飞

计算机科学 2018, 45 (7): 1-6. DOI: 10.11896／j.issn.1002-137X.2018.07.001

摘要（1206）

PDF（pc）（1307KB）（2891）

作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。

参考文献 | 相关文章 | 多维度评价

Select

2. Spark性能优化技术研究综述

廖湖声, 黄珊珊, 徐俊刚, 刘仁峰

计算机科学 2018, 45 (7): 7-15. DOI: 10.11896／j.issn.1002-137X.2018.07.002

摘要（445）

PDF（pc）（2529KB）（1674）

近年来,随着大数据时代的到来,大数据处理平台发展迅速,产生了诸如Hadoop,Spark,Storm等优秀的大数据处理平台,其中Spark最为突出。随着Spark在国内外的广泛应用,其许多性能问题尚待解决。由于Spark底层的执行机制极为复杂,用户很难找到其性能瓶颈,更不要说进一步的优化。针对以上问题,从开发原则优化、内存优化、配置参数优化、调度优化、Shuffle过程优化5个方面对目前国内外的Spark优化技术进行总结和分析。最后,总结了目前Spark优化技术新的核心问题,并提出了未来的主要研究方向。

参考文献 | 相关文章 | 多维度评价

Select

3. 一种基于空间变换的协同过滤推荐算法

赵兴旺,梁吉业,郭兰杰

计算机科学 2018, 45 (7): 16-21. DOI: 10.11896／j.issn.1002-137X.2018.07.003

摘要（484）

PDF（pc）（1713KB）（699）

传统的协同过滤推荐算法在实际应用中往往面临着计算可扩展性的问题。为解决此问题,文中在基于物品的协同过滤推荐的框架下,通过融合社交关系信息,提出了一种基于空间变换的协同过滤推荐算法。首先,根据用户社交网络信息,运用社区发现算法将用户划分为不同的类;其次,基于评分信息,根据用户和物品之间的对应关系找到各个用户类所对应的物品类;最后,通过各个物品对每一物品类的隶属关系,将稀疏的高维评分信息矩阵转换为一个低维稠密的物品隶属度矩阵,进而基于该矩阵进行相似度计算并进行协同过滤推荐。在公开数据集上将所提方法与其他算法进行了对比实验分析,结果表明,所提算法能够在保证推荐准确性的同时明显提升计算效率。

参考文献 | 相关文章 | 多维度评价

Select

4. 噪音特征对聚类内部有效性的影响

杨, 虎, 付宇, 范, 丹

计算机科学 2018, 45 (7): 22-30. DOI: 10.11896／j.issn.1002-137X.2018.07.004

摘要（319）

PDF（pc）（2929KB）（1031）

聚类内部有效性指标是在未知样本真实分类情况下用于评价聚类结果优劣、寻找最佳聚类个数的指标,是聚类分析研究中的重要内容。虽然已有大量的研究分析了聚类内部有效性指标的性能,且有研究结论表明某些内部有效性指标的性能良好,能够辅助聚类算法找到最佳聚类个数,但这些研究未考虑真实数据中的噪音特征对内部有效性指标的影响,研究结论可能会误导内部有效性指标的选取和应用。为此,选取了10种常用的内部有效性指标来研究噪音特征对内部有效性特征选择和聚类结果的影响。结果表明,数据中的噪音特征会影响内部有效性指标的性能,除KL指标、CH指标和CCC指标对噪音特征的反应相对不敏感外,其他内部有效性指标均对噪音特征敏感,且聚类结果的准确性会随着噪音的增强而降低。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于样本权重更新的不平衡数据集成学习方法

陈圣灵,沈思淇,李东升

计算机科学 2018, 45 (7): 31-37. DOI: 10.11896／j.issn.1002-137X.2018.07.005

摘要（603）

PDF（pc）（1383KB）（1509）

不平衡数据的问题普遍存在于大数据、机器学习的各个应用领域,如医疗诊断、异常检测等。研究者提出或采用了多种方法来进行不平衡数据的学习,比如数据采样(如SMOTE)或者集成学习(如EasyEnsemble)的方法。数据采样中的过采样方法可能存在过拟合或边界样本分类准确率较低等问题,而欠采样方法则可能导致欠拟合。文中将SMOTE,Bagging,Boosting等算法的基本思想进行融合,提出了Rotation SMOTE算法。该算法通过在Boosting过程中根据基分类器的预测结果对少数类样本进行SMOTE来间接地增大少数类样本的权重,并借鉴Focal Loss的基本思想提出了根据基分类器预测结果直接优化AdaBoost权重更新策略的FocalBoost算法。对不同应用领域共11个不平衡数据集的多个评价指标进行实验测试,结果表明,相比于其他不平衡数据算法(包括SMOTEBoost算法和EasyEnsemble算法),Rotation SMOTE算法在所有数据集上具有最高的召回率,并且在大多数数据集上具有最佳或者次佳的G-mean以及F1Score;而相比于原始的AdaBoost,FocalBoost则在其中9个不平衡数据集上都获得了更优的性能指标。

参考文献 | 相关文章 | 多维度评价

Select

6. 一种多结构及文本融合的网络表征方法

李佳艺, 赵宇, 王莉

计算机科学 2018, 45 (7): 38-41. DOI: 10.11896／j.issn.1002-137X.2018.07.006

摘要（303）

PDF（pc）（2137KB）（939）

网络表征通过对网络结构的深度学习得到节点的矢量表征,挖掘网络中潜在的信息,是社会计算中的一种重要降维方法。针对一种融合了网络中的文本和结构的、基于矩阵分解的网络表征方法TADW,首先分析并讨论了文本属性矩阵在矩阵分解式中的位置对网络表征效果的影响,并对此方法进行了优化;在此基础上,提出了一种融合关系结构、交互结构和文本属性的社交网络表征方法。在多个数据集上的实验结果表明,该方法在多分类任务中优于其他经典网络表征方法。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于HBase的支持频繁更新与多用户并发的R树

王波涛,梁伟,赵凯利,钟汉辉,张玉圻

计算机科学 2018, 45 (7): 42-52. DOI: 10.11896／j.issn.1002-137X.2018.07.007

摘要（398）

PDF（pc）（2331KB）（764）

基于位置服务的应用已经进入大数据时代,传统基于位置服务的技术面临系统扩展性、性能等方面的挑战。云计算技术是大数据处理的基础,索引是优化查询的重要手段。尽管目前已存在大量的研究成果,但尚未有HBase上的支持频繁更新与多用户并发的R树索引。针对移动对象索引的频繁更新与多用户并发的需求,文中提出了基于HBase的支持频繁更新与多用户并发的R树索引,它只索引包含移动对象的网格,避免了频繁更新问题;进一步基于HBase的数据行与数据分区的组织与读写特性,对R树的节点进行重组,并对网格Z-order编码,从而减少了对HBase的读写操作,提高了查询效率;最后提出了基于ZooKeeper分布式读写锁的优化策略,提高了索引的吞吐量。实验结果表明,与网格索引相比,在数据非均匀的情况下,所提策略的查询吞吐量提高了25%～50%,更新吞吐量约在同一数量级;与分布式共享锁索引相比,分布式读写锁索引的吞吐量提高了近40%。

参考文献 | 相关文章 | 多维度评价

首页 | 前页| 后页 | 尾页

第1页共1页共7条记录