栏目文章

Select

1. 基于业务路径和频度矩阵的关联规则挖掘算法

胡波,黄宁,仵伟强

计算机科学 2016, 43 (12): 146-152. DOI: 10.11896/j.issn.1002-137X.2016.12.026

摘要（217）

PDF（pc）（1235KB）（547）

关联规则挖掘为分析机载网络关联故障及提高排故效率提供了重要方法。分析了经典Apriori算法的局限性,结合机载网络领域知识、矩阵运算和频繁项集性质,提出一种高效的关联规则挖掘算法。应用机载网络故障具有的基于业务路径的关联特征,提出分块挖掘策略,从而实现挖掘过程的噪声隔离。提出频度矩阵和特征向量,结合矩阵特点和频繁项集性质,设计5个扫描策略,从而减少了循环次数和对比运算。与Apriori算法相比,新算法能有效提高频繁项集的搜索速率。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于引力因子的加权网络重叠社区识别算法

刘冰玉,王翠荣,王聪,苑迎

计算机科学 2016, 43 (12): 153-157. DOI: 10.11896/j.issn.1002-137X.2016.12.027

摘要（358）

PDF（pc）（430KB）（595）

通过挖掘大数据来识别复杂社会网络上的社区,有利于对经济、政治、人口等方面的重要问题进行定量研究,社区的识别算法已经成为当前研究的热点问题。重点研究了重叠社区识别问题,提出了基于引力因子的加权复杂网络的重叠社区识别算法GWCR。该算法首先选取万有引力因子大的节点为中心节点,将节点与中心节点之间的引力因子作为衡量标准,并将节点归入社区引力因子大于某一阈值的社区,最后通过识别重叠节点来识别重叠社区。在3个真实网络数据集上的实验结果表明,与传统的重叠社区识别算法相比,GWCR算法划分的社区的模块度较高。

参考文献 | 相关文章 | 多维度评价

Select

3. 考虑用户活跃度和项目流行度的基于项目最近邻的协同过滤算法

王锦坤,姜元春,孙见山,孙春华

计算机科学 2016, 43 (12): 158-162. DOI: 10.11896/j.issn.1002-137X.2016.12.028

摘要（492）

PDF（pc）（425KB）（734）

项目相关性度量是基于项目最近邻的协同过滤算法的关键。已有的项目相关性度量方法在数据集稀疏或推荐低流行度产品时会面临较大挑战,因此提出一种考虑用户活跃度和项目流行度的基于项目最近邻的协同过滤算法。该算法在度量两个项目的相关性时,若有记录只对两个项目之一有评分,则利用该记录所对应的评分用户的活跃度和被评价项目的流行度进行相关性惩罚,从而提高数据稀疏环境下低流行度产品被推荐的概率。实验表明,所提算法在保证评分预测精度的情况下提升了推荐结果的多样性和新颖性。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于用户签到和地理属性的个性化位置推荐算法研究

蔡海尼,陈程,文俊浩,王喜宾,曾骏

计算机科学 2016, 43 (12): 163-167. DOI: 10.11896/j.issn.1002-137X.2016.12.029

摘要（445）

PDF（pc）（498KB）（619）

针对基于LBSNs (Location-based Social Networks)的位置推荐算法考虑因素单一且不能有效解决用户位于不同城市的位置推荐的问题,综合考虑潜在的社交影响、内容匹配影响和地理属性影响等因素,提出了基于用户签到和地理属性的个性化位置推荐算法SCL (Social-Content-Location)。该算法在协同过滤的基础上,引入了用户兴趣特征比较,改进了用户的相似度计算；同时,在分析位置的内容信息时,融入用户评论,缓解了位置标签的短文本特性对LDA (Latent Dirichlet Allocation)主题提取的影响,提高了用户兴趣和城市偏好主题提取的准确率。实验结果表明,SCL算法在本地城市召回率上较协同过滤算法U提高近65%,较LCA-LDA算法提高近 30%；在异地城市召回率上,高于LCA-LDA算法近26%。这表明SCL算法在不同城市下的位置推荐具有一定的可行性。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于改进鱼群算法与张量分解的社会化标签推荐模型

张浩,何杰,李慧宗

计算机科学 2016, 43 (12): 168-172. DOI: 10.11896/j.issn.1002-137X.2016.12.030

摘要（245）

PDF（pc）（454KB）（565）

基于大众分类法(folksonomy)的标签应用已逐渐成为一种重要的互联网内容组织方式,但随着数据规模的海量增长,产生了严重的信息过载问题,而传统的基于“用户-项目”二元关系的个性化推荐算法难以有效应对由“用户-项目-标签”所构成的三元关系。通过对基本人工鱼群算法进行改进,提出一种对标签推荐系统初始数据集进行聚类分析的方法,用以降低标签推荐系统的数据分析规模。在此基础上,综合考虑标签推荐系统中的元素权重以及反映用户偏好的评分信息,将元素权重和评分等级进行加权处理,以处理结果作为张量中的元素,建立了一种新的加权张量模型,并利用动态增量更新的张量分解算法进行模型求解,进而完成个性化的推荐。最后在两个真实的实验数据集上对比分析了所提算法(FTA)与另外两个经典标签推荐算法的推荐性能,实验结果表明FTA算法在准确率和召回率上均具有较好的表现。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于Kappa系数的数据流分类算法

徐树良,王俊红

计算机科学 2016, 43 (12): 173-178. DOI: 10.11896/j.issn.1002-137X.2016.12.031

摘要（323）

PDF（pc）（503KB）（740）

数据流挖掘已经成为数据挖掘领域一个热门的研究方向,由于数据流中概念漂移现象的存在,使得传统的分类算法无法直接应用于数据流中。为了能有效地应对数据流中的概念漂移,提出了一种基于Kappa系数的数据流分类算法。该算法采用集成式分类技术,以Kappa系数度量系统的分类性能,根据Kappa系数来动态地调整分类器,当发生概念漂移时,系统能利用已有的知识很快删除不符合要求的分类器来适应新概念。实验结果表明,相对于实验中参与比较的BWE,AE和AWE算法,该算法不但具有较好的分类性能,而且在一定程度上能较为有效地降低时间开销。

参考文献 | 相关文章 | 多维度评价

Select

7. 一种面向不完全标记的文本数据流自适应分类方法

张玉红,陈伟,胡学钢

计算机科学 2016, 43 (12): 179-182. DOI: 10.11896/j.issn.1002-137X.2016.12.032

摘要（225）

PDF（pc）（426KB）（562）

现实生活中网络监控、网络评论以及微博等应用领域涌现了大量文本数据流,这些数据的不完全标记和频繁概念漂移给已有的数据流分类方法带来了挑战。为此,面向不完全标记的文本数据流提出了一种自适应的数据流分类算法。该算法以一个标记数据块作为起始数据块,对未标记数据块首先提取标记数据块与未标记数据块之间的特征集,并利用特征在两个数据块间的相似度进行概念漂移检测,最后计算未标记数据中特征的极性并对数据进行预测。实验表明了算法在分类精度上的优越性,尤其在标记信息较少和概念漂移较为频繁时。

参考文献 | 相关文章 | 多维度评价

Select

8. 一种成对约束限制的半监督文本聚类算法

王纵虎,刘速

计算机科学 2016, 43 (12): 183-188. DOI: 10.11896/j.issn.1002-137X.2016.12.033

摘要（276）

PDF（pc）（554KB）（682）

半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚类中心集合,避免了K均值算法对初始聚类中心选择的敏感性。在几个中英文数据集上的实验结果表明,所提算法能有效地利用少量的成对约束先验信息提高聚类效果。

参考文献 | 相关文章 | 多维度评价

Select

9. 大数据环境下的多源数据演化更新研究

余放,陈盛双,李石君,余伟

计算机科学 2016, 43 (12): 189-194. DOI: 10.11896/j.issn.1002-137X.2016.12.034

摘要（415）

PDF（pc）（495KB）（461）

大数据环境下的多源数据呈现出数据量大、数据种类多、数据变化快的特点,这些特点对数据更新提出了新的挑战。通过分析大数据下多源数据的特点,定义了演化数据的概念,基于此建立了大数据的动态变频遍历更新模型。首先通过抽象数据的演化方式,建立了演化数据的势与稳定性概念,从而推导出更一般的代数意义上的演化运算工具；其次通过将运算工具导入大数据数据更新的实际应用中,推导出基于概率的变频遍历与动态权值模型；最后通过实验验证了在大数据环境下动态变频遍历模型(Dynamic Frequency Conversion Traversal,DFCT) 对多源数据具有较高的更新效率。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于隐私保护的序列模式挖掘

方炜炜,谢伟,黄宏博,夏红科

计算机科学 2016, 43 (12): 195-199. DOI: 10.11896/j.issn.1002-137X.2016.12.035

摘要（353）

PDF（pc）（1098KB）（607）

隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基于随机集和扰乱函数对原始序列库进行数据干扰的方法模型,并通过扰乱函数的特性还原出原始序列库的频繁序列模式的真实支持度,完成了在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。理论分析和实验结果表明,该方法模型具有很好的数据隐私保护性、挖掘结果准确性和算法执行高效性。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于Jaccard相似度和位置行为的协同过滤推荐算法

李斌,张博,刘学军,章玮

计算机科学 2016, 43 (12): 200-205. DOI: 10.11896/j.issn.1002-137X.2016.12.036

摘要（316）

PDF（pc）（488KB）（792）

协同过滤是现今推荐系统中应用最为成功且最广泛的推荐方法之一,其中概率矩阵分解算法作为一类重要的协同过滤方式,能够通过学习低维的近似矩阵进行推荐。然而,传统的协同过滤推荐算法在推荐过程中只利用用户-项目评分信息,忽略了用户(项目)间的潜在影响力,影响了推荐精度。针对上述问题,首先利用Jaccard相似度对用户(项目)做预处理,而后通过用户(项目)间的位置信息挖掘出其间的潜在影响力,成功找到最近邻居集合；最后将该邻居集合融合到基于概率矩阵分解的协同过滤推荐算法中。实验证明该算法较传统的协同过滤推荐算法能够更有效地预测用户的实际评分,提高了推荐效果。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于改进相似度的协同过滤算法研究

李容,李明奇,郭文强

计算机科学 2016, 43 (12): 206-208. DOI: 10.11896/j.issn.1002-137X.2016.12.037

摘要（223）

PDF（pc）（331KB）（730）

协同过滤利用邻居用户的偏好对目标用户的偏好进行推荐预测,相似度计算是其关键。传统的相似度计算忽略了用户共同评分项目数与用户平均评分的影响,以至于在数据稀疏时不能很好地度量用户间的相似度。提出了两个修正因子来改进传统相似度,同时改进了协同过滤算法,将其应用于电影推荐。仿真结果表明,在电影推荐中,基于改进后相似度计算的协同过滤算法能取得比传统算法更低的MAE值,提高了电影推荐质量。

参考文献 | 相关文章 | 多维度评价

Select

13. 密度自适应的半监督谱聚类算法

周海松,黄德才

计算机科学 2016, 43 (12): 209-212. DOI: 10.11896/j.issn.1002-137X.2016.12.038

摘要（351）

PDF（pc）（330KB）（522）

谱聚类是一种新兴的聚类算法,数据点间的相似度定义对其聚类效果起着至关重要的作用。传统的谱聚类算法通常利用高斯核函数作为相似度函数,但是对于多密度的数据往往不能取得良好的效果。在定义新的相似度函数的基础上,提出了一种密度自适应的半监督聚类算法。该算法结合半监督聚类的成对约束理论,利用先验信息对样本点之间的相似度进行自适应调整,提高了聚类的精度。该算法在人工数据集和真实数据集上的仿真实验都取得了良好的效果。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于相对密度和流形上k近邻的聚类算法

古凌岚,彭利民

计算机科学 2016, 43 (12): 213-217. DOI: 10.11896/j.issn.1002-137X.2016.12.039

摘要（198）

PDF（pc）（422KB）（554）

针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。

参考文献 | 相关文章 | 多维度评价

Select

15. 一种基于随机森林的LBS用户社会关系判断方法

马春来,单洪,马涛,顾正海

计算机科学 2016, 43 (12): 218-222. DOI: 10.11896/j.issn.1002-137X.2016.12.040

摘要（250）

PDF（pc）（966KB）（593）

根据LBS用户位置信息对用户之间是否存在社会关系进行判断,是基于位置大数据的情报挖掘领域中的一个新兴问题,可为群体发现及社团划分提供信息支撑。以时空共现理论为依据,将时空共现区特征归纳为4类,提出了一种基于随机森林的用户社会关系判断方法。该方法包括特征选择和训练分类环节。首先,针对特征空间存在不相关和冗余特征而影响判断性能的问题,提出一种基于Fisher准则和χ²检验的特征选择算法,对无关、冗余特征进行剔除；然后采用随机森林进行分类判断,克服了现有方法训练速度慢、容易过拟合的问题。以LBSN用户Check-in数据为例进行的实验结果表明,该方法能够以较低的计算代价和较高的准确率实现社会关系的判断。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于用户浏览轨迹的商品推荐

郭俊霞,许文生,卢罡

计算机科学 2016, 43 (12): 223-228. DOI: 10.11896/j.issn.1002-137X.2016.12.041

摘要（308）

PDF（pc）（519KB）（700）

随着电子商务的迅速发展,推荐系统在这些网站中得到了广泛的应用。目前应用最广泛的个性化推荐算法是协同过滤推荐算法,但是该方法存在稀疏矩阵与冷启动问题。根据用户浏览记录推荐商品是缓解这些问题的一个重要研究方向,这些方法根据用户在电子商务网站的访问日志,提取出用户的浏览路径序列,即用户浏览轨迹,为用户推荐偏爱商品。目前,通过分析用户浏览路径为用户推荐商品的方法主要依据用户浏览轨迹模式匹配或者从用户浏览轨迹中商品与下一个商品关系的角度进行考虑。而本研究从浏览轨迹中被浏览商品与最终被购买商品关系的角度出发,并以此为基础建立用户浏览轨迹偏爱模型,挖掘用户偏爱,为用户推荐商品。实验表明,所提方法能够在一定程度上解决因为新用户缺少历史购买及评分记录而引起的新用户冷启动问题,提高了推荐方法的准确度与召回率。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于词条与语意差异度量的文档聚类算法

魏霖静,练智超,王联国,侯振兴

计算机科学 2016, 43 (12): 229-233. DOI: 10.11896/j.issn.1002-137X.2016.12.042

摘要（239）

PDF（pc）（473KB）（490）

已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间；然后,设计了一个贪婪算法来筛选矩阵每行的低分数词条；最终,采用最大似然估计对文本差别信息进行平滑处理。仿真实验结果表明,所提方法的文档聚类质量优于其他分层与单层聚类算法,并且具有较好的可解释性与收敛性。

参考文献 | 相关文章 | 多维度评价

Select

18. 聚类方法综述

金建国

计算机科学 2014, 41 (Z11): 288-293.

摘要（228）

PDF（pc）（581KB）（3776）

文中对聚类方法作了综述。系统地讨论了聚类研究中的4个关键内容:数据点之间“距离”函数的定义方法、类数目的确定、高效优良的聚类算法和聚类算法好坏的评估。分析了各类聚类算法的优劣性,指出了聚类分析研究的发展趋势。

参考文献 | 相关文章 | 多维度评价

Select

19. 一种个性化推荐方法

朱宝,徐玲玉

计算机科学 2014, 41 (Z11): 294-297.

摘要（124）

PDF（pc）（317KB）（444）

提出了一种新的个性化推荐方法。该方法来源于对个性化推荐技术本质的研究。产出的方法包括一种用正态分布卷积性质所得到的离线相似度计算方法；一种通过计算物品与物品之间无差别的相似性操作次数得到离线相似度的方法；一种用类似于贝叶斯的方法来综合不同的相似度结果的方法。另外还提到一些用于工程实施的方法和技巧。所提方法已经在数据挖掘领域得到了成功的应用。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于主题模型与信息熵的中文文档自动摘要技术研究

李然,张华平,赵燕平,商建云

计算机科学 2014, 41 (Z11): 298-300.

摘要（172）

PDF（pc）（330KB）（917）

提出了一种基于LDA模型以及信息熵的文档自动摘要技术,即通过LDA模型对文档进行浅层语义分析,得到文档的主题分布以及不同主题下的词语分布；通过对主题的分析,可以得到最能代表文档中心思想的主题,以及该主题下的词语分布。同时,提出了一种新的基于信息熵的度量句子重要性的方法,并将该方法应用于文档的关键句抽取过程中。该方法将文档中句子的出现看成一个随机变量,通过对随机变量建模并度量它的信息熵来选取文档中的关键性语句。实验结果表明,应用主题模型与信息熵摘取的文档摘要能有效地从文档中摘出中心句。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于子空间聚类算法的流量分类方法研究

许学研,王苏南,吴春明

计算机科学 2014, 41 (Z11): 301-306.

摘要（129）

PDF（pc）（873KB）（362）

目前网络流量业务类型具有不断变化和业务特征不断更新两大特点,但是,现有的流量分类器由于存在业务特征库更新代价大、误判率高等缺点,而无法满足正常的业务分类需求。因此需要设计一种子空间聚类算法来实现业务分类精细化,保障分类精确率、召回率以及效率等特性。实验验证表明,子空间聚类算法的业务分类精细化程度高,分类精确率平均超过95%,训练数据需求量低,并且这类方法对于改进DPI分类器对网络环境的适应能力有重大意义。

参考文献 | 相关文章 | 多维度评价

Select

22. 一种区分索引与信息的网页分类数学模型及证明

王树西,夏增艳

计算机科学 2014, 41 (Z11): 307-312.

摘要（131）

PDF（pc）（516KB）（410）

综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中“最大内容段”的长度,计算出这个网页为“信息网页”的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,“网络传销国家监控中心”用这个模型有效地对网络传销网页集合进行了分类。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于粒计算的属性约简改进算法

唐孝,舒兰

计算机科学 2014, 41 (Z11): 313-315.

摘要（115）

PDF（pc）（288KB）（386）

粒计算是基于问题求解、模式分类及信息处理的多层次粒结构分析方法,它是粗糙集、模糊集、数据挖掘以及人工智能等多领域交叉的一门新学科。在讨论知识粒度的基本概念和性质后,介绍了通过计算属性对约简核的重要度SigCore(A)(a)来进行信息系统约简的方法。考虑到有的信息系统没有约简核,提出了基于粒计算的约简算法的改进。改进后的算法既可以用于有约简核的系统,也可以用于没有约简核的系统。数值实验证实了算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

24. 云环境下基于Canopy聚类的FCM算法研究

余长俊,张燃

计算机科学 2014, 41 (Z11): 316-319.

摘要（165）

PDF（pc）（341KB）（667）

FCM算法是目前广泛使用的算法之一。,针对FCM聚类质量和收敛速度依赖于初始聚类中心的问题,结合Canopy聚类算法能够粗略快速地对数据集进行聚类的优点,提出了一种基于Canopy聚类的FCM算法。该算法通过将Canopy算法快速获取到的聚类中心作为FCM算法的输入来加快FCM算法收敛速度。并在云环境下设计了其MapReduce化方案,实验结果表明,MapReduce化的基于Canopy聚类的FCM算法比MapReduce化的FCM聚类算法具有更好的聚类质量和运行速度。

参考文献 | 相关文章 | 多维度评价

Select

25. 结合用户判断力和相似性的协同推荐算法

张莉,薛羽青

计算机科学 2014, 41 (Z11): 320-322.

摘要（111）

PDF（pc）（275KB）（385）

作为解决信息超载问题的有效方式,协同过滤技术已被成功地应用到推荐系统。为进一步提高协同过滤算法的性能,首先利用用户评分的历史信息,估计用户的判断力。接着结合用户间的相似性,提出一种改进的协同推荐算法。实验结果表明用户的判断力可与用户的推荐能力正相关,也验证了用户判断力深入抽取用户评分信息以及影响用户采纳某项推荐结果的因素,以更好地刻画用户之间的相似性,从而提高算法的推荐准确度。

参考文献 | 相关文章 | 多维度评价

Select

26. HMSST:一种高效的SPARQL查询优化算法

董书暕,汪璟玢

计算机科学 2014, 41 (Z11): 323-326.

摘要（128）

PDF（pc）（425KB）（1111）

在缩小海量数据查询范围的前提下,结合哈希映射和选择策略树提出了一种SPARQL优化算法——HMSST(HashMapSelectivityStrategyTree),实现了SPARQL的查询优化。并针对LUBM 1000所大学的测试数据集对查询策略进行了实验,实验结果表明:提出的HMSST算法以及存储策略相比现有的查询方案,具有更小的存储代价以及更高的查询能力,在大数据集下可以高效地工作,并且该优化方案在查询的元组模式个数较多和语义较复杂时效果更加明显。

参考文献 | 相关文章 | 多维度评价

Select

27. 多分辨剪枝局部聚类算法挖掘空间co-location模式

吕诚

计算机科学 2014, 41 (Z11): 327-332.

摘要（258）

PDF（pc）（742KB）（367）

传统的co-location模式挖掘算法采取对各个特征实例进行逐一连接的挖掘方式,其结果是,常常消耗大量的时间和空间资源,甚至由于内存资源被过度消耗而无法挖掘出最终结果,特别是在数据量大的情况下更是如此。因此,提出了一种高效的多分辨剪枝局部聚类算法(MP_LC)。MP_LC算法首先对数据区域划分网格,再对各个网格中每一特征的实例进行聚类,求出每一类所包含实例的质心,用质心代替相应的实例集,并进行后续的挖掘。大量实验结果表明,MP_LC算法具有较高的效率、较高的准确率以及较好的实际应用价值。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于Hadoop框架的MapReduce计算模式的优化设计

孙彦超,王兴芬

计算机科学 2014, 41 (Z11): 333-336.

摘要（114）

PDF（pc）（612KB）（580）

对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于块集的邻域粗糙集的快速约简算法

娄畅,刘遵仁,郭功振

计算机科学 2014, 41 (Z11): 337-339.

摘要（245）

PDF（pc）（290KB）（373）

邻域计算是邻域粗糙集模型中操作最为频繁和复杂的步骤。针对当前邻域算法的研究现状,根据样本空间的分布,提出了块集的概念,证明了每个样本的邻域只存在于其相邻的块集中。在此基础上,提出了基于块集的邻域粗糙集快速约简算法,降低了计算邻域的时间复杂性,并利用多个UCI标准数据集对该算法进行了验证。结果表明,该算法是有效的、可行的。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于协同过滤的位置感知推荐

李贵,陈盛红,韩子阳,李征宇,孙平,孙焕良

计算机科学 2014, 41 (Z11): 340-346.

摘要（122）

PDF（pc）（638KB）（469）

不同地区的用户兴趣不同,并且当推荐物品具有位置属性时,用户更加倾向于离自身较近的物品。根据用户和物品的位置信息来捕获用户兴趣能有效地提高个性化推荐精度。为了有效处理用户和物品的位置信息,在推荐系统中引入金字塔模型(PS)来实现用户分区和用户旅行代价的计算,提出了基于金字塔模型的协同过滤算法(PMCF),来生成对用户的Top-N物品推荐。使用MovieLens数据集、Foursquare数据集和Synthetic数据集来分别评估算法的有效性,实验表明,所提出的算法的准确度要高于传统的推荐算法。

参考文献 | 相关文章 | 多维度评价