1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据挖掘 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 基于业务路径和频度矩阵的关联规则挖掘算法
    胡波,黄宁,仵伟强
    计算机科学    2016, 43 (12): 146-152.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.026
    摘要 (79)   PDF (1235KB) (188)  
    关联规则挖掘为分析机载网络关联故障及提高排故效率提供了重要方法。分析了经典Apriori算法的局限性,结合机载网络领域知识、矩阵运算和频繁项集性质,提出一种高效的关联规则挖掘算法。应用机载网络故障具有的基于业务路径的关联特征,提出分块挖掘策略,从而实现挖掘过程的噪声隔离。提出频度矩阵和特征向量,结合矩阵特点和频繁项集性质,设计5个扫描策略,从而减少了循环次数和对比运算。与Apriori算法 相比,新算法能有效提高频繁项集的搜索速率。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(2)
    2. 基于引力因子的加权网络重叠社区识别算法
    刘冰玉,王翠荣,王聪,苑迎
    计算机科学    2016, 43 (12): 153-157.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.027
    摘要 (92)   PDF (430KB) (225)  
    通过挖掘大数据来识别复杂社会网络上的社区,有利于对经济、政治、人口等方面的重要问题进行定量研究,社区的识别算法已经成为当前研究的热点问题。重点研究了重叠社区识别问题,提出了基于引力因子的加权复杂网络的重叠社区识别算法GWCR。该算法首先选取万有引力因子大的节点为中心节点,将节点与中心节点之间的引力因子作为衡量标准,并将节点归入社区引力因子大于某一阈值的社区,最后通过识别重叠节点来识别重叠社区。在3个真实网络数据集上的实验结果表明,与传统的重叠社区识别算法相比,GWCR算法划分的社区的模块度较高。
    参考文献 | 相关文章 | 多维度评价
    3. 考虑用户活跃度和项目流行度的基于项目最近邻的协同过滤算法
    王锦坤,姜元春,孙见山,孙春华
    计算机科学    2016, 43 (12): 158-162.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.028
    摘要 (134)   PDF (425KB) (336)  
    项目相关性度量是基于项目最近邻的协同过滤算法的关键。已有的项目相关性度量方法在数据集稀疏或推荐低流行度产品时会面临较大挑战,因此提出一种考虑用户活跃度和项目流行度的基于项目最近邻的协同过滤算法。该算法在度量两个项目的相关性时,若有记录只对两个项目之一有评分,则利用该记录所对应的评分用户的活跃度和被评价项目的流行度进行相关性惩罚,从而提高数据稀疏环境下低流行度产品被推荐的概率。实验表明,所提算法在保证评分预测精度的情况下提升了推荐结果的多样性和新颖性。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(4)
    4. 基于用户签到和地理属性的个性化位置推荐算法研究
    蔡海尼,陈程,文俊浩,王喜宾,曾骏
    计算机科学    2016, 43 (12): 163-167.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.029
    摘要 (134)   PDF (498KB) (218)  
    针对基于LBSNs (Location-based Social Networks)的位置推荐算法考虑因素单一且不能有效解决用户位于不同城市的位置推荐的问题,综合考虑潜在的社交影响、内容匹配影响和地理属性影响等因素,提出了基于用户签到和地理属性的个性化位置推荐算法SCL (Social-Content-Location)。该算法在协同过滤的基础上,引入了用户兴趣特征比较,改进了用户的相似度计算;同时,在分析位置的内容信息时,融入用户评论,缓解了位置标签的短文本特性对LDA (Latent Dirichlet Allocation)主题提取的影响,提高了用户兴趣和城市偏好主题提取的准确率。实验结果表明,SCL算法在本地城市召回率上较协同过滤算法U提高近65%,较LCA-LDA算法提高近 30%;在异地城市召回率上,高于LCA-LDA算法近26%。这表明SCL算法在不同城市下的位置推荐具有一定的可行性。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(3)
    5. 基于改进鱼群算法与张量分解的社会化标签推荐模型
    张浩,何杰,李慧宗
    计算机科学    2016, 43 (12): 168-172.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.030
    摘要 (115)   PDF (454KB) (223)  
    基于大众分类法(folksonomy)的标签应用已逐渐成为一种重要的互联网内容组织方式,但随着数据规模的海量增长,产生了严重的信息过载问题,而传统的基于“用户-项目”二元关系的个性化推荐算法难以有效应对由“用户-项目-标签”所构成的三元关系。通过对基本人工鱼群算法进行改进,提出一种对标签推荐系统初始数据集进行聚类分析的方法,用以降低标签推荐系统的数据分析规模。在此基础上,综合考虑标签推荐系统中的元素权重以及反映用户偏好的评分信息,将元素权重和评分等级进行加权处理,以处理结果作为张量中的元素,建立了一种新的加权张量模型,并利用动态增量更新的张量分解算法进行模型求解,进而完成个性化的推荐。最后在两个真实的实验数据集上对比分析了所提算法(FTA)与另外两个经典标签推荐算法的推荐性能,实验结果表明FTA算法在准确率和召回率上均具有较好的表现。
    参考文献 | 相关文章 | 多维度评价
    6. 基于Kappa系数的数据流分类算法
    徐树良,王俊红
    计算机科学    2016, 43 (12): 173-178.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.031
    摘要 (123)   PDF (503KB) (313)  
    数据流挖掘已经成为数据挖掘领域一个热门的研究方向,由于数据流中概念漂移现象的存在,使得传统的分类算法无法直接应用于数据流中。为了能有效地应对数据流中的概念漂移,提出了一种基于Kappa系数的数据流分类算法。该算法采用集成式分类技术,以Kappa系数度量系统的分类性能,根据Kappa系数来动态地调整分类器,当发生概念漂移时,系统能利用已有的知识很快删除不符合要求的分类器来适应新概念。实验结果表明,相对于实验中参与比较的BWE,AE和AWE算法,该算法不但具有较好的分类性能,而且在一定程度上能较为有效地降低时间开销。
    参考文献 | 相关文章 | 多维度评价
    7. 一种面向不完全标记的文本数据流自适应分类方法
    张玉红,陈伟,胡学钢
    计算机科学    2016, 43 (12): 179-182.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.032
    摘要 (98)   PDF (426KB) (205)  
    现实生活中网络监控、网络评论以及微博等应用领域涌现了大量文本数据流,这些数据的不完全标记和频繁概念漂移给已有的数据流分类方法带来了挑战。为此,面向不完全标记的文本数据流提出了一种自适应的数据流分类算法。该算法以一个标记数据块作为起始数据块,对未标记数据块首先提取标记数据块与未标记数据块之间的特征集,并利用特征在两个数据块间的相似度进行概念漂移检测,最后计算未标记数据中特征的极性并对数据进行预测。实验表明了算法在分类精度上的优越性,尤其在标记信息较少和概念漂移较为频繁时。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(1)
    8. 一种成对约束限制的半监督文本聚类算法
    王纵虎,刘速
    计算机科学    2016, 43 (12): 183-188.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.033
    摘要 (113)   PDF (554KB) (257)  
    半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚类中心集合,避免了K均值算法对初始聚类中心选择的敏感性。在几个中英文数据集上的实验结果表明,所提算法能有效地利用少量的成对约束先验信息提高聚类效果。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(1)
    9. 大数据环境下的多源数据演化更新研究
    余放,陈盛双,李石君,余伟
    计算机科学    2016, 43 (12): 189-194.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.034
    摘要 (153)   PDF (495KB) (154)  
    大数据环境下的多源数据呈现出数据量大、数据种类多、数据变化快的特点,这些特点对数据更新提出了新的挑战。通过分析大数据下多源数据的特点,定义了演化数据的概念,基于此建立了大数据的动态变频遍历更新模型。首先通过抽象数据的演化方式,建立了演化数据的势与稳定性概念,从而推导出更一般的代数意义上的演化运算工具;其次通过将运算工具导入大数据数据更新的实际应用中,推导出基于概率的变频遍历与动态权值模型;最后通过实验验证了在大数据环境下动态变频遍历模型(Dynamic Frequency Conversion Traversal,DFCT) 对多源数据具有较高的更新效率。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(4)
    10. 基于隐私保护的序列模式挖掘
    方炜炜,谢伟,黄宏博,夏红科
    计算机科学    2016, 43 (12): 195-199.   https://doi.org/10.11896/j.issn.1002-137X.2016.12.035
    摘要 (111)   PDF (1098KB) (187)  
    隐私保护是当前数据挖掘领域的一个研究热点,其目标是在不暴露原始数据信息的前提下准确地实现挖掘任务。针对隐私保护序列模式挖掘问题,提出了项集的布尔集合关系概念,设计了基于随机集和扰乱函数对原始序列库进行数据干扰的方法模型,并通过扰乱函数的特性还原出原始序列库的频繁序列模式的真实支持度,完成了在保护原始数据隐私的前提下准确地挖掘出频繁序列模式的任务。理论分析和实验结果表明,该方法模型具有很好的数据隐私保护性、挖掘结果准确性和算法执行高效性。
    参考文献 | 相关文章 | 多维度评价
    被引次数: Baidu(6)
    首页 | 前页| 后页 | 尾页 第1页 共8页 共77条记录