1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据库 & 大数据 & 数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 电商平台用户再购物行为的预测研究
    吕泽宇李纪旋陈如剑陈东明
    计算机科学    2020, 47 (6A): 424-428.   https://doi.org/10.11896/JsJkx.190900018
    摘要 (59)   PDF (4048KB) (389)  
    电商平台上用户的购物行为研究对于电商企业来说具有重要的商业应用价值。文中针对购物者在同一电商平台上的再次消费行为的预测问题进行了研究。首先,针对用户与商家的行为和交易记录,基于特征工程方法设计了多种不同的行为预测特征,基于可视化等方法对比分析了预测特征的重要性和特点,进行了属性筛选;然后,基于提出的预测特征设计使用了多种不同算法训练预测模型。实验研究表明,多lightGBM模型的融合方法能够达到很高的再购物行为预测准确度,其AUC值能够达到0.7018,同时,基于这种方法实现的预测器只需要少数特征就能对预测结果产生很好的贡献。研究的数据来源是开源的真实大数据,研究成果具有应用和学术双重价值。
    参考文献 | 相关文章 | 多维度评价
    2. 改进的GHSOM算法在民航航空法规知识地图构建中的应用
    张浩洋, 周良
    计算机科学    2020, 47 (6A): 429-435.   https://doi.org/10.11896/JsJkx.190700161
    摘要 (85)   PDF (2460KB) (209)  
    针对文本聚类过程中簇的数量无法动态改变及文本分类结果不够精确等问题,文中引入并改进了成长型分级自组织映射(Growing Hierarchical Self-Organizing Map,GHSOM)算法,以提高文本聚类的精确度,并尝试使用改进后的GHSOM算法构建民航航空法规知识地图。GHSOM算法为多层分级结构,每一层包含数个独立的成长型SOM,通过增长规模来在一定程度上更加详细地描述数据集,提高分类效果。在此基础上,以民用航空领域的各项法律、法规条文为样本资料集,结合中文分词、关键词提取、文件向量等技术手段,利用改进的GHSOM算法对文本进行聚类分析,并最终完成民航航空法规知识地图的构建。实验结果表明,所提算法具有显著的文本聚类能力,利用该算法构建的民航航空法规知识地图取得了较好的分类效果,其精确度、召回率等评价指标也获得了进一步的提升。
    参考文献 | 相关文章 | 多维度评价
    3. 基于面向对象(属性)概念格的形式背景属性约简方法
    岳晓威, 彭莎, 秦克云
    计算机科学    2020, 47 (6A): 436-439.   https://doi.org/10.11896/JsJkx.191100011
    摘要 (79)   PDF (1628KB) (266)  
    形式背景的属性约简是形式概念分析的重要研究内容之一。文中研究形式背景保持面向对象(属性)概念格结构的属性约简方法。通过分析相应的粒概念,提出了一种新的基于面向对象概念格和基于面向属性概念格的协调集判定定理,进而得到了新的可辨识属性集和可辨识属性矩阵,借助布尔逻辑公式转换给出了约简计算方法。提出的方法可以避免计算所有面向对象的形式概念及面向属性的所有形式概念。另外,提出了面向对象概念格和面向属性概念格的属性特征,给出了绝对必要属性、相对必要属性、绝对不必要属性的等价描述。
    参考文献 | 相关文章 | 多维度评价
    4. 一种基于时序性告警的新型聚类算法
    邓甜甜, 熊荫乔, 何贤浩
    计算机科学    2020, 47 (6A): 440-443.   https://doi.org/10.11896/JsJkx.190600173
    摘要 (117)   PDF (3006KB) (481)  
    云环境下,大规模集群设备将产生海量时序性的告警数据,实际应用中,运维人员通常利用这些告警数据来定位、排查、修复故障和错误,维持系统的正常运行。因此,如何将海量告警数据进行有效聚类,并挖掘告警中的关键信息,必将成为“云”能否持续稳定运行的核心问题。据此,文中提出了一种基于时序性告警的新型聚类算法。算法利用设定时间窗口内两两告警之间时间差的关系,构造告警之间新的关系矩阵,再利用K-means算法对关系矩阵中的列向量进行聚类,得到告警的聚类结果。实验结果表明,该算法能充分地将海量告警信息有效聚类。
    参考文献 | 相关文章 | 多维度评价
    5. 基于CEEMD-Pearson和深度LSTM混合模型的PM2.5浓度预测方法
    丁子昂, 乐曹伟, 吴玲玲, 付明磊
    计算机科学    2020, 47 (6A): 444-449.   https://doi.org/10.11896/JsJkx.190700158
    摘要 (203)   PDF (2875KB) (304)  
    PM2.5是衡量空气污染物浓度的核心指标。通过挖掘PM2.5历史数据的时序特性,完成对未来PM2.5浓度值的精确预测具有较强的学术意义和应用价值。然而,原始PM2.5浓度值时间序列数据相关性对模型的预测精度产生了较大的影响。为了解决这个问题,文中提出一种基于补充总体经验模态分解-皮尔逊相关分析(CEEMD-Pearson)和深度长短期记忆神经网络(Long Short Term Memory,LSTM)混合模型的PM2.5浓度预测方法。该方法利用补充总体经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)对PM2.5浓度历史数据进行不同频率的分解,增强数据中体现的时序特性。然后通过Pearson相关性检验方法对分解后的不同频率子波(IMFs)进行筛选,将筛选后的增强数据输入到多隐含层的深度LSTM网络的输入层进行训练并预测。实验数据表明,CEEMD-LSTM混合模型的预测精度为80%,但是该模型在训练次数为7000次左右才收敛;而经过Pearson二次筛选后的模型在训练800次左右就已经收敛,并且精度提升到87%;CEEMD-Pearson与深度LSTM神经网络混合模型的训练效果最优,在训练650次左右就已经收敛,并且预测精度达到了90%。实验结果说明,CEEMD模态分解方法可以展现出历史数据中的隐藏时序特性,结合Pearson相关性分析进行的二次筛选可有效地提升模型训练的收敛速度和预测精度。因此,基于CEEMD-Pearson和深度LSTM的混合模型可以获得最佳的训练效果、最快的收敛速度以及最精准的预测结果,可以有效解决PM2.5浓度预测问题。
    参考文献 | 相关文章 | 多维度评价
    6. 基于判断聚合的分布式数据挖掘分类算法研究
    李莉
    计算机科学    2020, 47 (6A): 450-456.   https://doi.org/10.11896/JsJkx.190700143
    摘要 (68)   PDF (3069KB) (233)  
    随着互联网的发展和云计算技术的广泛应用,许多数据存储在不同的服务器上,分布式数据挖掘技术应运而生。智能agent在各自的站点上得到部分挖掘结果,分布式数据挖掘可以将这些部分的挖掘结果聚合成为全局的结果。文中主要处理的是分布式数据挖掘过程中的分类问题,针对一些特征的数据分别存储于不同的数据源上,提出了一种基于判断聚合模型的分类算法。该算法中每一个agent要对一个案例属于某一个目标类的可能性进行判断,然后利用判断聚合模型将这些agent的判断进行聚合,形成全局的分类结果。基于判断聚合模型的分类算法将逻辑和社会选择理论的技术应用于解决分布式数据挖掘的分类问题,这种新的算法不需要大规模地传输和转化数据,节省了传输成本,提高了分类效率,同时有效地保护了数据的安全性。
    参考文献 | 相关文章 | 多维度评价
    7. 基于Xie-Beni指数的选择性聚类集成
    邵超, 马进家
    计算机科学    2020, 47 (6A): 457-460.   https://doi.org/10.11896/JsJkx.190700044
    摘要 (85)   PDF (2594KB) (278)  
    选择性聚类集成是选择一部分精度高、差异性大的基聚类结果进行集成,从而得到更为有效的聚类集成结果。然而,聚类结果的准确性难以客观度量。为此,文中提出了一种基于Xie-Beni指数的选择性聚类集成算法,该算法采用Xie-Beni指数来度量基聚类结果的有效性,利用并结合NMI(互信息)选择出精度较高的基聚类结果,从而提升聚类结果的准确性。实验结果证实了该算法的有效性。
    参考文献 | 相关文章 | 多维度评价
    8. 基于谱聚类的多目标进化社区发现算法研究
    董明刚, 弓佳明, 敬超
    计算机科学    2020, 47 (6A): 461-466.   https://doi.org/10.11896/JsJkx.191100215
    摘要 (120)   PDF (2420KB) (282)  
    多目标优化算法在复杂网络社区发现中具有很强的竞争力,然而,在处理社区结构较为模糊、网络数据规模大的问题时难以得到满意的效果。为克服现有多目标方法的不足,提出一种基于谱聚类的多目标复杂网络社区发现算法。该算法先用谱聚类对编码后的复杂网络进行初始种群划分,利用子图聚类特性生成高质量的初始种群。采用一种网格约简的数据归减方法在进化过程中对种群进行约减,有效降低算法复杂度,以满足大规模网络社区发现需求。在仿真网络和9个真实网络上的实验结果表明,该算法在社区发现精度性能和计算复杂度方面,都要优于MRMOEA,RMOEA,MCMOEA 3种代表性的基于多目标的社区发现算法。
    参考文献 | 相关文章 | 多维度评价
    9. 基于LSTM-GA的股票价格涨跌预测模型
    包振山, 郭俊南, 谢源, 张文博
    计算机科学    2020, 47 (6A): 467-473.   https://doi.org/10.11896/JsJkx.190900128
    摘要 (287)   PDF (2758KB) (1069)  
    如何准确地进行股票预测一直是量化金融领域的重要问题。长短期记忆细胞神经网络(LSTM)的出现较好地解决了股票预测这类的复杂序列化数据学习的问题。然而前期研究结果表明单一使用该方法仍存在预测不平衡、陷入局部极值导致能力不佳的问题。基于上述问题,文中利用将遗传算法(GA)解决调参问题来保证模型预测的平衡性,由此构建了新型股票预测模型。该模型分为三部分,首先利用LSTM网络进行收盘价的预测,再利用基于遗传算法的判别机制,最终获取下一刻股票的涨跌信号。这一模型不同于先前的研究,主要针对LSTM模型的输出模块进行了改进。文中使用了中证500的日内分钟数据进行测试验证。实验得出,改进模型的各方面指标均优于单独的LSTM模型。
    参考文献 | 相关文章 | 多维度评价
    10. 基于机器学习的HBase配置参数优化研究
    徐江峰谭玉龙
    计算机科学    2020, 47 (6A): 474-479.   https://doi.org/10.11896/JsJkx.190900046
    摘要 (91)   PDF (5314KB) (207)  
    HBase是一个分布式数据库管理系统,对于需要快速随机访问大量数据的应用程序,它正变得越来越流行。但是,它有许多性能关键配置参数,这些参数之间可能会以复杂的方式相互影响,这使得手动调整它们以获得最佳性能变得极其困难。文中提出了一种新的方法来自动调优给定HBase应用程序的配置参数,称为自动调优HBase 。其关键是建立一个以配置参数为输入的低成本性能模型。为此,系统地研究了不同的建模技术,并决定采用集成学习算法来构建性能模型。随后,利用遗传算法通过性能模型为应用程序搜索最优配置参数。因此,它可以快速且自动地识别一组配置参数值,以使应用程序的性能达到最佳。实验测试了Yahoo!云服务基准的5个应用程序,结果表明,与默认配置相比,优化后的吞吐量平均提高41%,最高可达97%。与此同时,HBase操作的延迟平均降低了11.3%,最高可达57%。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共3页 共23条记录