1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    大数据与数据挖掘 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 基于时空循环卷积网络的城市区域人口流量预测
    郭晟楠, 林友芳, 金文蔚, 万怀宇
    计算机科学    2019, 46 (6A): 385-391.  
    摘要 (185)   PDF (4027KB) (605)  
    城市区域人口流量的准确预测可以为交通监管和市民出行提供有效的决策支持。城市各区域人口流量同时具有时间维度上的变化规律和空间维度上的相关性,这给流量的精准预测带来了极大的挑战。文中提出了一种基于注意力机制的时空循环卷积网络(ASTRCNs)模型,可以全面地对影响区域人口流量的多种因素进行统一建模。ASTRCNs共包含3个组件,分别用于描述人口流量的短时依赖关系、日周期规律、周周期规律。在真实的北京市人口流量数据集上进行了实验,结果表明ASTRCNs模型的预测效果优于传统的时间序列预测模型以及其他现有的基于深度学习的人口流量预测模型。
    参考文献 | 相关文章 | 多维度评价
    2. 基于GBDT的电力计量设备故障预测
    刘金硕, 刘必为, 张密, 刘卿
    计算机科学    2019, 46 (6A): 392-396.  
    摘要 (147)   PDF (1785KB) (406)  
    电力计量设备的故障风险预测可以减少国家电网因为故障风险带来的损失。文中首先进行了数据的预处理和特征选取;其次,设计了基于GBDT的故障大类、故障小类以及设备寿命周期的预测;最后,对设计的模型进行了有效性和先进性的验证。实验在中国电力科研研究院提供的数据上进行。由实验结果可知,所提算法对6种故障类型的预测准确率为90.56%,查全率为92.95%,F1值为91.71%。相比回归、BP神经网络、Adaboost、决策树算法,梯度提升决策树算法在参数调优条件下的性能最优。
    参考文献 | 相关文章 | 多维度评价
    3. 异构信息网络中基于元结构的协同过滤算法
    王旭, 庞巍, 王喆
    计算机科学    2019, 46 (6A): 397-401.  
    摘要 (114)   PDF (1929KB) (477)  
    近年来,异构信息网络由于包含丰富的语义信息引起了众多研究者的关注。已有的研究已经证实异构信息网络中丰富的关系信息能够提高推荐效果。作为一种挖掘异构信息网络中关系信息的重要工具,元路径已经被广泛地应用到许多算法中,然而元路径受到线性结构的限制,不能表示更加复杂的关系信息。为了解决这一问题,文中提出了一种新的推荐系统算法,即MetaStruct-CF。该算法利用元结构来挖掘异构信息网络中丰富的关系信息。不同于现有的一些算法,该算法结合了多种信息,以有效地利用异构信息网络中丰富的信息。 两个真实世界数据集上的大量实验表明,MetaStruct-CF能够有效地提高推荐效果。
    参考文献 | 相关文章 | 多维度评价
    4. 带关系属性的空间关键词并行查询处理算法
    徐哲, 刘亮, 秦小麟, 秦伟萌
    计算机科学    2019, 46 (6A): 402-406.  
    摘要 (113)   PDF (2242KB) (303)  
    移动互联网、物联网的快速发展产生了大量带关系属性的空间文本对象数据。面向网页文本数据的搜索引擎仅支持文本关键词查询,无法处理包含地理位置信息、文本信息、关系属性的混合数据。现有面向空间关键字的查询处理技术未将关系属性作为过滤条件,且是基于单机实现的,无法满足查询性能的要求。为解决上述问题,提出了一种新颖的将关系属性、空间和关键字3种属性映射成文本数据的Baseline算法(Baseline Algorithm of Distributed Keywords and Location-aware with Relational Attributes Query,BADKLRQ),利用分布式倒排文本索引对转换后的文本数据进行并行索引。针对带关系属性、空间和关键字的查询请求,将查询请求转换成映射空间中的多个文本关键字,对转换后的文本数据进行查询,并提出基于Baseline算法的改进算法MGDKLRQ,以改进空间属性转换成文本关键字的算法。实验结果表明,在索引时间和查询时间上,BADKLRQ算法比现有算法提升了10%~15%,MGDKLRQ算法比现有算法提升了20%~30%。
    参考文献 | 相关文章 | 多维度评价
    5. 基于数据分布特征的线性孪生支持向量机
    宋瑞阳, 孟华, 龙治国
    计算机科学    2019, 46 (6A): 407-411.  
    摘要 (160)   PDF (2885KB) (364)  
    孪生支持向量机(TWSVM)目前已在众多领域取得了成功的应用,但标准TWSVM模型在处理具有分布特征的数据分类问题时鲁棒性差,尤其当数据的不确定性程度较大时,不考虑样本点分布特征的标准分类模型已不能满足分类准确率的要求。为此,文中提出了基于数据分布特征的加权线性孪生支持向量机(TWSVM-U)模型,它在TWSVM的基础上考虑数据的分布特征对分类超平面位置的影响,根据数据在分类超平面法方向的分散程度定量构造距离权重。事实上,TWSVM-U是TWSVM的推广,当训练样本数据不具有分布特征时,TWSVM-U模型将退化为标准TWSVM模型。十折交叉验证的实验结果表明,TWSVM-U模型在处理波动范围较大的不确定性数据分类问题时比SVM和TWSVM表现更优。
    参考文献 | 相关文章 | 多维度评价
    6. 系统数据迁移常见问题及案例分析
    陆叶杉
    计算机科学    2019, 46 (6A): 412-416.  
    摘要 (161)   PDF (2615KB) (412)  
    社会发展日趋进步,技术框架日新月异,日常系统以新换旧已经成为趋势,新系统代替旧系统势必会涉及到新旧系统的数据对接问题。在某市某组织的系统建设中,项目需要将旧系统的所有业务数据迁移到新系统。由于新旧系统使用的表空间、表结构及表字段都不一致,为了保证数据的一致性与完整性、迁移前后的数据没有漏误、不迁入脏数据来影响新系统的运行,在项目中如何在新旧系统之间进行数据迁移成为了重要课题。为了解决数据迁移的问题,文中设计了一套基于ETL工具的数据迁移流程,并通过组合和串联得到了完整的数据迁移流程线,从而实现了数据迁移,完成了新旧系统的数据对接。文中阐述了以下几个数据在迁移中出现的问题及其解决方法:1)数据流转中出现的常见错误及解决方法;2)数据类型不一致的数据迁移问题及解决方法;3)数据迁移目标数据库字段长度不一致的问题及解决方法;4)数据迁移完成后,原数据出现新变动将如何重新调整迁移测量的问题及解决方法。基于此,文中对数据迁移过程中出现的问题与解决这些问题的方法进行了简要的分析与总结。
    参考文献 | 相关文章 | 多维度评价
    7. 时态文本数据流特征流行趋势模型及算法
    孟志青, 许微微
    计算机科学    2019, 46 (6A): 417-422.  
    摘要 (85)   PDF (1946KB) (579)  
    当今在电商和社交等平台上每天会产生大量的文本数据流。快速提取文本数据流的特征并将其用于发现一些事物的趋势变化来指导企业运营十分重要,比如服装企业必须尽可能快速而又准确地感知流行信息,服装特征的流行趋势对设计生产与经营起着至关重要的作用。以线上商品的文本数据流为研究对象,结合线上的销售文本实时数据流,定义了商品的时态文本数据流特征趋势模型,然后提出了一种文本数据流特征趋势发现的实时挖掘算法。将该算法应用到服装销售的文本描述以提取流行特征应用,可以获得有效的服装流行趋势,为企业制定生产计划、选择营销策略提供了决策支持。使用电商平台的真实销售数据进行实验,结果证明:该算法提取流行特征的准确率较高、速度较快,具有重要的理论与实际意义。
    参考文献 | 相关文章 | 多维度评价
    8. 基于随机矩阵理论的高维数据线性判别分析方法
    刘鹏, 叶宾
    计算机科学    2019, 46 (6A): 423-426.  
    摘要 (107)   PDF (1576KB) (540)  
    线性判别分析(LDA)是机器学习和数据挖掘中一种常用的基于模型的分类方法。尽管该分类方法在许多实际应用中表现良好,但在处理高维数据时其效果却很不理想。其原因在于:当变量数目p接近或者大于样本数目n时,样本协方差矩阵不再是真实协方差矩阵的一个良好估计,导致线性判别函数值产生了较大的偏差。文中提出了一种基于随机矩阵理论的高维数据分类器正则化方法。首先,利用随机矩阵理论,分别以旋转不变估计法(当p≤n时)或者特征值截取法(当p>n时)对高维协方差矩阵进行一致估计;然后,使用估计出的高维协方差矩阵计算判别函数值。在模拟数据集和3个微阵列数据集上进行的分类实验的结果表明,所提线性判别分析方法在处理高维数据时不但适用范围更广,而且具有较高的分类正确率。
    参考文献 | 相关文章 | 多维度评价
    9. 基于领域关联冗余的教务数据关联规则挖掘
    陆鑫赟, 王兴芬
    计算机科学    2019, 46 (6A): 427-430.  
    摘要 (145)   PDF (2383KB) (232)  
    教育教学的周期性以及教学环境的变化使高校教务数据具有时序性的特点,并且高校教务数据存在较多的关联冗余,因此挖掘出高效有趣的关联规则较为困难。虽然序列模式挖掘算法能够挖掘出时序频繁项集,但其并不能消除教务数据中的关联冗余,挖掘结果的效用性以及新颖性均无法满足要求。为此,文中提出了一种基于教育领域关联冗余的FUI_DK关联规则挖掘算法。FUI_DK算法基于序列模式挖掘算法产生频繁候选项集,在经典关联规则算法的支持度、置信度的基础上增加效用度以及有趣度这两个参数来得到高效用有趣项集,并根据满足条件的关联规则的支持度、置信度、效用度对其进行排序输出,最终得到具有高效用性以及有趣性的关联规则结果。在某高校学生教务数据上进行实验对比及挖掘结果分析,实验证明该算法缩短了运算时间,领域内已知关联规则的消除率可达43%,可帮助高校进行省时有效的教育数据挖掘。
    参考文献 | 相关文章 | 多维度评价
    10. 基于灰色预测和径向基网络的人口预测研究
    徐丽丽, 李洪, 李劲
    计算机科学    2019, 46 (6A): 431-435.  
    摘要 (114)   PDF (1624KB) (470)  
    针对经济增长和社会稳定的问题,对人口进行准确预测是极其重要的。因此,文中利用山东省历年的人口总数分别构建了灰色预测模型和径向基网络模型,对1995-2014年共20年的人口总量进行仿真模拟;并且针对单一模型的局限性问题,还利用标准差法对其预测结果进行了权重的重分配,并在其基础上构建了组合模型。结果表明:相对于灰色模型和径向基网络模型而言,组合预测模型的精度较高,并对2015-2025年间的人口总量利用组合模型进行了短期预测。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共11页 共107条记录