1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    大数据&数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 兴趣点推荐方法研究综述
    邢长征, 朱金侠, 孟祥福, 齐雪月, 朱尧, 张峰, 杨一鸣
    计算机科学    2021, 48 (11A): 176-183.   https://doi.org/10.11896/jsjkx.201100021
    摘要 (52)   PDF (2522KB) (91)  
    兴趣点(Point-Of-Interest,POI) 推荐是基于位置的社交网络(Location-Based Social Networks,LBSN)中一项重要的服务,无论对商家还是对客户都有重要的影响,并且兴趣点数据作为时空数据的典型更是得到了广泛关注,因此兴趣点推荐近年来已经成为学术界的热门研究课题。文章分析了兴趣点推荐的影响因素,对传统兴趣点推荐方法进行了总结,分析了最新的基于图嵌入方法以及图神经网络在兴趣点推荐领域中的应用,最后对兴趣点推荐所面临的挑战以及未来的研究趋势加以分析。
    参考文献 | 相关文章 | 多维度评价
    2. 基于区块链的大数据交易关键技术与发展趋势
    曹萌, 于洋, 梁英, 史红周
    计算机科学    2021, 48 (11A): 184-190.   https://doi.org/10.11896/jsjkx.210100163
    摘要 (53)   PDF (1870KB) (123)  
    大数据时代下各类数据价值日益凸显,不同主体对大数据交易的需求也愈加迫切。传统集中式平台下的大数据交易存在用户数据被恶意采集、隐私泄露、数据被转售、数据虚假等诸多风险。一般认为,采用具有去中心化、透明性、隐私保护、不可篡改性等特点的区块链技术是解决上述大数据交易问题的一种重要途径。然而,区块链技术在大数据交易领域的应用还处于早期发展阶段,应用方案尚未成熟。对此,对目前学术界提出的多种基于区块链技术的数据交易方案进行总结,从隐私保护、数据转卖和交易公平3个角度出发,介绍使用区块链技术提升集中式数据交易的具体方法,并对各方法的优缺点进行分析;最后从隐私保护、身份认证、海量数据等方面分析“区块链+大数据交易”目前面临的挑战和未来的发展方向。
    参考文献 | 相关文章 | 多维度评价
    3. 基于自适应时间戳与多尺度特征提取的轨迹下一足迹预测模型
    李艾玲, 张凤荔, 高强, 王瑞锦
    计算机科学    2021, 48 (11A): 191-197.   https://doi.org/10.11896/jsjkx.201200015
    摘要 (34)   PDF (2442KB) (62)  
    基于位置的服务已经成为人类生活方式的一部分,各种移动终端设备产生了大量时空上下文用户信息,其可被用于预测用户的下一个足迹。目前已提出一些解决方案来预测用户下一个足迹,包括递归运动函数(RMF)、矩阵分解(MF)、差分自回归移动平均模型(ARIMA)、马尔可夫链(MC)、个性化马尔可夫链(FPMC)、卡尔曼滤波器(KF)、高斯混合模型和张量分解(TF)。除此之外,也可以使用诸如ST-RNN,POI2Vec,DeepMove,VANext等深度神经网络方法来预测用户的下一个足迹,这些方法利用递归神经网络(RNN)捕获来自人类活动的顺序运动模式。然而,现有方法使用一些人为设定的阈值来分割人类移动性数据以进行用户运动模式学习,人为固定时间戳设置不仅引入了人为主观因素,而且忽略了不同用户之间的差异性,这可能会导致移动模式发生偏差;而且现有方法针对用户轨迹特征提取过于单一化,单一特征忽略了很多用户轨迹潜在信息。基于自适应时间戳与多尺度特征提取的轨迹预测模型(AMSNext)旨在首次结合历史轨迹数据的时间统计特性,自适应地为每一个用户定义个性化时间戳,关注不同用户运动模式之间的差异性;并结合时间序列特征提取方法多尺度对用户轨迹特征进行提取,同时为实现多尺度特征量纲统一,将会采取归一化因果嵌入对特征进行向量嵌入。实验证明,该模型可以取得较高的预测精度。
    参考文献 | 相关文章 | 多维度评价
    4. 基于网络表示学习的深度社团发现方法
    潘雨, 邹军华, 王帅辉, 胡谷雨, 潘志松
    计算机科学    2021, 48 (11A): 198-203.   https://doi.org/10.11896/jsjkx.210200113
    摘要 (46)   PDF (2251KB) (74)  
    挖掘复杂网络中的社团结构有助于理解网络内部结构和功能特性,具有重要的理论价值和实际应用意义。随着信息技术的飞速发展,爆炸式增长的网络数据为社团发现任务提出了前所未有的挑战。为此,文中利用深度神经网络将网络表示学习和社团发现领域相连接,提出一种基于网络表示学习的深度社团发现方法。算法首先根据节点潜在的社团成员相似性来量化节点之间的结构相似度,从而构造包含潜在社团结构信息的社团结构矩阵;然后建立由多个非线性函数组成的多层自编码器,将社团结构矩阵作为深度自编码器的输入,获得保存了潜在社团结构的节点低维表示;最后在网络表示上应用K-means聚类策略获得社团结构。在不同规模的真实网络和人工网络上进行了大量的实验,并与典型的算法进行比较,实验结果表明了算法的可行性和有效性。
    参考文献 | 相关文章 | 多维度评价
    5. 用于多元时间序列预测的自适应频域模型
    王晓迪, 刘鑫, 于晓
    计算机科学    2021, 48 (11A): 204-210.   https://doi.org/10.11896/jsjkx.210500129
    摘要 (41)   PDF (3528KB) (86)  
    近年来,学术和工业领域对时间序列数据的研究热潮不断增长,但其中蕴含的频率信息仍缺乏有效的建模。研究发现,时间序列预测依赖于不同的频率模式,为未来的趋势预测提供有用的线索:短期的序列预测更多依赖于高频分量,而长期预测则更多关注低频数据。为更好地挖掘时间序列的多频模式,提出了一个多特征自适应频域预测模型MAFD。该模型分为两个阶段:在第一阶段中,模型通过XGBoost算法对输入向量进行重要性度量,选择高重要性特征;在第二阶段,模型将时间序列的频率特征提取和目标序列的频域建模集成到一起,并根据时间序列对频率模式的依赖特点构建一个端到端的预测网络。MAFD的创新性体现在预测网络能够根据输入序列的动态演变自动关注不同的频率分量,从而揭示时间序列的多频模式,强化模型的学习能力。采用4种不同领域的数据集对模型进行了性能验证,实验结果表明,与现有经典的预测模型相比,MAFD具有更高的准确性和更小的滞后性。
    参考文献 | 相关文章 | 多维度评价
    6. 基于自我中心网络结构特征和网络表示学习的链路预测算法
    赵曼, 赵加坤, 刘金诺
    计算机科学    2021, 48 (11A): 211-217.   https://doi.org/10.11896/jsjkx.201200231
    摘要 (36)   PDF (2249KB) (77)  
    链路预测是网络分析与挖掘领域中备受关注的研究方向。链路预测算法所预测的网络中的缺失连接实际上是一种数据挖掘的过程,而推断的将来可能产生的连接则与网络的发展演化相关。因此,如何提高链路预测的精确度是一项有意义且具有挑战性的研究。基于自我中心网络分解和社区聚类的最新研究,提出一种基于自我中心网络结构特征和网络表示学习的链路预测算法(Ego-Embedding)。Ego-Embedding将原网络转换成角色图,再结合网络的微观结构信息和上下文信息重构嵌入过程,为每一个节点学习一个或多个向量表示,使向量表示更准确地描述网络节点信息,从而提高链路预测的精确度。在3个公开数据集(Facebook,PPI-Yeast和ca-HepTh)上进行实验仿真,并使用AUC作为评价指标,仿真结果表明,算法Ego-Embedding的表现均优于5个实验对比方法(CN,AA,Node2vec,M-NMF和Splitter),且最高将链路预测的错误率减少了约47%。
    参考文献 | 相关文章 | 多维度评价
    7. 基于特征相似度计算的网页包装器自适应
    陈迎仁, 郭莹楠, 郭享, 倪一涛, 陈星
    计算机科学    2021, 48 (11A): 218-224.   https://doi.org/10.11896/jsjkx.210100230
    摘要 (36)   PDF (2050KB) (48)  
    随着大数据的发展,互联网数据呈现爆炸式的增长。Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据。但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本。针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术。该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取。该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验。实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到 82.2%和 84.36%。
    参考文献 | 相关文章 | 多维度评价
    8. 混合部署数据中心失效负载分析
    蒋从锋, 殷继亮, 胡海周, 闫龙川, 张纪林, 万健, 仇烨亮
    计算机科学    2021, 48 (11A): 225-231.   https://doi.org/10.11896/jsjkx.201200066
    摘要 (33)   PDF (3549KB) (51)  
    数据中心工作负载混合部署在显著提升云数据中心的资源利用率的同时,也增加了调度的复杂性和作业的失效率。以阿里云发布的数据中心日志数据集cluster-trace-v2018为例,从离线批处理工作负载角度出发,详细地分析了不同类型工作负载在成功率和资源利用上的特征。主要发现如下:1)少量类型作业的失效会影响集群整体作业成功率并造成集群资源的浪费;2)伏羲分布式调度系统在任务故障切换执行时间上满足高斯分布,在任务调度延迟方面满足齐夫分布;3)通过分析失败实例在集群节点上的分布,发现集群作业发生失败在空间上具有随机性,且失败的实例很容易再次发生失败,而在时间上集群整体失败率则存在不平衡性;4)以任务实例的失效为基准,计算了集群节点的平均无故障时间,大部分节点的平均无故障时间在1 000 s左右,小部分节点的任务实例失效率低,其平均无故障时间可达10 000 s以上。
    参考文献 | 相关文章 | 多维度评价
    9. 网上购物平台多推荐融合算法研究
    朱育颉, 刘虎沉
    计算机科学    2021, 48 (11A): 232-235.   https://doi.org/10.11896/jsjkx.201200010
    摘要 (32)   PDF (1553KB) (111)  
    推荐系统能帮助用户有效解决信息过载问题,现已被广泛应用于各大网上的购物平台。对用户而言,好的推荐算法能够帮助其从海量商品中快速准确发现符合自己需求的商品;对商家而言,及时呈现给用户恰当的物品能帮助商家实现精准营销,发掘长尾商品并推荐给感兴趣的用户以提高销售额。协同过滤、基于内容推荐是目前应用成熟的推荐方法,但这些方法存在数据疏散、冷启动、可扩展性差和多媒体信息特征难以提取等问题。因此,文中提出基于融合LR-GBDT-XGBOOST的个性化推荐算法,可有效缓解上述问题。在阿里巴巴天池大数据竞赛公开数据集上进行实验,结果显示,该算法降低了推荐稀疏性,提高了推荐精度。
    参考文献 | 相关文章 | 多维度评价
    10. 基于KL-Ball的社区挖掘方法
    娄铮铮, 王冠威, 李辉, 吴云鹏
    计算机科学    2021, 48 (11A): 236-243.   https://doi.org/10.11896/jsjkx.210300205
    摘要 (28)   PDF (2560KB) (44)  
    针对邻接矩阵的稀疏特性,采用KL散度来计算网络节点间的距离,提出了一种基于KL-Ball的社区挖掘方法。该方法中,一个KL-Ball代表一个社区,它从质心、半径、互信息及密度4个方面来描述社区,其中质心决定了社区在网络中的位置,半径刻画了社区所能覆盖的范围,互信息度量了社区中包含节点的一致性,密度反映了社区包含节点的数量。给定一个半径,期望从复杂网络中寻找具有低信息、高密度的社区,低信息使得社区包含的节点具有较强的一致性,高密度使得一个社区具有较强的凝聚性。为此,定义了一个基于KL-Ball的社区挖掘目标函数,给出它的优化算法,并从理论上证明了该算法的收敛性。依据社区半径的大小及质心的位置,该算法可应用于非重叠社区挖掘以及重叠社区挖掘。实验结果表明,基于KL-Ball的社区挖掘方法可有效地挖掘网络中蕴含的社区结构,包括非重叠的社区及重叠的社区。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共6页 共60条记录