虚拟专题
智能数据治理技术与系统

为了集中展示我国在智能数据治理技术与系统领域所取得的最新成果和进展,《计算机科学》智能数据治理技术与系统专栏收录了有关智能数据治理技术与系统研究中具有创新性和突破性的基础理论、关键技术、算法与模型、平台工具以及相关应用等方面的研究成果,旨在为智能数据治理的理论研究和实践应用提供有益的解决思路和方法。
Default Latest Most Read
Please wait a minute...
1. 基于Spark的舆情情感大数据分析集成方法
戴宏亮, 钟国金, 游志铭, 戴宏明
计算机科学    2021, 48 (9): 118-124.   https://doi.org/10.11896/jsjkx.210400280
摘要 (null)   PDF (2038KB) (null)  
随着移动互联技术的不断发展,社交媒体成为了公众分享观点和抒发情感的主要平台,在重大社会事件下对社交媒体文本进行情感分析能够有效监控舆情。针对现有中文社交媒体情感分析算法的准确性能和运行效率较低的问题,提出了一种基于Spark分布式系统的集成情感大数据分析方法(Spark Feature Weighted Stacking,S-FWS)。该方法首先基于Jieba库预分词和PMI关联度完成新词发现;然后考虑词语重要度混合提取文本特征,并使用Lasso进行特征选择;最后改进传统Stacking框架忽略特征重要度的缺点,使用初级学习器的准确率信息对类概率特征进行加权处理并构造多项式特征,进而训练次级学习器。分别在单机模式和Spark平台下引入多种算法进行对比实验,实验结果证明所提S-FWS方法的准确性能和耗时性能具备一定优势,并且分布式系统能够大幅提高算法的运行效率,同时随着集群工作节点的增加,算法耗时逐渐降低。
相关文章 | 多维度评价
2. 面向大数据分析的智能交互向导系统
余乐章, 夏天宇, 荆一楠, 何震瀛, 王晓阳
计算机科学    2021, 48 (9): 110-117.   https://doi.org/10.11896/jsjkx.200900083
摘要 (null)   PDF (3234KB) (null)  
传统的大数据工具一般为专业数据分析人员打造,具有难以上手、操作交互性差以及不够智能化等特点。而智能交互向导系统是针对大数据交互式分析系统目前存在的问题而研制的一套大数据分析辅助工具。系统既研发了用户意图理解、数据抽样及列推荐、可视化推荐、分析方法推荐等核心关键技术,也拥有良好的图形化界面与人性化的智能交互体验。在满足用户多种交互式分析需求的同时,还具有极高的响应速度。不仅可以随时回溯到分析流程任意一步重新选择方法的执行流程,还可以通过接口与各种分析应用快速集成以部署应用于不同场景。经过实验测试,系统的平均交互时间均在3 s以内,且与传统分析方法相比系统交互的执行时效加快了3倍左右。通过用户用例测试,系统的满意度相比传统工具更加优秀。智能交互向导系统通过在易用性、时效性、可交互性和智能性等方面的探索,让不同基础的用户群体都可以使用此系统完成所需的大数据分析目标。
相关文章 | 多维度评价
3. 融合偏置深度学习的距离分解Top-N推荐算法
钱梦薇, 过弋
计算机科学    2021, 48 (9): 103-109.   https://doi.org/10.11896/jsjkx.200800129
摘要 (null)   PDF (1816KB) (null)  
针对传统矩阵分解算法大多是浅层的线性模型,难以学习到深层次的用户和物品的隐特征向量,且在数据稀疏的情况下容易产生过拟合的问题,文中提出一种融合偏置深度学习的矩阵分解算法,在解决数据稀疏问题的同时,还能学习到表征能力更强的距离特征向量。首先,通过用户与物品的显式和隐式数据构建用户与物品的交互矩阵,并将交互矩阵转化为相应的距离矩阵;其次,将距离矩阵分别按行和按列输入加入偏置层的深度神经网络,学习得到具有非线性特征的用户和物品的距离特征向量;最后,根据用户和物品的距离特征向量计算用户和物品之间的距离,用距离值对物品按升序排列,生成Top-N的推荐列表。在4个真实数据集上进行实验,采用Precision,Recall,MAP,MRR和NDCG指标进行评估,结果表明所提算法在上述指标方面相比其他主流推荐算法有明显提升。
相关文章 | 多维度评价
4. 基于关联分析的铁路旅客同行预测方法
李思颖, 徐杨, 王欣, 赵若成
计算机科学    2021, 48 (9): 95-102.   https://doi.org/10.11896/jsjkx.200700097
摘要 (null)   PDF (2875KB) (null)  
随着运输技术的快速发展,铁路已成为人们出差、度假、探亲时选择的主要出行方式之一。与此同时,旅客共同出行(以下简称同行)的行为特征也越来越普遍。依据旅客间的同行关系,可以构建同行关系网络;而对该网络中潜在的链接进行预测,将有助于提供个性化的服务和产品。为此,文中提出一种原创的方法,用于在旅客同行关系网络中发现潜在的同行关系。首先对传统的图模式关联规则进行扩展,提出了两类“同行图模式关联规则”,用于预测新的同行关系和未来的同行频次。然后,将上述规则挖掘计算的问题分解为频繁同行模式挖掘、规则生成以及关联分析3个子问题,并设计了有效的分布式和集中式的算法。通过在大规模真实数据集上的测试,证明了所提方法能够高效且准确地预测旅客同行关系网络中潜在的同行关系,且两类规则的预测准确率均高于50%,远高于传统方法(如Jaccard的预测准确率为24%)。
相关文章 | 多维度评价
5. 基于历史行车轨迹集的车辆行为可视分析方法
罗月童, 汪涛, 杨梦男, 张延孔
计算机科学    2021, 48 (9): 86-94.   https://doi.org/10.11896/jsjkx.200900040
摘要 (null)   PDF (4512KB) (null)  
随着智慧城市的不断发展,基于交通卡口自动获取车辆行车轨迹,为基于轨迹的车辆行为分析奠定了基础。但是,因为卡口的位置固定,车辆轨迹表示为卡口序列,所以文中首先将卡口和轨迹分别映射为单词和句子,应用语句的语义相似性方法计算轨迹相似性;然后在轨迹相似性的基础上提出轨迹熵,用轨迹熵度量某个车辆所有轨迹的规律性;最后基于轨迹熵分析车辆的行为特征,如轨迹熵低的车辆意味着行车特别有规律,很可能是通勤车。为便于用户进行深入分析,文中进一步提供了包含多联动视图的可视分析系统,允许用户观察和比较车辆轨迹和轨迹熵,结合聚类分析和相关交互,帮助用户发现有意义的车辆行为,如上下班的通勤车的轨迹熵较低、游街模式的出租车轨迹熵很高。对昆明市2019年2月份的卡口数据集进行了分析,结果表明所提方法能有效发现不同轨迹熵区间内的车辆出行行为及其特点,证明了所提方法的有效性。
相关文章 | 多维度评价
6. 基于代价敏感卷积神经网络的非平衡问题混合方法
黄颖琦, 陈红梅
计算机科学    2021, 48 (9): 77-85.   https://doi.org/10.11896/jsjkx.200900013
摘要 (null)   PDF (2590KB) (null)  
非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想。卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降。针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法。首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率。选取6个不同的数据集,用于验证所提方法的有效性。实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能。
相关文章 | 多维度评价
7. 融合不完整多视图的异质信息网络嵌入方法
郑苏苏, 关东海, 袁伟伟
计算机科学    2021, 48 (9): 68-76.   https://doi.org/10.11896/jsjkx.210500203
摘要 (null)   PDF (3412KB) (null)  
异质信息网络(Heterogeneous Information Network,HIN)嵌入将复杂的异质信息映射到低维稠密的向量空间,有利于网络数据的计算和存储。现有的基于多视图的HIN嵌入方法考虑了节点之间的多种语义关系,但忽略了视图的不完整性。大多数视图存在数据缺失,直接融合多个不完整的视图会导致嵌入效果不佳。为此,文中提出了一种融合不完整多视图的HIN嵌入方法(Incomplete Multi-view Fusion Based HIN Embedding,IMHE)。IMHE的关键思想是聚合其他视图的邻居以重建不完整的视图。由于不同的单视图描述的是同一个网络,因此其他视图中的邻居可以一定程度上恢复不完整视图的结构信息。IMHE首先在不同视图中生成节点序列,并利用多头注意力方法学习单视图嵌入。对于每个不完整视图,IMHE在其他视图中找到缺失节点的k阶邻居,然后将不完整视图中邻居的单视图嵌入聚合在一起,为缺失节点生成新的嵌入。最后使用多视图典型相关性分析方法获得节点的统一嵌入,同时提取多个视图的隐藏语义关系。在3个真实数据集上的实验结果表明,相比现有研究,该方法的嵌入性能有显著提升。
相关文章 | 多维度评价
8. 基于频繁航路模式的航迹类型识别
宋嘉庚, 张扶桑, 金蓓弘, 窦竹梅
计算机科学    2021, 48 (9): 59-67.   https://doi.org/10.11896/jsjkx.210100014
摘要 (null)   PDF (3566KB) (null)  
随着全球定位系统和雷达技术的发展,越来越多的轨迹数据可以被收集到,其中,飞机、轮船、候鸟等对象产生的轨迹复杂多变,自由度较大。为了帮助识别飞行对象的行为和意图,航迹类型识别具有重要作用。文中提出了一种基于频繁航路模式的航迹分类方法。该方法包含一个频繁航路提取算法和一个卷积神经网络模型。算法首先对轨迹进行压缩,获得关键点;接着通过寻找轨迹自相交点提取闭合航路,然后寻找闭合航路中的频繁航路模式作为模型的分类依据;最后通过图像处理完成航迹类型的识别。文中利用FlightRadar24网站公开的真实航迹数据和模拟数据进行了大量的实验,结果表明,所提方法能有效识别复杂轨迹类型,与不经过轨迹提取的LeNet-5 CNN分类模型相比,所提方法性能更优,在轨迹分类上实现了95%以上的平均准确率。
相关文章 | 多维度评价
9. 基于多模态多层级数据融合方法的城市功能识别研究
周新民, 胡宜桂, 刘文洁, 孙荣俊
计算机科学    2021, 48 (9): 50-58.   https://doi.org/10.11896/jsjkx.210500220
摘要 (null)   PDF (3639KB) (null)  
城市功能区的划分与识别对分析城市功能区的分布现状和了解城市内部空间结构具有重要意义。这激发了多源地理空间数据融合的需求,特别是城市遥感数据与社会感知数据的融合。然而,如何有效实现城市遥感数据与社会感知数据的融合是一个技术难题。为了实现城市遥感数据与社会感知数据的融合,提高城市功能识别精度,以遥感图像和社会感知数据为例,引入多模态数据融合机制,提出了一种联合深度学习与集成学习的模型来推断城市区域功能。该模型分别利用DenseNet和DPN网络,从多源地理空间数据中提取城市遥感图像特征和社会感知特征,并进行特征级融合、决策级融合以及混合融合的多层级数据融合,对城市功能进行识别。所提模型在URFC数据集上得到了验证,其混合融合总体分类准确度、Kappa系数和平均F1值3个评价指标值分别为74.29%,0.67,71.92%。相比单模态数据的最佳分类方法,所提融合模型的3个评价指标值分别提高了18.83%,0.24,35.46%。实验结果表明,该数据融合模型具有更好的分类性能,能有效融合遥感图像数据和社会感知数据,实现城市区域功能的精准识别。
相关文章 | 多维度评价
10. 时间感知的兴趣点推荐方法
王营丽, 姜聪聪, 冯小年, 钱铁云
计算机科学    2021, 48 (9): 43-49.   https://doi.org/10.11896/jsjkx.210400130
摘要 (null)   PDF (1964KB) (null)  
在基于位置的社交网络(Location-based Social Networks,LBSN)中,用户共享位置和与位置信息相关的内容。兴趣点推荐是LBSN的重要应用,根据用户历史访问签到记录推荐其可能感兴趣的位置。与其他推荐问题(如产品推荐或电影推荐)相比,用户对兴趣点的偏好在时间感知特征上尤为凸显。文中探索了时间感知特征对兴趣点推荐任务的影响,提出了时间感知的兴趣点推荐方法TAPR(Time Aware POI Recommendation)。该算法基于不同的时间尺度构建不同的关系矩阵,并且利用张量分解将构建出的多个关系矩阵分解从而得到用户与兴趣点的表示。最后,该算法利用余弦相似性计算用户与未访问POIs的相似性得分,并结合用户偏好建模的算法得到最终推荐分数。在两个公开数据集上的实验结果表明,TAPR算法比其他基于兴趣点推荐算法表现更好。
相关文章 | 多维度评价
首页 | 上一页 | 下一页 | 尾页 第 1 页, 共2 页    总共14 条记录