1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据库&大数据&数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    1. 非均衡数据分类经典方法综述与面向医疗领域的实验分析
    江昊琛, 魏子麒, 刘璘, 陈俊
    计算机科学    2022, 49 (1): 80-88.   https://doi.org/10.11896/jsjkx.210200124
    摘要 (9)   PDF (2115KB) (29)  
    近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果。相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的。针对这一应用现状,文中首先围绕“数据非均衡”问题开展了文献调研,尝试通过寻找该问题的通用解决办法来指导在智慧医疗环境下的应用。之后,以数据挖掘领域的会议SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)近年来涉及非均衡数据集的工作为分析样本,统计针对特定领域的“数据非均衡”问题人们倾向选择的处理方法。最后,通过医学数据分析中的两个典型应用场景,对调研获得的知识和方法进行实验应用,从而验证了调研和统计分析中所得出方法的可用性。
    参考文献 | 相关文章 | 多维度评价
    2. 一种面向动态科研网络的社区检测算法
    蒲实, 赵卫东
    计算机科学    2022, 49 (1): 89-94.   https://doi.org/10.11896/jsjkx.210100023
    摘要 (17)   PDF (1701KB) (26)  
    科研网络是一类动态变化的异构信息网络,科研网络上的社区检测能挖掘出学术主体的所属社区并发现蕴含于科研社区中的洞察。既有的社区检测算法忽略了科研网络的动态特征和科研主体间的特殊关系,未将科研社区内部的紧密程度和社区间的关系纳入社区检测算法中予以优化,对此提出了一种基于动态科研网络表示学习的社区检测算法DANE-CD。首先基于科研网络自编码器学习科研网络中学术主体的表示向量,然后创新性地在表示学习过程中融入了基于模块度和团队断裂带两个维度的聚类优化,最后基于堆栈自编码器构造了动态科研网络表示学习模型,同时完成了对科研网络的社区检测。在DBLP和HEP-TH两个真实科研数据集上进行了实验,实验结果显示算法在准确率、归一化互信息和模块度3个指标上优于既有科研社区检测算法,可以较好地完成动态科研网络下的社区检测任务。
    参考文献 | 相关文章 | 多维度评价
    3. 面向海量空间数据的分布式距离连接算法
    王如斌, 李瑞远, 何华均, 刘通, 李天瑞
    计算机科学    2022, 49 (1): 95-100.   https://doi.org/10.11896/jsjkx.210100060
    摘要 (18)   PDF (2162KB) (28)  
    空间距离连接是空间数据分析最基本的操作之一,具有广泛的应用场景。针对现有分布式方法的空间域选取过大、数据倾斜、自连接较慢的问题,提出了一种新的面向海量空间数据的分布式距离连接算法JUST-Join。首先,JUST-Join仅选取必要的空间区域作为全局域,能够提前过滤数据,减少无效的数据传输和不必要的计算开销;然后,同时考虑了参与连接的两个数据集的分布,从而缓解了数据倾斜问题;最后,针对自连接情形的冗余计算,采用平面扫描算法来进一步提高效率。文中使用Spark实现了JUST-Join算法,并利用真实的数据集做了大量实验。实验结果表明,JUST-Join算法在效率和扩展性方面都优于现有的最先进的分布式空间分析系统。
    参考文献 | 相关文章 | 多维度评价
    4. 基于DeepFM和卷积神经网络的集成式多模态谣言检测方法
    陈志毅, 隋杰
    计算机科学    2022, 49 (1): 101-107.   https://doi.org/10.11896/jsjkx.201200007
    摘要 (18)   PDF (2092KB) (26)  
    随着以微博为代表的社交媒体越来越流行,谣言信息借助社交媒体迅速传播,容易造成严重的后果,因此自动谣言检测问题受到了国内外学术界、产业界的广泛关注。目前,越来越多的用户使用图片来发布微博,而不仅仅是文本,微博通常由文本、图像和社会语境组成。因此,文中提出了一种基于深度神经网络,针对配文文本内容、图像以及用户属性信息的多模态网络谣言检测方法DCNN。该方法由多模态特征提取器和谣言检测器组成,多模态特征提取器分为3部分,即基于TextCNN的文本特征提取器、基于VGG-19的图片特征提取器和基于DeepFM算法的用户社会特征提取器,分别用于学习微博不同模态上的特征表示,以形成重新参数化的多模态特征,特征融合后将该融合后的多模态特征作为谣言检测器的输入进行分类检测。在微博数据集上对该算法进行了大量实验,实验结果表明DCNN算法将识别准确率从78.1%提高到了80.3%,验证了DCNN算法和其中对社会特征建立特征交互方法的可行性与有效性。
    参考文献 | 相关文章 | 多维度评价
    5. 一种可用于分类型属性数据的多变量回归森林
    刘振宇, 宋晓莹
    计算机科学    2022, 49 (1): 108-114.   https://doi.org/10.11896/jsjkx.201200189
    摘要 (10)   PDF (1623KB) (14)  
    针对线性回归、SVR以及大部分多变量回归树等回归模型不能直接利用分类型属性进行回归分析的问题,提出了一种可联合多种类型属性的决策树结点划分方法。该方法通过定义样本集合在分类型属性上的中心以及样本到中心的距离,使得分类型属性也可以像数值型属性一样参与样本的聚类过程,从而形成样本集的划分。之后,文中又为由该方法产生的决策树选择了合适的集成方案,生成的集成器被称为聚类回归森林(CRF)。最后,在12个UCI公开数据集上对比CRF与其他9个回归模型的回归平均绝对误差(MAE)和均方根误差(RMSE),实验结果表明,CRF在10个回归模型中具有最好的表现。
    参考文献 | 相关文章 | 多维度评价
    6. 融合时间特性和用户偏好的卷积序列化推荐
    陈晋鹏, 胡哈蕾, 张帆, 曹源, 孙鹏飞
    计算机科学    2022, 49 (1): 115-120.   https://doi.org/10.11896/jsjkx.201200192
    摘要 (17)   PDF (2002KB) (19)  
    推荐系统如今已被广泛应用于生活中,大大便利了人们的生活。传统的推荐方法主要是针对用户与物品的交互情况进行分析,分析用户与物品的历史记录,得到的只是用户过去对于物品的喜好程度。序列化推荐系统通过分析用户近一段时间与物品交互的序列,来考虑用户前后行为的关联性,能够获得用户短期内对物品的喜好程度。然而,序列化方法强调的是用户与物品在短期的联系,忽视了物品属性之间存在的关系。针对以上问题,文中提出了融合时间特性和用户偏好的卷积序列化推荐(Convolutional Embedding Recommendation with Time and User Preference,CERTU)模型。该模型能够分析物品之间存在的多样性关系,从而捕获用户对物品随时间变化的动态喜好程度这一特性。除此之外,该模型进一步考虑了物品序列中存在的单个物品和多个物品对下一物品推荐的影响。实验结果表明,CERTU模型的性能优于当前的基线方法。
    参考文献 | 相关文章 | 多维度评价
    7. 结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究
    张亚迪, 孙悦, 刘锋, 朱二周
    计算机科学    2022, 49 (1): 121-132.   https://doi.org/10.11896/jsjkx.201100148
    摘要 (13)   PDF (2786KB) (22)  
    聚类是一种经典的数据挖掘技术,它在模式识别、机器学习、人工智能等多个领域得到了广泛的应用。通过聚类分析,目标数据集的深层次结构可以被有效地发掘出来。作为一种常用的划分聚类算法,K-means具有实现简单、能够处理大型数据等优点。然而,受收敛规则的影响,K-means算法仍然存在着对初始类簇中心的选取非常敏感、不能很好地处理非凸型分布和有离群值的数据集等问题。文中提出了一种基于密度参数和中心替换的改进K-means算法DC-Kmeans。该算法采用数据对象的密度参数来逐步确定初始类簇中心,使用中心替换方法更新偏离实际位置的初始中心,因而比传统聚的类算法更加精确。为了获得最佳聚类效果,文中同时提出了一个能够对聚类结果进行有效评价的新聚类有效性指标SCVI和一个能够快速获得目标数据集最佳类簇数的新算法OCNS。实验结果表明,所提聚类方法对各种类型的数据集都是有效的。
    参考文献 | 相关文章 | 多维度评价
    8. 基于生成对抗网络和元路径的异质网络表示学习
    蒋宗礼, 樊珂, 张津丽
    计算机科学    2022, 49 (1): 133-139.   https://doi.org/10.11896/jsjkx.201000179
    摘要 (13)   PDF (2247KB) (29)  
    现实世界中的信息网络大多为异质信息网络,旨在表示低维空间中节点数据的网络表示方法已普遍用于分析异质信息网络,从而有效融合异质网络中丰富的语义信息和结构信息。但是现有的异质网络表示方法通常采用负采样从网络中随机选择节点,并且对节点和边的异质性学习能力不足。受生成式对抗网络和元路径的启发,文中提出了一种新型的异质网络表示方法。首先对采样方法使用元路径的策略进行改进,根据元路径不同的权重取样,使样本更好地体现节点之间存在的直接和间接关系,增强样本的语义关联。然后在生成对抗的博弈过程中使模型充分考虑节点和边的异质性并具备关系感知能力,实现对异质信息网络的表示学习。实验结果表明,与目前的表示算法相比,该模型学习到的表示向量在分类和链路预测实验中具有更好的性能表现。
    参考文献 | 相关文章 | 多维度评价
    9. 基于多头注意力机制的用户窃电行为检测
    肖丁, 张玙璠, 纪厚业
    计算机科学    2022, 49 (1): 140-145.   https://doi.org/10.11896/jsjkx.210100177
    摘要 (15)   PDF (1880KB) (23)  
    窃电对社会和经济发展造成了重大损害。如何基于电力大数据来检测用户恶意窃电行为,已受到学术界和工业界的广泛关注。针对传统方法依赖于手工特征、行为序列表征不足和检测精度差等问题,提出了一种基于多头注意力机制的窃电检测模型(Electricity Theft Detection Based on Multi-Head Attention,ETD-MHA)。该模型基于双向门控循环神经网络(Bidirectional Gated Recurrent Unit,BiGRU)充分捕获用户用电行为序列的时序特征,引入多头注意力机制来进一步增强关键特征的区分度,并通过加深网络来提高学习效果。在爱尔兰和中国国家电网智能电表数据集上进行了大量的实验,结果表明,相比传统的逻辑回归(Linear Regression,LR)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)等多种算法,所提模型展现出了明显的优势。例如,在爱尔兰智能电表数据集上,其AUC值相比LR算法最高提升了34.6%。
    参考文献 | 相关文章 | 多维度评价
    10. 基于邻域一致性的异常检测序列集成方法
    刘意, 毛莺池, 程杨堃, 高建, 王龙宝
    计算机科学    2022, 49 (1): 146-152.   https://doi.org/10.11896/jsjkx.201000156
    摘要 (13)   PDF (2104KB) (17)  
    异常检测已广泛应用于多个应用领域,如网络入侵检测、信用卡欺诈检测等。数据维度的增加导致出现许多不相关和冗余的特征,这些特征会掩盖相关特征,出现假阳性结果。由于高维数据具有稀疏性和距离聚集效应,传统的基于密度、距离等的异常检测算法不再适用。大部分基于机器学习的异常检测研究都关注单一模型,而单一模型在抗过拟合能力上存在一定的不足。集成学习模型有着良好的泛化能力,而且在实际应用中展现出比单一模型更好的预测准确性。文中提出了基于邻域一致性的异常检测序列集成方法(Locality and Consistency Based Sequential Ensemble Method for Outlier Detection,LCSE)。首先基于多样性构造异常检测基本模型,其次根据全局集成一致性筛选出异常候选点,最后考虑数据局部邻域相关性选择并组合基本模型结果。通过实验验证,LCSE相比传统方法异常检测的准确率平均提升了20.7%,与集成算法LSCP_AOM和iForest相比,性能 (AUC)平均提升了3.6%,因此其性能优于其他集成方法和神经网络方法。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共18页 共180条记录