1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据库&大数据&数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于图卷积神经网络的节点分类方法研究综述
    张丽英, 孙海航, 孙玉发, 石兵波
    计算机科学    2024, 51 (4): 95-105.   DOI: 10.11896/jsjkx.230600071
    摘要39)      PDF(pc) (1683KB)(64)    收藏
    节点分类任务是图领域中的重要研究工作之一。近年来随着图卷积神经网络研究工作的不断深入,基于图卷积神经网络的节点分类研究及其应用都取得了重大进展。图卷积神经网络是基于卷积发展出的一类图神经网络,能处理图数据且具有卷积神经网络的优点,已成为图节点分类方法中最活跃的一个研究分支。对基于图卷积神经网络的节点分类方法的研究进展进行综述,首先介绍图的相关概念、节点分类的任务定义和常用的图数据集;然后探讨两类经典图卷积神经网络——谱域和空间域图卷积神经网络,以及图卷积神经网络在节点分类领域面临的挑战;之后从模型和数据两个视角分析图卷积神经网络在节点分类任务中的研究成果和未解决的问题;最后对基于图卷积神经网络的节点分类研究方向进行展望,并总结全文。
    参考文献 | 相关文章 | 多维度评价
    2. 基于Transformer的节点影响力排序模型
    席颖, 邬学猛, 崔晓晖
    计算机科学    2024, 51 (4): 106-116.   DOI: 10.11896/jsjkx.230300110
    摘要37)      PDF(pc) (3477KB)(35)    收藏
    节点影响力排序是复杂网络的一个重点话题,对识别关键节点和衡量节点影响力有着重要作用。目前,已有诸多研究基于复杂网络探索节点影响力,其中深度学习显示出了巨大的潜力。然而,现有卷积神经网络(CNNs) 和图神经网络(GNNs) 模型的输入往往基于固定维度特征,且不能有效地区分邻居节点,无法适应多样性的复杂网络。为了解决上述问题,文中提出了一种简单且有效的节点影响力排序模型。该模型中,节点的输入序列包含节点本身及其邻居节点的信息,且可以根据网络动态调整输入序列长度,确保模型获取到足量的节点信息。同时该模型利用自注意力机制,使节点可以有效地聚合输入序列中邻居节点的信息,从而全面地识别节点的影响力。在12个真实网络数据集上进行实验,通过多维度的评价标准验证了该模型相比7种已有方法的有效性。实验结果表明,在不同的网络结构中,该模型均能有效地识别网络中节点的影响力。
    参考文献 | 相关文章 | 多维度评价
    3. 基于代表性节点扩张的保持社区结构的图采样算法
    宏宇, 陈鸿昶, 张建朋, 黄瑞阳, 李邵梅
    计算机科学    2024, 51 (4): 117-123.   DOI: 10.11896/jsjkx.230100018
    摘要22)      PDF(pc) (1789KB)(22)    收藏
    作为一种能够简化大规模图并保留其指定属性的方法,图采样被广泛应用于现实生活中。然而当前研究大多集中于保留节点级的性质,如度分布等,而忽略了图的社区结构等更为重要的信息。针对此问题,提出了一种保持社区结构的图采样算法。算法主要分为两个步骤,第一步为初始化社区代表点,根据提出的节点重要度计算公式算出节点的重要度,然后选出每个社区的代表性节点;第二步为社区结构扩张,针对每个社区,选择可能引入最少额外邻居的节点加入社区中,直到达到该社区节点上限。在多个真实数据集上进行了对比实验,使用多个评价指标来评估实验结果。实验结果表明,所提出的采样算法能够很好地保持原始图的社区结构,为大规模图的社区结构采样提供了可行的解决方案。
    参考文献 | 相关文章 | 多维度评价
    4. 基于聚簇模型重用的概念漂移数据流半监督分类算法
    康伟, 黎利辉, 文益民
    计算机科学    2024, 51 (4): 124-131.   DOI: 10.11896/jsjkx.230300023
    摘要22)      PDF(pc) (1987KB)(33)    收藏
    带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史聚簇模型。因此,文中提出了一种新的聚簇模型重用的半监督分类算法,称为CDCMR。首先,数据流以数据块的形式到来,对数据块分完类后,训练一个簇数自适应确定的聚簇模型。其次,通过计算分类器池中的各组件分类器与聚簇模型之间的相似度,挑选多个组件分类器。再次,用当前数据块对挑选出来的组件分类器进行模型重用后,与聚簇模型集成。然后,将分类器池划分为新旧更替和多样性最大化分类器池进行更新。最后,对下一个数据块的样本进行集成分类。在多个人工和真实数据集上进行实验,结果表明,所提算法1)能有效适应概念漂移,与现有方法相比其性能有显著性提升。
    参考文献 | 相关文章 | 多维度评价
    5. 图神经网络节点分类任务基准测试及分析
    张陶, 廖彬, 于炯, 李敏, 孙瑞娜
    计算机科学    2024, 51 (4): 132-150.   DOI: 10.11896/jsjkx.230200084
    摘要26)      PDF(pc) (11589KB)(50)    收藏
    图神经网络(Graph Neural Network,GNN)模型由于采用端到端的模型架构,在训练过程中能够更好地将节点隐藏特征的学习和分类目标协同起来,相比图嵌入(Graph Embedding)的方法,其在节点分类等任务上得到了较大的性能提升。但是,已有图神经网络模型实验对比阶段普遍存在的数据集类型单一、样本量不足、数据集切分不规范、对比模型规模及范围有限、评价指标单一、缺乏模型训练耗时对比等问题。为此,文中选取了包括cora,citeseer,pubmed,deezer等在内的来自不同领域(引文网络、社交网络及协作网络等)的共计20种数据集,以准确率、精确率、召回率、F-score值及模型训练耗时为多维评价指标,在FastGCN,PPNP,ChebyNet,DAGNN等17种主流图神经网络模型上,进行了全面且公平的节点分类任务基准测评,进而为真实业务场景下的模型选择提供了决策参考。通过基准测试实验发现,一方面,影响模型训练速度的因素排名依次是节点属性维度、图节点规模及图边的规模;另一方面,并不存在赢者通吃的模型,即不存在在所有数据集下全都表现优异的模型,特别是在公平的基准测试配置环境下,结构简洁的模型反而比复杂的GNN模型有着更好的性能表现。
    参考文献 | 相关文章 | 多维度评价
    6. 基于双路先验自适应图神经常微分方程的交通流预测
    袁蓉, 彭莉兰, 李天瑞, 李崇寿
    计算机科学    2024, 51 (4): 151-157.   DOI: 10.11896/jsjkx.230100066
    摘要19)      PDF(pc) (2049KB)(25)    收藏
    准确的交通流量预测是智能交通系统不可或缺的组成部分。近年来,图神经网络在交通流预测任务中取得了较好的预测结果。然而,图神经网络的信息传递是不连续的潜在状态传播,且随着网络层数的增加存在过平滑的问题,这限制了模型捕获远距离节点的空间依赖关系的能力。同时,在表示道路网络的空间关系时,现有方法大多仅使用先验知识构建的预定义图或仅使用路网状况构建的自适应图,忽略了两类图结合的方式。针对上述问题,提出了一种基于双路先验自适应图神经常微分方程的交通流预测模型。利用时间卷积网络捕获序列的时间相关性,使用先验自适应图融合模块表示道路网络的空间关系,并通过基于张量乘法的神经常微分方程以连续的方式传播复杂的时空特征。最后,在美国加利福尼亚州4个公开的高速公路流量数据集上进行对比实验,结果表明所提模型的预测效果优于现有的10种对比方法。
    参考文献 | 相关文章 | 多维度评价
    7. 基于差异补偿和短期采样对比损失的城市电力负荷预测方法
    陈润桓, 戴华, 郑桂能, 李惠, 杨庚
    计算机科学    2024, 51 (4): 158-164.   DOI: 10.11896/jsjkx.230100089
    摘要19)      PDF(pc) (3180KB)(24)    收藏
    城市电力负荷预测是城市智能电网规划和调度的一项重要内容。然而,城市电力负荷预测中存在数据不均的问题,给城市电力负荷预测带来了巨大挑战。传统的基于单一模型的方法难以解决数据不均的问题,而现有的基于多模型的预测方法根据电力负荷分布将数据集拆分成多个子数据集,然后分别建立多个预测模型进行预测,该类方案在一定程度上解决了数据不均问题,但存在模型构建成本较高、不同分布样本间共有的电力分布特征发生分离等问题。基于此,提出了一个轻量级城市电力负荷预测模型(Lighten-DCSC-LSTM)。该模型通过在长短期记忆网络的基础上引入差异补偿的思想和短期采样对比损失进行构建,同时构建共享特征提取层来降低模型构建成本。其中,差异补偿思想通过学习不同电力负荷分布样本之间的差异对主序列预测模块的预测结果进行差异补偿,短期采样对比损失通过动态类中心的对比学习损失对模型的训练进行正则化。为了验证模型的性能,进行了参数调优和对比实验。对比实验结果表明,模型在预测电力负荷的任务中取得了良好的性能。
    参考文献 | 相关文章 | 多维度评价
    8. 基于Transformer的街道停车位数据补全和预测
    林滨伟, 於志勇, 黄昉菀, 郭贤伟
    计算机科学    2024, 51 (4): 165-173.   DOI: 10.11896/jsjkx.221200171
    摘要29)      PDF(pc) (2892KB)(38)    收藏
    随着城市汽车数量的持续增长,街道停车难已经成为一个热点问题。解决街道停车问题的关键在于准确预测街道未来的停车位信息。移动群智感知方式(CrowdSensing)通过在车辆上安装声呐以感知路边的停车位情况,是一种低成本、高效益的感知停车位的方式,然而这种方式感知的停车位数据在时间上存在高稀疏性问题,传统模型无法直接用于预测。针对此问题,提出了一种基于Transformer的停车位序列补全和预测网络,此网络通过编码器生成缺失停车位序列的记忆,进而解码器以自回归的方式补全停车位序列中缺失的部分,同时预测出未来的停车位信息。实验结果表明,所提方法在两个高缺失的街道停车位数据集上的补全和预测效果都优于传统的机器学习和深度学习方法。
    参考文献 | 相关文章 | 多维度评价
    9. 基于自然语言生成的制造企业自动化图表分析方法研究
    王旭, 刘昌宏, 李生春, 刘爽, 赵康廷, 陈亮
    计算机科学    2024, 51 (4): 174-181.   DOI: 10.11896/jsjkx.230400031
    摘要27)      PDF(pc) (3038KB)(31)    收藏
    随着数字化转型的浪潮席卷全球,制造企业每天都会产生大量的图表数据,传统的图表分析方法很难对图表数据进行高效、准确的分析,自动化图表分析方法成为图表分析的重要手段。为解决自动化图表分析方法在实际应用时很难满足具体需求的问题,提出了一种基于自然语言生成的制造企业自动化图表分析方法。该方法基于LSTM对图表数据进行分析,并针对分析过程中出现的多余数据误导LSTM等问题,在嵌入层之后增加判别器层使LSTM能够根据图表类型进行更有针对性的语义理解和文本预测;针对图表分析过程中生成描述语句质量差等问题,参考集束搜索和随机采样策略,提出随机集束采样策略以提高图表分析质量,并引入知识蒸馏方法对LSTM进行优化,进一步提高描述文本的质量。实验证明,相较于LSTM,该方法文本质量提升了8.9%。为了便于将该方法应用在实际中,设计并开发了制造企业自动化图表分析系统,并将该方法引入作为图表分析工具。实验结果表明,所提方法能够提高制造企业图表分析的质量和效率。
    参考文献 | 相关文章 | 多维度评价
    10. 基于启发式粗化算法的半监督图神经网络的训练加速框架及算法
    陈裕丰, 黄增峰
    计算机科学    2024, 51 (3): 48-55.   DOI: 10.11896/jsjkx.221200158
    摘要72)      PDF(pc) (1576KB)(139)    收藏
    图神经网络是当前阶段图机器学习的主流工具,发展势头强劲。通过构建抽象图结构,运用图神经网络模型能够高效地处理多种应用场景下的问题,包括节点预测、链接预测和图分类等方向。与之相对应,一直以来,在大规模图上的应用是图神经网络训练中的关键点和难点,如何有效、快速地在大规模图数据上进行图神经网络的训练和部署是阻碍图神经网络进一步工业化应用的一大难题。图神经网络因为能够利用图的网络结构的拓扑信息,所以在如节点预测的赛道上能够取得比一般其他神经网络如多层感知机等更好的效果,但是图的网络结构的节点个数和边的条数的规模增长制约了图神经网络的训练,真实数据集的节点数量规模达到千万级别甚至亿级别,或者是部分稠密的网络结构中边的数量规模亦达到了千万级别,使得传统的图神经网络训练方法均难以直接取得成效。针对以上问题,改进并提出了基于图粗化算法的新型图神经网络训练框架,并在此基础上提出了两种具体的训练算法,同时配合提出了两种简单的启发式图粗化算法。在精度损失可以接受和内存空间消耗大大降低的前提下,所提算法能够进一步显著地降低图神经网络的计算量,缩短训练时间,实验结果表明其在常见数据集上均能取得令人满意的成绩。
    参考文献 | 相关文章 | 多维度评价
    11. 基于在线学习稀疏特征的大规模多目标进化算法
    高梦琦, 冯翔, 虞慧群, 王梦灵
    计算机科学    2024, 51 (3): 56-62.   DOI: 10.11896/jsjkx.230100004
    摘要58)      PDF(pc) (2353KB)(128)    收藏
    大规模稀疏多目标优化问题(Sparse Multiobjective Optimization Problems,SMOPs)广泛存在于现实世界。为大规模SMOPs提出通用的解决方法,对于进化计算、控制论和机器学习等领域中的问题解决都具有推动作用。由于SMOPs具有高维决策空间和Pareto最优解稀疏的特性,现有的进化算法在解决SMOPs时,很容易陷入维数灾难的困境。针对这个问题,以稀疏分布的学习为切入点,提出了一种基于在线学习稀疏特征的大规模多目标进化算法(Large-scale Multiobjective Evolutio-nary Algorithm Based on Online Learning of Sparse Features,MOEA/OLSF)。具体地,首先设计了一种在线学习稀疏特征的方法来挖掘非零变量;然后提出了一种稀疏遗传算子,用于非零变量的进一步搜索和子代解的生成,在非零变量搜索过程中,其二进制交叉和变异算子也用于控制解的稀疏性和多样性。与最新的优秀算法在不同规模的测试问题上的对比结果表明,所提算法在收敛速度和性能方面均更优。
    参考文献 | 相关文章 | 多维度评价
    12. 基于注意力-生成对抗网络的任务分析方法研究
    周琳茹, 彭鹏菲
    计算机科学    2024, 51 (3): 63-71.   DOI: 10.11896/jsjkx.221100012
    摘要56)      PDF(pc) (3338KB)(111)    收藏
    合理的任务分析可帮助分析者快速、准确地进行任务规划,目前使用案例推理方法进行任务分析存在分析时间长、分析结果准确性较低等问题。针对该问题,提出了基于注意力-生成对抗网络的任务分析方法。以长短时记忆网络(LSTM)为生成器、循环神经网络(RNN)为判别器,针对离散数据细微梯度的更新无法回传的问题,在生成器中使用rollout policy对生成的不完整序列进行推理补充,在判别器中使用蒙特卡罗(MC)进行数据采样得到完整的数据序列动作价值函数,从而指导生成器的参数更新;针对稀疏数据特征不明显、数据重点不明确等问题,在生成对抗网络训练前加入软注意力机制,为不同特征赋予不同权重从而过滤冗余数据,筛选出重要的特征数据。将该方法与未加入注意力机制的生成对抗网络在同一模拟数据集上进行对比实验,结果表明,加入注意力机制后的方法在精确率(P)、召回率(R)、F1值和准确率(Accuracy)4种评价指标上分别提升了0.088,0.092,0.094和0.068,与其他神经网络推荐算法相比,在P,R,F1值和Accuracy上分别提升了0.1~0.3,0.1~0.2,0.1~0.25和0.07~0.17,证明了该方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    13. 基于缺失数据的交通速度预测算法
    黄坤, 孙未未
    计算机科学    2024, 51 (3): 72-80.   DOI: 10.11896/jsjkx.230100045
    摘要55)      PDF(pc) (2498KB)(123)    收藏
    交通速度预测是智能交通系统的基础,可以缓解交通拥堵,节约公共资源,提高人们的生活质量。在真实情况下,采集到的交通速度数据通常存在缺失,而现有研究成果大多数只考虑了数据相对完整的场景。文章主要针对缺失场景下的交通速度数据进行研究,捕捉其中的时空相关性,并对未来交通速度进行预测。为了充分利用到交通数据的时空特征,提出了一种新的基于深度学习的交通速度预测模型。首先,提出了“还原-预测”算法,先使用自监督学习方法让模型还原缺失数据,再对交通速度进行预测;其次,引入了对比学习的方法,使得速度时间序列的特征表示更鲁棒;最后,模拟了不同数据缺失率的场景,通过实验验证了所提方法在各种缺失率下的预测准确率都优于现有方法,并设计了实验对对比学习方法和不同的还原算法进行分析,证明了所提方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    14. 基于主题声望和动态异构网络的学术影响力排序算法
    陈潘, 陈红梅, 罗川
    计算机科学    2024, 51 (3): 81-89.   DOI: 10.11896/jsjkx.230100037
    摘要31)      PDF(pc) (2796KB)(85)    收藏
    有效地挖掘学术大数据,分析论文的学术影响力,有助于科研工作者获取重要的信息。文本内容与学术网络结构的动态变化,会对论文的学术影响力排名结果产生重要的影响。但现有的论文学术影响力排序算法或是缺乏对文本内容的考虑,或是缺乏对学术网络结构的动态变化的考虑。针对该问题,提出了一种学术影响力排序算法,称之为基于主题声望和动态异构网络的学术影响力排名(TND-Rank)。TND-Rank衡量了论文主题在某一时间对论文的影响,并将其嵌入考虑时间因素的论文影响力排序算法中。TND-Rank通过考虑影响主题声望水平、期刊、作者、时间等多种因素的综合影响来计算论文的动态学术影响力相关排名。在实验中,对AMiner数据集1936-2014年间发表且信息保存完整的文章进行了分析,将所提算法与近年来的4种相关算法进行了比较,采用Spearman相关系数、归一化折损累积增益(NDCG)和分级平均精度(GAP)对算法性能进行了评估。实验结果验证了TND-Rank算法的可行性和有效性,其可以有效地综合各种信息对论文的学术影响力进行排序。
    参考文献 | 相关文章 | 多维度评价
    15. 异质信息网络中基于解耦图神经网络的社区搜索
    陈伟, 周丽华, 王亚峰, 王丽珍, 陈红梅
    计算机科学    2024, 51 (3): 90-101.   DOI: 10.11896/jsjkx.221200029
    摘要50)      PDF(pc) (4234KB)(89)    收藏
    在异质信息网络(HINs)中搜索包含给定查询节点的社区具有广泛的应用价值,如好友推荐、疫情监控等。现有HINs社区搜索方法大多基于预定义的子图模式对社区的拓扑结构施加一个严格的要求,忽略了节点间的属性相似性,导致结构关系弱而属性相似性高的社区难以定位,并且采用的全局搜索模式难以有效处理大规模的网络数据。为解决这些问题,首先设计解耦图神经网络和基于元路径的局部模块度,分别用于度量节点间的属性相似性和结构内聚性,并利用0/1背包问题优化属性和结构两种凝聚性度量指标,定义了最有价值的c大小社区搜索问题,进而提出了一种基于解耦图神经网络的价值最大化社区搜索模型,执行3个阶段的搜索过程。第一阶段,依据查询信息与元路径,构造候选子图,将搜索范围控制在查询节点的局部范围内,保证整个模型的搜索效率;第二阶段,利用解耦图神经网络,融合异质图信息和用户标签信息,计算节点间的属性相似度;第三阶段,根据社区定义以及凝聚性度量指标,设计贪心算法查找属性相似度高且结构凝聚的c大小社区。最后,在真实的同质和异质网络数据集上测试了搜索模型的性能,大量实验结果验证了模型的有效性和高效性。
    参考文献 | 相关文章 | 多维度评价
    16. 一种基于变分多跳图注意力编码器的深层协同真值发现
    张国昊, 王轶, 周喜, 王保全
    计算机科学    2024, 51 (3): 109-117.   DOI: 10.11896/jsjkx.221200063
    摘要29)      PDF(pc) (2850KB)(94)    收藏
    大数据时代,数据价值的释放经常需要融合多源数据,数据冲突成为这一过程中无法避免的关键问题。为了从冲突数据中筛选出真实声明以及可靠数据源,研究人员提出了真值发现方法。然而,现有的真值发现大多注重数据源与声明之间的直接协同信息,忽略了更深层的间接协同与对抗信息,导致不足以表达出数据源与声明的特征。针对此问题,提出了基于变分多跳图注意力编码器的真值发现方法(TD-VMGAE),基于数据源与声明之间的包含关系构建二分图网络,采用多跳图注意力层为每个节点表征汇聚间接协同信息以及对抗信息,并设计真值发现变分自编码器,抽取节点表征中所需的分类分布,对数据源和声明进行协同分类。实验结果表明,所提方法在3个不同尺度的数据集中均有不错的表现,消融实验和可视化也验证了所提方法的有效性和泛化能力。
    参考文献 | 相关文章 | 多维度评价
    17. 基于局部数据增强动态图的事件预测
    潘磊, 刘欣, 陈君益, 程章桃, 刘乐源, 周帆
    计算机科学    2024, 51 (3): 118-127.   DOI: 10.11896/jsjkx.221200054
    摘要45)      PDF(pc) (2251KB)(85)    收藏
    事件指在真实世界中特定的时间和地点发生的与特定主题相关的活动,例如,社会动乱、暴恐袭击、自然灾害和传染病流行等事件会对国家安全和人民群众的生活产生重大威胁。如果能对此类事件的发生进行有效预测,将最大程度地减少负面事件带来的影响或最大化正面事件带来的利益。关于事件的研究中,准确预测事件仍然是一个非常具有挑战性的任务。文中提出了一种基于图注意力网络的事件预测方法LAT-GAT(Local Augmented Temporal-GAT),该方法使用条件变分编码器,在所构建的事件图中对目标节点的邻居节点生成新的特征样本,与节点原有特征进行拼合,形成新的节点特征,实现了对事件的传播结构的利用;另外,LAT-GAT还考虑了历史事件发生的时间先后顺序,将网络在上一时间点的输出结果集成到当前时间的特征中,从而实现了对事件传播时间特性的利用。最后,在泰国、印度、埃及和俄罗斯这4个国家真实事件数据集上,与多种代表性基线方法进行了对比实验。实验结果表明,LAT-GAT在4个国家数据上的F1评分都优于基线方法;在泰国、俄罗斯和印度数据集上召回率优于基线方法;在泰国、埃及和印度数据集上也获得了最高的准确率。还通过消融实验考察了模型参数对最终结果的影响。
    参考文献 | 相关文章 | 多维度评价
    18. 基于双通道回声状态网络的时间序列补全及单步预测
    郑伟楠, 於志勇, 黄昉菀
    计算机科学    2024, 51 (3): 128-134.   DOI: 10.11896/jsjkx.221200055
    摘要70)      PDF(pc) (1486KB)(82)    收藏
    随着物联网的发展,众多传感器采集到大量具有丰富数据相关性的时间序列,为各种数据挖掘应用提供强大的数据支持。然而,一些客观或主观原因(如设备故障、稀疏感知等)往往会造成采集到的数据出现不同程度的缺失。虽然已有很多方法被提出用于解决这一问题,但这些方法在数据相关性方面或考虑不够全面,或计算成本过高。而且,现有方法仅关注对缺失值的补全,未能兼顾下游应用。针对上述不足,设计了一种兼顾补全与预测任务的双通道回声状态网络。两个通道的网络虽共用输入层,但具有各自的储备池和输出层。两者最大的区别是左/右通道的输出层分别表示输入层前/后一个时刻对应的目标值或预补值。最后将两个通道的估计值进行融合,充分利用来自缺失时刻之前和之后的数据相关性以进一步提升性能。两种缺失现象下(随机缺失和分段缺失)不同缺失率的实验结果表明,所提模型无论是在补全精度还是预测精度上都优于目前流行的各类方法。
    参考文献 | 相关文章 | 多维度评价
    19. 基于双分支串行混合注意力的输电线路缺陷检测深度神经网络模型
    郝然, 王红军, 李天瑞
    计算机科学    2024, 51 (3): 135-140.   DOI: 10.11896/jsjkx.230600109
    摘要64)      PDF(pc) (2412KB)(88)    收藏
    检测输电线路缺陷并及时维修可以确保电网的安全稳定,具有重大的实际意义。但输电线路图像背景复杂、元件尺寸小,导致现有的目标检测模型不能取得很好的效果,因此文中提出了基于双分支串行混合注意力的输电线路缺陷检测深度神经网络模型。该模型设计了DBSA(Dual-branch Serial Attention)双分支串行混合注意力,从而将更多的权重放在缺陷上,并提出了WCFPN(Well-connected Feature Pyramid Network)特征金字塔,让经DBSA提取的特征充分融合,从而增强模型检测小目标的能力。DBSA将特征图沿高度和宽度两个分支压缩并用一维卷积提取注意力,WCFPN设计了一种包含跨尺度融合和跳层连接的新型融合路径,让经DBSA提取的高层语义信息和低层空间信息进行更充分的交互。最后在绝缘子自爆、防振锤损坏、鸟巢异物、水泥杆破损和输电线路缺陷5个数据集上进行实验,结果显示所提模型取得了最佳的检测效果,在5个数据集上的平均AP50和AP分别为84.3%和46.1%,相比目前最先进的模型YOLOv7分别提升了3.7%和3%。
    参考文献 | 相关文章 | 多维度评价
    20. 基于条带配对合并算法的局部可修复码冗余度转换机制
    杜清鹏, 许胤龙, 吴思
    计算机科学    2023, 50 (12): 89-96.   DOI: 10.11896/jsjkx.221100257
    摘要237)      PDF(pc) (1990KB)(1355)    收藏
    相比传统的多副本技术,纠删码是一种以高修复代价换取低存储开销的数据冗余机制。局部可修复码是一类具有低修复代价的纠删码,被广泛应用在大数据存储系统中。为了应对动态变化的工作负载和存储介质动态改变的故障率,现代存储系统需要对纠删码数据进行冗余度转换,以调节数据访问性能和可靠性。设计了一种基于条带配对合并的局部可修复码冗余度转换方法,通过选择特定位置的条带进行配对合并,实现了冗余度转换与数据布局的解耦合;进一步通过设计代价量化方法与最优化模型,降低了冗余度转换的网络通信开销。相比设计数据布局的算法,所提算法有与其近似的性能,但对数据布局无限制,可级联迭代地多次运行。实验结果表明,在两种冗余度转换设置下,所提算法均近似于理论最优值,相比随机布局的朴素算法,网络流量分别降低了27.74%和27.47%,耗时分别缩短了39.10%和22.32%。
    参考文献 | 相关文章 | 多维度评价
    21. 基于Transformer特征融合的时间序列分类网络
    段梦梦, 金城
    计算机科学    2023, 50 (12): 97-103.   DOI: 10.11896/jsjkx.221100112
    摘要288)      PDF(pc) (1806KB)(1487)    收藏
    在时间序列分类任务中,模型集成方法通过训练多个基础模型并利用一定的规则来聚合基础模型的输出,从而得到比单一基础模型更准确的结果。目前模型集成方法主要关注基础模型的选择以及如何提高基础模型的差异性和多样性,忽视了对聚合规则的探索。针对这一问题,提出了基于Transformer特征融合的时间序列分类网络(Transformer Feature Fusion Network,TFFN)。该网络包含二重Transformer编解码器(Dual Transformer Encoder Decoder,Dual TED)和基于Transformer的具有样本分布感知特性的分类模块(Transformer Encoder Head,TEH)两个核心组件。Dual TED利用Transformer的注意力模块对基础特征进行提取和融合,得到具有更强辨别性的融合特征。具有样本分布感知特性的分类模块根据融合特征对时间序列进行更准确的分类,从而弥补现有集成模型方法忽视特征融合、集成规则过于简单的不足。实验结果表明,TFFN在多个主流时间序列分类数据集上取得了最好的成绩。
    参考文献 | 相关文章 | 多维度评价
    22. 联合ZINB模型与图注意力自编码器的自优化单细胞聚类
    孔凤玲, 吴昊, 董庆庆
    计算机科学    2023, 50 (12): 104-112.   DOI: 10.11896/jsjkx.221000167
    摘要161)      PDF(pc) (4286KB)(1349)    收藏
    单细胞数据聚类在生物信息分析中具有重要作用,但受测序原理和测序平台的限制,单细胞数据集普遍存在高维稀疏性、高方差噪声和基因数据缺失的问题,导致单细胞数据在聚类分析和应用方面仍面临诸多挑战。现有的单细胞聚类方法主要针对细胞和基因表达间的关系进行建模,忽略了对细胞间潜在特征关系的充分挖掘以及对噪声的去除,导致聚类结果不理想,从而阻碍了后期对数据的分析。针对上述问题,提出了一种联合零膨胀负二项(Zero Inflated Negative Binomial,ZINB)模型与图注意力自编码器的自优化单细胞聚类算法(Self-optimized Single Cell Clustering Using ZINB Model and Graph Attention Autoencoder,scZDGAC)。该算法首先使用ZINB模型并结合可扩展的DCA去噪算法,通过ZINB分布更好地拟合数据特征分布,提升自编码器的去噪性能,并减小噪声和数据丢失对KNN算法输出的影响;然后通过图注意力自编码器在不同权重的细胞之间传播信息,更好地捕获细胞间的潜在特征进行聚类;最后scZDGAC采用自优化的方法使原本两个独立的聚类模块和特征模块相互受益,不断迭代更新聚类中心,进一步提升聚类性能。为了对聚类结果进行评价,文中使用调整兰德指数(ARI)和标准化互信息(NMI)两个通用评价指标。在6个不同规模的单细胞数据集上与其他算法进行对比实验,结果表明,所提聚类算法在聚类性能上较其他方法有很大提高,很好地展现了该算法的鲁棒性。
    参考文献 | 相关文章 | 多维度评价
    23. 基于时间聚类和用户动态相似度的自适应位置推荐算法
    朱俊, 韩立新, 宗平, 刘红英, 谢玲, 李景仙
    计算机科学    2023, 50 (12): 113-122.   DOI: 10.11896/jsjkx.230200105
    摘要200)      PDF(pc) (3126KB)(1375)    收藏
    位置推荐是位置社交网络中为商家和用户提供的一项重要服务,推荐结果易受用户上下文和时空上下文影响。针对当前研究忽略了用户的动态相似度、推荐模型自适应性较弱以及存在严重的数据稀疏问题,提出了一种基于时间聚类和用户动态相似度的自适应位置推荐算法(ALRTU)。首先,基于时间槽的签到数据统计特征,对时间进行模糊C均值聚类,提取聚类内的时间相似度,利用平滑技术更新原始评分矩阵,以解决数据稀疏问题。分别计算用户在不同时间槽的动态相似度,根据目标时间段所属的时间聚类自适应选择不同的评分数据集,完成用户偏好和时间特征挖掘。其次,根据用户的访问频率特征,为活跃用户和非活跃用户自适应选择核密度估计或幂律分布模型,完成地理特征挖掘。最后,融合用户、时间和空间上下文的综合影响完成位置推荐。在两个真实的位置社交网络数据集Brightkite和Gowalla中开展准确度评估实验,实验结果表明,与基准方法中最高的推荐精度相比,ALRTU算法在Brightkite和Gowalla数据集中的准确度仍分别平均提高了3.74%和1.42%。
    参考文献 | 相关文章 | 多维度评价
    24. 一种基于SCD文件的合并单元高速数据压缩方法
    陈星田, 熊小伏, 白勇, 胡海洋
    计算机科学    2023, 50 (12): 123-129.   DOI: 10.11896/jsjkx.230700230
    摘要147)      PDF(pc) (1470KB)(1262)    收藏
    在现代智能电网中,智能变电站安装了大量合并单元来同步发布电流互感器和电压互感器的暂态量,这些暂态数据有必要保存长达数年,从而覆盖设备生命周期,为设备状态维修、可靠性等研究提供原始信息支撑,但是如此长时与高频的海量数据给存储设备带来了巨大压力。文中首先将高频暂态数据分为固定不变的、状态变化的和周期变化的3种形式来进行预处理,将固定不变部分用SCD文件中的唯一标识代替,状态变化部分用事件记录文件代替,周期变化部分用SCD文件中双通道差量和周期差量来表示。然后使用16位哈夫曼完成最终压缩编码,并对比测试了各种预处理前后的压缩结果和不同编码的压缩结果。最终的测试结果表明该压缩方法比普通硬件压缩卡压缩比更大,压缩速率比普通压缩卡更快。
    参考文献 | 相关文章 | 多维度评价
    25. 基于智能映射推荐的知识图谱实例构建与演化方法
    张雅晴, 单中原, 赵俊峰, 王亚沙
    计算机科学    2023, 50 (6): 142-150.   DOI: 10.11896/jsjkx.230300071
    摘要185)      PDF(pc) (2496KB)(294)    收藏
    随着大数据技术的深入发展,各领域产生了海量异构数据,构建知识图谱是实现异构数据语义互通的重要手段。通过将结构化数据与本体模型映射匹配来生成实例模型是图谱实例层构建常用的方法。然而,对于复杂异构的领域数据来说,现有映射式实例构建方法大多需要用户手动完成全部映射匹配,映射操作繁琐,无法进行智能匹配,费时费力且容易出错。除此之外,现有方法对实例导入后的增量更新也支持不足。针对现有模式匹配和实例构建方法的映射操作繁琐的问题,提出了基于智能映射推荐的实例构建与演化方法。其中,智能映射复用推荐机制,在用户手动映射之前进行数据模式匹配计算,对元素级相似度、表级相似度和表间传播相似度进行多级相似度综合计算,根据数据模式匹配度仲裁排序后生成推荐映射。另外,增量发现机制通过自动发现冗余实例和冲突实例,生成系统后台任务进行处理,可实现实例的高效无重复导入。在山东市政府开放数据集和深圳市医疗急救数据集上进行了实验,在映射复用推荐模块的辅助下,交互时间缩短为传统模式的约26%,字段推荐匹配准确率达到98.1%;在增量发现模块的实验中,导入了1 394万个实例节点以及2 158万条关系边所需的时间由31.21 h缩短至2.23 h,验证了智能映射复用推荐的可用性和匹配准确率,提高了实例层构建与演化的效率。
    参考文献 | 相关文章 | 多维度评价
    26. 极限距离噪声估计与过滤方法
    姜高霞, 秦佩, 王文剑
    计算机科学    2023, 50 (6): 151-158.   DOI: 10.11896/jsjkx.220600130
    摘要264)      PDF(pc) (2445KB)(253)    收藏
    近年来,机器学习不断取得显著性进展并被成功应用于诸多领域,然而很多学习模型或算法高度依赖数据的标签质量。实际应用中大量数据集普遍存在复杂的标签噪声,因此机器学习在低质数据建模和标签噪声处理方面面临严峻挑战。文中针对回归中的数值型标签噪声,从理论分析和仿真实验的角度研究了标签估计区间与噪声的关联性,提出了一种极限距离噪声估计方法。在最优样本选择框架下,基于此噪声估计方法提出了一种极限距离噪声过滤(Limit Distance Noise Filtering,LDNF)算法。实验结果表明,所提噪声估计方法与真实标签噪声具有更高的相关性和更低的估计偏差。在标准数据集和真实年龄估计数据集上证实了所提过滤算法可以在不同噪声环境下有效识别标签噪声并减小模型的测试误差,其表现优于最新的其他过滤算法。
    参考文献 | 相关文章 | 多维度评价
    27. 基于持续同调的过滤式特征选择算法
    殷杏子, 彭宁宁, 詹学燕
    计算机科学    2023, 50 (6): 159-166.   DOI: 10.11896/jsjkx.220500169
    摘要198)      PDF(pc) (3102KB)(340)    收藏
    现有的过滤式特征选择算法忽略了特征之间的关联性。鉴于此,提出了一种新的过滤式特征选择算法——基于持续同调的特征选择算法(Rel-Betti算法),该算法能够识别特征之间的关联性以及组合效果。通过提出相关贝蒂数概念,筛选出数据集中重要的拓扑特征信息。该算法对数据集进行预处理后,根据类标签将数据集分类,计算不同类中的相关贝蒂数,获得数据信息的特征均值,按特征均值差值大小对特征进行重要性排序。利用UCI数据集中的8个数据,将该算法与其他常见算法在决策树、随机森林、K近邻和支持向量机这4种学习模型下进行比较实验。结果表明,该算法是一种有效的特征选择算法,其能够提高分类的准确率和F1值,并且不依赖于特定的机器学习模型。
    参考文献 | 相关文章 | 多维度评价
    28. 基于超图正则化的多模态信息融合算法
    崔冰晶, 张懿璞, 王飚
    计算机科学    2023, 50 (6): 167-174.   DOI: 10.11896/jsjkx.220900144
    摘要291)      PDF(pc) (3087KB)(309)    收藏
    多模态数据融合方法通过学习多个数据集间的关联信息和互补信息,提高了数据分类或预测的性能。但现有的数据融合方法大都基于单独数据集自身的特征模式进行学习,不同异构数据之间的结构信息往往被忽略。因此,文中提出了一种基于超图正则化的多模态信息融合算法(sHMF),通过超图和流行正则项的方法结合表示模态内样本间的高阶关系和模态间的关系,即得到同构和异构的高阶网络。其中,采用超图稀疏表达学习超图,减少冗余边。为了验证所提算法的性能,在模拟数据和影响遗传学真实数据下进行实验,结果表明,sHMF算法在模拟数据和真实数据上均优于多任务学习、多邻域分类等流行算法对精神分裂症的分类精度。同时,sHMF在真实数据上得出的实验结果进一步揭示了一些与精神分裂症显著相关的生物标记物以及风险基因、甲基化因子和异常脑区之间潜在的联系。
    参考文献 | 相关文章 | 多维度评价
    29. 基于Bloom分类法的CS1试题数据集的构建及其自动分类
    董荣胜, 卫晨雨, 胡杰, 乔宇澄, 李凤英
    计算机科学    2023, 50 (6): 175-182.   DOI: 10.11896/jsjkx.230200182
    摘要208)      PDF(pc) (1549KB)(208)    收藏
    课程评估是教学改革的一个关键环节,涉及教学案例、试题以及课堂教学等方面的内容。针对计算课程的试题评估,引入Bloom分类法,以普林斯顿大学和桂林电子科技大学“计算机科学导论”课程(CS1)的试题为语料库,给出针对CS1的Bloom分类法认知过程维度和知识维度的相应动词种子库和名词种子库,对试题所能达到的Bloom分类法二维矩阵的位置进行标注,构建CS1试题分类数据集。采用机器学习技术,给出CS1试题自动分类模型TFERNIE-LR,该模型由CSTFPOS-IDF算法、ERNIE模型和LR分类器3部分组成。CSTFPOS-IDF算法是在TFPOS-IDF算法的基础上,通过计算课程关键词权重因子,来提高模型对计算课程关键词的关注程度,生成词权重。同时,基于实体知识增强预训练模型ERNIE进行试题词语级向量嵌入,组合词权重和词语级向量生成用于自动分类的试题文本向量。最后,采用LR分类器将试题自动分类到Bloom分类法二维矩阵。实验结果表明,TFERNIE-LR模型具有良好的性能,在认知过程维度和知识维度上的加权精确率分别达到了83.3%和96.1%。
    参考文献 | 相关文章 | 多维度评价
    30. 基于锚图分类的在线半监督跨模态哈希
    秦亮, 谢良, 陈盛双, 徐海蛟
    计算机科学    2023, 50 (6): 183-193.   DOI: 10.11896/jsjkx.220400038
    摘要207)      PDF(pc) (3824KB)(263)    收藏
    近年来,哈希算法由于其存储成本小、检索速度快的特点,在大规模多媒体数据的高效跨模态检索中受到了广泛关注。现有的跨模态哈希算法大多是有监督和无监督方法,其中有监督方法通常能够获得更好的性能,但在实际应用中要求所有数据都被标记并不具有可行性。此外,这些方法大多数是离线方法,面对流数据的输入需要付出高额训练成本且十分低效。针对上述问题,提出了一种新的半监督跨模态哈希方法——在线半监督锚图跨模态哈希(Online Semi-supervised Anchor Graph Cross-modal Hashing,OSAGCH),构建了半监督锚图跨模态哈希模型,在只有部分数据有标签的情况下,利用正则化锚图预测数据标签,并通过子空间关系学习哈希函数,一步生成统一的哈希码,同时针对流数据输入的情况对该模型进行了在线化学习,使其能够处理流数据。在公共多模态数据集上进行了实验,结果表明所提方法的性能优于其他现有方法。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共2页 共51条记录