1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据库&大数据&数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 基于启发式粗化算法的半监督图神经网络的训练加速框架及算法
    陈裕丰, 黄增峰
    计算机科学    2024, 51 (3): 48-55.   DOI: 10.11896/jsjkx.221200158
    摘要41)      PDF(pc) (1576KB)(73)    收藏
    图神经网络是当前阶段图机器学习的主流工具,发展势头强劲。通过构建抽象图结构,运用图神经网络模型能够高效地处理多种应用场景下的问题,包括节点预测、链接预测和图分类等方向。与之相对应,一直以来,在大规模图上的应用是图神经网络训练中的关键点和难点,如何有效、快速地在大规模图数据上进行图神经网络的训练和部署是阻碍图神经网络进一步工业化应用的一大难题。图神经网络因为能够利用图的网络结构的拓扑信息,所以在如节点预测的赛道上能够取得比一般其他神经网络如多层感知机等更好的效果,但是图的网络结构的节点个数和边的条数的规模增长制约了图神经网络的训练,真实数据集的节点数量规模达到千万级别甚至亿级别,或者是部分稠密的网络结构中边的数量规模亦达到了千万级别,使得传统的图神经网络训练方法均难以直接取得成效。针对以上问题,改进并提出了基于图粗化算法的新型图神经网络训练框架,并在此基础上提出了两种具体的训练算法,同时配合提出了两种简单的启发式图粗化算法。在精度损失可以接受和内存空间消耗大大降低的前提下,所提算法能够进一步显著地降低图神经网络的计算量,缩短训练时间,实验结果表明其在常见数据集上均能取得令人满意的成绩。
    参考文献 | 相关文章 | 多维度评价
    2. 基于在线学习稀疏特征的大规模多目标进化算法
    高梦琦, 冯翔, 虞慧群, 王梦灵
    计算机科学    2024, 51 (3): 56-62.   DOI: 10.11896/jsjkx.230100004
    摘要38)      PDF(pc) (2353KB)(69)    收藏
    大规模稀疏多目标优化问题(Sparse Multiobjective Optimization Problems,SMOPs)广泛存在于现实世界。为大规模SMOPs提出通用的解决方法,对于进化计算、控制论和机器学习等领域中的问题解决都具有推动作用。由于SMOPs具有高维决策空间和Pareto最优解稀疏的特性,现有的进化算法在解决SMOPs时,很容易陷入维数灾难的困境。针对这个问题,以稀疏分布的学习为切入点,提出了一种基于在线学习稀疏特征的大规模多目标进化算法(Large-scale Multiobjective Evolutio-nary Algorithm Based on Online Learning of Sparse Features,MOEA/OLSF)。具体地,首先设计了一种在线学习稀疏特征的方法来挖掘非零变量;然后提出了一种稀疏遗传算子,用于非零变量的进一步搜索和子代解的生成,在非零变量搜索过程中,其二进制交叉和变异算子也用于控制解的稀疏性和多样性。与最新的优秀算法在不同规模的测试问题上的对比结果表明,所提算法在收敛速度和性能方面均更优。
    参考文献 | 相关文章 | 多维度评价
    3. 基于注意力-生成对抗网络的任务分析方法研究
    周琳茹, 彭鹏菲
    计算机科学    2024, 51 (3): 63-71.   DOI: 10.11896/jsjkx.221100012
    摘要32)      PDF(pc) (3338KB)(55)    收藏
    合理的任务分析可帮助分析者快速、准确地进行任务规划,目前使用案例推理方法进行任务分析存在分析时间长、分析结果准确性较低等问题。针对该问题,提出了基于注意力-生成对抗网络的任务分析方法。以长短时记忆网络(LSTM)为生成器、循环神经网络(RNN)为判别器,针对离散数据细微梯度的更新无法回传的问题,在生成器中使用rollout policy对生成的不完整序列进行推理补充,在判别器中使用蒙特卡罗(MC)进行数据采样得到完整的数据序列动作价值函数,从而指导生成器的参数更新;针对稀疏数据特征不明显、数据重点不明确等问题,在生成对抗网络训练前加入软注意力机制,为不同特征赋予不同权重从而过滤冗余数据,筛选出重要的特征数据。将该方法与未加入注意力机制的生成对抗网络在同一模拟数据集上进行对比实验,结果表明,加入注意力机制后的方法在精确率(P)、召回率(R)、F1值和准确率(Accuracy)4种评价指标上分别提升了0.088,0.092,0.094和0.068,与其他神经网络推荐算法相比,在P,R,F1值和Accuracy上分别提升了0.1~0.3,0.1~0.2,0.1~0.25和0.07~0.17,证明了该方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    4. 基于缺失数据的交通速度预测算法
    黄坤, 孙未未
    计算机科学    2024, 51 (3): 72-80.   DOI: 10.11896/jsjkx.230100045
    摘要30)      PDF(pc) (2498KB)(64)    收藏
    交通速度预测是智能交通系统的基础,可以缓解交通拥堵,节约公共资源,提高人们的生活质量。在真实情况下,采集到的交通速度数据通常存在缺失,而现有研究成果大多数只考虑了数据相对完整的场景。文章主要针对缺失场景下的交通速度数据进行研究,捕捉其中的时空相关性,并对未来交通速度进行预测。为了充分利用到交通数据的时空特征,提出了一种新的基于深度学习的交通速度预测模型。首先,提出了“还原-预测”算法,先使用自监督学习方法让模型还原缺失数据,再对交通速度进行预测;其次,引入了对比学习的方法,使得速度时间序列的特征表示更鲁棒;最后,模拟了不同数据缺失率的场景,通过实验验证了所提方法在各种缺失率下的预测准确率都优于现有方法,并设计了实验对对比学习方法和不同的还原算法进行分析,证明了所提方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    5. 基于主题声望和动态异构网络的学术影响力排序算法
    陈潘, 陈红梅, 罗川
    计算机科学    2024, 51 (3): 81-89.   DOI: 10.11896/jsjkx.230100037
    摘要20)      PDF(pc) (2796KB)(48)    收藏
    有效地挖掘学术大数据,分析论文的学术影响力,有助于科研工作者获取重要的信息。文本内容与学术网络结构的动态变化,会对论文的学术影响力排名结果产生重要的影响。但现有的论文学术影响力排序算法或是缺乏对文本内容的考虑,或是缺乏对学术网络结构的动态变化的考虑。针对该问题,提出了一种学术影响力排序算法,称之为基于主题声望和动态异构网络的学术影响力排名(TND-Rank)。TND-Rank衡量了论文主题在某一时间对论文的影响,并将其嵌入考虑时间因素的论文影响力排序算法中。TND-Rank通过考虑影响主题声望水平、期刊、作者、时间等多种因素的综合影响来计算论文的动态学术影响力相关排名。在实验中,对AMiner数据集1936-2014年间发表且信息保存完整的文章进行了分析,将所提算法与近年来的4种相关算法进行了比较,采用Spearman相关系数、归一化折损累积增益(NDCG)和分级平均精度(GAP)对算法性能进行了评估。实验结果验证了TND-Rank算法的可行性和有效性,其可以有效地综合各种信息对论文的学术影响力进行排序。
    参考文献 | 相关文章 | 多维度评价
    6. 异质信息网络中基于解耦图神经网络的社区搜索
    陈伟, 周丽华, 王亚峰, 王丽珍, 陈红梅
    计算机科学    2024, 51 (3): 90-101.   DOI: 10.11896/jsjkx.221200029
    摘要21)      PDF(pc) (4234KB)(49)    收藏
    在异质信息网络(HINs)中搜索包含给定查询节点的社区具有广泛的应用价值,如好友推荐、疫情监控等。现有HINs社区搜索方法大多基于预定义的子图模式对社区的拓扑结构施加一个严格的要求,忽略了节点间的属性相似性,导致结构关系弱而属性相似性高的社区难以定位,并且采用的全局搜索模式难以有效处理大规模的网络数据。为解决这些问题,首先设计解耦图神经网络和基于元路径的局部模块度,分别用于度量节点间的属性相似性和结构内聚性,并利用0/1背包问题优化属性和结构两种凝聚性度量指标,定义了最有价值的c大小社区搜索问题,进而提出了一种基于解耦图神经网络的价值最大化社区搜索模型,执行3个阶段的搜索过程。第一阶段,依据查询信息与元路径,构造候选子图,将搜索范围控制在查询节点的局部范围内,保证整个模型的搜索效率;第二阶段,利用解耦图神经网络,融合异质图信息和用户标签信息,计算节点间的属性相似度;第三阶段,根据社区定义以及凝聚性度量指标,设计贪心算法查找属性相似度高且结构凝聚的c大小社区。最后,在真实的同质和异质网络数据集上测试了搜索模型的性能,大量实验结果验证了模型的有效性和高效性。
    参考文献 | 相关文章 | 多维度评价
    7. 一种基于变分多跳图注意力编码器的深层协同真值发现
    张国昊, 王轶, 周喜, 王保全
    计算机科学    2024, 51 (3): 109-117.   DOI: 10.11896/jsjkx.221200063
    摘要17)      PDF(pc) (2850KB)(51)    收藏
    大数据时代,数据价值的释放经常需要融合多源数据,数据冲突成为这一过程中无法避免的关键问题。为了从冲突数据中筛选出真实声明以及可靠数据源,研究人员提出了真值发现方法。然而,现有的真值发现大多注重数据源与声明之间的直接协同信息,忽略了更深层的间接协同与对抗信息,导致不足以表达出数据源与声明的特征。针对此问题,提出了基于变分多跳图注意力编码器的真值发现方法(TD-VMGAE),基于数据源与声明之间的包含关系构建二分图网络,采用多跳图注意力层为每个节点表征汇聚间接协同信息以及对抗信息,并设计真值发现变分自编码器,抽取节点表征中所需的分类分布,对数据源和声明进行协同分类。实验结果表明,所提方法在3个不同尺度的数据集中均有不错的表现,消融实验和可视化也验证了所提方法的有效性和泛化能力。
    参考文献 | 相关文章 | 多维度评价
    8. 基于局部数据增强动态图的事件预测
    潘磊, 刘欣, 陈君益, 程章桃, 刘乐源, 周帆
    计算机科学    2024, 51 (3): 118-127.   DOI: 10.11896/jsjkx.221200054
    摘要28)      PDF(pc) (2251KB)(40)    收藏
    事件指在真实世界中特定的时间和地点发生的与特定主题相关的活动,例如,社会动乱、暴恐袭击、自然灾害和传染病流行等事件会对国家安全和人民群众的生活产生重大威胁。如果能对此类事件的发生进行有效预测,将最大程度地减少负面事件带来的影响或最大化正面事件带来的利益。关于事件的研究中,准确预测事件仍然是一个非常具有挑战性的任务。文中提出了一种基于图注意力网络的事件预测方法LAT-GAT(Local Augmented Temporal-GAT),该方法使用条件变分编码器,在所构建的事件图中对目标节点的邻居节点生成新的特征样本,与节点原有特征进行拼合,形成新的节点特征,实现了对事件的传播结构的利用;另外,LAT-GAT还考虑了历史事件发生的时间先后顺序,将网络在上一时间点的输出结果集成到当前时间的特征中,从而实现了对事件传播时间特性的利用。最后,在泰国、印度、埃及和俄罗斯这4个国家真实事件数据集上,与多种代表性基线方法进行了对比实验。实验结果表明,LAT-GAT在4个国家数据上的F1评分都优于基线方法;在泰国、俄罗斯和印度数据集上召回率优于基线方法;在泰国、埃及和印度数据集上也获得了最高的准确率。还通过消融实验考察了模型参数对最终结果的影响。
    参考文献 | 相关文章 | 多维度评价
    9. 基于双通道回声状态网络的时间序列补全及单步预测
    郑伟楠, 於志勇, 黄昉菀
    计算机科学    2024, 51 (3): 128-134.   DOI: 10.11896/jsjkx.221200055
    摘要27)      PDF(pc) (1486KB)(48)    收藏
    随着物联网的发展,众多传感器采集到大量具有丰富数据相关性的时间序列,为各种数据挖掘应用提供强大的数据支持。然而,一些客观或主观原因(如设备故障、稀疏感知等)往往会造成采集到的数据出现不同程度的缺失。虽然已有很多方法被提出用于解决这一问题,但这些方法在数据相关性方面或考虑不够全面,或计算成本过高。而且,现有方法仅关注对缺失值的补全,未能兼顾下游应用。针对上述不足,设计了一种兼顾补全与预测任务的双通道回声状态网络。两个通道的网络虽共用输入层,但具有各自的储备池和输出层。两者最大的区别是左/右通道的输出层分别表示输入层前/后一个时刻对应的目标值或预补值。最后将两个通道的估计值进行融合,充分利用来自缺失时刻之前和之后的数据相关性以进一步提升性能。两种缺失现象下(随机缺失和分段缺失)不同缺失率的实验结果表明,所提模型无论是在补全精度还是预测精度上都优于目前流行的各类方法。
    参考文献 | 相关文章 | 多维度评价
    10. 基于双分支串行混合注意力的输电线路缺陷检测深度神经网络模型
    郝然, 王红军, 李天瑞
    计算机科学    2024, 51 (3): 135-140.   DOI: 10.11896/jsjkx.230600109
    摘要35)      PDF(pc) (2412KB)(47)    收藏
    检测输电线路缺陷并及时维修可以确保电网的安全稳定,具有重大的实际意义。但输电线路图像背景复杂、元件尺寸小,导致现有的目标检测模型不能取得很好的效果,因此文中提出了基于双分支串行混合注意力的输电线路缺陷检测深度神经网络模型。该模型设计了DBSA(Dual-branch Serial Attention)双分支串行混合注意力,从而将更多的权重放在缺陷上,并提出了WCFPN(Well-connected Feature Pyramid Network)特征金字塔,让经DBSA提取的特征充分融合,从而增强模型检测小目标的能力。DBSA将特征图沿高度和宽度两个分支压缩并用一维卷积提取注意力,WCFPN设计了一种包含跨尺度融合和跳层连接的新型融合路径,让经DBSA提取的高层语义信息和低层空间信息进行更充分的交互。最后在绝缘子自爆、防振锤损坏、鸟巢异物、水泥杆破损和输电线路缺陷5个数据集上进行实验,结果显示所提模型取得了最佳的检测效果,在5个数据集上的平均AP50和AP分别为84.3%和46.1%,相比目前最先进的模型YOLOv7分别提升了3.7%和3%。
    参考文献 | 相关文章 | 多维度评价
    11. 基于条带配对合并算法的局部可修复码冗余度转换机制
    杜清鹏, 许胤龙, 吴思
    计算机科学    2023, 50 (12): 89-96.   DOI: 10.11896/jsjkx.221100257
    摘要202)      PDF(pc) (1990KB)(1338)    收藏
    相比传统的多副本技术,纠删码是一种以高修复代价换取低存储开销的数据冗余机制。局部可修复码是一类具有低修复代价的纠删码,被广泛应用在大数据存储系统中。为了应对动态变化的工作负载和存储介质动态改变的故障率,现代存储系统需要对纠删码数据进行冗余度转换,以调节数据访问性能和可靠性。设计了一种基于条带配对合并的局部可修复码冗余度转换方法,通过选择特定位置的条带进行配对合并,实现了冗余度转换与数据布局的解耦合;进一步通过设计代价量化方法与最优化模型,降低了冗余度转换的网络通信开销。相比设计数据布局的算法,所提算法有与其近似的性能,但对数据布局无限制,可级联迭代地多次运行。实验结果表明,在两种冗余度转换设置下,所提算法均近似于理论最优值,相比随机布局的朴素算法,网络流量分别降低了27.74%和27.47%,耗时分别缩短了39.10%和22.32%。
    参考文献 | 相关文章 | 多维度评价
    12. 基于Transformer特征融合的时间序列分类网络
    段梦梦, 金城
    计算机科学    2023, 50 (12): 97-103.   DOI: 10.11896/jsjkx.221100112
    摘要246)      PDF(pc) (1806KB)(1452)    收藏
    在时间序列分类任务中,模型集成方法通过训练多个基础模型并利用一定的规则来聚合基础模型的输出,从而得到比单一基础模型更准确的结果。目前模型集成方法主要关注基础模型的选择以及如何提高基础模型的差异性和多样性,忽视了对聚合规则的探索。针对这一问题,提出了基于Transformer特征融合的时间序列分类网络(Transformer Feature Fusion Network,TFFN)。该网络包含二重Transformer编解码器(Dual Transformer Encoder Decoder,Dual TED)和基于Transformer的具有样本分布感知特性的分类模块(Transformer Encoder Head,TEH)两个核心组件。Dual TED利用Transformer的注意力模块对基础特征进行提取和融合,得到具有更强辨别性的融合特征。具有样本分布感知特性的分类模块根据融合特征对时间序列进行更准确的分类,从而弥补现有集成模型方法忽视特征融合、集成规则过于简单的不足。实验结果表明,TFFN在多个主流时间序列分类数据集上取得了最好的成绩。
    参考文献 | 相关文章 | 多维度评价
    13. 联合ZINB模型与图注意力自编码器的自优化单细胞聚类
    孔凤玲, 吴昊, 董庆庆
    计算机科学    2023, 50 (12): 104-112.   DOI: 10.11896/jsjkx.221000167
    摘要134)      PDF(pc) (4286KB)(1321)    收藏
    单细胞数据聚类在生物信息分析中具有重要作用,但受测序原理和测序平台的限制,单细胞数据集普遍存在高维稀疏性、高方差噪声和基因数据缺失的问题,导致单细胞数据在聚类分析和应用方面仍面临诸多挑战。现有的单细胞聚类方法主要针对细胞和基因表达间的关系进行建模,忽略了对细胞间潜在特征关系的充分挖掘以及对噪声的去除,导致聚类结果不理想,从而阻碍了后期对数据的分析。针对上述问题,提出了一种联合零膨胀负二项(Zero Inflated Negative Binomial,ZINB)模型与图注意力自编码器的自优化单细胞聚类算法(Self-optimized Single Cell Clustering Using ZINB Model and Graph Attention Autoencoder,scZDGAC)。该算法首先使用ZINB模型并结合可扩展的DCA去噪算法,通过ZINB分布更好地拟合数据特征分布,提升自编码器的去噪性能,并减小噪声和数据丢失对KNN算法输出的影响;然后通过图注意力自编码器在不同权重的细胞之间传播信息,更好地捕获细胞间的潜在特征进行聚类;最后scZDGAC采用自优化的方法使原本两个独立的聚类模块和特征模块相互受益,不断迭代更新聚类中心,进一步提升聚类性能。为了对聚类结果进行评价,文中使用调整兰德指数(ARI)和标准化互信息(NMI)两个通用评价指标。在6个不同规模的单细胞数据集上与其他算法进行对比实验,结果表明,所提聚类算法在聚类性能上较其他方法有很大提高,很好地展现了该算法的鲁棒性。
    参考文献 | 相关文章 | 多维度评价
    14. 基于时间聚类和用户动态相似度的自适应位置推荐算法
    朱俊, 韩立新, 宗平, 刘红英, 谢玲, 李景仙
    计算机科学    2023, 50 (12): 113-122.   DOI: 10.11896/jsjkx.230200105
    摘要173)      PDF(pc) (3126KB)(1352)    收藏
    位置推荐是位置社交网络中为商家和用户提供的一项重要服务,推荐结果易受用户上下文和时空上下文影响。针对当前研究忽略了用户的动态相似度、推荐模型自适应性较弱以及存在严重的数据稀疏问题,提出了一种基于时间聚类和用户动态相似度的自适应位置推荐算法(ALRTU)。首先,基于时间槽的签到数据统计特征,对时间进行模糊C均值聚类,提取聚类内的时间相似度,利用平滑技术更新原始评分矩阵,以解决数据稀疏问题。分别计算用户在不同时间槽的动态相似度,根据目标时间段所属的时间聚类自适应选择不同的评分数据集,完成用户偏好和时间特征挖掘。其次,根据用户的访问频率特征,为活跃用户和非活跃用户自适应选择核密度估计或幂律分布模型,完成地理特征挖掘。最后,融合用户、时间和空间上下文的综合影响完成位置推荐。在两个真实的位置社交网络数据集Brightkite和Gowalla中开展准确度评估实验,实验结果表明,与基准方法中最高的推荐精度相比,ALRTU算法在Brightkite和Gowalla数据集中的准确度仍分别平均提高了3.74%和1.42%。
    参考文献 | 相关文章 | 多维度评价
    15. 一种基于SCD文件的合并单元高速数据压缩方法
    陈星田, 熊小伏, 白勇, 胡海洋
    计算机科学    2023, 50 (12): 123-129.   DOI: 10.11896/jsjkx.230700230
    摘要120)      PDF(pc) (1470KB)(1250)    收藏
    在现代智能电网中,智能变电站安装了大量合并单元来同步发布电流互感器和电压互感器的暂态量,这些暂态数据有必要保存长达数年,从而覆盖设备生命周期,为设备状态维修、可靠性等研究提供原始信息支撑,但是如此长时与高频的海量数据给存储设备带来了巨大压力。文中首先将高频暂态数据分为固定不变的、状态变化的和周期变化的3种形式来进行预处理,将固定不变部分用SCD文件中的唯一标识代替,状态变化部分用事件记录文件代替,周期变化部分用SCD文件中双通道差量和周期差量来表示。然后使用16位哈夫曼完成最终压缩编码,并对比测试了各种预处理前后的压缩结果和不同编码的压缩结果。最终的测试结果表明该压缩方法比普通硬件压缩卡压缩比更大,压缩速率比普通压缩卡更快。
    参考文献 | 相关文章 | 多维度评价
    16. 基于智能映射推荐的知识图谱实例构建与演化方法
    张雅晴, 单中原, 赵俊峰, 王亚沙
    计算机科学    2023, 50 (6): 142-150.   DOI: 10.11896/jsjkx.230300071
    摘要167)      PDF(pc) (2496KB)(276)    收藏
    随着大数据技术的深入发展,各领域产生了海量异构数据,构建知识图谱是实现异构数据语义互通的重要手段。通过将结构化数据与本体模型映射匹配来生成实例模型是图谱实例层构建常用的方法。然而,对于复杂异构的领域数据来说,现有映射式实例构建方法大多需要用户手动完成全部映射匹配,映射操作繁琐,无法进行智能匹配,费时费力且容易出错。除此之外,现有方法对实例导入后的增量更新也支持不足。针对现有模式匹配和实例构建方法的映射操作繁琐的问题,提出了基于智能映射推荐的实例构建与演化方法。其中,智能映射复用推荐机制,在用户手动映射之前进行数据模式匹配计算,对元素级相似度、表级相似度和表间传播相似度进行多级相似度综合计算,根据数据模式匹配度仲裁排序后生成推荐映射。另外,增量发现机制通过自动发现冗余实例和冲突实例,生成系统后台任务进行处理,可实现实例的高效无重复导入。在山东市政府开放数据集和深圳市医疗急救数据集上进行了实验,在映射复用推荐模块的辅助下,交互时间缩短为传统模式的约26%,字段推荐匹配准确率达到98.1%;在增量发现模块的实验中,导入了1 394万个实例节点以及2 158万条关系边所需的时间由31.21 h缩短至2.23 h,验证了智能映射复用推荐的可用性和匹配准确率,提高了实例层构建与演化的效率。
    参考文献 | 相关文章 | 多维度评价
    17. 极限距离噪声估计与过滤方法
    姜高霞, 秦佩, 王文剑
    计算机科学    2023, 50 (6): 151-158.   DOI: 10.11896/jsjkx.220600130
    摘要234)      PDF(pc) (2445KB)(221)    收藏
    近年来,机器学习不断取得显著性进展并被成功应用于诸多领域,然而很多学习模型或算法高度依赖数据的标签质量。实际应用中大量数据集普遍存在复杂的标签噪声,因此机器学习在低质数据建模和标签噪声处理方面面临严峻挑战。文中针对回归中的数值型标签噪声,从理论分析和仿真实验的角度研究了标签估计区间与噪声的关联性,提出了一种极限距离噪声估计方法。在最优样本选择框架下,基于此噪声估计方法提出了一种极限距离噪声过滤(Limit Distance Noise Filtering,LDNF)算法。实验结果表明,所提噪声估计方法与真实标签噪声具有更高的相关性和更低的估计偏差。在标准数据集和真实年龄估计数据集上证实了所提过滤算法可以在不同噪声环境下有效识别标签噪声并减小模型的测试误差,其表现优于最新的其他过滤算法。
    参考文献 | 相关文章 | 多维度评价
    18. 基于持续同调的过滤式特征选择算法
    殷杏子, 彭宁宁, 詹学燕
    计算机科学    2023, 50 (6): 159-166.   DOI: 10.11896/jsjkx.220500169
    摘要154)      PDF(pc) (3102KB)(304)    收藏
    现有的过滤式特征选择算法忽略了特征之间的关联性。鉴于此,提出了一种新的过滤式特征选择算法——基于持续同调的特征选择算法(Rel-Betti算法),该算法能够识别特征之间的关联性以及组合效果。通过提出相关贝蒂数概念,筛选出数据集中重要的拓扑特征信息。该算法对数据集进行预处理后,根据类标签将数据集分类,计算不同类中的相关贝蒂数,获得数据信息的特征均值,按特征均值差值大小对特征进行重要性排序。利用UCI数据集中的8个数据,将该算法与其他常见算法在决策树、随机森林、K近邻和支持向量机这4种学习模型下进行比较实验。结果表明,该算法是一种有效的特征选择算法,其能够提高分类的准确率和F1值,并且不依赖于特定的机器学习模型。
    参考文献 | 相关文章 | 多维度评价
    19. 基于超图正则化的多模态信息融合算法
    崔冰晶, 张懿璞, 王飚
    计算机科学    2023, 50 (6): 167-174.   DOI: 10.11896/jsjkx.220900144
    摘要270)      PDF(pc) (3087KB)(281)    收藏
    多模态数据融合方法通过学习多个数据集间的关联信息和互补信息,提高了数据分类或预测的性能。但现有的数据融合方法大都基于单独数据集自身的特征模式进行学习,不同异构数据之间的结构信息往往被忽略。因此,文中提出了一种基于超图正则化的多模态信息融合算法(sHMF),通过超图和流行正则项的方法结合表示模态内样本间的高阶关系和模态间的关系,即得到同构和异构的高阶网络。其中,采用超图稀疏表达学习超图,减少冗余边。为了验证所提算法的性能,在模拟数据和影响遗传学真实数据下进行实验,结果表明,sHMF算法在模拟数据和真实数据上均优于多任务学习、多邻域分类等流行算法对精神分裂症的分类精度。同时,sHMF在真实数据上得出的实验结果进一步揭示了一些与精神分裂症显著相关的生物标记物以及风险基因、甲基化因子和异常脑区之间潜在的联系。
    参考文献 | 相关文章 | 多维度评价
    20. 基于Bloom分类法的CS1试题数据集的构建及其自动分类
    董荣胜, 卫晨雨, 胡杰, 乔宇澄, 李凤英
    计算机科学    2023, 50 (6): 175-182.   DOI: 10.11896/jsjkx.230200182
    摘要191)      PDF(pc) (1549KB)(194)    收藏
    课程评估是教学改革的一个关键环节,涉及教学案例、试题以及课堂教学等方面的内容。针对计算课程的试题评估,引入Bloom分类法,以普林斯顿大学和桂林电子科技大学“计算机科学导论”课程(CS1)的试题为语料库,给出针对CS1的Bloom分类法认知过程维度和知识维度的相应动词种子库和名词种子库,对试题所能达到的Bloom分类法二维矩阵的位置进行标注,构建CS1试题分类数据集。采用机器学习技术,给出CS1试题自动分类模型TFERNIE-LR,该模型由CSTFPOS-IDF算法、ERNIE模型和LR分类器3部分组成。CSTFPOS-IDF算法是在TFPOS-IDF算法的基础上,通过计算课程关键词权重因子,来提高模型对计算课程关键词的关注程度,生成词权重。同时,基于实体知识增强预训练模型ERNIE进行试题词语级向量嵌入,组合词权重和词语级向量生成用于自动分类的试题文本向量。最后,采用LR分类器将试题自动分类到Bloom分类法二维矩阵。实验结果表明,TFERNIE-LR模型具有良好的性能,在认知过程维度和知识维度上的加权精确率分别达到了83.3%和96.1%。
    参考文献 | 相关文章 | 多维度评价
    21. 基于锚图分类的在线半监督跨模态哈希
    秦亮, 谢良, 陈盛双, 徐海蛟
    计算机科学    2023, 50 (6): 183-193.   DOI: 10.11896/jsjkx.220400038
    摘要180)      PDF(pc) (3824KB)(239)    收藏
    近年来,哈希算法由于其存储成本小、检索速度快的特点,在大规模多媒体数据的高效跨模态检索中受到了广泛关注。现有的跨模态哈希算法大多是有监督和无监督方法,其中有监督方法通常能够获得更好的性能,但在实际应用中要求所有数据都被标记并不具有可行性。此外,这些方法大多数是离线方法,面对流数据的输入需要付出高额训练成本且十分低效。针对上述问题,提出了一种新的半监督跨模态哈希方法——在线半监督锚图跨模态哈希(Online Semi-supervised Anchor Graph Cross-modal Hashing,OSAGCH),构建了半监督锚图跨模态哈希模型,在只有部分数据有标签的情况下,利用正则化锚图预测数据标签,并通过子空间关系学习哈希函数,一步生成统一的哈希码,同时针对流数据输入的情况对该模型进行了在线化学习,使其能够处理流数据。在公共多模态数据集上进行了实验,结果表明所提方法的性能优于其他现有方法。
    参考文献 | 相关文章 | 多维度评价
    22. 基于深度学习的异质信息网络表示学习方法综述
    王慧妍, 于明鹤, 于戈
    计算机科学    2023, 50 (5): 103-114.   DOI: 10.11896/jsjkx.220800112
    摘要181)      PDF(pc) (4570KB)(384)    收藏
    万物依存而在,现实世界中的实体之间存在着各种不同的关联关系,如人与人之间的关系可以构成社交网络,学者通过共同发表论文、引用文献构成引文网络。同质网络将节点和边抽象为单一类型,但是这会造成大量的信息丢失。为了更大程度地保证信息的完整性和丰富性,有研究者提出了异质信息网络的概念,即包含多种类型节点和边的网络模式。将异质信息网络中的拓扑结构和语义信息嵌入到低维向量空间中,下游任务能够利用异质信息网络中的丰富信息进行机器学习或数据挖掘任务。文中总结了近年来基于深度学习模型的异质信息网络表示学习方法的研究成果,同时聚焦两类关键问题——异质信息网络语义自动提取和动态异质信息网络的表示学习方法,列举了异质信息网络表示学习新的应用场景,并展望了异质信息网络的未来发展趋势。
    参考文献 | 相关文章 | 多维度评价
    23. 数据空间:一种新的数据组织和管理模式
    范淑焕, 侯孟书
    计算机科学    2023, 50 (5): 115-127.   DOI: 10.11896/jsjkx.220700042
    摘要489)      PDF(pc) (3055KB)(519)    收藏
    随着数字经济的快速发展,如何实现非可信环境下的多方数据融合,为跨组织场景的数据共享、数据分析以及数据服务寻找新途径,成为了社会数字化产业升级中面临的新问题。数据空间为解决这些问题带来了新思路。文中回顾了数据的组织和管理发展历程,指出在大数据背景下数据空间的系统研究具有急迫性和重要性,分析了数据空间的内涵并进行了形式化描述,提出了基于数据空间的大数据平台架构,总结描述了3类经典的应用场景。围绕数据空间的构建工作,从数据建模、动态演变、数据查询处理、安全与隐私拓展方面分析了当前的关联研究问题和主要技术方法,简述了数据空间在不同领域的实现和应用情况。最后从多模态数据融合、高效的查询处理、数据的安全共享及基于数据空间的大数据平台构建分析方面展望了研究前景和挑战。
    参考文献 | 相关文章 | 多维度评价
    24. 基于深度跨模态信息融合网络的股票走势预测
    程海阳, 张建新, 孙启森, 张强, 魏小鹏
    计算机科学    2023, 50 (5): 128-136.   DOI: 10.11896/jsjkx.220400089
    摘要280)      PDF(pc) (2113KB)(336)    收藏
    股票走势预测是经典且具有挑战性的任务,可帮助交易者做出获得更大收益的交易决策。近年来,基于深度学习的股票走势预测方法的性能得到明显提升,但现有方法大多仅依托于股票价格的历史数据来完成走势预测,无法捕捉价格指标之外的市场动态规律,在一定程度上限制了方法的性能。为此,将社交媒体文本与股票历史价格信息相结合,提出了一种基于深度跨模态信息融合网络(DCIFNet)的股票走势预测新方法。DCIFNet首先采用时间卷积操作对股票价格和推特文本进行编码,使得每个元素对其邻域元素都有足够的了解;然后,将结果输入到基于transformer的跨模态融合结构中,以更有效地融合股票价格和推特文本中的重要信息;最后,引入多图卷积注意力网络从不同角度描述不同股票之间的相互关系,能够更有效地捕获关联股票间的行业、维基和相关关系,从而提升股票走势预测的精度。在9个不同行业的高频交易数据集上实施走势预测和模拟交易实验。消融实验及所提方法与用于股票预测的多管齐下的注意力网络(MAN-SF)方法的比较结果验证了DCIFNet方法的有效性,准确率达到了 0.6309,明显优于领域内代表性方法。
    参考文献 | 相关文章 | 多维度评价
    25. 代价敏感的多粒度邻域粗糙模糊集的近似表示
    杨洁, 匡俊成, 王国胤, 刘群
    计算机科学    2023, 50 (5): 137-145.   DOI: 10.11896/jsjkx.220500268
    摘要166)      PDF(pc) (6193KB)(327)    收藏
    多粒度邻域粗糙集是邻域粗糙集理论的一种新型数据处理模式,其目标概念分别由乐观和悲观的上、下近似边界描述。但当前的多粒度邻域粗糙集既缺乏利用已有的信息粒近似描述目标概念的方法,又无法处理目标概念为模糊的情形。而张清华教授提出的粗糙集近似理论提供了一种利用已有信息粒近似描述知识的方法,为构建多粒度邻域粗糙模糊集的近似精确集提供了新思路。文中首先针对模糊目标概念,将粗糙集近似理论应用到邻域粗糙集领域,提出了代价敏感的邻域粗糙模糊集的近似表示模型;然后进一步从多粒度视角,构建出一种代价敏感的邻域粗糙模糊集的多粒度近似表示模型,并分析了其相关性质;最后,通过实验仿真,验证了当多粒度代价敏感近似及其上、下近似方法分别去近似刻画模糊目标概念时,多粒度代价敏感近似方法产生的误分类代价最小。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共1页 共25条记录