栏目文章

Select

1. 图嵌入学习研究综述:从简单图到复杂图

黄苗苗, 王慧颖, 王梅霞, 王业江, 赵宇海

计算机科学 2026, 53 (1): 58-76. DOI: 10.11896/jsjkx.250300081

摘要（441）

PDF（pc）（2381KB）（77）

图数据作为一种具有强大表达能力的数据类型,因具有复杂的结构而难以高效建模。如何有效捕捉其中的内在信息,成为一个富有挑战性的问题。图嵌入方法将高维稀疏的图映射为低维稠密的特征向量,同时保留图的结构信息,已经引起了广泛关注。然而,现有综述对图嵌入方法的总结不够全面,尤其对复杂图嵌入的关注较少,导致处理多样化图数据的研究现状未能得到系统梳理。对此,从简单图到复杂图,对图嵌入学习方法进行了系统综述。首先,给出了各种类型的图和图嵌入的常见定义;其次,系统地归纳了简单图上的嵌入方法,包括浅层和深度图嵌入方法;然后,按照图的种类,总结了复杂图上的嵌入方法,重点介绍深度嵌入技术在动态图、异质图、多重图和超图等复杂图结构中的应用,以弥补现有文献对复杂图结构研究关注较少的不足;最后,讨论了图嵌入技术的实际应用场景,并展望了未来的发展方向。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于持久内存的B+树索引优化综述

卢超, 杨朝树, 姚政竹, 刘颖, 张润宇

计算机科学 2026, 53 (1): 77-88. DOI: 10.11896/jsjkx.250200109

摘要（296）

PDF（pc）（3086KB）（82）

持久内存的出现为索引结构设计提供了新思路,同时在数据一致性、持久化开销和并发控制等方面也带来了设计挑战。作为存储系统中应用广泛的索引结构,B+树亟需针对持久内存的硬件特性进行适配优化,以充分发挥其字节寻址、非易失性和低延迟等优势。围绕持久内存上B+树索引优化问题,首先分析了构建基于持久内存B+树所存在的挑战,其次分别从单一持久内存架构和混合内存架构两个视角综述了优化方案。对于单一持久内存架构,总结了数据一致性方案、并发控制优化和叶节点创新设计的研究进展,探讨了如何在保证瞬时恢复的基础上提升写操作效率;对于DRAM-PM混合架构,分析了基于叶节点结构优化和基于辅助结构优化的策略,总结了如何在选择性持久化的基础上提升索引性能。最后,总结并分析了两类架构下不同方案的设计特点及优缺点,并对未来在两类架构下的B+树索引优化发展方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于KAN的无监督多元时间序列异常检测网络

王成, 金城

计算机科学 2026, 53 (1): 89-96. DOI: 10.11896/jsjkx.241200190

摘要（651）

PDF（pc）（1677KB）（111）

时间序列数据在金融、医疗、工业和交通等领域中广泛存在,异常检测对确保系统稳定和安全至关重要。由于异常样本的收集十分困难,当前大多数时间序列异常检测方法是无监督的。然而,这些方法普遍存在过泛化问题,即模型不仅能重建正常样本,还能很好地重建异常样本。这一问题使得异常检测效果不佳。因此,提出了一种基于Kolmogorov-Arnold表示理论的时间序列异常检测方法TS-KAN,利用其参数高效性与局部可塑性,使模型更好地拟合正常样本并缓解过泛化问题。此外,提出了局部特征增强层Local-KAN,以增强时域特征的表达能力,提高上下文异常检测能力。在5个主流时间序列异常检测数据集上的实验表明,TS-KAN的异常检测能力显著优于现有方法。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于图注意力交互的行人轨迹预测方法

刘宏鉴, 邹丹平, 李萍

计算机科学 2026, 53 (1): 97-103. DOI: 10.11896/jsjkx.250300132

摘要（330）

PDF（pc）（1868KB）（118）

行人轨迹预测在自动驾驶领域和智慧交通领域均取得了显著的研究进展。由于行人的行为受到自身和环境因素的双重影响,其轨迹具有不确定性和复杂性,因此准确利用轨迹数据的交互特征生成多模态轨迹仍存在较大挑战。目前,该领域中的主要挑战是准确建模行人之间的时空交互。面对复杂的行人时空交互,提出了一种基于图注意力的时空图神经网络,其量化表示行人之间的空间交互并重点关注关键交互,从而将行人轨迹信息表示为有向时空图,利用图注意力机制提取空间位置特征和交互特征,同时结合自注意力机制在时间维度提取时间特征并融合时空特征信息,最后生成结合历史轨迹和交互信息的多模态未来轨迹。在ETH-UCY数据集上的实验表明,与最佳基线模型相比,所提出的方法在平均位移误差(ADE)和最终位移误差(FDE)方面分别降低3.4%和2.1%,并具有较短的推理时间,确保实现实时推理响应。可视化的结果表明,所提出的方法能够生成具有可接受性的未来行人轨迹,展现了良好的工程应用前景。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于多视图多样性学习的联合谱嵌入聚类算法

李顺勇, 郑孟蛟, 李嘉茗, 赵兴旺

计算机科学 2026, 53 (1): 104-114. DOI: 10.11896/jsjkx.241100070

摘要（335）

PDF（pc）（4783KB）（91）

现有的大多数多视图聚类算法仅依赖于视图间的低阶相似性信息,未能有效地捕捉数据中的高阶结构特性,且对多视图数据的多样性特征关注不足,导致聚类结果的准确性和鲁棒性受限。针对以上问题,提出了一种基于多视图多样性学习的联合谱嵌入聚类算法——JSEC。首先通过视图多样性学习,保留数据间的多样特征,从而有效去除了视图中的噪声;然后提出了一种挖掘视图高阶信息的方法,使得视图的多样性特征尽可能靠近混合相似图,从而实现不同视图信息的高效整合,实现视图间的多样性和补充性融合;最后在谱嵌入模块将视图的多样性特征矩阵融合为联合谱嵌入矩阵,通过谱聚类实现图聚类。另外,设计了一种交替迭代的方法,用于优化目标函数。在与目前最新的多视图聚类算法的对比中,JSEC算法在5个中小规模的真实数据集的3个指标上均展现出优越的性能,同时在2个大规模数据集上也有优异的表现,相比次优算法,ARI指标在不同规模数据集上分别有1.27%和2.57%的提升,从而在理论和实验上验证了所提算法的稳健性。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于隔离森林集成策略的分类型属性分组离群检测

宋亦静, 张继福

计算机科学 2026, 53 (1): 115-127. DOI: 10.11896/jsjkx.241000163

摘要（221）

PDF（pc）（2429KB）（82）

属性分组是高维离群检测的有效途径之一,但现有的属性组离群检测集成策略仅利用了各属性组内的局部离群信息,忽略了属性组的全局离群信息,导致属性组离群信息集成出现偏差。为此,利用属性组局部与全局离群信息,提出了一种基于隔离森林集成策略的分类型属性分组离群检测方法。该方法根据属性之间的相关性,将属性自动划分为若干属性组,获得数据对象在各属性组中的离群信息;理论分析了现有离群信息集成策略存在集成偏差,并定义了属性组集成偏差系数;利用隔离森林设计了一种离群信息集成策略,有效地刻画了属性组局部与全局离群信息,降低了属性组离群检测集成偏差,并在此基础上提出了一种分类型属性分组离群检测算法。实验结果表明,与对比方法相比,该算法的 AUC 指标、效率分别平均提高了7.83%和48.43%。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于分解与集成的多尺度太阳黑子数量预测

赵宇轩, 余定峰, 李冬雪, 徐以东, 李北明

计算机科学 2025, 52 (12): 60-70. DOI: 10.11896/jsjkx.241100011

摘要（284）

PDF（pc）（6677KB）（100）

太阳活动直接影响日球层环境和地球上的生命,太阳黑子数(SN)是最重要和最常预测的太阳活动指数之一。提高SN预测精度可以为气候模型提供更可靠的数据支持,对于理解太阳活动周期具有重要意义。对此,提出一种结合自适应噪声完备集合经验模态分解(CEEMDAN)、混合神经网络和注意力机制的多尺度SN序列预测模型。该方法使用3种不同的数据集,分别是1818－2024年每日SN、1749－2024年月均SN和1700－2023年年均SN。由于SN序列的非平稳性、非高斯性和非线性性质,因此先利用CEEMDAN将太阳活动在各时间尺度上的变化分量分解为若干不同频率子序列,将子序列与原始序列相结合作为强化特征集,增强模型对太阳活动变化的表征能力,再利用时序卷积神经网络(TCNs)作为特征提取的前沿,融入双向长短时记忆神经网络(BiLSTM)捕捉时间序列的长期依赖性,同时引入注意力机制(Attention)动态识别并加权序列中的关键时间特征。在3种数据集上进行消融实验,结果表明,所提模型各模块之间具有良好的协同作用。在此基础上对比部分已有模型,各数据集的预测精度均有所提高。利用该模型预测SN,得到年、月、日3种不同频率的预测结果,将预测结果作为多时间尺度特征融合形成最终预测结果。结果表明,太阳活动在2025年呈现出显著增强的趋势,并预计将在本年达到第25个太阳活动周期的活动高峰,年均SN峰值预计为233.9。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于智联电动车流量生成的跨区域换电站部署算法

陈佳怡, 顾丞毅, 周继华, 赵涛, 王双超, 朱明星, 向朝参

计算机科学 2025, 52 (12): 71-80. DOI: 10.11896/jsjkx.250200010

摘要（157）

PDF（pc）（4376KB）（95）

随着换电模式的兴起,以智联电动车为主要交通工具的短途出行方式变得越来越流行,这促使提供换电服务的公司在城市中不断扩张业务规模。扩张时,公司倾向于在用户活跃度较高的区域设置换电站,活跃度水平可以通过智联电动车区域流量来体现。然而,在实际部署换电站之前,新区域的运营数据缺乏,使得依赖历史数据进行部署优化的数据驱动方法难以发挥作用,形成“数据缺失—难以部署—无法获取数据”的循环困境。对此,提出了一种基于智联电动车流量生成的跨区域换电站部署算法。首先,构建基于去噪扩散概率模型的区域流量生成模型,捕捉区域流量时空特征,利用已部署区域的数据来生成待部署区域的数据。然后,将区域流量纳入换电站部署问题,构建最大化换电站部署效益的优化模型。最后,基于自适应遗传特性做出跨区域换电站部署决策。基于四川省成都市真实换电数据集对所提算法进行了性能评估,实验结果验证了所提解决方案的有效性。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于跨模态融合和多生成器的热带气旋预测

刘倩, 孙虎, 归耀城, 周国强

计算机科学 2025, 52 (12): 81-91. DOI: 10.11896/jsjkx.250100030

摘要（304）

PDF（pc）（3632KB）（103）

准确预测热带气旋的运动轨迹和强度对减轻和预防灾害至关重要。基于深度学习的方法虽然表现出出色的预测性能,但这类方法大多只关注单模态数据,忽略了不同模态之间的相关性。为了充分利用多模态数据中的丰富信息,提出一种基于跨模态融合和多生成器的热带气旋预测模型。该模型包括一个多模态特征提取模块、一个跨模态特征融合模块和一个生成对抗网络。多模态特征提取模块从历史最佳轨迹数据、大气再分析数据以及环境场数据中分别提取相应的特征表示。跨模态特征融合模块通过一种新颖的跨模态特征互补策略融合多模态特征。生成对抗网络通过多个生成器生成最终的热带气旋预测结果。此外,还构建了一个特征融合损失以帮助提高模型的性能。实验表明,所提方法不仅能在训练和推理阶段都保持较高的效率,而且具有更好的预测性能。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于层加权和重力中心性的多层网络重要节点识别

王建波, 罗雨, 许小可, 杜占玮, 李平

计算机科学 2025, 52 (12): 92-101. DOI: 10.11896/jsjkx.241000090

摘要（345）

PDF（pc）（4493KB）（105）

识别多层网络中的重要节点是网络科学中的一个研究热点,对于理解网络的结构和功能起着至关重要的作用。受引力模型启发,现有大多数方法主要基于局部或全局拓扑结构信息,忽略了多层网络的层内和层间结构对节点的影响,限制了节点识别的最终性能。对此,提出了一种基于层加权和重力中心性算法来识别多层网络的重要节点。首先,该算法结合网络的层内和层间结构赋予每层网络权重,以此量化度中心性在不同层的影响力。其次,考虑网络的层间结构对传播路径的影响,进而定义节点之间的有效距离。最后,根据引力公式获得节点在整个网络中的影响力值。在9个真实网络上的多个实验表明,所提算法与6种具有代表性的方法相比,具有较高的准确率和分辨率。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于超图网络嵌入的蛋白质复合体识别算法

王杰, 杨贤灿, 赵兴旺

计算机科学 2025, 52 (12): 102-114. DOI: 10.11896/jsjkx.250900062

摘要（273）

PDF（pc）（8620KB）（105）

蛋白质复合体在细胞生物学过程中起着关键作用,对理解细胞功能和生物过程的识别至关重要。在蛋白质-蛋白质相互作用(Protein-Protein Interaction,PPI)网络中采用网络聚类识别蛋白质复合体已经成为数据挖掘与生物信息学的研究热点,各种计算方法被提出用于识别蛋白质复合体。然而,大多数方法仅利用原始网络来挖掘密集子图或子网络,未能突破传统图结构对多节点交互关系的局限。针对生物网络中普遍存在的多对多复杂交互特性问题,提出基于超图网络嵌入的蛋白质复合体识别算法(Protein Complex Identification Method Based on Hypergraph Network Embedding,PCIHNE)。该算法首先利用超图网络对多元关系的直接建模能力,将原始PPI网络转换为超图网络。其次,对超图网络采用分层压缩策略递归地压缩为多个不同层次的较小超图,以此构建多尺度分析框架。再次,将超图卷积应用于不同层次,得到每个节点在不同尺度下的表示。将这些节点表示进行连接,得到完整的节点嵌入表示。基于节点嵌入表示,在低阶原始网络上构建加权PPI网络。最后,在加权PPI网络上采用基于核心附属策略,得到预测的蛋白质复合体。在多个酵母和人类真实的数据集上将所提算法与其他蛋白质复合体识别算法进行比较,实验结果表明,所提方法在F-measure和Accuracy指标上取得了较好的蛋白质复合体识别性能。

参考文献 | 相关文章 | 多维度评价

Select

12. PIEnum:高效的概率图上路径枚举算法

谢文林, 杜明, 周军锋

计算机科学 2025, 52 (12): 115-124. DOI: 10.11896/jsjkx.241100090

摘要（149）

PDF（pc）（4363KB）（93）

枚举概率图上两个顶点间的路径是分析两点间关系的基本手段。为了解决已有算法存在的剪枝不充分、冗余计算等问题,提出了一种基于剪枝和索引的算法——PIEnum,其任务是在概率图G上枚举所有从起点s到终点t,长度不超过k且路径上所有边的概率累积值不低于γ的简单路径,其中k和γ分别为给定的路径长度约束值和概率阈值。对于一个查询,PIEnum首先剔除无效顶点以缩减路径枚举的搜索空间,然后构建一个轻量级的在线索引来避免路径枚举过程中重复的剪枝判断,最后在路径枚举的过程中将无效的搜索分支剪枝。为了进一步提升算法在稠密图上的查询效率,基于Join模式实现了PIEnum⁺。在10个真实数据集上检验了该算法的性能,实验结果表明,PIEnum整体性能比已有算法提升了10倍以上。

参考文献 | 相关文章 | 多维度评价

Select

13. 面向并发图分析的局部性感知的缓存管理策略

李汉桥, 赵苑君

计算机科学 2025, 52 (12): 125-132. DOI: 10.11896/jsjkx.250200062

摘要（172）

PDF（pc）（4195KB）（68）

随着图计算技术的蓬勃发展,现有图平台上通常运行着大量的并发图分析任务以获得数据背后的价值。因此,并发图计算技术被广泛应用于智能教育、公共管理和新闻媒体等领域。然而,目前图计算系统大多为执行单个图分析任务设计,在支持并发图分析任务时存在大量冗余数据访问。尽管一些工作已经观察到这一问题,并试图利用其中的时间和空间局部性共享底层图数据减少冗余数据访问,但是其忽视了私有状态数据更新访问的数据局部性,依然面临着缓存利用率低的问题,导致系统吞吐率低。为此,提出了面向并发图分析的局部性感知的缓存管理策略CCG,以充分感知并发图分析任务之间的时间和空间局部性,减少冗余数据访问和同步开销。具体而言,该策略通过高效缓存数据的更新并以增量的方式合并冗余更新,利用并发图分析任务的数据局部性,实现内存数据的高效批量更新,减少数据访问开销并避免缓存抖动,有效提升并发图分析任务的吞吐率。同时,高效利用多级缓存进行分层缓冲与合并,让并发图分析任务在更新访问私有数据时避免同步开销和锁开销,进一步提升系统吞吐率。实验结果显示,在用目前最新的并发图计算系统Glign运行并发图分析任务时,相比于现有最好的图计算缓存策略GRASP,CCG可以将系统吞吐率提升2.3~7.8倍。

参考文献 | 相关文章 | 多维度评价

Select

14. 部分不完备广义多尺度数据的最优尺度组合和属性约简

周诗霖, 吴伟志, 李同军

计算机科学 2025, 52 (11): 49-61. DOI: 10.11896/jsjkx.250700019

摘要（232）

PDF（pc）（1655KB）（100）

针对部分不完备广义多尺度数据集的知识获取问题,首先,将一个部分不完备广义多尺度决策系统变换成广义多尺度集值决策系统,然后在所获系统所给定的每个尺度组合和每个属性子集上定义对象集上的相容关系,并得到对应的相容类表示,进一步给出集合关于相容关系的上近似与下近似、信任度与似然度以及属性子集所拥有的信息量等概念。其次,在协调广义多尺度集值决策系统中定义6种最优尺度组合的概念并验证它们之间的相互关系,证明其中的5种最优尺度组合概念是相互等价的,而信息量最优尺度组合与其他5种最优尺度组合概念之间没有强弱关系。最后,在一个信任最优尺度组合的基础上给出协调广义多尺度集值决策系统的属性约简方法,并用示例说明信任最优尺度约简的计算。

参考文献 | 相关文章 | 多维度评价

Select

15. Truster:面向高效查询的自动驾驶轨迹数据聚类存储方案

王征权, 彭智勇

计算机科学 2025, 52 (11): 62-70. DOI: 10.11896/jsjkx.241100052

摘要（207）

PDF（pc）（3078KB）（107）

自动驾驶轨迹数据具有重要的研究与应用价值,其存储与查询技术得到了广泛的研究与关注。然而,现有轨迹数据管理方案主要针对一般轨迹数据设计,无法支持高频采样的自动驾驶轨迹数据的高效写入,且动态环境下高昂的索引维护开销使其难以满足动态更新与实时查询的需求。针对自动驾驶场景下高采样频率、高实时性的轨迹数据如何实现高频写入、动态更新、实时查询的问题,提出一种面向高效查询的自动驾驶轨迹数据聚类存储方案Truster。该方法设计了编码器和嵌入器,为原始轨迹生成空间感知键并提取特征向量;设计了基于日志结构合并树的存储结构CLSM树,以实现相似轨迹的集中存储;设计了LCC合并策略,在有序字符串表进行合并的同时,利用基于局部敏感哈希的分桶方法进行快速聚类;设计了轨迹查询算法,利用多粒度缓存和分桶映射快速筛选搜索空间。Truster不仅支持高频写入,还能适应动态工作负载的索引维护,且查询效率更高。在真实自动驾驶轨迹数据集Argoverse上进行的对比实验表明,与现有方法相比,Truster在写入操作上取得了20%~200%的加速,在查询操作上取得了20%~100%的加速。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于持续同调的空间金字塔词袋算法

易丽莎, 彭宁宁

计算机科学 2025, 52 (11): 71-81. DOI: 10.11896/jsjkx.240900160

摘要（287）

PDF（pc）（8384KB）（199）

为了解决持续同调从数据中提取的拓扑特征输出形式与机器学习算法的常用输入形式不匹配这一难题,提出了一个新的算法框架——基于持续同调的空间金字塔词袋模型(PHSBoW算法)。该算法将持续同调输出的持续性图(PD图)转换为固定长度的向量,同时最大限度地保留PD图中所包含的拓扑特征。为提高算法准确率、降低运行时间,在PHSBoW算法的基础上,通过权重优化、聚类模型替代以及词袋模型扩展等改进,进一步发展了PHSsBoW,PHSwBoW,PHSVLAD 3种算法。通过在不同类型和规模的9个数据集上进行实验,将以上4种算法与支持向量机相结合,对数据进行分类。实验结果表明,与传统核函数算法(SWK,PSSK,PWGK)及向量化算法(PBoW,PI,PL)相比,该方法的分类准确率平均提高了3.29个百分点~17.98个百分点,运行时间相较于核函数算法显著降低。这表明,所提出的算法有效解决了持续同调在机器学习中难以结合的问题,同时显著提高了分类准确率和算法运行速度。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于自注意力机制的图对比学习推荐算法

胡金涛, 冼广铭

计算机科学 2025, 52 (11): 82-89. DOI: 10.11896/jsjkx.240900134

摘要（372）

PDF（pc）（2627KB）（115）

随着互联网数据的爆炸性增长,推荐系统已成为解决信息过载问题的关键技术。基于图对比学习的推荐模型通过增强用户-项目交互图,在提升模型性能方面展现出了显著的优势。尽管这些模型取得了一定成功,但现有的大多数方法是通过扰动图结构来进行数据增强,这种方式在保持内在语义结构时表现不佳,且容易受到噪声干扰的影响。为了进一步提升推荐模型的性能,提出了一种新颖的基于自注意力的图对比学习推荐算法(AttGCL)。一方面,集成的自注意力机制能够增强用户与项目之间的联系,从而更精确地捕捉用户偏好和个体差异性。另一方面,采用的ICL损失函数能有效控制正样本和负样本的重要性,从而更好地对齐全局和局部表示。该方法保留了关键的用户-项目交互语义,使得模型不仅能更准确地反映用户偏好,还提升了推荐效果。在3个真实数据集上的实验结果表明,AttGCL在性能上显著优于现有的图对比学习方法,展示了在高效性和鲁棒性上的优势。

参考文献 | 相关文章 | 多维度评价

Select

18. 对抗生成式的多敏感属性数据去偏方法

王文鹏, 葛洪伟, 李婷

计算机科学 2025, 52 (11): 90-97. DOI: 10.11896/jsjkx.240900061

摘要（281）

PDF（pc）（1953KB）（90）

针对消除数据中敏感属性与非敏感属性之间的相关性、减轻实现公平性对模型准确性的损失以及多敏感属性去偏的问题,提出一种对抗生成式的多敏感属性数据去偏方法。在多敏感属性去偏问题上,该方法通过多个敏感属性的组合值来划分群组,并通过消除各群组与多敏感属性组合的相关性来提升各群组预测结果的公平性。在消除数据中敏感属性与非敏感属性之间的相关性问题上,采用自编码器与预测敏感属性的网络进行对抗式训练,这种训练机制能够深入挖掘并消除群组中潜藏的与敏感属性相关的信息,从而在保留数据有用性的同时,显著降低偏见。在减轻实现公平性对模型准确性损失,最大化准确性与公平性之间平衡的问题上,通过引入预测网络,并利用其损失函数作为约束,优化编码器的信息提取能力,确保在数据编码过程中能够更精准地捕捉关键信息,避免数据在去偏过程中过度牺牲模型的预测性能。在3个真实数据集上进行数据去偏实验,将经编码器编码的数据应用于逻辑回归模型,公平性提升50.5%~84%,验证了该教据去偏方法的有效性。综合考虑公平性、准确性以及公平性与准确性的平衡,该去偏方法优于其他去偏算法。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于用户行为序列特征增强的推荐算法研究

曹天若, 李景悦

计算机科学 2025, 52 (11A): 240400141-5. DOI: 10.11896/jsjkx.240400141

摘要（232）

PDF（pc）（2133KB）（73）

随着互联网的迅猛发展,各种功能的APP层出不穷,人们已经可以在互联网上实现各种行为操作,各类商品、新闻、广告等信息流持续不断地产生和传播。与此同时,推荐算法领域的工程师们也在不断收集有用特征来迭代优化算法效果。从早期收集画像特征,演变到用户行为日志和历史行为统计,到目前的用户行为序列特征研究,目前推荐算法领域已取得一套完整的特征工程范式。随着用户的历史行为序列近年来被发现是非常重要的特征。但是,仅凭物品ID能获得的语义嵌入非常有限,也无法自动与其他相关信息进行交叉,其应用在算法效果收益方面也非常有限。自2021年底以来,语言模型的引入在学术界和工业界的应用已取得显著成果,工程师们在推荐算法领域也进行了一些尝试。文中基于语言模型提出了用户行为序列特征增强推荐算法,借助语言模型的语义分析和逻辑思考能力,采用用户行为序列特征的预训练表示学习来实现特征增强,最终提升推荐算法的模型排序能力。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于深度神经网络的大样本作战仿真资源分配方法

叶帅, 李豪, 史培腾, 黄昱霖

计算机科学 2025, 52 (11A): 241000036-5. DOI: 10.11896/jsjkx.241000036

摘要（217）

PDF（pc）（2672KB）（82）

随着人工智能的发展,作战实验呈现智能化趋势。大样本仿真是开展智能化作战实验的重要支撑,是解决作战实验变量因子多、组合复杂等问题的有效手段,具有样本数量大、速率要求高的特点。海量仿真样本的高速运行依赖于高性能硬件集群的高效调度,面临样本计算资源需求差异大、人工分配难的问题。如何精准预测并动态分配各个样本所需的计算资源,是提高大样本仿真效率的关键。为此,提出了一种基于深度神经网络(DNN)的大样本作战仿真计算资源预测模型。该方法首先构建了深度神经网络在环的仿真资源管理架构。其次,对作战仿真样本文件进行特征提取和学习构建深度神经网络预测模型。在大样本仿真运行时,通过在线预测每个样本所需的计算资源,实现海量作战仿真作业资源的精准预测与动态分配。测试结果表明,在千级样本的典型作战实验仿真场景中,相比于传统配置方法,提出的预测模型在10个高性能服务器节点上的完成时间减少了20.8%。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于BWT,MTF和ANS的标签数据压缩算法

廖睿, 唐杰, 梁桐嘉, 郑欣磊, 王斌翊, 齐志强

计算机科学 2025, 52 (11A): 241000081-6. DOI: 10.11896/jsjkx.241000081

摘要（216）

PDF（pc）（2387KB）（77）

使用一些规则集可以将一些信息转换为特定的内容存储在一定长度的标签码中。当信息较多时,标签码的使用会更加困难。对标签码数据进行压缩,可以减少存储信息的开销且便于识别。为了实现对此类数据的压缩,本文基于BWT、MTF和ANS算法,形成一种适用于标签数据的无损压缩算法,该算法在一定程度上对标签码进行无损数据压缩,有利于标签码信息的存储和识别以及标签码的使用。

参考文献 | 相关文章 | 多维度评价

Select

22. 城市空气质量数据的时空主动采样与联合推测

稂奥奇, 黄伟杰, 於志勇, 黄昉菀

计算机科学 2025, 52 (11A): 241000116-9. DOI: 10.11896/jsjkx.241000116

摘要（197）

PDF（pc）（3195KB）（73）

当前,城市中的环境数据仍以固定站点作为主流采样方式,但高昂的全采样成本使其难以大规模扩展。在此背景下,通过局部采样并结合推测算法来推断其余未采样数据的方法成为了当前研究的热点。现有的研究通常使用两种不同的模型分别进行主动采样和缺失推测,存在计算成本高和误差易累积等不足。基于此,提出了一种时空主动采样与联合推测一体化模型(Spatiotemporal Active-sampling and Joint Inference,SAJI)。该模型不仅能选择带来高推测精度的采样站点,还可以确定其主动采样时刻,最后利用多测量向量(Multiple Measurement Vector,MMV)恢复算法联合推测出所有站点的缺失值。实验结果表明,相比于基线算法,SAJI可以充分利用时空相关性使得未采样站点获得有价值的预补值,并利用后续的联合推测算法在低采样率下获得最高的推测精度。

参考文献 | 相关文章 | 多维度评价

Select

23. 层次时间序列预测方法与应用综述

向易, 丛丽丽, 王玮鹏, 周晓航

计算机科学 2025, 52 (11A): 241000139-7. DOI: 10.11896/jsjkx.241000139

摘要（373）

PDF（pc）（1877KB）（82）

层次时间序列是解决具有层级约束的多元时间序列,上层节点的数据是其所有子节点数据的累加。层次时间序列预测的主要难点是在准确预测每个序列的同时,还要保证不同级别之间的一致性,即预测在层次结构中满足累加的约束。随着大规模数据的涌现,这一复杂而具有挑战性的问题展现出更大的研究价值和广泛的应用前景。通过对层次时间序列预测相关方法和文献的综述,从分类方法和应用理论两个方面进行总结和归纳,同时探讨了该技术面临的挑战和实际应用中存在的缺口。分析表明,层次时间序列预测方法主要可分为预测模型和修订模型两个阶段,逐步引入机器学习和深度学习方法,并演化为将预测和修订模型融合的端对端方法。这些方法广泛应用于商业运营和政府治理领域。在未来的研究趋势方面,首先需要关注海量数据对两阶段方法预测准确度的影响;其次是深入研究端对端层次时间序列预测模型,以避免两阶段参数不连动的问题。此外,政府管理和商业运营的研究可以侧重于对具体问题导致不同层级关注度差异进行建模。

参考文献 | 相关文章 | 多维度评价

Select

24. 个性化推荐算法对用户决策行为影响研究综述

徐富萍, 周晓航, 张宁

计算机科学 2025, 52 (11A): 241100086-8. DOI: 10.11896/jsjkx.241100086

摘要（267）

PDF（pc）（2140KB）（85）

互联网在快速发展中产生了海量数据,信息过载现象也因此日益凸显。为了帮助用户在庞大的数据量中有效过滤和捕捉数据并进行高质量的运用,个性化推荐算法被提出。该算法在不同场景应用中不断发展,对用户的感知与决策行为产生导向作用。集中研究了基于协同过滤的推荐、基于内容的推荐、基于关联规则的推荐和混合推荐4种典型的个性化推荐算法,分析其在大数据环境下和不同场景中的特点和适用性;从互联网内容平台、电子商务平台和社交场景视角,探究个性化推荐算法在相关理论引入和新兴技术融入中不断发展的进程;从使用意愿和购买决策两方面的影响展开探索,发现了个性化推荐算法对用户决策行为的影响机制,进而探讨了个性化推荐算法在用户决策中的功能作用,并对相关研究进行展望。

参考文献 | 相关文章 | 多维度评价

Select

25. 基于机器学习的航材备件需求预测研究

王蕊, 王智恺, 钟一鸣, 孙辉, 杨凯欣

计算机科学 2025, 52 (11A): 241100116-9. DOI: 10.11896/jsjkx.241100116

摘要（303）

PDF（pc）（5586KB）（142）

为科学而精准地预测航空公司航材库存备件需求,制定合理的航材计划,从航材价格、重要度、维修间隔时间、装机数量等影响因素的角度出发,提出一种基于机器学习的航材备件需求预测方法。首先通过主成分分析(PCA)与K-means聚类将不同需求规律的备件降维可视化展示并分类,然后建立混合核极限学习机(HKELM)与随机森林(RF)的模型对分类后的数据进行多元回归预测,其中针对预测过程中参数选取困难的问题,采用麻雀搜索算法(SSA)迭代寻优两种模型的最优参数。最后,结合某航空公司机队运行数据进行实例分析,与反向传播(BP)神经网络、支持向量机(SVM)、最小二乘支持向量机(LSSVM)等预测方法进行比较,结果表明所提出的预测方法效果较好,其对航空公司航材计划工作具有一定的指导意义。

参考文献 | 相关文章 | 多维度评价

Select

26. 可解释性视角下缺失值填补方法比较研究

李毅, 王童欣, 庞博中

计算机科学 2025, 52 (11A): 241100156-8. DOI: 10.11896/jsjkx.241100156

摘要（219）

PDF（pc）（3124KB）（72）

随着深度学习技术的广泛应用,高质量的表格数据对模型预测性能至关重要,而数据缺失会严重破坏其内在结构与分布。尽管缺失值填补方法众多,但现有研究多侧重于填补精度,缺乏对填补结果如何影响下游模型可解释性的系统性评估。文中提出一种基于模型可解释性的缺失值填补评估框架。首先,探讨了深度生成模型在学习复杂数据分布以生成高质量填补值方面的优势。其次,构建了多种缺失场景,并采用夏普利值(Shapley Value)作为核心度量,量化比较了不同填补方法对模型特征重要性解释的影响。实验结果表明:1)深度生成模型能有效学习样本分布,其填补值在保持数据结构与信息完整性方面表现优越;2)填补精度与模型解释的稳定性之间并无直接对应关系,填补方法的选择会显著改变最终的夏普利值;3)随着数据缺失比例的增加,不同填补方法对模型解释结果的差异性影响愈发显著。本研究揭示了缺失值填补对模型可解释性的潜在影响,并为在可解释性攸关的场景中选择合适的填补策略提供了实证依据和新的评估视角。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于频率通道注意力机制和MSCNet的锂电池剩余使用寿命预测

卢世宇, 王海瑞, 朱贵富, 李亚龙

计算机科学 2025, 52 (11A): 241200041-8. DOI: 10.11896/jsjkx.241200041

摘要（265）

PDF（pc）（4848KB）（63）

为解决锂离子电池容量估计中特征提取不准确、数据噪声大及容量衰减趋势跟踪精度低等问题,提出了一种基于频率通道注意力机制(Frequency Channel Attention Mechanism,FCA)和MSCNet(Multi-Scale Inter-Series Correlations Net)的新型模型。模型首先对原始传感器数据进行去噪处理,以降低噪声对模型性能的干扰;其次,引入频率通道注意力机制,通过频域分析将输入序列映射到频域,识别主导时间尺度以捕捉显著的周期性模式,并对时间序列进行多尺度分解;最后,利用MSCNet对多尺度输出进行动态聚合,捕获不同时间尺度内的跨序列相关性,提升模型对时间依赖性的理解,同时减少模型参数量。在CALCE和NASA公开数据集上的实验表明,该模型在电池使用寿命预测中的相对误差(RE)较现有算法降低了10%～20%,能够更精准地跟踪电池衰退趋势。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于引导扩散的序列推荐方法

李博, 莫先

计算机科学 2025, 52 (11A): 241200062-6. DOI: 10.11896/jsjkx.241200062

摘要（177）

PDF（pc）（2536KB）（78）

随着用户行为偏好的动态变化,传统序列推荐方法面临着难以捕捉用户意图转变的挑战。为了解决这一问题,提出了一种基于引导扩散的序列推荐方法(GDRec),旨在通过将目标项目表示嵌入到扩散模型中,实现对用户当前意图的精准捕捉。具体地,GDRec模型包括以下关键组件:序列编码器、交叉注意力条件去噪解码器和交叉散度目标。序列编码器逐步生成用户偏好表示,捕捉历史序列与当前目标的动态关系;交叉注意力条件去噪解码器去除嵌入表示中的噪声,提高对下一目标项目的预测精度;交叉散度目标则赋予模型排序能力,确保表示的高质量,并在扩散过程中嵌入目标项目表示进行引导。最后,在Amazon的Office和Tools数据集上进行的大量实验证明了GDRec在多个评价指标上均优于现有的先进方法,显示出其在序列推荐任务中的优越性能。此外,消融实验和超参数分析进一步验证了模型的有效性和稳定性。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于张量图扩散的共享近邻密度峰值聚类算法

刘翘铭, 魏千然, 李智, 王健, 李远方

计算机科学 2025, 52 (11A): 241200068-11. DOI: 10.11896/jsjkx.241200068

摘要（182）

PDF（pc）（6034KB）（110）

密度峰值聚类(Density Peak Clustering,DPC)是一种基于密度划分思想的聚类分析方法。在处理高维数据时,DPC算法在相似度计算过程与聚类分配过程中分别存在“聚集”效应问题和“多米诺”效应问题,限制了DPC在实际应用中的分析效率。针对以上问题,提出基于张量图扩散的共享近邻密度峰值聚类算法TGD-SNN-DPC,该算法首先基于张量图理论设计张量图自适应构建模块,挖掘数据点间多样性局部邻域信息。在此基础上,提出高效张量图扩散学习模块,引入张量图高效更新策略,在不增加模型计算负担的前提下,利用该模块挖掘数据全局高阶拓扑信息,利用以上两个模块获得合理的鲁棒性更强的样本间邻接相似度信息。设计自适应共享邻域聚类模块,以张量图扩散高阶邻接矩阵为基础,引入基于共享近邻信息的样本局部密度与相对距离,利用自适应邻域非聚类中心样本分配策略,提升模型矩阵的准确性。在6个合成数据集和12个真实UCI数据集上的实验表明TGD-SNN-DPC算法在准确度(ACC)、调整兰德系数(ARI)和标准互信息(NMI)方面均优于基准算法。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于GRAM矩阵的粒感知机

吴少华, 陈玉明

计算机科学 2025, 52 (11A): 241200110-7. DOI: 10.11896/jsjkx.241200110

摘要（202）

PDF（pc）（2185KB）（80）

感知机是一种简单的线性分类器,也是SVM及深度学习的基石。然而,大部分复杂问题是非线性模型,感知机在处理这类问题时,分类效果不佳。因此,引入粒计算理论,以参考样本为模板,将训练样本粒化为特征粒子及特征粒向量,进而定义粒GRAM矩阵,提出一种基于GRAM矩阵的粒感知机模型。该模型优化感知机的对偶形式,构造新的粒感知机模型。为处理非线性分类问题,引入核函数,构造基于粒向量的核GRAM矩阵,并给出GRAM粒感知机的损失函数和学习方法。最后,从收敛性、非线性处理能力、参考样本的数量以及模型分类效果4方面进行实验分析,结果表明了GRAM粒感知机的有效性与正确性。

参考文献 | 相关文章 | 多维度评价