栏目文章

Select

1. ST-WaveMLP:面向交通流量预测的时空全局感知网络模型

包锴楠, 张钧波, 宋礼, 李天瑞

计算机科学 2024, 51 (5): 27-34. DOI: 10.11896/jsjkx.230100086

摘要（192）

PDF（pc）（3240KB）（295）

交通流量预测在智能交通系统中起着至关重要的作用。精准的交通流量预测不仅能帮助城市管理者进行更好的交通管理,也能帮助人们制定合适的出行计划。然而精准预测交通流量颇具挑战性,主要难点在于如何捕获交通流量数据中复杂的时空依赖性。近年来,深度学习方法已被成功应用于网格交通流量预测,主要采用深度卷积神经网络来捕获时空依赖性。但是卷积神经网络主要关注数据中空间特征的提取与整合,难以充分挖掘其中复杂的时空依赖性,而且单层卷积网络只能捕获局部空间依赖,因此,要想捕获全局空间依赖就需要对超多层的卷积网络进行堆叠,这将使整个网络模型训练收敛速度变慢。为了解决些问题,提出了一种面向交通流量预测的全局感知时空网络模型ST-WaveMLP,主要使用以多层感知机(MLP)为基础的可重复结构ST-WaveBlock来捕获相关的时空依赖。ST-WaveBlock中包含了捕获全局空间依赖和局部时间依赖的模块(SGAC),以及用于捕获局部空间依赖和全局时间依赖的模块(SLAC)。ST-WaveBlock具有较强的时空表征学习能力,通常仅用2~4个ST-WaveBlock堆叠就能有效捕获数据中的时空依赖性。最后,在4个实际交通流量数据集上进行实验验证,结果表明ST-WaveMLP具有更好的收敛性以及更高的预测精度,相较于之前最好的方法,所提方法预测精度的提升最高可达9.57%,模型收敛速度的提升最高可达30.6%。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于对抗策略类别特定的多样性时间序列shapelets提取

罗颖, 万源, 王礼勤

计算机科学 2024, 51 (5): 35-44. DOI: 10.11896/jsjkx.230200074

摘要（91）

PDF（pc）（2780KB）（127）

在时间序列分类任务中,通过提取时间序列的shapelets进行分类的方法因分类准确率高且具有良好的可解释性而受到广泛关注。针对现有方法学习到的shapelets是所有类共享,可以区分大多数类但不能准确地区分某一类和其他类,以及使用对抗策略的模型生成的shapelets存在多样性不足等问题,提出了一种基于对抗策略类别特定的多样性时间序列shapelets提取方法。该方法将类别信息嵌入时间序列,采用多生成器模块对抗地生成多个有差别的类别特定shapelets,再通过施加差异约束来提高shapelets的多样性,最后使用shapelet转换得到的特征对时间序列进行分类。在36个时间序列数据集上与5种基于shapelets的算法和11种先进的分类算法进行实验对比,实验结果表明,所提方法分别在36个数据集中的26个和20个数据集上取得了最优结果,且均取得了最高的平均秩,平均分类准确率相比其他方法最少提高了2.4%,最多提高了17.8%。消融性分析以及可视化分析验证了多样性和类别特定的思路在时间序列分类上的有效性。

参考文献 | 相关文章 | 多维度评价

Select

3. 融入时间信息的预训练序列推荐方法

陈稳中, 陈红梅, 周丽华, 方圆

计算机科学 2024, 51 (5): 45-53. DOI: 10.11896/jsjkx.230200049

摘要（99）

PDF（pc）（2607KB）（136）

序列推荐旨在根据用户与项目的历史交互序列,学习用户动态偏好,为用户推荐后续可能感兴趣的项目。基于预训练模型在适应下游任务方面具有优势,预训练机制在序列推荐中备受关注。现有序列推荐预训练方法忽略了现实中时间对用户交互行为的影响,为了更好地捕获用户与项目交互的时间语义,提出了融入时间信息的预训练序列推荐模型TPTS-Rec(Time-aware Pre-Training method for Sequence Recommendation)。首先,在嵌入层引入时间嵌入矩阵以获取用户交互项目与时间的关联信息。然后,在自注意力层采用同一时间点采样的方法以学习项目间的时间关联信息。最后,在微调阶段从时间维度扩增用户交互序列长度以缓解数据稀疏性问题。在真实数据集上的对比实验结果表明,与基线模型相比,所提模型TPTS-Rec的推荐效果有显著提升。

参考文献 | 相关文章 | 多维度评价

Select

4. 结合图对比学习的多图神经网络会话推荐方法

卢敏, 原子婷

计算机科学 2024, 51 (5): 54-61. DOI: 10.11896/jsjkx.230300092

摘要（98）

PDF（pc）（2737KB）（147）

会话推荐根据匿名用户短期内的交互数据预测下一个交互物品。针对会话中物品少、物品长尾分布等特性,现有基于图对比学习的会话推荐模型提出对会话内物品采用随机裁剪、扰动等方式构造正负样本。然而,上述随机退出策略进一步缩减较短会话中的可用物品,使得会话更加稀疏,引起会话兴趣学习偏差。为此,提出了结合图对比学习的多图神经网络会话推荐方法。其核心思想是:在物品局部图、物品全局图等上提取融入物品局部和全局的高阶邻域物品表示,并生成物品级的会话表示,然后设计会话-会话图并学习会话级的会话表示,最后递归利用不同级别会话兴趣生成正负样本对,通过对比学习机制增强会话兴趣区分性。与退出策略相比,所提模型保留了完整的会话信息,实现了真正的数据扩充。在两个基准数据集上进行了大量实验,结果表明,该算法的推荐性能远优于主流基线方法。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于双域稀疏Transformer的变电站设备故障预警方法

张建亮, 李洋, 朱春山, 薛泓林, 马军伟, 张丽霞, 毕胜

计算机科学 2024, 51 (5): 62-69. DOI: 10.11896/jsjkx.230300001

摘要（120）

PDF（pc）（2800KB）（121）

利用变电站电气设备运行时产生的时间序列数据,可以构建其未来运行状态的预测模型,从而提前发现异常数据,排除故障隐患,提升变电站的稳定性和可靠运行能力。Transformer模型是一种新兴的序列化数据处理模型,在面对较长序列时更具优势,可以满足故障预警前瞻性的需求。然而Transformer的模型结构使其具有较高的计算复杂度与空间占用率,难以直接应用到故障预警任务中。据此提出了一种基于时间序列预测的变压器设备故障预警方法,通过改进Transformer模型实现对设备运行数据的建模。该模型使用双塔式的编码器结构提取序列在频域和时域的特征,将时间特征数据和空间特征数据进行多维数据融合,从而提取更细致的信息。其次,用稀疏化处理的注意力机制代替标准的注意力机制,降低Transformer的计算复杂度和空间占用率,以满足实时预警的需求。在ETT变压器设备数据集上通过实验证明了所提模型的优越性,以及所改进的模块的必要性。相较于其他方法,该模型在多数预测任务中的MSE与MAE指数都达到了最优,尤其在长序列预测任务中表现出了更佳的性能,且预测速度更快。

参考文献 | 相关文章 | 多维度评价

Select

6. 大图中多样化Top-k模式挖掘算法研究

何宇昂, 王欣, 沈玲珍

计算机科学 2024, 51 (5): 70-84. DOI: 10.11896/jsjkx.230300003

摘要（76）

PDF（pc）（5498KB）（105）

频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据挖掘领域的一项重要任务。该任务的目标是从图数据中找到出现频次大于给定阈值的所有模式。近年来,随着社交网络等大规模图数据的涌现,单一大图上的FPM问题受到广泛关注,并得到了较为充分的研究,取得了一系列研究成果。然而,已有技术大都存在着计算成本高、挖掘结果理解困难以及并行计算难等问题。针对上述问题,文中提出了一种从大规模图数据中挖掘多样化top-k模式的方法。首先设计了一个多样化函数,用于度量模式集合的多样性;随后设计了一种面向分布式图数据,具有提前终止特性的分布式挖掘算法DisTopk,以实现多样化top-k模式高效挖掘。在真实图数据和合成图数据上进行了大量实验,结果表明,与传统分布式挖掘算法相比,DisTopk算法能更高效地挖掘多样化top-k模式。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于LDPC读延迟的刷新和副本结合策略优化方案

张耀方, 李培轩, 谢平

计算机科学 2023, 50 (7): 38-45. DOI: 10.11896/jsjkx.220900179

摘要（178）

PDF（pc）（2570KB）（324）

针对闪存存储器的密度增大和容量增加导致可靠性下降的问题,提出了一种基于LDPC读延迟的刷新和副本结合策略优化方案。通常,原始策略是在闪存存储器上加一个LDPC码模块,使用硬解码和软解码对数据进行纠错。而传统的刷新策略是在原始策略的基础上,在LDPC软解码未能纠错时,使用刷新策略对其进行纠错。本方案基于LDPC软解码7个量化级别的特性,并以此为判定条件,采用分析对比的方法确定刷新的条件是量化级别到达3,副本的条件是级别达到5,将两种方式合理地应用在LDPC软解码方式中。与前两种策略相比,所提方法缩短了闪存存储器的平均响应时间,在一定程度上提升了闪存存储器的读取性能。在模拟器disksim+ssd的扩展平台上进行仿真,实验结果表明,相比原始策略,该方案平均响应时间均值降低了10%;与传统的刷新策略相比,延长了闪存存储器的寿命。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于对比学习的疾病诊断预测算法

王明霞, 熊贇

计算机科学 2023, 50 (7): 46-52. DOI: 10.11896/jsjkx.230200216

摘要（385）

PDF（pc）（2321KB）（540）

疾病诊断预测旨在利用电子健康数据建模疾病进展模式,预测患者未来的健康状况,其在辅助临床决策、医疗保健服务等领域得到广泛应用。为了进一步发掘就诊记录中有价值的信息,提出了一种基于对比学习的疾病诊断预测算法。对比学习通过衡量样本间相似度为模型提供自监督训练信号,提升模型的信息捕捉能力。所提算法通过对比训练挖掘相似患者之间的共性知识,增强模型学习患者表征的能力;为了捕获更加全面的共性信息,还进一步挖掘了目标患者相似群体的信息作为辅助信息刻画患者健康状态。在公开数据集上的实验结果表明,相比Retain,Dipole,LSAN和GRASP算法,所提算法在再入院预测任务的AUROC和AUPRC指标上分别提升2.9%和8.1%以上,在诊断预测任务的Recall@10和MAP@10指标上分别提升2.1%和1.8%以上。

参考文献 | 相关文章 | 多维度评价

Select

9. 双编码半监督异常检测模型

李辉, 李文根, 关佶红

计算机科学 2023, 50 (7): 53-59. DOI: 10.11896/jsjkx.220900027

摘要（224）

PDF（pc）（2190KB）（479）

异常检测是机器学习领域广泛研究的一个热点问题,对于工业生产、食品安全、疾病监测等都具有重要作用。当前最新的异常检测方法多基于少量可用的有标记样本和大量无标记样本联合训练半监督检测模型。然而,现有的半监督异常检测模型多采用深度学习框架,在低维数据集上由于缺少足够多的特征信息,难以学习到准确的数据边界,检测性能不佳。针对该问题,提出了双编码半监督异常检测模型(Dually Encoded Semi-supervised Anomaly Detection,DE-SAD),充分利用可获得的少部分有标记数据结合大量无标记数据进行半监督学习,通过双编码阶段约束模型学习更准确的正常数据隐含流形分布,有效拉大了正常数据和异常数据的差距。DE-SAD在来自不同领域的多个异常检测数据集上都表现出优越的异常检测性能,在低维数据上的检测性能尤为突出,其AUROC指标相比当前最优的异常检测方法最高提升了4.6%。

参考文献 | 相关文章 | 多维度评价

Select

10. 多因素特征融合的EBSN活动推荐方法

单晓欢, 宋瑞, 李海海, 宋宝燕

计算机科学 2023, 50 (7): 60-65. DOI: 10.11896/jsjkx.220900036

摘要（397）

PDF（pc）（2508KB）（319）

基于活动的社交网络(Event-based Social Network,EBSN)是一种新型的复杂异构社交网络,其中的个性化活动推荐具有一定的应用价值。近年来,随着EBSN的快速发展,传统方法利用数据挖掘技术有效解决了活动推荐的信息过载问题。然而,仅利用单特征属性或少量线性组合进行计算,且预定义固定权重将降低活动推荐的准确度,此外大多数方法忽略了用户反馈信息对后续推荐的影响。针对上述问题,提出了一种两阶段构成的多因素特征融合的活动推荐方法。查询预处理阶段,将EBSN中的活动、历史用户及其之间的关系抽象为有向异构图,并提取节点及边的特征信息进行辅助存储;利用该辅助数据过滤无效节点及边,进而获得相对较小的候选集;根据查询语境,将查询语义转化为查询图。在线查询阶段,融合潜在好友关系、基于活动的协同过滤以及用户对活动的兴趣这3方面特征进行活动推荐,并接收用户是否接受活动的反馈信息作为后续推荐的参考因素。在真实数据集和模拟数据集上进行了大量实验,结果表明所提方法相比对比算法在EBSN中活动推荐的精确度和用户的满意度方面更优。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于变分持续贝叶斯元学习的推荐算法

朱文韬, 刘威, 梁上松, 朱怀杰, 印鉴

计算机科学 2023, 50 (7): 66-71. DOI: 10.11896/jsjkx.220900125

摘要（282）

PDF（pc）（2130KB）（429）

元学习方法近年被引入推荐系统以缓解冷启动问题。现有元学习算法只能提高算法处理一组静态分布的数据集(任务)的能力。当面对多个服从非平稳分布的数据集时,现有模型往往会出现负知识转移以及灾难性遗忘问题,导致算法推荐性能大幅下降。探索了基于变分持续贝叶斯元学习(Variational Continuous Bayesian Meta-Learning,VC-BML)的推荐算法。首先,算法假设元参数服从动态混合高斯模型,使其具有更大的参数空间,提高了模型适应不同任务的能力,缓解了负知识转移问题。然后,VC-BML的任务集群数量由中国餐馆过程(Chinese Restaurant Process,CRP)来灵活确定,使得模型在不同的混合分量中存储不同任务分布的知识,并在类似任务出现时调用这些知识,有助于缓解传统算法中的灾难性遗忘问题。为了估计模型参数的后验概率,算法采用了一种更稳健的结构化变分推理方法来近似后验值,以避免遗忘知识。最后,VC-BML在4个非平稳分布的数据集上的表现均优于基准算法。与基于点估计的基准算法相比,VC-BML提高了模型的稳健型,有助于缓解灾难性遗忘问题。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于对偶流形重排序的无监督特征选择算法

梁云辉, 甘舰文, 陈艳, 周芃, 杜亮

计算机科学 2023, 50 (7): 72-81. DOI: 10.11896/jsjkx.221000143

摘要（396）

PDF（pc）（4183KB）（358）

在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样本的特征进行评分,在这个过程中样本是被无差别看待的。然而这样做并不能完全捕捉数据的内在结构,不同样本的重要性应该是有差异的,并且样本权重与特征权重之间存在一种对偶关系,它们会互相影响。为此,提出了一种基于对偶流形重排序的无监督特征选择算法(Unsupervised Feature Selection Algorithm based on Dual Manifold Re-Ranking,DMRR),分别构建不同的相似性矩阵来刻画样本与样本、特征与特征、样本与特征的流形结构,并结合样本与特征的初始得分进行流形上的重排序。将DMRR与3种原始无监督特征选择算法以及2种无监督特征选择后处理算法进行比较,实验结果表明样本重要性信息、样本与特征之间的对偶关系有助于实现更优的特征选择。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于压缩感知的相关性数据填补方法

任兵, 郭艳, 李宁, 刘存涛

计算机科学 2023, 50 (7): 82-88. DOI: 10.11896/jsjkx.220600209

摘要（136）

PDF（pc）（2237KB）（279）

数据缺失现象在数据的采集和传输过程中经常发生,而对数据集中缺失数据的不当填补,会对后续的数据挖掘工作产生不利的影响。为了更有效地对缺失数据集进行填补,针对相关性数据,提出了一种基于压缩感知的缺失数据填补方法。首先,将缺失数据填补问题转化为压缩感知框架下的稀疏向量恢复问题;其次,针对数据的相关性特点构造了专门的稀疏表示基,从而能够更好地实现数据的稀疏化;最后,提出了一种快速迭代加权阈值算法,在传统的快速迭代收缩阈值算法的基础上引入了一种新的加权因子及重启动策略,提高了算法的收敛性能和数据的重构精度。仿真结果表明,所提算法能够高效地填补缺失数据,与传统的快速迭代收缩阈值算法相比,重构成功率和重构速度都得到了提升。同时,在数据稀疏变换效果较差的情况下,所提算法仍然能够完成对缺失数据集的填补,具有更好的鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于约束图正则的块稀疏对称非负矩阵分解

刘威, 邓秀勤, 刘冬冬, 刘玉兰

计算机科学 2023, 50 (7): 89-97. DOI: 10.11896/jsjkx.220500050

摘要（279）

PDF（pc）（3278KB）（335）

现有的基于对称非负矩阵因式分解(Symmetric Nonnegative matrix Factorization,SymNMF)算法大都仅依赖初始数据构造亲和矩阵,并且一定程度上忽视了样本有限的成对约束信息,无法有效区分不同类别的相似样本以及学习样本的几何特征。针对以上问题,提出了基于约束图正则的块稀疏对称非负矩阵分解(Block Sparse Symmetric Nonnegative Matrix Factorization Based on Constrained Graph Regularization,CGBS-SymNMF)。首先,通过先验信息构造约束图矩阵,用于指导类别指示矩阵区分高相似度的不同类别样本;然后,引入PCP-SDP(Pairwise Constraint Propagation by Semi-definite Programming)方法,利用成对约束学习一个新的样本图映射矩阵;最后,利用“勿连”约束构造不相似矩阵,用于引导一个块稀疏正则项,以增强模型抗噪能力。实验结果表明,所提算法具有更高的聚类精确度和稳定性。

参考文献 | 相关文章 | 多维度评价

Select

15. 探索站点时空移动模式:长短期交通预测框架

沈哲辉, 王开来, 孔祥杰

计算机科学 2023, 50 (7): 98-106. DOI: 10.11896/jsjkx.220900109

摘要（348）

PDF（pc）（2971KB）（330）

随着智慧城市系统的技术发展与城市时空数据的急剧增加,公共服务需求也日益受到重视。公共交通作为城市交通中至关重要的组成部分,同样面临着巨大的挑战,并且交通网络的时空预测任务往往是解决各种交通问题的核心一环。交通中的移动模式可以体现城市人群的出行行为及其规律,大多数交通预测任务研究中,移动模式的重要性经常被忽视。针对现有工作的问题,提出了一种多模式的交通预测框架(MPGNNFormer),使用基于图神经网络的深度聚类的方法提取站点的移动模式,并设计了一种基于Transformer的时空预测模型,在充分利用时间依赖关系和空间依赖关系的同时,提高了计算效率。在现实的公交车数据集上展开了一系列实验以进行评估和测试,包括移动模式的分析和预测结果对比,实验结果证明了所提方法在交通网络的长短期交通预测上的有效性。最后讨论了所提方法可扩展性。

参考文献 | 相关文章 | 多维度评价