栏目文章

Select

1. 基于LDPC读延迟的刷新和副本结合策略优化方案

张耀方, 李培轩, 谢平

计算机科学 2023, 50 (7): 38-45. DOI: 10.11896/jsjkx.220900179

摘要（130）

PDF（pc）（2570KB）（263）

针对闪存存储器的密度增大和容量增加导致可靠性下降的问题,提出了一种基于LDPC读延迟的刷新和副本结合策略优化方案。通常,原始策略是在闪存存储器上加一个LDPC码模块,使用硬解码和软解码对数据进行纠错。而传统的刷新策略是在原始策略的基础上,在LDPC软解码未能纠错时,使用刷新策略对其进行纠错。本方案基于LDPC软解码7个量化级别的特性,并以此为判定条件,采用分析对比的方法确定刷新的条件是量化级别到达3,副本的条件是级别达到5,将两种方式合理地应用在LDPC软解码方式中。与前两种策略相比,所提方法缩短了闪存存储器的平均响应时间,在一定程度上提升了闪存存储器的读取性能。在模拟器disksim+ssd的扩展平台上进行仿真,实验结果表明,相比原始策略,该方案平均响应时间均值降低了10%;与传统的刷新策略相比,延长了闪存存储器的寿命。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于对比学习的疾病诊断预测算法

王明霞, 熊贇

计算机科学 2023, 50 (7): 46-52. DOI: 10.11896/jsjkx.230200216

摘要（313）

PDF（pc）（2321KB）（409）

疾病诊断预测旨在利用电子健康数据建模疾病进展模式,预测患者未来的健康状况,其在辅助临床决策、医疗保健服务等领域得到广泛应用。为了进一步发掘就诊记录中有价值的信息,提出了一种基于对比学习的疾病诊断预测算法。对比学习通过衡量样本间相似度为模型提供自监督训练信号,提升模型的信息捕捉能力。所提算法通过对比训练挖掘相似患者之间的共性知识,增强模型学习患者表征的能力;为了捕获更加全面的共性信息,还进一步挖掘了目标患者相似群体的信息作为辅助信息刻画患者健康状态。在公开数据集上的实验结果表明,相比Retain,Dipole,LSAN和GRASP算法,所提算法在再入院预测任务的AUROC和AUPRC指标上分别提升2.9%和8.1%以上,在诊断预测任务的Recall@10和MAP@10指标上分别提升2.1%和1.8%以上。

参考文献 | 相关文章 | 多维度评价

Select

3. 双编码半监督异常检测模型

李辉, 李文根, 关佶红

计算机科学 2023, 50 (7): 53-59. DOI: 10.11896/jsjkx.220900027

摘要（169）

PDF（pc）（2190KB）（330）

异常检测是机器学习领域广泛研究的一个热点问题,对于工业生产、食品安全、疾病监测等都具有重要作用。当前最新的异常检测方法多基于少量可用的有标记样本和大量无标记样本联合训练半监督检测模型。然而,现有的半监督异常检测模型多采用深度学习框架,在低维数据集上由于缺少足够多的特征信息,难以学习到准确的数据边界,检测性能不佳。针对该问题,提出了双编码半监督异常检测模型(Dually Encoded Semi-supervised Anomaly Detection,DE-SAD),充分利用可获得的少部分有标记数据结合大量无标记数据进行半监督学习,通过双编码阶段约束模型学习更准确的正常数据隐含流形分布,有效拉大了正常数据和异常数据的差距。DE-SAD在来自不同领域的多个异常检测数据集上都表现出优越的异常检测性能,在低维数据上的检测性能尤为突出,其AUROC指标相比当前最优的异常检测方法最高提升了4.6%。

参考文献 | 相关文章 | 多维度评价

Select

4. 多因素特征融合的EBSN活动推荐方法

单晓欢, 宋瑞, 李海海, 宋宝燕

计算机科学 2023, 50 (7): 60-65. DOI: 10.11896/jsjkx.220900036

摘要（280）

PDF（pc）（2508KB）（261）

基于活动的社交网络(Event-based Social Network,EBSN)是一种新型的复杂异构社交网络,其中的个性化活动推荐具有一定的应用价值。近年来,随着EBSN的快速发展,传统方法利用数据挖掘技术有效解决了活动推荐的信息过载问题。然而,仅利用单特征属性或少量线性组合进行计算,且预定义固定权重将降低活动推荐的准确度,此外大多数方法忽略了用户反馈信息对后续推荐的影响。针对上述问题,提出了一种两阶段构成的多因素特征融合的活动推荐方法。查询预处理阶段,将EBSN中的活动、历史用户及其之间的关系抽象为有向异构图,并提取节点及边的特征信息进行辅助存储;利用该辅助数据过滤无效节点及边,进而获得相对较小的候选集;根据查询语境,将查询语义转化为查询图。在线查询阶段,融合潜在好友关系、基于活动的协同过滤以及用户对活动的兴趣这3方面特征进行活动推荐,并接收用户是否接受活动的反馈信息作为后续推荐的参考因素。在真实数据集和模拟数据集上进行了大量实验,结果表明所提方法相比对比算法在EBSN中活动推荐的精确度和用户的满意度方面更优。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于变分持续贝叶斯元学习的推荐算法

朱文韬, 刘威, 梁上松, 朱怀杰, 印鉴

计算机科学 2023, 50 (7): 66-71. DOI: 10.11896/jsjkx.220900125

摘要（205）

PDF（pc）（2130KB）（314）

元学习方法近年被引入推荐系统以缓解冷启动问题。现有元学习算法只能提高算法处理一组静态分布的数据集(任务)的能力。当面对多个服从非平稳分布的数据集时,现有模型往往会出现负知识转移以及灾难性遗忘问题,导致算法推荐性能大幅下降。探索了基于变分持续贝叶斯元学习(Variational Continuous Bayesian Meta-Learning,VC-BML)的推荐算法。首先,算法假设元参数服从动态混合高斯模型,使其具有更大的参数空间,提高了模型适应不同任务的能力,缓解了负知识转移问题。然后,VC-BML的任务集群数量由中国餐馆过程(Chinese Restaurant Process,CRP)来灵活确定,使得模型在不同的混合分量中存储不同任务分布的知识,并在类似任务出现时调用这些知识,有助于缓解传统算法中的灾难性遗忘问题。为了估计模型参数的后验概率,算法采用了一种更稳健的结构化变分推理方法来近似后验值,以避免遗忘知识。最后,VC-BML在4个非平稳分布的数据集上的表现均优于基准算法。与基于点估计的基准算法相比,VC-BML提高了模型的稳健型,有助于缓解灾难性遗忘问题。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于对偶流形重排序的无监督特征选择算法

梁云辉, 甘舰文, 陈艳, 周芃, 杜亮

计算机科学 2023, 50 (7): 72-81. DOI: 10.11896/jsjkx.221000143

摘要（285）

PDF（pc）（4183KB）（273）

在许多数据分析任务中,经常会遇到高维数据。特征选择技术旨在从原始高维数据中找到最具代表性的特征,但由于缺乏类标签信息,相比有监督场景,在无监督学习场景中选择合适的特征困难得多。传统的无监督特征选择方法通常依据某些准则对样本的特征进行评分,在这个过程中样本是被无差别看待的。然而这样做并不能完全捕捉数据的内在结构,不同样本的重要性应该是有差异的,并且样本权重与特征权重之间存在一种对偶关系,它们会互相影响。为此,提出了一种基于对偶流形重排序的无监督特征选择算法(Unsupervised Feature Selection Algorithm based on Dual Manifold Re-Ranking,DMRR),分别构建不同的相似性矩阵来刻画样本与样本、特征与特征、样本与特征的流形结构,并结合样本与特征的初始得分进行流形上的重排序。将DMRR与3种原始无监督特征选择算法以及2种无监督特征选择后处理算法进行比较,实验结果表明样本重要性信息、样本与特征之间的对偶关系有助于实现更优的特征选择。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于压缩感知的相关性数据填补方法

任兵, 郭艳, 李宁, 刘存涛

计算机科学 2023, 50 (7): 82-88. DOI: 10.11896/jsjkx.220600209

摘要（107）

PDF（pc）（2237KB）（217）

数据缺失现象在数据的采集和传输过程中经常发生,而对数据集中缺失数据的不当填补,会对后续的数据挖掘工作产生不利的影响。为了更有效地对缺失数据集进行填补,针对相关性数据,提出了一种基于压缩感知的缺失数据填补方法。首先,将缺失数据填补问题转化为压缩感知框架下的稀疏向量恢复问题;其次,针对数据的相关性特点构造了专门的稀疏表示基,从而能够更好地实现数据的稀疏化;最后,提出了一种快速迭代加权阈值算法,在传统的快速迭代收缩阈值算法的基础上引入了一种新的加权因子及重启动策略,提高了算法的收敛性能和数据的重构精度。仿真结果表明,所提算法能够高效地填补缺失数据,与传统的快速迭代收缩阈值算法相比,重构成功率和重构速度都得到了提升。同时,在数据稀疏变换效果较差的情况下,所提算法仍然能够完成对缺失数据集的填补,具有更好的鲁棒性。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于约束图正则的块稀疏对称非负矩阵分解

刘威, 邓秀勤, 刘冬冬, 刘玉兰

计算机科学 2023, 50 (7): 89-97. DOI: 10.11896/jsjkx.220500050

摘要（184）

PDF（pc）（3278KB）（241）

现有的基于对称非负矩阵因式分解(Symmetric Nonnegative matrix Factorization,SymNMF)算法大都仅依赖初始数据构造亲和矩阵,并且一定程度上忽视了样本有限的成对约束信息,无法有效区分不同类别的相似样本以及学习样本的几何特征。针对以上问题,提出了基于约束图正则的块稀疏对称非负矩阵分解(Block Sparse Symmetric Nonnegative Matrix Factorization Based on Constrained Graph Regularization,CGBS-SymNMF)。首先,通过先验信息构造约束图矩阵,用于指导类别指示矩阵区分高相似度的不同类别样本;然后,引入PCP-SDP(Pairwise Constraint Propagation by Semi-definite Programming)方法,利用成对约束学习一个新的样本图映射矩阵;最后,利用“勿连”约束构造不相似矩阵,用于引导一个块稀疏正则项,以增强模型抗噪能力。实验结果表明,所提算法具有更高的聚类精确度和稳定性。

参考文献 | 相关文章 | 多维度评价

Select

9. 探索站点时空移动模式:长短期交通预测框架

沈哲辉, 王开来, 孔祥杰

计算机科学 2023, 50 (7): 98-106. DOI: 10.11896/jsjkx.220900109

摘要（231）

PDF（pc）（2971KB）（249）

随着智慧城市系统的技术发展与城市时空数据的急剧增加,公共服务需求也日益受到重视。公共交通作为城市交通中至关重要的组成部分,同样面临着巨大的挑战,并且交通网络的时空预测任务往往是解决各种交通问题的核心一环。交通中的移动模式可以体现城市人群的出行行为及其规律,大多数交通预测任务研究中,移动模式的重要性经常被忽视。针对现有工作的问题,提出了一种多模式的交通预测框架(MPGNNFormer),使用基于图神经网络的深度聚类的方法提取站点的移动模式,并设计了一种基于Transformer的时空预测模型,在充分利用时间依赖关系和空间依赖关系的同时,提高了计算效率。在现实的公交车数据集上展开了一系列实验以进行评估和测试,包括移动模式的分析和预测结果对比,实验结果证明了所提方法在交通网络的长短期交通预测上的有效性。最后讨论了所提方法可扩展性。

参考文献 | 相关文章 | 多维度评价