栏目文章

Select

1. 离群点检测算法综述

孔翎超, 刘国柱

计算机科学 2024, 51 (8): 20-33. DOI: 10.11896/jsjkx.230600052

摘要（91）

PDF（pc）（3902KB）（278）

离群点检测作为数据挖掘领域的一个重要研究方向,其目的是发掘隐藏在数据集合中与众不同且具有潜在分析价值的数据,辅助研究人员甄别数据源可能存在的问题。目前,离群点检测已被广泛应用于欺诈识别、智慧医疗、入侵检测、故障诊断等诸多领域。文中在总结前人经验的基础上,首先讨论离群点的定义、产生原因以及典型应用领域,综述了DBSCAN和LOF等离群点检测经典算法及其改进算法的优势和局限,分析了深度学习方法在离群点检测领域的优势;其次结合当前互联网背景下海量、高维、时序数据处理需求,对离群点检测算法在新环境下的发展状况做进一步研究;最后介绍离群点检测算法的评价指标、代价因子在离群点检测评价中的作用以及常用工具包和数据集,总结展望了离群点检测面临的挑战和未来的发展方向。

参考文献 | 相关文章 | 多维度评价

Select

2. 卡-梅框架下数据财产权益保护规则分类分级配置研究

丛颖男, 彭友, 朱金清

计算机科学 2024, 51 (8): 34-44. DOI: 10.11896/jsjkx.240100030

摘要（61）

PDF（pc）（1758KB）（219）

在社会、经济数字化转型的关键时期,建立高效的数据要素市场是数字经济持续快速发展的重要基础和基本前提,也是多学科交融的时代课题。数据的财产权益保护制度是数据要素市场的基础制度,目前相关的理论探讨可谓百家争鸣,与法律规定和裁判观点共同构成了一张“规则清单”。卡-梅框架提供了一种以经济效率为标准的规则选择方法,与建设高效的数据要素市场这一政策目标相契合。在此框架下,从事前效率和事后效率两个视角分别对个人数据、企业数据和公共数据的财产权益保护规则进行比较和选择,发现对于个人数据和企业数据而言,提供事后救济的责任规则相比赋予绝对化财产权的财产规则更具效率;而对于公共数据而言,两者各有优势。基于此,进一步对个人数据保护提出了构建“三层构造”保护模式的立法建议和建立数据匿名化制度的构想,对企业数据保护提出了构建非绝对性财产权利的方向指引,对公共数据提出了建立三类规则相互配合的分类分级开放格局的建议。

参考文献 | 相关文章 | 多维度评价

Select

3. 面向延迟标签场景下的可解释信用评估模型

辛博, 丁志军

计算机科学 2024, 51 (8): 45-55. DOI: 10.11896/jsjkx.230900107

摘要（54）

PDF（pc）（3048KB）（180）

随着社会经济的快速发展,信贷业务在金融领域中扮演着越来越重要的角色,利用机器学习算法进行信用评估成为了当前主流的方法。然而,目前仍存在一些问题亟待解决,如延迟标签带来的有标签数据不充分、模型滞后性的问题,以及动态信用评估模型缺乏可解释性的问题。针对这些问题,提出了一种面向延迟标签场景的可解释信用评估模型。该模型在动态模型树的基础上进行了加权改进,结合了延迟标签更新算法和自适应阈值的伪标签选择策略,将延迟标签数据看作反馈数据和伪标签数据两种状态分别进行处理,平衡了有标签数据不充分和模型滞后带来的影响,并实现了模型的可解释性。最后,在一些合成和真实的信用评估数据集上对模型进行了实验,与其他主流的算法相比,其更好地权衡了预测性能和可解释性。

参考文献 | 相关文章 | 多维度评价

Select

4. 面向幂律图的动态图存储结构Power-PCSR

毛志雄, 刘志楠, 高叙宁, 王蒙湘, 巩树凤, 张岩峰

计算机科学 2024, 51 (8): 56-62. DOI: 10.11896/jsjkx.231000155

摘要（43）

PDF（pc）（2377KB）（161）

图数据在现实生活中广泛存在,且不断发生变化。传统高效的静态图存储方式——压缩行/列(Compressed Sparse Row/Column,CSR/CSR)存储方式在更新图数据时需要大量的数据迁移,不适用于动态图数据。而能够高效更新图数据的邻接表(Adjacency List,AL) 存储方式往往带有大量的指针,导致其图数据读取和分析效率低。Packed Compressed Sparse Row(PCSR)是一种基于CSR的动态图存储结构。该结构在存储边数据时并不是采用连续无空隙数组,而是采用留有空槽的压缩存储阵列(Packed Memory Arrays,PMA)结构,便于边数据的插入。因此,PCSR支持高效图更新和图分析。但是,PCSR在存储幂律图时,其性能容易受大度数顶点的影响。为此,基于PCSR提出一种支持可高效更新和分析动态幂律图的图存储结构Power-PCSR。该结构将幂律图中度数较大的顶点单独存储在一个独立的PMA中,其他所有小度数顶点与PCSR一样存储在原PMA中。小度顶点变化导致的数据迁移不会触及大度数顶点,从而大大减少了数据迁移数量;同样,大度数顶点更新导致的数据迁移只限制在每个大度数顶点的PMA内部,不会涉及小度数顶点和其他大度数顶点的数据迁移。实验显示,Power-PCSR在分析图数据时与PCSR具有相似的性能,而在更新图数据时比PCSR快2倍。

参考文献 | 相关文章 | 多维度评价

Select

5. 融合AP聚类算法和宽度学习系统的分布外硬盘故障预测

王屹阳, 刘发贵, 彭玲霞, 钟国祥

计算机科学 2024, 51 (8): 63-74. DOI: 10.11896/jsjkx.230600103

摘要（51）

PDF（pc）（3516KB）（188）

硬盘是云数据中心最主要的存储设备,硬盘故障预测是保障数据安全的重要手段。但是,硬盘的故障与健康样本之间存在着极端的数量不平衡问题,这会导致模型偏差;此外,不同型号的硬盘数据分布存在一定的差异,在特定硬盘数据上训练的模型往往不适用于其他硬盘。对于这两个问题,文中提出了一种融合AP 聚类算法和宽度学习系统的分布外硬盘故障预测方法。针对样本不平衡问题,文中使用AP聚类算法对硬盘故障出现前一阶段的样本集进行聚类,将与故障样本处于同一聚类簇的样本扩充为故障样本。针对不同型号硬盘分布存在差异的问题,文中结合流形正则化框架和宽度学习系统来学习硬盘数据的低维结构,提高模型对未知分布数据的泛化能力。实验结果表明,在AP聚类算法重采样的样本集上,相较于用于对比的重采样方法得到的样本集,多种故障预测方法的F1_Score取得了平均0.2的提升。此外,在分布外硬盘故障预测任务上,所提模型的F1_Score相比对比方法提升了0.1~0.2。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于逻辑视角的不完备形式背景上知识相容表示与推理

张少霞, 李德玉, 翟岩慧

计算机科学 2024, 51 (8): 75-82. DOI: 10.11896/jsjkx.240400104

摘要（37）

PDF（pc）（1530KB）（168）

形式背景中的信息不完备引起了知识的不相容性,即蕴涵在不完备形式背景的任一完备化形式背景不能同时成立。逻辑描述是从语义上进行知识表示、语构上制定语义协调推理规则的方法论。首先,从逻辑角度研究不完备数据上的知识相容语义表示,通过定义不完备实例刻画知识的合理性和相容性,并构造最紧致的相容集(相容规范基)。其次,语构上制定具有语义合理性、相容性和完备性的推理规则,从而避免知识推理过程中产生不相容知识和无效知识。最后,将逻辑研究结果运用在不完备形式背景上,引入两类蕴涵形式:↓↓-型蕴涵和↑↑-型蕴涵。这两类蕴涵兼具相容性且相对于可接受性蕴涵尺度更加严格,构造这两类蕴涵的相容规范基并验证其完备性和无冗余性。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于θ算子的多粒度直觉模糊粗糙集模型

郑宇, 薛占熬, 吕明明, 徐久成

计算机科学 2024, 51 (8): 83-96. DOI: 10.11896/jsjkx.230600185

摘要（46）

PDF（pc）（2223KB）（161）

针对在多属性决策中决策者难以在多个属性相互冲突时做出准确判断的问题,文中在直觉模糊近似空间中,首先利用直觉模糊集的隶属度、非隶属度与模糊蕴含算子,提出了基于θ算子和θ^*算子的直觉模糊集及其隶属度和非隶属度的概念,并证明了它们的一系列性质。然后,在直觉模糊集与多粒度粗糙集上,定义基于θ算子的多粒度直觉模糊粗糙集的悲观、乐观模型,讨论两种模型的相关性质。最后,给出了基于θ算子的多粒度直觉模糊粗糙集模型的多属性决策算法,将高校引进的人才评价和企业绿色经济供应链的商家评价作为实例进行了分析,同时还与已有方法进行了分析对比,用乐观、悲观模型与已有方法的决策结果的对比证明了所提方法的正确性,并验证了该模型算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于共享最近邻的自适应密度峰值聚类算法

王心耕, 杜韬, 周劲, 陈迪, 仵匀政

计算机科学 2024, 51 (8): 97-105. DOI: 10.11896/jsjkx.230500226

摘要（38）

PDF（pc）（4182KB）（174）

密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,该算法虽能自动发现簇中心,实现任意形状数据的高效聚类,但依然存在一些缺陷。针对密度峰值聚类算法在定义相关度量值时未考虑数据的位置信息、聚类中心数目需要人工预先设定且分配样本点时易出现连锁反应这3个缺陷,提出一种基于共享最近邻的自适应密度峰值聚类算法。首先,利用共享最近邻重新定义局部密度等度量值,充分考虑了数据分布的局部特点,使样本点的空间分布特征得以更好地体现;其次,通过引入密度衰减现象让样本点自动聚集成微簇,实现了簇个数自适应确定和簇中心自适应选取;最后,提出一种两阶段的分配方法,先将微簇合并形成簇的主干部分,再用上一步分配好的簇主干指导剩余点的分配,避免了链式反应的发生。在二维合成数据集以及UCI数据集上的实现表明,相较于经典的密度峰值聚类算法及近年来对其提出的改进算法,在大多数情况下,所提算法表现出更优异的性能。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于符号表示的可度量shapelets提取的时序分类研究

王礼勤, 万源, 罗颖

计算机科学 2024, 51 (8): 106-116. DOI: 10.11896/jsjkx.230500161

摘要（34）

PDF（pc）（3160KB）（158）

在时序分类问题中,基于符号表示的shapelets提取方法具有良好的分类精度和分类效率,但对符号进行质量度量的过程,如计算TFIDF分数,耗时较长且计算量大,导致分类效率较低。此外,提取的shapelets候选数量仍然较多,判别力有待提高。针对这些问题,本文提出了一种基于符号表示的可度量shapelets提取方法,该方法包含时间序列数据预处理、确定shapelets候选集和学习shapelets 3个阶段,可以快速得到高质量shapelets。在数据预处理阶段,将时间序列转化为符号聚合近似(SAX)表示以降低原始时间序列的维度。在确定shapelets候选集阶段,利用Bloom过滤器过滤重复的SAX词,并将过滤后的SAX词存储在哈希表中进行质量度量。随后,对SAX词的相似性进行判别,基于相似性和覆盖度等概念确定最终的shapelets候选集。在学习shapelets阶段,采用logistic回归模型学得真正的shapelets用于时序分类。在32个数据集上进行了大量实验,实验结果表明,所提方法的平均分类精度和平均分类效率均排名第二。与现有的基于shapelets的时序分类方法相比,该方法可以在保证精度的同时提高分类效率,并且具有良好的可解释性。

参考文献 | 相关文章 | 多维度评价

Select

10. 河海图结构蛋白质数据集及预测模型

魏想想, 孟朝晖

计算机科学 2024, 51 (8): 117-123. DOI: 10.11896/jsjkx.231100014

摘要（44）

PDF（pc）（1564KB）（139）

蛋白质是一种具有空间结构的物质。蛋白质结构预测的主要目标是从已有的大规模的蛋白质数据集中提取有效的信息,从而预测自然界中蛋白质的结构。目前蛋白质结构预测实验存在的一个问题是,缺少能够进一步反映出蛋白质空间结构特征的数据集。当前主流的 PDB 蛋白质数据集虽然是经过实验测得,但没有利用到蛋白质的空间特征,而且存在掺杂核酸数据和部分数据不完整的问题。针对以上问题,从蛋白质的空间结构角度来研究蛋白质的预测。在原始 PDB 数据集的基础上,提出了河海图结构蛋白质数据集(Hohai Graphic Protein Data Bank,HohaiGPDB)。该数据集以图结构为基础,表达出了蛋白质的空间结构特征。基于传统 Transformer 网络模型对新的数据集进行了相关的蛋白质结构预测实验,在 HohaiGPDB 数据集上的预测准确率可以达到 59.38%,证明了HohaiGPDB数据集的研究价值。HohaiGPDB 数据集可以作为蛋白质相关研究的通用数据集。

参考文献 | 相关文章 | 多维度评价

Select

11. 面向多样化数据清洗任务的证据集智能选择方法

钱泽凯, 丁小欧, 孙哲, 王宏志, 张岩

计算机科学 2024, 51 (8): 124-132. DOI: 10.11896/jsjkx.230900003

摘要（63）

PDF（pc）（2188KB）（184）

由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查询的增量式质量评估方案和基于中间算子证据集的算子结果选择方案,在多种清洗任务下实现了多种清洗方法配合的高效数据清洗。在所提清洗模型中,算子库提供数据清洗结果并将其转换为中间算子;中游的采样器将中间算子集分流和剪枝,给搜索器提供优质的候选证据集;下游的搜索器在质量评估器的指导下进行证据集的选择,搜索完毕后向上游算子库更新数据和必要的参数,使算子库重新迭代生成中间算子。最后,基于3个不同规模的真实数据集进行了大量实验,通过不同数据清洗任务下的性能验证在任意种类的数据清洗需求下算子编排的可行性,并将所提方法和现有的智能数据清洗系统进行性能对比。结果表明,在多种清洗任务中,所提方法在多种数据质量约束、动态和大规模的数据清洗方面具有稳定的准确率和召回率,且同一清洗时间下异常值、规则违反和混合错误的清洗任务性能优于其他智能数据清洗系统15%以上。

参考文献 | 相关文章 | 多维度评价

Select

12. 结构化数据库查询语言智能合成技术研究进展

刘雨蒙, 赵怡婧, 王碧聪, 王潮, 张宝民

计算机科学 2024, 51 (7): 40-48. DOI: 10.11896/jsjkx.231000143

摘要（76）

PDF（pc）（1837KB）（227）

近年来,随着大数据、云计算等技术的飞速发展,大规模数据的产生使得各类应用对于数据库技术的依赖日益加深。然而,传统的数据库一般采用形式化的数据库查询语言SQL进行操作,对无编程经验或数据库使用经验的用户来说,复杂SQL语法难度较高,降低了各个领域数据库应用者的便捷程度。近年来,机器学习、深度神经网络等人工智能技术的飞速发展,尤其是ChatGPT横空出世引发的大语言模型技术热潮,驱动了数据库与人工智能的深度结合与技术变革。通过智能方法将用户输入语言自动化合成SQL语言,以满足不同程度数据库使用者的操作需求,提升数据库的智能性、环境适应性及用户友好性。为全面聚焦数据库查询语言智能合成技术的最新研究进展,从范例输入、文本输入及语音输入这3类用户输入切入,详细阐述各类智能合成模型的研究脉络、代表性工作及最新进展,同时对各类方法的技术框架进行归纳与对比,最后对全文进行全面性的总结,并针对现有方法存在的问题和挑战展望未来发展方向。

参考文献 | 相关文章 | 多维度评价

Select

13. 城市大数据认知计算研究与应用进展

刘伟, 孙佳, 王鹏, 陈亚繁

计算机科学 2024, 51 (7): 49-58. DOI: 10.11896/jsjkx.221200039

摘要（86）

PDF（pc）（2071KB）（256）

城市大数据为城市运行状态估计与综合决策提供理论与行动支撑,而其多源异构、耦合度低及动态变化等特点给传统的集成分析带来极大挑战。认知计算适用于时变多维、复杂多样数据的分析与挖掘,并可对问题进行自适应学习与进化,是解决城市大数据问题的重要途径。文中以城市大数据为背景,根据城市大数据的不同类型结构等特点,针对性地按照认知流程的4个环节对相应处理方法进行归纳,并进一步从知识驱动、数据驱动以及知识与数据协同驱动的角度,对上述具体方法进行概念级分类。最终形成城市大数据认知流程中不同驱动方式的方法间有机协同,从感知理解到决策行为的城市大数据认知闭环。同时从应用领域多角度综述了城市大数据认知计算的研究与发展现状。最后讨论了认知计算在城市大数据建设领域面临的挑战,并对未来发展趋势和研究方向进行了思考和展望。

参考文献 | 相关文章 | 多维度评价

Select

14. SVM样本约简算法研究综述

张代俐, 汪廷华, 朱兴淋

计算机科学 2024, 51 (7): 59-70. DOI: 10.11896/jsjkx.230400143

摘要（87）

PDF（pc）（1675KB）（234）

支持向量机(Support Vector Machine,SVM)是基于统计学习理论和结构风险最小化原则发展起来的一种有监督的机器学习算法,它有效克服了局部最小和维数灾难等问题,具有良好的泛化性能,并被广泛应用于模式识别和人工智能领域。但SVM的学习效率随着训练样本数量的增加而显著降低,对于大规模训练集,采用标准优化方法的传统SVM面临着内存需求过大、执行速度慢,有时甚至无法执行的问题。为了缓解SVM在大规模训练集上存储需求高、训练时间长等问题,学者们提出了SVM样本约简算法。文中首先介绍了SVM理论基础,然后从基于聚类、几何分析、主动学习、增量学习和随机抽样5个方面系统综述了SVM样本约简算法的研究现状,讨论了各种SVM样本约简算法的优缺点,最后总结全文并展望未来。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于TCN-A模型的高效查询负载预测算法

白文超, 白淑雯, 韩希先, 赵禹博

计算机科学 2024, 51 (7): 71-79. DOI: 10.11896/jsjkx.231100200

摘要（61）

PDF（pc）（3507KB）（240）

针对大数据查询领域中出现的由于查询负载随时间动态变化且难以有效预测所导致的数据库管理系统无法及时优化的问题,提出了一种基于新型时间序列预测模型的查询负载预测算法。首先,该算法采用过滤、时域间隔划分以及查询负载构造等技术对原始的历史用户查询进行预处理,得到便于网络模型分析处理的查询负载序列。其次,所提算法以时间卷积神经网络为核心构建时序预测模型,提取查询负载数据的历史变化趋势及自相关性特征,高效地实现时序预测;同时,融入设计的时域注意力机制,对查询负载序列进行重要性加权,保证模型的分析计算效率,提升算法的预测性能。最后,基于上述时序预测模型,充分利用查询间隔时间完成对未来查询负载的精确预测,使得数据库管理系统得以预先实现自身性能调优,以适应工作负载的动态变化。实验结果表明,设计的查询负载预测算法在多个评价指标中均表现出良好的预测性能,并且能够在查询时间间隔内更加精确地预测未来查询负载的变化。

参考文献 | 相关文章 | 多维度评价

Select

16. 融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型

杨莎莎, 于亚新, 王跃茹, 许晶铭, 魏阳杰, 李新华

计算机科学 2024, 51 (7): 80-88. DOI: 10.11896/jsjkx.231000138

摘要（51）

PDF（pc）（2965KB）（217）

强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略完全不同;3)忽略患者的历史观测数据和治疗史,从而不能很好地得到患者状态,进而导致不能学到最优策略。基于此,提出了融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型DOSAC-DTR。首先,考虑学到的策略所推荐的治疗行动的风险性,在Actor-Critic框架中融入Dead-ends概念;其次,为缓解分布偏移问题,在Actor-Critic框架中融入医生监督,在最大化预期回报的同时,最小化所学策略与医生策略之间的差距;最后,为了得到包含患者关键历史信息的状态表示,使用基于LSTM的编码器解码器模型对患者的历史观测数据和治疗史进行建模。实验结果表明,DOSAC-DTR相比基线方法有更好的性能,可以得到更低的估计死亡率以及更高的Jaccard系数。

参考文献 | 相关文章 | 多维度评价

Select

17. 保持决策蕴涵不变的决策背景属性约简

毕盛, 翟岩慧, 李德玉

计算机科学 2024, 51 (7): 89-95. DOI: 10.11896/jsjkx.230900009

摘要（49）

PDF（pc）（1450KB）（181）

形式概念分析是一种利用概念格进行数据分析的理论,属性约简是概念格约简的主要方式之一。决策蕴涵是形式概念分析在决策情形下的一种知识表示与推理模型。在已有保持决策背景知识信息不变的属性约简研究中,通常以保持概念规则或粒规则来保持决策背景的知识信息。而相比于概念规则与粒规则,决策蕴涵具备更强的知识表示能力。为了进一步缩小数据在属性约简前后对知识信息表示的差异,对保持决策蕴涵不变的属性约简进行了研究。首先,结合决策蕴涵的语义给出了保持决策蕴涵不变的协调集和约简定义,提出了判定协调集和约简的充要条件;接着,通过实例分析了该约简存在的问题,并结合蕴涵理论给出解决方法,从而给出了弱协调集和弱约简的定义;然后,从知识包含的角度分析了弱约简相比于约简的合理性;最后,提出了判定弱协调集和弱约简的充要条件,并结合决策蕴涵规范基给出了能够找到弱约简的方法,丰富了保持知识信息的属性约简研究内容。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于中心偏移的Fisher score与直觉邻域模糊熵的多标记特征选择

孙林, 马天娇

计算机科学 2024, 51 (7): 96-107. DOI: 10.11896/jsjkx.230400018

摘要（52）

PDF（pc）（2554KB）（186）

现有多标记Fisher score模型中边缘样本会影响算法分类效果。鉴于邻域直觉模糊熵处理不确定信息时具有更强的表达能力与分辨能力的优势,文中提出了一种基于中心偏移的Fisher score与邻域直觉模糊熵的多标记特征选择方法。首先,根据标记将多标记论域划分为多个样本集,计算样本集的特征均值作为标记下样本的原始中心点,以最远样本的距离乘以距离系数,去除边缘样本集,定义了新的有效样本集,计算中心偏移处理后的标记下每个特征的得分以及标记集的特征得分,进而建立了基于中心偏移的多标记Fisher score模型,预处理多标记数据。然后,引入多标记分类间隔作为自适应模糊邻域半径参数,定义了模糊邻域相似关系和模糊邻域粒,由此构造了多标记模糊邻域粗糙集的上、下近似集;在此基础上提出了多标记邻域粗糙直觉隶属度函数和非隶属度函数,定义了多标记邻域直觉模糊熵。最后,给出了特征的外部和内部重要度的计算公式,设计了基于邻域直觉模糊熵的多标记特征选择算法,筛选出最优特征子集。在多标记K近邻分类器下、9个多标记数据集上的实验结果表明,所提算法选择的最优子集具有良好的分类性能。

参考文献 | 相关文章 | 多维度评价

Select

19. 缺失值场景下的多元时间序列异常检测算法

曾子辉, 李超洋, 廖清

计算机科学 2024, 51 (7): 108-115. DOI: 10.11896/jsjkx.230400109

摘要（71）

PDF（pc）（2475KB）（219）

时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景中更加常见的含缺失值的时间序列异常检测任务,提出了一种基于注意力重新表征的时间序列异常检测算法MMAD(Missing Multivariate Time Series Anomaly Detection)。具体来说,MMAD首先将包含缺失值的时间序列数据通过时间位置编码对时间序列中不同时间戳的空间关联进行建模,然后通过掩码注意力表征模块学习不同时间戳之间数据的关联关系并将其表征为一个高维的嵌入式编码矩阵,从而将包含缺失值的多元时间序列表示为不含缺失值的高维表征,最后引入条件标准化流对该表征进行重建,以重建概率作为异常评分,重建概率越小代表样本越异常。在3个经典时间序列数据集上进行实验,结果表明,相比其他基线方法,MMAD性能平均提升了11%,验证了MMAD在缺失值场景下进行多元时间序列异常检测的有效性。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于压缩感知自适应测量矩阵的空气质量主动采样

黄伟杰, 郭贤伟, 於志勇, 黄昉菀

计算机科学 2024, 51 (7): 116-123. DOI: 10.11896/jsjkx.230400111

摘要（54）

PDF（pc）（2319KB）（201）

随着城市化进程的不断加快,工业发展、人口聚集使得空气质量问题日益严峻。出于对采集成本的考虑,对空气质量的主动采样正受到越来越多的关注。但现有模型要么只能迭代选择采样位置,要么难以实时更新采样算法。基于此,提出了一种基于压缩感知自适应测量矩阵的空气质量主动采样方法,将采样位置的选择问题转化为矩阵的列子集选择问题。该方法首先利用历史完整数据进行字典学习,然后将学习后的字典经过列子集选择后得到能够指导批量采样的自适应测量矩阵,最后结合利用空气质量数据特性构建的稀疏基矩阵恢复出未采样的数据。该方法使用压缩感知模型一体化实现采样和推断,避免了使用多个模型的不足。此外,考虑到空气质量的时序变动问题,在每一次的主动采样后,字典还会利用最新数据进行在线更新以指导下一次的采样。两个真实数据集上的实验结果表明,经过字典学习后得到的自适应测量矩阵在低于20%的多个采样率下,恢复性能优于所有基线。

参考文献 | 相关文章 | 多维度评价

Select

21. 一种基于属性相似性和分布结构连通性的聚类算法

孙浩文, 丁家满, 李博文, 贾连印

计算机科学 2024, 51 (7): 124-132. DOI: 10.11896/jsjkx.231000125

摘要（67）

PDF（pc）（3153KB）（240）

聚类分析针对不同的数据特点采用不同的相似性度量,现实世界中数据分布复杂,存在分布无规律、密度不均匀等现象,单独考虑实例属性相似性或分布结构连通性会影响聚类效果。为此,提出了一种基于属性相似性和分布结构连通性的聚类算法(A Clustering Algorithm Based on Attribute Similarity and Distributed Structure Connectivity,ASDSC)。首先,利用待聚类数据集中的所有数据实例构建完全无向图,定义了一种兼顾属性相似和分布结构连通的新颖相似性度量方式,用于计算节点相似性,并构造邻接矩阵更新边的权重;其次,借助邻接矩阵执行递增步长的随机游走,依据顶点的连通中心性来识别簇中心并给定簇编号,同时获取其他顶点的连通性;然后,利用连通性计算顶点间的依赖关系,并据此进行簇编号的传播,直至完成聚类。最后,为了验证该方法的聚类性能,在16个合成数据集和10个真实数据集上与5种先进聚类算法进行了对比实验,ASDSC算法取得了优异性能。

参考文献 | 相关文章 | 多维度评价

Select

22. 融合遗忘机制的多模态知识追踪模型

闫秋艳, 孙浩, 司雨晴, 袁冠

计算机科学 2024, 51 (7): 133-139. DOI: 10.11896/jsjkx.231000137

摘要（75）

PDF（pc）（2413KB）（248）

知识追踪是构建自适应教育系统的核心和关键,常被用以捕获学生的知识状态、预测学生的未来表现。以往的知识追踪模型仅根据结构信息对问题、技能进行建模,无法利用问题、技能的多模态信息构造其相互依赖关系。同时,关于学生的记忆水平仅以时间做量化,未考虑不同模态对记忆水平的影响。因此,提出了融合遗忘机制的多模态知识追踪模型。首先,对问题、技能节点,以图文匹配作为训练任务优化单模态嵌入,并通过计算多模态融合后节点间的相似度,获得问题和技能的关联权重从而计算生成问题节点的嵌入。其次,通过长短期记忆网络获取带有遗忘因素的学生知识状态,并将其融入学生的答题记录中生成学生节点的嵌入。最后,根据学生的答题次数和不同模态的有效记忆率计算学生和问题间的关联强度,通过图注意力网络进行信息传播,预测学生对不同问题的答题情况。在两个真实课堂自采数据集上进行了对比实验和消融实验,结果表明所提方法比其他基于图的知识追踪模型具有更好的预测精度,且针对多模态和遗忘机制的设计能有效提升原始模型的预测效果。同时,通过对一个具体案例的可视化分析,进一步说明了所提方法的实际应用效果。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于多嵌入融合的top-N推荐

杨真真, 王东涛, 杨永鹏, 华仁玉

计算机科学 2024, 51 (7): 140-145. DOI: 10.11896/jsjkx.230400066

摘要（55）

PDF（pc）（1815KB）（199）

异构信息网络(Heterogeneous Information Network,HIN)凭借其丰富的语义信息和结构信息被广泛应用于推荐系统中,虽然取得了很好的推荐效果,但较少考虑局部特征放大、信息交互和多嵌入聚合等问题。针对这些问题,提出了一种新的用于top-N推荐的多嵌入融合推荐(Multi-embedding Fusion Recommendation,MFRec)模型。首先,该模型在用户和项目学习分支中都采用对象上下文表示网络,充分利用上下文信息以放大局部特征,增强相邻节点的交互性;其次,将空洞卷积和空间金字塔池化引入元路径学习分支,以便获取多尺度信息并增强元路径的节点表示;然后,采用多嵌入融合模块以便更好地进行用户、项目以及元路径的嵌入融合,细粒度地进行多嵌入之间的交互学习,并强调了各特征的不同重要性程度;最后,在两个公共推荐系统数据集上进行了实验,结果表明所提模型MFRec优于现有的其他top-N推荐系统模型。

参考文献 | 相关文章 | 多维度评价

Select

24. 融入多影响力与偏好的图对比学习社交推荐算法

胡海波, 杨丹, 聂铁铮, 寇月

计算机科学 2024, 51 (7): 146-155. DOI: 10.11896/jsjkx.230400147

摘要（56）

PDF（pc）（3031KB）（206）

目前,基于图神经网络的社交推荐方法主要对社交信息和交互信息的显式关系和隐式关系进行联合建模,以缓解冷启动问题。尽管这些方法较好地聚合了社交关系和交互关系,但忽略了高阶隐式关系并非对每个用户都有相同的影响,并且监督学习的方法容易受到流行度偏差的影响。此外,这些方法主要聚焦用户和项目之间的协作关系,没有充分利用项目之间的相似关系。因此,文中提出了一种融入多影响力与偏好的图对比学习社交推荐算法(SocGCL)。一方面,引入节点间(用户和项目)融合机制和图间融合机制,并考虑了项目之间的相似关系。节点间融合机制区分图内不同节点对目标节点的不同影响;图间融合机制聚合多种图的节点嵌入表示。另一方面,通过添加随机噪声进行跨层图对比学习,有效缓解了社交推荐的冷启动问题和流行度偏差。在两个真实数据集上进行实验,结果表明,SocGCL优于其他基线方法,有效提高了社交推荐的性能。

参考文献 | 相关文章 | 多维度评价

Select

25. 社交网络中基于EHEM的两阶段谣言抑制方法

刘维, 吴飞, 郭震, 陈崚

计算机科学 2024, 51 (7): 156-166. DOI: 10.11896/jsjkx.230800169

摘要（54）

PDF（pc）（6045KB）（213）

在线社交网络的兴起带来了一系列的挑战与风险,其中包括虚假以及恶意谣言的传播,这可能会误导民众,破坏社会的稳定。因此,对谣言的传播进行抑制成为当前社交网络领域的热点问题。目前已经积累较多谣言抑制的工作,但是还存在模型不能准确描述信息在社交网络上传播的问题,因此提出了一种新的刻画信息传播的模型——扩展热量模型(Extended Heat Energy Model,EHEM)。该模型充分考虑了信息传播中节点激活概率的动态调整机制、信息传播的持续级联机制以及节点状态的动态转变机制,更加精准地捕捉了信息在网络上传播的爆炸性和复杂性;其次,考虑到在真实世界相信谣言的节点在接触真相后存在将信仰转变到相信真相的可能性,提出了校正阈值来确定节点是否会发生信仰的转换;节点的重要程度决定了它们自身的影响力,因此还提出了节点多维质量来衡量节点的重要程度;最后提出了两阶段的谣言抑制(Two Stage Rumor Containment,TSRC)算法,该算法首先使用节点多维质量对网络进行剪枝处理,之后通过模拟的方式从网络中选出最优的正种子集合。在4个真实数据集上进行实验,结果表明,所提算法在多个指标上优于Random,Betweenness,MD,PR,PWD和ContrId这6种对比算法。

参考文献 | 相关文章 | 多维度评价

Select

26. 云数据库资源与参数协同调优方法研究

李雨航, 谭睿雄, 柴云鹏

计算机科学 2024, 51 (6): 104-110. DOI: 10.11896/jsjkx.231000156

摘要（71）

PDF（pc）（2898KB）（300）

云数据库中存在许多配置项,包括数据库内部的配置参数以及部署环境的虚拟机资源配置,这些配置项共同决定了数据库的读写性能和资源消耗。在资源弹性伸缩的云环境下,用户关注数据库的服务性能和资源消耗成本。然而,由于配置项众多且负载变化快速,寻找最优的配置项组合变得困难。文中针对负载动态变化的在线调优场景提出了CoTune,一种协同调节云数据库资源与参数的快速调优方法。该方法针对OLTP型动态负载,通过迭代调节云虚拟机资源配置和数据库参数配置,在保障服务质量的前提下降低资源消耗。该方法的创新点如下:首先,在每个调优周期内,采用三阶段方案对资源配额和数据库参数进行调节,优先保障服务质量;其次,根据数据库参数对不同资源的影响进行分类,减小搜索空间,快速调节参数;最后,在数据库参数调节的强化学习模型中,设计特定的奖励函数,快速获取奖励值,加快调节频率。实验结果表明,该方法相比同时调节资源和参数、单独调节资源等方法,能够在保障服务质量的前提下降低资源消耗。通过快速迭代调优,能够应对负载变化的挑战,并在动态负载环境中实现更高效的资源利用。

参考文献 | 相关文章 | 多维度评价

Select

27. CDES:数据驱动的云数据库效能评估方法

韩宇捷, 徐志杰, 杨定裕, 黄波, 郭健美

计算机科学 2024, 51 (6): 111-117. DOI: 10.11896/jsjkx.231000140

摘要（91）

PDF（pc）（2356KB）（295）

在大规模云生产环境中在线评估数据库效能,对云厂商进一步优化云成本至关重要。为了评估云数据库的使用效能,提出了一种数据驱动的、基于计算与存储指标融合的云数据库效能评估方法CDES。该方法根据云数据库实例负载行为和性能画像,从计算和存储两方面选取影响云数据库成本与效能的主要指标,再结合云监控平台采集的数据,评估云数据库实例与集群的线上实际使用效能。基于CDES评估结果,进一步提出了云数据库效能优化的治理方案,提供效能优化建议,引导用户减少闲置资源。CDES已被部署在某大型互联网企业生产环境中,并用于其OLTP云数据库产品的效能评价。实验结果表明,所提方法能有效评估超过5 000个云数据库实例的集群的效能并引导治理,单位业务量下实例最高能节省40.74%的成本。

参考文献 | 相关文章 | 多维度评价

Select

28. 时序网络上异常演化模式研究

武南南, 郭泽浩, 赵一鸣, 余韦, 孙英, 王文俊

计算机科学 2024, 51 (6): 118-127. DOI: 10.11896/jsjkx.230600168

摘要（56）

PDF（pc）（5633KB）（309）

许多异常子图检测方法已经被成功应用于社交网络中的事件检测、道路网络中的交通拥堵检测等任务中。然而,在属性图中异常子图的动态演化方面,鲜有研究开展。文中提出了一种名为动态演化多异常子图扫描(DE-MASS)的方法,用于检测属性图上多个异常子图的演化模式,这是第一个捕捉相邻时间片上多个相连异常子图的动态图研究。DE-MASS在微博数据集、计算机流量数据集上的表现优于其他基准方法,并检测到3个实际应用中异常子图的演化模式:城市道路网络中的交通拥堵检测(北京、天津和南京)、社交网络(微博)中的事件检测和计算机流量网络中的网络攻击检测。

参考文献 | 相关文章 | 多维度评价

Select

29. 模体感知的自适应跨层游走社区检测

王贝贝, 信俊昌, 陈金义, 王之琼

计算机科学 2024, 51 (6): 128-134. DOI: 10.11896/jsjkx.231000142

摘要（68）

PDF（pc）（2859KB）（362）

近年来,利用高阶交互信息进行多层网络社区检测已成为复杂网络分析领域的研究热点。尽管多层网络社区检测的研究已取得了一些进展,但大多数方法忽略了网络各层之间的联系。为了解决这一问题,提出了一种模体(motif)感知的自适应跨层游走社区检测算法(Motif-aware Adaptive Cross-Layer random walk Community Detection,MACLCD)。该算法充分考虑了多层网络各层内的高阶交互特性以及层间的相关性,有效整合了多层网络的结构信息,提高了社区检测结果的准确性。具体地,首先从网络和节点的角度进行综合度量,揭示网络层间相关性;其次,考虑了各层网络可能具有不同的局部和全局结构特征,利用motif识别各层网络特有的高阶交互结构,构建多层加权混合阶网络;进一步,设计了多层网络跨层游走模型,并引入跳转因子,以确保随机游走能够自适应地遍历多层网络,从而捕获更丰富的网络结构信息。在4个真实的网络数据集上进行实验比较分析,结果表明MACLCD算法在社区检测方面性能较优,相比目前表现最佳的对比算法在ACC和NMI上分别提高了10%和8.9%。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于混合高斯先验变分自编码器的深度多球支持向量数据描述

武慧囡, 邢红杰, 李刚

计算机科学 2024, 51 (6): 135-143. DOI: 10.11896/jsjkx.230300194

摘要（81）

PDF（pc）（1934KB）（313）

随着数据维度和规模的不断增加,基于深度学习的异常检测方法取得了优异的检测性能,其中深度支持向量数据描述(Deep SVDD)得到了广泛应用。然而,要缓解超球崩溃问题,就需要对Deep SVDD中映射网络的各种参数施加约束。为了进一步提高Deep SVDD中映射网络的特征学习能力,同时解决超球崩溃问题,提出了基于混合高斯先验变分自编码器的深度多球支持向量数据描述(Deep Multiple-Sphere Support Vector Data Description Based on Variational Autoencoder with Mixture-of-Gaussians Prior,DMSVDD-VAE-MoG)。首先,通过预训练初始化网络参数和多个超球中心;其次,利用映射网络获得训练数据的潜在特征,对VAE损失、多个超球的平均半径和潜在特征到所对应超球中心的平均距离进行联合优化,以获得最优网络连接权重和多个最小超球。实验结果表明,所提DMSVDD-VAE-MoG在MNIST,Fashion-MNIST和CIFAR-10上均取得了优于其他8种相关方法的检测性能。

参考文献 | 相关文章 | 多维度评价