栏目文章

Select

1. 结构化数据库查询语言智能合成技术研究进展

刘雨蒙, 赵怡婧, 王碧聪, 王潮, 张宝民

计算机科学 2024, 51 (7): 40-48. DOI: 10.11896/jsjkx.231000143

摘要（40）

PDF（pc）（1837KB）（126）

近年来,随着大数据、云计算等技术的飞速发展,大规模数据的产生使得各类应用对于数据库技术的依赖日益加深。然而,传统的数据库一般采用形式化的数据库查询语言SQL进行操作,对无编程经验或数据库使用经验的用户来说,复杂SQL语法难度较高,降低了各个领域数据库应用者的便捷程度。近年来,机器学习、深度神经网络等人工智能技术的飞速发展,尤其是ChatGPT横空出世引发的大语言模型技术热潮,驱动了数据库与人工智能的深度结合与技术变革。通过智能方法将用户输入语言自动化合成SQL语言,以满足不同程度数据库使用者的操作需求,提升数据库的智能性、环境适应性及用户友好性。为全面聚焦数据库查询语言智能合成技术的最新研究进展,从范例输入、文本输入及语音输入这3类用户输入切入,详细阐述各类智能合成模型的研究脉络、代表性工作及最新进展,同时对各类方法的技术框架进行归纳与对比,最后对全文进行全面性的总结,并针对现有方法存在的问题和挑战展望未来发展方向。

参考文献 | 相关文章 | 多维度评价

Select

2. 城市大数据认知计算研究与应用进展

刘伟, 孙佳, 王鹏, 陈亚繁

计算机科学 2024, 51 (7): 49-58. DOI: 10.11896/jsjkx.221200039

摘要（39）

PDF（pc）（2071KB）（156）

城市大数据为城市运行状态估计与综合决策提供理论与行动支撑,而其多源异构、耦合度低及动态变化等特点给传统的集成分析带来极大挑战。认知计算适用于时变多维、复杂多样数据的分析与挖掘,并可对问题进行自适应学习与进化,是解决城市大数据问题的重要途径。文中以城市大数据为背景,根据城市大数据的不同类型结构等特点,针对性地按照认知流程的4个环节对相应处理方法进行归纳,并进一步从知识驱动、数据驱动以及知识与数据协同驱动的角度,对上述具体方法进行概念级分类。最终形成城市大数据认知流程中不同驱动方式的方法间有机协同,从感知理解到决策行为的城市大数据认知闭环。同时从应用领域多角度综述了城市大数据认知计算的研究与发展现状。最后讨论了认知计算在城市大数据建设领域面临的挑战,并对未来发展趋势和研究方向进行了思考和展望。

参考文献 | 相关文章 | 多维度评价

Select

3. SVM样本约简算法研究综述

张代俐, 汪廷华, 朱兴淋

计算机科学 2024, 51 (7): 59-70. DOI: 10.11896/jsjkx.230400143

摘要（39）

PDF（pc）（1675KB）（132）

支持向量机(Support Vector Machine,SVM)是基于统计学习理论和结构风险最小化原则发展起来的一种有监督的机器学习算法,它有效克服了局部最小和维数灾难等问题,具有良好的泛化性能,并被广泛应用于模式识别和人工智能领域。但SVM的学习效率随着训练样本数量的增加而显著降低,对于大规模训练集,采用标准优化方法的传统SVM面临着内存需求过大、执行速度慢,有时甚至无法执行的问题。为了缓解SVM在大规模训练集上存储需求高、训练时间长等问题,学者们提出了SVM样本约简算法。文中首先介绍了SVM理论基础,然后从基于聚类、几何分析、主动学习、增量学习和随机抽样5个方面系统综述了SVM样本约简算法的研究现状,讨论了各种SVM样本约简算法的优缺点,最后总结全文并展望未来。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于TCN-A模型的高效查询负载预测算法

白文超, 白淑雯, 韩希先, 赵禹博

计算机科学 2024, 51 (7): 71-79. DOI: 10.11896/jsjkx.231100200

摘要（32）

PDF（pc）（3507KB）（149）

针对大数据查询领域中出现的由于查询负载随时间动态变化且难以有效预测所导致的数据库管理系统无法及时优化的问题,提出了一种基于新型时间序列预测模型的查询负载预测算法。首先,该算法采用过滤、时域间隔划分以及查询负载构造等技术对原始的历史用户查询进行预处理,得到便于网络模型分析处理的查询负载序列。其次,所提算法以时间卷积神经网络为核心构建时序预测模型,提取查询负载数据的历史变化趋势及自相关性特征,高效地实现时序预测;同时,融入设计的时域注意力机制,对查询负载序列进行重要性加权,保证模型的分析计算效率,提升算法的预测性能。最后,基于上述时序预测模型,充分利用查询间隔时间完成对未来查询负载的精确预测,使得数据库管理系统得以预先实现自身性能调优,以适应工作负载的动态变化。实验结果表明,设计的查询负载预测算法在多个评价指标中均表现出良好的预测性能,并且能够在查询时间间隔内更加精确地预测未来查询负载的变化。

参考文献 | 相关文章 | 多维度评价

Select

5. 融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型

杨莎莎, 于亚新, 王跃茹, 许晶铭, 魏阳杰, 李新华

计算机科学 2024, 51 (7): 80-88. DOI: 10.11896/jsjkx.231000138

摘要（25）

PDF（pc）（2965KB）（120）

强化学习对数学模型依赖性低,利用经验便于架构和优化模型,非常适合用于动态治疗策略学习。但现有研究仍存在以下问题:1)学习策略最优性的同时未考虑风险,导致学到的策略存在一定的风险;2)忽略了分布偏移问题,导致学到的策略与医生策略完全不同;3)忽略患者的历史观测数据和治疗史,从而不能很好地得到患者状态,进而导致不能学到最优策略。基于此,提出了融合Dead-ends和离线监督Actor-Critic的动态治疗策略生成模型DOSAC-DTR。首先,考虑学到的策略所推荐的治疗行动的风险性,在Actor-Critic框架中融入Dead-ends概念;其次,为缓解分布偏移问题,在Actor-Critic框架中融入医生监督,在最大化预期回报的同时,最小化所学策略与医生策略之间的差距;最后,为了得到包含患者关键历史信息的状态表示,使用基于LSTM的编码器解码器模型对患者的历史观测数据和治疗史进行建模。实验结果表明,DOSAC-DTR相比基线方法有更好的性能,可以得到更低的估计死亡率以及更高的Jaccard系数。

参考文献 | 相关文章 | 多维度评价

Select

6. 保持决策蕴涵不变的决策背景属性约简

毕盛, 翟岩慧, 李德玉

计算机科学 2024, 51 (7): 89-95. DOI: 10.11896/jsjkx.230900009

摘要（29）

PDF（pc）（1450KB）（103）

形式概念分析是一种利用概念格进行数据分析的理论,属性约简是概念格约简的主要方式之一。决策蕴涵是形式概念分析在决策情形下的一种知识表示与推理模型。在已有保持决策背景知识信息不变的属性约简研究中,通常以保持概念规则或粒规则来保持决策背景的知识信息。而相比于概念规则与粒规则,决策蕴涵具备更强的知识表示能力。为了进一步缩小数据在属性约简前后对知识信息表示的差异,对保持决策蕴涵不变的属性约简进行了研究。首先,结合决策蕴涵的语义给出了保持决策蕴涵不变的协调集和约简定义,提出了判定协调集和约简的充要条件;接着,通过实例分析了该约简存在的问题,并结合蕴涵理论给出解决方法,从而给出了弱协调集和弱约简的定义;然后,从知识包含的角度分析了弱约简相比于约简的合理性;最后,提出了判定弱协调集和弱约简的充要条件,并结合决策蕴涵规范基给出了能够找到弱约简的方法,丰富了保持知识信息的属性约简研究内容。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于中心偏移的Fisher score与直觉邻域模糊熵的多标记特征选择

孙林, 马天娇

计算机科学 2024, 51 (7): 96-107. DOI: 10.11896/jsjkx.230400018

摘要（25）

PDF（pc）（2554KB）（103）

现有多标记Fisher score模型中边缘样本会影响算法分类效果。鉴于邻域直觉模糊熵处理不确定信息时具有更强的表达能力与分辨能力的优势,文中提出了一种基于中心偏移的Fisher score与邻域直觉模糊熵的多标记特征选择方法。首先,根据标记将多标记论域划分为多个样本集,计算样本集的特征均值作为标记下样本的原始中心点,以最远样本的距离乘以距离系数,去除边缘样本集,定义了新的有效样本集,计算中心偏移处理后的标记下每个特征的得分以及标记集的特征得分,进而建立了基于中心偏移的多标记Fisher score模型,预处理多标记数据。然后,引入多标记分类间隔作为自适应模糊邻域半径参数,定义了模糊邻域相似关系和模糊邻域粒,由此构造了多标记模糊邻域粗糙集的上、下近似集;在此基础上提出了多标记邻域粗糙直觉隶属度函数和非隶属度函数,定义了多标记邻域直觉模糊熵。最后,给出了特征的外部和内部重要度的计算公式,设计了基于邻域直觉模糊熵的多标记特征选择算法,筛选出最优特征子集。在多标记K近邻分类器下、9个多标记数据集上的实验结果表明,所提算法选择的最优子集具有良好的分类性能。

参考文献 | 相关文章 | 多维度评价

Select

8. 缺失值场景下的多元时间序列异常检测算法

曾子辉, 李超洋, 廖清

计算机科学 2024, 51 (7): 108-115. DOI: 10.11896/jsjkx.230400109

摘要（36）

PDF（pc）（2475KB）（125）

时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景中更加常见的含缺失值的时间序列异常检测任务,提出了一种基于注意力重新表征的时间序列异常检测算法MMAD(Missing Multivariate Time Series Anomaly Detection)。具体来说,MMAD首先将包含缺失值的时间序列数据通过时间位置编码对时间序列中不同时间戳的空间关联进行建模,然后通过掩码注意力表征模块学习不同时间戳之间数据的关联关系并将其表征为一个高维的嵌入式编码矩阵,从而将包含缺失值的多元时间序列表示为不含缺失值的高维表征,最后引入条件标准化流对该表征进行重建,以重建概率作为异常评分,重建概率越小代表样本越异常。在3个经典时间序列数据集上进行实验,结果表明,相比其他基线方法,MMAD性能平均提升了11%,验证了MMAD在缺失值场景下进行多元时间序列异常检测的有效性。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于压缩感知自适应测量矩阵的空气质量主动采样

黄伟杰, 郭贤伟, 於志勇, 黄昉菀

计算机科学 2024, 51 (7): 116-123. DOI: 10.11896/jsjkx.230400111

摘要（31）

PDF（pc）（2319KB）（120）

随着城市化进程的不断加快,工业发展、人口聚集使得空气质量问题日益严峻。出于对采集成本的考虑,对空气质量的主动采样正受到越来越多的关注。但现有模型要么只能迭代选择采样位置,要么难以实时更新采样算法。基于此,提出了一种基于压缩感知自适应测量矩阵的空气质量主动采样方法,将采样位置的选择问题转化为矩阵的列子集选择问题。该方法首先利用历史完整数据进行字典学习,然后将学习后的字典经过列子集选择后得到能够指导批量采样的自适应测量矩阵,最后结合利用空气质量数据特性构建的稀疏基矩阵恢复出未采样的数据。该方法使用压缩感知模型一体化实现采样和推断,避免了使用多个模型的不足。此外,考虑到空气质量的时序变动问题,在每一次的主动采样后,字典还会利用最新数据进行在线更新以指导下一次的采样。两个真实数据集上的实验结果表明,经过字典学习后得到的自适应测量矩阵在低于20%的多个采样率下,恢复性能优于所有基线。

参考文献 | 相关文章 | 多维度评价

Select

10. 一种基于属性相似性和分布结构连通性的聚类算法

孙浩文, 丁家满, 李博文, 贾连印

计算机科学 2024, 51 (7): 124-132. DOI: 10.11896/jsjkx.231000125

摘要（32）

PDF（pc）（3153KB）（122）

聚类分析针对不同的数据特点采用不同的相似性度量,现实世界中数据分布复杂,存在分布无规律、密度不均匀等现象,单独考虑实例属性相似性或分布结构连通性会影响聚类效果。为此,提出了一种基于属性相似性和分布结构连通性的聚类算法(A Clustering Algorithm Based on Attribute Similarity and Distributed Structure Connectivity,ASDSC)。首先,利用待聚类数据集中的所有数据实例构建完全无向图,定义了一种兼顾属性相似和分布结构连通的新颖相似性度量方式,用于计算节点相似性,并构造邻接矩阵更新边的权重;其次,借助邻接矩阵执行递增步长的随机游走,依据顶点的连通中心性来识别簇中心并给定簇编号,同时获取其他顶点的连通性;然后,利用连通性计算顶点间的依赖关系,并据此进行簇编号的传播,直至完成聚类。最后,为了验证该方法的聚类性能,在16个合成数据集和10个真实数据集上与5种先进聚类算法进行了对比实验,ASDSC算法取得了优异性能。

参考文献 | 相关文章 | 多维度评价

Select

11. 融合遗忘机制的多模态知识追踪模型

闫秋艳, 孙浩, 司雨晴, 袁冠

计算机科学 2024, 51 (7): 133-139. DOI: 10.11896/jsjkx.231000137

摘要（33）

PDF（pc）（2413KB）（122）

知识追踪是构建自适应教育系统的核心和关键,常被用以捕获学生的知识状态、预测学生的未来表现。以往的知识追踪模型仅根据结构信息对问题、技能进行建模,无法利用问题、技能的多模态信息构造其相互依赖关系。同时,关于学生的记忆水平仅以时间做量化,未考虑不同模态对记忆水平的影响。因此,提出了融合遗忘机制的多模态知识追踪模型。首先,对问题、技能节点,以图文匹配作为训练任务优化单模态嵌入,并通过计算多模态融合后节点间的相似度,获得问题和技能的关联权重从而计算生成问题节点的嵌入。其次,通过长短期记忆网络获取带有遗忘因素的学生知识状态,并将其融入学生的答题记录中生成学生节点的嵌入。最后,根据学生的答题次数和不同模态的有效记忆率计算学生和问题间的关联强度,通过图注意力网络进行信息传播,预测学生对不同问题的答题情况。在两个真实课堂自采数据集上进行了对比实验和消融实验,结果表明所提方法比其他基于图的知识追踪模型具有更好的预测精度,且针对多模态和遗忘机制的设计能有效提升原始模型的预测效果。同时,通过对一个具体案例的可视化分析,进一步说明了所提方法的实际应用效果。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于多嵌入融合的top-N推荐

杨真真, 王东涛, 杨永鹏, 华仁玉

计算机科学 2024, 51 (7): 140-145. DOI: 10.11896/jsjkx.230400066

摘要（35）

PDF（pc）（1815KB）（113）

异构信息网络(Heterogeneous Information Network,HIN)凭借其丰富的语义信息和结构信息被广泛应用于推荐系统中,虽然取得了很好的推荐效果,但较少考虑局部特征放大、信息交互和多嵌入聚合等问题。针对这些问题,提出了一种新的用于top-N推荐的多嵌入融合推荐(Multi-embedding Fusion Recommendation,MFRec)模型。首先,该模型在用户和项目学习分支中都采用对象上下文表示网络,充分利用上下文信息以放大局部特征,增强相邻节点的交互性;其次,将空洞卷积和空间金字塔池化引入元路径学习分支,以便获取多尺度信息并增强元路径的节点表示;然后,采用多嵌入融合模块以便更好地进行用户、项目以及元路径的嵌入融合,细粒度地进行多嵌入之间的交互学习,并强调了各特征的不同重要性程度;最后,在两个公共推荐系统数据集上进行了实验,结果表明所提模型MFRec优于现有的其他top-N推荐系统模型。

参考文献 | 相关文章 | 多维度评价

Select

13. 融入多影响力与偏好的图对比学习社交推荐算法

胡海波, 杨丹, 聂铁铮, 寇月

计算机科学 2024, 51 (7): 146-155. DOI: 10.11896/jsjkx.230400147

摘要（32）

PDF（pc）（3031KB）（114）

目前,基于图神经网络的社交推荐方法主要对社交信息和交互信息的显式关系和隐式关系进行联合建模,以缓解冷启动问题。尽管这些方法较好地聚合了社交关系和交互关系,但忽略了高阶隐式关系并非对每个用户都有相同的影响,并且监督学习的方法容易受到流行度偏差的影响。此外,这些方法主要聚焦用户和项目之间的协作关系,没有充分利用项目之间的相似关系。因此,文中提出了一种融入多影响力与偏好的图对比学习社交推荐算法(SocGCL)。一方面,引入节点间(用户和项目)融合机制和图间融合机制,并考虑了项目之间的相似关系。节点间融合机制区分图内不同节点对目标节点的不同影响;图间融合机制聚合多种图的节点嵌入表示。另一方面,通过添加随机噪声进行跨层图对比学习,有效缓解了社交推荐的冷启动问题和流行度偏差。在两个真实数据集上进行实验,结果表明,SocGCL优于其他基线方法,有效提高了社交推荐的性能。

参考文献 | 相关文章 | 多维度评价

Select

14. 社交网络中基于EHEM的两阶段谣言抑制方法

刘维, 吴飞, 郭震, 陈崚

计算机科学 2024, 51 (7): 156-166. DOI: 10.11896/jsjkx.230800169

摘要（25）

PDF（pc）（6045KB）（132）

在线社交网络的兴起带来了一系列的挑战与风险,其中包括虚假以及恶意谣言的传播,这可能会误导民众,破坏社会的稳定。因此,对谣言的传播进行抑制成为当前社交网络领域的热点问题。目前已经积累较多谣言抑制的工作,但是还存在模型不能准确描述信息在社交网络上传播的问题,因此提出了一种新的刻画信息传播的模型——扩展热量模型(Extended Heat Energy Model,EHEM)。该模型充分考虑了信息传播中节点激活概率的动态调整机制、信息传播的持续级联机制以及节点状态的动态转变机制,更加精准地捕捉了信息在网络上传播的爆炸性和复杂性;其次,考虑到在真实世界相信谣言的节点在接触真相后存在将信仰转变到相信真相的可能性,提出了校正阈值来确定节点是否会发生信仰的转换;节点的重要程度决定了它们自身的影响力,因此还提出了节点多维质量来衡量节点的重要程度;最后提出了两阶段的谣言抑制(Two Stage Rumor Containment,TSRC)算法,该算法首先使用节点多维质量对网络进行剪枝处理,之后通过模拟的方式从网络中选出最优的正种子集合。在4个真实数据集上进行实验,结果表明,所提算法在多个指标上优于Random,Betweenness,MD,PR,PWD和ContrId这6种对比算法。

参考文献 | 相关文章 | 多维度评价

Select

15. 云数据库资源与参数协同调优方法研究

李雨航, 谭睿雄, 柴云鹏

计算机科学 2024, 51 (6): 104-110. DOI: 10.11896/jsjkx.231000156

摘要（52）

PDF（pc）（2898KB）（228）

云数据库中存在许多配置项,包括数据库内部的配置参数以及部署环境的虚拟机资源配置,这些配置项共同决定了数据库的读写性能和资源消耗。在资源弹性伸缩的云环境下,用户关注数据库的服务性能和资源消耗成本。然而,由于配置项众多且负载变化快速,寻找最优的配置项组合变得困难。文中针对负载动态变化的在线调优场景提出了CoTune,一种协同调节云数据库资源与参数的快速调优方法。该方法针对OLTP型动态负载,通过迭代调节云虚拟机资源配置和数据库参数配置,在保障服务质量的前提下降低资源消耗。该方法的创新点如下:首先,在每个调优周期内,采用三阶段方案对资源配额和数据库参数进行调节,优先保障服务质量;其次,根据数据库参数对不同资源的影响进行分类,减小搜索空间,快速调节参数;最后,在数据库参数调节的强化学习模型中,设计特定的奖励函数,快速获取奖励值,加快调节频率。实验结果表明,该方法相比同时调节资源和参数、单独调节资源等方法,能够在保障服务质量的前提下降低资源消耗。通过快速迭代调优,能够应对负载变化的挑战,并在动态负载环境中实现更高效的资源利用。

参考文献 | 相关文章 | 多维度评价

Select

16. CDES:数据驱动的云数据库效能评估方法

韩宇捷, 徐志杰, 杨定裕, 黄波, 郭健美

计算机科学 2024, 51 (6): 111-117. DOI: 10.11896/jsjkx.231000140

摘要（73）

PDF（pc）（2356KB）（208）

在大规模云生产环境中在线评估数据库效能,对云厂商进一步优化云成本至关重要。为了评估云数据库的使用效能,提出了一种数据驱动的、基于计算与存储指标融合的云数据库效能评估方法CDES。该方法根据云数据库实例负载行为和性能画像,从计算和存储两方面选取影响云数据库成本与效能的主要指标,再结合云监控平台采集的数据,评估云数据库实例与集群的线上实际使用效能。基于CDES评估结果,进一步提出了云数据库效能优化的治理方案,提供效能优化建议,引导用户减少闲置资源。CDES已被部署在某大型互联网企业生产环境中,并用于其OLTP云数据库产品的效能评价。实验结果表明,所提方法能有效评估超过5 000个云数据库实例的集群的效能并引导治理,单位业务量下实例最高能节省40.74%的成本。

参考文献 | 相关文章 | 多维度评价

Select

17. 时序网络上异常演化模式研究

武南南, 郭泽浩, 赵一鸣, 余韦, 孙英, 王文俊

计算机科学 2024, 51 (6): 118-127. DOI: 10.11896/jsjkx.230600168

摘要（47）

PDF（pc）（5633KB）（242）

许多异常子图检测方法已经被成功应用于社交网络中的事件检测、道路网络中的交通拥堵检测等任务中。然而,在属性图中异常子图的动态演化方面,鲜有研究开展。文中提出了一种名为动态演化多异常子图扫描(DE-MASS)的方法,用于检测属性图上多个异常子图的演化模式,这是第一个捕捉相邻时间片上多个相连异常子图的动态图研究。DE-MASS在微博数据集、计算机流量数据集上的表现优于其他基准方法,并检测到3个实际应用中异常子图的演化模式:城市道路网络中的交通拥堵检测(北京、天津和南京)、社交网络(微博)中的事件检测和计算机流量网络中的网络攻击检测。

参考文献 | 相关文章 | 多维度评价

Select

18. 模体感知的自适应跨层游走社区检测

王贝贝, 信俊昌, 陈金义, 王之琼

计算机科学 2024, 51 (6): 128-134. DOI: 10.11896/jsjkx.231000142

摘要（53）

PDF（pc）（2859KB）（230）

近年来,利用高阶交互信息进行多层网络社区检测已成为复杂网络分析领域的研究热点。尽管多层网络社区检测的研究已取得了一些进展,但大多数方法忽略了网络各层之间的联系。为了解决这一问题,提出了一种模体(motif)感知的自适应跨层游走社区检测算法(Motif-aware Adaptive Cross-Layer random walk Community Detection,MACLCD)。该算法充分考虑了多层网络各层内的高阶交互特性以及层间的相关性,有效整合了多层网络的结构信息,提高了社区检测结果的准确性。具体地,首先从网络和节点的角度进行综合度量,揭示网络层间相关性;其次,考虑了各层网络可能具有不同的局部和全局结构特征,利用motif识别各层网络特有的高阶交互结构,构建多层加权混合阶网络;进一步,设计了多层网络跨层游走模型,并引入跳转因子,以确保随机游走能够自适应地遍历多层网络,从而捕获更丰富的网络结构信息。在4个真实的网络数据集上进行实验比较分析,结果表明MACLCD算法在社区检测方面性能较优,相比目前表现最佳的对比算法在ACC和NMI上分别提高了10%和8.9%。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于混合高斯先验变分自编码器的深度多球支持向量数据描述

武慧囡, 邢红杰, 李刚

计算机科学 2024, 51 (6): 135-143. DOI: 10.11896/jsjkx.230300194

摘要（66）

PDF（pc）（1934KB）（234）

随着数据维度和规模的不断增加,基于深度学习的异常检测方法取得了优异的检测性能,其中深度支持向量数据描述(Deep SVDD)得到了广泛应用。然而,要缓解超球崩溃问题,就需要对Deep SVDD中映射网络的各种参数施加约束。为了进一步提高Deep SVDD中映射网络的特征学习能力,同时解决超球崩溃问题,提出了基于混合高斯先验变分自编码器的深度多球支持向量数据描述(Deep Multiple-Sphere Support Vector Data Description Based on Variational Autoencoder with Mixture-of-Gaussians Prior,DMSVDD-VAE-MoG)。首先,通过预训练初始化网络参数和多个超球中心;其次,利用映射网络获得训练数据的潜在特征,对VAE损失、多个超球的平均半径和潜在特征到所对应超球中心的平均距离进行联合优化,以获得最优网络连接权重和多个最小超球。实验结果表明,所提DMSVDD-VAE-MoG在MNIST,Fashion-MNIST和CIFAR-10上均取得了优于其他8种相关方法的检测性能。

参考文献 | 相关文章 | 多维度评价

Select

20. 有序标签噪声的鲁棒估计与过滤方法

姜高霞, 王菲, 许行, 王文剑

计算机科学 2024, 51 (6): 144-152. DOI: 10.11896/jsjkx.230700115

摘要（52）

PDF（pc）（3032KB）（217）

较大规模的标注数据集中难免会存在标签噪声,这在一定程度上限制了模型的泛化性能。有序回归数据集的标签是离散值,但不同标签之间又有一定次序关系。虽然有序回归的标签兼有分类和回归标签的特征,但面向分类和回归任务的标签噪声过滤算法对有序标签噪声并不完全适用。针对此问题,提出了标签含噪时回归模型的Akaike泛化误差估计,在此基础上设计了面向有序回归任务的标签噪声过滤框架。此外,提出了一种鲁棒的有序标签噪声估计方法,其采用基于中位数的融合策略以降低异常估计分量的干扰。最后,该方法与所提框架结合形成了噪声鲁棒融合过滤(Robust Fusion Filtering,RFF)算法。在标准数据集和真实年龄估计数据集上均验证了算法的有效性。实验结果表明,在有序回归任务中,RFF算法性能优于其他分类和回归过滤算法,能够适应不同类型的噪声数据,并有效提升数据质量和模型泛化性能。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于子空间的I-nice聚类算法

何一帆, 何玉林, 崔来中, 黄哲学

计算机科学 2024, 51 (6): 153-160. DOI: 10.11896/jsjkx.230800200

摘要（63）

PDF（pc）（2587KB）（222）

高维数据的子空间聚类是无监督学习领域的热点研究问题,其难点在于寻找恰当的子空间以及其中的数据簇。大多数现有的子空间聚类算法均存在计算复杂度高和参数选择难的缺陷,这是因为在高维数据中子空间的组合数量很大,算法的执行时间非常长,且不同数据集和应用场景需要不同的参数设定。为此,提出了基于子空间的I-nice(简记为sub-I-nice)聚类算法用于识别高维数据中子空间内数据簇的个数。首先,该算法将原始数据维度随机划分成多个维度组,根据维度组生成子空间样本;接着,使用最新的I-niceMO算法对每个子空间数据进行聚类;最后,采用新设计的球模型对所有子空间的基聚类结果进行集成。在含有噪声的高维仿真数据集上对所提出的sub-I-nice算法进行了详细的性能验证,实验结果表明sub-I-nice算法相比其他3种代表性聚类算法有更好的准确性和鲁棒性,从而证实了其合理性和有效性。

参考文献 | 相关文章 | 多维度评价

Select

22. 独立级联传播模型下的连续影响力最大化

邓紫维, 陈崚, 刘维

计算机科学 2024, 51 (6): 161-171. DOI: 10.11896/jsjkx.230400006

摘要（41）

PDF（pc）（6364KB）（246）

影响力最大化是在社交网络中寻求一组最具有影响力的用户作为种子节点,通过种子节点向网络中传播信息,使得传播的范围最大化。现有的对影响力最大化的研究大多是针对每个节点,考虑是否将其作为种子节点。而在实际应用中,需要根据用户的影响力来赋予他成为种子的概率,使得根据这个概率分布得到的种子集合的影响力传播范围的期望值最大化,这就是连续影响力最大化问题。文中提出了一种独立级联传播模型下连续影响力最大化算法。该算法首先将上述问题抽象成一个约束优化问题,然后抽样若干个可能的种子集,并对每个可能的种子集估计影响的传播范围;使用梯度下降法,在每轮迭代中根据估计的传播范围计算各个方向的增量值,取最大增量的方向作为梯度进行目标函数值的迭代更新,从而得到目标函数值的最优解。在真实和虚拟网络上进行实验,结果表明,该算法在影响范围的期望值上优于Random,Degree,UD和CD等算法。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于多空间属性信息融合的序列推荐

王子泓, 邵蓥侠, 何吉元, 刘金宝

计算机科学 2024, 51 (3): 102-108. DOI: 10.11896/jsjkx.230600078

摘要（255）

PDF（pc）（2941KB）（949）

序列推荐旨在从用户的历史行为中建模用户不断变化的兴趣,从而做出与用户兴趣相关的推荐。近年来,物品属性信息被证明可以提升序列推荐的性能,很多工作基于属性信息融合去提升序列推荐的性能,都取得了成效但仍存在一定的不足。首先,它们没有显式地建模出用户对物品属性的偏好或者只建模了一个属性偏好向量,无法充分表达用户的偏好。其次,它们的物品属性信息融合过程未考虑用户个性化信息的影响。因此,针对上述不足,提出了基于多空间属性信息融合的序列推荐(MAIF-SR)。文中提出了多空间属性信息融合框架,在不同的属性空间下融合属性序列并建模出用户对不同属性的偏好,用多维兴趣充分表达用户的偏好;设计了个性化属性注意力机制,在融合信息的过程中引入用户个性化信息,增强融合信息的个性化效果。在两个公开数据集以及一个工业私有数据集上进行实验,结果表明,MAIF-SR优于用于对比的基于属性信息融合的序列推荐。

参考文献 | 相关文章 | 多维度评价

Select

24. MMOS:支持超卖的多租户数据库内存资源共享方法

徐海洋, 刘海龙, 杨超云, 王硕, 李战怀

计算机科学 2024, 51 (2): 27-35. DOI: 10.11896/jsjkx.231000141

摘要（136）

PDF（pc）（3501KB）（1122）

多租户数据库为每个租户分配固定的资源配额,而这些资源配额通常未全部得到有效利用,这种静态分配策略导致资源利用率不高。若在不影响租户性能的前提下将未利用的空闲资源共享给其他租户使用,即实现资源超卖,则可以提高资源利用率、提升平台收益。为了支持资源超卖,需要准确预测租户的资源需求,动态地按需为租户分配资源。已有的针对多租户数据库的资源共享方法的研究对象主要是CPU资源,鲜有支持超卖的内存资源共享方法。鉴于此,在联机分析处理场景下,提出了一种支持超卖的多租户数据库内存资源共享方法MMOS(Multi-tenant database Memory resource Overselling and Sharing)。该方法通过准确预测每个租户的内存需求区间,按照区间上限为租户动态调整内存配额,在不影响租户性能的前提下,统一管理空闲内存资源以支持更多租户,实现内存超卖。实验结果表明,MMOS在租户负载动态变化的场景下具有较好效果。在不同资源量的资源池下,支持的租户数可以增加2~2.6倍,资源利用率峰值提升175%~238%。同时,每个租户的业务与性能未受影响。

参考文献 | 相关文章 | 多维度评价

Select

25. 基于异构特征融合的多维时间序列分类算法

乔帆, 王鹏, 汪卫

计算机科学 2024, 51 (2): 36-46. DOI: 10.11896/jsjkx.230100135

摘要（234）

PDF（pc）（3986KB）（1325）

随着大数据时代的到来和传感器的发展,多维时间序列分类问题成为数据挖掘领域的重要问题。多维时间序列存在维度高、维度间关系复杂、数据形态多变的特点,从而生成巨大的特征空间。现有方法难以选取有区分力的特征,导致方法的准确度普遍较低。另一方面,现有方法的分类结果的可解释性较差。针对上述问题,提出了一种基于异构特征融合的多维时间序列分类算法。该算法融合了时域、频域和区间统计值这3种特征并对特征进行聚类,从而找到最有代表性的特征。首先为每个维度提取不同类型的代表性特征,再通过多维度特征转换的方法融合所有维度的不同类型的特征,形成特征向量,并基于此训练分类模型。为了提高分类结果的可解释性,算法基于树结构生成不同类型的候选特征集合,然后通过聚合消除冗余和相似的特征,最终获得少量代表性特征。为了验证所提算法的有效性,在公开的UEA数据集上进行了大量实验。实验结果显示,所提算法的准确性、特征融合的合理性,以及分类结果的可解释性均优于现有方法。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于知识图谱的家政服务课程推荐融合模型

邹莼玲, 朱郑州

计算机科学 2024, 51 (2): 47-54. DOI: 10.11896/jsjkx.221200149

摘要（184）

PDF（pc）（3638KB）（1163）

针对家政服务从业人员对家政服务课程在线学习需求的增加,而现有的家政服务课程在线学习网站存在资源较少、课程不够系统化和不具有课程推荐功能等状况,使得家政服务相关从业人员的在线学习门槛变高。通过分析现有的家政服务课程在线学习网站,提出构建家政服务课程知识图谱,并将家政服务课程知识图谱与推荐算法进行融合,设计了一种融合深度学习技术的规则与水波偏好传播相结合的R-RippleNet家政服务课程推荐模型。R-RippleNet模型的使用对象包括老学员和新学员,老学员部分是基于水波偏好传播模型进行课程推荐,新学员部分则基于规则模型进行课程推荐。实验结果表明,老学员使用R-RippleNet模型的AUC值为95%,ACC值为89%,F1值为89%,新学员使用R-RippleNet模型的总体精确率均值为77%,NDCG均值为93%。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于知识图谱与用户兴趣的推荐算法

许天月, 柳先辉, 赵卫东

计算机科学 2024, 51 (2): 55-62. DOI: 10.11896/jsjkx.221200169

摘要（173）

PDF（pc）（2466KB）（1143）

为了解决协同过滤推荐算法中存在的冷启动以及数据稀疏性等问题,文中引入了具有丰富语义信息和路径信息的知识图谱。基于其结构特征,将图神经网络应用于知识图谱的推荐算法得到了研究者的青睐。推荐算法的核心在于获取物品特征和用户特征,然而,该方面研究的重点在于更好地表达物品特征,而忽略了用户特征的表示。文中在知识图谱图神经网络的基础上,提出了一种基于知识图谱与用户兴趣的推荐算法。该算法通过引入一个独立的用户兴趣捕获模块,来学习用户历史信息,引入了用户兴趣,使得推荐算法在用户和物品两个方面都得到了良好表征。实验结果表明,在MovieLens数据集上,基于知识图谱与用户兴趣的推荐算法实现了数据的充分利用,具有良好的效果,对推荐准确性起到了促进作用。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于对比学习的时间序列聚类方法

杨博, 罗嘉琛, 宋艳涛, 吴宏涛, 彭甫镕

计算机科学 2024, 51 (2): 63-72. DOI: 10.11896/jsjkx.221200038

摘要（187）

PDF（pc）（4208KB）（1175）

现有深度聚类方法严重依赖于复杂的特征提取网络和聚类算法,难以直观地定义时间序列的相似性。使用对比学习的方法可以从正负样本数据的角度定义时间序列的区间相似性,并对特征提取和聚类进行联合优化。基于对比学习的思想,提出了一种不依赖于复杂表示网络的时间序列聚类模型。同时,为解决现有时间序列数据增强方法难以描述时间序列的变换不变性的问题,提出了一种基于时间序列形状特征的数据增强方法,在忽略数据时域特征情况下捕捉序列的相似性。模型通过设置不同的形状转换参数构造正负样本对,学习特征表示并投影到特征空间,在实例级对比和聚类级对比层面利用交叉熵损失最大化正样本对相似性,最小化负样本对相似性,实现了端到端的联合学习表示和聚类分配。在32个UCR中的数据集上进行了大量实验,结果表明该模型可以在不依赖于特定表示学习网络的情况下得到与现有方法相当或优于现有方法的聚类结果。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于组合结构的逻辑回归点击预测算法

郭尚志, 廖晓峰, 鲜开义

计算机科学 2024, 51 (2): 73-78. DOI: 10.11896/jsjkx.230100052

摘要（144）

PDF（pc）（2183KB）（1034）

随着互联网和广告平台的飞速发展,面对海量的广告信息,为了提升用户点击率,提出一种改进的基于组合结构的逻辑回归点击预测算法LRCS(Logical Regression of Combination Structure)。该算法基于不同类别特征广告受众可能不同的特点,首先,采用FM进行特征组合,产生两类组合特征;其次,将一类特征组合作为聚类算法的输入进行聚类;最后,将另一类特征组合输入由聚类产生的分段GBDT+逻辑回归组合的模型中进行预测。在两个公开数据集中进行了多角度验证,结果表明与其他几类常用的点击预测算法相比,LRCS在点击预测上有一定的性能提升。

参考文献 | 相关文章 | 多维度评价

Select

30. 基于正则模糊划分的模糊系统及其逼近性质

彭小玉, 潘小东, 申涵寒, 何红梅

计算机科学 2024, 51 (2): 79-86. DOI: 10.11896/jsjkx.221100229

摘要（176）

PDF（pc）（1930KB）（1095）

文中讨论了带有不同模糊基函数的模糊系统的逼近问题。首先,基于一维正则模糊划分和重叠函数建立多维正则模糊划分,以划分中的元素为模糊基函数设计模糊系统,应用Weierstrass逼近定理证明了该模糊系统是通用逼近器,给出了模糊系统的逼近误差界。其次,提出了多项式型、指数型和对数型模糊系统,并给出了带有隶属函数参数的逼近误差界。最后,通过数值实验对不同模糊系统的逼近能力进行了比较,实验结果进一步验证了理论分析的正确性。

参考文献 | 相关文章 | 多维度评价