栏目文章

Select

1. 基于图学习的推荐系统研究综述

程章桃, 钟婷, 张晟铭, 周帆

计算机科学 2022, 49 (9): 1-13. DOI: 10.11896/jsjkx.210900072

摘要（2077）

PDF（pc）（2404KB）（2603）

协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽取用户和物品的交互信息,从而进行用户推荐。近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐领域中的一种新兴的范式。文中从图学习角度对近年来推荐领域的研究进行系统性的回顾与总结。首先,根据数据类型将推荐场景分成两类,包括基于交互信息的推荐系统(将用户与物品交互数据作为关键数据源)和辅助信息增强的推荐系统(融入与用户和物品相关联的社交信息和知识图谱信息);其次,从随机游走、图表示学习和图神经网络方面入手,对不同推荐场景中的方法、关键技术、主要难点和重要进展进行回顾与总结;最后,总结关于图学习方法在推荐领域中面临的挑战和未来的主要研究方向。

参考文献 | 相关文章 | 多维度评价

Select

2. 数据流概念漂移处理方法研究综述

陈志强, 韩萌, 李慕航, 武红鑫, 张喜龙

计算机科学 2022, 49 (9): 14-32. DOI: 10.11896/jsjkx.210700112

摘要（926）

PDF（pc）（2484KB）（1482）

目前非稳态数据流中的概念漂移愈来愈呈现出不同速度、不同空间分布的趋势,给数据挖掘、机器学习等诸多领域带来了极大的挑战。近二十年来,许多致力于在非稳态数据流中处理概念漂移的技术方法被提出。从一种新颖的角度,分别针对主动检测的显式方法和被动自适应的隐式方法对目前的概念漂移处理技术方法进行了全面的阐述。首先,从处理某一特定类型和多种类型的概念漂移的角度对主动检测方法进行了分析,并从单学习器和集成学习的角度对被动自适应方法进行了分析;其次,对诸多概念漂移处理方法的对比算法、学习模型、适用漂移类型、算法的优缺点进行了全面总结;最后给出了未来的研究方向,包括类不平衡的数据流概念漂移处理方法、含新颖类的概念漂移数据流处理方法、含噪声的数据流概念漂移处理方法等方面。

参考文献 | 相关文章 | 多维度评价

Select

3. 生成链接树:一种高数据真实性的反事实解释生成方法

王明, 武文芳, 王大玲, 冯时, 张一飞

计算机科学 2022, 49 (9): 33-40. DOI: 10.11896/jsjkx.220300158

摘要（502）

PDF（pc）（3156KB）（796）

超大的数据规模及结构复杂的深度模型在互联网数据的处理与应用方面表现出了优异的性能,但降低了人工智能(Artificial Intelligence,AI)系统的可解释性。反事实解释(Counterfactual Explanations,CE)作为可解释性领域研究中一种特殊的解释方法,受到了很多研究者的关注。反事实解释除了作为解释外,也可以被视为一种生成的数据。从应用角度出发,文中提出了一种生成具有高数据真实性反事实解释的方法,称为生成链接树(Generative Link Tree,GLT),采用分治策略与局部贪心策略,依据训练数据中出现的案例生成反事实解释。文中对反事实解释的生成方法进行了总结并选取了其中热门的数据集来验证GLT方法。此外,提出“数据真实性(Data Fidelity,DF)”的指标,用于评估反事实解释作为数据的有效性和潜在应用能力。与基线方法相比,GLT生成的反事实解释数据的真实性明显高于基线模型所生成的反事实解释。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于评论方面级用户偏好迁移的跨领域推荐算法

张佳, 董守斌

计算机科学 2022, 49 (9): 41-47. DOI: 10.11896/jsjkx.220200131

摘要（562）

PDF（pc）（2388KB）（843）

为解决推荐系统中数据稀疏造成的用户冷启动问题,文中提出了一种基于方面级用户偏好迁移的跨领域推荐算法(Cross-Domain Recommendation via Review Aspect-Level User Preference Transfer,CAUT),设计了基于两阶段生成对抗网络的用户方面级偏好跨领域迁移结构,通过用户历史评论挖掘用户细粒度方面级偏好。CAUT利用预训练源领域编码器参数对目标领域编码器进行参数初始化,在固定源领域编码器参数的同时引入领域鉴别器,以解决源领域与目标领域数据分布差异的问题,进而可以有效利用源领域的丰富数据,缓解目标领域数据稀疏造成的用户冷启动问题。在亚马逊电商平台真实数据集上进行了实验,结果表明,与最新算法相比,CAUT在用户对商品的评分预测均方根误差(RMSE)指标上有明显的提升,说明CAUT可有效缓解用户冷启动问题。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于矢量量化编码的协同过滤推荐方法

王冠宇, 钟婷, 冯宇, 周帆

计算机科学 2022, 49 (9): 48-54. DOI: 10.11896/jsjkx.210700109

摘要（375）

PDF（pc）（2538KB）（516）

随着互联网的高速发展,海量数据涌现,使得推荐系统成为计算机科学领域的研究热点。变分自编码器已经被成功应用于协同过滤方法的设计中,并取得了出色的推荐效果。然而,以往基于变分自编码器的推荐模型存在一些问题,如对隐变量先验分布的约束以及“后验失效”等,这些问题降低了推荐模型的性能。为了解决这一问题,使变分自编码器模型更加适用于推荐任务,提出了一种基于矢量量化编码的协同过滤推荐方法。该方法采用离散的矢量编码代替变分自编码器从隐变量分布中直接取样获得编码,从观测数据中学习到一个离散的潜在表示,提高了编码的表示能力。在多个公开数据集上的性能评测结果显示,与现有方法相比,所提方法能够有效提升推荐性能。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于全局增强图神经网络的序列推荐

周芳泉, 成卫青

计算机科学 2022, 49 (9): 55-63. DOI: 10.11896/jsjkx.210700085

摘要（515）

PDF（pc）（2660KB）（715）

已有基于会话的推荐系统大多根据最后一个点击的项目与当前会话的用户偏好的相关性进行推荐,忽略了在其他会话中可能包含了与当前会话相关的项目转换,这些项目转换可能对用户的当前偏好也有一定的影响,因此需要从局部会话和整体会话的角度来综合分析用户偏好;并且这些推荐系统大多忽略了位置信息的重要性,而与预测位置越近的项目可能与当前用户兴趣的相关性越高。针对这些问题,提出一种基于全局增强的图神经网络的推荐模型(GEL-GNN)。GEL-GNN旨在根据所有会话预测用户的行为,它使用GNN来捕获当前会话的全局和局部之间的关系,使用LSTM来捕获全局层面会话间的关系。首先,通过注意力机制层将用户的偏好表示为基于全局层面和局部层面会话兴趣的组合;然后,使用反向位置信息衡量当前位置和预测位置之间的距离,以便更加准确地预测用户行为。在3个真实的数据集上进行了大量的实验,实验结果表明GEL-GNN优于现有的基于会话的图神经网络推荐模型。

参考文献 | 相关文章 | 多维度评价

Select

7. 基于无监督集群级的科技论文异质图节点表示学习方法

宋杰, 梁美玉, 薛哲, 杜军平, 寇菲菲

计算机科学 2022, 49 (9): 64-69. DOI: 10.11896/jsjkx.220500196

摘要（337）

PDF（pc）（2343KB）（644）

科技论文数据的知识表征是一个有待解决的问题,而如何学习科技论文异质网络中论文节点的表示是解决这一问题的核心。文中提出了一种基于无监督集群级的科技论文异质图节点表示学习方法(Unsupervised Cluster-level Scientific Paper Heterogeneous Graph Node Representation Learning Method,UCHL),以获取科技论文异质图中节点(作者、机构与论文等)的表示。基于科技论文异质图表示对整个异质图进行链接预测,获取节点之间边的关系,即论文与论文之间的关联关系。实验结果表明,在真实的科技论文数据集上,所提方法在多项评测指标上都取得了更优的性能。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于特征相似度聚类的空中目标分群方法

柴慧敏, 张勇, 方敏

计算机科学 2022, 49 (9): 70-75. DOI: 10.11896/jsjkx.210800203

摘要（329）

PDF（pc）（2315KB）（678）

针对采用聚类算法进行目标分群时需要给出聚类个数和对初始中心选择敏感的问题,提出了一种基于目标特征相似度聚类的分群方法。该方法首先计算目标间的相似度值,构建相似度矩阵;然后计算相似度矩阵的连通分支,获取群中心结构和孤立目标点,识别的群中心结构个数为聚类个数;最后将不属于群中心结构和孤立点的目标归类到与其最相近的群中心结构中,使得聚类过程不再过多地依赖于聚类初始中心的选择。实验结果表明,所提方法能够正确识别出多种形态的群中心结构,并能检测出孤立点,且目标聚类正确率均高于其他4种聚类算法。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于异构网络表征学习的作者学术行为预测

黄丽, 朱焱, 李春平

计算机科学 2022, 49 (9): 76-82. DOI: 10.11896/jsjkx.210900078

摘要（344）

PDF（pc）（3031KB）（525）

作者学术行为预测旨在从异构学术网络中挖掘作者的行为关系,以促进科研合作,产出高水平、高质量的研究成果。现有的节点表示方法大多未考虑节点的语义特征、内容特征、全局结构等,难以有效学习网络中节点的低维特性。为有效融合节点的多维特征和全局结构,提出了一种集成BiLSTM、注意力机制和聚类算法的异构网络表示学习方法HNEMA,以提高学术网络中作者的学术行为预测效果。HNEMA首先基于BiLSTM和注意力机制融合节点的多维特征,聚合同一元路径下或不同元路径下相同类型的邻居,随后聚合待表征节点的所有邻居的多维特征。基于此,采用聚类算法捕获节点的全局特征,从而全面有效地学习节点的低维特性。在全面特征学习的基础上,应用逻辑回归分类器预测作者的学术行为。在3个公开数据集上的验证实验结果表明,相比其他方法,HNEMA在AUC和F1指标上都有一定程度的提升。

参考文献 | 相关文章 | 多维度评价

Select

10. 一种基于节点稳定性和邻域相似性的社区发现算法

郑文萍, 刘美麟, 杨贵

计算机科学 2022, 49 (9): 83-91. DOI: 10.11896/jsjkx.220400146

摘要（321）

PDF（pc）（3729KB）（677）

复杂网络规模的增大导致网络中社区结构变得复杂,节点与社区之间的关系更多样化,有效度量大规模网络中节点邻域的社区构成,并对社区归属确定性有差异的节点分别进行处理,可以提高算法的社区发现质量。基于此,提出了一种基于节点稳定性和邻域相似性的社区发现算法(Node Stability and Neighbor Similarity Based Community Detection Algorithm,NSNSA)。首先定义节点的标签熵并对节点在社区发现过程中的稳定性进行度量,选择标签熵较低的节点作为稳定节点集;其次根据节点邻域的标签构成情况定义节点的邻域相似性,对节点与其邻居节点的社区归属一致性进行度量;然后利用稳定节点与其直接邻居中邻域相似性最高的节点构造初始网络,并在该子网络上运行标签传播算法,以得到可靠性较高的初始社区发现结果;最后将未聚类节点分配至与其Katz相似性最高的节点所在的社区,对小规模社区进行合并处理,以得到最终的社区划分结果。在真实网络及人工网络数据集上,与LPA,BGLL,Walktrap,Infomap,LPA-S等经典社区发现算法的对比实验表明,NSNSA算法在模块度以及标准互信息方面表现良好。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于异质信息网的短文本特征扩充方法

吕晓锋, 赵书良, 高恒达, 武永亮, 张宝奇

计算机科学 2022, 49 (9): 92-100. DOI: 10.11896/jsjkx.210700241

摘要（517）

PDF（pc）（2541KB）（451）

随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于全变分比分隔距离的时序数据异常检测

徐天慧, 郭强, 张彩明

计算机科学 2022, 49 (9): 101-110. DOI: 10.11896/jsjkx.210600174

摘要（293）

PDF（pc）（4093KB）（521）

时序数据异常检测是数据分析的重要研究问题之一,其主要挑战在于利用数据点上下文准确判断数据是否存在异常,若存在异常则低时延定位该异常。现有检测方法通常利用概率密度比来度量序列间的相似性,以捕捉异常,这些方法需借助交叉验证法来估计概率密度比模型中的参数。交叉验证法会提高计算复杂度,导致计算效率较低,且存在较大检测时延。针对上述问题,提出了一种基于全变分比分隔距离的检测方法。该方法采用全变分提取序列波动特征,以此为基础计算全变分比分隔距离来度量序列间的相似性,从而提高计算效率,并实现低时延定位异常。针对噪声干扰问题,将检测方法与相对全变分相结合以增强检测方法的鲁棒性,从而进一步提高该方法的检测准确度。实验结果表明,该方法在检测准确度、低时延以及计算效率3个方面均取得了较好的效果。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于大数据的进化网络影响力分析研究综述

何强, 尹震宇, 黄敏, 王兴伟, 王源田, 崔硕, 赵勇

计算机科学 2022, 49 (8): 1-11. DOI: 10.11896/jsjkx.210700240

摘要（817）

PDF（pc）（2110KB）（1033）

社交影响力分析能够在社交网络中执行复杂行为分析,是现代信息和服务行业最重要的技术之一,越来越多的社交网络研究者把关注点放在社交影响力上。真实的社交网络是不断演化的而非静态的,进化网络的提出也带来了新的挑战和机遇,同时进化网络中海量的社交信息也为大数据分析技术的快速发展提供了强有力的支撑。文中对进化网络和影响最大化问题进行了论述,并讨论了社交影响力分析问题的传播模型和基于社交网络大数据的影响力分析方法,同时进一步整理了一些应用广泛的影响力算法。此外,还论述了大数据、进化网络与社交影响力最大化的关系。文中的目标是通过大规模社交网络中的影响力分析,帮助其他研究人员更好地理解现有的工作,为社交网络影响力分析提供新的思路。

参考文献 | 相关文章 | 多维度评价

Select

14. 监督和半监督学习下的多标签分类综述

武红鑫, 韩萌, 陈志强, 张喜龙, 李慕航

计算机科学 2022, 49 (8): 12-25. DOI: 10.11896/jsjkx.210700111

摘要（1517）

PDF（pc）（3598KB）（1675）

传统的多标签分类算法大多数采用监督学习的方式,但现实生活中有许多数据没有被标记。通过人工的方式对需要的全部数据进行标记耗费的成本较高。半监督学习算法可以使用大量未标记数据和标记数据来进行工作,因此受到了人们的重视。文中首次从监督和半监督学习的角度对多标签分类算法进行阐述,同时全面地对多标签分类算法的应用领域进行了总结。从决策树、贝叶斯、支持向量机、神经网络和集成等多个方向对标签非相关性和标签相关性的监督学习算法进行概述,从批处理和在线的方向对半监督学习算法进行综述,从图像分类、文本分类和其他等角度对多标签的实际应用领域进行介绍。文中还简要分析了多标签的评估指标,最后给出了关于半监督学习下的复杂概念漂移处理、特征选择处理、标签复杂相关性处理和类不平衡处理的研究方向。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于热点数据的持久性内存索引查询加速

刘高聪, 罗永平, 金培权

计算机科学 2022, 49 (8): 26-32. DOI: 10.11896/jsjkx.210700176

摘要（481）

PDF（pc）（2090KB）（1061）

非易失性内存(Non-Volatile Memory,NVM),也被称为持久性内存(Persistent Memory,PM),具有按位寻址、持久性、存储密度高、低延迟等特点。虽然NVM的延迟远小于闪存,但高于DRAM(Dynamic Random Access Memory)。此外,NVM还有读写不均衡、写次数有限等不足。因此,目前NVM还无法完全代替DRAM。一种更为合理的方法是利用NVM构建基于DRAM+NVM的混合内存架构。文中针对NVM和DRAM构成的混合内存架构,着重研究了基于热点数据的持久性内存索引加速方法。具体而言,以数据访问中的倾斜性特征为基础,利用DRAM的低延迟和NVM的持久性与高存储密度,提出了在持久性内存索引的基础上增加基于DRAM的热点数据缓存,进而提出了可以根据热点数据的变化自动调整缓存的查询自适应索引方法。将所提方法应用到多种持久性内存索引上,包括wBtree,FPTree以及Fast&Fair,并进行了对比实验。结果表明,当热点数据访问达到总访问次数的80%时,所提索引加速方法在3种索引上的查询性能分别取得了52%,33%,37%的提升。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于时空注意力克里金的边坡形变数据插值方法

黎嵘繁, 钟婷, 吴劲, 周帆, 匡平

计算机科学 2022, 49 (8): 33-39. DOI: 10.11896/jsjkx.210600161

摘要（461）

PDF（pc）（2740KB）（908）

山体滑坡每年都会对人们的生命财产安全造成重大损失,是常见的地质灾害之一。为了对山体滑坡进行防控,需要广泛地监测山体表面的沉降过程,但是由于恶劣气候和监测成本等难以克服的困难,山体沉降数据的收集呈现出局部数据不完整、数据采样不均衡和监测点动态变化等特点,使得山体滑坡的防控研究受到阻碍,给数据的采集和分析工作提出了新的要求。现有方法从空间角度对缺失进行补充,但忽略了时间维度的依赖关系。为了解决上述问题,对不完整的INSAR数据填充进行了研究,利用时空掩码矩阵对时空依赖关系进行建模,利用多头注意力对多层次的空间关系进行综合学习,并在克里金法(Kriging)的基础上提出了新的使用时空注意力的克里金插值法,实现了对复杂时空特征的深层理解。在真实数据集上的数据恢复实验验证了该算法可以有效地学习复杂的时空特征,并在3种不同的数据缺失情景下都取得了优于现存插值算法的表现。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于多时间尺度时空图网络的交通流量预测模型

汪鸣, 彭舰, 黄飞虎

计算机科学 2022, 49 (8): 40-48. DOI: 10.11896/jsjkx.220100188

摘要（1068）

PDF（pc）（3049KB）（1223）

交通流预测在智能交通系统的建设中起着关键作用。但由于其复杂的时空依赖性和本身的不确定性使得研究变得极具挑战性。现有的一些方法主要是将单一的时间序列输入到循环神经网络以捕获时间依赖性,而且多数模型仅对时间模块和空间模块进行简单的堆叠,导致不能有效地融合时间和空间特征。为了解决以上问题,文中提出了一个多时间尺度时空图网络模型。模型先将序列数据划分为3种时间尺度序列,然后将序列输入到时空块(ST-Block)中提取数据的时空依赖性,最后进行预测。在时空块中使用图卷积网络和变体Transformer分别捕获数据中的时间和空间依赖性,并通过门控融合机制将两者提取到的特征进行融合。在两个真实的数据集上分别进行了短期和长期的预测实验,结果表明了MTSTGNN模型在交通流预测任务上的优秀性能。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于物理操作级模型的查询执行时间预测方法

王润安, 邹兆年

计算机科学 2022, 49 (8): 49-55. DOI: 10.11896/jsjkx.210700074

摘要（283）

PDF（pc）（3008KB）（558）

查询执行时间预测(Query Performance Prediction,QPP)是数据库系统中一个重要的研究问题。当数据库系统中存在并发执行的事务时,现有的QPP方法无法在不改变数据库查询性能的前提下建立准确的QPP模型。为此,提出了一种基于物理操作的查询执行时间预测新方法,该方法以查询的物理操作为单位建立单元预测模型,根据查询计划将单元预测模型组合为完整的QPP模型,把能够刻画数据库系统并发状态的统计信息纳入模型的输入特征。所提方法只须使用DBMS提供的基本手段即可获取构建模型所需的数据库统计信息,无须改变DBMS,也不会影响数据库系统上原有工作负载的执行。实验结果表明,所提方法无论在OLTP还是OLAP应用中,在不同的查询计划和并发度下的预测准确性均高于其他对比方法。

参考文献 | 相关文章 | 多维度评价

Select

19. RIIM:基于独立模型的在线缺失值填补

李霞, 马茜, 白梅, 王习特, 李冠宇, 宁博

计算机科学 2022, 49 (8): 56-63. DOI: 10.11896/jsjkx.210600180

摘要（367）

PDF（pc）（3257KB）（526）

随着数据来源的不断丰富,数据的获取变得愈发容易,但质量难以得到保证,从而导致缺失值在真实数据集中普遍存在且难以避免,缺失值填补也就成为数据质量管理领域的经典问题之一。目前,大多数的缺失值填补算法均是针对静态数据提出的,并不适用于高速到达的动态数据流,且现有算法大多未同时考虑数据的稀疏性和异构性问题。基于此,文中提出了一种新的基于独立模型的在线缺失值填补算法RIIM。该算法同时考虑了数据的稀疏性和异构性问题,并结合近邻填补和回归填补的基本思想对缺失值进行有效填补。首先,针对数据的动态实时性,提出了高效的填补模型增量更新算法;其次,针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出了最优近邻自适应周期性更新策略;最后基于真实数据集通过大量实验验证了所提算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于知识图谱的层次粒化推荐方法

秦琪琦, 张月琴, 王润泽, 张泽华

计算机科学 2022, 49 (8): 64-69. DOI: 10.11896/jsjkx.210600111

摘要（525）

PDF（pc）（2724KB）（813）

基于图神经网络的推荐系统是当前数据挖掘应用的研究热点。在异质信息网络(Heterogeneous Information Network,HIN)上结合图神经网络进行推荐,可通过用户的关联信息来学习用户的偏好,从而提升推荐性能。但现有基于HIN的推荐方法大多存在不能有效地解释高阶建模结果及人工设计元路径需要相关领域知识的问题。因此,结合层次粒化思想,在异质推荐过程中引入知识图谱,提出一种基于知识图谱的异质推荐方法(Heterogeneous Recommendation Methods for Knowledge Graphs,HKR)。该方法首先结合知识图谱,对局部上下文和非局部上下文进行层次粒化,分别学习用户特征的粗粒度表示;然后基于门控机制结合局部和非局部的属性节点嵌入,进一步学习用户和项目之间的潜在特征;最后将细粒度的特征融合用于推荐。在真实的大规模数据集上的实验结果表明,所提方法的性能在多方面评测上均优于目前的基于知识图谱的图神经网络推荐方法。

参考文献 | 相关文章 | 多维度评价

Select

21. 基于自注意力机制和迁移学习的跨领域推荐算法

方义秋, 张震坤, 葛君伟

计算机科学 2022, 49 (8): 70-77. DOI: 10.11896/jsjkx.210600011

摘要（744）

PDF（pc）（2520KB）（771）

传统的单领域推荐算法受限于用户和项目的稀疏关系,存在用户/项目冷启动的问题,并且,其仅以用户对项目评分进行建模,忽略了评论文本中所蕴含的信息。基于评论文本的跨领域推荐算法在辅助领域提取用户/项目的评论信息来缓解目标领域的数据稀疏问题,以提高推荐的准确率。文中提出了结合自注意力机制和迁移学习的跨领域推荐算法SAMTL(Self-Attention Mechanism and Transfer Learning)。与现有算法不同,SAMTL充分融合了目标领域和辅助领域的知识。首先,引入自注意力机制建模用户的喜好信息;其次,通过交叉映射跨域传输网络实现借助一个领域的信息来提高另一个领域的推荐准确率;最后,在知识融合模块和评分预测模块整合两个域的信息,进行评分预测。在Amazon数据集上的实验表明,与现有的跨领域推荐模型相比,SAMTL的MAE和MSE值更高,在3种不同的跨领域数据集上的MAE值分别提高了8.4%,13.2%和19.4%,MSE值分别提高了6.3%,7.8%和5.6%。通过多项实验验证了自注意力机制和迁移学习的有效性,以及它们在缓解数据稀疏和用户冷启动问题方面的优势。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于卷积神经网络的APP用户行为分析方法

陈泳全, 姜瑛

计算机科学 2022, 49 (8): 78-85. DOI: 10.11896/jsjkx.210700121

摘要（477）

PDF（pc）（2029KB）（1026）

随着移动互联网的快速发展,智能终端已经成为人们日常生活和工作中不可或缺的一部分。在使用智能终端的过程中,会产生大量的APP操作过程记录,对用户APP操作过程记录进行分析,可以获取到操作过程记录中用户的行为,从而获得用户的行为模式,以帮助开发人员有针对性地维护和改进APP软件。现有的用户行为分析偏向操作分析,缺少对用户操作的行为提取,因此提出了一种基于卷积神经网络的APP用户行为分析方法。该方法首先进行APP操作分析,提取出原始APP操作记录信息中的用户操作;然后挖掘APP操作与APP用户行为之间的关联性,构建APP操作与APP用户行为之间的相似度矩阵;最后提取APP用户行为。实验结果表明,该方法能够有效地提取和识别APP操作过程记录中用户的行为,有助于深层次地挖掘APP用户行为的含义。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于相似度矩阵学习和矩阵校正的无监督多视角特征选择

李斌, 万源

计算机科学 2022, 49 (8): 86-96. DOI: 10.11896/jsjkx.210700124

摘要（329）

PDF（pc）（4512KB）（704）

多视角特征选择通过融合多个视角的信息获取具有代表性的特征子集,来提高分类、聚类等学习任务的效率。然而,描述对象的特征繁杂多样且相互关联,单一地从原始特征中选择特征子空间可以简单地解决维度问题,但无法有效获取数据内部存在的结构信息和特征关联信息,且固定使用相似度矩阵和投影矩阵易损失视角间的相关性。针对以上问题,提出了基于相似度矩阵学习和矩阵校正的无监督多视角特征选择(SMLMA)算法。该算法首先构造所有视角的相似度矩阵,通过流形学习得到一致相似度矩阵以及投影矩阵,最大程度地发现和保留多视角数据的结构信息;其次采用矩阵校正的方法,最大化相似度矩阵和核矩阵之间的相关性,合理利用不同视角之间的关联性,减少特征子集的信息冗余;最后,采用Armijo搜索方法快速得到收敛结果。在4个实验数据集Caltech-7,NUS-WIDE-OBJ,Toy Animal和MSRC-v1上的实验结果表明,相比单视角特征选择和部分多视角特征选择方法,所提算法在聚类任务上的准确率平均提高了约7.54%。其较好地保留了数据的结构信息和多视角之间特征的相关性,捕获了更多高质量的特征。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于顶点粒k步搜索和粗糙集的强连通分量挖掘算法

程富豪, 徐泰华, 陈建军, 宋晶晶, 杨习贝

计算机科学 2022, 49 (8): 97-107. DOI: 10.11896/jsjkx.210700202

摘要（462）

PDF（pc）（3147KB）（524）

强连通分量挖掘是图论中的经典问题之一,如何设计更高效率的串行强连通分量挖掘算法具有现实需求。GRSCC算法利用k步上近似和k步R相关集这两个粗糙集算子所构成的SUB-RSCC函数,可实现简单有向图中的强连通分量挖掘,而SUB-RSCC函数的调用次数决定了挖掘效率。根据挖掘强连通分量时顶点间存在的相关性,GRSCC算法引入了粒化策略,减少了SUB-RSCC函数的调用次数,提高了挖掘效率。在GRSCC算法的基础上,分析发现了顶点间的另外两种强连通分量相关性,由此设计了一种新的顶点粒化策略,进而提出了一种顶点粒k步搜索方法,可更大程度地减少SUB-RSCC函数的调用次数。最后,提出了一种基于顶点粒k步搜索和粗糙集的强连通分量挖掘算法KGRSCC。实验结果表明,相比RSCC算法、GRSCC算法和Tarjan算法,KGRSCC算法具有更好的性能。

参考文献 | 相关文章 | 多维度评价

Select

25. 多源异构环境下的车联网大数据混合属性特征检测方法

陈晶, 吴玲玲

计算机科学 2022, 49 (8): 108-112. DOI: 10.11896/jsjkx.220300273

摘要（388）

PDF（pc）（1757KB）（681）

现有的车联网大数据特征检测方法忽略了数据属性权重,导致效率偏低,无法在车辆运行中提供高效服务。为此,提出了多源异构环境下的车联网大数据混合属性特征检测方法。该方法利用集成模型集成车联网多源异构数据,并对集成数据进行标准化和属性约简处理;同时,通过加权主成分分析法提取集成数据的属性特征,并利用聚类方法实现特征聚类,完成车联网大数据混合属性特征检测。实验结果表明,与现有方法相比,所提方法在评价指标敏感性指数上取值更高,时间复杂度更低,能更高效地完成车联网大数据混合属性特征提取任务。

参考文献 | 相关文章 | 多维度评价

Select

26. 基于神经架构搜索的点击率预测模型

帅剑波, 王金策, 黄飞虎, 彭舰

计算机科学 2022, 49 (7): 10-17. DOI: 10.11896/jsjkx.210600009

摘要（672）

PDF（pc）（3010KB）（826）

点击率(Click-Through Rate,CTR)预测是推荐系统中一项重要的任务,其目标是预测用户点击一个广告或者商品的概率。特征嵌入和特征组合是影响预测性能的关键,因此很多点击率预测模型的思路也是针对这两个方面进行优化。但目前大部分工作仅关注其中一个方面,并且几乎所有的模型在进行特征组合时都没有对特征进行区分,同一个特征与其他特征组合时都使用相同的嵌入和组合方法,阻碍了模型性能的提升。为解决该问题,提出了Auto-SEI(Automatic Super-field-aware Feature Embedding and Interacting)模型。该模型先将每个特征子域分配给一个特征超域,再根据分组得到特征的嵌入,然后为特征对选择合适的组合方法获取组合特征,最后进行预测。Auto-SEI模型中,特征子域的划分和组合方法的选择被参数化为架构搜索问题,利用神经架构搜索(Neural Architecture Search,NAS)算法压缩搜索空间并进行选择。在3个真实的大规模数据集上进行了大量实验,结果表明Auto-SEI 模型在点击率预测任务上具有优秀的性能。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于概率元学习的矩阵补全预测融合算法

齐秀秀, 王佳昊, 李文雄, 周帆

计算机科学 2022, 49 (7): 18-24. DOI: 10.11896/jsjkx.210600126

摘要（556）

PDF（pc）（2156KB）（760）

随着互联网社交媒体规模的飞速发展,利用推荐算法对海量信息进行有效建模筛选和过滤,成为了研究用户行为偏好、热点倾向和网络安全态势等问题的关键。随着深度学习的发展,图神经网络模型在解决推荐系统应用中的密集型图结构数据时取得了较好效果。协同过滤算法作为得到最广泛应用的推荐算法,其利用用户-项目的群体交互数据来预测用户未来的偏好与项目评级。但现有的推荐算法仍面临着数据稀疏和冷启动问题,且缺少对不确定性的良好量化。文中提出了一种基于概率元学习的归纳矩阵补全预测融合算法(MetaIMC),该算法从贝叶斯推断的角度重新对元学习进行表征,构建了稳健的图深度神经网络元学习模型,充分利用数据先验知识提出从稀疏数据中学习新任务的解决方案。首先,MetaIMC可以有效地利用变分贝叶斯推理获得先验分布,缓解元模型任务训练中的不确定性和模糊性问题,进一步提升了模型的泛化能力;其次,在不借助任何用户边信息的情况下,实现新用户推荐的冷启动;最后,在传统矩阵补全及用户冷启动两个场景下,利用Flixster,Douban和Yahoo_music 3个公开数据集对模型的性能进行了评估,验证了MetaIMC在面对传统矩阵补全任务时的有效性,并在冷启动问题上达到了最优的效果。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于聚类分区的多维数据流概念漂移检测方法

陈圆圆, 王志海

计算机科学 2022, 49 (7): 25-30. DOI: 10.11896/jsjkx.210600155

摘要（547）

PDF（pc）（2469KB）（733）

对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。

参考文献 | 相关文章 | 多维度评价

Select

29. 基于Bi-LSTM的期货市场关联交易行为检测方法

张源, 康乐, 宫朝辉, 张志鸿

计算机科学 2022, 49 (7): 31-39. DOI: 10.11896/jsjkx.210400304

摘要（485）

PDF（pc）（3425KB）（724）

随着期货市场的不断发展,其交易量屡创新高,但在海量交易的背后,一些交易者利用关联交易行为对市场进行操纵,扰乱了交易秩序,给市场监管和风险控制带来了严峻考验。因此,如何从海量交易中挖掘潜在关联交易行为成为维护期货市场公平交易的重要任务。针对该问题,提出了一种多特征信息融合的双向长短期记忆(Bi-LSTM)网络模型,从原始数据中提取交易时间、交易量、持仓变化、期货品种等多种维度的浅层特征信息,通过Bi-LSTM网络模型从时间序列上向前、向后两个方向的上下文关系学习深层特征,实现关联交易行为检测。针对浅层特征提取提出了一种基于交易行为的多粒度窗口特征提取方法,从日、小时、分钟、秒等级别捕捉账户间交易的关联性,从而解决了原始交易数据维度高、数据量大、关联性弱的问题。模型引入了Dropout策略,缓解了收敛速度慢和过拟合的问题。在郑州商品交易所真实数据上的实验结果表明,与一些传统的分类模型以及RNN和LSTM网络相比,所提方法在分类的准确率和召回率上有明显提升,同时,对特征中各个维度信息的消解实验证明了多特征融合方法和多粒度窗口策略的有效性。另外,抽取了两种期货品种的交易数据进行测试,结果表明所提模型具有良好的泛化能力。

参考文献 | 相关文章 | 多维度评价

Select

30. 嵌入典型时间序列特征的随机Shapelet森林算法

高振卓, 王志海, 刘海洋

计算机科学 2022, 49 (7): 40-49. DOI: 10.11896/jsjkx.210700226

摘要（495）

PDF（pc）（2876KB）（2709）

近年来,时间序列分类问题的研究受到了广泛关注。先进的时间序列分类方法通常建立在良好的特征表示的基础之上。Shapelet是时间序列中具备鉴别性的子序列,可有效表达时间序列的局部形状特征。然而,高昂的计算成本大大限制了基于Shapelet的时间序列分类方法的实用性。除此之外,传统的Shapelet仅能描述欧氏距离度量下子序列的形状特征,因此极易受到噪声干扰并难以挖掘子序列中蕴含的其他类型的鉴别性信息。为应对上述问题,提出了一种新的时间序列分类算法——嵌入典型时间序列特征的随机Shapelet森林。该算法基于以下3个关键策略:1)随机选取Shapelet并限制Shapelet的作用范围以提高效率;2)在Shapelet中嵌入多个典型时间序列特征以提高算法对不同分类问题的适应性,并弥补随机选取Shapelet带来的精度损失;3)在新的特征表示的基础上构建随机森林分类器以确保算法的泛化能力。112个UCR时间序列数据集上的实验结果表明,本文算法的准确性超越了基于Shapelet精确搜索和Shapelet转换技术的STC算法,以及多个其他类型的先进时间序列分类算法。此外,广泛的实验对比验证了本文算法在效率上的显著优势。

参考文献 | 相关文章 | 多维度评价