1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2022年第9期, 刊出日期:2022-09-15
  
目录
第49卷第9期目录
计算机科学. 2022, 49 (9): 0-0. 
摘要 ( 440 )   PDF(4921KB) ( 1004 )   
相关文章 | 多维度评价
数据库&大数据&数据科学*
基于图学习的推荐系统研究综述
程章桃, 钟婷, 张晟铭, 周帆
计算机科学. 2022, 49 (9): 1-13.  doi:10.11896/jsjkx.210900072
摘要 ( 3218 )   PDF(2404KB) ( 3272 )   
参考文献 | 相关文章 | 多维度评价
协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽取用户和物品的交互信息,从而进行用户推荐。近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐领域中的一种新兴的范式。文中从图学习角度对近年来推荐领域的研究进行系统性的回顾与总结。首先,根据数据类型将推荐场景分成两类,包括基于交互信息的推荐系统(将用户与物品交互数据作为关键数据源)和辅助信息增强的推荐系统(融入与用户和物品相关联的社交信息和知识图谱信息);其次,从随机游走、图表示学习和图神经网络方面入手,对不同推荐场景中的方法、关键技术、主要难点和重要进展进行回顾与总结;最后,总结关于图学习方法在推荐领域中面临的挑战和未来的主要研究方向。
数据流概念漂移处理方法研究综述
陈志强, 韩萌, 李慕航, 武红鑫, 张喜龙
计算机科学. 2022, 49 (9): 14-32.  doi:10.11896/jsjkx.210700112
摘要 ( 1730 )   PDF(2484KB) ( 2140 )   
参考文献 | 相关文章 | 多维度评价
目前非稳态数据流中的概念漂移愈来愈呈现出不同速度、不同空间分布的趋势,给数据挖掘、机器学习等诸多领域带来了极大的挑战。近二十年来,许多致力于在非稳态数据流中处理概念漂移的技术方法被提出。从一种新颖的角度,分别针对主动检测的显式方法和被动自适应的隐式方法对目前的概念漂移处理技术方法进行了全面的阐述。首先,从处理某一特定类型和多种类型的概念漂移的角度对主动检测方法进行了分析,并从单学习器和集成学习的角度对被动自适应方法进行了分析;其次,对诸多概念漂移处理方法的对比算法、学习模型、适用漂移类型、算法的优缺点进行了全面总结;最后给出了未来的研究方向,包括类不平衡的数据流概念漂移处理方法、含新颖类的概念漂移数据流处理方法、含噪声的数据流概念漂移处理方法等方面。
生成链接树:一种高数据真实性的反事实解释生成方法
王明, 武文芳, 王大玲, 冯时, 张一飞
计算机科学. 2022, 49 (9): 33-40.  doi:10.11896/jsjkx.220300158
摘要 ( 1088 )   PDF(3156KB) ( 1368 )   
参考文献 | 相关文章 | 多维度评价
超大的数据规模及结构复杂的深度模型在互联网数据的处理与应用方面表现出了优异的性能,但降低了人工智能(Artificial Intelligence,AI)系统的可解释性。反事实解释(Counterfactual Explanations,CE)作为可解释性领域研究中一种特殊的解释方法,受到了很多研究者的关注。反事实解释除了作为解释外,也可以被视为一种生成的数据。从应用角度出发,文中提出了一种生成具有高数据真实性反事实解释的方法,称为生成链接树(Generative Link Tree,GLT),采用分治策略与局部贪心策略,依据训练数据中出现的案例生成反事实解释。文中对反事实解释的生成方法进行了总结并选取了其中热门的数据集来验证GLT方法。此外,提出“数据真实性(Data Fidelity,DF)”的指标,用于评估反事实解释作为数据的有效性和潜在应用能力。与基线方法相比,GLT生成的反事实解释数据的真实性明显高于基线模型所生成的反事实解释。
基于评论方面级用户偏好迁移的跨领域推荐算法
张佳, 董守斌
计算机科学. 2022, 49 (9): 41-47.  doi:10.11896/jsjkx.220200131
摘要 ( 1394 )   PDF(2388KB) ( 1374 )   
参考文献 | 相关文章 | 多维度评价
为解决推荐系统中数据稀疏造成的用户冷启动问题,文中提出了一种基于方面级用户偏好迁移的跨领域推荐算法(Cross-Domain Recommendation via Review Aspect-Level User Preference Transfer,CAUT),设计了基于两阶段生成对抗网络的用户方面级偏好跨领域迁移结构,通过用户历史评论挖掘用户细粒度方面级偏好。CAUT利用预训练源领域编码器参数对目标领域编码器进行参数初始化,在固定源领域编码器参数的同时引入领域鉴别器,以解决源领域与目标领域数据分布差异的问题,进而可以有效利用源领域的丰富数据,缓解目标领域数据稀疏造成的用户冷启动问题。在亚马逊电商平台真实数据集上进行了实验,结果表明,与最新算法相比,CAUT在用户对商品的评分预测均方根误差(RMSE)指标上有明显的提升,说明CAUT可有效缓解用户冷启动问题。
基于矢量量化编码的协同过滤推荐方法
王冠宇, 钟婷, 冯宇, 周帆
计算机科学. 2022, 49 (9): 48-54.  doi:10.11896/jsjkx.210700109
摘要 ( 1281 )   PDF(2538KB) ( 1072 )   
参考文献 | 相关文章 | 多维度评价
随着互联网的高速发展,海量数据涌现,使得推荐系统成为计算机科学领域的研究热点。变分自编码器已经被成功应用于协同过滤方法的设计中,并取得了出色的推荐效果。然而,以往基于变分自编码器的推荐模型存在一些问题,如对隐变量先验分布的约束以及“后验失效”等,这些问题降低了推荐模型的性能。为了解决这一问题,使变分自编码器模型更加适用于推荐任务,提出了一种基于矢量量化编码的协同过滤推荐方法。该方法采用离散的矢量编码代替变分自编码器从隐变量分布中直接取样获得编码,从观测数据中学习到一个离散的潜在表示,提高了编码的表示能力。在多个公开数据集上的性能评测结果显示,与现有方法相比,所提方法能够有效提升推荐性能。
基于全局增强图神经网络的序列推荐
周芳泉, 成卫青
计算机科学. 2022, 49 (9): 55-63.  doi:10.11896/jsjkx.210700085
摘要 ( 1744 )   PDF(2660KB) ( 1300 )   
参考文献 | 相关文章 | 多维度评价
已有基于会话的推荐系统大多根据最后一个点击的项目与当前会话的用户偏好的相关性进行推荐,忽略了在其他会话中可能包含了与当前会话相关的项目转换,这些项目转换可能对用户的当前偏好也有一定的影响,因此需要从局部会话和整体会话的角度来综合分析用户偏好;并且这些推荐系统大多忽略了位置信息的重要性,而与预测位置越近的项目可能与当前用户兴趣的相关性越高。针对这些问题,提出一种基于全局增强的图神经网络的推荐模型(GEL-GNN)。GEL-GNN旨在根据所有会话预测用户的行为,它使用GNN来捕获当前会话的全局和局部之间的关系,使用LSTM来捕获全局层面会话间的关系。首先,通过注意力机制层将用户的偏好表示为基于全局层面和局部层面会话兴趣的组合;然后,使用反向位置信息衡量当前位置和预测位置之间的距离,以便更加准确地预测用户行为。在3个真实的数据集上进行了大量的实验,实验结果表明GEL-GNN优于现有的基于会话的图神经网络推荐模型。
基于无监督集群级的科技论文异质图节点表示学习方法
宋杰, 梁美玉, 薛哲, 杜军平, 寇菲菲
计算机科学. 2022, 49 (9): 64-69.  doi:10.11896/jsjkx.220500196
摘要 ( 1119 )   PDF(2343KB) ( 1443 )   
参考文献 | 相关文章 | 多维度评价
科技论文数据的知识表征是一个有待解决的问题,而如何学习科技论文异质网络中论文节点的表示是解决这一问题的核心。文中提出了一种基于无监督集群级的科技论文异质图节点表示学习方法(Unsupervised Cluster-level Scientific Paper Heterogeneous Graph Node Representation Learning Method,UCHL),以获取科技论文异质图中节点(作者、机构与论文等)的表示。基于科技论文异质图表示对整个异质图进行链接预测,获取节点之间边的关系,即论文与论文之间的关联关系。实验结果表明,在真实的科技论文数据集上,所提方法在多项评测指标上都取得了更优的性能。
基于特征相似度聚类的空中目标分群方法
柴慧敏, 张勇, 方敏
计算机科学. 2022, 49 (9): 70-75.  doi:10.11896/jsjkx.210800203
摘要 ( 1247 )   PDF(2315KB) ( 1195 )   
参考文献 | 相关文章 | 多维度评价
针对采用聚类算法进行目标分群时需要给出聚类个数和对初始中心选择敏感的问题,提出了一种基于目标特征相似度聚类的分群方法。该方法首先计算目标间的相似度值,构建相似度矩阵;然后计算相似度矩阵的连通分支,获取群中心结构和孤立目标点,识别的群中心结构个数为聚类个数;最后将不属于群中心结构和孤立点的目标归类到与其最相近的群中心结构中,使得聚类过程不再过多地依赖于聚类初始中心的选择。实验结果表明,所提方法能够正确识别出多种形态的群中心结构,并能检测出孤立点,且目标聚类正确率均高于其他4种聚类算法。
基于异构网络表征学习的作者学术行为预测
黄丽, 朱焱, 李春平
计算机科学. 2022, 49 (9): 76-82.  doi:10.11896/jsjkx.210900078
摘要 ( 981 )   PDF(3031KB) ( 1070 )   
参考文献 | 相关文章 | 多维度评价
作者学术行为预测旨在从异构学术网络中挖掘作者的行为关系,以促进科研合作,产出高水平、高质量的研究成果。现有的节点表示方法大多未考虑节点的语义特征、内容特征、全局结构等,难以有效学习网络中节点的低维特性。为有效融合节点的多维特征和全局结构,提出了一种集成BiLSTM、注意力机制和聚类算法的异构网络表示学习方法HNEMA,以提高学术网络中作者的学术行为预测效果。HNEMA首先基于BiLSTM和注意力机制融合节点的多维特征,聚合同一元路径下或不同元路径下相同类型的邻居,随后聚合待表征节点的所有邻居的多维特征。基于此,采用聚类算法捕获节点的全局特征,从而全面有效地学习节点的低维特性。在全面特征学习的基础上,应用逻辑回归分类器预测作者的学术行为。在3个公开数据集上的验证实验结果表明,相比其他方法,HNEMA在AUC和F1指标上都有一定程度的提升。
一种基于节点稳定性和邻域相似性的社区发现算法
郑文萍, 刘美麟, 杨贵
计算机科学. 2022, 49 (9): 83-91.  doi:10.11896/jsjkx.220400146
摘要 ( 1157 )   PDF(3729KB) ( 1397 )   
参考文献 | 相关文章 | 多维度评价
复杂网络规模的增大导致网络中社区结构变得复杂,节点与社区之间的关系更多样化,有效度量大规模网络中节点邻域的社区构成,并对社区归属确定性有差异的节点分别进行处理,可以提高算法的社区发现质量。基于此,提出了一种基于节点稳定性和邻域相似性的社区发现算法(Node Stability and Neighbor Similarity Based Community Detection Algorithm,NSNSA)。首先定义节点的标签熵并对节点在社区发现过程中的稳定性进行度量,选择标签熵较低的节点作为稳定节点集;其次根据节点邻域的标签构成情况定义节点的邻域相似性,对节点与其邻居节点的社区归属一致性进行度量;然后利用稳定节点与其直接邻居中邻域相似性最高的节点构造初始网络,并在该子网络上运行标签传播算法,以得到可靠性较高的初始社区发现结果;最后将未聚类节点分配至与其Katz相似性最高的节点所在的社区,对小规模社区进行合并处理,以得到最终的社区划分结果。在真实网络及人工网络数据集上,与LPA,BGLL,Walktrap,Infomap,LPA-S等经典社区发现算法的对比实验表明,NSNSA算法在模块度以及标准互信息方面表现良好。
基于异质信息网的短文本特征扩充方法
吕晓锋, 赵书良, 高恒达, 武永亮, 张宝奇
计算机科学. 2022, 49 (9): 92-100.  doi:10.11896/jsjkx.210700241
摘要 ( 1072 )   PDF(2541KB) ( 954 )   
参考文献 | 相关文章 | 多维度评价
随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。
基于全变分比分隔距离的时序数据异常检测
徐天慧, 郭强, 张彩明
计算机科学. 2022, 49 (9): 101-110.  doi:10.11896/jsjkx.210600174
摘要 ( 1010 )   PDF(4093KB) ( 1481 )   
参考文献 | 相关文章 | 多维度评价
时序数据异常检测是数据分析的重要研究问题之一,其主要挑战在于利用数据点上下文准确判断数据是否存在异常,若存在异常则低时延定位该异常。现有检测方法通常利用概率密度比来度量序列间的相似性,以捕捉异常,这些方法需借助交叉验证法来估计概率密度比模型中的参数。交叉验证法会提高计算复杂度,导致计算效率较低,且存在较大检测时延。针对上述问题,提出了一种基于全变分比分隔距离的检测方法。该方法采用全变分提取序列波动特征,以此为基础计算全变分比分隔距离来度量序列间的相似性,从而提高计算效率,并实现低时延定位异常。针对噪声干扰问题,将检测方法与相对全变分相结合以增强检测方法的鲁棒性,从而进一步提高该方法的检测准确度。实验结果表明,该方法在检测准确度、低时延以及计算效率3个方面均取得了较好的效果。
计算机图形学&多媒体
基于自然语言的视频片段定位综述
聂秀山, 潘嘉男, 谭智方, 刘新放, 郭杰, 尹义龙
计算机科学. 2022, 49 (9): 111-122.  doi:10.11896/jsjkx.220500130
摘要 ( 1320 )   PDF(2218KB) ( 1249 )   
参考文献 | 相关文章 | 多维度评价
自然语言视频定位(Natural Language Video Localization,NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。
基于细粒度语义推理的跨媒体双路对抗哈希学习模型
曹晓雯, 梁美玉, 鲁康康
计算机科学. 2022, 49 (9): 123-131.  doi:10.11896/jsjkx.220600011
摘要 ( 851 )   PDF(3600KB) ( 1126 )   
参考文献 | 相关文章 | 多维度评价
跨媒体哈希因其优越的搜索效率和较低的存储成本而在跨媒体搜索任务中受到广泛关注。然而,现有方法无法充分保持多模态数据的高阶语义相关性和多标签语义信息,从而导致学习到的哈希编码的质量下降。为了解决上述问题,提出了基于细粒度语义推理的跨媒体双路对抗哈希(Semantic Reasoning Based Cross-media Dual-way Adversarial Hashing Learning Model,SDAH)学习模型,通过最大程度地挖掘不同模态间的细粒度语义关联,产生紧凑且一致的跨媒体统一高效哈希语义表示。首先,提出了基于跨媒体协同注意力机制的细粒度跨媒体语义关联学习和推理方法,基于跨媒体注意力机制协同学习图像和文本的细粒度隐含语义关联,获取图像和文本的显著性语义推理特征;然后,建立了跨媒体双路对抗哈希网络,通过联合学习模态内和模态间的语义相似性约束,并通过双路对抗学习机制更好地对齐不同模态哈希码的语义分布,产生更高质量和更具判别性的跨媒体统一哈希表示,促进了跨媒体语义融合,提升了跨媒体搜索性能。在两个公开数据集上与现有方法的对比实验结果验证了所提方法在各种跨媒体搜索场景下的优越性能。
基于对偶变分多模态注意力网络的不完备社会事件分类方法
周旭, 钱胜胜, 李章明, 方全, 徐常胜
计算机科学. 2022, 49 (9): 132-138.  doi:10.11896/jsjkx.220600022
摘要 ( 1062 )   PDF(2303KB) ( 938 )   
参考文献 | 相关文章 | 多维度评价
互联网的快速发展和社交媒体规模的不断扩大,带来丰富的社会事件资讯,社会事件分类任务越来越具有挑战性。充分利用图像级和文本级信息是社会事件分类的关键所在。然而,现存的方法大多存在以下局限性:1)现有的多模态方法大多都有一个理想的假设,即每种模态的样本都是充分和完整的,但在实际生活应用中这个假设并不总是成立,会存在事件某个模态缺失的情况;2)大部分方法只是简单地将社会事件的图像特征和文本特征串联起来,以此得到多模态特征来对社会事件进行分类,忽视了模态之间的语义鸿沟。为了应对这些挑战,提出了一种能同时处理完备与不完备社会事件分类的对偶变分多模态注意力网络(DVMAN)。在DVMAN网络中,提出了一个新颖的对偶变分自编码器网络来生成社会事件的公共表示,并进一步重构