Toggle navigation
计算机科学
首页
关于本刊
期刊介绍
学术指标
学术荣誉
编委会
主编
编委会成员
道德声明
OA政策
期刊订阅
联系我们
English
1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
作者中心
投稿/查询
投稿模板
处理流程
投稿指南
审稿中心
审稿登录
审稿专家申请
审稿要求/审稿单
编辑中心
编辑登录
数据库&大数据&数据科学
*
栏目所有文章列表
(按年度、期号倒序)
一年内发表的文章
|
两年内
|
三年内
|
全部
Please wait a minute...
选择:
导出引用
EndNote
Ris
BibTeX
显示/隐藏图片
Select
1.
基于图学习的推荐系统研究综述
程章桃, 钟婷, 张晟铭, 周帆
计算机科学 2022, 49 (
9
): 1-13. DOI:
10.11896/jsjkx.210900072
摘要
(
1389
)
PDF(pc)
(2404KB)(
1780
)
可视化
收藏
协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽取用户和物品的交互信息,从而进行用户推荐。近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐领域中的一种新兴的范式。文中从图学习角度对近年来推荐领域的研究进行系统性的回顾与总结。首先,根据数据类型将推荐场景分成两类,包括基于交互信息的推荐系统(将用户与物品交互数据作为关键数据源)和辅助信息增强的推荐系统(融入与用户和物品相关联的社交信息和知识图谱信息);其次,从随机游走、图表示学习和图神经网络方面入手,对不同推荐场景中的方法、关键技术、主要难点和重要进展进行回顾与总结;最后,总结关于图学习方法在推荐领域中面临的挑战和未来的主要研究方向。
参考文献
|
相关文章
|
多维度评价
Select
2.
数据流概念漂移处理方法研究综述
陈志强, 韩萌, 李慕航, 武红鑫, 张喜龙
计算机科学 2022, 49 (
9
): 14-32. DOI:
10.11896/jsjkx.210700112
摘要
(
304
)
PDF(pc)
(2484KB)(
517
)
可视化
收藏
目前非稳态数据流中的概念漂移愈来愈呈现出不同速度、不同空间分布的趋势,给数据挖掘、机器学习等诸多领域带来了极大的挑战。近二十年来,许多致力于在非稳态数据流中处理概念漂移的技术方法被提出。从一种新颖的角度,分别针对主动检测的显式方法和被动自适应的隐式方法对目前的概念漂移处理技术方法进行了全面的阐述。首先,从处理某一特定类型和多种类型的概念漂移的角度对主动检测方法进行了分析,并从单学习器和集成学习的角度对被动自适应方法进行了分析;其次,对诸多概念漂移处理方法的对比算法、学习模型、适用漂移类型、算法的优缺点进行了全面总结;最后给出了未来的研究方向,包括类不平衡的数据流概念漂移处理方法、含新颖类的概念漂移数据流处理方法、含噪声的数据流概念漂移处理方法等方面。
参考文献
|
相关文章
|
多维度评价
Select
3.
生成链接树:一种高数据真实性的反事实解释生成方法
王明, 武文芳, 王大玲, 冯时, 张一飞
计算机科学 2022, 49 (
9
): 33-40. DOI:
10.11896/jsjkx.220300158
摘要
(
245
)
PDF(pc)
(3156KB)(
454
)
可视化
收藏
超大的数据规模及结构复杂的深度模型在互联网数据的处理与应用方面表现出了优异的性能,但降低了人工智能(Artificial Intelligence,AI)系统的可解释性。反事实解释(Counterfactual Explanations,CE)作为可解释性领域研究中一种特殊的解释方法,受到了很多研究者的关注。反事实解释除了作为解释外,也可以被视为一种生成的数据。从应用角度出发,文中提出了一种生成具有高数据真实性反事实解释的方法,称为生成链接树(Generative Link Tree,GLT),采用分治策略与局部贪心策略,依据训练数据中出现的案例生成反事实解释。文中对反事实解释的生成方法进行了总结并选取了其中热门的数据集来验证GLT方法。此外,提出“数据真实性(Data Fidelity,DF)”的指标,用于评估反事实解释作为数据的有效性和潜在应用能力。与基线方法相比,GLT生成的反事实解释数据的真实性明显高于基线模型所生成的反事实解释。
参考文献
|
相关文章
|
多维度评价
Select
4.
基于评论方面级用户偏好迁移的跨领域推荐算法
张佳, 董守斌
计算机科学 2022, 49 (
9
): 41-47. DOI:
10.11896/jsjkx.220200131
摘要
(
324
)
PDF(pc)
(2388KB)(
485
)
可视化
收藏
为解决推荐系统中数据稀疏造成的用户冷启动问题,文中提出了一种基于方面级用户偏好迁移的跨领域推荐算法(Cross-Domain Recommendation via Review Aspect-Level User Preference Transfer,CAUT),设计了基于两阶段生成对抗网络的用户方面级偏好跨领域迁移结构,通过用户历史评论挖掘用户细粒度方面级偏好。CAUT利用预训练源领域编码器参数对目标领域编码器进行参数初始化,在固定源领域编码器参数的同时引入领域鉴别器,以解决源领域与目标领域数据分布差异的问题,进而可以有效利用源领域的丰富数据,缓解目标领域数据稀疏造成的用户冷启动问题。在亚马逊电商平台真实数据集上进行了实验,结果表明,与最新算法相比,CAUT在用户对商品的评分预测均方根误差(RMSE)指标上有明显的提升,说明CAUT可有效缓解用户冷启动问题。
参考文献
|
相关文章
|
多维度评价
Select
5.
基于矢量量化编码的协同过滤推荐方法
王冠宇, 钟婷, 冯宇, 周帆
计算机科学 2022, 49 (
9
): 48-54. DOI:
10.11896/jsjkx.210700109
摘要
(
153
)
PDF(pc)
(2538KB)(
199
)
可视化
收藏
随着互联网的高速发展,海量数据涌现,使得推荐系统成为计算机科学领域的研究热点。变分自编码器已经被成功应用于协同过滤方法的设计中,并取得了出色的推荐效果。然而,以往基于变分自编码器的推荐模型存在一些问题,如对隐变量先验分布的约束以及“后验失效”等,这些问题降低了推荐模型的性能。为了解决这一问题,使变分自编码器模型更加适用于推荐任务,提出了一种基于矢量量化编码的协同过滤推荐方法。该方法采用离散的矢量编码代替变分自编码器从隐变量分布中直接取样获得编码,从观测数据中学习到一个离散的潜在表示,提高了编码的表示能力。在多个公开数据集上的性能评测结果显示,与现有方法相比,所提方法能够有效提升推荐性能。
参考文献
|
相关文章
|
多维度评价
Select
6.
基于全局增强图神经网络的序列推荐
周芳泉, 成卫青
计算机科学 2022, 49 (
9
): 55-63. DOI:
10.11896/jsjkx.210700085
摘要
(
193
)
PDF(pc)
(2660KB)(
264
)
可视化
收藏
已有基于会话的推荐系统大多根据最后一个点击的项目与当前会话的用户偏好的相关性进行推荐,忽略了在其他会话中可能包含了与当前会话相关的项目转换,这些项目转换可能对用户的当前偏好也有一定的影响,因此需要从局部会话和整体会话的角度来综合分析用户偏好;并且这些推荐系统大多忽略了位置信息的重要性,而与预测位置越近的项目可能与当前用户兴趣的相关性越高。针对这些问题,提出一种基于全局增强的图神经网络的推荐模型(GEL-GNN)。GEL-GNN旨在根据所有会话预测用户的行为,它使用GNN来捕获当前会话的全局和局部之间的关系,使用LSTM来捕获全局层面会话间的关系。首先,通过注意力机制层将用户的偏好表示为基于全局层面和局部层面会话兴趣的组合;然后,使用反向位置信息衡量当前位置和预测位置之间的距离,以便更加准确地预测用户行为。在3个真实的数据集上进行了大量的实验,实验结果表明GEL-GNN优于现有的基于会话的图神经网络推荐模型。
参考文献
|
相关文章
|
多维度评价
Select
7.
基于无监督集群级的科技论文异质图节点表示学习方法
宋杰, 梁美玉, 薛哲, 杜军平, 寇菲菲
计算机科学 2022, 49 (
9
): 64-69. DOI:
10.11896/jsjkx.220500196
摘要
(
138
)
PDF(pc)
(2343KB)(
228
)
可视化
收藏
科技论文数据的知识表征是一个有待解决的问题,而如何学习科技论文异质网络中论文节点的表示是解决这一问题的核心。文中提出了一种基于无监督集群级的科技论文异质图节点表示学习方法(Unsupervised Cluster-level Scientific Paper Heterogeneous Graph Node Representation Learning Method,UCHL),以获取科技论文异质图中节点(作者、机构与论文等)的表示。基于科技论文异质图表示对整个异质图进行链接预测,获取节点之间边的关系,即论文与论文之间的关联关系。实验结果表明,在真实的科技论文数据集上,所提方法在多项评测指标上都取得了更优的性能。
参考文献
|
相关文章
|
多维度评价
Select
8.
基于特征相似度聚类的空中目标分群方法
柴慧敏, 张勇, 方敏
计算机科学 2022, 49 (
9
): 70-75. DOI:
10.11896/jsjkx.210800203
摘要
(
124
)
PDF(pc)
(2315KB)(
213
)
可视化
收藏
针对采用聚类算法进行目标分群时需要给出聚类个数和对初始中心选择敏感的问题,提出了一种基于目标特征相似度聚类的分群方法。该方法首先计算目标间的相似度值,构建相似度矩阵;然后计算相似度矩阵的连通分支,获取群中心结构和孤立目标点,识别的群中心结构个数为聚类个数;最后将不属于群中心结构和孤立点的目标归类到与其最相近的群中心结构中,使得聚类过程不再过多地依赖于聚类初始中心的选择。实验结果表明,所提方法能够正确识别出多种形态的群中心结构,并能检测出孤立点,且目标聚类正确率均高于其他4种聚类算法。
参考文献
|
相关文章
|
多维度评价
Select
9.
基于异构网络表征学习的作者学术行为预测
黄丽, 朱焱, 李春平
计算机科学 2022, 49 (
9
): 76-82. DOI:
10.11896/jsjkx.210900078
摘要
(
106
)
PDF(pc)
(3031KB)(
212
)
可视化
收藏
作者学术行为预测旨在从异构学术网络中挖掘作者的行为关系,以促进科研合作,产出高水平、高质量的研究成果。现有的节点表示方法大多未考虑节点的语义特征、内容特征、全局结构等,难以有效学习网络中节点的低维特性。为有效融合节点的多维特征和全局结构,提出了一种集成BiLSTM、注意力机制和聚类算法的异构网络表示学习方法HNEMA,以提高学术网络中作者的学术行为预测效果。HNEMA首先基于BiLSTM和注意力机制融合节点的多维特征,聚合同一元路径下或不同元路径下相同类型的邻居,随后聚合待表征节点的所有邻居的多维特征。基于此,采用聚类算法捕获节点的全局特征,从而全面有效地学习节点的低维特性。在全面特征学习的基础上,应用逻辑回归分类器预测作者的学术行为。在3个公开数据集上的验证实验结果表明,相比其他方法,HNEMA在AUC和F1指标上都有一定程度的提升。
参考文献
|
相关文章
|
多维度评价
Select
10.
一种基于节点稳定性和邻域相似性的社区发现算法
郑文萍, 刘美麟, 杨贵
计算机科学 2022, 49 (
9
): 83-91. DOI:
10.11896/jsjkx.220400146
摘要
(
125
)
PDF(pc)
(3729KB)(
271
)
可视化
收藏
复杂网络规模的增大导致网络中社区结构变得复杂,节点与社区之间的关系更多样化,有效度量大规模网络中节点邻域的社区构成,并对社区归属确定性有差异的节点分别进行处理,可以提高算法的社区发现质量。基于此,提出了一种基于节点稳定性和邻域相似性的社区发现算法(Node Stability and Neighbor Similarity Based Community Detection Algorithm,NSNSA)。首先定义节点的标签熵并对节点在社区发现过程中的稳定性进行度量,选择标签熵较低的节点作为稳定节点集;其次根据节点邻域的标签构成情况定义节点的邻域相似性,对节点与其邻居节点的社区归属一致性进行度量;然后利用稳定节点与其直接邻居中邻域相似性最高的节点构造初始网络,并在该子网络上运行标签传播算法,以得到可靠性较高的初始社区发现结果;最后将未聚类节点分配至与其Katz相似性最高的节点所在的社区,对小规模社区进行合并处理,以得到最终的社区划分结果。在真实网络及人工网络数据集上,与LPA,BGLL,Walktrap,Infomap,LPA-S等经典社区发现算法的对比实验表明,NSNSA算法在模块度以及标准互信息方面表现良好。
参考文献
|
相关文章
|
多维度评价
Select
11.
基于异质信息网的短文本特征扩充方法
吕晓锋, 赵书良, 高恒达, 武永亮, 张宝奇
计算机科学 2022, 49 (
9
): 92-100. DOI:
10.11896/jsjkx.210700241
摘要
(
95
)
PDF(pc)
(2541KB)(
128
)
可视化
收藏
随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。
参考文献
|
相关文章
|
多维度评价
Select
12.
基于全变分比分隔距离的时序数据异常检测
徐天慧, 郭强, 张彩明
计算机科学 2022, 49 (
9
): 101-110. DOI:
10.11896/jsjkx.210600174
摘要
(
105
)
PDF(pc)
(4093KB)(
172
)
可视化
收藏
时序数据异常检测是数据分析的重要研究问题之一,其主要挑战在于利用数据点上下文准确判断数据是否存在异常,若存在异常则低时延定位该异常。现有检测方法通常利用概率密度比来度量序列间的相似性,以捕捉异常,这些方法需借助交叉验证法来估计概率密度比模型中的参数。交叉验证法会提高计算复杂度,导致计算效率较低,且存在较大检测时延。针对上述问题,提出了一种基于全变分比分隔距离的检测方法。该方法采用全变分提取序列波动特征,以此为基础计算全变分比分隔距离来度量序列间的相似性,从而提高计算效率,并实现低时延定位异常。针对噪声干扰问题,将检测方法与相对全变分相结合以增强检测方法的鲁棒性,从而进一步提高该方法的检测准确度。实验结果表明,该方法在检测准确度、低时延以及计算效率3个方面均取得了较好的效果。
参考文献
|
相关文章
|
多维度评价
Select
13.
基于热点数据的持久性内存索引查询加速
刘高聪, 罗永平, 金培权
计算机科学 2022, 49 (
8
): 26-32. DOI:
10.11896/jsjkx.210700176
摘要
(
319
)
PDF(pc)
(2090KB)(
615
)
可视化
收藏
非易失性内存(Non-Volatile Memory,NVM),也被称为持久性内存(Persistent Memory,PM),具有按位寻址、持久性、存储密度高、低延迟等特点。虽然NVM的延迟远小于闪存,但高于DRAM(Dynamic Random Access Memory)。此外,NVM还有读写不均衡、写次数有限等不足。因此,目前NVM还无法完全代替DRAM。一种更为合理的方法是利用NVM构建基于DRAM+NVM的混合内存架构。文中针对NVM和DRAM构成的混合内存架构,着重研究了基于热点数据的持久性内存索引加速方法。具体而言,以数据访问中的倾斜性特征为基础,利用DRAM的低延迟和NVM的持久性与高存储密度,提出了在持久性内存索引的基础上增加基于DRAM的热点数据缓存,进而提出了可以根据热点数据的变化自动调整缓存的查询自适应索引方法。将所提方法应用到多种持久性内存索引上,包括wBtree,FPTree以及Fast&Fair,并进行了对比实验。结果表明,当热点数据访问达到总访问次数的80%时,所提索引加速方法在3种索引上的查询性能分别取得了52%,33%,37%的提升。
参考文献
|
相关文章
|
多维度评价
Select
14.
基于神经架构搜索的点击率预测模型
帅剑波, 王金策, 黄飞虎, 彭舰
计算机科学 2022, 49 (
7
): 10-17. DOI:
10.11896/jsjkx.210600009
摘要
(
331
)
PDF(pc)
(3010KB)(
510
)
可视化
收藏
点击率(Click-Through Rate,CTR)预测是推荐系统中一项重要的任务,其目标是预测用户点击一个广告或者商品的概率。特征嵌入和特征组合是影响预测性能的关键,因此很多点击率预测模型的思路也是针对这两个方面进行优化。但目前大部分工作仅关注其中一个方面,并且几乎所有的模型在进行特征组合时都没有对特征进行区分,同一个特征与其他特征组合时都使用相同的嵌入和组合方法,阻碍了模型性能的提升。为解决该问题,提出了Auto-SEI(Automatic Super-field-aware Feature Embedding and Interacting)模型。该模型先将每个特征子域分配给一个特征超域,再根据分组得到特征的嵌入,然后为特征对选择合适的组合方法获取组合特征,最后进行预测。Auto-SEI模型中,特征子域的划分和组合方法的选择被参数化为架构搜索问题,利用神经架构搜索(Neural Architecture Search,NAS)算法压缩搜索空间并进行选择。在3个真实的大规模数据集上进行了大量实验,结果表明Auto-SEI 模型在点击率预测任务上具有优秀的性能。
参考文献
|
相关文章
|
多维度评价
Select
15.
基于概率元学习的矩阵补全预测融合算法
齐秀秀, 王佳昊, 李文雄, 周帆
计算机科学 2022, 49 (
7
): 18-24. DOI:
10.11896/jsjkx.210600126
摘要
(
241
)
PDF(pc)
(2156KB)(
425
)
可视化
收藏
随着互联网社交媒体规模的飞速发展,利用推荐算法对海量信息进行有效建模筛选和过滤,成为了研究用户行为偏好、热点倾向和网络安全态势等问题的关键。随着深度学习的发展,图神经网络模型在解决推荐系统应用中的密集型图结构数据时取得了较好效果。协同过滤算法作为得到最广泛应用的推荐算法,其利用用户-项目的群体交互数据来预测用户未来的偏好与项目评级。但现有的推荐算法仍面临着数据稀疏和冷启动问题,且缺少对不确定性的良好量化。文中提出了一种基于概率元学习的归纳矩阵补全预测融合算法(MetaIMC),该算法从贝叶斯推断的角度重新对元学习进行表征,构建了稳健的图深度神经网络元学习模型,充分利用数据先验知识提出从稀疏数据中学习新任务的解决方案。首先,MetaIMC可以有效地利用变分贝叶斯推理获得先验分布,缓解元模型任务训练中的不确定性和模糊性问题,进一步提升了模型的泛化能力;其次,在不借助任何用户边信息的情况下,实现新用户推荐的冷启动;最后,在传统矩阵补全及用户冷启动两个场景下,利用Flixster,Douban和Yahoo_music 3个公开数据集对模型的性能进行了评估,验证了MetaIMC在面对传统矩阵补全任务时的有效性,并在冷启动问题上达到了最优的效果。
参考文献
|
相关文章
|
多维度评价
Select
16.
基于聚类分区的多维数据流概念漂移检测方法
陈圆圆, 王志海
计算机科学 2022, 49 (
7
): 25-30. DOI:
10.11896/jsjkx.210600155
摘要
(
228
)
PDF(pc)
(2469KB)(
373
)
可视化
收藏
对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的
k
-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。
参考文献
|
相关文章
|
多维度评价
Select
17.
基于Bi-LSTM的期货市场关联交易行为检测方法
张源, 康乐, 宫朝辉, 张志鸿
计算机科学 2022, 49 (
7
): 31-39. DOI:
10.11896/jsjkx.210400304
摘要
(
182
)
PDF(pc)
(3425KB)(
289
)
可视化
收藏
随着期货市场的不断发展,其交易量屡创新高,但在海量交易的背后,一些交易者利用关联交易行为对市场进行操纵,扰乱了交易秩序,给市场监管和风险控制带来了严峻考验。因此,如何从海量交易中挖掘潜在关联交易行为成为维护期货市场公平交易的重要任务。针对该问题,提出了一种多特征信息融合的双向长短期记忆(Bi-LSTM)网络模型,从原始数据中提取交易时间、交易量、持仓变化、期货品种等多种维度的浅层特征信息,通过Bi-LSTM网络模型从时间序列上向前、向后两个方向的上下文关系学习深层特征,实现关联交易行为检测。针对浅层特征提取提出了一种基于交易行为的多粒度窗口特征提取方法,从日、小时、分钟、秒等级别捕捉账户间交易的关联性,从而解决了原始交易数据维度高、数据量大、关联性弱的问题。模型引入了Dropout策略,缓解了收敛速度慢和过拟合的问题。在郑州商品交易所真实数据上的实验结果表明,与一些传统的分类模型以及RNN和LSTM网络相比,所提方法在分类的准确率和召回率上有明显提升,同时,对特征中各个维度信息的消解实验证明了多特征融合方法和多粒度窗口策略的有效性。另外,抽取了两种期货品种的交易数据进行测试,结果表明所提模型具有良好的泛化能力。
参考文献
|
相关文章
|
多维度评价
Select
18.
嵌入典型时间序列特征的随机Shapelet森林算法
高振卓, 王志海, 刘海洋
计算机科学 2022, 49 (
7
): 40-49. DOI:
10.11896/jsjkx.210700226
摘要
(
133
)
PDF(pc)
(2876KB)(
2304
)
可视化
收藏
近年来,时间序列分类问题的研究受到了广泛关注。先进的时间序列分类方法通常建立在良好的特征表示的基础之上。Shapelet是时间序列中具备鉴别性的子序列,可有效表达时间序列的局部形状特征。然而,高昂的计算成本大大限制了基于Shapelet的时间序列分类方法的实用性。除此之外,传统的Shapelet仅能描述欧氏距离度量下子序列的形状特征,因此极易受到噪声干扰并难以挖掘子序列中蕴含的其他类型的鉴别性信息。为应对上述问题,提出了一种新的时间序列分类算法——嵌入典型时间序列特征的随机Shapelet森林。该算法基于以下3个关键策略:1)随机选取Shapelet并限制Shapelet的作用范围以提高效率;2)在Shapelet中嵌入多个典型时间序列特征以提高算法对不同分类问题的适应性,并弥补随机选取Shapelet带来的精度损失;3)在新的特征表示的基础上构建随机森林分类器以确保算法的泛化能力。112个UCR时间序列数据集上的实验结果表明,本文算法的准确性超越了基于Shapelet精确搜索和Shapelet转换技术的STC算法,以及多个其他类型的先进时间序列分类算法。此外,广泛的实验对比验证了本文算法在效率上的显著优势。
参考文献
|
相关文章
|
多维度评价
Select
19.
基于评分区域子空间的协同过滤推荐算法
孙晓寒, 张莉
计算机科学 2022, 49 (
7
): 50-56. DOI:
10.11896/jsjkx.210600062
摘要
(
134
)
PDF(pc)
(2625KB)(
219
)
可视化
收藏
协同过滤推荐算法因其合理的可解释性以及简单的实现过程而被广泛应用。然而,在推荐系统中数据集通常具有规模大、稀疏度和维度高等特点,这些特点给协同过滤推荐算法带来了很大的挑战。为了缓解上述问题,提出了一种基于评分区域子空间的协同过滤推荐算法。基于用户-项目评分矩阵,该算法首先将评分范围划分为3个区域,即高评分区域、中评分区域以及低评分区域,根据这3个区域分别为每个用户寻找其项目子空间,即高评分子空间、中评分子空间以及低评分子空间。其次,定义了一种新的相似度计算方式,在各区域子空间中分别计算用户之间的评分支持度,只有当用户在各个子空间上的评分支持度都很高时,用户之间才是相似的。这种方式避免了惰性评分用户的评分干扰。实验结果表明,该算法能够在一定程度上解决数据稀疏性问题,特别是针对高维数据能降低其计算复杂度,并提高其推荐性能。
参考文献
|
相关文章
|
多维度评价
Select
20.
基于数据增广和模型集成策略的图神经网络在抑郁症识别上的应用
杨炳新, 郭艳蓉, 郝世杰, 洪日昌
计算机科学 2022, 49 (
7
): 57-63. DOI:
10.11896/jsjkx.210800070
摘要
(
178
)
PDF(pc)
(2620KB)(
315
)
可视化
收藏
目前对抑郁症的主流诊断方式是通过医生和患者之间的沟通交流来填写相关的问卷量表,这需要相应的临床知识并且诊断结果存在主观性,给抑郁症诊断带来了很多挑战。利用信息处理技术对生理信号进行分析,构建精准客观的辅助诊断模型具有重要价值,然而目前抑郁症辅助诊断的公共数据集普遍存在样本偏少的情况,使得辅助诊断的精度普遍偏低。基于此,文中提出了一种基于数据增广和模型集成策略的图神经网络的抑郁症识别方法,该方法利用53位受试者的128通道脑电信号(Electroencephalogram,EEG),对采集到的脑电信号进行数据切分并将其用于数据增广后,利用皮尔逊相关系数计算不同通道之间的相关度,从而构造脑网络,并利用图神经网络学习脑网络的特征,然后将得到的预测结果利用模型集成策略进行多数投票,得到受试者最终的预测结果。经过实验证明,所提方法提高了网络的分类能力,解决了因样本小而带来的分类能力差的问题,在兰州大学普适感知与智能系统实验室提供的MODMA数据集(包含24名抑郁症患者和29名正常对照组)上取得了77%的分类准确率,与其他方法相比,所提方法的分类准确率有明显的提升。
参考文献
|
相关文章
|
多维度评价
Select
21.
基于聚类和WOA的并行支持向量机算法
刘卫明, 安冉, 毛伊敏
计算机科学 2022, 49 (
7
): 64-72. DOI:
10.11896/jsjkx.210500040
摘要
(
105
)
PDF(pc)
(2356KB)(
178
)
可视化
收藏
针对并行SVM在大数据环境下对冗余数据敏感、参数寻优能力差以及并行过程中出现的负载不均衡等问题,提出了一种基于聚类算法和鲸鱼优化算法的并行支持向量机算法MR-KWSVM。首先,该算法提出KF策略来删减冗余数据,利用删减冗余数据后的数据集训练SVM,降低SVM对冗余数据的敏感性;其次,提出了基于非线性收敛因子和自适应惯性权重的鲸鱼智能优化算法IW-BNAW,利用“IW-BNAW”算法获取SVM的最优参数,提高支持向量机的参数寻优能力;最后,在利用MapReduce构造并行SVM的过程中,提出时间反馈策略用于reduce节点的负载调度,提高了集群的并行效率,实现了高并行的SVM。实验结果表明,所提算法不仅保证了SVM在大数据环境下的高并行计算能力,SVM的分类准确度也有明显提高,并且具有更好的泛化性能。
参考文献
|
相关文章
|
多维度评价
Select
22.
一种用于癌症分类的两阶段深度特征选择提取算法
胡艳羽, 赵龙, 董祥军
计算机科学 2022, 49 (
7
): 73-78. DOI:
10.11896/jsjkx.210500092
摘要
(
145
)
PDF(pc)
(2322KB)(
215
)
可视化
收藏
癌症是世界上最致命的疾病之一。利用机器学习处理基因微阵列数据集(Microarray Data)对于协助癌症的早期诊断具有重要作用,但微阵列数据集中基因特征的数目远大于样本数目,造成样本不平衡,影响了分类的效率和精度,因此对基因阵列数据进行特征选择就显得尤为重要。现有的特征选择算法多为单一条件的特征选择,很少考虑特征提取,且大多采用存在已久的神经网络,分类精度较低。因此,文中提出了一种两阶段深度特征选择(Two-Stage Deep Feature Selection,TSDFS)算法。第一阶段集成3种特征选择算法进行全面的特征选择,得到特征子集;第二阶段使用非监督神经网络获得特征子集的最佳表示,进而提高最终的分类精度。通过特征选择前后的分类效果和不同特征选择算法之间的对比来分析TSDFS的有效性,实验结果表明,TSDFS在减少特征数目的同时保持或者提高了分类的精度。
参考文献
|
相关文章
|
多维度评价
Select
23.
基于大数据的进化网络影响力分析研究综述
何强, 尹震宇, 黄敏, 王兴伟, 王源田, 崔硕, 赵勇
计算机科学 2022, 49 (
8
): 1-11. DOI:
10.11896/jsjkx.210700240
摘要
(
466
)
PDF(pc)
(2110KB)(
723
)
可视化
收藏
社交影响力分析能够在社交网络中执行复杂行为分析,是现代信息和服务行业最重要的技术之一,越来越多的社交网络研究者把关注点放在社交影响力上。真实的社交网络是不断演化的而非静态的,进化网络的提出也带来了新的挑战和机遇,同时进化网络中海量的社交信息也为大数据分析技术的快速发展提供了强有力的支撑。文中对进化网络和影响最大化问题进行了论述,并讨论了社交影响力分析问题的传播模型和基于社交网络大数据的影响力分析方法,同时进一步整理了一些应用广泛的影响力算法。此外,还论述了大数据、进化网络与社交影响力最大化的关系。文中的目标是通过大规模社交网络中的影响力分析,帮助其他研究人员更好地理解现有的工作,为社交网络影响力分析提供新的思路。
参考文献
|
相关文章
|
多维度评价
Select
24.
监督和半监督学习下的多标签分类综述
武红鑫, 韩萌, 陈志强, 张喜龙, 李慕航
计算机科学 2022, 49 (
8
): 12-25. DOI:
10.11896/jsjkx.210700111
摘要
(
534
)
PDF(pc)
(3598KB)(
939
)
可视化
收藏
传统的多标签分类算法大多数采用监督学习的方式,但现实生活中有许多数据没有被标记。通过人工的方式对需要的全部数据进行标记耗费的成本较高。半监督学习算法可以使用大量未标记数据和标记数据来进行工作,因此受到了人们的重视。文中首次从监督和半监督学习的角度对多标签分类算法进行阐述,同时全面地对多标签分类算法的应用领域进行了总结。从决策树、贝叶斯、支持向量机、神经网络和集成等多个方向对标签非相关性和标签相关性的监督学习算法进行概述,从批处理和在线的方向对半监督学习算法进行综述,从图像分类、文本分类和其他等角度对多标签的实际应用领域进行介绍。文中还简要分析了多标签的评估指标,最后给出了关于半监督学习下的复杂概念漂移处理、特征选择处理、标签复杂相关性处理和类不平衡处理的研究方向。
参考文献
|
相关文章
|
多维度评价
Select
25.
基于时空注意力克里金的边坡形变数据插值方法
黎嵘繁, 钟婷, 吴劲, 周帆, 匡平
计算机科学 2022, 49 (
8
): 33-39. DOI:
10.11896/jsjkx.210600161
摘要
(
255
)
PDF(pc)
(2740KB)(
530
)
可视化
收藏
山体滑坡每年都会对人们的生命财产安全造成重大损失,是常见的地质灾害之一。为了对山体滑坡进行防控,需要广泛地监测山体表面的沉降过程,但是由于恶劣气候和监测成本等难以克服的困难,山体沉降数据的收集呈现出局部数据不完整、数据采样不均衡和监测点动态变化等特点,使得山体滑坡的防控研究受到阻碍,给数据的采集和分析工作提出了新的要求。现有方法从空间角度对缺失进行补充,但忽略了时间维度的依赖关系。为了解决上述问题,对不完整的INSAR数据填充进行了研究,利用时空掩码矩阵对时空依赖关系进行建模,利用多头注意力对多层次的空间关系进行综合学习,并在克里金法(Kriging)的基础上提出了新的使用时空注意力的克里金插值法,实现了对复杂时空特征的深层理解。在真实数据集上的数据恢复实验验证了该算法可以有效地学习复杂的时空特征,并在3种不同的数据缺失情景下都取得了优于现存插值算法的表现。
参考文献
|
相关文章
|
多维度评价
Select
26.
基于多时间尺度时空图网络的交通流量预测模型
汪鸣, 彭舰, 黄飞虎
计算机科学 2022, 49 (
8
): 40-48. DOI:
10.11896/jsjkx.220100188
摘要
(
253
)
PDF(pc)
(3049KB)(
618
)
可视化
收藏
交通流预测在智能交通系统的建设中起着关键作用。但由于其复杂的时空依赖性和本身的不确定性使得研究变得极具挑战性。现有的一些方法主要是将单一的时间序列输入到循环神经网络以捕获时间依赖性,而且多数模型仅对时间模块和空间模块进行简单的堆叠,导致不能有效地融合时间和空间特征。为了解决以上问题,文中提出了一个多时间尺度时空图网络模型。模型先将序列数据划分为3种时间尺度序列,然后将序列输入到时空块(ST-Block)中提取数据的时空依赖性,最后进行预测。在时空块中使用图卷积网络和变体Transformer分别捕获数据中的时间和空间依赖性,并通过门控融合机制将两者提取到的特征进行融合。在两个真实的数据集上分别进行了短期和长期的预测实验,结果表明了MTSTGNN模型在交通流预测任务上的优秀性能。
参考文献
|
相关文章
|
多维度评价
Select
27.
基于物理操作级模型的查询执行时间预测方法
王润安, 邹兆年
计算机科学 2022, 49 (
8
): 49-55. DOI:
10.11896/jsjkx.210700074
摘要
(
136
)
PDF(pc)
(3008KB)(
237
)
可视化
收藏
查询执行时间预测(Query Performance Prediction,QPP)是数据库系统中一个重要的研究问题。当数据库系统中存在并发执行的事务时,现有的QPP方法无法在不改变数据库查询性能的前提下建立准确的QPP模型。为此,提出了一种基于物理操作的查询执行时间预测新方法,该方法以查询的物理操作为单位建立单元预测模型,根据查询计划将单元预测模型组合为完整的QPP模型,把能够刻画数据库系统并发状态的统计信息纳入模型的输入特征。所提方法只须使用DBMS提供的基本手段即可获取构建模型所需的数据库统计信息,无须改变DBMS,也不会影响数据库系统上原有工作负载的执行。实验结果表明,所提方法无论在OLTP还是OLAP应用中,在不同的查询计划和并发度下的预测准确性均高于其他对比方法。
参考文献
|
相关文章
|
多维度评价
Select
28.
RIIM:基于独立模型的在线缺失值填补
李霞, 马茜, 白梅, 王习特, 李冠宇, 宁博
计算机科学 2022, 49 (
8
): 56-63. DOI:
10.11896/jsjkx.210600180
摘要
(
117
)
PDF(pc)
(3257KB)(
198
)
可视化
收藏
随着数据来源的不断丰富,数据的获取变得愈发容易,但质量难以得到保证,从而导致缺失值在真实数据集中普遍存在且难以避免,缺失值填补也就成为数据质量管理领域的经典问题之一。目前,大多数的缺失值填补算法均是针对静态数据提出的,并不适用于高速到达的动态数据流,且现有算法大多未同时考虑数据的稀疏性和异构性问题。基于此,文中提出了一种新的基于独立模型的在线缺失值填补算法RIIM。该算法同时考虑了数据的稀疏性和异构性问题,并结合近邻填补和回归填补的基本思想对缺失值进行有效填补。首先,针对数据的动态实时性,提出了高效的填补模型增量更新算法;其次,针对数据近邻查找时间代价高以及近邻个数难以确定的问题,提出了最优近邻自适应周期性更新策略;最后基于真实数据集通过大量实验验证了所提算法的有效性。
参考文献
|
相关文章
|
多维度评价
Select
29.
基于知识图谱的层次粒化推荐方法
秦琪琦, 张月琴, 王润泽, 张泽华
计算机科学 2022, 49 (
8
): 64-69. DOI:
10.11896/jsjkx.210600111
摘要
(
189
)
PDF(pc)
(2724KB)(
358
)
可视化
收藏
基于图神经网络的推荐系统是当前数据挖掘应用的研究热点。在异质信息网络(Heterogeneous Information Network,HIN)上结合图神经网络进行推荐,可通过用户的关联信息来学习用户的偏好,从而提升推荐性能。但现有基于HIN的推荐方法大多存在不能有效地解释高阶建模结果及人工设计元路径需要相关领域知识的问题。因此,结合层次粒化思想,在异质推荐过程中引入知识图谱,提出一种基于知识图谱的异质推荐方法(Heterogeneous Recommendation Methods for Knowledge Graphs,HKR)。该方法首先结合知识图谱,对局部上下文和非局部上下文进行层次粒化,分别学习用户特征的粗粒度表示;然后基于门控机制结合局部和非局部的属性节点嵌入,进一步学习用户和项目之间的潜在特征;最后将细粒度的特征融合用于推荐。在真实的大规模数据集上的实验结果表明,所提方法的性能在多方面评测上均优于目前的基于知识图谱的图神经网络推荐方法。
参考文献
|
相关文章
|
多维度评价
Select
30.
基于自注意力机制和迁移学习的跨领域推荐算法
方义秋, 张震坤, 葛君伟
计算机科学 2022, 49 (
8
): 70-77. DOI:
10.11896/jsjkx.210600011
摘要
(
236
)
PDF(pc)
(2520KB)(
383
)
可视化
收藏
传统的单领域推荐算法受限于用户和项目的稀疏关系,存在用户/项目冷启动的问题,并且,其仅以用户对项目评分进行建模,忽略了评论文本中所蕴含的信息。基于评论文本的跨领域推荐算法在辅助领域提取用户/项目的评论信息来缓解目标领域的数据稀疏问题,以提高推荐的准确率。文中提出了结合自注意力机制和迁移学习的跨领域推荐算法SAMTL(Self-Attention Mechanism and Transfer Learning)。与现有算法不同,SAMTL充分融合了目标领域和辅助领域的知识。首先,引入自注意力机制建模用户的喜好信息;其次,通过交叉映射跨域传输网络实现借助一个领域的信息来提高另一个领域的推荐准确率;最后,在知识融合模块和评分预测模块整合两个域的信息,进行评分预测。在Amazon数据集上的实验表明,与现有的跨领域推荐模型相比,SAMTL的
MAE
和
MSE
值更高,在3种不同的跨领域数据集上的
MAE
值分别提高了8.4%,13.2%和19.4%,
MSE
值分别提高了6.3%,7.8%和5.6%。通过多项实验验证了自注意力机制和迁移学习的有效性,以及它们在缓解数据稀疏和用户冷启动问题方面的优势。
参考文献
|
相关文章
|
多维度评价
首页
| 前页|
后页
|
尾页
第1页 共2页 共34条记录