计算机科学

第49卷第9期目录

计算机科学. 2022, 49 (9): 0-0.

摘要 ( 344 )

PDF(4921KB) ( 843 )

相关文章 | 多维度评价

基于图学习的推荐系统研究综述

程章桃, 钟婷, 张晟铭, 周帆

计算机科学. 2022, 49 (9): 1-13. doi:10.11896/jsjkx.210900072

摘要 ( 2699 )

PDF(2404KB) ( 3035 )

参考文献 | 相关文章 | 多维度评价

协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽取用户和物品的交互信息,从而进行用户推荐。近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐领域中的一种新兴的范式。文中从图学习角度对近年来推荐领域的研究进行系统性的回顾与总结。首先,根据数据类型将推荐场景分成两类,包括基于交互信息的推荐系统(将用户与物品交互数据作为关键数据源)和辅助信息增强的推荐系统(融入与用户和物品相关联的社交信息和知识图谱信息);其次,从随机游走、图表示学习和图神经网络方面入手,对不同推荐场景中的方法、关键技术、主要难点和重要进展进行回顾与总结;最后,总结关于图学习方法在推荐领域中面临的挑战和未来的主要研究方向。

数据流概念漂移处理方法研究综述

陈志强, 韩萌, 李慕航, 武红鑫, 张喜龙

计算机科学. 2022, 49 (9): 14-32. doi:10.11896/jsjkx.210700112

摘要 ( 1408 )

PDF(2484KB) ( 1922 )

参考文献 | 相关文章 | 多维度评价

目前非稳态数据流中的概念漂移愈来愈呈现出不同速度、不同空间分布的趋势,给数据挖掘、机器学习等诸多领域带来了极大的挑战。近二十年来,许多致力于在非稳态数据流中处理概念漂移的技术方法被提出。从一种新颖的角度,分别针对主动检测的显式方法和被动自适应的隐式方法对目前的概念漂移处理技术方法进行了全面的阐述。首先,从处理某一特定类型和多种类型的概念漂移的角度对主动检测方法进行了分析,并从单学习器和集成学习的角度对被动自适应方法进行了分析;其次,对诸多概念漂移处理方法的对比算法、学习模型、适用漂移类型、算法的优缺点进行了全面总结;最后给出了未来的研究方向,包括类不平衡的数据流概念漂移处理方法、含新颖类的概念漂移数据流处理方法、含噪声的数据流概念漂移处理方法等方面。

生成链接树:一种高数据真实性的反事实解释生成方法

王明, 武文芳, 王大玲, 冯时, 张一飞

计算机科学. 2022, 49 (9): 33-40. doi:10.11896/jsjkx.220300158

摘要 ( 872 )

PDF(3156KB) ( 1191 )

参考文献 | 相关文章 | 多维度评价

超大的数据规模及结构复杂的深度模型在互联网数据的处理与应用方面表现出了优异的性能,但降低了人工智能(Artificial Intelligence,AI)系统的可解释性。反事实解释(Counterfactual Explanations,CE)作为可解释性领域研究中一种特殊的解释方法,受到了很多研究者的关注。反事实解释除了作为解释外,也可以被视为一种生成的数据。从应用角度出发,文中提出了一种生成具有高数据真实性反事实解释的方法,称为生成链接树(Generative Link Tree,GLT),采用分治策略与局部贪心策略,依据训练数据中出现的案例生成反事实解释。文中对反事实解释的生成方法进行了总结并选取了其中热门的数据集来验证GLT方法。此外,提出“数据真实性(Data Fidelity,DF)”的指标,用于评估反事实解释作为数据的有效性和潜在应用能力。与基线方法相比,GLT生成的反事实解释数据的真实性明显高于基线模型所生成的反事实解释。

基于评论方面级用户偏好迁移的跨领域推荐算法

张佳, 董守斌

计算机科学. 2022, 49 (9): 41-47. doi:10.11896/jsjkx.220200131

摘要 ( 957 )

PDF(2388KB) ( 1212 )

参考文献 | 相关文章 | 多维度评价

为解决推荐系统中数据稀疏造成的用户冷启动问题,文中提出了一种基于方面级用户偏好迁移的跨领域推荐算法(Cross-Domain Recommendation via Review Aspect-Level User Preference Transfer,CAUT),设计了基于两阶段生成对抗网络的用户方面级偏好跨领域迁移结构,通过用户历史评论挖掘用户细粒度方面级偏好。CAUT利用预训练源领域编码器参数对目标领域编码器进行参数初始化,在固定源领域编码器参数的同时引入领域鉴别器,以解决源领域与目标领域数据分布差异的问题,进而可以有效利用源领域的丰富数据,缓解目标领域数据稀疏造成的用户冷启动问题。在亚马逊电商平台真实数据集上进行了实验,结果表明,与最新算法相比,CAUT在用户对商品的评分预测均方根误差(RMSE)指标上有明显的提升,说明CAUT可有效缓解用户冷启动问题。

基于矢量量化编码的协同过滤推荐方法

王冠宇, 钟婷, 冯宇, 周帆

计算机科学. 2022, 49 (9): 48-54. doi:10.11896/jsjkx.210700109

摘要 ( 763 )

PDF(2538KB) ( 886 )

参考文献 | 相关文章 | 多维度评价

随着互联网的高速发展,海量数据涌现,使得推荐系统成为计算机科学领域的研究热点。变分自编码器已经被成功应用于协同过滤方法的设计中,并取得了出色的推荐效果。然而,以往基于变分自编码器的推荐模型存在一些问题,如对隐变量先验分布的约束以及“后验失效”等,这些问题降低了推荐模型的性能。为了解决这一问题,使变分自编码器模型更加适用于推荐任务,提出了一种基于矢量量化编码的协同过滤推荐方法。该方法采用离散的矢量编码代替变分自编码器从隐变量分布中直接取样获得编码,从观测数据中学习到一个离散的潜在表示,提高了编码的表示能力。在多个公开数据集上的性能评测结果显示,与现有方法相比,所提方法能够有效提升推荐性能。

基于全局增强图神经网络的序列推荐

周芳泉, 成卫青

计算机科学. 2022, 49 (9): 55-63. doi:10.11896/jsjkx.210700085

摘要 ( 1024 )

PDF(2660KB) ( 1098 )

参考文献 | 相关文章 | 多维度评价

已有基于会话的推荐系统大多根据最后一个点击的项目与当前会话的用户偏好的相关性进行推荐,忽略了在其他会话中可能包含了与当前会话相关的项目转换,这些项目转换可能对用户的当前偏好也有一定的影响,因此需要从局部会话和整体会话的角度来综合分析用户偏好;并且这些推荐系统大多忽略了位置信息的重要性,而与预测位置越近的项目可能与当前用户兴趣的相关性越高。针对这些问题,提出一种基于全局增强的图神经网络的推荐模型(GEL-GNN)。GEL-GNN旨在根据所有会话预测用户的行为,它使用GNN来捕获当前会话的全局和局部之间的关系,使用LSTM来捕获全局层面会话间的关系。首先,通过注意力机制层将用户的偏好表示为基于全局层面和局部层面会话兴趣的组合;然后,使用反向位置信息衡量当前位置和预测位置之间的距离,以便更加准确地预测用户行为。在3个真实的数据集上进行了大量的实验,实验结果表明GEL-GNN优于现有的基于会话的图神经网络推荐模型。

基于无监督集群级的科技论文异质图节点表示学习方法

宋杰, 梁美玉, 薛哲, 杜军平, 寇菲菲

计算机科学. 2022, 49 (9): 64-69. doi:10.11896/jsjkx.220500196

摘要 ( 703 )

PDF(2343KB) ( 1288 )

参考文献 | 相关文章 | 多维度评价

科技论文数据的知识表征是一个有待解决的问题,而如何学习科技论文异质网络中论文节点的表示是解决这一问题的核心。文中提出了一种基于无监督集群级的科技论文异质图节点表示学习方法(Unsupervised Cluster-level Scientific Paper Heterogeneous Graph Node Representation Learning Method,UCHL),以获取科技论文异质图中节点(作者、机构与论文等)的表示。基于科技论文异质图表示对整个异质图进行链接预测,获取节点之间边的关系,即论文与论文之间的关联关系。实验结果表明,在真实的科技论文数据集上,所提方法在多项评测指标上都取得了更优的性能。

基于特征相似度聚类的空中目标分群方法

柴慧敏, 张勇, 方敏

计算机科学. 2022, 49 (9): 70-75. doi:10.11896/jsjkx.210800203

摘要 ( 875 )

PDF(2315KB) ( 1052 )

参考文献 | 相关文章 | 多维度评价

针对采用聚类算法进行目标分群时需要给出聚类个数和对初始中心选择敏感的问题,提出了一种基于目标特征相似度聚类的分群方法。该方法首先计算目标间的相似度值,构建相似度矩阵;然后计算相似度矩阵的连通分支,获取群中心结构和孤立目标点,识别的群中心结构个数为聚类个数;最后将不属于群中心结构和孤立点的目标归类到与其最相近的群中心结构中,使得聚类过程不再过多地依赖于聚类初始中心的选择。实验结果表明,所提方法能够正确识别出多种形态的群中心结构,并能检测出孤立点,且目标聚类正确率均高于其他4种聚类算法。

基于异构网络表征学习的作者学术行为预测

黄丽, 朱焱, 李春平

计算机科学. 2022, 49 (9): 76-82. doi:10.11896/jsjkx.210900078

摘要 ( 638 )

PDF(3031KB) ( 899 )

参考文献 | 相关文章 | 多维度评价

作者学术行为预测旨在从异构学术网络中挖掘作者的行为关系,以促进科研合作,产出高水平、高质量的研究成果。现有的节点表示方法大多未考虑节点的语义特征、内容特征、全局结构等,难以有效学习网络中节点的低维特性。为有效融合节点的多维特征和全局结构,提出了一种集成BiLSTM、注意力机制和聚类算法的异构网络表示学习方法HNEMA,以提高学术网络中作者的学术行为预测效果。HNEMA首先基于BiLSTM和注意力机制融合节点的多维特征,聚合同一元路径下或不同元路径下相同类型的邻居,随后聚合待表征节点的所有邻居的多维特征。基于此,采用聚类算法捕获节点的全局特征,从而全面有效地学习节点的低维特性。在全面特征学习的基础上,应用逻辑回归分类器预测作者的学术行为。在3个公开数据集上的验证实验结果表明,相比其他方法,HNEMA在AUC和F1指标上都有一定程度的提升。

一种基于节点稳定性和邻域相似性的社区发现算法

郑文萍, 刘美麟, 杨贵

计算机科学. 2022, 49 (9): 83-91. doi:10.11896/jsjkx.220400146

摘要 ( 774 )

PDF(3729KB) ( 1249 )

参考文献 | 相关文章 | 多维度评价

复杂网络规模的增大导致网络中社区结构变得复杂,节点与社区之间的关系更多样化,有效度量大规模网络中节点邻域的社区构成,并对社区归属确定性有差异的节点分别进行处理,可以提高算法的社区发现质量。基于此,提出了一种基于节点稳定性和邻域相似性的社区发现算法(Node Stability and Neighbor Similarity Based Community Detection Algorithm,NSNSA)。首先定义节点的标签熵并对节点在社区发现过程中的稳定性进行度量,选择标签熵较低的节点作为稳定节点集;其次根据节点邻域的标签构成情况定义节点的邻域相似性,对节点与其邻居节点的社区归属一致性进行度量;然后利用稳定节点与其直接邻居中邻域相似性最高的节点构造初始网络,并在该子网络上运行标签传播算法,以得到可靠性较高的初始社区发现结果;最后将未聚类节点分配至与其Katz相似性最高的节点所在的社区,对小规模社区进行合并处理,以得到最终的社区划分结果。在真实网络及人工网络数据集上,与LPA,BGLL,Walktrap,Infomap,LPA-S等经典社区发现算法的对比实验表明,NSNSA算法在模块度以及标准互信息方面表现良好。

基于异质信息网的短文本特征扩充方法

吕晓锋, 赵书良, 高恒达, 武永亮, 张宝奇

计算机科学. 2022, 49 (9): 92-100. doi:10.11896/jsjkx.210700241

摘要 ( 808 )

PDF(2541KB) ( 811 )

参考文献 | 相关文章 | 多维度评价

随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。

基于全变分比分隔距离的时序数据异常检测

徐天慧, 郭强, 张彩明

计算机科学. 2022, 49 (9): 101-110. doi:10.11896/jsjkx.210600174

摘要 ( 666 )

PDF(4093KB) ( 1321 )

参考文献 | 相关文章 | 多维度评价

时序数据异常检测是数据分析的重要研究问题之一,其主要挑战在于利用数据点上下文准确判断数据是否存在异常,若存在异常则低时延定位该异常。现有检测方法通常利用概率密度比来度量序列间的相似性,以捕捉异常,这些方法需借助交叉验证法来估计概率密度比模型中的参数。交叉验证法会提高计算复杂度,导致计算效率较低,且存在较大检测时延。针对上述问题,提出了一种基于全变分比分隔距离的检测方法。该方法采用全变分提取序列波动特征,以此为基础计算全变分比分隔距离来度量序列间的相似性,从而提高计算效率,并实现低时延定位异常。针对噪声干扰问题,将检测方法与相对全变分相结合以增强检测方法的鲁棒性,从而进一步提高该方法的检测准确度。实验结果表明,该方法在检测准确度、低时延以及计算效率3个方面均取得了较好的效果。

基于自然语言的视频片段定位综述

聂秀山, 潘嘉男, 谭智方, 刘新放, 郭杰, 尹义龙

计算机科学. 2022, 49 (9): 111-122. doi:10.11896/jsjkx.220500130

摘要 ( 1015 )

PDF(2218KB) ( 1108 )

参考文献 | 相关文章 | 多维度评价

自然语言视频定位(Natural Language Video Localization,NLVL)是一项新颖而富有挑战性的任务。该任务的目的是根据给定的查询文本从未修剪的视频中找到与这条查询文本语义最为相似的目标片段。与传统的时序动作定位任务不同,NLVL具有更强的灵活性,因为它不受预定义动作列表的限制;同时也更具挑战性,因为NLVL需要从视频和文本两种模态间对齐语义信息。此外,在对齐关系中获取最终的时间戳也是一个艰巨的任务。首先,描述了NLVL的流程;其次,根据是否有监督信息将NLVL算法分为监督方法和弱监督方法两大类并分析其优缺点;然后,总结了常用的数据集和评估指标,对现有的研究进行了总体性能的评估和分析;最后,讨论了技术难点及未来的研究趋势,为今后的工作提供参考。

基于细粒度语义推理的跨媒体双路对抗哈希学习模型

曹晓雯, 梁美玉, 鲁康康

计算机科学. 2022, 49 (9): 123-131. doi:10.11896/jsjkx.220600011

摘要 ( 629 )

PDF(3600KB) ( 985 )

参考文献 | 相关文章 | 多维度评价

跨媒体哈希因其优越的搜索效率和较低的存储成本而在跨媒体搜索任务中受到广泛关注。然而,现有方法无法充分保持多模态数据的高阶语义相关性和多标签语义信息,从而导致学习到的哈希编码的质量下降。为了解决上述问题,提出了基于细粒度语义推理的跨媒体双路对抗哈希(Semantic Reasoning Based Cross-media Dual-way Adversarial Hashing Learning Model,SDAH)学习模型,通过最大程度地挖掘不同模态间的细粒度语义关联,产生紧凑且一致的跨媒体统一高效哈希语义表示。首先,提出了基于跨媒体协同注意力机制的细粒度跨媒体语义关联学习和推理方法,基于跨媒体注意力机制协同学习图像和文本的细粒度隐含语义关联,获取图像和文本的显著性语义推理特征;然后,建立了跨媒体双路对抗哈希网络,通过联合学习模态内和模态间的语义相似性约束,并通过双路对抗学习机制更好地对齐不同模态哈希码的语义分布,产生更高质量和更具判别性的跨媒体统一哈希表示,促进了跨媒体语义融合,提升了跨媒体搜索性能。在两个公开数据集上与现有方法的对比实验结果验证了所提方法在各种跨媒体搜索场景下的优越性能。

基于对偶变分多模态注意力网络的不完备社会事件分类方法

周旭, 钱胜胜, 李章明, 方全, 徐常胜

计算机科学. 2022, 49 (9): 132-138. doi:10.11896/jsjkx.220600022

摘要 ( 711 )

PDF(2303KB) ( 811 )

参考文献 | 相关文章 | 多维度评价

互联网的快速发展和社交媒体规模的不断扩大,带来丰富的社会事件资讯,社会事件分类任务越来越具有挑战性。充分利用图像级和文本级信息是社会事件分类的关键所在。然而,现存的方法大多存在以下局限性:1)现有的多模态方法大多都有一个理想的假设,即每种模态的样本都是充分和完整的,但在实际生活应用中这个假设并不总是成立,会存在事件某个模态缺失的情况;2)大部分方法只是简单地将社会事件的图像特征和文本特征串联起来,以此得到多模态特征来对社会事件进行分类,忽视了模态之间的语义鸿沟。为了应对这些挑战,提出了一种能同时处理完备与不完备社会事件分类的对偶变分多模态注意力网络(DVMAN)。在DVMAN网络中,提出了一个新颖的对偶变分自编码器网络来生成社会事件的公共表示,并进一步重构不完备社会事件学习中缺失的模态信息。通过分布对齐和交叉重构对齐,对图像和文本潜在表示进行双重对齐,以减小不同模态之间的差距,并对缺失的模态信息进行重构,合成其潜在表示。除此之外,设计了一个多模态融合模块对社会事件的图像和文本细粒度信息进行整合,以此实现模态之间信息的互补和增强。在两个公开的事件数据集上进行了大量的实验,与现有先进方法相比,DVMAN的准确率提升了4%以上,证明了所提方法对于社会事件分类的优越性能。

基于文本行匹配的跨图文本阅读方法

戴禹, 许林峰

计算机科学. 2022, 49 (9): 139-145. doi:10.11896/jsjkx.220600032

摘要 ( 1226 )

PDF(3493KB) ( 1114 )

参考文献 | 相关文章 | 多维度评价

通过摄像头阅读文本可帮助计算机理解文本内容。然而,由于摄像头视野的局限性和中文文本识别的复杂性,计算机有时很难通过摄像头从单张文本图像获取完整的文本内容,因此定义了跨图文本阅读任务,旨在从一对具有重叠区域的文本图像中获取完整的文本内容。针对跨图文本阅读任务,提出了基于文本行匹配的跨图文本阅读方法。首先采用文本检测网络来裁剪文本行,然后设计了基于多头自注意力机制的文本行匹配网络来预测文本行的匹配关系,最后提出了基于编辑的文本阅读网络,以去除重叠文本并读取文本内容。为了训练和评估跨图文本阅读方法,构造了跨图中文文本阅读数据集(Cross-image Chinese Text Reading Dataset,CCTR)。在CCTR数据集上进行实验,结果表明,相比像素级拼接和识别方法,所提方法能够得到更高的阅读性能,验证了其优越性。

基于信息感知的虚拟现实用户临场感研究

曲倩文, 车啸平, 曲晨鑫, 李瑾如

计算机科学. 2022, 49 (9): 146-154. doi:10.11896/jsjkx.220500200

摘要 ( 775 )

PDF(3088KB) ( 1152 )

参考文献 | 相关文章 | 多维度评价

虚拟现实(Virtual Reality,VR)技术通过计算机构建仿真环境,为用户提供三维动态视图,增强用户的感官体验,使用户获得身临其境的沉浸感。随着虚拟现实技术的兴起和不断发展,人们在 VR 中的视觉和听觉体验有了很大的进步。随着多媒体技术的发展,全景视频逐渐出现。与普通视频相比,全景视频具有更宽的视角和更丰富的视觉信息。虚拟现实技术的广泛应用和全景视频技术的发展,使虚拟现实全景视频(VR Video)成为最受欢迎和关注的虚拟现实服务之一。用户在虚拟现实环境中的信息感知和接受行为也受到了影响。研究基于SMOTE算法、贝叶斯网络与逻辑回归等统计分析方法和Few-shot Learning算法,通过对比用户分别使用 VR 头戴式显示器和普通显示器 iPad 观看全景视频时的信息记忆程度、真实感、参与感等方面的差异,来探究用户在虚拟现实环境下的信息接受效果及临场感与传统媒介环境下的差异。实验结果表明,虚拟现实环境下的用户信息接受效果是传统媒介下的 1.24 倍,且虚拟现实环境下用户对于非正面信息和局部信息的接受效果分别是传统媒介下的 1.626倍和1.245 倍,同时表明,用户的视觉停留时间长度对信息接受效果有正向影响。另外,在证实临场感可以被细分为真实感和参与感后,当临场感强时,视频A－视频D的平均信息记忆数目为9.20,9.13,8.83,10.57,而临场感弱时,其平均信息记忆数目为8.53,6.80,7.14,7.66,证明了用户信息感知时的临场感有利于使用户获得更好的信息接受效果。

多层注意力机制融合的序列到序列中国连续手语识别和翻译

周乐员, 张剑华, 袁甜甜, 陈胜勇

计算机科学. 2022, 49 (9): 155-161. doi:10.11896/jsjkx.210800026

摘要 ( 1211 )

PDF(2632KB) ( 1328 )

参考文献 | 相关文章 | 多维度评价

使计算机能够理解手语者的表达一直是一项极具挑战性的任务,不仅需要考虑手语视频的时间和空间信息,同时还要考虑手语语法的复杂性。在连续手语识别任务中,手语词汇和手语动作共享一致的顺序;而在连续手语翻译任务中,生成的自然语言句子应符合口语化描述,词汇顺序和动作顺序可能不一致。为了能够更加准确地学习手语者的表达,提出了一个新颖的能同时进行手语识别和翻译的深度神经网络。该方案探讨了不同的经典预训练卷积神经网络和不同的多层时序注意力分值函数在连续手语识别上的效果,网络将手语视频高级抽象特征和低级时序语义组合在多层时间注意力融合模块中,形成更全面的序列注意力融合特征,从而从连续手语视频中更准确地生成gloss句子。结合Transformer语言模型将手语识别gloss句子转换为符合手语翻译的连续自然语言句子。首先,该方法在第一个大规模的复杂背景的中国连续手语识别和翻译数据集Tslrt上进行评估。利用Tslrt数据集中手语者复杂的背景环境和丰富的动作表达来训练所提神经网络模型,通过不同的对比实验得到了一系列的基准结果。在连续手语识别和翻译的任务上,效果最好的词错误率分别达到了4.8%和5.1%。为了进一步证明所提方法的有效性,在另一个公开的中国连续手语识别数据集Chinese-CSL也进行了验证,并和其他13种公开方法进行了比较,结果表明,所提方法的词错误率达到了最好的识别效果,为1.8%,证明了该方法的有效性。

时序知识图谱表示学习

徐涌鑫, 赵俊峰, 王亚沙, 谢冰, 杨恺

计算机科学. 2022, 49 (9): 162-171. doi:10.11896/jsjkx.220500204

摘要 ( 2610 )

PDF(1811KB) ( 3187 )

参考文献 | 相关文章 | 多维度评价

知识图谱作为一种结构化的人类知识形式,对海量多源异构异质的数据语义互通起到了很好的支撑作用,并有效地支持了数据分析等任务,成为了近年来学术界和工业界的研究热点。目前大多数知识图谱都是根据非实时的静态数据构建,没有考虑实体和关系的时间特性。然而社交网络通信、金融贸易、疫情传播网络等应用场景的数据具有实时动态的特点以及复杂的时间特性,如何利用时序数据构建知识图谱并且对该知识图谱进行有效建模是一个具有挑战性的问题。目前,有许多研究工作利用时序数据中的时间信息丰富知识图谱的特征,赋予知识图谱动态特征,将事实三元组拓展为(头实体,关系,尾实体,时间)的四元组表示,使用时间相关四元组进行知识表示的知识图谱被统称为时序知识图谱。文中对时序知识图谱相关文献进行整理和分析,并对时序知识图谱表示学习的工作进行了全面综述。具体地,首先简单介绍了时序知识图谱的背景与定义;其次总结了时序知识图谱表示学习方法相比传统知识图谱表示学习方法的优点;然后从事实的建模方法角度详细阐述了时序知识图谱表示学习的主要方法,并且介绍了上述方法使用到的数据集;最后对该技术的主要挑战进行了总结,并对其未来研究方向进行了展望。

基于值分解的多智能体深度强化学习综述

熊丽琴, 曹雷, 赖俊, 陈希亮

计算机科学. 2022, 49 (9): 172-182. doi:10.11896/jsjkx.210800112

摘要 ( 1725 )

PDF(2660KB) ( 1577 )

参考文献 | 相关文章 | 多维度评价

基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。

基于分层抽样优化的面向异构客户端的联邦学习

鲁晨阳, 邓苏, 马武彬, 吴亚辉, 周浩浩

计算机科学. 2022, 49 (9): 183-193. doi:10.11896/jsjkx.220500263

摘要 ( 1178 )

PDF(4712KB) ( 1022 )

参考文献 | 相关文章 | 多维度评价

联邦学习是一种新的面向隐私保护的分布式学习范式,相比传统分布式机器学习方法,其特点为各客户端通信、设备算力和存储能力存在较大差异(设备异构),各客户端数据分布和数量存在较大差异(数据异构)以及高通信消耗等。在客户端异构条件(包括设备异构和数据异构)下,客户端的数据分布区别较大,导致模型收敛速度显著降低,特别是在极端的数据异构情况下,传统的联邦学习算法无法收敛,并且训练曲线随着本地迭代轮次的增加出现大幅的波动。针对联邦学习中,客户端异构给模型训练带来的影响,提出了利用分层抽样优化的联邦学习算法——FedSSO。FedSSO使用了基于密度的聚类方法将总体客户端划入不同的聚类中,使得每个聚类中的客户端具有较高的相似度,再按样本权重从不同聚类中抽取可用客户端参与训练,因此所有种类的数据都会按样本权重参与每轮训练,使模型加速收敛到全局最优解;同时,设定了学习率递减和本地迭代轮次选择机制,以保证模型的收敛性。从理论和实验中证明了FedSSO的收敛性,并且在公开数据集MNIST,Cifar-10和Sentiment140上与其他联邦学习算法进行了对比,实验结果证明FedSSO的训练效果更优。

基于空间运动约束的无人机碰撞回避规划

罗熊丰, 翟象平

计算机科学. 2022, 49 (9): 194-201. doi:10.11896/jsjkx.210700107

摘要 ( 567 )

PDF(2101KB) ( 913 )

参考文献 | 相关文章 | 多维度评价

三维空间中,面对移动的障碍物,无人机如何进行运动规划是一个很有趣的研究方向。在动态环境下,传统的基于速度障碍物的算法主要针对二维机器人。用机器人的可达速度集减去导致碰撞的速度集,然后选取合适的速度实现避障动作。根据无人机和障碍物的当前位置和速度进行泛化的三维矢量运算,计算导致碰撞的速度集合。依据无人机制动器的最大速度和最大加速度,对其当前时刻可达到的速度空间进行约束。在这个相减集合中,依据场景的需求制定相应的策略并选取合适的速度,实现三维场景下的回避障碍物规划。针对被抽象为球状的无人机在三维空间下躲避球状障碍物行驶至终点的场景,在虚幻四引擎中结合C++编程和图形化编程实现了避障算法并进行验证。通过捕捉不同策略的运动轨迹,度量其耗时,有效地验证了所提算法能够完成无人机在三维空间下的动态障碍物回避任务。

基于Key-Value关联记忆网络的知识图谱问答方法

饶志双, 贾真, 张凡, 李天瑞

计算机科学. 2022, 49 (9): 202-207. doi:10.11896/jsjkx.220300277

摘要 ( 1301 )

PDF(2036KB) ( 1198 )

参考文献 | 相关文章 | 多维度评价

基于知识图谱的问答(Question Answering over Knowledge Graph,KG-QA)系统通过对给定的自然语言问题进行语义解析,将问题映射到知识图谱〈主,谓,宾〉三元组,并对三元组进行推理得到问题的答案。由于自然语言具有多样性的特点,一个问题可能有多种表述,而三元组知识在知识图谱中却是规范的结构化数据,如何将自然语言问题映射到知识图谱三元组是KG-QA的难点。文中提出了一种新的Key-Value关联记忆网络,从知识图谱的角度出发,关注候选答案知识间的关联关系以及知识图谱中的知识与自然语言问题表征之间的关系。此外,在模型中引入了注意力机制,使其具有更好的可解释性。在WebQuestions数据集上进行实验,结果表明,所提方法的F1值比基于信息抽取的最优方法提高了5.9%,比基于语义分析的最优方法略有提高,验证了该方法的有效性。

面向自动化集装箱码头的AGV行驶时间估计

冷典典, 杜鹏, 陈建廷, 向阳

计算机科学. 2022, 49 (9): 208-214. doi:10.11896/jsjkx.210700028

摘要 ( 852 )

PDF(2021KB) ( 905 )

参考文献 | 相关文章 | 多维度评价

自动导引车(Automated Guided Vehicle,AGV)在自动化集装箱码头的水平运输中发挥了重要作用,对AGV行驶时间进行准确估计,有利于减少码头各作业环节的资源闲置,提高整体效率。针对AGV在自动化集装箱码头的行驶时间估计问题,提出了一种AGV行驶时间估计方法。首先,根据AGV的行驶模式将目标行驶路径切分为若干段,使用神经网络模型对其进行编码;其次,对该路径出发前后一段时间内的其他路径进行编码并将其作为环境信息,以通过模型预测其是否与目标路径发生冲突作为辅助任务;最后,综合两类信息对行驶时间进行估计。该方法引入了路径间冲突对时间估计造成的影响。基于自动化集装箱码头的历史数据的实验表明,相比AGV场景中常用的静态时间估计方法,所提方法能够将时间估计的误差降低18%以上,可以更准确地估计AGV的行驶时间。

基于自注意力模型的本体对齐方法

吴子仪, 李邵梅, 姜梦函, 张建朋

计算机科学. 2022, 49 (9): 215-220. doi:10.11896/jsjkx.210700190

摘要 ( 686 )

PDF(2015KB) ( 826 )

参考文献 | 相关文章 | 多维度评价

随着知识图谱在人工智能领域的发展,对不同源的知识图谱进行融合,以得到覆盖范围更广的知识图谱的需求日益增加。本体作为知识图谱的上层结构,对知识图谱的构建具有指导作用。为了解决知识图谱融合中本体对齐的问题,文中提出了基于自注意力模型融合多维相似度的方法,从而提高本体对齐的精度。首先,对来自两个本体的概念进行基于字符串的、基于语义的和基于结构信息的多维度相似性度量;然后,使用自注意力模型对上述多种相似度度量结果进行融合,进而判断是否相似并进行对齐。在公开数据集上进行实验,实验结果表明,相比现有的本体对齐方法,所提方法通过聚合多维度的相似性特征能够得到更优的对齐结果。

融合知识图谱的多层次传承影响力计算与泛化研究

孔世明, 冯永, 张嘉云

计算机科学. 2022, 49 (9): 221-227. doi:10.11896/jsjkx.210700144

摘要 ( 875 )

PDF(2252KB) ( 783 )

参考文献 | 相关文章 | 多维度评价

影响力计算和分析在社交网络、网页重要度评估等领域有着广泛应用。对于有传承链和时间跨度因素的多层次影响力计算,目前尚缺乏较好且通用的解决办法。同时,传播影响力最大化计算是一个NP难题,近似算法求解准确度不高且计算复杂。针对上述问题,文中提出了融合知识图谱的多层次传承影响力与泛化算法,实现了传承影响力和传承关系的计算。该算法融合了知识图谱中的广度优先搜索层次计算模型,兼顾时间跨度限制计算传承影响力和传承链;为了优化计算效率,进一步使用深度优先搜索和不同层次加不同权重的策略,只计算前n层次的影响力;不仅能很好地计算传承影响力,还可以泛化成各种传播影响力计算模型。在此基础上,文中又提出了通过筛选传播影响力大的节点作为候选节点进行局部最优搜索的传播影响力最大化近似算法,该算法在运行速度和最大传播节点数上都取得了良好的效果。最后,通过多种仿真实验验证了所提方法的有效性。

室内信息服务的基础——低成本定位技术研究综述

邵子灏, 杨世宇, 马国杰

计算机科学. 2022, 49 (9): 228-235. doi:10.11896/jsjkx.210900260

摘要 ( 676 )

PDF(1688KB) ( 1077 )

参考文献 | 相关文章 | 多维度评价

近年来,随着物联网技术的发展与智慧城市概念的提出,基于位置的服务快速发展,尤其是由基于卫星信号的全球定位系统(GPS)提供定位的室外位置服务已经深入日常生活的方方面面。然而,GPS在室内定位中受复杂的室内环境影响有着较大的误差,为了提高室内位置服务的定位精度,多种室内定位技术被相继提出。其中,利用现有设备(如Wi-Fi、低能耗蓝牙(BLE)和智能手机等)提供的多种信号信息,通过数据分析、机器学习等技术来提供室内定位服务,具有成本低、部署使用便捷等优点,受到了越来越多的关注。文中梳理了近年来低成本室内定位技术的相关成果,介绍了其基本原理、实现方法以及能达到的定位精度,分析了各种技术的优缺点,并对未来发展趋势进行了展望。

基于边缘智能的频谱地图构建与分发方法

刘兴光, 周力, 刘琰, 张晓瀛, 谭翔, 魏急波

计算机科学. 2022, 49 (9): 236-241. doi:10.11896/jsjkx.220400148

摘要 ( 844 )

PDF(2114KB) ( 1223 )

参考文献 | 相关文章 | 多维度评价

频谱地图可协助认知用户准确感知和利用频谱空洞,实现网络节点间的干扰协调,提升无线网络的频谱效率和鲁棒性。然而,当认知用户在利用和共享频谱地图时,面临着计算复杂度高和分发时延开销大的问题,限制了认知用户对空间频谱态势的实时感知能力。为了解决该问题,提出了一种边缘智能网络中基于强化学习的频谱地图构建与分发方法。首先,在频谱地图构建上,采用了一种克里金插值和超分辨率相结合的低复杂度构建技术;其次,通过引入边缘计算,将频谱地图构建与分发过程中的计算迁移策略选择问题建模为一个混合整数非线性规划问题;最后,将人工智能和边缘计算相结合,采用了一种集中式训练、分布式执行的强化学习框架,对不同网络场景下的频谱地图构建和分发策略进行学习。实验结果表明,所提方法具备良好的适应性,可有效降低频谱地图构建与分发的能耗和时延,支持认知用户在移动边缘网络场景下对频谱地图的近实时级应用。

VEC中基于动态定价的车辆协同计算卸载方案

孙慧婷, 范艳芳, 马孟晓, 陈若愚, 蔡英

计算机科学. 2022, 49 (9): 242-248. doi:10.11896/jsjkx.210700166

摘要 ( 708 )

PDF(2340KB) ( 989 )

参考文献 | 相关文章 | 多维度评价

车载边缘计算(Vehicular Edge Computing,VEC)是移动边缘计算(Mobile Edge Computing,MEC)在车联网中的一个重要应用。在VEC中,请求服务的车辆可以通过付费的方式,将计算任务卸载到VEC服务器或者空闲计算资源丰富的服务车辆上,从而满足车辆任务对计算服务的需求。然而,对于VEC运营商来说,收益最大化是其追求的目标之一。由于系统中的计算需求和计算资源是动态变化的,因此如何在车辆协同场景下确定一个合理的定价策略是一个不容忽视的问题。针对该问题制定了一个动态定价策略,使VEC服务器和服务车辆的价格随着计算资源的供需关系而动态调整。基于此,设计了运营商收益最大化的车辆协同计算卸载方案,通过将时延约束下的VEC运营商收益最大化问题转化为多用户匹配问题,使用Kuhn-Munkres(KM)算法求得卸载结果。仿真实验表明,相比已有定价策略,该动态定价策略下VEC服务器和服务车辆的价格均可以根据计算资源供需关系动态调整,从而实现运营商收益最大化;相比已有卸载方案,该方案可以在满足任务时延约束的前提下提高运营商的收益。

融智算力网络及其功能架构

胡玉姣, 贾庆民, 孙庆爽, 谢人超, 黄韬

计算机科学. 2022, 49 (9): 249-259. doi:10.11896/jsjkx.220500222

摘要 ( 769 )

PDF(4066KB) ( 1387 )

参考文献 | 相关文章 | 多维度评价

面向算力网络新兴研究领域,针对其迫切需要提升智能性与精准服务能力的问题,提出了云边端算力资源、网络资源、智能模型及算法协同共生的融智算力网络建设理念,引入了内生智能和业务智能两个层面的智能性。内生智能指算力网络为保障系统准确运行所具备的自感知、自适应、自决策、自学习能力,业务智能指算力网络为增强对行业/应用的适应性所具备的智能资源封装及自主部署能力、业务编排与认知能力。进一步地,设计了层次化功能架构,从基础资源、资源管理、业务编排、运营服务以及系统优化5个层面明确了AI赋能融智算力网络内生智能与业务智能的具体表现。最后,将智能制造及智慧安防两类应用中的3个场景(车间物流、基于机器视觉的质检品控、社区及道路监测)作为仿真实验原型场景,并设计了对比实验组。实验结果表明,应用融智算力网络至车间物流场景中,性能提升幅度与场景规模有关,规划用时提升了约2~50倍,规划结果提升了约2~5倍;基于机器视觉的质检品控场景中,算力设备部署成本下降为原来的1/5、检测准确率提升约4.5%;社区及道路监测场景中,系统的算力部署成本可降低为原来的1/10。

一种基于AAE的协同多播主动缓存方案

刘鑫, 王珺, 宋巧凤, 刘家豪

计算机科学. 2022, 49 (9): 260-267. doi:10.11896/jsjkx.210800019

摘要 ( 757 )

PDF(2941KB) ( 797 )

参考文献 | 相关文章 | 多维度评价

随着用户终端数量的激增和5G技术的发展,形成了宏基站和小基站并存的网络。同时超高清视频、云VR/AR等应用对时延提出了更高的要求。为了缩短5G网络中的时延,文中结合小基站协同、多播和用户行为可预测的特性,提出了一种基于对抗自动编码(Adversarial Autoencoders,AAE)的协同多播主动缓存方案(Collaborative Multicast Proactive Caching Scheme Based on Adversarial Autoencoders,CMPCAAE)。该方案首先根据用户的特征信息将用户划分成偏好不同的用户组,然后通过AAE预测每个用户组可能请求的内容。为了减少缓存内容的冗余,采用蚁群算法(Ant Colony,ACO)将预测的内容预先部署到各小基站以实现小基站间的协同。在内容分发阶段,若分组中用户请求的是流行度高的内容,则以多播的方式将该内容主动缓存到分组中其他未发送请求的用户,否则以正常的方式进行分发。仿真结果表明,CMPCAAE方案在系统的平均请求时延和丢失率方面均优于经典的缓存方案。

飞机机内无线通信网络架构与接入控制算法研究

郭鹏军, 张泾周, 杨远帆, 阳申湘

计算机科学. 2022, 49 (9): 268-274. doi:10.11896/jsjkx.210700220

摘要 ( 550 )

PDF(3716KB) ( 952 )

参考文献 | 相关文章 | 多维度评价

随着航空电子系统的快速发展,大量设备和传感器接入机内网络,这使得飞机机内通信网络的体系结构变得复杂而繁重。无线通信网络代替机内有线通信网络,能有效解决布线繁杂、重量大、线路故障检测困难等诸多问题。然而,无线网络在实时性、可靠性等方面仍有一定的限制,而这又恰恰是机载互连系统最关心的问题。对此,文中对现有的机内有线通信网络架构进行了分析,根据其通信特点设计了无线接入网络-有线骨干网络的混合通信网络架构;对候选的无线通信方案进行了评估和选取;将无线网络的接入固定时隙改进为按流量进行动态分配,建立了动态时隙分配问题的数学模型,设计了TDMA周期以及最优时隙分配策略;最后,一个典型的机载网络任务表明,在保证系统可调度的前提下,该策略可将网络利用率从36.5%提升到41.8%,验证了该方法的有效性。

移动众包中基于多约束工人择优的激励机制研究

傅彦铭, 朱杰夫, 蒋侃, 黄保华, 孟庆文, 周兴

计算机科学. 2022, 49 (9): 275-282. doi:10.11896/jsjkx.210700129

摘要 ( 860 )

PDF(3356KB) ( 820 )

参考文献 | 相关文章 | 多维度评价

随着移动众包的快速发展,市面上的众包平台如雨后春笋般出现,它们发布任务并利用人群的力量来执行任务、收集数据。此时,移动众包中有效的激励机制变得十分重要。然而现有的激励机制只片面地考虑工人的信誉度、所在位置和执行时间等,这使得众包平台在有限的预算或其他约束的情况下选定优质工人并分配多个任务变得困难。针对以上问题,文中提出了一种基于多约束工人择优的激励机制(Multi-constrained Worker Selection Incentive Mechanism,MSIM),该模型依赖于两个相关算法:一是基于改进逆向拍卖的工人择优算法,该算法综合考虑工人信誉度、地理位置、任务完成度、结果质量等多个重要约束来选择最优的工人执行任务;二是评估和奖惩算法,该算法对任务执行结果和工人信誉度进行评估,从而制定对工人的奖励与惩罚规则。实验结果表明,MSIM可以选出优秀的工人,并提高任务执行结果的可信度和工人信誉度,是一种良好的激励机制。

基于M2M相遇区的PDR室内定位方法

唐清华, 王玫, 唐超尘, 刘鑫, 梁雯

计算机科学. 2022, 49 (9): 283-287. doi:10.11896/jsjkx.210800270

摘要 ( 634 )

PDF(2376KB) ( 737 )

参考文献 | 相关文章 | 多维度评价

在室内定位中,行人航迹推算(Pedestrian Dead Reckoning,PDR)的主要优点在于,其仅需要用户拥有智能手机就能实现定位,无须依赖外部环境,但是存在较大的累积误差,通常需要结合蓝牙、WiFi、地磁等技术融合定位来改善定位精度。此类方法需要架构一定的硬件节点且需要构建大量指纹数据库信息。针对该问题,提出了一种基于机器对机器(Machine to Machine,M2M)区域内纠正PDR的室内定位方法。该方法首先在行人行进过程中设置一个距离测量区域,其次在该区域内测量行人手机与其他手机的距离,最后通过三边定位方法进行定位,校正PDR的定位误差和精度。该方法不需要额外铺设其他硬件设施。实验结果表明,相比传统的PDR定位,该方法适合较长时间定位且平均定位误差降为0.36 m,具有较高的定位精度。

密码学智能化研究进展与分析

宁晗阳, 马苗, 杨波, 刘士昌

计算机科学. 2022, 49 (9): 288-296. doi:10.11896/jsjkx.220300053

摘要 ( 1287 )

PDF(1932KB) ( 2348 )

参考文献 | 相关文章 | 多维度评价

人工智能、5G网络技术的迅速发展开启了万物互联的新时代,计算能力的大幅提高使得基于计算困难性理论的传统密码算法受到威胁,数据安全和通讯安全已成为物联网时代亟待解决的首要问题,密码学由此进入智能化时代。新一代智能化密码学包括基于神经网络的智能密码算法和以机器学习为工具的智能密码分析这两大核心技术。前者利用神经网络的非线性特征设计加密过程,提高密文安全性;后者通过明密文数据集训练机器学习模型获得密文特征,提高密文破译效率。文中简要回顾了密码算法的发展历程,论述了密码学智能化常用的机器学习方法,重点梳理了国内外密码算法及密码分析智能化的最新进展,分析了目前密码学智能化的优势与不足,并探讨了未来的研究方向和面临的挑战。

基于安全多方计算和差分隐私的联邦学习方案

汤凌韬, 王迪, 张鲁飞, 刘盛云

计算机科学. 2022, 49 (9): 297-305. doi:10.11896/jsjkx.210800108

摘要 ( 1932 )

PDF(2783KB) ( 3503 )

参考文献 | 相关文章 | 多维度评价

联邦学习为非互信实体间的合作学习提供了一种新的解决思路,通过本地训练和中央聚合的模式,在训练全局模型的同时保护各实体的本地数据隐私。然而相关研究表明,该模式下无论是用户上传的局部模型,还是中央聚合的全局模型,都会泄露用户数据的信息。安全多方计算和差分隐私作为两种主流的隐私保护技术,分别保护计算过程和计算结果的隐私。目前很少有工作结合这两种技术的优势,用于联邦学习训练全流程的防护。将安全多方计算、差分隐私相结合,设计了一种面向深度学习的隐私保护联邦学习方案,用户对本地训练得到的局部模型添加扰动,并秘密共享至多个中央服务器,服务器间通过多方计算协议对局部模型进行聚合,得到一个共享的秘密全局模型。该方案在保护用户上传的局部信息不被窃取的同时,防止敌手从聚合模型等全局共享信息展开恶意推断,并具有容忍用户掉线和兼容多种聚合函数等优点。此外,针对不存在可信中心的现实应用,上述方案可自然拓展至去中心化场景。实验表明,所提方案与相同条件下的明文联邦学习效率相近,且能取得同水平的模型准确率。

基于战术关联的网络安全风险评估框架

柳杰灵, 凌晓波, 张蕾, 王博, 王之梁, 李子木, 张辉, 杨家海, 吴程楠

计算机科学. 2022, 49 (9): 306-311. doi:10.11896/jsjkx.210600171

摘要 ( 649 )

PDF(2510KB) ( 1086 )

参考文献 | 相关文章 | 多维度评价

电力系统网络是网络攻击的重要目标之一。为了保障电力系统的安全运行,网络管理员需要评估电力系统网络所面临的网络安全风险。现存的网络安全风险评估框架通常仅针对单一场景进行评估,不能从过多的网络安全告警中发现利用多种手段以达到目标的策略型攻击者。为应对上述挑战,文中设计了一种基于战术关联的网络安全风险评估框架,该体系利用成熟的网络安全知识库并整合重复性指标以尽可能简化使用者的输入,同时将多种网络安全系统产生的告警在战术层面关联起来,从而发现利用多种攻击手段协同的攻击方式。对高级持续性威胁(Advanced Persistent Threat,APT)攻击案例进行评估,对比结果表明,与现有的轻量级信息安全风险评估框架(Lightweight Information Security Risk Assessment,LiSRA)相比,该方法能更有效地发现高威胁风险,其鲁棒性也优于现有方法。

区块链与智能合约并行方法研究与实现

王子凯, 朱健, 张伯钧, 胡凯

计算机科学. 2022, 49 (9): 312-317. doi:10.11896/jsjkx.210800102

摘要 ( 911 )

PDF(3329KB) ( 1449 )

参考文献 | 相关文章 | 多维度评价

随着区块链技术的不断成熟,能够提供安全、匿名、不可篡改的交易环境且面向企业的区块链应用越来越多。传统的区块链架构面临着性能低、拓展性不足等问题,无法满足面向企业级应用的高并发、大数据的应用场景需求。为了更好地适应愈加丰富的应用场景,发挥区块链技术的价值,文中研究并提出了一种简化拜占庭容错SBFT(Simple Byzantine Fault Tole-rance)共识算法,以提升共识阶段的效率;提出Task并行智能合约模型,充分利用多核系统的并行效率;改进传统区块链系统架构,体现了轻量、低耦合、智能合约可扩展的特点,方便企业应用的二次开发;在此基础上,研发了ParaChain区块链与智能合约系统。实验验证表明,基于并行化技术ParaChain区块链在TPS性能和可拓展性方面的表现相较于基于传统PBFT共识协议的区块链系统有较大提升。

隐私保护线性回归方案与应用

吕由, 吴文渊

计算机科学. 2022, 49 (9): 318-325. doi:10.11896/jsjkx.220300190

摘要 ( 759 )

PDF(1787KB) ( 1050 )

参考文献 | 相关文章 | 多维度评价

线性回归是一种基础且应用广泛的机器学习算法,线性回归模型的训练通常依赖于大量的数据,而现实中数据集一般由不同的用户持有且包含用户的隐私信息,当多个用户想要集中大量的数据训练效果更好的模型时,会不可避免地涉及用户的隐私问题。同态加密作为一种隐私保护技术,可以有效解决计算中的隐私泄露问题。针对数据集水平分布在两个用户上的场景,结合CKKS同态加密技术,设计了一种新的基于混合迭代方法的隐私保护线性回归方案。该方案分为两个阶段:第一阶段实现了密文域上的随机梯度下降算法;第二阶段设计了一种安全两方快速下降协议,该协议的核心思想基于雅可比迭代算法,可以有效弥补实际应用中梯度下降法收敛效果不佳的缺陷,加速了模型的收敛,从而降低了方案的计算代价和通信损耗,在高效训练线性回归模型的同时保护了两个用户的数据隐私。分析了方案的效率、通信损耗以及安全性,利用C++实现了该方案并将其应用于真实数据集。大量实验结果表明,该方案可以高效地解决特征规模较大的线性回归问题,可决系数的相对误差小于0.001,这表明得到的隐私保护线性回归模型在真实数据集上的应用效果接近于直接在明文数据上求得的模型,可以满足特定场景下的实际应用需求。

基于数据流特征的比较类函数识别方法

胡安祥, 尹小康, 朱肖雅, 刘胜利

计算机科学. 2022, 49 (9): 326-332. doi:10.11896/jsjkx.220200163

摘要 ( 614 )

PDF(2190KB) ( 1036 )

参考文献 | 相关文章 | 多维度评价

嵌入式设备已经随处可见,它们常常出现在安全领域的关键位置和靠近终端的隐私场所。然而,最近的研究表明,很多嵌入式设备存在后门,发现最多的为硬编码后门(即口令后门)。在口令后门的触发过程中,字符串比较函数(比较类函数)是不可或缺的,其重要性不言而喻。目前,针对比较类函数的识别主要借助于函数签名和控制流特征的匹配,前者不适用于对未知的比较类函数进行识别,并且受编译环境的影响较大,后者具有较高的误报率和漏报率。针对上述问题,提出了一种新颖的比较类函数识别方法CMPSeek。该方法在函数控制流的基础上,对比较类函数的数据流特征进行分析并构建了识别模型,用于对二进制程序中比较类函数的识别,并且适用于剥离的二进制程序(Stripped Binary)。此外,将二进制代码转换为中间语言VEX IR指令,以支持ARM,MIPS,PowerPC(PPC)和x86/64指令集。实验结果表明,当缺少源码、函数名等信息时,相比FLIRT和SaTC,CMPSeek在精准率和召回率上都有着更好的结果。

蜜罐博弈中信念驱动的攻防策略优化机制

姜洋洋, 宋丽华, 邢长友, 张国敏, 曾庆伟

计算机科学. 2022, 49 (9): 333-339. doi:10.11896/jsjkx.220400011

摘要 ( 664 )

PDF(2093KB) ( 871 )

参考文献 | 相关文章 | 多维度评价

作为一种典型的欺骗防御手段,蜜罐技术在主动诱捕攻击者方面具有重要意义。然而现有设计方法主要通过博弈模型来优化蜜罐的诱捕决策,忽略了攻击者的信念对双方博弈决策的影响,存在自适应优化决策能力弱、易被攻击者识破并利用等不足。为此,提出了基于信念的蜜罐博弈机制(Belief Based Honeypot Game Mechanism,BHGM)。BHGM基于攻击者完成任务的多轮博弈过程,重点关注蜜罐采取动作对攻击者信念的影响以及信念对攻击者是否继续攻击的影响。同时,基于树上限置信区间(Upper Confidence Bound Apply to Tree,UCT)设计了信念驱动的攻防最优策略求解算法。仿真实验结果表明,信念驱动的攻击方策略能基于当前信念选择继续攻击或及时止损以获得最大收益,而信念驱动的蜜罐策略在考虑风险的情况下能尽量降低攻击方怀疑,以诱骗其继续攻击,从而获得更大收益。

压缩差值后的双直方图平移可逆信息隐藏方法

郝洁, 平萍, 付德银, 赵红泽

计算机科学. 2022, 49 (9): 340-346. doi:10.11896/jsjkx.220300238

摘要 ( 864 )

PDF(2757KB) ( 922 )

参考文献 | 相关文章 | 多维度评价

基于直方图平移(Histogram Shifting,HS)的可逆信息隐藏(Reversible Data Hiding,RDH)是目前信息隐藏中最为普遍的技术,特别是对于结合了差值扩展和直方图平移的方法来说,可以实现较高的嵌入容量和较低的图像失真。文中提出了一种压缩差值后的双直方图平移的可逆信息隐藏方法。该算法通过综合压缩、差值及优化后的直方图平移这3种方法,改进了现有基于直方图平移方法嵌入容量不够大的缺陷,同时也给出了图像像素值在平移过程中产生溢出的处理方式。在接收端,不仅能够完整地提取数据,也能够进行无损的图像恢复。将所提方法与当前流行的4种方法进行了比较,所提方法在嵌入容量方面优于现有的基于直方图平移的算法,其嵌入容量与近年的4种方法相比提升了 23%,11%,57%和93%。实验结果表明,所提方法的嵌入容量大幅增加,能够有效地实现大嵌入容量的可逆信息隐藏。

基于随机洋葱路由的LBS移动隐私保护方案

王磊, 李晓宇

计算机科学. 2022, 49 (9): 347-354. doi:10.11896/jsjkx.210800077

摘要 ( 672 )

PDF(1953KB) ( 925 )

参考文献 | 相关文章 | 多维度评价

为了保障移动节点在使用基于位置的服务时的位置隐私,提出了一种基于随机洋葱路由的LBS移动隐私保护方案。该方案通过使用随机洋葱路由和混合加密方法相结合的方式来确保移动节点位置隐私和查询请求的安全性。移动节点在向LBS服务器发送查询请求之前,随机在网络中选取若干节点构造一条洋葱路径,查询请求则沿着这条路径上的节点依次转发,直到LBS服务器收到消息为止。然后,LBS将查询结果沿洋葱路径反向发送给发送节点。为了实现发送节点匿名,随机构建的洋葱路径上每一层的地址都使用对称加密和非对称加密相结合的方式进行加密,就这样层层加密生成最终的洋葱路径,路径中的每一跳节点都只能获取到其对应的下一跳节点的地址。LBS服务器和任意的中转节点都无法获知谁是发送节点,确保了发送节点的位置隐私。另一方面,为了保证查询请求和查询结果不被任意的第三方获取,发送节点首先使用一个对称密钥对查询请求进行加密,再使用LBS服务器的公有密钥加密该对称密钥,并将加密后的对称密钥密文附在查询请求密文后发送。LBS服务器同样将加密后的查询结果返回。实验结果表明,随着系统中节点数目的增多,该方案的平均响应时间也随之缓慢增加,不会出现平均响应时间随节点数目的增多而急剧增加从而导致系统瘫痪的现象,说明系统具有较好的稳定性和可伸缩性。洋葱路径是随机选择的,不依赖于特定的节点,因此该方案具有较好的健壮性。

保护隐私的汉明距离与编辑距离计算及应用

窦家维

计算机科学. 2022, 49 (9): 355-360. doi:10.11896/jsjkx.220100241

摘要 ( 678 )

PDF(1484KB) ( 1650 )

参考文献 | 相关文章 | 多维度评价

随着信息技术的快速发展,在保护数据隐私的条件下进行多方合作计算越来越普及,安全多方计算已成为解决这类问题的核心技术。在科学研究及实际应用中,人们常根据两个字符串之间的汉明/编辑距离度量其相似程度,研究汉明/编辑距离的保密计算具有重要意义。文中主要针对汉明距离与编辑距离的两方保密计算问题进行研究。首先将汉明距离的计算问题转化为向量内积计算问题,应用加密选择技巧以及Okamoto-Uchiyama(OU)密码系统设计保密计算协议。然后通过对参与者字符串中各字符进行统一编号的方法,将编辑距离的计算问题转化为判定隐私数据的差是否为0的问题,应用OU密码系统设计编辑距离保密计算协议。应用模拟范例严格证明了协议的安全性,分析了协议的计算复杂性,测试了协议的实际执行效率,并与目前已有相关结果进行了分析比较。理论分析和实验结果都表明了协议的高效性。