1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2023年第8期, 刊出日期:2023-08-15
  
封面下载
目录
第50卷第8期目录
计算机科学. 2023, 50 (8): 0-0. 
摘要 ( 405 )   PDF(266KB) ( 472 )   
相关文章 | 多维度评价
数据库&大数据&数据科学
基于LSM树的键值存储系统技术研究综述
吕萌, 华文镝, 谢平
计算机科学. 2023, 50 (8): 1-15.  doi:10.11896/jsjkx.220900178
摘要 ( 593 )   PDF(1995KB) ( 1837 )   
参考文献 | 相关文章 | 多维度评价
键值存储是数据库最简单的组织形式。在数据密集型的应用场景中,键值存储系统发挥着关键的作用。随着对及时数据分析需求的增加,良好的系统性能变得越来越重要。目前大多数键值存储系统的存储引擎都是日志结构合并树(Log-Structured Merge Tree,LSM树)。因具有卓越的写性能,LSM树被广泛应用于写密集型的场景和现代NoSQL系统的存储层。与传统的B树相比,LSM树采用顺序写入的访问模式,并使用内存缓冲区来批处理新的写入线程,因此LSM树具有更大的写优势。然而,数据的重复读写和不必要的压缩操作导致了LSM树的读写放大问题,从而严重影响了系统的性能,尤其在数据密集型的应用场景。如今,研究人员做了大量工作来缓解这些问题,文中研究了影响LSM树性能的各个因素,搜集了大量提升基于LSM树的键值系统性能的文献,并对其加以整理和分类,讨论它们的优势和权衡,使读者可以了解基于LSM树的存储技术及其优化策略,最后调查了几个具有代表性的基于LSM树的键值存储技术并讨论了潜在的未来研究方向。
基于异构信息网络的最大影响力社区搜索
杜明, 杨雯, 周军锋
计算机科学. 2023, 50 (8): 16-26.  doi:10.11896/jsjkx.220600262
摘要 ( 480 )   PDF(3442KB) ( 1791 )   
参考文献 | 相关文章 | 多维度评价
异构信息网络能够对对象类型多样、交互复杂的数据系统进行有效建模。基于异构信息网络进行社区搜索的研究,通常以顶点类型、最小度和网络结构为中心建立社区模型,查询内聚子图。但现有研究存在两个问题:1)未考虑网络中隐藏的另一种自然属性——影响力对查询结果的影响;2)忽略了用户对查询结果规模上限的要求,导致查询结果与用户预期不匹配。为此,对与影响力信息相结合的异构信息网络进行研究,并提出组合约束模型作为该类网络的社区内聚性度量标准。为解决基于组合约束模型的社区搜索问题,提出了两种通过预处理和剪枝策略进行优化的搜索算法。最后,在8个数据集上对所提算法的有效性和高效性进行验证。
量子原型聚类
刘翔, 祝静, 仲国强, 顾永建, 崔丽媛
计算机科学. 2023, 50 (8): 27-36.  doi:10.11896/jsjkx.220600124
摘要 ( 444 )   PDF(3993KB) ( 1557 )   
参考文献 | 相关文章 | 多维度评价
经典机器学习算法的量子化重构是量子机器学习领域的一个重要研究方向。聚类作为一类在机器学习领域被广泛应用的算法,其量子化重构也拥有较高的研究价值。目前的量子机器学习算法大多存在复现难度大、难以与经典算法形成直观对比等问题。为解决这些问题,提出了一种量子原型聚类算法(Quantum Prototype Clustering,QPC),该算法可以很方便地在现有的通用性量子计算设备上部署。该方法首先结合单量子位旋转特性,寻找信息损失最小的特征映射方式,使用双维度特征数据制造单量子位旋转;然后,基于多量子位纠缠及纠缠系统坍缩的特性,设计了一种用于制造特定量子纠缠系统和测量纠缠系统坍缩结果的量子线路。根据纠缠系统中受控量子位旋转角和纠缠系统坍缩结果的关系,并结合闵可夫斯基距离的定义,推导了一种用于评估输入样本相似性的量子距离。该量子距离测量模块与经典计算机中的距离计算模块具有相同的输入输出形式,可以不加修改地替换掉原型聚类中的闵可夫斯基距离计算,从而将经典的原型聚类算法重构为QPC。在来自kaggle和scikit-learn的多组公开数据集上进行的多次重复实验表明,在平均样本中心距等评价指标上,QPC与经典的原型聚类算法无明显差别。
基于注意力机制的多模态在线评论有用性预测研究
张逸安, 杨颖, 任刚, 王刚
计算机科学. 2023, 50 (8): 37-44.  doi:10.11896/jsjkx.220600204
摘要 ( 569 )   PDF(3830KB) ( 1833 )   
参考文献 | 相关文章 | 多维度评价
在电子商务时代,在线评论被视为一类重要的商品评价,深刻影响着消费者的决策过程。但是指数级增长的评论数量和非结构化的评论数据给评论有用性预测模型的特征选择和精确度提升带来了挑战。此外,目前的研究主要集中于浅层特征和评论文本的特征提取,往往忽略了评论照片所包含的图像信息,同时评论文本、照片、浅层特征这些多模态的信息需要应用多模态融合方法进行信息的提炼融合。基于此,文中将评论照片和评论文本作为影响在线评论有用性的潜在特征,并根据KAM知识采纳理论设计浅层特征集合。对于3种模态的数据,提出了一种基于协同注意力机制的三模态评论有用性预测模型(TMCAM),用于实现跨模态信息的交互和融合。实验结果检验了TMCAM模型的优越性能,证明了图像和文本信息的互补能够达到比单一模态信息更好的效果;浅层特征能够辅助预测评论有用性;相比简单的模态特征拼接,利用协同注意力机制进行跨模态信息交互有助于提升对评论有用性的感知。
基于张量加权与截断核范数的交通数据修复方法
武江南, 张红梅, 赵永梅, 曾航, 胡钢
计算机科学. 2023, 50 (8): 45-51.  doi:10.11896/jsjkx.220600160
摘要 ( 284 )   PDF(3627KB) ( 1830 )   
参考文献 | 相关文章 | 多维度评价
数据缺失问题严重影响了智能交通系统中通过数据监控交通态势、预测交通流量、部署交通规划等一系列活动。为此,运用基于张量奇异值分解的低秩张量补全框架提出了加权与截断核范数相结合的交通流数据重构模型WLRTC-TTNN(Low Rank Tensor Completion of Weighted and Truncated Nuclear Norm),该模型可以有效地对缺失的时空交通数据进行修复。WLRTC-TTNN方法主要有两方面的优点:一是加入权重因子解决了原始模型对数据输入方向的依赖问题,实现了模型方向的灵活性;二是运用张量的截断核范数来代替张量的核范数作为张量秩最小化的凸代理,保留了时空交通数据内部主要的特征信息,且根据广义奇异值阈值理论,对较小奇异值进行惩罚处理,进一步优化了模型,最终使用交替乘子法实现了WLRTC-TTNN算法。在两个公开的时空交通数据集上选取不同的缺失场景与缺失率进行实验,结果表明:WLRTC-TTNN的补全性能优于其他基线模型,整体的补全精度提高了3%~37%,在数据极端缺失的情况下,其补全效果更加稳定。
基于多维稀疏表示的空气质量指数数据补全
蔡启铨, 卢举鸿, 於志勇, 黄昉菀
计算机科学. 2023, 50 (8): 52-57.  doi:10.11896/jsjkx.220500277
摘要 ( 491 )   PDF(2183KB) ( 1437 )   
参考文献 | 相关文章 | 多维度评价
近年来,日益严重的空气污染正成为影响人们身体健康的危险因素之一。空气质量指数数据可以为政府提供大气环境变化的规律,也可以用于对大气污染的控制和管理。但该数据在采集的过程中不可避免地存在缺失,导致了对其进行数据挖掘的难度升高。为了更加充分地利用已经搜集到的数据,对缺失数据进行补全是非常必要的。然而,现有的补全方法往往在高缺失率情况下表现不佳。基于此提出将缺失矩阵补全问题转换为稀疏矩阵重构问题,并设计了一种基于多维稀疏表示的数据补全方法。该方法首先利用训练数据模拟各种随机缺失情况并用于过完备字典的学习,然后利用学习后字典的上半部分获得具有缺失值的矩阵的稀疏表示,最后将该稀疏表示与字典的下半部分相结合得到重构后的估计矩阵。实验结果表明,所提方法在多维时序空气质量指数数据补全问题上优于传统的矩阵补全方法,尤其是在数据缺失比较严重的情况下具有明显的优势。
基于深度强化学习与程序分析的OJ习题推荐模型
金天成, 窦亮, 张伟, 肖春芸, 刘峰, 周爱民
计算机科学. 2023, 50 (8): 58-67.  doi:10.11896/jsjkx.220600260
摘要 ( 486 )   PDF(2300KB) ( 1581 )   
参考文献 | 相关文章 | 多维度评价
当前Online Judge系统(简称OJ)上存有大量习题,导致学生很难根据自己的知识水平和学习需求快速地找到合适的习题,因此需要设计模型向学生推荐习题。然而,由于OJ的独特性以及程序设计能力评价的复杂性,现有推荐模型不能较好地完成OJ习题推荐任务,主要问题包括:OJ习题知识点标签不足与特有的命题风格使模型难以挖掘习题之间的相关性;学生所提交程序的实际正确性与OJ判定结果存在不一致的情况,使得模型对学生知识状态的评估产生偏差;现有模型较难提供可使学生程序设计能力得到显著增长的习题。据此,提出了一种基于深度强化学习与程序分析的OJ习题推荐模型。首先,分析习题的最优解来挖掘习题之间的相关性;然后,比较学生所提交程序与习题最优解的相似性来检验学生所提交程序的实际正确性,使模型能够更准确地估计学生的知识状态;最后,利用深度强化学习技术并使用知识追踪模型作为学生模拟器,以学生模拟器在解答习题推荐模型所提供的习题前后在所有习题上的表现差异作为奖励,使模型学习到怎样的习题才能够最大程度地提升学生程序设计能力,并将这样的习题推荐给学生。在业界知名OJ系统CodeForces和Libre数据集上进行实验,结果表明该模型相比目前常见的推荐模型具有更优的性能。
计算机图形学&多媒体
说话人生成研究现状与发展趋势
宋昕洋, 阎志远, 孙沐毅, 戴琳琳, 李琦, 孙哲南
计算机科学. 2023, 50 (8): 68-78.  doi:10.11896/jsjkx.221000031
摘要 ( 748 )   PDF(3632KB) ( 911 )   
参考文献 | 相关文章 | 多维度评价
说话人生成是视觉生成领域的热门研究方向,旨在根据输入的多模态信息生成逼真的说话人视频。说话人生成在影视传媒、游戏动漫和互联网相关产业中具有广阔的应用前景,同时也可以为唇读识别、伪造鉴别和数字人生成等任务的研究提供数据支持。现阶段主流的说话人生成方法已经能够实现包含个性化属性、视听同步的说话人视频生成,但还未能达到虚拟现实、人机交互和元宇宙等新兴应用场景的要求。因此,研究说话人生成对于推动相关产业发展具有重要意义。对说话人生成的研究现状进行梳理与总结,首先阐述了说话人生成的研究背景和相关技术,然后根据方法分类介绍了近年来主流的说话人生成方法,整理了相关研究中常用的视听数据集和评价指标,最后总结现有方法存在的问题,分析了说话人生成未来潜在的研究方向。
计算机视觉下的旋转目标检测研究综述
王旭, 吴艳霞, 张雪, 洪瑞泽, 李广生
计算机科学. 2023, 50 (8): 79-92.  doi:10.11896/jsjkx.221000148
摘要 ( 898 )   PDF(3474KB) ( 1878 )   
参考文献 | 相关文章 | 多维度评价
传统目标检测器通过水平边界框(Horizontal Bounding Box,HBB)定位目标,在检测方向角任意、分布密集、长宽比大、背景复杂的目标时,往往精度较低、泛化能力较差。在边界框中增加不同旋转角度的旋转目标框可有效解决上述问题,其被广泛应用在遥感图像、场景文本图像、货架商品图像等目标检测领域,具有重要研究价值。目前大多数工作旨在构建不同的旋转目标检测模型,对现有模型的归纳总结及深入分析的综述性工作较少。为此,对旋转目标检测现有研究成果进行了详细综述。首先根据当前流行的目标框表征方式,将目标框分为旋转矩形框(Oriented Bounding Box,OBB)、四边形边界框(Quadrilateral Bounding Box,QBB)和点集(Point set) 3种类型,并比较了不同旋转目标检测算法的优缺点、网络结构和性能;其次分析了目前常用的旋转目标检测数据集和性能评价指标;最后对目前研究中存在的问题进行简要总结和讨论,并对未来的发展趋势进行展望。
一种面向航空图像的自适应目标计数模型
魏畅, 关佶红, 张毅超, 李文根
计算机科学. 2023, 50 (8): 93-98.  doi:10.11896/jsjkx.220600258
摘要 ( 368 )   PDF(3132KB) ( 528 )   
参考文献 | 相关文章 | 多维度评价
目标计数旨在获取给定图像中包含的车辆、建筑物、人物等特定种类目标的数量,对城市规划、应急响应、国家安全等具有重要意义。当前目标计数任务主要依赖于低空摄像头所拍摄的图像,存在目标易被遮挡和计数空间范围小等突出问题。高清航空遥感图像的广泛使用使大范围目标计数成为可能。然而,面向航空图像的目标计数任务存在目标尺度差异大、分布密集、方向不确定等挑战,现有基于低空图像的目标检测计数模型和回归计数模型均无法适用于航空图像的目标计数。针对该问题,提出了一种面向航空图像的自适应目标计数模型。首先,利用几何自适应高斯卷积方法解决目标尺度变化问题;然后,利用基于结构相似性的图片损失判断方法解决目标密集区域计数稳定性较差的问题。实验结果表明,所提模型相较于基准模型取得了更好的目标计数精度。
基于深度学习的图像描述优化策略
周子懿, 熊海灵
计算机科学. 2023, 50 (8): 99-110.  doi:10.11896/jsjkx.230200091
摘要 ( 345 )   PDF(3037KB) ( 605 )   
参考文献 | 相关文章 | 多维度评价
图像描述旨在用语法正确的自然语句描述图像内容,自动地生成文本。图像描述涉及计算机视觉与自然语言处理,是多模态领域的经典任务。近年来,大量的研究开始关注图像描述这类联合了视觉和语言的多模态任务,并取得了许多突破性成果。目前已有的关于图像描述的综述大多以技术为核心,从分类的角度来进行分析。考虑到基于深度学习的图像描述已成为当前的主流研究方法,而且其实质就是一种图像到序列的问题,因此,文中以视觉输入子任务和语言输出子任务为主题,以优化策略为核心,对比分析这两项子任务的优化逻辑与技术发展趋势;同时就图像描述的现有挑战与任务变体等关键共性问题进行讨论,最后期望进一步厘清基于深度学习图像描述的优化策略与发展方向。
融合音字特征转换的非自回归Transformer中文语音识别
滕思航, 王烈, 李雅
计算机科学. 2023, 50 (8): 111-117.  doi:10.11896/jsjkx.220600144
摘要 ( 480 )   PDF(1726KB) ( 613 )   
参考文献 | 相关文章 | 多维度评价
基于自注意力机制的Transformer模型在语音识别任务中展现出了强大的模型性能,其中非自回归Transformer自动语音识别模型与自回归模型相比解码速度更快,然而语音识别速度的提升却造成了准确度的大幅降低。为提升非自回归Transformer语音识别模型的识别准确度,首先引入基于连续时间分类(Connectionist Temporal Classification,CTC)的帧信息合并,在帧宽范围内对语音高维表示向量进行融合,改善非自回归Transformer decoder输入序列的特征信息不完整问题;其次对模型输出进行音字特征转换,在decoder的输出读音特征中融合上下文信息,然后转换为包含更多字符特征的输出,从而改善模型同音不同字的识别错误问题。在中文语音数据集AISHELL-1上的实验结果显示,所提模型实现了实时性因子(Real Time Factor,RTF)0.002 8的识别速度与字符错误率(Character Error Rate,CER)8.3%的识别精度,在众多主流中文语音识别算法中展现出较强的竞争力。
基于迁移学习的越南语语音合成
杨琳, 杨鉴, 蔡浩然, 刘聪
计算机科学. 2023, 50 (8): 118-124.  doi:10.11896/jsjkx.220600045
摘要 ( 539 )   PDF(3116KB) ( 637 )   
参考文献 | 相关文章 | 多维度评价
越南语是越南社会主义共和国的官方语言,属南亚语系越芒语族越语支。近年来基于深度学习的语音合成已经能够合成出高质量的语音,然而这类方法通常依赖于大规模的高质量语音训练数据。解决某些低资源非通用语语音训练数据不足问题的一种有效途径为:采用迁移学习方法并借用其他高资源通用语语音数据。在低资源条件下,以提高越南语语音合成质量为目标,选用端到端语音合成模型Tacotorn2作为基线模型,采用迁移学习方法研究不同源语言和不同文本字符嵌入方式、迁移学习方式对语音合成效果的影响;然后从主观和客观两方面对文中阐述的各种模型所合成的语音进行测评。实验结果表明,基于英语音素嵌入+越南语音素嵌入方式的迁移学习系统在合成自然可懂的越南语语音上取得了较好的结果,合成语音的MOS评分可达4.11分,远高于基线系统的2.53分。
融合粗粒度代价体及双边网格的轻量级多视图三维重建
张啸, 董红斌
计算机科学. 2023, 50 (8): 125-132.  doi:10.11896/jsjkx.220600046
摘要 ( 307 )   PDF(2803KB) ( 689 )   
参考文献 | 相关文章 | 多维度评价
针对基于深度学习的多视图立体(Multi-view Stereo,MVS)重建算法内存消耗过大、推理速度慢,以及对病态区域重建效果不佳的问题,提出了一种基于双边网格和融合代价体的轻量级级联的MVS重建网络。首先利用基于双边网格的代价体上采样模块将较低分辨率代价体高效地恢复成高分辨率代价体。随着采用轻量级的动态区域卷积和粗粒度代价体融合模块,提升网络对病态区域特征的表示能力以及对场景整体信息和结构信息的感知能力。实验结果表明,该网络在DTU数据集以及Tanks and Temples数据集上均取得了具有竞争性的结果,并且在内存消耗以及推理速度上都显著优于其他方法。
基于生成对抗网络的遥感图像锐化方法
闫艳, 隋毅, 司建伟
计算机科学. 2023, 50 (8): 133-141.  doi:10.11896/jsjkx.220600065
摘要 ( 651 )   PDF(3399KB) ( 594 )   
参考文献 | 相关文章 | 多维度评价
现有遥感图像锐化方法普遍采用Wald协议,导致重建图像存在空间纹理细节和颜色模糊、边缘过于平滑的问题。针对该问题,提出基于生成对抗网络(Generative Adversarial Networks,GAN)的遥感图像锐化方法PAN-GAN。该方法将多光谱图像作为参考图像,使用灰度化的参考图像模拟全色图像,并与模糊化的参考图像共同作为生成器输入,由生成器分别提取前者的纹理细节特征和后者的光谱特征并进行融合重构;引入感知损失,联合对抗损失和像素损失共同优化重构图像,使重构图像具有更加逼近参考图像的光谱和纹理细节特征。在QuickBird,GaoFen-2和WorldView-2这3个遥感卫星的图像数据集上进行实验,结果表明:与常用方法相比,使用PAN-GAN得到的重构图像具有更加逼真的光谱和空间纹理细节;使用灰度化的参考图像能够显著提升原有方法的性能并且平均灰度化提升最为明显;感知损失的引入进一步优化了重构结果,验证了所提方法的有效性。
人工智能
融合知识的领域自适应方法综述
崔福伟, 吴璇璇, 陈钰枫, 刘健, 徐金安
计算机科学. 2023, 50 (8): 142-149.  doi:10.11896/jsjkx.220800040
摘要 ( 533 )   PDF(1515KB) ( 1511 )   
参考文献 | 相关文章 | 多维度评价
训练基于数据驱动的模型时,常假设源域和目标域的数据分布相同,但是,在实际场景中,这一假设通常不成立,因此容易造成模型的泛化能力较差的问题。为提高模型的泛化能力,领域自适应方法应运而生,其通过学习源域和目标域的数据特征来对齐两域数据分布,使得在源域数据上训练好的模型在有少量数据标签或者没有数据标签的目标域上也具有较好表现。为了进一步提高模型的泛化能力,现有研究探索将知识融入领域自适应方法中,该技术具有较高的实用价值。文中首先概述了融合知识的领域自适应方法的发展背景和相关综述的研究现状;其次对领域自适应的问题定义和理论基础进行了介绍;然后给出了一种融合知识的领域自适应方法的分类体系,并对其中的一些代表性方法进行了概述;最后,通过对该领域挑战性问题的分析,预测了融合知识的领域自适应方法未来的研究方向,以期为相关的研究提供一定的参考。
基于预训练语言模型和标签指导的文本复述生成方法
梁佳音, 谢志鹏
计算机科学. 2023, 50 (8): 150-156.  doi:10.11896/jsjkx.221100128
摘要 ( 275 )   PDF(2096KB) ( 547 )   
参考文献 | 相关文章 | 多维度评价
文本复述生成是自然语言处理中一项重要且具有挑战性的任务。最近很多工作将句子不同粒度的句法结构信息用于指导复述生成过程,取得了一定的效果,然而这些方法大多比较复杂,迁移使用困难。另外,预训练语言模型因学习到大量语言知识而在各项自然语言处理任务中表现出了较好的性能,然而将其用在复述生成任务中的工作较少。针对这些问题,文中提出了基于预训练语言模型和标签指导的复述生成方法。该方法在复述任务上微调预训练语言模型以提升效果,同时用简单的标签插入方式为复述生成模型提供句法结构指导。实验结果表明,这种标签插入结合预训练语言模型的方法在ParaNMT和Quora数据集上的性能优于传统Seq2Seq方法,并且用该方法做数据增强能为下游任务带来效果提升。
增强实体表示的文档级关系抽取方法研究
丁肖摇, 周刚, 卢记仓, 陈静
计算机科学. 2023, 50 (8): 157-162.  doi:10.11896/jsjkx.220700161
摘要 ( 252 )   PDF(2276KB) ( 757 )   
参考文献 | 相关文章 | 多维度评价
文档级关系抽取是自然语言处理领域研究的热点和难点问题,基于图的模型是当前文档级关系抽取的主流方法之一,该类方法虽然能有效解决实体节点之间的长距离依赖问题,但其在构造节点时往往未充分考虑句子上下文、文档主题、实体对距离、实体对相似度等额外信息,导致关系抽取的性能较低。针对该问题,提出了基于增强实体表示的文档级关系抽取模型。首先,将原始文档作为输入,构建基础文档图结构;然后,通过图神经网络传播机制聚合邻接点的信息,将与实体关系预测相关的句子上下文、主题信息融入基础文档图的实体节点表示中,从而获得增强的实体节点表示;最后,利用增强后实体节点的图模型对实体关系进行预测。实验结果表明,所提模型在文档级关系抽取任务中的性能优于已有模型,且可解释性更好。
一种文本-图像增强的多模态知识图谱嵌入方法
肖桂阳, 王立松, 江国华
计算机科学. 2023, 50 (8): 163-169.  doi:10.11896/jsjkx.220700216
摘要 ( 714 )   PDF(1820KB) ( 650 )   
参考文献 | 相关文章 | 多维度评价
大多传统的知识表示学习方法只关注三元组中的结构化信息,无法很好地利用实体图像、关系路径、文本描述等附加信息来学习知识表示或只融合一种附加信息。因此,提出同时融合实体描述和图像的多模态知识图谱嵌入方法,通过文本、图像相互增强,可以提供更加全面的外部信息来弥补单个信息源的不完整性给知识表示学习带来的不足。首先进行实体描述和图像建模,得到实体的文本表示和图像表示,并把它们作为TransE中结构表示的补充,最后通过3种实体表示的联合训练实现知识图谱和文本、图像的统一空间表示,提高实体和关系预测的准确性。实验结果表明,该模型实体预测的命中率比不融合附加信息的方法提高了3.09%,比只融合实体描述的方法提高了0.97%,比只融合实体图像的方法提高了1.32%。
基于框架语义和图结构的阅读理解答案抽取方法
杨陟卓, 许玲玲, 张虎, 李茹
计算机科学. 2023, 50 (8): 170-176.  doi:10.11896/jsjkx.220600070
摘要 ( 529 )   PDF(2564KB) ( 521 )   
参考文献 | 相关文章 | 多维度评价
机器阅读理解是自然语言处理领域最具挑战性的任务之一。随着深度学习技术的不断发展以及大规模MRC数据集的发布,机器阅读理解模型的性能不断刷新记录。但是以往的模型在逻辑推理、深层语义理解等方面仍存在不足。为解决上述问题,提出了一种基于框架语义和图结构的阅读理解答案抽取方法。该方法首先利用汉语框架网匹配与问句语义相关的候选句;其次提取问题和候选句中的实体,以实体在句子中的依存句法和语义关系构建实体关系图;最后将实体关系图引入图注意网络进行逻辑推理,实现阅读理解答案抽取。在DuReader-robust数据集上的实验结果表明,所提方法取得了比基线模型更好的效果。
邻域双向聚合与全局感知的TKG链接预测模型
唐绍赛, 申德荣, 寇月, 聂铁铮
计算机科学. 2023, 50 (8): 177-183.  doi:10.11896/jsjkx.220900061
摘要 ( 347 )   PDF(2154KB) ( 582 )   
参考文献 | 相关文章 | 多维度评价
时序知识图谱(Temporal Knowledge Graph,TKG)在推荐系统、搜索引擎和自然语言处理等领域有着广泛的应用前景,然而其不完备性限制了它的应用,因此研究面向TKG的链接预测模型具有重要作用。针对已有的工作大多面向TKG补全,无法预测未来的事实,提出了一种邻域双向聚合与全局感知的TKG链接预测模型。一方面,分别聚合实体的主动和被动行为并通过循环神经网络建模其历时演变来捕捉实体的短期行为;另一方面,基于全局感知模块来捕捉实体的长期行为。在4个基准数据集上进行了测试,结果表明所提模型能够提升模型预测未来事实的性能。
基于增强序列标注策略的单阶段联合实体关系抽取方法
朱秀宝, 周刚, 陈静, 卢记仓, 向怡馨
计算机科学. 2023, 50 (8): 184-192.  doi:10.11896/jsjkx.220700082
摘要 ( 489 )   PDF(2807KB) ( 595 )   
参考文献 | 相关文章 | 多维度评价
从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction, ATMREL)。首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息。然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务。最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果。实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和WebNLG数据集上的参数量减少了3.1×106~5.4×106,平均推理速度提升了2~4.2倍,F1值提升了0.5%~2.1%。
基于元学习和注意力机制的用户行为识别研究
王佳昊, 钟鑫, 李文雄, 赵德鑫
计算机科学. 2023, 50 (8): 193-201.  doi:10.11896/jsjkx.220900124
摘要 ( 438 )   PDF(3797KB) ( 765 )   
参考文献 | 相关文章 | 多维度评价
深度学习技术研究的深入,极大地促进了其在行为识别领域的应用和发展。目前基于深度学习的行为识别研究不可避免地依赖于大量的训练数据,而基于传感器数据的行为识别问题往往在实际应用中需要面向不同的新用户,导致存在用户数据个性化的问题且难以解决,即不同个体在进行同一行为动作时不可避免地会产生一些数据差异,模型在面对新用户时并不能保证对其具有良好的预期行为识别度,而每次针对新用户采集大量训练数据以进行重新建模缺乏实施可行性。针对这一难题,小样本学习技术在新的任务上仅使用少量数据就能够达到较好效果,即在行为识别问题上,每个新用户仅需采样少量的数据即可完成分类。文中结合小样本学习和行为识别算法,提出了新的解决方案——MAML-M模型。首先采用基于优化的元学习方法根据用户类型对数据集进行划分,并将其构建为多个用户任务用于训练和测试;然后在MAML-M模型中引入了MAML方法以及基于注意力机制的Memory模块;最后提高模型网络提取并归纳数据特征的能力。通过在MEx数据集上进行对比实验,结果证明在小样本设定下,所提出的MAML-M模型优于传统的深度学习方法。
基于状态估计的值分解方法
熊丽琴, 曹雷, 陈希亮, 赖俊
计算机科学. 2023, 50 (8): 202-208.  doi:10.11896/jsjkx.220500270
摘要 ( 297 )   PDF(2393KB) ( 645 )   
参考文献 | 相关文章 | 多维度评价
值分解方法是一种流行的解决合作多智能体深度强化学习问题的方法,其核心是基于IGM(Individual-Global-Max)原则将联合值函数表示为个体值函数的某种组合。该方法中,智能体仅根据基于局部观察的个体值函数选择动作,这导致智能体无法有效地利用全局状态信息学习策略。尽管许多值分解算法已经采用了注意力机制、超网络等手段来提取全局状态的特征以加权个体值函数,从而间接地利用全局信息来指导智能体训练,但这种利用非常有限。在复杂环境中,智能体仍旧难以学到有效策略,学习效率较差。为提高智能体策略学习能力,提出了一种基于状态估计的多智能体深度强化学习值分解方法——SE-VF(Value Factorization based on State Estimation),该方法引入状态估计网络来提取全局状态的特征并得到评估全局状态优劣的状态值,然后将状态损失值作为损失函数的一部分来更新智能体网络的参数,从而优化智能体的策略选择过程。实验结果表明,在星际争霸2微观管理任务测试平台的多个场景中,SE-VF的表现比QMIX等基线更好。
基于柯西变异和差分进化的混沌白骨顶鸟算法
周雪荃, 杜逆索, 欧阳智
计算机科学. 2023, 50 (8): 209-220.  doi:10.11896/jsjkx.220500275
摘要 ( 406 )   PDF(4578KB) ( 722 )   
参考文献 | 相关文章 | 多维度评价
针对白骨顶鸟优化算法(COOT)寻优精度低、容易陷入局部最优、收敛速度慢等问题,提出了基于柯西变异和差分进化的混沌白骨顶鸟算法(Logistic Chaos Coot bird algorithm based on Cauchy mutation and Differential evolution,CDLCOOT)。首先,通过柯西变异使白骨顶鸟位置发生扰动,扩大搜索范围,提高算法的全局搜索能力;其次,对领导者白骨顶鸟采取差分进化策略,增加种群多样性,使适应度更好的领导者带领种群寻优,引导白骨顶鸟个体向最优解前进,帮助其更快地搜索;最后,在白骨顶鸟进行链式运动时加入logistic混沌因子,从而实现混沌的链式跟随运动,提高算法跳出局部最优的能力。在12个经典的测试函数和9个CEC2017测试函数上进行仿真实验,将CDLCOOT算法与正余弦算法(SCA)、灰狼优化算法(GWO)、蚁狮优化算法(ALO)、黑洞模拟算法(MVO)等其他先进算法及原始COOT算法、具有单一策略的原算法进行对比,验证改进算法的有效性。实验结果表明,CDLCOOT算法相比其他启发式算法和改进算法具有更好的全局寻优能力和更快的收敛速度。在经典测试函数中,对于4个单模态函数,CDLCOOT算法寻优平均值相比原始算法平均提高了76个数量级;在2个多模态函数上寻到理论最优值,在另外2个多模态函数上寻优平均值分别比原始算法提高了三四个数量级;在4个固定维度多模态函数上,算法都能寻到理论最优值,收敛速度更快。在CEC2017测试函数中,所提算法在单模态、多模态和混合模态上的收敛精度相比原算法都有所提升,且其收敛速度也比原算法和其他算法更快,算法稳定性更高。
基于蜂群优化的Spiking神经网络模型研究与评估
马韦伟, 郑勤红, 刘珊珊
计算机科学. 2023, 50 (8): 221-225.  doi:10.11896/jsjkx.220700181
摘要 ( 178 )   PDF(2820KB) ( 481 )   
参考文献 | 相关文章 | 多维度评价
为提高Spiking神经网络的训练能力,以多标签分类问题作为研究切入点,采用蜂群算法进行模型优化。基于Spiking理念的神经网络模型有多种,文中选择概率Spiking神经网络(Probabilistic Spiking Neural Network,PSNN)进行多标签分类。首先,建立概率Spiking神经网络分类模型,通过点火时间序列进行编码,触发脉冲响应实现数据传递;然后,利用Spiking神经网络的权重、动态阈值、遗忘参数等构建蜂群,并以多标签分类准确率作为人工蜂群(Artificial Bee Colony,ABC)算法的适应度函数,从而通过不断更新蜂群个体适应度值来获得最优个体;最后,以最优参数完成概率Spiking神经网络的多标签分类。实验结果表明,通过合理设置蜂群个体规模及蜜源搜索范围,ABC-PSNN算法能够获得较高的多标签分类准确率。相比其他Spiking神经网络模型和常用多标签分类算法,ABC-PSNN算法具备更高的分类准确率和稳定性。
基于融合神经网络的LncRNA与疾病关联预测方法
李巧君, 章文, 杨伟
计算机科学. 2023, 50 (8): 226-232.  doi:10.11896/jsjkx.221000202
摘要 ( 295 )   PDF(3418KB) ( 536 )   
参考文献 | 相关文章 | 多维度评价
长链非编码RNA(Long non-coding RNA,LncRNA)的异常表达与疾病的生理和病理过程密切相关,识别LncRNA与疾病之间的潜在关联有助于理解疾病的分子发病机制。以往的方法未能深度整合异构的多源数据以及学习高维特征表示。为此,文中提出了一种基于融合神经网络(Fusion Neural Networks,FNN)预测候选疾病相关LncRNA的方法FNNLDA。FNNLDA整合与LncRNA、疾病和miRNAs相关的多种数据,采用多模型融合思想,利用栈式自编码器和融合神经网络两种深度学习模型分别学习LncRNA-疾病对的高级特征,最后融合两个模块的预测分值来预测LncRNA-疾病的关联性。五折交叉验证显示FNNLDA方法的AUC值比SIMCLDA,MFLDA,CNNLDA和LRLSLDA分别提升了12.5%,15.1%,3.4%和5.8%,表明其在LncRNA-疾病预测性能上有较大提升。基于胃癌疾病案例进行研究,结果证明FNNLDA能够有效识别与疾病关联的潜在LncRNA。
计算机网络
基于深度强化学习和无线充电技术的D2D-MEC网络边缘卸载框架
张乃心, 陈霄睿, 李安, 杨乐瑶, 吴华明
计算机科学. 2023, 50 (8): 233-242.  doi:10.11896/jsjkx.220900181
摘要 ( 379 )   PDF(2442KB) ( 859 )   
参考文献 | 相关文章 | 多维度评价
物联网设备中大量未被充分利用的计算资源,正是移动边缘计算所需要的。一种基于设备对设备通信技术和无线充电技术的边缘卸载框架,可以最大化利用闲置物联网设备的计算资源,提升用户体验。在此基础上,可以建立物联网设备的D2D-MEC网络模型。在该模型中,主设备根据当前环境信息和估计的设备状态信息,选择向多个边缘设备卸载不同数量的任务,并应用无线充电技术提升传输的成功率和计算的稳定性。运用强化学习方法解决任务分配和资源分配的联合优化问题,也就是最小化计算延迟、能量消耗和任务丢弃损失,最大化边缘设备利用率和任务卸载比例的优化问题。除此之外,为了适应状态空间更大的情况,提高学习速度,提出了一种基于深度强化学习的卸载方案。基于以上理论和模型,使用数学推导计算出了D2D-MEC系统的最优解及性能上限。仿真实验证明了D2D-MEC卸载模型及其卸载策略的综合性能更好,更能充分利用物联网设备的计算资源。
基于EMPC-BCGRU的云虚拟机CPU负载分析预测
谢同磊, 邓莉, 尤文龙, 李锐龙
计算机科学. 2023, 50 (8): 243-250.  doi:10.11896/jsjkx.220600264
摘要 ( 313 )   PDF(3589KB) ( 638 )   
参考文献 | 相关文章 | 多维度评价
云平台资源预测对于云资源管理和节能具有非常重要的意义。云虚拟机技术是云平台为了充分利用物理资源而实施的一种虚拟化手段,但是有效的云虚拟机负载预测仍具有挑战性,因为云虚拟机负载具有周期性和非周期性的变化模式以及突变的负载峰值,云虚拟机负载受到用户随机提交作业的影响。为了准确分析云虚拟机负载的变化模式,提升云虚拟机CPU负载预测性能,提出了一种基于分解-预测的云虚拟机负载预测方法。通过经验模态分解和主成分分析的云虚拟机负载模式分解,得到不同尺度的特征波动序列;预测模型的卷积层能够充分提取分解后的特征,并通过双向门控循环神经网络双向学习序列的前向和后向依赖关系,提高了预测模型学习云虚拟机负载变化模式的能力。最后,在真实云环境微软Azure 产生的 2019 VM数据集上进行单步和多步预测实验,验证了所提预测方法的有效性。
信息安全
基于字符特征的 DGA 域名检测方法研究综述
王宇, 王祖朝, 潘瑞
计算机科学. 2023, 50 (8): 251-259.  doi:10.11896/jsjkx.220700277
摘要 ( 470 )   PDF(1623KB) ( 961 )   
参考文献 | 相关文章 | 多维度评价
利用域名生成算法(Domain Generation Algorithm,DGA)可以生成大量的随机域名,近年来僵尸网络普遍使用DGA域名来增强隐蔽性。高效的检测DGA域名,对发现僵尸网络和保障网络信息安全具有重要意义。基于字符特征的 DGA 域名检测指仅利用域名的字符串完成检测,是一种实时检测方法,也是近年来对DGA域名检测研究的热点。对此类方法进行研究发现,使用传统机器学习和深度学习算法能够有效地检测DGA域名。但是对基于单词表的DGA域名、长度较短的DGA域名和新型DGA域名,还需要通过改进词嵌入方式、引入注意力机制或加入对抗样本等方法,来提高检测能力。最后对基于字符特征的DGA域名检测方法进行总结,分析不同检测方法的优点和存在的问题,提出了未来的研究方向和研究中需要解决的关键问题。
基于攻击经济学的移动虚拟运营商诈骗检测
李洋, 李振华, 辛显龙
计算机科学. 2023, 50 (8): 260-270.  doi:10.11896/jsjkx.221000103
摘要 ( 381 )   PDF(3070KB) ( 742 )   
参考文献 | 相关文章 | 多维度评价
受电信资源充分利用和激发良性市场竞争的双重驱动,移动虚拟运营商(虚商)近年来迅速流行,其依靠基础运营商的基础设施为用户提供更灵活优惠的服务。考虑到线下实体店维护成本较高,虚商基本上采取完全线上的服务方式,这给用户监管带来很大困难;很多不法分子利用在线身份认证漏洞,大量购买虚商电话卡拨打诈骗电话,严重损害了虚商及其用户声誉,成为目前虚商存续发展的瓶颈。为解决该难题,与拥有超两百万用户的主流虚商“小米移动”合作研究,发现相关工作普遍假设诈骗电话是随意的、零散的或隐蔽的,导致其检测方法对于虚商场景低效甚至无效。然而,通过人工分析发现,不同于传统假设,虚商场景中几乎所有的诈骗电话都是有组织、按计划、成规模的,从而提出基于攻击经济学、合理分析诈骗电话时空特征的新型检测方法,成功提取出有效甄别的关键特征,再结合机器学习分类,将诈骗用户的比例降低至0.023‰,远低于基础运营商在信息充分的前提下所达到的0.1‰。在避免所提方案被破解的前提下,已将部分代码和数据开源,以帮助净化整个产业生态。
基于安全强化学习的航天器交会制导方法
幸林泉, 肖应民, 杨志斌, 韦正旻, 周勇, 高赛军
计算机科学. 2023, 50 (8): 271-279.  doi:10.11896/jsjkx.220700210
摘要 ( 409 )   PDF(2872KB) ( 661 )   
参考文献 | 相关文章 | 多维度评价
随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对探索空间进行安全限制,这使得航天器交会制导策略设计面临挑战。为此,提出了基于安全强化学习的航天器交会制导方法。首先,设计避撞场景下航天器自主交会的马尔可夫模型,提出基于障碍预警与避撞约束的奖励机制,从而建立用于求解航天器交会制导策略的安全强化学习框架;其次,在该安全强化学习框架下,基于近端策略优化算法(PPO)和深度确定性策略梯度算法(DDPG)这两种深度强化学习算法生成了制导策略。实验结果表明,该方法能有效地进行障碍物避撞并以较高的精度完成交会。另外,通过分析两种算法的性能优劣和泛化能力,进一步证明了所提方法的有效性。
基于多模态特征融合的人脸物理对抗样本性能预测算法
周风帆, 凌贺飞, 张锦元, 夏紫薇, 史宇轩, 李平
计算机科学. 2023, 50 (8): 280-285.  doi:10.11896/jsjkx.221100124
摘要 ( 738 )   PDF(2208KB) ( 605 )   
参考文献 | 相关文章 | 多维度评价
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多种环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。为了减少人脸物理对抗样本性能评测方面的工作量,结合数字图片和环境因素之间的多模态性,提出了多模态特征融合预测算法(Multimodal Feature Fusion Prediction Algorithm,MFFP)。具体地,使用不同的网络提取攻击者人脸图片、受害者人脸图片和人脸数字对抗样本图片的特征,使用环境特征网络来提取环境因素中的特征,然后使用一个多模态特征融合网络对这些特征进行融合,多模态特征融合网络的输出即为所预测的人脸物理对抗样本图片和受害者图片之间的余弦相似度。MFFP算法在未知环境、未知FPAA算法的实验场景下取得了0.003的回归均方误差,其性能优于对比算法,验证了MFFP算法对FPAA性能预测的准确性,可以对FPAA性能进行快速评估,同时大幅降低人工操作的工作量。
面向工业场景数据安全的优化卸载方法
王飚, 王妲, 柯吉, 马雨庆, 张懿璞, 王长青, 李爱军
计算机科学. 2023, 50 (8): 286-293.  doi:10.11896/jsjkx.230100082
摘要 ( 447 )   PDF(2840KB) ( 656 )   
参考文献 | 相关文章 | 多维度评价
针对工业场景数据传输过程中存在的安全卸载问题,文中首次将安全策略作为决策变量融入优化问题,应用计算卸载原理以及差分进化算法,提出了一种数据安全卸载算法。首先针对工业现场设备的本地计算、本地边缘计算、跨车间边缘计算和云计算4种计算模式以及数据安全进行数学建模,将多级安全策略、任务卸载和资源分配相融合,构建了数据安全卸载模型。综合考虑时延和安全风险概率的影响,设计最大化设备满意度的目标函数,形成了安全优化卸载方案。针对该优化问题,提出了一种基于改进的差分进化策略的数据安全卸载算法,在满足最优解的同时,在满足时延和安全风险的要求下实现系统的设备满意度最大化。相比GASORA算法、GSOJRA算法和DEDSTO-NS算法,所提算法不仅使现场设备满足了时延和风险概率的要求,并在保障数据安全性的同时,将设备满意度提高了35%。仿真结果证实了所提方法的有效性,且有一定的现实应用价值。
基于多项式划分的NTRU加密域可逆数据隐藏方案
刘定财, 吴昊天, 庄振威, 何军辉
计算机科学. 2023, 50 (8): 294-303.  doi:10.11896/jsjkx.220800245
摘要 ( 486 )   PDF(3131KB) ( 521 )   
参考文献 | 相关文章 | 多维度评价
随着云计算技术的发展和隐私保护的需要,同态加密域中的可逆数据隐藏已成为一项研究热点。加密域可逆数据隐藏方案大多利用了图像中像素点之间的相关性及冗余,适用范围受到了一定的限制。为了提高数据隐藏方案的适用性和嵌入容量,针对NTRU(Number Theory Research Unit)加密系统,提出了一种基于多项式划分的可逆数据隐藏方案。该方案将NTRU加密系统中的多项式空间划分为用于表示原始载体的明文段和用于隐藏数据的数据隐藏段,可用于在多种加密的数字媒体中隐藏数据。接收者可以从密文中直接提取一部分隐藏的数据,并能从解密得到的明文中提取另一部分隐藏的数据,并无损地恢复原始明文。在实验部分,分别以灰度图像和文本为例,对所提算法的可行性进行验证。实验结果表明,对于一个以8比特表示的明文值,其密文中最多可以隐藏N-8比特的数据,其中N为NTRU加密系统中的参数;当N取503时,在一个密文中最多可以隐藏495比特的数据,并能无损地恢复出原始明文值。与现有的同类方案相比,该方案所提的NTRU域可逆数据隐藏算法具有较高的嵌入容量和较强的适用性。
基于流量和文本指纹的两层物联网设备分类识别模型
祝博宇, 陈霄, 沙乐天, 肖甫
计算机科学. 2023, 50 (8): 304-313.  doi:10.11896/jsjkx.220900145
摘要 ( 226 )   PDF(4682KB) ( 1010 )   
参考文献 | 相关文章 | 多维度评价
为及时隔离局域网内易受攻击的异常物联网设备,对网络管理员而言,具备高效的设备分类识别能力至关重要。现有方法中所选择的特征与设备关联性不高,且设备状态的差异会导致样本数据不平衡。针对上述问题,文中提出了一种基于流量和文本指纹的物联网设备分类识别模型FT-DRF(Flow Text-Double Random Forest)。首先设计特征挖掘模型,选取稳定的流统计数据作为设备流量指纹;其次基于HTTP,DNS和DHCP等应用层协议头部字段中的敏感文本信息生成设备文本指纹;在此基础上,对数据进行预处理并生成特征向量;最后,设计基于双层随机森林的机器学习算法对设备进行分类识别。对由13个物联网设备组成的模拟智能家居环境数据集和公共数据集进行有监督分类识别实验,结果表明,FT-DRF模型能够识别网络摄像头、智能音箱等物联网设备,平均准确率可达99.81%,相比现有典型方法提升了2%~5%。
编译支持的程序栈空间布局运行时随机化方法
朱鹏喆, 姚远, 刘子敬, 席睿成
计算机科学. 2023, 50 (8): 314-320.  doi:10.11896/jsjkx.220800098
摘要 ( 561 )   PDF(2291KB) ( 481 )   
参考文献 | 相关文章 | 多维度评价
多变体执行(Multi-Variant Execution,MVX)是目前最流行的主动防御技术之一,其通过并行运行一组功能等价的异构变体,检测不同变体之间不一致的状态转换实现对攻击行为的识别。多变体执行的防御效果在很大程度上依赖于程序变体之间的异构性,程序变体之间的异构性越高多变体执行的防御效果就越好。为了提高程序变体之间的异构性,文中提出了一种编译支持动静态相结合的程序栈空间布局随机化方法,该方法基于LLVM 12.0编译框架,首先在静态编译阶段根据外部输入获取函数识别程序中的关键变量,定位其栈空间分配指令,并在这些分配指令前添加额外的调用和分配指令,其次在程序运行阶段,利用静态编译时添加的指令在栈空间中的关键变量前进行内存块的随机化填充,从而实现程序运行时内存空间布局随机化。仿真实验结果表明,所提动静结合程序栈空间布局随机化方法可有效提高多变体执行程序间的异构性,对于基于程序内存地址溢出类攻击,不仅提升了其本身的攻击难度,也使得其不能通过不断试探程序地址来进行攻击,有效提高了程序的防御能力。
基于同态加密的隐私保护数据分类协议
陆星缘, 陈经纬, 冯勇, 吴文渊
计算机科学. 2023, 50 (8): 321-332.  doi:10.11896/jsjkx.220700130
摘要 ( 589 )   PDF(2140KB) ( 632 )   
参考文献 | 相关文章 | 多维度评价
随着大数据、云计算技术的发展,用户对于云计算服务的需求也与日俱增。在用户申请云计算服务时,其隐私数据需要在云平台进行存储与计算,而这也带来了隐私数据泄露的问题。同态加密允许在不解密的情况下对密文进行直接运算,得到的新密文解密后即为运算结果,因此可以用于保障用户的隐私数据安全。在半诚实模型下考虑如下两方面的计算框架:用户端按照指定方式将隐私数据加密为密文后发送到服务器端,服务器端根据同态加密方案允许明文与密文间进行运算的性质,使用训练得到的明文模型对用户端发送来的加密数据进行分类,最后将加密的分类结果发送回用户端,由用户端自行解密获得隐私数据的分类结果。在这个框架下,基于同态加密方案BGV设计了超平面分类器、决策树以及KNN这3种机器学习分类算法。根据每种分类器的特性,结合SIMD技术设计不同的密文数据打包策略与分类计算流程,使得用户端与服务器端之间的通信开销大幅降低。特别地,在预测阶段,超平面分类器与决策树实现了无交互的分类,KNN仅需1次交互即可完成分类,并基于HElib同态加密库,采用C++语言实现了这3种分类器。在UCI公开数据集上,超平面分类器能够在几十毫秒到几百毫秒内完成对1个待预测样本的分类,决策树最慢能够在几十毫秒内完成,两种分类器对密文数据的预测准确率均能超过90%,两方仅需要承担用户端发送给服务器端的加密隐私数据与服务器端发送回用户端的加密分类标签的通信开销;KNN分类器平均4s左右完成对1个待预测样本的分类,对密文数据的预测准确率在90%以上,两方除了隐私数据与分类标签的通信开销外,只需要额外负担一轮服务器端与用户端的中间计算结果即可完成分类。与基于同态加密的同类协议相比,在通信轮数、预测准确率、运行效率等方面均有不同程度的改进。
基于可逆数字水印的无线传感器网络可恢复数据聚合协议
高光勇, 韩婷婷, 夏志华
计算机科学. 2023, 50 (8): 333-341.  doi:10.11896/jsjkx.220800089
摘要 ( 414 )   PDF(2294KB) ( 512 )   
参考文献 | 相关文章 | 多维度评价
针对无线传感器网络数据安全认证协议的高能耗与传感器节点资源受限的对立问题,文中提出了一种基于可逆数字水印的聚合协议。一方面,在感知节点处,将水印嵌入到感知数据中,对水印数据进行基于椭圆曲线的同态加密,以此保证数据在传输过程中的私密性;在簇头节点处,对接收的数据只进行聚合和转发操作,以此减小网络通信开销;在基站处,通过提取水印对数据进行完整性认证。另一方面,该协议提出了一种基于环的聚合树,从而降低节点的传输能耗,延长网络生命周期。通过理论分析证明了所提协议将水印技术与数据聚合技术进行了更好的结合,具有较好的安全性和较低的计算开销,且能实现感知数据的完整性认证。此外,与同类算法的对比实验表明该协议在通信开销和时延方面都具有一定的优势。
基于主成分分析和函数机制的差分隐私线性回归算法
李可佳, 胡学先, 陈越, 杨鸿健, 徐阳, 刘扬
计算机科学. 2023, 50 (8): 342-351.  doi:10.11896/jsjkx.220800255
摘要 ( 290 )   PDF(2185KB) ( 679 )   
参考文献 | 相关文章 | 多维度评价
随着人工智能应用的不断落地以及隐私保护法律法规的持续出台,机器学习中的隐私保护问题已成为目前信息安全领域的一个研究热点。文中针对现有的差分隐私线性回归算法全局敏感度大、模型可用性较差的问题,基于高斯机制代替传统的Laplace机制,并通过在算法的两个主要阶段分别添加噪声的方法,提出了一种基于主成分分析和函数机制的差分隐私线性回归算法(PCAFM-DPLR)。首先,为了在降维的同时兼顾数据的隐私性,向原始数据集的协方差矩阵中注入高斯噪声,基于主成分分析得到具有差分隐私保护效果的低维数据集;其次,为防止模型训练过程中可能存在的隐私泄露,再向目标函数的展开多项式系数添加高斯噪声,并以扰动后的目标函数最小化为目标,求得最优模型参数。理论分析和实验结果表明,PCAFM-DPLR算法训练出的线性回归模型能够在有效保证隐私性的同时,具有良好的可用性。
无尺寸约束的不透明谓词构建算法
王雨芳, 乐德广, Jack TAN, 肖乐, 龚声蓉
计算机科学. 2023, 50 (8): 352-358.  doi:10.11896/jsjkx.220600149
摘要 ( 232 )   PDF(2230KB) ( 604 )   
参考文献 | 相关文章 | 多维度评价
结合不透明谓词,控制流混淆可以进行语义保持的变换,从而达到代码保护的目的。然而,现有的不透明谓词容易遭受符号执行攻击且存在小符号变量问题。为了解决上述问题,结合符号变量和数组利用单数组元素嵌套和符号变量模加运算设计不等条件表达式,并提出无尺寸约束的不透明谓词构建算法。基于该算法构建的不透明谓词混淆可以令攻击者错误地将不透明谓词识别为普通谓词或者将普通谓词识别为不透明谓词,从而有效抵御符号执行攻击。此外,利用不透明谓词检测以及虚假控制流去除等测试程序,对应用了无尺寸约束的不透明谓词混淆后程序的强度、弹性及开销进行实验测试分析。测试结果表明,基于所提算法实现的不透明谓词混淆不仅具有高强度和低开销,而且在新测试环境下仍然具有较高的抗反混淆弹性。
面向医疗物联网的匿名认证协议
刘英军, 罗洋, 杨钰均, 刘媛妮
计算机科学. 2023, 50 (8): 359-364.  doi:10.11896/jsjkx.220700151
摘要 ( 307 )   PDF(1632KB) ( 755 )   
参考文献 | 相关文章 | 多维度评价
随着物联网技术的不断成熟,其开始被频繁地应用于各行各业以提高人们的工作效率和生活水平。物联网在医疗领域的广泛应用,不仅能方便患者获取医疗服务,同时也能让医生更及时、准确地获取患者的身体状况,从而制定更高效的治疗方案。然而,人们在享受医疗物联网便利的同时,如何保证患者的通信安全和个人隐私也是不容忽视的问题。为了实现用户安全访问网络,提出了一个基于同态加密的高效匿名认证与密钥交换协议,医疗设备与远程医疗服务器之间只需要一个低熵的口令就可以实现相互认证,从而协商出一个高熵的会话密钥。在标准模型下证明了方案的安全性,仿真实验结果表明该方案比现有的同类方案具有更高的效率。
基于区块链的双分支结构扩展模型
王俊陆, 刘强, 张冉, 纪婉婷, 宋宝燕
计算机科学. 2023, 50 (8): 365-371.  doi:10.11896/jsjkx.220900049
摘要 ( 256 )   PDF(3069KB) ( 574 )   
参考文献 | 相关文章 | 多维度评价
随着区块链技术的迅速发展,区块链面临着存储开销和数据吞吐率方面的可扩展性挑战。受全体一致性共识原则影响,区块链节点需存储整个区块链的全局账本,数据存储开销大;同时,为维持区块内交易一致和可信,区块链网络中所有节点均需参与到交易验证同步中,导致网络中区块同步延迟高,带宽征用受阻,进一步降低了数据吞吐量。针对这些问题,提出了一种基于区块链的双分支结构扩展模型。首先,建立区块链三元存储扩展结构,节点对存储任务进行精准划分,分别存储区块链的单一、部分、全局账本,有效降低节点存储负担。其次,提出双分支结构模型,将主链进行信息分流,通过多通道子链并行存储数据,显著提升数据存储速率。针对分流后子链存在的兼容问题,引入双向轮换机制实现链式结构间融合过渡;针对分流后子链安全问题,提出赌徒扩展-F、赌徒扩展-S策略,对两种链式结构进行模拟安全攻击,并对攻击过程进行数学建模。最后,构建两个模型的安全性约束,验证双分支模型的安全性。实验结果表明,所提双分支结构扩展模型能有效抵御恶意双花攻击,且在存储开销、数据吞吐率方面有很大优势。