1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
当期目录
2024年第12期, 刊出日期:2024-12-15
  
封面下载
目录
第51卷第12期目录
计算机科学. 2024, 51 (12): 0-0. 
摘要 ( 149 )   PDF(271KB) ( 320 )   
相关文章 | 多维度评价
数字孪生网络与人工智能融合
数字孪生网络与人工智能融合专题序言
张彦
计算机科学. 2024, 51 (12): 1-1.  doi:10.11896/jsjkx.qy20241201
摘要 ( 257 )   PDF(973KB) ( 337 )   
相关文章 | 多维度评价
元宇宙关键技术、研究进展与应用综述
王文通, 张智军, 张铭洋
计算机科学. 2024, 51 (12): 2-11.  doi:10.11896/jsjkx.240400166
摘要 ( 590 )   PDF(2719KB) ( 397 )   
参考文献 | 相关文章 | 多维度评价
随着数字化技术的快速发展,元宇宙已经成为人们关注的焦点之一。作为一种全新的虚拟世界,元宇宙将重新定义人们的生活和工作方式。文中介绍了元宇宙的概念和意义,并从元宇宙的技术特点出发,对元宇宙的关键技术进行了深入研究。具体来说,对区块链、交互技术、人工智能、物联网、算力及运算、数字孪生六大技术进行了分析,总结了元宇宙关键技术的研究进展、面临的问题和挑战,并对未来元宇宙的研究方向、发展趋势及应用前景进行了展望。
基于数字孪生的卫星网络移动边缘计算研究综述
孙云鹤, 王煜, 赵亮, 杨东升, 关云冲
计算机科学. 2024, 51 (12): 12-19.  doi:10.11896/jsjkx.240700046
摘要 ( 199 )   PDF(1846KB) ( 346 )   
参考文献 | 相关文章 | 多维度评价
随着通信技术的快速发展,卫星通信技术在当今信息通信领域扮演着至关重要的角色。卫星网络覆盖范围广,能够随时为全球用户提供低延迟服务。但卫星网络建设仍然面临卫星设计成本高、发射风险大、卫星网络的测试和维护成本昂贵等难题。随着数字孪生(Digital Twin,DT)技术的兴起,DT技术与卫星网络形成了一种完美的契合,为卫星网络运营提供了强大的数据支持和决策依据。文章综述了基于DT的卫星网络移动边缘计算的研究进展。首先介绍了地面基站通信的局限性,进而引出卫星网络的应用;其次详细阐述了卫星网络的组成结构、卫星分类及卫星边缘计算的概念;接着介绍了DT技术,并重点分析了DT卫星边缘计算平台和基于DT的卫星网络移动边缘计算算法;最后总结了当前研究中存在的问题和未来的发展方向。
知识定义算力网络下的重击流智能流量调度机制
粘英璞, 易波, 李沛辰, 王兴伟, 黄敏
计算机科学. 2024, 51 (12): 20-29.  doi:10.11896/jsjkx.240300064
摘要 ( 168 )   PDF(2721KB) ( 325 )   
参考文献 | 相关文章 | 多维度评价
当前,知识定义网络赋能AI技术发展,算力网络提供AI所需算力资源,二者逐渐趋于融合,形成了知识定义算力网络(Knowledge Defined Computing Networking,KDCN)。KDCN赋能发展了诸多新型网络应用,如元宇宙、AR/VR、东数西算等,这些新型应用对算力资源和网络资源有极大的需求,被称为重击流(Heavy Hitter,HH)。HH流的存在严重加剧了KDCN网络的拥塞情况。针对这一挑战,提出了一种智能流量调度机制,旨在通过深度Q神经网络来解决KDCN中的拥塞问题。相较于离线训练过程,通过流量数据检测与采集、在模型训练和拥塞流调决策之间建立实时闭环,来实现深度Q神经网络模型的在线训练。基于该闭环控制,智能流调模型通过不断学习可以实现持续演化,并用于提供实时决策。实验结果表明,该算法在资源利用率、吞吐量、平均丢包率等方面优于现有方法。
基于深度对比孪生网络的事件辨重方法
李子琛, 易修文, 陈顺, 张钧波, 李天瑞
计算机科学. 2024, 51 (12): 30-36.  doi:10.11896/jsjkx.240300025
摘要 ( 171 )   PDF(1807KB) ( 247 )   
参考文献 | 相关文章 | 多维度评价
在中国,市民可以通过拨打12345市民热线,向政府报告生活中遇到的问题并寻求帮助。然而,有许多重复的事件被多次上报,这给负责事件分派的工作人员带来了很大的压力,也会导致事件的处置效率变低,浪费社会公共资源。对重复事件的判断需要精确分析文本语义和上下文关系,为了解决这个问题,文中提出了一种基于深度对比孪生网络的事件辨重方法,通过评估两个事件的描述文本之间的相似性,辨别出具有相同诉求的事件。首先通过召回和过滤的方法来减少候选事件的数量;然后通过对比学习构造任务,微调预训练的BERT模型,学习易于辨识的事件描述语义表征;最后引入事件标题作为上下文信息,并通过带有分类器的孪生网络来识别重复事件。在南通市12345事件数据集上进行了实验,结果表明,该方法在各项评估指标上均优于基线方法,特别是在与辨重任务场景相关的F0.5分数上,能够有效地辨别重复事件,提高事件处置的效率。
面向数字孪生的混合业务确定性传输调度机制
王克文, 张维庭, 廖培希
计算机科学. 2024, 51 (12): 37-45.  doi:10.11896/jsjkx.240200063
摘要 ( 104 )   PDF(4254KB) ( 182 )   
参考文献 | 相关文章 | 多维度评价
针对铁路运维场景中混合业务流的端到端传输,提出了数字孪生架构下基于深度强化学习的确定性传输调度机制,即在线混合业务流端到端传输调度机制(End-to-End Transmission Scheduling Mechanism for Online Mixed-traffic,E2ETSM-OMT)。该机制基于差异化调度策略的思想,将业务流分为监控与数据采集流、控制与执行业务流和数据分析与业务优化流3类,通过确定性技术实现跨域端到端低时延传输。进一步地,通过模型映射和行为映射,将物理空间全方位、高精度地映射到虚拟空间,在数字孪生网络中构建混合业务的拓扑结构,预先分配数据传输路径和时隙资源,从而减少不同业务流之间的调度冲突和资源竞争。同时,通过深度强化学习(Deep Reinforcement Learning,DRL)智能体在线决策,兼顾效果与效率,对不同收益的业务流进行调度。与已有机制相比,数字孪生技术可以实现物理世界与虚拟世界的相互映射,实现非平稳通信环境下DRL的应用,避免在现实网络中探索造成的服务质量下降。仿真结果表明,所提出的面向数字孪生的确定性传输调度机制在保障成功调度混合业务流的同时,以较低的端到端整体时延实现了较高的传输收益。
计算机软件
基于深度学习的回归测试用例优先级排序方法
张李政, 杨秋辉, 李兴佳, 代声馨
计算机科学. 2024, 51 (12): 46-52.  doi:10.11896/jsjkx.231000147
摘要 ( 155 )   PDF(2241KB) ( 210 )   
参考文献 | 相关文章 | 多维度评价
在回归测试中对测试用例排序可以更快地发现代码缺陷,节约测试时间和资源,提高测试效率。现有的测试用例排序方法没有同时考虑代码的变更信息以及测试用例的历史执行信息,也没有考虑不同测试用例执行历史长短的区别,因此排序效果不佳。针对这些问题,提出基于深度学习的回归测试用例优先级排序方法。首先分别构建基于代码变更信息和历史执行信息的分类模型;然后基于类间关系图识别受代码变更影响的类,对这些类的测试用例以及近期执行发现缺陷的测试用例进行分类,使用分类模型和启发式排序方法对测试用例分类进行排序;最后通过交替排序融合排序结果。在RTPTorrent数据集上选取6个项目进行实验,结果表明:1)在无时间约束时,所提方法在所有项目上都取得了不错的排序效果,在cloudify项目上的APFD指标达到0.972;2)在有时间约束时,所提方法的NAPFD指标超过了目前主流的排序方案。
DeepGenFuzz:基于深度学习的高效PDF应用程序模糊测试用例生成框架
刘家豪, 江贺
计算机科学. 2024, 51 (12): 53-62.  doi:10.11896/jsjkx.231100179
摘要 ( 105 )   PDF(2899KB) ( 162 )   
参考文献 | 相关文章 | 多维度评价
PDF文件是一种被广泛应用的重要文档格式。由于PDF文件的复杂性,PDF相关的应用程序中存在的缺陷可能会导致严重后果,例如遭遇恶意攻击、信息错误呈现等。因此,针对PDF相关应用程序的测试成为当前研究的热点问题。目前最有效的方法是基于语法的模糊测试。然而,基于语法的模糊测试往往需要花费大量手工工作对复杂的语法规则进行总结和编写,严重阻碍了测试用例高效地自动化生成。深度学习技术为突破这一障碍提供了可行路径,但目前的方法生成的测试用例普遍质量较低,查找bug能力较差。进一步对其进行改进需要应对3个主要挑战,即数据集的筛选、测试用例覆盖率提升和测试用例大小增加两者间的平衡、测试用例的高效变异。因此,提出了一个基于深度学习的高效PDF应用程序模糊测试用例生成框架DeepGenFuzz,利用CNN,Seq2Seq和Transformer等模型,通过数据筛选、对象生成、对象附加、高效变异等步骤生成高质量PDF测试用例。在MuPDF等PDF应用程序上的评估表明,DeepGenFuzz生成的测试用例平均代码覆盖率明显高于Learn&Fuzz和IUST-DeepFuzz等目前最先进的工具,最高可达8.12%~61.03%;bug查找能力也远远优于Learn&Fuzz和IUST-DeepFuzz等最先进的工具,目前已经报告了在7个最流行的PDF应用程序中发现的31个未曾被报告的bug,其中25个已经得到确认或修复,涵盖了所有被测程序。
汽车验证电控系统中的测试用例自动生成方法
李占旗, 吴新维, 张蕾, 刘全周, 谢辉, 熊德意
计算机科学. 2024, 51 (12): 63-70.  doi:10.11896/jsjkx.240900093
摘要 ( 108 )   PDF(2326KB) ( 170 )   
参考文献 | 相关文章 | 多维度评价
随着“软件定义汽车”的发展,汽车软件功能的复杂性和快速开发需求对电控系统验证提出了更高的要求。当前,电控系统软件功能的测试流程图开发主要依赖人工方式,效率低且存在人为因素影响。文中详细描述了汽车验证电控系统中的测试用例自动生成任务及其面临的挑战,并提出了一种基于大语言模型(LLM)的自动生成测试流程图方法,以提高开发效率并减少人力成本。该方法包括构建领域任务数据集和选择合适场景的大模型应用路线。在实验中探讨了基于传统语言模型微调和大语言模型API适配两种技术路线的优劣,并通过实验验证了不同的大模型API在测试用例生成任务上的表现,以及提示工程技术对大模型API的提升效果。提出了一种高效的自动生成汽车测试流程图的方法,展示了大语言模型在提升汽车软件测试效率中的潜力。
SSFuzz:状态敏感的网络协议服务灰盒模糊测试技术
林家含, 冉猛, 彭建山
计算机科学. 2024, 51 (12): 71-78.  doi:10.11896/jsjkx.231000018
摘要 ( 104 )   PDF(2053KB) ( 208 )   
参考文献 | 相关文章 | 多维度评价
网络协议服务作为个人设备与互联网交互的接口,其脆弱性严重威胁用户的隐私和信息安全。最先进的网络协议灰盒模糊测试工具在代码覆盖率的基础上引入了状态反馈,通过分析网络协议服务的状态信息,进一步筛选有效的变异种子。但是,不同的模糊测试工具对网络协议服务状态有着不同的定义,如AFLNET通过分析服务器响应数据包的内容提取状态,StateAFL定义长寿命内存作为程序状态。在状态收集上,SGFuzz通过分析Enum类型数据定义,识别状态变量的赋值语句并插桩。然而,SGFuzz无法识别状态变量的间接赋值语句,对于状态变量的识别并不全面。同时,在构建状态机时,不同的模糊测试技术对状态机节点有着不同的定义,难以在同一个模糊测试工具上同时使用多种状态收集策略。此外,在实验设计上,现有的方案倾向于比较相同时间内的代码覆盖率情况。但是,代码覆盖率的增长受到多方面因素的影响,如吞吐量、种子筛选策略等。相同时间内的代码覆盖率实验适用于不同模糊测试工具之间的比较,对于其中单个模块的改进实验则不适用。针对以上问题,提出了SSFuzz。具体地,SSFuzz研究了基于状态变量的插桩方式,依据代码编译过程中的抽象语法树信息,识别状态变量赋值的间接赋值方法,能够更精准地对状态变量赋值语句进行插桩;其次,SSFuzz对用于指导状态筛选的状态机进行了定义,该方法有助于不同的状态反馈策略共同构建状态机。实验结果表明,SSFuzz能够实现对大部分网络协议服务的插桩,并且相较于SGFuzz,能够实现对间接赋值语句的插桩。此外,讨论了适用于评估状态机有效性的实验方法,并证明了SSFuzz能够以更少的测试样例数量达到更高的路径覆盖率。
一种基于集成学习的开源许可证检测与兼容性判断的方法
白江浩, 朴勇
计算机科学. 2024, 51 (12): 79-86.  doi:10.11896/jsjkx.231200100
摘要 ( 102 )   PDF(2056KB) ( 144 )   
参考文献 | 相关文章 | 多维度评价
软件供应链的安全性和可靠性对软件质量和演化有重要影响,而软件组件的许可证分析正是软件供应链中不可或缺的一环。开源许可证约束着开源软件的使用条件,以保护知识产权并维持开源软件的长远发展。为了避免法律风险与财产损失,识别开源软件许可证并判断开源许可证之间的兼容性至关重要。文中提出了基于集成学习的开源许可证的检测方法与依据兼容性的许可证推荐方法。具体来讲,提出了以基于大语言模型的集成学习为主,以规则匹配为辅的方法来进行开源许可证检测,并依据需求与有向图算法来完成许可证的兼容性判断与推荐。实验表明,相比于传统方法,该方法在更少的维护成本与高扩展性的优势下具有更好的检测效果,也能够有效地检测出兼容性并推荐结果。
开源软件开发者价值评估体系及其实证研究
游兰, 田明炎, 周烨, 陈智军, 王伟, 金红, 曾星, 崔海波
计算机科学. 2024, 51 (12): 87-99.  doi:10.11896/jsjkx.240100169
摘要 ( 106 )   PDF(1632KB) ( 153 )   
参考文献 | 相关文章 | 多维度评价
如何科学客观地评估开源软件开发者的价值是开源领域面临的一个重要问题。现有研究方法存在评估指标较单一、指标权重难以确定等问题。针对这些问题,依据开源生态大数据分析,结合主客观评估方法,提出了一种多维度、多层次的开源软件开发者价值评估体系。综合考虑开发者在项目管理、编程、团队协作、学习、敬业度等方面的表现,通过5个一级指标、12个二级指标和7个三级指标,较全面和客观地评估开源软件开发者的能力和价值。采用Critic方法确定各维度指标的权重,解决了经验权重导致的准确性不高的问题。最后,采用Github 2020年全域开源生态数据,展开了多组实证研究,验证了开源社区开发者价值评估体系的有效性和可行性,为开源软件人才的培养、发现和管理提供了一种客观、科学且操作性较强的衡量方法。实验代码可从Github平台获取1)
高性能计算
基于数据局部性的循环分块选择算法
廖启华, 聂凯, 韩林, 陈梦尧, 谢汶兵
计算机科学. 2024, 51 (12): 100-109.  doi:10.11896/jsjkx.231100060
摘要 ( 110 )   PDF(2336KB) ( 155 )   
参考文献 | 相关文章 | 多维度评价
现有的多面体编译框架(如Pluto,LLVM/Polly和GCC/Graphite)在进行循环分块时,都采用了固定分块大小,无法充分发挥不同硬件的缓存特性,导致存在较大的性能差异。针对这一问题,涌现了许多基于多级缓存和数据局部性的循环分块算法,但这些算法往往只能优化特定循环程序或者缺乏综合考虑,不适合移植到通用编译器中。文中提出了一种基于数据局部性的循环分块选择算法,该算法不仅考虑了缓存替换策略的影响,还考虑了多核环境下的负载均衡问题。算法基于LLVM中的Polly模块实现,并选用Pluto和PolyBench中的部分测试用例进行单核和多核测试。实验结果表明,单核环境下,相比LLVM/Polly的默认分块方法,该算法在两种硬件平台下分别获得了平均2.03和2.05的加速比,且在多核环境下具有良好的并行可扩展性。
基于多面体模型的矩阵乘法自动混合精度优化
何昊天, 周蓓, 郭绍忠, 张作言, 郝江伟, 许瑾晨
计算机科学. 2024, 51 (12): 110-119.  doi:10.11896/jsjkx.230800106
摘要 ( 103 )   PDF(3102KB) ( 149 )   
参考文献 | 相关文章 | 多维度评价
混合精度是计算机中的一种数值计算技术,通过将计算中的部分数据类型从高精度转换成低精度来提高计算效率。矩阵乘法在计算机科学和数学中有着重要而广泛的应用,在矩阵乘法中使用混合精度技术来加速计算过程是一项很有挑战性的工作。现有的混合精度优化存在一些问题,例如存储开销大,必须在特定的硬件单元上实现,限制了模型或算法的部署选项并降低了其可移植性。针对上述问题,提出并实现了基于多面体模型的混合精度代码自动生成工具AGMMMPC。通过将低精度乘高精度加基础混合精度矩阵乘代码生成功能添加到“源-源”的PPCG编译器中,并使用精度调优算法(Precision Tuning,PT)找到基础混合精度计算中的高频误差点,将这些点用高精度计算,其余点用基础混合精度计算,有效减小基础混合精度计算中的误差,首次实现了源到源的面向矩阵乘计算的混合精度代码自动生成。实验表明,以高精度计算为基准,AGMMMPC生成的高级混合精度代码在X86平台上的最大加速比为1.39,几何平均加速比为1.14。
基于混合并行的分布式训练优化研究
徐金龙, 李鹏飞, 李嘉楠, 陈飙元, 高伟, 韩林
计算机科学. 2024, 51 (12): 120-128.  doi:10.11896/jsjkx.231200128
摘要 ( 101 )   PDF(2384KB) ( 141 )   
参考文献 | 相关文章 | 多维度评价
大型神经网络训练是深度学习领域的一个热点话题,而分布式训练是基于多节点实现大型神经网络训练的最佳方法之一。分布式训练通常包含数据并行、层间并行和层内并行3种并行方法。然而现有的框架在层间并行时只能对模型进行手动切分,增加了模型设计的抽象复杂度,对此提出了节点约束关系搜索算法,实现了模型的自动切分。另外,在传统的数据并行和层间并行中,由于模型的复杂约束关系和通信操作的需要,计算和通信往往受到严格的序列化限制,为此引入了同步优化算法,实现了计算和通信的重叠,有效提高了整体训练的效率。实验对不同规模的GPT-2,AlexNet,VGG16和ResNet50模型进行训练,使用同步优化算法在6节点条件下可以将GPT2-XL,GPT2-LARGE和GPT2-MEDIUM模型的训练性能分别提升1.14倍、1.18倍和1.23倍,在1节点条件下将AlexNet,VGG16和ResNet50模型的训练性能分别提升1.31倍、1.14倍和1.03倍。实验结果表明,同步优化算法能够提升混合并行中的训练效率。
一种面向通用计算设备的自动流水线并行训练框架
钟震宇, 林勇良, 王昊天, 李东闻, 孙羽菲, 张玉志
计算机科学. 2024, 51 (12): 129-136.  doi:10.11896/jsjkx.231000110
摘要 ( 84 )   PDF(2050KB) ( 150 )   
参考文献 | 相关文章 | 多维度评价
训练大规模神经网络通常会出现单个计算节点的内存和计算能力不足的情况,需要通过多个节点分布式训练来实现。现有的分布式深度学习框架主要针对特定的硬件环境设计,不能够有效适应各类通用计算设备。为支持大规模深度神经网络的高效训练,实现了一种通用的自动流水线并行分布式训练框架。本框架通过结合基于流水线并行的模型并行策略与神经网络模型自动拆分算法,实现了在包括国内新一代超级计算机在内的通用计算机集群上,对大规模神经网络模型与训练数据进行自动并行化处理和训练,显著减轻单个计算节点的内存和计算压力。该框架无需人工调整,可以自动高效地在多节点分布式环境中部署深度神经网络,不仅适用于超级计算机等高性能计算机集群,还可以部署到其他通用的分布式计算环境中,为大规模神经网络的自动化分布式训练提供支持。
新一代神威处理器上高效任务流并行系统
傅游, 杜雷明, 高希然, 陈莉
计算机科学. 2024, 51 (12): 137-146.  doi:10.11896/jsjkx.231100135
摘要 ( 116 )   PDF(4597KB) ( 160 )   
参考文献 | 相关文章 | 多维度评价
我国自主研制的新一代神威超级计算机相比前一代的神威太湖之光,具有更强大的内存系统和更高的计算密度,其主力编程模型仍然是块同步(Bulk Synchronous Parallelism,BSP)模型。顺序任务流(Sequential Task Flow,STF)模型基于数据流信息实现对串行程序的自动任务并行,并通过任务间的细粒度同步实现异步并行,相比于BSP模型的全局同步,并行度更高,负载更均衡。STF模型为用户高效使用神威平台提供了一种新选择。但在众核系统上,STF模型的运行时开销会直接影响并行程序性能。首先,分析新一代神威处理器影响STF模型高效实现的两个特征;然后,利用处理器架构的独有特性,提出一种基于代理的数据流构图机制以实现模型的构图需求,以及一种无锁的集中式任务调度机制以优化调度开销。最后,基于以上技术,为AceMesh模型实现了高效的任务流并行系统。实验表明,实现的任务流并行系统相比传统运行时支持优势显著,在细粒度任务场景下最高加速2.37倍;AceMesh性能高于神威平台的OpenACC模型,对典型应用的加速最高达到2.07倍。
基于v-Informer的云平台资源负载预测方法
尤文龙, 邓莉, 李锐龙, 谢雨欣, 任正伟
计算机科学. 2024, 51 (12): 147-156.  doi:10.11896/jsjkx.231000098
摘要 ( 95 )   PDF(3964KB) ( 144 )   
参考文献 | 相关文章 | 多维度评价
目前,云计算技术的使用非常广泛。随着用户量的增加,云计算资源的分配管理也越来越重要,而准确的负载预测是分配管理的重要依据。但由于云平台任务有多个负载特征,且特征的相关性变化趋势各不相同,因此难以从长期的历史数据中提取出有效的依赖信息。在Informer模型的基础上,提出了一种针对高动态云平台任务CPU长期负载预测方法v-Informer,该方法通过变分模态分解来分解负载序列中的变化趋势,引入多头自注意力机制捕获其中的长期依赖性和局部非线性关系,同时应用梯度集中技术改进优化器,减少计算开销。分别在微软云平台和谷歌云平台数据上进行实验,结果表明,与目前已有的CPU负载预测模型LSTM,Transformer,TCN和CEEMDAN-Informer相比,v-Informer在Google数据集上的预测误差分别减少了34%,19%,15%和6.5%;在微软数据集上的预测误差分别减少了32%,16%,12%和7%,具有较好的预测精度。
数据库&大数据&数据科学
基于时空图注意力卷积神经网络的车辆轨迹预测
袁静, 夏英
计算机科学. 2024, 51 (12): 157-165.  doi:10.11896/jsjkx.231100145
摘要 ( 143 )   PDF(2122KB) ( 184 )   
参考文献 | 相关文章 | 多维度评价
车辆轨迹预测是交通管理、智能汽车和自动驾驶等领域的一项关键技术。准确预测车辆轨迹,有利于汽车安全行驶。城市交通场景中,车辆轨迹数据的时空特征复杂多变。为充分获取数据中的动态时空相关性,提高轨迹预测精度,同时降低模型复杂度,提出了时空图注意力卷积神经网络模型(Spatial-Temporal Graph Attention Convolutional Network,STGACN)。该模型首先通过轨迹信息嵌入模块对车辆历史轨迹数据进行时空图转换,然后通过时空卷积块及其堆叠完成轨迹数据的时序特征和空间特征的提取与融合,最终由门控递归单元完成编码与解码工作,得到预测轨迹。模型采用由膨胀因果卷积和门控单元组成的门控卷积网络提取时序特征,避免了循环神经网络带来的冗余迭代,使得模型参数更少,轨迹预测推理速度更快;时空卷积块组的时空特征融合工作使模型关注到更丰富的场景特征,提高了预测精度。在真实轨迹数据集Argoverse和NGSIM上进行实验,结果表明STGACN模型与基线模型相比,具有更高的预测精度和效率。
GBDEN:一种基于粒球的大规模数据快速聚类方法
薛任煊, 伊士超, 王平心
计算机科学. 2024, 51 (12): 166-173.  doi:10.11896/jsjkx.240600002
摘要 ( 104 )   PDF(4604KB) ( 139 )   
参考文献 | 相关文章 | 多维度评价
聚类用于将数据集中的对象划分为具有相似特征的组或类别,使得同一组内的对象之间的相似度较高,而不同组之间的相似度较低。密度聚类是无监督聚类方法之一,它不需要提前指定类簇的数量,而是根据数据的密度来自动确定。与K均值等方法相比,密度聚类对初始点的选择不敏感,因此更容易得到稳健的聚类结果。在众多的密度聚类算法中,DENCLUE(DENsity-based CLUstEring)算法采取了爬山策略,它具有坚实的数学基础,在大量噪声的数据集中具有良好的聚类性能,且在高维数据集中允许对任意形状进行聚类。但其在处理大规模数据集时,需要耗费大量的计算资源和时间。为此,使用粒计算的粒化模型来构建数据集。首先构建一个粗粒度的粒球,然后将粗粒度的粒球划分为细粒球,最后以粒球的形式作为DENCLUE算法的输入,从而进行聚类。实验结果表明,该算法在多个数据集上具有有效性。
基于梯度幅值方向调整的心电信号多任务分类算法
张雪, 田岚, 曾鸣, 刘俊晖, 宗绍国
计算机科学. 2024, 51 (12): 174-180.  doi:10.11896/jsjkx.230800083
摘要 ( 90 )   PDF(2792KB) ( 154 )   
参考文献 | 相关文章 | 多维度评价
心血管疾病对人类生命健康安全的威胁日益严重,通过心电信号可进行相关疾病的诊断分类。现有的心电分类算法大多采用单任务学习模型,无法综合利用多个任务中的互补特征,而多任务学习模型可同时学习多个相关任务,共享相关任务特征,有助于提高多任务的分类表现。结合深度学习和多任务学习两种方法,提出了一种基于损失优化的心电信号多任务分类算法,将心电信号的多分类任务分解为多个二分类任务,从任务梯度的幅值和方向两方面进行损失优化,避免手动设置任务损失权重以及任务损失相互抵消而产生的负迁移,从而提升心电信号多分类任务的性能。在PTB-XL数据库上将心电信号23类分类任务分解为23个二分类任务来评估所提出的算法。实验结果表明,所提算法的宏观曲线下平均面积(AUC)达到0.950,准确率达到96.50%,基于标签的宏观F1分数达到0.583,基于样本的F1分数达到0.777。与单任务学习算法相比,所提算法在心电信号的多分类方面表现出良好的性能。
计算机图形学&多媒体
基于特征融合的毫米波雷达行为识别算法
韩崇, 樊卫北, 郭澳
计算机科学. 2024, 51 (12): 181-189.  doi:10.11896/jsjkx.231200170
摘要 ( 121 )   PDF(2199KB) ( 168 )   
参考文献 | 相关文章 | 多维度评价
基于毫米波雷达的人体行为识别方法以远程非接触的方式捕获人类活动的电磁波信号并进行识别,不受烟雾和光线等的干扰,具有一定的隐私保护性,是当前的一个研究热点。针对现有的算法存在特征输入单一、模型结构复杂、泛化能力验证性不够等问题,提出了基于双分支特征融合卷积神经网络(Two Steam Features Fusion Convolutional Neural Network,2S-FCNN),使用搭载注意力机制的残差神经网络作为骨干网络,并行输入时间距离图和时间速度图,采用特征加权分数融合的方式融合特征后进行分类识别,实现了较高的识别准确率。在公开数据集和自建数据集上与现有的其他算法进行了深入的对比实验,实验结果表明所提算法在识别率和泛化能力方面都具有良好的性能。
适于高动态视频场景下的城市道路违停检测算法
程梁华, 黄瑞雪, 沈鑫
计算机科学. 2024, 51 (12): 190-198.  doi:10.11896/jsjkx.231100096
摘要 ( 95 )   PDF(3188KB) ( 173 )   
参考文献 | 相关文章 | 多维度评价
日益突出的停车矛盾导致城市道路违停现象严重,给城市交通带来巨大安全隐患。因此,及时有效地监测并处理违停事件对于保障城市交通安全至关重要。然而,现有基于人工巡检和固定摄像头的违停监测方式存在效率低、监测范围受限等缺点,难以满足大规模城市违停监管的需求。群车感知作为一种新兴感知范式,通过激励用户在行车过程中采集道路视频并上传至云端进行监测,能为大规模、低成本的城市违停监管提供重要手段。然而车载视频场景十分复杂,这导致了车辆追踪目标的高丢失性和违停判断的高复杂性,给实现精准违停检测提出了严峻挑战。为应对上述挑战,提出适于高动态视频场景下的城市道路违停检测算法。具体地,首先通过对车载视频进行多车辆目标追踪,以跨视频帧追踪获取车辆图像信息;然后通过动态视觉测距将目标车辆图像信息转换为真实场景中的相对距离变化,并结合车间相互运动实现违停判断;最后,基于重庆市道路数据集对所提算法进行性能评估。实验结果表明,所提算法的违停车辆检测精度为87.1%,相比3种对比算法平均提高21.9%,且在不同违停场景下均表现出优异检测性能。
联合群稀疏和代表系数双向空间光谱全变分的高光谱图像去噪
司伟纳, 叶军, 姜斌
计算机科学. 2024, 51 (12): 199-208.  doi:10.11896/jsjkx.231000187
摘要 ( 98 )   PDF(6627KB) ( 149 )   
参考文献 | 相关文章 | 多维度评价
高光谱图像去噪是遥感领域的一个基本问题,也是预处理的重要步骤。基于代表系数全变分的去噪方法在高光谱图像(HSI)去噪中有着广泛的应用。代表系数矩阵U继承了干净HSI的先验信息,能够实现全局低秩并降低计算复杂度,但由于一阶全变分的引入,该类方法在去噪过程中产生了很强的阶梯效应并且忽略了不同波段间的共同特征,因此去噪效果很差。针对此问题,提出了一种新的联合群稀疏和代表系数双向空间光谱全变分(RCBGS)的正则化去噪模型。高阶全变分的引入缓解了阶梯效应,并在子空间的差分上引入加权$\ell$2,1范数,充分挖掘不同波段除全局低秩外的共同特征,提高了HSI的内在群稀疏性和整体光滑性。最后,通过交替方向乘子法(ADMM)给出了所提方法的迭代规则,且所提方法的评价指标峰值信噪比相对于对比方法平均提升了8.79%。在模拟和真实数据集上的实验表明,所提方法在视觉质量和定量评估方面都优于相关方法。
人工智能
文本人格检测研究综述
朱洋甫, 李美玲, 谭嘉辰, 吴斌
计算机科学. 2024, 51 (12): 209-222.  doi:10.11896/jsjkx.240500071
摘要 ( 110 )   PDF(2307KB) ( 179 )   
参考文献 | 相关文章 | 多维度评价
文本人格检测是人格计算领域一项重要的研究内容,旨在分析用户生成文本中隐含的人格特质。随着社交网络的发展,人们习惯于在线发布蕴含心理活动的内容,这为文本人格检测提供了新的机遇。准确地检测用户人格特质在心理健康诊断、舆情监控、人机交互系统设计以及大语言模型构建等方面具有重要意义。文中对文本人格检测的相关研究和新颖方法进行了深入调研和全面综述。首先介绍了人格检测相关背景知识、任务模式;其次从心理语言学统计方法、特征工程方法、深度学习方法、预训练语言模型4个方面梳理了现有方法;然后对当前广泛使用的评测数据集及模型效果进行了总结;最后从人格检测的可靠性、公平性、伦理与隐私、数据集和评价指标统一以及大语言模型与人格5个方面分析了本领域存在的问题和未来研究方向。
基于大语言模型的移动应用可访问性增强方法
马琦珉, 李向民, 周雅倩
计算机科学. 2024, 51 (12): 223-233.  doi:10.11896/jsjkx.240400077
摘要 ( 112 )   PDF(3844KB) ( 164 )   
参考文献 | 相关文章 | 多维度评价
移动应用可访问性(Mobile Application Accessibility)是指移动应用程序设计和实现的程度,目的是确保任何用户都能够轻松地访问和使用该应用。国内移动应用市场上的海量应用中支持无障碍功能的应用少之又少,与数量庞大且与日俱增的老年群体和视觉障碍群体追求享受数字时代红利、打破数字鸿沟的愿景产生矛盾。大规模语言模型(Large Language Model,LLM)在实现人类水平的智能方面表现出了巨大的潜力,通过提示词工程引导可以进行简单的逻辑推理和决策判断。此外,缩短交互路径是一种最为直观的移动应用可访问性增强方法。受到上述事实的启发,提出一种基于大规模语言模型的移动应用可访问性增强方法,创新性地应用可访问性服务和大语言模型,兼顾安全性、自动化和智能化。实现了一种移动应用可访问性辅助工具AccessLink,在非侵入式和用户授权的前提下,感知和操作移动应用的图形化用户界面,由此实现了基于自动化方法的数据集构建方法,并在构建的数据集上使用大模型GPT-3.5、GPT-4.0、通义千问和百川进行实验,证明了所提方法的有效性。
DE-AA:基于词对距离嵌入和轴向注意力机制的实体关系联合抽取模型
张梦赢, 沈海龙
计算机科学. 2024, 51 (12): 234-241.  doi:10.11896/jsjkx.231100023
摘要 ( 97 )   PDF(1932KB) ( 148 )   
参考文献 | 相关文章 | 多维度评价
实体关系联合抽取为知识图谱的构建提供了关键的技术支持,而重叠关系问题一直都是联合抽取模型研究的重点。现有的方法大多采用多步骤的建模方法,虽然在解决重叠关系问题上取得了很好的效果,但产生了曝光偏差问题。为同时解决重叠关系和曝光偏差问题,提出了一种基于词对距离嵌入和轴向注意力机制的实体关系联合抽取方法(DE-AA)。首先,构建代表词对关系的表特征,加入词对距离特征信息优化其表示;其次,应用基于行注意力和列注意力的轴向注意力模型去增强表特征,在融合全局特征的同时能够降低计算复杂度;最后,将表特征映射到各关系空间中,生成特定关系下的词对关系表,并使用表格填充法为表中各项分配标签,以三重分类的方式进行三元组的抽取。在公开数据集NYT和WebNLG上评估了所提出的模型,实验结果表明其与其他基线模型相比取得了更好的性能,且在处理重叠关系或多重关系问题上优势显著。
基于多模态双协同Gather Transformer网络的虚假信息检测方法
向旺, 王金光, 王一飞, 钱胜胜
计算机科学. 2024, 51 (12): 242-249.  doi:10.11896/jsjkx.231000057
摘要 ( 94 )   PDF(2003KB) ( 149 )   
参考文献 | 相关文章 | 多维度评价
社交媒体网站是人们在日常生活中分享信息、表达和交换意见的便捷平台。随着用户数量的不断增加,社交媒体网站上出现了大量的信息数据。然而,由于用户没有检查共享信息的可靠性,这些信息的真实性难以保证,从而导致大量虚假信息在社交媒体上广泛传播。然而,现有方法大多存在以下局限性:1)大多数方法通过简单提取文本与视觉特征,将其拼接后得到多模态特征来进行虚假信息判断,忽略了模态间和模态内细粒度内在联系,缺乏对关键信息的检索和筛选;2)多模态信息间缺乏指导性的特征提取,文本和视觉等特征之间缺乏交互增强,对多模态信息的理解不足。为了应对这些挑战,提出了一种新颖的基于多模态双协同Gather Transformer网络(Multimodal Dual-Collaborative Gather Transformer Network,MDCGTN)的虚假信息检测方法。在MDCGTN模型中,通过文本-视觉编码网络对文本和视觉信息的特征表示进行提取,将获得的视觉和文本特征表示输入多模态Gather Transformer网络进行多模态信息融合,使用Gather机制提取关键信息,充分捕捉和融合模态内和模态间细粒度关系。此外,设计了一个双协同机制对社交媒体帖子的多模态信息进行整合,以实现模态之间信息的交互和增强。在两个公开可用的基准数据集上进行了大量实验,结果表明,与现有的先进基准方法相比,所提方法准确率明显提升,证明了其对于虚假信息检测的优越性能。
融合义原相似度矩阵与字词向量双通道的短文本语义匹配策略
刘东旭, 段利国, 崔娟娟, 常轩伟
计算机科学. 2024, 51 (12): 250-258.  doi:10.11896/jsjkx.231100147
摘要 ( 84 )   PDF(2255KB) ( 143 )   
参考文献 | 相关文章 | 多维度评价
短文本语义匹配任务的目的是判断两个短文本句子的语义是否一致。然而,现有的许多方法往往存在短文本语义信息不足、无法有效识别同义词等问题。针对这些不足,提出一种融合义原相似度矩阵与字词向量双通道的短文本语义匹配策略。首先,利用预训练模型Bert对输入的句子对进行编码;然后,对于句子中词级别的语义信息,利用FastText模型训练并获取文本的词向量,并加入BiLSTM模型进一步提取上下文语义信息。为了有效利用义原信息,在上述的双通道中分别加入多头注意力和用于对分离向量进行交互计算的协同注意力,并在注意力中分别融入对应的义原相似度矩阵,最后综合上述两部分向量推断出语义的一致性。在金融领域数据集BQ和开放域数据集LCQMC上的实验证明了所提算法的有效性。
基于特征加权的反事实解释方法:以信贷风控场景为例
王宝财, 吴国伟
计算机科学. 2024, 51 (12): 259-268.  doi:10.11896/jsjkx.240300047
摘要 ( 108 )   PDF(1736KB) ( 152 )   
参考文献 | 相关文章 | 多维度评价
机器学习技术在金融领域的应用越来越多,为用户提供可解释的机器学习方法已成为一个重要的研究课题。近年来,反事实解释引起了广泛关注,它通过提供扰动向量来改变分类器得到的预测结果,从而提高机器学习模型的可解释性。但现有方法存在生成的反事实用例缺乏可行性和可操作性的问题。文中提出了一种新的反事实解释框架,通过引入特征变量代价权重矩阵的概念,考虑不同特征变量改变的难易程度,使得反事实结果更符合实际情况并更具可行性。同时,通过专家预定义特征变量代价权重矩阵的方式,提出了一种计算特征变量代价权重的可行方法,并允许用户根据实际情况进行个性化调整。定义的目标函数综合考虑了特征加权距离、稀疏性和接近性3个指标,确保了反事实结果的可行性、简洁性和接近原始样本集的性质。采用遗传算法来求解问题,进而生成最佳的行动方案。通过对真实数据集进行实验,证实了所提方法相比现有的反事实方法能够生成可行性和可操作性更强的反事实用例。
平衡参数自适应下基于模体的混合阶网络多智能体一致性
谢光强, 吴烨彬, 李杨
计算机科学. 2024, 51 (12): 269-276.  doi:10.11896/jsjkx.231100146
摘要 ( 93 )   PDF(2884KB) ( 143 )   
参考文献 | 相关文章 | 多维度评价
充分利用多智能体网络结构中的高阶信息可以有效增强多智能体一致性。现有的基于模体加权的多智能体框架(Motif-aware Weighted Multi-agent System,MWMS) 将关注点集中在复杂网络中连接信息的提取,忽略了网络中的碎片信息,导致MWMS在取不同的平衡参数值时收敛效果差异较大。针对上述问题,提出了一种平衡参数自适应下基于模体加权的多智能体系统框架(Alpha-adaptive Motif-aware Weighted Multi-agent System,AMWMS),揭示了多智能体系统在混合阶网络下的平衡参数的调节规律。首先,提出了基于Jaccard相似性的高阶网络碎片化程度量化方法和基于相对距离的低阶网络碎片化程度量化方法,用于对不同网络层碎片信息进行建模;其次,设计了自适应参数生成的混合阶网络(Adaptive Parameter Generation Hybrid-Order Network,APGHNet),APGHNet的平衡参数能够在系统演化过程中自适应变化;最后,给出了平衡参数自适应下基于模体矩阵的多智能体一致性协议。通过仿真实验与MWMS中的一致性协议进行比较,验证了新协议的平衡参数自适应生成方法的有效性,系统最终能够收敛到较少的簇,增强了系统一致性。
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略
高卓凡, 郭文利
计算机科学. 2024, 51 (12): 277-285.  doi:10.11896/jsjkx.240500082
摘要 ( 80 )   PDF(5959KB) ( 137 )   
参考文献 | 相关文章 | 多维度评价
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现的重要函数,会显著影响智能体在环境中的学习效率。针对上述问题,提出了一种新的Sig-Dist-DQN概率分布更新策略。该策略综合考虑奖励概率支集之间的相关性强弱关系,提高与观察奖励强相关支集的概率质量更新速率,同时降低弱相关支集概率质量的更新速率。在OpenAI gym提供的环境下进行实验,结果表明,指数更新和调和序列更新策略在每次训练的差异性较大,而Sig-Dist-DQN策略的训练图像非常稳定。相较于指数更新和调和序列更新策略,应用Sig-Dist-DQN的智能体在学习过程中损失函数的收敛速度和收敛过程的稳定性都有显著提高。
基于大语言模型的电力知识库智能问答系统构建与评价
张金营, 王天堃, 么长英, 谢华, 柴林政, 刘书恺, 李彤亮, 李舟军
计算机科学. 2024, 51 (12): 286-292.  doi:10.11896/jsjkx.240300104
摘要 ( 331 )   PDF(1738KB) ( 388 )   
参考文献 | 相关文章 | 多维度评价
大语言模型是近年来自然语言处理领域的一个重大突破,已成为该领域研究的一种新范式。在金融、法律等垂直领域,基于FinGPT,ChatLaw等垂直领域大模型的智能问答系统,促进了大模型技术在相关领域的学术研究与应用落地。然而,由于电力领域缺乏相关的高质量数据,相关的大模型问答系统的构建工作遇到了较大阻碍。为了构建电力领域的智能问答系统,提出了基于大语言模型的电力知识库智能问答系统 ChatPower。为了确保问答效果,ChatPower充分利用了电力管理各环节的数据。通过语义化理解,梳理和整合了大量的电力专业知识,精心设计和构建了一个较大规模的电力系统知识库。该知识库覆盖电力相关规章制度、安全生产管理体系以及发电设备故障知识等方面的内容。此外,通过参考检索到的电力知识,ChatPower显著缓解了问答中存在的模型幻觉问题,并在检索系统中引入了BM25检索、向量库检索与重排相结合的方法,有效降低了单纯依赖向量库检索的不准确性。同时,ChatPower结合基于大模型的提示工程技术,提升了对于规章制度类型问题生成回复的条理性。为了对问答系统进行评价,构建了一个电力知识问答的测试数据集,并对其进行了测试验证,测试结果表明:基于大语言模型的电力知识库问答系统ChatPower能够有效提升电力相关知识的检索和问答的准确性。
信息安全
基于软件定义边界的零信任匿名访问方案
李惟贤, 张建辉, 曾俊杰, 贾洪勇, 门蕊蕊
计算机科学. 2024, 51 (12): 293-302.  doi:10.11896/jsjkx.231000176
摘要 ( 83 )   PDF(2131KB) ( 143 )   
参考文献 | 相关文章 | 多维度评价
软件定义边界作为一种具有良好可扩展性与安全性的零信任安全架构得到了广泛应用。标准的软件定义边界架构采用单包授权机制来实现对服务资源的隐藏与对访问者身份的验证,但现有的方案普遍采用集中式的方式存储与分发SPA密钥,且缺乏对访问者隐私信息的保护。针对以上问题,提出了一种软件定义边界架构下的零信任匿名访问方案,采用三方密钥协商实现SPA密钥的分发,并使用通用指定验证者签名实现了对访问者身份的匿名认证,且能够抵抗SPA密钥窃取、敲门放大攻击、身份假冒等网络攻击,与目前的软件定义边界方案相比具有更强的安全性。实验结果表明,所提方案降低了33%的通信开销,在多节点网络环境下降低了20%的平均认证时延。
基于SDR句嵌入的挖矿恶意软件早期检测方法
钟凯, 郭春, 李显超, 申国伟
计算机科学. 2024, 51 (12): 303-309.  doi:10.11896/jsjkx.231200041
摘要 ( 75 )   PDF(1613KB) ( 125 )   
参考文献 | 相关文章 | 多维度评价
挖矿恶意软件以盗用设备的计算资源来挖掘加密货币为目标,在大量消耗计算资源的同时还严重危害网络安全。当前的挖矿恶意软件动态检测方法主要依据样本长时间运行过程中收集的主机行为或网络流量来进行检测,未能兼顾检测的及时性和准确性。通过对挖矿恶意软件运行初期的DLL调用和API返回值进行分析,提出一种API句嵌入方法SDR,并基于SDR进一步提出一种基于SDR的挖矿恶意软件早期检测方法CEDS。CEDS利用SDR将软件运行初期的API名称序列、API返回值序列和DLL序列转化为句向量序列,使用TextCNN建立模型来进行挖矿恶意软件的早期检测。实验结果表明,CEDS能够以0.5106s的平均时长和96.75%的准确率判别一个软件样本是挖矿恶意软件还是良性软件。
抗密钥泄露的代理可证数据持有
安睿诚, 王化群
计算机科学. 2024, 51 (12): 310-316.  doi:10.11896/jsjkx.231100085
摘要 ( 86 )   PDF(1699KB) ( 112 )   
参考文献 | 相关文章 | 多维度评价
云存储近年来发展迅猛,越来越多的用户选择将他们的数据存储在云服务器中。为了检验云存储数据的完整性,研究者们提出了可证数据持有(Provable Data Possession,PDP)。用户在某些情况下无法访问互联网,例如在远洋轮渡上,或是参加某些涉密的项目时,因此必须将远程数据完整性检验委托给代理。然而在代理PDP中,一旦用户的私钥泄露,审计方案将无法进行。针对上述问题,所提方案将密钥隔离技术与代理PDP相结合,在系统模型中引入了物理上安全但计算受限的助手设备。助手设备在每个时间段生成更新信息并发送给用户,帮助用户计算当前时段的签名密钥。在此方案下,敌手无法在密钥未泄露的时间段伪造用户生成的认证器。安全性分析和性能分析表明,所提方案是安全高效的。
支持策略与属性全隐藏的CP-ABE方案
姜露寒, 田有亮, 向阿新
计算机科学. 2024, 51 (12): 317-325.  doi:10.11896/jsjkx.231000056
摘要 ( 107 )   PDF(2282KB) ( 136 )   
参考文献 | 相关文章 | 多维度评价
已有的支持策略或属性隐藏的CP-ABE方案可实现隐私保护的细粒度访问控制,但大部分方案仅实现了关于属性值的部分策略隐藏,且忽略了密钥生成过程的用户属性隐藏问题,仍易造成用户隐私信息泄露。针对上述问题,文中提出了一种完全隐藏访问策略和用户属性的CP-ABE方案,用于数据访问控制和密钥生成过程中的用户隐私信息保护。首先,提出了属性莫顿过滤器(Attribute Morton Filter,AMF),加密阶段将访问策略完全隐藏于AMF中,解密阶段用户可高效查询并精准判断用户属性在策略中的位置;其次,提出了一种基于zk-SNARKs的密钥生成方法,有效隐藏了密钥生成过程中的用户属性;最后,安全性证明及性能分析表明,所提方案在不影响效率的同时具有选择明文攻击下的不可区分性。
基于分层注意力网络和积分梯度的细粒度漏洞检测方法
李秋月, 韩道军, 张磊, 许涛
计算机科学. 2024, 51 (12): 326-333.  doi:10.11896/jsjkx.231000174
摘要 ( 81 )   PDF(2096KB) ( 128 )   
参考文献 | 相关文章 | 多维度评价
智能合约是一种基于区块链平台运行的去中心化应用程序,在数字货币、物联网、供应链等多个领域应用广泛。智能合约漏洞检测的研究对于保障数字资产安全、维护合约的可靠性与稳定性具有重要意义。目前的主流研究之一为利用深度学习模型自动学习代码特征,检测出智能合约漏洞,准确性较高,但是在漏洞解释方面具有局限性,不能提供细粒度的漏洞信息。针对目前基于深度学习的智能合约漏洞检测模型不能有效提供细粒度漏洞解释,且缺少细粒度标签的问题,提出一种基于分层注意力网络和积分梯度的细粒度漏洞检测方法。利用分层注意力网络进行粗粒度漏洞检测,通过两层注意力构建单词注意力编码层和函数注意力编码层分别学习源代码的函数级和合约级表示,以关注代码的不同令牌和语句;然后使用积分梯度方法进行细粒度解释,计算代码语句对漏洞预测的贡献度,以获取与漏洞相关的脆弱语句,实现无语句标签情况下的单词级别和语句级别的漏洞解释。在真实以太坊数据集SmartbugsWilds,SmartbugsCurated和SolidiFIBenchmark上的实验结果表明,该方法在5种漏洞类型上的平均准确率达到80%以上,漏洞解释准确率提升6%,可以更加准确地定位漏洞代码,帮助开发人员审查合约。
一种面向车联网的零日攻击检测方法
王博, 赵金城, 徐丙凤, 何高峰
计算机科学. 2024, 51 (12): 334-342.  doi:10.11896/jsjkx.231000117
摘要 ( 81 )   PDF(2840KB) ( 221 )   
参考文献 | 相关文章 | 多维度评价
由于缺乏攻击数据,车联网零日攻击检测通常采用基于异常的方法。但车辆实际行驶过程中环境复杂多样、行为模式多变,导致正常的行为模式会出现较大的差异,采用基于异常的方法容易导致高误报率。在车联网环境中零日攻击和已知攻击的攻击原理相似,受迁移学习的启发,基于条件生成对抗网络提出一种应用少样本学习的车联网零日攻击检测方法。首先,提出一种多生成器和多判别器的条件对抗生成网络模型。其次,设计了一种自适应采样数据增强方法,通过对已知的攻击样本进行数据增强优化该网络模型的输入样本以减少误报。为进一步缓解该网络模型的输入攻击样本过少带来的数据不平衡问题,在判别器中给出了一种协作焦点损失函数重点判别难分类数据。最后,基于F2MD车辆网络仿真平台进行了大量实验,实验结果表明所提方法对于零日攻击的检测效果和检测延迟均优于现有方法,为车联网零日攻击检测提供了一种有效的解决方案。
支持模糊匹配的带标签隐私集合交集计算协议
程恩泽, 张蕾, 魏立斐
计算机科学. 2024, 51 (12): 343-351.  doi:10.11896/jsjkx.231000131
摘要 ( 112 )   PDF(2260KB) ( 188 )   
参考文献 | 相关文章 | 多维度评价
支持模糊匹配的带标签隐私集合交集计算协议(Fuzzy Labeled Private Set Intersection,FLPSI)是PSI协议的变体,其特点在于发送方与接收方的集合元素并不完全相等,而是存在相似性,且发送方集合中的每个元素均关联一个标签,接收方仅得到相似匹配元素的标签,而不会泄露其他信息。现有的FLPSI协议大多使用汉明距离来判断二进制向量之间的匹配程度,协议基于昂贵的公钥密码来构建,计算开销大导致协议运行缓慢。对此,提出了一种基于对称密码构造的更加高效的FLPSI协议,通过模拟范例证明了协议在半诚实模型下是安全的,参与方均无法窃取额外的隐私信息。与现有方案相比,协议将整体通信复杂度与发送方的计算复杂度由O(n2)降低为O(n)。实验仿真结果表明,所提方法在平衡场景下比现有FLPSI协议快3~10倍,通信量降低89%~95%;在非平衡场景下比现有FLPSI协议快7~10倍,与类似的模糊匹配协议相比具有明显优势。此外,还设计了FLPSI协议在隐私保护条件下人脸识别的应用,通过调整参数可以满足不同场景的要求。
基于自适应MSB可逆信息隐藏的图像云数据密文安全去重机制
周艺腾, 唐鑫, 金路超
计算机科学. 2024, 51 (12): 352-360.  doi:10.11896/jsjkx.231100087
摘要 ( 124 )   PDF(2377KB) ( 157 )   
参考文献 | 相关文章 | 多维度评价
随着信息技术的飞速发展,越来越多以图像为代表的多媒体数据被重复上传到云平台进行存储,造成了用户通信开销和云端存储开销的极大浪费。此外,明文状态的图像数据存储在云端,导致数据机密性被破坏。尽管密文图像云数据去重技术在一定程度上解决了以上问题,但去重过程中产生的可区分响应为攻击者创建了一个侧信道,将泄露用户数据的存在性隐私。同时,为实现加密密钥在数据持有者间的传递,用户和云均需要付出巨大的额外代价。鉴于此,提出了一种基于自适应MSB可逆信息隐藏的高效密文图像安全去重机制,其能够在有效抵抗侧信道攻击的同时实现较低的通信开销和存储开销。具体来说,创新性地将密文域可逆信息隐藏技术引入密文去重框架,将用于传递随机密钥的辅助信息嵌入加密图像中并发送给云,从而消除辅助信息的传输和存储开销。此外,优化了现有的去重方案,即使请求图像并未存储于云端,用户也无需开展额外的密文上传工作,从而保证响应的不可区分性。安全性分析和实验结果表明,与现有方案相比,该方案能够以轻量级的方式抵抗侧信道攻击。