计算机科学

第51卷第4期目录

计算机科学. 2024, 51 (4): 0-0.

摘要 ( 315 )

PDF(284KB) ( 516 )

相关文章 | 多维度评价

IntervalSketch:面向数据流的间隔项近似统计方法

陈昕杨, 陈翰泽, 周嘉晟, 黄家卿, 余佳硕, 朱龙隆, 张栋

计算机科学. 2024, 51 (4): 4-10. doi:10.11896/jsjkx.231000226

摘要 ( 508 )

PDF(2197KB) ( 1917 )

参考文献 | 相关文章 | 多维度评价

流式数据库在数据库中的占比逐渐增加,在流式数据库的数据流中提取所需信息是一项重要任务。文中研究了数据流的间隔项,并将其应用到了网络场景中。其中间隔项指在数据流中以固定时间间隔到达的元素对,这是第一项在数据流中定义和统计间隔项的工作。为了高效统计间隔项的top-K,提出了IntervalSketch。IntervalSketch首先基于模拟退火对数据流分块以加快统计速度,其次利用Sketch进行间隔项的存储,最后通过特征分组存储策略降低Sketch存储间隔项的空间开销,提升了统计间隔项的精度。IntervalSketch在两个真实数据集上进行了大量对比实验,实验结果表明,在同样内存的情况下,IntervalSketch明显优于基线方案,其中处理时间为基线方案的1/3～1/2,平均绝对误差、平均相对误差约为基线方案的1/3。

基于MapReduce的大规模网络社区发现算法

王瀚橙, 戴海鹏, 陈志鹏, 陈树森, 陈贵海

计算机科学. 2024, 51 (4): 11-18. doi:10.11896/jsjkx.231100049

摘要 ( 523 )

PDF(2053KB) ( 1917 )

参考文献 | 相关文章 | 多维度评价

社区发现是社会网络挖掘领域的基本问题。随着海量数据的迅速产生,传统社区发现算法愈发难以处理大规模社会网络。因此,针对大规模网络设计高效的社区发现算法意义重大。文中提出了一种基于MapReduce和k中心聚类的新型分布式算法。首先,该算法提出“朋友圈系数”技术,该技术可更加准确地度量结点间的距离。其次,该算法提出“两阶段k中心聚类”技术,该技术在选取中心点过程中融入结点中心度启发式信息,可显著优化输出结果的模块度。最后,该算法提出“以模块度为优化目标的社区融合”技术,该技术能够在无先验知识的前提下自动确定网络中的社区数目。实验结果表明,所提算法的社区发现结果模块度明显优于最先进的社区发现算法。例如,相比LPA算法,其将模块度平均提升9.19倍。

数据质量测量框架研究及领域测量框架构建

宋金玉, 陈连勇, 陈刚

计算机科学. 2024, 51 (4): 19-27. doi:10.11896/jsjkx.230400138

摘要 ( 412 )

PDF(1901KB) ( 1734 )

参考文献 | 相关文章 | 多维度评价

为激活数据质量潜能,构建兼顾信息环境与技术实现的数据质量测量框架,以提升数据挖掘和指挥决策的效用,文中从宏观层面和微观层面对现有的通用型、行业型数据质量测量框架进行梳理、研究,对数据质量维度进行“聚类”,得到数据质量维度类簇,提取了数据质量维度的两类特性,提出面向具体领域的数据质量测量框架构建准则。基于管理领域工作对数据质量的测量需求,结合构建准则构建了面向管理领域的数据质量测量框架,并明确了框架的数据质量维度、测量指标、测量方法等。

分布式网络中连续时间周期的全局top-K频繁流测量

毛晨宇, 黄河, 孙玉娥, 杜扬

计算机科学. 2024, 51 (4): 28-38. doi:10.11896/jsjkx.231000119

摘要 ( 370 )

PDF(4350KB) ( 1670 )

参考文献 | 相关文章 | 多维度评价

在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要。现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限。为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节点中布置了紧凑的概率数据结构来记录网络流信息,每个时间周期结束后分布节点向中心节点发送必要信息,中心节点汇聚得到从测量开始至当前时间周期的全局top-K频繁流。考虑到每条流可能出现在一个或多个测量节点,使用了不同的方法来减少传输开销。对于每条流只会出现在单一节点的情况,采用传输分段最小值的方法来获得阈值,实验结果表明这种方法减少了全量传输超过50%的传输开销。对于每条流会出现在多个节点的情况,提出了多阶段无误差处理方法和单阶段快速处理方法,分别应对不能容忍误差的场景和实际高速网络流量,相比每个时间周期都使用已有单周期方法,传输开销的实验表现降低了两个数量级。最后还提出了一种利用历史平均增值信息降低通信延迟的方法,实验结果表明该方法有效降低了限制信息的平均相对误差。

一种基于部分数据的多级剪枝Obfs4混淆流量识别方法

徐宸涵, 黄河, 孙玉娥, 杜扬

计算机科学. 2024, 51 (4): 39-47. doi:10.11896/jsjkx.231000118

摘要 ( 586 )

PDF(2135KB) ( 1674 )

参考文献 | 相关文章 | 多维度评价

Obfs4混淆流量是匿名通信网络Tor的一种承载流量,因其强匿名的特性而被滥用于非法网络活动,因此识别Obfs4混淆流量对预防利用Tor网络进行的网络犯罪具有重要作用。现有识别策略往往侧重于分析Obfs4流量特征,将完整流样本利用机器学习或深度学习技术进行精细化识别,但处于在线流识别的应用场景下时间开销偏高,且识别准确度在Obfs4应用间隔到达时间反检测技术(Inter-arrival Timing,IAT)后有所下降。为此,提出了一种基于部分数据的多级剪枝Obfs4混淆流量识别方法,仅收集每个流最先到达的少量数据包进行多轮快速过滤,并重点针对IAT模式特性设计识别方法,提升了Obfs4流量识别的效率和鲁棒性。该方法将识别过程分为握手阶段和加密通信阶段。在握手阶段,充分挖掘Obfs4握手数据包的隐含语义,进行随机性、时序和长度分布特征的粗粒度快速剪枝;在加密通信阶段,先对每个流的前若干数据包进行特征提取,并提高IAT相关特征的权重,最后利用XGBoost分类方法进行细粒度识别。实验结果表明,在包括了应用IAT技术的混淆流量的数据集上,使用流的前30~50个数据包能达到99%的正确率和精确度,平均每条流的处理时间在毫秒级。

RBFRadar:基于可编程数据平面检测价值突发流

吴艳妮, 周政演, 陈翰泽, 张栋

计算机科学. 2024, 51 (4): 48-55. doi:10.11896/jsjkx.231000213

摘要 ( 444 )

PDF(1979KB) ( 1667 )

参考文献 | 相关文章 | 多维度评价

在各种网络流量中,突发是一种常见且重要的流量模式。突发会增大网络时延并影响应用性能,因此对突发流的检测、分析和缓解对于提升网络性能和鲁棒性是有意义的。然而,当前基于逐次突发的检测方案存在显著的带宽开销和高用户负担问题。文中通过观察并分析多个场景下的突发流量特征,提出了价值突发流(Remarkable Burst Flow,RBF)检测,在降低带宽开销的同时,减少了传统突发检测中的密集手工劳动和专家经验要求,减轻了网络管理者的负担。RBFRadar是基于Sketch数据结构的框架,支持可编程数据平面上的RBF检测,在一段时间内观察流级别的突发性。该框架仅产生有限的内存占用和低时间复杂性,其原型可在PISA架构上实现。实验结果表明,在检测RBF的准确性方面,RBFRadar的F1分数是现有方案的5.6~23.4倍;在带宽开销方面,与基于逐次突发的检测方案相比,RBFRadar可降低84.62%~98.84%的带宽开销。

天气预报模型WRF中复杂Stencil性能优化

邸健强, 袁良, 张云泉, 张思佳

计算机科学. 2024, 51 (4): 56-66. doi:10.11896/jsjkx.231000124

摘要 ( 444 )

PDF(2329KB) ( 723 )

参考文献 | 相关文章 | 多维度评价

天气研究与预报模式(WRF)是一种应用广泛的中尺度数值天气预报系统,在大气研究和业务预报领域发挥着重要作用。Stencil计算是科学工程应用中一类常见的嵌套循环计算模式,WRF中对大气动力学和热力学方程的数值求解引出了大量空间网格上的复杂Stencil计算,存在多维度、多变量、物理模型边界特殊性、物理和动力学过程的复杂性等模型特征。文中深入剖析了WRF中典型的Stencil计算模式,识别抽象出典型Stencil循环中存在的“中间变量”概念,围绕其设计实现了3种优化方案,即中间变量计算合并、中间变量降维存储以及中间变量提取,有效提高了数据局部性,改善了数据重用率和空间复用率,降低了冗余计算和访存开销。结果表明,经优化方案重构的WRF 4.2典型Stencil热点函数在Intel CPU和Hygon CPU上均可获得良好的性能加速,最高加速比达21.3%和17.8%。

基于国产DCU异构平台的图匹配算法移植与优化

郝萌, 田雪洋, 鲁刚钊, 刘义, 张伟哲, 何慧

计算机科学. 2024, 51 (4): 67-77. doi:10.11896/jsjkx.230800193

摘要 ( 570 )

PDF(3041KB) ( 678 )

参考文献 | 相关文章 | 多维度评价

子图匹配是一种基础的图算法,被广泛应用于社交网络、图神经网络等众多领域。随着图数据规模的增长,人们迫切需要高效的子图匹配算法。GENEVA是一种基于GPU的并行子图匹配算法,其利用区间索引的图存储结构和并行匹配优化方法,能够大幅度减少存储开销,提升子图匹配性能。但由于平台底层硬件架构和编译环境的不同,GENEVA无法直接应用到国产DCU异构平台。为了解决该问题,提出了GENEVA面向国产DCU的移植和优化方案。IO时间开销是GENEVA算法主要的性能瓶颈,文中采用锁页内存、预加载、调度器3种优化策略来突破该瓶颈。其中,锁页内存技术避免了从可分页内存到临时锁页内存的额外数据传输,在DCU平台上大幅度减少了IO传输的时间开销;预加载技术将IO数据传输与DCU核函数计算重叠,掩盖了IO时间开销;调度器在满足预加载需求的同时,减少了冗余数据的传输。在3个不同规模的真实数据集上进行实验,结果表明,采用优化策略后算法性能显著提高。在92.6%的测试用例上,经过优化的GENEVA-HIP算法在国产DCU平台的执行时间比移植前的GENEVA算法在GPU服务器的执行时间短。在较大规模的数据集上,优化的GENEVA-HIP算法在DCU平台上的执行时间相比移植前的GENEVA算法在GPU服务器的执行时间减少了52.73%。

一种基于指令MKS的自动向量化代价模型

王震, 聂凯, 韩林

计算机科学. 2024, 51 (4): 78-85. doi:10.11896/jsjkx.230200024

摘要 ( 387 )

PDF(2431KB) ( 482 )

参考文献 | 相关文章 | 多维度评价

自动向量化代价模型是编译器进行自动向量化优化时的重要组成部分,其作用是评估代码在应用向量化转换后能否获得性能提升。当代价模型不准确时,编译器会应用负收益的向量化转换,从而降低程序的执行效率。针对GCC编译器默认代价模型的不精确问题,以Intel Xeon Silver 4214R CPU为平台,提出了一种基于指令MKS的自动向量化代价模型。该模型充分考虑了指令的机器模式、运算类型以及运算强度等,并使用梯度下降算法自动搜索不同指令类型的近似代价。在SPEC2006以及SPEC2017上进行了单线程测试,实验结果表明,该模型能够减少收益评估错误的情况。与默认代价模型生成的向量程序相比,GCC编译器添加MKS代价模型后,在SPEC2006课题上最高获得了4.72%的提速,在SPEC2017课题上最高获得了7.08%的提速。

基于多类型计算重写的浮点表达式精度优化方法

郝江伟, 杨鸿儒, 夏媛媛, 刘毅, 许瑾晨, 庞建民

计算机科学. 2024, 51 (4): 86-94. doi:10.11896/jsjkx.221200072

摘要 ( 369 )

PDF(2371KB) ( 487 )

参考文献 | 相关文章 | 多维度评价

表达式重写是精度优化领域的新兴方法,其核心思想是在不改变表达式精度类型的前提下,将其变换为语义上等价的表达式以尝试提升精度。然而,面对庞大的变换规则和变换空间,如何选取合适的变换策略成为了重写方法的问题所在。针对上述问题,提出了一个基于多类型计算重写的浮点表达式精度优化方法,支持包括函数计算、四则运算的表达式,并实现了表达式重写工具exprAuto。区别于其他精度优化工具侧重于对子表达式的替换,exprAuto更注重对表达式运算顺序的变换。exprAuto在对表达式化简和数学变换后,通过多项式变换获取不同的计算顺序,并尝试减少运算次数以提升精度,最终生成一个包含不同计算顺序的等价表达式集合,通过排序筛选和误差检测从中选出最终的精度优化结果。文中选取41个FPBench标准集中的表达式和18个常见数学函数的近似多项式作为测试用例,在经exprAuto优化后,所提方法相比原式最大误差降低了45.92%,平均误差降低了34.98%;针对其中的18个近似多项式,相比原式最大误差降低了58.35%,平均误差降低了43.73%。实验结果表明,exprAuto可以有效提升表达式尤其是多项式的精度。

基于图卷积神经网络的节点分类方法研究综述

张丽英, 孙海航, 孙玉发, 石兵波

计算机科学. 2024, 51 (4): 95-105. doi:10.11896/jsjkx.230600071

摘要 ( 796 )

PDF(1683KB) ( 955 )

参考文献 | 相关文章 | 多维度评价

节点分类任务是图领域中的重要研究工作之一。近年来随着图卷积神经网络研究工作的不断深入,基于图卷积神经网络的节点分类研究及其应用都取得了重大进展。图卷积神经网络是基于卷积发展出的一类图神经网络,能处理图数据且具有卷积神经网络的优点,已成为图节点分类方法中最活跃的一个研究分支。对基于图卷积神经网络的节点分类方法的研究进展进行综述,首先介绍图的相关概念、节点分类的任务定义和常用的图数据集;然后探讨两类经典图卷积神经网络——谱域和空间域图卷积神经网络,以及图卷积神经网络在节点分类领域面临的挑战;之后从模型和数据两个视角分析图卷积神经网络在节点分类任务中的研究成果和未解决的问题;最后对基于图卷积神经网络的节点分类研究方向进行展望,并总结全文。

基于Transformer的节点影响力排序模型

席颖, 邬学猛, 崔晓晖

计算机科学. 2024, 51 (4): 106-116. doi:10.11896/jsjkx.230300110

摘要 ( 536 )

PDF(3477KB) ( 619 )

参考文献 | 相关文章 | 多维度评价

节点影响力排序是复杂网络的一个重点话题,对识别关键节点和衡量节点影响力有着重要作用。目前,已有诸多研究基于复杂网络探索节点影响力,其中深度学习显示出了巨大的潜力。然而,现有卷积神经网络(CNNs) 和图神经网络(GNNs) 模型的输入往往基于固定维度特征,且不能有效地区分邻居节点,无法适应多样性的复杂网络。为了解决上述问题,文中提出了一种简单且有效的节点影响力排序模型。该模型中,节点的输入序列包含节点本身及其邻居节点的信息,且可以根据网络动态调整输入序列长度,确保模型获取到足量的节点信息。同时该模型利用自注意力机制,使节点可以有效地聚合输入序列中邻居节点的信息,从而全面地识别节点的影响力。在12个真实网络数据集上进行实验,通过多维度的评价标准验证了该模型相比7种已有方法的有效性。实验结果表明,在不同的网络结构中,该模型均能有效地识别网络中节点的影响力。

基于代表性节点扩张的保持社区结构的图采样算法

宏宇, 陈鸿昶, 张建朋, 黄瑞阳, 李邵梅

计算机科学. 2024, 51 (4): 117-123. doi:10.11896/jsjkx.230100018

摘要 ( 344 )

PDF(1789KB) ( 503 )

参考文献 | 相关文章 | 多维度评价

作为一种能够简化大规模图并保留其指定属性的方法,图采样被广泛应用于现实生活中。然而当前研究大多集中于保留节点级的性质,如度分布等,而忽略了图的社区结构等更为重要的信息。针对此问题,提出了一种保持社区结构的图采样算法。算法主要分为两个步骤,第一步为初始化社区代表点,根据提出的节点重要度计算公式算出节点的重要度,然后选出每个社区的代表性节点;第二步为社区结构扩张,针对每个社区,选择可能引入最少额外邻居的节点加入社区中,直到达到该社区节点上限。在多个真实数据集上进行了对比实验,使用多个评价指标来评估实验结果。实验结果表明,所提出的采样算法能够很好地保持原始图的社区结构,为大规模图的社区结构采样提供了可行的解决方案。

基于聚簇模型重用的概念漂移数据流半监督分类算法

康伟, 黎利辉, 文益民

计算机科学. 2024, 51 (4): 124-131. doi:10.11896/jsjkx.230300023

摘要 ( 345 )

PDF(1987KB) ( 564 )

参考文献 | 相关文章 | 多维度评价

带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史聚簇模型。因此,文中提出了一种新的聚簇模型重用的半监督分类算法,称为CDCMR。首先,数据流以数据块的形式到来,对数据块分完类后,训练一个簇数自适应确定的聚簇模型。其次,通过计算分类器池中的各组件分类器与聚簇模型之间的相似度,挑选多个组件分类器。再次,用当前数据块对挑选出来的组件分类器进行模型重用后,与聚簇模型集成。然后,将分类器池划分为新旧更替和多样性最大化分类器池进行更新。最后,对下一个数据块的样本进行集成分类。在多个人工和真实数据集上进行实验,结果表明,所提算法¹⁾能有效适应概念漂移,与现有方法相比其性能有显著性提升。

图神经网络节点分类任务基准测试及分析

张陶, 廖彬, 于炯, 李敏, 孙瑞娜

计算机科学. 2024, 51 (4): 132-150. doi:10.11896/jsjkx.230200084

摘要 ( 416 )

PDF(11589KB) ( 545 )

参考文献 | 相关文章 | 多维度评价

图神经网络(Graph Neural Network,GNN)模型由于采用端到端的模型架构,在训练过程中能够更好地将节点隐藏特征的学习和分类目标协同起来,相比图嵌入(Graph Embedding)的方法,其在节点分类等任务上得到了较大的性能提升。但是,已有图神经网络模型实验对比阶段普遍存在的数据集类型单一、样本量不足、数据集切分不规范、对比模型规模及范围有限、评价指标单一、缺乏模型训练耗时对比等问题。为此,文中选取了包括cora,citeseer,pubmed,deezer等在内的来自不同领域(引文网络、社交网络及协作网络等)的共计20种数据集,以准确率、精确率、召回率、F-score值及模型训练耗时为多维评价指标,在FastGCN,PPNP,ChebyNet,DAGNN等17种主流图神经网络模型上,进行了全面且公平的节点分类任务基准测评,进而为真实业务场景下的模型选择提供了决策参考。通过基准测试实验发现,一方面,影响模型训练速度的因素排名依次是节点属性维度、图节点规模及图边的规模;另一方面,并不存在赢者通吃的模型,即不存在在所有数据集下全都表现优异的模型,特别是在公平的基准测试配置环境下,结构简洁的模型反而比复杂的GNN模型有着更好的性能表现。

基于双路先验自适应图神经常微分方程的交通流预测

袁蓉, 彭莉兰, 李天瑞, 李崇寿

计算机科学. 2024, 51 (4): 151-157. doi:10.11896/jsjkx.230100066

摘要 ( 410 )

PDF(2049KB) ( 590 )

参考文献 | 相关文章 | 多维度评价

准确的交通流量预测是智能交通系统不可或缺的组成部分。近年来,图神经网络在交通流预测任务中取得了较好的预测结果。然而,图神经网络的信息传递是不连续的潜在状态传播,且随着网络层数的增加存在过平滑的问题,这限制了模型捕获远距离节点的空间依赖关系的能力。同时,在表示道路网络的空间关系时,现有方法大多仅使用先验知识构建的预定义图或仅使用路网状况构建的自适应图,忽略了两类图结合的方式。针对上述问题,提出了一种基于双路先验自适应图神经常微分方程的交通流预测模型。利用时间卷积网络捕获序列的时间相关性,使用先验自适应图融合模块表示道路网络的空间关系,并通过基于张量乘法的神经常微分方程以连续的方式传播复杂的时空特征。最后,在美国加利福尼亚州4个公开的高速公路流量数据集上进行对比实验,结果表明所提模型的预测效果优于现有的10种对比方法。

基于差异补偿和短期采样对比损失的城市电力负荷预测方法

陈润桓, 戴华, 郑桂能, 李惠, 杨庚

计算机科学. 2024, 51 (4): 158-164. doi:10.11896/jsjkx.230100089

摘要 ( 396 )

PDF(3180KB) ( 496 )

参考文献 | 相关文章 | 多维度评价

城市电力负荷预测是城市智能电网规划和调度的一项重要内容。然而,城市电力负荷预测中存在数据不均的问题,给城市电力负荷预测带来了巨大挑战。传统的基于单一模型的方法难以解决数据不均的问题,而现有的基于多模型的预测方法根据电力负荷分布将数据集拆分成多个子数据集,然后分别建立多个预测模型进行预测,该类方案在一定程度上解决了数据不均问题,但存在模型构建成本较高、不同分布样本间共有的电力分布特征发生分离等问题。基于此,提出了一个轻量级城市电力负荷预测模型(Lighten-DCSC-LSTM)。该模型通过在长短期记忆网络的基础上引入差异补偿的思想和短期采样对比损失进行构建,同时构建共享特征提取层来降低模型构建成本。其中,差异补偿思想通过学习不同电力负荷分布样本之间的差异对主序列预测模块的预测结果进行差异补偿,短期采样对比损失通过动态类中心的对比学习损失对模型的训练进行正则化。为了验证模型的性能,进行了参数调优和对比实验。对比实验结果表明,模型在预测电力负荷的任务中取得了良好的性能。

基于Transformer的街道停车位数据补全和预测

林滨伟, 於志勇, 黄昉菀, 郭贤伟

计算机科学. 2024, 51 (4): 165-173. doi:10.11896/jsjkx.221200171

摘要 ( 437 )

PDF(2892KB) ( 532 )

参考文献 | 相关文章 | 多维度评价

随着城市汽车数量的持续增长,街道停车难已经成为一个热点问题。解决街道停车问题的关键在于准确预测街道未来的停车位信息。移动群智感知方式(CrowdSensing)通过在车辆上安装声呐以感知路边的停车位情况,是一种低成本、高效益的感知停车位的方式,然而这种方式感知的停车位数据在时间上存在高稀疏性问题,传统模型无法直接用于预测。针对此问题,提出了一种基于Transformer的停车位序列补全和预测网络,此网络通过编码器生成缺失停车位序列的记忆,进而解码器以自回归的方式补全停车位序列中缺失的部分,同时预测出未来的停车位信息。实验结果表明,所提方法在两个高缺失的街道停车位数据集上的补全和预测效果都优于传统的机器学习和深度学习方法。

基于自然语言生成的制造企业自动化图表分析方法研究

王旭, 刘昌宏, 李生春, 刘爽, 赵康廷, 陈亮

计算机科学. 2024, 51 (4): 174-181. doi:10.11896/jsjkx.230400031

摘要 ( 334 )

PDF(3038KB) ( 506 )

参考文献 | 相关文章 | 多维度评价

随着数字化转型的浪潮席卷全球,制造企业每天都会产生大量的图表数据,传统的图表分析方法很难对图表数据进行高效、准确的分析,自动化图表分析方法成为图表分析的重要手段。为解决自动化图表分析方法在实际应用时很难满足具体需求的问题,提出了一种基于自然语言生成的制造企业自动化图表分析方法。该方法基于LSTM对图表数据进行分析,并针对分析过程中出现的多余数据误导LSTM等问题,在嵌入层之后增加判别器层使LSTM能够根据图表类型进行更有针对性的语义理解和文本预测;针对图表分析过程中生成描述语句质量差等问题,参考集束搜索和随机采样策略,提出随机集束采样策略以提高图表分析质量,并引入知识蒸馏方法对LSTM进行优化,进一步提高描述文本的质量。实验证明,相较于LSTM,该方法文本质量提升了8.9%。为了便于将该方法应用在实际中,设计并开发了制造企业自动化图表分析系统,并将该方法引入作为图表分析工具。实验结果表明,所提方法能够提高制造企业图表分析的质量和效率。

基于fMRI时变特征的大脑状态研究综述

林祺业, 夏佳楠, 周雪忠

计算机科学. 2024, 51 (4): 182-192. doi:10.11896/jsjkx.230700059

摘要 ( 488 )

PDF(2651KB) ( 811 )

参考文献 | 相关文章 | 多维度评价

功能磁共振成像技术已被广泛应用于人脑功能活动的研究,使用大脑状态(Brain State)研究大脑动力学得到了研究人员的广泛关注。以往关于大脑状态的综述,通常从状态定义方法的角度进行比较和总结,忽略了底层数据形式的不一致,可能导致对大脑状态的解读多样化。此外,现有综述也缺少对大脑状态分析应用方法的探讨。基于不同的数据形式,回顾了大脑状态的不同定义方法,总结了基于大脑状态进行大脑动力学分析的不同方法,并从大脑状态应用于认知、精神疾病、生理状态等方面的研究,总结出典型的研究方法。最后,发现了大脑元状态的定义与深度学习在特征提取方面具有相似性,从而提出将深度学习应用于大脑状态的识别以及大脑动力学的研究,这是一个有希望的未来方向。

基于视觉的神经网络三维动态手势识别方法综述

王瑞平, 吴士泓, 张美航, 王小平

计算机科学. 2024, 51 (4): 193-208. doi:10.11896/jsjkx.230200205

摘要 ( 426 )

PDF(7133KB) ( 736 )

参考文献 | 相关文章 | 多维度评价

动态手势识别作为一种重要的人机交互手段而受到广泛关注,其中基于视觉的识别方式因其使用便利性和低成本的优势成为新一代人机交互的首选技术。以人工神经网络为中心,综述了基于视觉的手势识别方法研究进展,分析了不同类型人工神经网络在手势识别中的发展现状,调研并归纳总结了待识别数据和训练数据集的类型及特点;此外,通过开展性能对比实验,客观评估了不同类型的人工神经网络,并对结果进行了分析。最后,对调研内容进行了总结,对该领域面临的挑战和存在的问题进行了阐述,对动态手势识别技术的发展趋势进行了展望。

基于双流YOLOv4的金属表面缺陷检测方法

徐浩, 李丰润, 陆璐

计算机科学. 2024, 51 (4): 209-216. doi:10.11896/jsjkx.230100141

摘要 ( 425 )

PDF(3452KB) ( 637 )

参考文献 | 相关文章 | 多维度评价

目前有许多学者使用深度学习进行表面缺陷检测研究,由于这些研究大都沿用主流目标检测算法的思路,注重高级语义特征,而忽视了低级语义信息(色彩、形状)对表面缺陷检测的重要性,因此导致缺陷检测效果不够理想。为解决上述问题,提出了一种金属表面缺陷检测网络——双流YOLOv4网络,骨干网络分成两个分支,输入分为高分辨率图像和低分辨率图像,浅分支负责从高分辨率图像中提取低级特征,深分支负责从低分辨率图像中提取高级特征,通过削减两分支的层数和通道数来减少模型总参数量;为了强化低级语义特征,提出了一种树形多尺度融合方法(Tree-structured Multi-scale Feature Fusion Me-thod,TMFF),并设计了一个结合极化自注意力机制和空间金字塔池化的特征融合模块(Feature Fusion Module with Polarized Self-Attention Mechanism and Spatial Pyramid Pooling,FFM-PSASPP)应用到TMFF中。在东北大学热轧带表面缺陷数据集NEU-DET、金属表面缺陷数据集GC10-DET和伊莱特电饭煲内胆缺陷数据集Enaiter的测试集上对所提算法进行了测试,测得的map@50结果分别为0.80,0.66和0.57,相比大部分主流的用于缺陷检测的目标检测算法均有提升,且模型参数量仅为原YOLOv4的一半,速度与YOLOv4接近,可满足实际使用需求。

基于多任务学习的视频和图像显著目标检测方法

刘泽宇, 刘建伟

计算机科学. 2024, 51 (4): 217-228. doi:10.11896/jsjkx.231000051

摘要 ( 566 )

PDF(5070KB) ( 619 )

参考文献 | 相关文章 | 多维度评价

显著目标检测(Salient Object Detection,SOD)能够模拟人类的注意力机制,在复杂的场景中快速发现高价值的显著目标,为进一步的视觉理解任务奠定了基础。当前主流的图像显著目标检测方法通常基于DUTS-TR数据集进行训练,而视频显著目标检测方法(Video Salient Object Detection,VSOD)基于DAVIS,DAVSOD以及DUTS-TR数据集进行训练。图像和视频显著目标检测任务既有共性又有特性,因此需要部署独立的模型进行单独训练,这大大增加了运算资源和训练时间的开销。当前研究大多针对单个任务提出独立的解决方案,而缺少统一的图像和视频显著目标检测方法。针对上述问题,提出了一种基于多任务学习的图像和视频显著目标检测方法,旨在构建一种通用的模型框架,通过一次训练同时适配两种任务,并进一步弥合图像和视频显著目标检测方法之间的性能差异。12个数据集上的定性和定量实验结果表明,所提方法不仅能够同时适配两种任务,而且取得了比单任务模型更好的检测结果。

基于GAANET的立体匹配算法

宋昊, 毛宽民, 朱洲

计算机科学. 2024, 51 (4): 229-235. doi:10.11896/jsjkx.230100137

摘要 ( 374 )

PDF(2825KB) ( 446 )

参考文献 | 相关文章 | 多维度评价

端到端的立体匹配算法在计算时间和匹配效果上均有一定的优势,近年来在立体匹配任务中得到了广泛的应用。但特征提取的过程中存在特征冗余、信息丢失,以及多尺度特征融合不充分等问题,造成算法的计算量和复杂度偏高,也影响了匹配的精度。针对上述问题,在自适应聚合网络AANET的基础上,设计了更加适合立体匹配的特征提取模块,提出了改进的幽灵自适应聚合网络GAANET。采用G-Ghost阶段提取多尺度的特征,通过廉价操作生成部分特征,减少特征的冗余现象并有效保存浅层特征;采取高效的通道注意力机制,将不同的权重分配到每个通道中;采取改进的特征金字塔结构,缓解传统金字塔中的通道信息丢失并优化融合特征,为各个尺度的特征进行丰富的信息补充。在SceneFlow,KITTI2015和KITTI2012数据集上进行训练和评估,评估结果显示,与基础方法相比,所提改进算法的精度分别提升了0.92%,0.25%和0.20%,且参数量减少了13.75%,计算量减少了4.8%。

基于3D骨架相似性的自适应移位图卷积神经网络人体行为识别算法

闫文杰, 尹艺颖

计算机科学. 2024, 51 (4): 236-242. doi:10.11896/jsjkx.221200120

摘要 ( 436 )

PDF(2583KB) ( 549 )

参考文献 | 相关文章 | 多维度评价

图卷积神经网络(Graph Convolutional Neural network,GCN)在基于3D骨架的人体行为识别领域取得了良好效果。然而,现有的大多数GCN方法对行为动作图的构建都是基于人体物理结构的手动设置,训练阶段各个图节点只能根据手动设置建立联系,无法感知动作行为过程中骨骼节点之间产生的新联系,导致图拓扑结构不合理和不灵活。移位图卷积网络通过改变图网络结构使得感受野更加灵活,并且在全局移位角度取得了良好效果。因此,提出了一种基于自适应移位图卷积神经网络(Adaptive Shift Graph Convolutional Neural network,AS-GCN)的人体行为识别算法来弥补前述GCN方法的不足。AS-GCN借鉴了移位图卷积网络的思想,提出用每个人体动作的本身特点来指导图神经网络进行移位操作,以尽可能准确地选定需要扩大感受野的节点。在基于骨架的通用动作识别数据集NTU-RGBD上,所提算法在骨骼有无物理关系约束的前提条件下均进行了实验验证。与现有的先进算法相比,AS-GCN算法的动作识别准确率在有骨骼物理约束的条件下的CV和CS角度上平均提高了12%和4.84%;在无骨骼物理约束的条件下的CV和CS角度上平均提高了20%和14.49%。

结合卷积神经网络与多层感知机的渐进式多阶段图像去噪算法

薛金强, 吴秦

计算机科学. 2024, 51 (4): 243-253. doi:10.11896/jsjkx.230100140

摘要 ( 422 )

PDF(3687KB) ( 591 )

参考文献 | 相关文章 | 多维度评价

现有基于深度学习的图像去噪方法中,在网络架构层面存在单阶段网络特征表达能力不足而难以在复杂场景下重构清晰图像,以及多阶段网络内部特征连接不紧密而容易丢失原始图像细节的问题。在基础构建块层面,存在卷积层难以处理较大噪声级别下的跨层次特征,以及全连接层难以捕获图像邻域空间细节的问题。为解决以上问题,从两方面提出解决方法:一方面,在架构层面提出新颖的跨阶段门控特征融合,从而更好地连接一阶段网络的浅层特征与二阶段的深层特征,促进信息流的交互并使得去噪网络内部关联更为紧密,同时避免丢失原始像素细节;另一方面,在基础构建块层面提出结合卷积神经网络和多层感知机特性的双轴特征偏移块,作用于低分辨率多通道数的特征图,从而缓解卷积网络在复杂噪声场景下难以捕获跨层次特征依赖关系的问题,对于高分辨率、少通道数的特征图,使用卷积网络以充分提取噪声图像的空间邻域依赖关系。大量定量与定性实验表明,所提算法在真实世界图像去噪和高斯噪声去除任务中,都以较小的参数量和计算代价取得了最佳的PSNR和SSIM。

基于快速最大奇异值幂正规化的全局协方差池化

曾睿仁, 谢江涛, 李培华

计算机科学. 2024, 51 (4): 254-261. doi:10.11896/jsjkx.230200140

摘要 ( 384 )

PDF(1950KB) ( 440 )

参考文献 | 相关文章 | 多维度评价

近期的研究工作表明,矩阵正规化对全局协方差池化起着关键作用,有助于生成分辨能力更强的表征,从而提升图像识别任务的性能。在不同的矩阵正规化方法中,矩阵结构正规化能充分利用协方差矩阵的几何结构,因此可以获得更好的性能。然而,结构正规化一般依赖计算代价很高的奇异值分解(SVD)或者特征值分解(EIG),不能充分利用GPU的并行计算能力,从而形成计算瓶颈。迭代矩阵平方根正规化(iSQRT)通过牛顿-舒尔兹迭代对协方差矩阵进行正规化,速度比基于SVD和EIG的方法更快。但是随着迭代次数和维度的提高,iSQRT的时间和内存开销都会显著增加,而且该方法无法完成一般幂次的正规化,限制了其应用范围。为了弥补iSQRT的不足,文中提出了一种基于最大奇异值幂的协方差矩阵正规化方法。该方法通过将协方差矩阵除以其最大奇异值的幂来实现,计算过程仅需迭代幂法计算矩阵的最大奇异值。详细的消融实验的结果表明,与iSQRT相比,所提方法的速度更快并占用更少的显存,在时间复杂度和空间复杂度上都优于iSQRT方法,同时性能上与iSQRT方法相当或更好。所提方法在大规模图像分类数据库和细粒度识别数据库中取得了领先的性能,其中在Aircraft,Cars和Indoor67上分别表现为90.7%,93.3%以及83.9%,充分验证了所提方法的鲁棒性和泛化性。

基于语音节奏差异的情感识别方法

张家豪, 章昭辉, 严琦, 王鹏伟

计算机科学. 2024, 51 (4): 262-269. doi:10.11896/jsjkx.230200063

摘要 ( 377 )

PDF(2489KB) ( 540 )

参考文献 | 相关文章 | 多维度评价

语音情感识别在金融反欺诈等领域有着重要的应用前景,但是语音情感识别的准确率提升变得越来越困难。现有基于语谱图的语音情感识别等方法难以捕捉节奏差异特征,从而影响识别效果。文中基于语音节奏特征的差异性,提出了能量帧时频融合的语音情感识别方法。其关键是,针对语音中高能量区域进行频谱筛选,以高能语音帧的分布和时频变化来体现个体的语音节奏差异。在此基础上建立基于卷积神经网络(CNN)和循环神经网络(RNN)的情感识别模型,实现对频谱的时域和频域变化特征的提取与融合。在公开数据集IEMOCAP上进行实验,结果表明,该基于语音节奏差异的语音情感识别与基于语谱图的方法相比,在加权准确率WA和非加权准确率UA指标上分别平均提升了1.05%和1.9%;同时也表明个体的语音节奏差异对提升语音情感识别效果具有重要作用。

无人机辅助的高能效边缘联邦学习综述

卢彦丰, 吴韬, 刘春生, 颜康, 屈毓锛

计算机科学. 2024, 51 (4): 270-279. doi:10.11896/jsjkx.231100084

摘要 ( 583 )

PDF(2006KB) ( 912 )

参考文献 | 相关文章 | 多维度评价

随着移动通信技术的快速发展和物联网终端设备数量激增,丰富多样的智能应用及海量数据在网络边缘产生,边缘智能应运而生。当前,联邦学习作为一种新兴的分布式机器学习方法,可以在不共享终端设备原始数据的情况下协作完成模型训练任务,是实现边缘智能的重要方式。传统的边缘智能网络以地面通信基站为参数服务器,其服务范围相对固定,无法适应复杂多变的异构网络环境。无人机由于其灵活性和机动性被引入联邦学习中,可以有效地在边缘智能网络中提供通信/计算/缓存服务,增强地面网络的通信容量,弥补传统地面网络通信范围受限、通信开销大、数据传输延迟高等缺点。无人机辅助的联邦学习具有通信覆盖范围广、通信开销低、即时响应等明显优势,同时也面临通信带宽受限、不可靠的通信环境、飞行环境的不确定性等挑战,上述挑战可能导致低能效问题。无人机辅助的高能效边缘联邦学习是将无人机作为边缘服务器的计算能耗、计算频率、时间分配等纳入考虑,研究无人机辅助联邦学习系统的能效优化方案。针对无人机作为边缘服务器这一场景,依据最小化能耗、最小化延迟和最小化能耗延迟加权和等不同的优化目标,对当前无人机辅助的高能效边缘联邦学习研究进行了分类和总结,并对未来研究方向进行了思考和展望。

基于观测重构的多智能体强化学习方法

史殿习, 胡浩萌, 宋林娜, 杨焕焕, 欧阳倩滢, 谭杰夫, 陈莹

计算机科学. 2024, 51 (4): 280-290. doi:10.11896/jsjkx.230600055

摘要 ( 441 )

PDF(3228KB) ( 537 )

参考文献 | 相关文章 | 多维度评价

共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。

基于可穿戴设备的开放集动作识别技术研究

王佳昊, 闫航, 胡鑫, 赵德鑫

计算机科学. 2024, 51 (4): 291-298. doi:10.11896/jsjkx.230300158

摘要 ( 488 )

PDF(3486KB) ( 597 )

参考文献 | 相关文章 | 多维度评价

随着智能手表、手环等可穿戴设备的普及,将其用于人体行为识别领域并从中解码出人类行为活动,对于健康监测、日常行为分析、智能家居等应用具有重要意义。然而,传统的动作识别算法存在特征提取困难、识别准确率较低等问题,并且均基于封闭集假设,即所有的训练数据和测试数据均来自同一个标签空间,而现实世界中大多都是开放集(Open-Set)场景,在测试阶段可能会将未知标签样本送入模型,从而导致分类错误。文中针对人体动作识别问题,提出了多通道自适应卷积网络(Multi-channel Adaptive Convolutional Network,MCACN),针对传统CNN网络特征提取仅局限于一个小范围内的问题,自适应卷积模块能够使用不同大小的卷积核提取不同时间跨度的特征,并自动计算权重求和。此外MCACN的多通道结构使各传感器数据得以分头进行处理,获得能够区分相近动作的特征细节。最后,设计了基于标签的多元变分自编码器,提出了用于开放集识别的模型MCACN-VAE。该模型能够通过计算重建误差来识别未知类,聚焦于已知类别动作,提高了模型的健壮性。实验结果表明,在封闭集实验中,MCACN模型能够有效地对动作进行识别,对7种日常动作的识别准确率均达到了91%以上,总体准确率达到了95%。在开放集实验中,MCACN-VAE在不同开放度下对于已知类别的总体识别准确率均达到了89%以上,对于未知动作片段的识别准确率也保持在75%以上,证明了所提模型能够有效拒绝未知类,识别已知类。

基于语义扩充和HDGCN的虚假新闻联合检测技术

张明道, 周欣, 吴晓红, 卿粼波, 何小海

计算机科学. 2024, 51 (4): 299-306. doi:10.11896/jsjkx.230700170

摘要 ( 444 )

PDF(1627KB) ( 498 )

参考文献 | 相关文章 | 多维度评价

虚假新闻检测的方法有很多种,单一的方法通常只关注新闻内容、社交上下文或外部事实等信息;而联合检测方法则通过整合多种模式信息达到检测目的。Pref-FEND即为一种整合新闻内容与外部事实的联合检测方法,它从新闻内容和外部事实中提取3种词语表示,利用动态图卷积网络获得词节点之间的关系。但其在如何让两种模式更加专注于自己的偏好部分方面仍存在不足。因此,对Pref-FEND模型进行了改进,利用语义挖掘扩充新闻中的风格词,利用实体链接扩充新闻中的实体词,共得到5种词语并将其作为图网络的节点表示,从而更有效地建模图神经网络的节点表征;同时,引入深度异构图卷积网络(HDGCN)进行偏好学习,它的深度策略和多层注意力机制可以让两种模型更加专注于自身需要的偏好感知并减少冗余信息。实验结果表明,在公开数据集Weibo和Twitter上,与当前主流的基于内容的单一模型LDAVAE相比,改进后的框架F1值分别提高了2.8%和1.9%;与基于事实的单一模型GET相比,F1值分别提高了2.1%和1.8%;同时,在LDAVAE+GET联合检测的情况下,比Pref-FEND的 F1值分别提高了1.1%和1.3%。实验结果验证了所改进模型的有效性。

改进的跨模态关联歧义学习的虚假信息检测方法研究

段钰潇, 胡艳丽, 郭浩, 谭真, 肖卫东

计算机科学. 2024, 51 (4): 307-313. doi:10.11896/jsjkx.230900087

摘要 ( 406 )

PDF(1990KB) ( 496 )

参考文献 | 相关文章 | 多维度评价

近年来,随着互联网及多媒体技术的迅猛发展,人们获取信息更加方便快捷,然而虚假信息在网络上的传播也日益严重,负面影响不断扩大。为了增强信息的可信度和欺骗性,虚假信息呈现多模态发展趋势,使得检测工作面临更大挑战。现有的多模态虚假信息检测方法大多关注多模态特征的形成,对于跨模态歧义和不同模态特征在检测中的贡献率的研究尚不完善,忽略了不同模态特征间固有差异性对虚假信息检测的影响。为解决该问题,提出了构建改进的跨模态关联歧义学习的虚假信息检测模型,通过对文本和图像特征进行跨模态歧义学习,利用歧义得分更新单模态与融合特征的权重,自适应地拼接单模态与融合特征;同时采用网格搜索动态分配文本、图像特征权重,提高检测准确率。在Twitter数据集上对该模型的有效性进行验证,其相比基线模型准确率提高了6%,相比未进行动态权重分配的检测方法性能提升了1.6%。

基于残差网络融合多关系评论特征的虚假评论检测

雒泽阳, 田华, 窦英通, 李曼文, 张泽华

计算机科学. 2024, 51 (4): 314-323. doi:10.11896/jsjkx.230200020

摘要 ( 417 )

PDF(3973KB) ( 469 )

参考文献 | 相关文章 | 多维度评价

随着电子商务和短视频社区平台的兴起,涌现出的虚假评论严重影响了用户体验。甚至为了对抗平台检测,伪装的评论(Review Camouflage)更加难以辨别。当前基于图神经网络(Graph Neural Networks,GNNs)的虚假评论检测方法在深层训练过程中容易出现网络退化和梯度消失问题。同时评论伪装导致评论标记更加倾斜,从而影响GNNs检测模型的鲁棒性。针对以上问题,提出了一种基于残差网络的检测方法 MRDRN,可融合多关系评论特征进行虚假评论识别。首先,为了减缓网络退化,结合残差网络进行深层评论特征提取,并给出一种新的邻居混合采样策略,可根据评论之间的特征相似性进行低阶及高阶邻居混合采样,从而缓解评论标记不均衡的问题并学习更加丰富的评论特征。其次,提出了一种多关系评论特征融合策略,通过关系内评论网络拓扑与多关系间评论特征的整体融合,来减小评论伪装的影响。在3个真实数据集上进行实验,结果表明,MRDRN相比基准方法具有更高的检测能力和更强的鲁棒性。

融合方面语义和网格标记的多语言意见元组抽取

古文霞, 早克热·卡德尔, 杨乾, 艾山·吾买尔

计算机科学. 2024, 51 (4): 324-333. doi:10.11896/jsjkx.230200195

摘要 ( 328 )

PDF(2355KB) ( 448 )

参考文献 | 相关文章 | 多维度评价

面向方面的细粒度意见抽取(Aspect-oriented Fine-grained Opinion Extraction,AFOE)任务的目的是以意见对的形式抽取文本评论中的方面和意见词或者再抽取情感极性,形成意见三元组。以往的研究通常以管道方式抽取意见元素,容易出现错误传播的问题,而且大多数只关注方面词和意见词的单个子任务抽取,忽略了不同意见元素之间的相互影响和指示信息,导致意见挖掘任务不完整。此外,面向中文的意见元素抽取任务的研究较少。针对以上问题,文中提出了融合方面语义和网格标记的多语言意见元组抽取模型。首先,使用向内LSTM(Inward-LSTM)和向外LSTM(Outward-LSTM)编码方面词及其对应的上下文信息建立方面和候选意见词的关联,再结合全局信息生成特定方面语义特征的上下文表示,有利于提高下游意见元素抽取的性能。其次,使用网格标记方案的推理策略,利用方面和意见词之间的依赖指示信息进行更准确的抽取,以端到端的方式处理AFOE任务。相比基线模型,对于方面意见对抽取任务,改进的模型在中英文数据集上的F1值提高了0.89%~4.11%,对于三元组抽取任务提高了1.36%~3.11%,实验结果表明,改进的模型能有效地对中英文评论的意见元素进行抽取,性能显著优于基线模型。

非结构化场景下的无人车轨迹规划研究

朱威, 杨世博, 滕帆, 何德峰

计算机科学. 2024, 51 (4): 334-343. doi:10.11896/jsjkx.221200079

摘要 ( 454 )

PDF(5645KB) ( 649 )

参考文献 | 相关文章 | 多维度评价

针对传统无人车轨迹规划算法在非结构化场景下存在实时性较低和轨迹平滑性较差等问题,提出了一种前后端分离的轨迹规划算法。该算法的前端路径搜索部分对Hybrid A^*算法在控制空间进行搜索范围的剪枝且保留了车辆的运动学约束,并通过优化启发函数的计算方式,提高了图搜索的实时性。该算法的后端轨迹优化部分分为两个阶段:第一阶段设计了一个软约束非线性多目标优化器对路径进行局部优化,生成离散的轨迹位姿点和时间分配值;第二阶段基于五次样条曲线利用最小化Jerk的思想对离散位姿点进行平滑连接,提高了轨迹的平滑性。最后在室外停车场环境下对所提算法进行了实车测试,前端路径搜索和后端轨迹优化的实验结果表明该算法具有较高的实时性和轨迹平滑性。

基于动态选择预测器的深度强化学习投资组合模型

赵淼, 谢良, 林文静, 徐海蛟

计算机科学. 2024, 51 (4): 344-352. doi:10.11896/jsjkx.230100048

摘要 ( 344 )

PDF(3132KB) ( 639 )

参考文献 | 相关文章 | 多维度评价

近年来,投资组合管理问题在人工智能领域得到了广泛的研究,但现有的基于深度学习的量化交易方法还存在一些问题。首先,对股票的预测模式单一,通常一个模型只能训练出一个交易专家,交易决策也仅根据模型预测结果作出;其次,模型使用的数据源相对单一,只考虑了股票自身数据,忽略了整个市场风险对股票的影响。针对上述问题,提出了基于动态选择预测器的强化学习模型(DSDRL)。该模型分为3部分,首先提取股票数据的特征并传入多个预测器中,针对不同的投资策略训练多个预测模型,用动态选择器得到当前最优预测结果;其次,利用市场环境评价模块对当前市场风险进行量化,得到合适的投资金额比例;最后,在前两个模块的基础上建立了一种深度强化学习模型模拟真实的交易环境,基于预测的结果和投资金额比例得到实际投资组合策略。文中使用中证500和标普500的日k线数据进行测试验证,结果表明,此模型在夏普率等指标上均优于其他参照模型。

面向智能在线教学的英语时态习题自动分类研究

屠鑫, 张伟, 李继东, 李美姣, 龙相波

计算机科学. 2024, 51 (4): 353-358. doi:10.11896/jsjkx.240300109

摘要 ( 319 )

PDF(2051KB) ( 450 )

参考文献 | 相关文章 | 多维度评价

随着在线教学逐渐成为常态化的教学方式之一,人们对其提出了更高质量的教学需求。各种在线教学平台及互联网上海量的教育资源大大便利了众多学习者,但同时也存在着教育资源丰富但质量参差不齐、缺乏有效的分类整合以及主要依靠人工整理等问题,这就导致人们在获取在线教育资源时往往需要花费大量的时间和精力来进行检索、甄别和整理。针对在线教育资源现存的不足,文中提出了基于自然语言处理技术的在线教育资源自动分类方法,并以中学英语语法重点内容八大英语时态的习题自动分类为例,收集了线上及线下共9万余条时态类习题,通过数据清洗,最终选择3万余条语句构建数据集,并构建BERT微调文本分类模型,通过训练模型实现了对八大时态的自动分类,整体分类准确率达到86.15%,其中对一般现在时的识别准确率最高,达到93.88%。可以一定程度上满足中学英语时态类教育资源自动分类整理、习题智能批改及个性化推送、智能问答等现实需要,为提高在线教学质量,整合在线教育资源提供可行的思路和解决方案。

基于反向标签传播的多生成器主动学习算法及其在离群点检测中的应用研究

邢开颜, 陈文

计算机科学. 2024, 51 (4): 359-365. doi:10.11896/jsjkx.230500034

摘要 ( 426 )

PDF(2090KB) ( 432 )

参考文献 | 相关文章 | 多维度评价

当前正负类训练样本分布不均衡的问题已极大地限制了离群检测模型的性能。基于主动学习的离群点检测算法能够通过对样本分布的主动学习,自动合成离群点以平衡训练数据分布。然而,传统的基于主动学习的检测方法缺乏对合成离群点的质量评估和过滤筛选,导致通过主动学习过程合成的训练样本点中存在样本噪声,并降低了分类模型的性能。针对上述问题,提出了基于反向标签传播的多生成器主动学习算法(Multi-Generator Active Learning Algorithm Based on Reverse Label Propagation,MG-RLP),其包括多个神经网络生成器和一个用于离群点边界检测的鉴别器。MG-RLP通过多个子生成器生成多分布特征的样本数据,以防止单生成器合成的训练样本过于聚集而导致的模式崩塌问题。同时,MG-RLP利用反向标签传播过程对神经网络生成的样本点进行质量评估,以筛选出可信的合成样本。筛选后的样本被保留在训练样本中用于对鉴别器进行迭代训练,以提升对离群点的检测性能。基于5个公共数据集,对比验证了MG-RLP与6种典型的离群点检测算法的性能,结果表明,MG-RLP在AUC和检测精度指标上分别提高了15%和22%,结果验证了MG-RLP的有效性。

基于属性访问控制策略的无人机飞控安全方案

庞宇翔, 陈泽茂

计算机科学. 2024, 51 (4): 366-372. doi:10.11896/jsjkx.230200135

摘要 ( 405 )

PDF(2079KB) ( 508 )

参考文献 | 相关文章 | 多维度评价

飞控系统是无人机的核心部件,对无人机的功能和性能起着决定性作用,是无人机信息安全防护的重点对象。文中针对PX4飞控系统面临的恶意代码植入、内部交互数据篡改等安全风险,设计了一种面向位置环境的基于属性的访问控制策略(LE-ABAC),该策略基于访问控制实体属性和无人机外部位置环境信息制定访问控制规则,可以实现对无人机内的数据交互过程进行细粒度控制,保护关键交换数据的机密性与完整性。文中在PX4软件仿真平台上对所提方案进行了攻击仿真实验,结果表明该模型能够在不显著降低无人机飞控效率的前提下,有效保护飞控系统内部交互数据不被窃取和篡改。

基于多路冗余神经元的主动成员推理攻击方法

汪德刚, 孙奕, 高琦

计算机科学. 2024, 51 (4): 373-380. doi:10.11896/jsjkx.230100024

摘要 ( 333 )

PDF(3262KB) ( 438 )

参考文献 | 相关文章 | 多维度评价

联邦学习通过交换模型参数或梯度信息来提供对原始数据的隐私保障,但其仍然存在隐私泄露的问题,如成员推理攻击旨在推断目标数据样本是否被用于联邦学习中训练机器学习模型。针对联邦学习中现有基于模型参数构造的主动成员推理攻击对随机失活等操作鲁棒性较差的问题,提出了一种基于多路冗余神经元的主动成员推理攻击方法,利用ReLU激活函数输入为负、输出为0的特性,根据待推理目标数据构造模型参数,通过观察成员数据与非成员数据在模型参数更新上的差异进行成员推断,并利用模型神经元的冗余特性构建多个通路实现对随机失活的鲁棒性。在MNIST,CIFAR10以及CIFAR100数据集上的实验证明了该方法的有效性,在引入随机失活的情况下,所提方法仍然能够达到100%的准确率。

基于区块链的车联网信任管理机制研究

李凤云, 陈明明, 王林, 李朋, 鞠献银

计算机科学. 2024, 51 (4): 381-387. doi:10.11896/jsjkx.230900057

摘要 ( 393 )

PDF(2617KB) ( 682 )

参考文献 | 相关文章 | 多维度评价

随着自动驾驶和智慧交通系统的发展,车联网技术发挥出了更加重要的作用。车联网是一个开放式的访问环境,这使得如何确保消息可靠、车辆可信等问题成为重大安全挑战。基于此,在已有基于区块链信任管理方案的基础上,重新设计车联网信任管理框架,以弥补现有解决方案存在的可扩展差、共识算法效率低等问题。框架主要由消息信任评估、车辆信任更新和信任区块的创建与共识3个模块组成。在消息信任评估模块中,为识别恶意节点的虚假消息,基于车辆实体的直接信任和邻居车辆的间接信任综合评估消息的可信度。在车辆信任更新模块,为有效抑制车辆的恶意行为,根据消息评估结果和车辆的历史行为对车辆信任进行调整。在区块创建与共识模块中,基于事件重要性和区块链的扩展能力,提出了基于重要性证明的优化共识算法。最后,通过仿真实验验证了框架的可用性,对比实验结果表明所提算法在可扩展性和鲁棒性方面均有显著的提升。

基于GCN和BiLSTM的Android恶意软件检测方法

贺娇君, 蔡满春, 芦天亮

计算机科学. 2024, 51 (4): 388-395. doi:10.11896/jsjkx.230100002

摘要 ( 491 )

PDF(2729KB) ( 533 )

参考文献 | 相关文章 | 多维度评价

现有Android恶意软件检测方法大多是对单一结构类型的特征进行学习,在分析应用程序语义方面有所缺失。针对传统检测方法捕获特征语义不够全面的问题,文中创新性地提出了一种基于GCN和BiLSTM的Android恶意软件检测模型,在精准提取样本结构信息的同时对恶意行为语义进行重点分析。首先以图的方式表征26类关键系统调用间的拓扑关系,使用双层GCN网络聚合系统调用图中节点的高阶结构信息,有效提高特征学习效率;然后利用带有自注意力机制的BiLSTM网络获取操作码序列的上下文语义,通过为具有恶意特征的序列赋予高权重得到特征内部的强相关性;最后使用Softmax输出融合结构信息和上下文特征的样本分类概率。在基于Drebin和AndroZoo数据集的实验中,所提模型准确率达到了93.95%,F1值达到了97.09%,相较于基准算法有显著提高,充分证明了基于GCN和BiLSTM的模型能有效提升Android恶意软件的检测效果。