栏目文章

Select

1. 基于注意力的多尺度蒸馏异常检测

乔虹, 邢红杰

计算机科学 2024, 51 (6A): 230300223-11. DOI: 10.11896/jsjkx.230300223

摘要（33）

PDF（pc）（4867KB）（55）

基于知识蒸馏的异常检测方法中,教师网络远大于学生网络,使得所得特征表示在同一位置对应图像的感受野不同。为解决此问题,可使学生网络与教师网络结构相同。然而,学生与教师网络完全相同,使得在测试阶段,对于异常样本,教师网络与学生网络特征表示差异过小而影响异常检测的性能。为解决该问题,提出了基于高效通道注意力模块的多尺度知识蒸馏异常检测方法(ECA Based Multi-Scale Knowledge Distillation Anomaly Detection,ECA-MSKDAD),并结合数据增强操作提出了相对距离损失函数。使用经过预训练的网络作为教师网络,同时使用与教师网络结构相同的网络作为学生网络。在训练阶段,对训练样本采取数据增强操作以扩充训练集的规模,并在学生网络中引入高效通道注意力(Efficient Channel Attention,ECA)模块,以增加教师网络和学生网络之间的差异,增大异常数据的重构误差,进而提高模型的检测性能。此外,利用相对距离损失函数,将数据间关系从教师网络传递到学生网络,对学生网络的网络参数进行优化。在MVTec AD进行实验,与9种相关方法比较,所提方法在异常检测与异常定位上均取得更优的性能。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于图自编码器和GRU网络的分层交通流预测模型

赵子琪, 杨斌, 张远广

计算机科学 2024, 51 (6A): 230400148-6. DOI: 10.11896/jsjkx.230400148

摘要（64）

PDF（pc）（3354KB）（56）

准确的交通流预测信息不仅可以为交通管理人员提供交通决策的坚实基础,还可以减少交通拥堵情况。在交通流预测任务中,获得有效的交通流的时空特性是保证预测效果的前提。现有的方法大多是用未来时刻的数据进行监督学习,提取的特征具有局限性。针对现有预测模型无法充分挖掘交通流的时空特性的问题,提出了基于改进的图自编码器和门控循环单元的分层交通预测模型。首先使用图注意力自编码器以无监督的方式深度挖掘交通流的空间特性,然后使用门控循环单元进行时间特征提取。分层结构采用分开训练的方式进行时空依赖关系的学习,旨在获取路网天然存在的空间拓扑特征,使其可以兼容不同时间步下的交通流预测任务。大量实验证明,所提出的GAE-GRU模型在不同数据集下的交通预测任务中取得了优异的表现,MAE,RMSE和MAPE指标均优于基线模型。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于方差迁移的非平衡数据过采样方法

郑一凡, 王卯宁

计算机科学 2024, 51 (6A): 230400198-6. DOI: 10.11896/jsjkx.230400198

摘要（44）

PDF（pc）（2961KB）（60）

重采样是解决非平衡数据分类问题的重要方法。但在数据集很小的情况下,欠采样会丢失数据集的重要信息,因此过采样是非平衡数据分类问题的研究重点。现有的过采样方法虽然部分解决了类间不平衡问题,但是本质上并未给少数类引入额外的信息,且仍然存在着过拟合的风险。针对这些问题,提出了一种基于多数类方差迁移的少数类合成方法(Variance Transfer Oversampling,VTO),从足够多样化的多数类中提取样本偏移向量,综合少数类和多数类的特征权重矩阵以调整,最终将经过置信条件筛选的偏移向量叠加至少数类样本中心,从而在少数类样本生成中引入多数类方差,进而丰富少数类特征空间。为了验证所提算法的有效性,使用决策树为分类模型在6个KEEL数据集上训练,对比SMOTEENN等其他过采样方法,以F-score和PR-AUC值为评价指标进行了实验。结果显示,该算法在处理非平衡数据分类问题时具有更大优势。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于相似网络融合算法的癌症亚型预测

张晓茜, 李东喜

计算机科学 2024, 51 (6A): 230500006-7. DOI: 10.11896/jsjkx.230500006

摘要（27）

PDF（pc）（3298KB）（58）

从基因表达数据中挖掘基因之间的相互作用关系,构建基因调控网络,是生物信息学中重要的研究课题之一。但目前流行的神经网络在其架构中仅考虑基因之间的交互和关联,不考虑患者之间的交互和关联。为此,提出了一种基于加权基因相似网络和样本相似网络融合算法的癌症亚型预测模型,即WGCSS(Weighted Genetic Correlation network and Sample Similarity network)。该方法实现了特征空间和样本空间信息的融合,同时考虑了基因之间和样本之间的相互作用关系,并使用图卷积网络进行预测。在两个空间中聚合信息会导致严重的过度平滑问题,为此在该模型中引入残差层以缓解过度平滑问题。该方法通过聚合两个空间中的数据信息,可以使得癌症亚型预测的结果更加准确。为了验证方法的泛化性能,使用了乳腺浸润癌(BRCA)、多形性胶质母细胞瘤(GBM)和肺癌(LUNG)数据集进行分析,由此产生的高分类精度结果可以表明该方法的优越性。另外,还对3类数据集进行了生存分析,证明该方法在3个癌症数据集上癌症亚型的生存曲线存在显著差异。

参考文献 | 相关文章 | 多维度评价

Select

5. 一种适用于大图的k步可达性查询算法

同正南, 卜天明

计算机科学 2024, 51 (6A): 230500031-10. DOI: 10.11896/jsjkx.230500031

摘要（40）

PDF（pc）（2449KB）（59）

k步可达查询用于在给定的有向无环图(Directed Acyclic Graph,DAG)中回答两点之间是否存在长度不超过k的路径。针对现有方法的索引规模大、查询处理效率低的问题,提出了一种构建在大图上的基于树覆盖的倍增索引来提高索引查询效率,并结合GRAIL算法和改进的 FELINE 算法对本身就不可达查询点对进行剪枝。基于 19 个真实的数据集进行了实验测试,并将所提算法与现有算法在构建索引大小、索引时间、查询时间3个指标上进行了实验对比。实验结果验证了所提算法的高效性。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于SEIR模型的网络热搜话题传播仿真研究

殷艳艳, 王克克, 田姣姣, 李默, 薛雅心, 卢春雨, 赵云鹏

计算机科学 2024, 51 (6A): 230500107-6. DOI: 10.11896/jsjkx.230500107

摘要（56）

PDF（pc）（2902KB）（75）

网络热搜话题具有传播扩散现象,当前对于网络热搜话题的研究主要集中在传播效果评估、传播趋势预测、社会影响评价以及舆论引导等方面,而对于网络热搜话题的研究未能揭示传播动力学参数对于传播过程的影响。文中采用SEIR模型构建了网络热搜话题传播动力学模型,分析研究了网络平均度、不信任概率、接触后立即传播概率、感染率、治愈率、复发率等影响因素对模型的影响。

参考文献 | 相关文章 | 多维度评价

Select

7. 融入类别标签和主题信息的用户兴趣识别方法

康智勇, 李弼程, 林煌

计算机科学 2024, 51 (6A): 230500169-8. DOI: 10.11896/jsjkx.230500169

摘要（47）

PDF（pc）（2114KB）（70）

社交网络用户兴趣发现对信息过载缓解、个性化推荐和信息传播正向引导等方面具有重要意义。目前已有的兴趣识别研究未能同时考虑文本主题信息及其对应的类别标签信息对模型学习文本特征的帮助,文中提出了一种融入类别标签和主题信息的用户兴趣识别方法。首先,利用BERT预训练模型、BiLSTM模型和多头自注意力机制分别获取文本和标签序列的语义特征;其次,引入标签注意力机制,使模型更加关注文本与其类别标签更相关的词语信息;然后,利用LDA主题模型和Word2Vec模型得到文本主题特征;接着,设计门控机制进行特征融合,使模型能够自适应地融合多种特征,进而实现微博文本兴趣类别分类;最后,统计用户发表的所有文本在各个兴趣类别上的数量,将数量最多的兴趣类别确定为用户兴趣识别结果。为验证所提方法的有效性,文中构建了一个微博兴趣识别数据集。实验结果表明,该模型在微博文本兴趣类别分类和用户兴趣识别任务中均取得了最优性能。

参考文献 | 相关文章 | 多维度评价

Select

8. CTGANBoost:基于CTGAN与Boosting的信贷欺诈检测研究

卓佩妍, 张瑶娜, 刘炜, 刘自金, 宋友

计算机科学 2024, 51 (6A): 230600199-7. DOI: 10.11896/jsjkx.230600199

摘要（43）

PDF（pc）（2382KB）（59）

在金融行业中,信贷欺诈检测是一项重要的工作,能够为银行和消金机构减少大量的经济损失。然而,信贷数据中存在类别不平衡和正负样本特征重叠的问题,导致少数类识别灵敏度低且不同类别数据区分度低。针对这些问题,提出一种面向信贷欺诈检测的CTGANBoost方法。首先,在AdaBoost(Adaptive Boosting)方法的每一轮Boosting迭代中,引入基于类别标签信息约束的CTGAN(Conditional Tabular Generative Adversarial Network)方法学习特征分布,进行少数类数据增强工作;其次,基于CTGAN合成的增强数据集,设计了权重归一化方法,确保在样本加权过程中保持原始数据集的分布特征和相对权重。在3个开源数据集上的实验结果表明,CTGANBoost方法的表现均优于其他主流的信贷欺诈检测方法,AUC值提升了0.5%~2.0%,F1值提升了0.6%~1.8%,验证了CTGANBoost方法的有效性和泛化能力。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于自编码的改进K-means光伏能源数据清洗方法

彭勃, 李耀东, 龚贤夫

计算机科学 2024, 51 (6A): 230700070-5. DOI: 10.11896/jsjkx.230700070

摘要（34）

PDF（pc）（2046KB）（51）

智能电网的发展带来了海量能源数据,数据质量是开展数据价值挖掘等任务的基础。然而,多源海量光伏能源数据的采集与传输过程中不可避免地存在异常数据,因此需要进行数据清洗。目前,基于传统统计机器学习的数据清洗模型存在一定的局限性。文中提出了一种基于Transformer自编码结构的改进型K-means聚类模型,用于能源大数据清洗。该模型通过肘部法则自适应地确定聚类簇数,并利用自编码网络对聚类内数据进行压缩和重构,从而实现异常数据的检测和恢复。同时,模型利用Transformer的多头注意力机制学习数据间的相关特征,提高了对异常数据的筛查能力。在光伏发电公开数据集上的实验证明,与其他方法相比,该模型具有更好的异常数据检测效果,筛查准确率可达96%以上。此外,所提模型能在一定程度上恢复异常数据,为能源大数据应用提供了有效的支持。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于OOD评分的工业缺陷增强数据筛选研究

尹旭东, 陈俊洋, 周波

计算机科学 2024, 51 (6A): 230700111-7. DOI: 10.11896/jsjkx.230700111

摘要（48）

PDF（pc）（4415KB）（50）

在基于深度学习的工业缺陷检测中,数据增强能在一定程度上缓解部分缺陷数据缺乏的窘境,但如何从大量增强数据中筛选出有效的增强数据,提升工业检测模型的性能,目前尚未有相关研究。针对这一问题,进行了基于分布外检测(Out-of-Distribution Detection,OOD)评分的工业缺陷增强数据筛选研究。首先使用pix2pix网络生成工业增强数据,接着采用基于深度集成的OOD评分方法获得OOD评分,并利用该评分对增强数据进行分组;然后通过降维投影视图对增强数据分布进行分组观察;最后使用目标检测算法对增强数据进行分组缺陷检测,根据目标检测模型的精度增益探索分布外程度对增强数据质量的影响。实验结果表明,OOD评分较高的工业缺陷增强数据与训练数据分布差异较大,将这部分增强数据用于训练集的数据扩充能够提高模型的泛化性,可以更有效地提升目标检测算法的检测精度。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于Edge-TB的联邦学习中客户端选择策略和数据集划分研究

周天阳, 杨磊

计算机科学 2024, 51 (6A): 230800046-6. DOI: 10.11896/jsjkx.230800046

摘要（57）

PDF（pc）（3558KB）（81）

联邦学习是分布式机器学习在现实中的应用之一。针对联邦学习中的异构性,基于FedProx算法,提出优先选择近端项较大的客户端选择策略,效果优于常见的选择局部损失值较大的客户端选择策略,可以有效提高FedProx算法在异构数据和系统下的收敛速度,提高有限聚合次数内的准确率。针对联邦学习数据异构的假设,设计了一套异构数据划分流程,得到了基于真实图像数据集的异构联邦数据集作为实验数据集。使用开源的分布式机器学习框架Edge-TB作为实验测试平台,以异构划分后的Cifar10作为数据集,实验表明,采用新的客户端选择策略的改进FedProx算法较原算法在有限的聚合轮数内准确率提升14.96%,通信开销减小6.3%;与SCAFFOLD算法相比,准确率提升3.6%,通信开销减小51.7%,训练时间减少15.4%。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于改进主题模型方法的三级短视频用户画像的研究

黄玉民, 赵婵婵

计算机科学 2024, 51 (6A): 230800093-7. DOI: 10.11896/jsjkx.230800093

摘要（37）

PDF（pc）（3055KB）（56）

针对如何从海量短视频数据、用户数据、交互数据中快速抽象出精准的用户兴趣的问题,提出了基于主题模型的三级标签用户画像构建方法。基于主题构建方法,将融合的LDA和GSDMM主题模型所获取的视频主题词作为用户兴趣表达向量。首先,搭建了LDA过滤器,通过比对阈值剔除与主题无关的文本信息,缩小文本规模,降低非主要语料对于兴趣表达向量生成的影响。然后,提出结合语义信息和语境信息的特征词权重矩阵的构建方法,使用Bi-GRU神经网络计算词向量的上下文特征,并将其作为语境特征,使用TF-IDF算法计算出的词频权重作为语义特征,结合语境和语义特征扩充特征词含义。最后使用带有兴趣权重分配的GSDMM模型学习特征向量权重矩阵,实现用户兴趣标签生成和用户不同喜好程度影响下的兴趣权重修正。实验结果表明,该方法能够比较完备准确地表征用户画像,优于单一的主题构建方法,并且在聚类效果上表现出色。通过构建完备的用户画像,能够精准把握用户痛点,为后续个性化推荐提供服务。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于本体驱动的航空情报表格信息结构化研究

赖欣, 李思宁, 梁昌盛, 张恒嫣

计算机科学 2024, 51 (6A): 230800150-7. DOI: 10.11896/jsjkx.230800150

摘要（38）

PDF（pc）（3804KB）（55）

航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息予以特征提取与结构化处理。将航空资料汇编中表格信息作为研究对象,提出了一种基于本体驱动的航空情报表格信息结构化抽取方法。首先构建航空情报领域信息的本体框架,实现对领域知识统一规范的描述;其次,利用Document AI对表格文档的布局结构进行研究与预处理,并利用随机森林算法与条件随机场模型进行特征实体提取验证与分析。实验结果表明,所提方法能够有效提取航空情报表格中的特征实体,为航空情报领域静态数据深入挖掘提供参考。

参考文献 | 相关文章 | 多维度评价

Select

14. RM-RT²NI:融合评论时效与可信近邻影响力的推荐模型

韩志耕, 周婷, 陈耿, 付纯硕, 陈健

计算机科学 2024, 51 (6A): 230800160-7. DOI: 10.11896/jsjkx.230800160

摘要（48）

PDF（pc）（2500KB）（54）

基于矩阵分解的推荐模型虽然能够处理高维评分数据,但容易遭受评分数据稀疏性的困扰。基于评分和评论的推荐模型通过外加隐藏在评论中的用户偏好与物品属性信息,缓解了评分数据的稀疏性,但在特征提取时大多没有关注评论时效性和可信近邻影响力,无法获得更丰富的用户和物品特征。为进一步提高推荐精度,提出了融合评论时效与可信近邻影响力的推荐模型RM-RT²NI。基于评分矩阵,该模型使用矩阵分解提取了用户偏好和物品属性的浅层特征,利用云模型和修正的用户相似度评估模型和新构建的信度评估模型提取出可信近邻影响力;基于评论文本,该模型利用BERT模型获得每条评论的隐表达,利用双向GRU提取评论间的联系,利用新构建的融合时间因子的注意力机制识别各评论的时效贡献度,以获取用户和物品的深层特征。在此基础上,将用户浅层特征、深层特征以及可信近邻影响力特征融合成用户特征,将物品浅层特征和深层特征融合成物品特征,并将它们输入全连接神经网络以预测用户-物品评分。在5组公开数据集上对RM-RT²NI的推荐性能进行了实验评估,结果显示,与7个基线模型相比,RM-RT²NI具有更高的评分预测精度,且RMSE平均降低了3.0657%。

参考文献 | 相关文章 | 多维度评价

Select

15. 基于轻量级图卷积和隐式反馈增强的多样化推荐

黄春淦, 王桂平, 吴波, 白鑫

计算机科学 2024, 51 (6A): 230900038-11. DOI: 10.11896/jsjkx.230900038

摘要（44）

PDF（pc）（3648KB）（60）

近年来,研究人员一直在努力提高推荐系统的准确性,而忽视了多样化对用户满意度的重要影响。目前大多数多样化推荐算法在传统算法生成的准确性候选列表后施加多样性约束进行后处理。然而,这种解耦设计总是导致推荐系统的次优状态。与此同时,尽管利用图卷积神经(Graph Convolution Networks,GCN)的推荐算法在提高推荐准确性方面的有效性已得到证实,但用于推荐的适用性和多样性设计仍然被忽视。此外,推荐算法采用用户购买这一单一的显式反馈无可避免地陷入“推荐过剩”。因此,提出一种端到端的多样化轻量级图卷积网络推荐模型(DiversifiedLight Graph Convolution Networks Recommendation,DLGCRec)来克服以上弊端。首先,将图卷积简化为轻量级图卷积(Light Graph Convolution Networks,LGCN)以便于推荐,并利用轻量级图卷积将多样化推向上游准确性匹配推荐过程。然后,在轻量级图卷积的采样阶段,利用引入了用户隐式反馈的多样性增强负采样来探索用户的多样化偏好。最后,利用多层特征融合策略捕获节点的完整特征嵌入,提升推荐性能。在真实数据集上进行实验,结果验证了DLGCRec在适用推荐和提升多样性方面的有效性。进一步的消融研究证实,DLGCRec有效地缓解了准确性-多样性困境。

参考文献 | 相关文章 | 多维度评价

Select

16. 基于主动重心的青年高血压患者心肺运动时序数据增强

黄昉菀, 卢举鸿, 於志勇

计算机科学 2023, 50 (6A): 211200233-11. DOI: 10.11896/jsjkx.211200233

摘要（343）

PDF（pc）（2816KB）（338）

精准医疗的逐步兴起,如挖掘青年高血压患者的心肺运动时序数据,可以了解不同个体对有氧运动训练的响应性,有助于提高患者高血压管理计划的制定效率,更有效地实现有氧运动干预的治疗。开展该研究的瓶颈之一在于难以获取充足的样本数据。为了解决获取数据难度大、成本高等问题,利用加权动态时间规整重心平均算法来进行时间序列数据增强,重点针对重心选择和权重分配进行了研究。针对重心选择问题,首次引入了主动重心的概念,提出了代表性重心与多样性重心选择策略,改善了数据增强的效果。此外,针对现有权重分配策略的不足,提出了随机权重距离递减分配策略,避免了合成重复样本,进一步提升了模型的泛化能力。实验结果表明,在该研究背景下同时考虑重心选择与权重分配进行数据增强,可以进一步提升青年高血压患者有氧运动干预疗效预测的准确性。

参考文献 | 相关文章 | 多维度评价

Select

17. 一种时序情感记忆可约束可解释的序列推荐方法

郑麟, 林艺璇, 周东霖, 朱福喜

计算机科学 2023, 50 (6A): 220100066-8. DOI: 10.11896/jsjkx.220100066

摘要（469）

PDF（pc）（3165KB）（400）

序列推荐研究近年来在推荐领域中发展迅速,已有的序列推荐方法善于捕捉用户的时序行为来实现偏好预测。其中,一些先进的方法融入用户的情感信息来引导行为挖掘。然而,先进的基于情感的序列推荐模型未考虑对多类别的用户情感序列进行关联挖掘;并且,这类方法无法直观地解释时序情感对用户偏好的贡献。为了弥补上述方法的局限,本工作首次尝试以记忆体的形式存储时序情感并对其施加约束。具体地,文中提出了情感自我约束和情感相互约束两种机制,来挖掘多类别情感之间的关联并辅助用户行为完成序列推荐。进一步地,提出的记忆框架能记录用户的时序情感注意力,从而在准确预测用户时序偏好的基础上提供一定程度的直观解释。实验结果表明,所提方法的性能优于先进的序列推荐方法,并且比基于情感的序列推荐模型具有更好的可解释效果。

参考文献 | 相关文章 | 多维度评价

Select

18. 基于改进CNN-BP的多波束声纳高程数据预测研究

熊豪杰, 魏怡

计算机科学 2023, 50 (6A): 220100161-4. DOI: 10.11896/jsjkx.220100161

摘要（350）

PDF（pc）（2363KB）（280）

为了建立精准的多波束声纳高程数据预测模型,解决人工鱼礁空方量预测准确性的问题,提出了一种基于改进卷积神经网络(Convolutional Neural Network,CNN)和BP神经网络组合模型的多波束声纳高程数据预测方法。首先,利用改进CNN对高程数据进行全卷积操作提取地形趋势特征,再输入到BP中进一步挖掘内部地形趋势变化规律,从而实现多波束声纳高程数据的预测。然后以某海底牧场的多波束声纳高程数据进行实验,并利用人工鱼礁的空方量进行交叉验证。最后,与传统克里金、BP、GA-BP、PSO-BP模型进行比较。结果表明:改进CNN-BP模型在多波束声纳高程数据和人工鱼礁空方量上的预测结果表现最优,验证了该方法的可行性、可靠性和精度高。

参考文献 | 相关文章 | 多维度评价

Select

19. 基于图OLAP的学术网络分析

杨恒, 朱焱

计算机科学 2023, 50 (6A): 220100237-5. DOI: 10.11896/jsjkx.220100237

摘要（357）

PDF（pc）（2894KB）（296）

近年来学术领域逐渐积累了海量的数据,网络结构作为一种表示和分析大数据的有效方法,具有较丰富的维度且能够对现实生活中大量数据进行建模。Graph OLAP(图联机处理)技术继承了传统OLAP技术的相关思想,允许用户从不同角度与粒度对多维网络数据进行分析。然而现有的图OLAP技术大多围绕数据立方体的构建展开,相关操作大多都是传统OLAP技术在图数据上的简单扩展,并且构建的模型对网络自身的拓扑结构的挖掘能力较弱。为此,首先设计了学术网络星座模式和相关的图OLAP分析算法,更加明显地突出了学术网络的拓扑结构信息,提高了图OLAP的分析能力,其次提出了对应的物化策略,有效地提升了图OLAP分析的效率。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于多目标粒子群优化的属性网络局部社区检测算法

周志强, 朱焱

计算机科学 2023, 50 (6A): 220200015-6. DOI: 10.11896/jsjkx.220200015

摘要（216）

PDF（pc）（2651KB）（284）

社区结构是复杂网络中的重要特征,局部社区检测的目标是查询出包含一组种子节点的社区子图。传统的局部社区检测算法通常利用网络的拓扑结构进行社区查询,而忽略了网络中丰富的节点属性信息。针对现实中广泛存在的属性网络,提出了一种基于多目标粒子群优化的属性网络局部社区检测算法。首先根据节点与其多阶邻居之间的属性相似度构造属性关系边,并根据模体结构获取网络中的高阶信息得到拓扑关系边,然后基于种子节点使用随机游走算法对两种关系边采样得到备选节点集。在此基础上,通过多目标粒子群优化算法对备选节点集进行迭代筛选,得到拓扑结构紧密和节点属性同质的社区结构。在真实数据集上的实验结果表明,所提方法有效提升了局部社区检测的质量。

参考文献 | 相关文章 | 多维度评价

Select

21. 面向交通流量预测的时空Graph-CoordAttention网络

刘建松, 康雁, 李浩, 王韬, 王海宁

计算机科学 2023, 50 (6A): 220200042-7. DOI: 10.11896/jsjkx.220200042

摘要（349）

PDF（pc）（2713KB）（352）

交通预测是城市智能交通系统的一个重要研究组成部分,使人们的出行更加效率和安全。由于复杂的时间和空间依赖性,准确预测交通流量仍然是一个巨大的挑战。近年来,图卷积网络(GCN)在交通预测方面表现出巨大的潜力,但基于GCN的模型往往侧重于单独捕捉时间和空间的依赖性,忽视了时间和空间依赖性之间的动态关联性,不能很好地融合它们。此外,以前的方法使用现实世界的静态交通网络来构建空间邻接矩阵,这可能忽略了动态的空间依赖性。为了克服这些局限性,并提高模型的性能,提出了一种新颖的时空Graph-CoordAttention网络(STGCA)。具体来说,提出了时空同步模块,用来建模不同时刻的时空依赖交融关系。然后,提出了一种动态图学习的方案,基于车流量之间数据关联,挖掘出潜在的图信息。在4个公开的数据集上和现有基线模型进行对比实验,STGCA表现了优异的性能。

参考文献 | 相关文章 | 多维度评价

Select

22. 基于决策树改进深度交叉网络的推荐模型

柯海萍, 毛宜军, 古万荣

计算机科学 2023, 50 (6A): 220300084-7. DOI: 10.11896/jsjkx.220300084

摘要（172）

PDF（pc）（2920KB）（366）

特征挖掘是推荐算法模型中学习用户与物品之间交互行为的关键步骤,对提升推荐模型的准确度具有重要意义。现有的特征挖掘模型中,线性逻辑回归模型虽然简便,能够达到很好的拟合效果,但其泛化能力较弱,且模型对特征参数量的需求较大。深度交叉网络能够有效实现对特征的交叉提取,但其对数据特征的表征能力仍然不足。因此,文中引入多重残差结构与交叉编码思想,提出了一种基于决策树的方法来改进深度交叉网络的推荐模型。首先基于GBDT算法设计构建强化特征的树结构,加强模型对潜在特征的深度挖掘;其次对模型嵌入层的输入参数维度进行扩增优化;最后对改进的深度交叉网络推荐模型进行推荐预测。该设计不仅可以克服现有模型在泛化能力上的局限性,还能在保持特征参数量精简的同时令其表征能力有所加强,进而有效挖掘用户的隐藏关联,提高推荐的准确度。基于公测数据集的实验结果表明,所提出的模型预测效果比现有的特征交互方法更优。

参考文献 | 相关文章 | 多维度评价

Select

23. 基于DBSCAN的动态邻域密度聚类算法

张朋, 李小林, 王李妍

计算机科学 2023, 50 (6A): 220400127-7. DOI: 10.11896/jsjkx.220400127

摘要（221）

PDF（pc）（3072KB）（319）

传统的密度聚类算法在聚类划分时不会考虑数据点间的属性差异,它将所有数据点都看成同质化的点。对此,在DBSCAN算法的基础上,提出了一种动态邻域密度聚类算法DN-DBSCAN(Dynamic Neighborhood-Density Based Spatial Clustering of Applications with Noise)。该算法在聚类时由样本点的属性决定其自身的邻域半径,因此各点的邻域半径是动态变化的,由此可将具有不同属性的点对集群产生的不一样的影响力体现在聚类结果之中,使密度聚类算法更具有现实意义。在算例分析的基础上,针对长三角城市群划分问题应用所提DN-DBSCAN算法进行分析求解,并对比分析DBSCAN算法、OPTICS算法和DPC算法的求解效果。结果显示,DN-DBSCAN算法能根据各城市属性的不同合理地划分出长三角城市群,准确率为95%,准确率分别高于上述3种对比算法85%,85%,88%,说明其具有更好的解决实际问题的能力。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于嵌套集合模型的时态层次数据管理方法

杨振凯, 曹一冰, 赵鑫科, 郑景飚

计算机科学 2023, 50 (6A): 220500290-5. DOI: 10.11896/jsjkx.220500290

摘要（153）

PDF（pc）（2361KB）（257）

时态层次数据是层次数据在时间维度的扩展,用于描述随时间变化的层次结构。相较于非时态层次数据,现有的时态层次数据管理方法仍存在存储方案复杂以及查询和更新效率低下等问题。针对上述问题,提出了一种基于嵌套集合模型的时态层次数据管理方法。首先从节点变化角度分析了层次数据变化的4种类型,在此基础上通过扩展时间标签字段实现了多版本节点在关系数据库中的存储和查询功能,最后提出了一种基于存量空间的嵌套集合模型(Abundantly Gapped Nested Intervals Scheme,AGNIS),用于解决主流嵌套集合模型插入数据记录效率较低的问题。基于我国2021－2022年行政区划及其调整数据的实验结果表明:提出的数据管理方法能够实现历史层次数据的存储和任意时刻层次结构快照的查询,且兼顾了时态层次数据查询和更新操作的高效性。

参考文献 | 相关文章 | 多维度评价

Select

25. 改进的森林优化特征选择算法在信用评估中的应用

黄宇航, 宋友, 王宝会

计算机科学 2023, 50 (6A): 220600241-6. DOI: 10.11896/jsjkx.220600241

摘要（300）

PDF（pc）（1795KB）（229）

信用评估是金融领域的一个关键问题,它可以预测出一个用户是否存在拖欠风险,从而减少坏账损失。信用评估的关键挑战之一就是数据集存在着大量无效或冗余特征。为了解决该问题,提出了一种改进的森林优化特征选择算法(Improved Feature Selection using Forest Optimization Algorithm,IFSFOA)。该算法针对原始算法FSFOA的不足,在初始化阶段使用基于卡方校验的初始化策略代替随机化初始,提升算法寻优的能力;在局部播种阶段利用多层级变异策略,优化局部搜索能力,解决FSFOA的搜索空间受限和局部性问题;在更新候选森林时,使用贪婪选取策略挑选优质树,淘汰劣质树,收敛搜索发散过程。最后在涵盖了低维、中维和高维的公开信用评估数据集上设置对比实验,结果表明IFSFOA在分类和维度缩减方面的能力的综合表现均优于FSFOA和近年提出的较为高效的特征选择算法,验证了IFSFOA的有效性。

参考文献 | 相关文章 | 多维度评价

Select

26. GDLIN:一种利用梯度下降的学习索引

陈珊珊, 高隽, 马振禹

计算机科学 2023, 50 (6A): 220600256-6. DOI: 10.11896/jsjkx.220600256

摘要（162）

PDF（pc）（2402KB）（312）

在大数据时代,数据访问速度是衡量大规模存储系统性能的一个重要指标,而索引是用于提升数据库系统中数据存取性能的主要技术之一。近几年,使用机器学习模型代替B+树等传统索引,拟合数据分布规律,将数据的间接查找优化为函数直接计算的学习索引(Learned Index,LI)被提出,LI提高了查询的速度,减少了索引空间开销。但是LI的拟合误差较大,不支持插入等修改性操作。文中提出了一种利用梯度下降算法拟合数据的学习索引模型GDLIN(A Learned Index By Gradient Descent)。GDLIN利用梯度下降算法更好地拟合数据,减少拟合误差,缩短本地查找的时间;同时递归调用数据拟合算法,充分利用键的分布规律,构建上层结构,避免索引结构随着数据量而增大。另外,GDLIN利用链表解决LI不支持数据插入的问题。实验结果表明,GDLIN在无新数据插入的情况下,吞吐量是B+树的2.1倍;在插入操作占比为50%的情况下,是LI的1.08倍。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于动态时空神经网络的城市交通流量预测方法

孟祥福, 许睿航

计算机科学 2023, 50 (6A): 220600266-7. DOI: 10.11896/jsjkx.220600266

摘要（413）

PDF（pc）（2489KB）（321）

交通流量预测对城市道路规划、交通安全问题和建设智慧城市等具有重要意义。然而,现有大部分交通预测模型无法很好地捕捉交通数据的动态时空相关性。针对该问题,提出了一种基于动态时空神经网络的城市交通流量预测方法。首先,通过对交通数据的最近周期依赖、日周期依赖和周周期依赖进行建模,在每个分量上使用三维卷积神经网络提取城市交通高维特征;然后,使用改进的残差结构捕捉远距离区域对与预测区域的相关度,融合空间注意力和时间注意力机制捕捉不同区域不同时间段上的交通流量之间的动态相关性;最后,使用基于参数矩阵的方法对3个分量的输出进行加权融合,得到预测结果。在TaxiBJ和BikeNYC两个公开数据集上开展实验,结果表明所提模型的预测性能优于主流交通预测模型。

参考文献 | 相关文章 | 多维度评价

Select

28. 基于多模态特征融合的时间序列异常检测

张国华, 燕雪峰, 关东海

计算机科学 2023, 50 (6A): 220700094-7. DOI: 10.11896/jsjkx.220700094

摘要（430）

PDF（pc）（2243KB）（540）

多元时间序列的有效异常检测对于数据的分析挖掘具有重要意义。然而,已有的检测方法大多基于单模态,不能有效利用时间序列在多模态空间中的分布信息,对于多模态特征缺乏自适应融合方式且难以提取其时空依赖关系。为此,提出了一种多模态特征融合的时间序列异常检测方法,建立了一个多模态特征自适应融合模块,通过一维卷积网络和软选择方式对多元时间序列的多模态特征进行自适应融合。对于融合后的多模态特征,构建由时间注意力和空间注意力组成的时空注意力模块,同时提取其时间和空间依赖关系得到时空注意力向量,由时空注意力向量得到模型预测结果。通过学习正常样本分布,根据预测值与真实值的误差度量实现异常检测。在4个公开数据集上进行测试,结果表明,所提方法优于其他模型,证明了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

29. 文本细粒度情绪识别方法与应用综述

王希雅, 张宁, 程馨

计算机科学 2023, 50 (6A): 220900137-7. DOI: 10.11896/jsjkx.220900137

摘要（439）

PDF（pc）（1927KB）（466）

互联网中海量文本包含的情绪信息,表达着公众观点与态度,如何识别与利用情绪资源已成为各领域的研究焦点。通过梳理细粒度情绪识别相关理论与文献,从分类方法与应用场景两方面进行总结归纳,讨论情绪识别技术面临的挑战及实践缺口。通过分析发现,细粒度情绪识别主要有基于情绪词典、统计机器学习与神经网络学习的方法,且多应用于商务分析与舆情管理中。针对未来研究趋势,首先可对网络情绪词实时更新、领域词典构建及语义分析等技术展开研究;其次,如何提升训练数据分类自动化、打造半监督学习模型亟待深入探讨;此外,商务分析与舆情管理的研究,可开展对方面提取与情绪识别融合的探索。文中对情绪识别技术与应用的总结评述,有望为后续研究提供参考。

参考文献 | 相关文章 | 多维度评价

Select

30. 区块链架构下医疗数据共享的三方演化博弈研究

杨健, 王开选

计算机科学 2023, 50 (6A): 221000080-7. DOI: 10.11896/jsjkx.221000080

摘要（508）

PDF（pc）（3024KB）（416）

为促进健康医疗大数据的发展,积极推动医疗数据安全共享,基于区块链架构,构建了系统管理方、数据提供方和数据需求方的三方演化博弈模型。首先,将前景理论与演化博弈模型相结合,利用前景价值函数对传统演化博弈的变量和参数进行改进;其次,讨论博弈均衡存在的可能性及其演化趋势;最后,通过数值模拟探讨不同因素对区块链架构下医疗数据共享各参与方的决策影响。结果表明,初始策略选择对博弈策略稳定性有显著影响。通过提高系统管理方的监管收益、降低数据提供方的感知损失以及提高数据需求方举报不合规行为的补偿可以加快系统的演化进程,增强参与方之间的信任,进而促进信任关系的形成。

参考文献 | 相关文章 | 多维度评价