1974年1月创刊(月刊)
主管/主办:重庆西南信息有限公司
ISSN 1002-137X
CN 50-1075/TP
CODEN JKIEBK
编辑中心
    数据库&大数据&数据科学 栏目所有文章列表
    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 融合多类时空轨迹特征的跨网络用户身份识别
    刘红, 朱焱, 李春平
    计算机科学    2023, 50 (3): 114-120.   DOI: 10.11896/jsjkx.211200287
    摘要32)      PDF(pc) (2602KB)(41)    收藏
    随着位置社交网络的蓬勃发展,用户移动行为数据得到极大丰富,推动了基于时空数据的身份识别问题的相关研究。跨位置社交网络的用户身份识别,强调学习不同平台时空序列间的相关性,旨在发现同一用户在不同平台的注册账号。为解决现有研究面临的数据稀疏、低质量和时空不匹配问题,提出了一种融合双向时空依赖和时空分布的识别算法UI-STDD。该算法主要包含3个模块:时空序列模块通过结合成对注意力的双向长短时记忆网络来刻画用户移动模式;时间偏好模块从粗、细两个粒度定义用户个性化模式;空间位置模块挖掘位置点的局部和全局信息,量化空间邻近性。基于上述模块得到的用户轨迹对特征,UI-STDD利用多层前馈网络判断跨网络的两个账户是否对应于现实中的同一个人。为验证UI-STDD的可行性和有效性,在3组公开的数据集上进行了实验。实验结果表明,所提算法能够提高基于时空数据的用户身份识别率,F1值平均高于最优对比方法10%以上。
    参考文献 | 相关文章 | 多维度评价
    2. 基于深度聚类的航空交通流识别与异常检测研究
    饶丹, 时宏伟
    计算机科学    2023, 50 (3): 121-128.   DOI: 10.11896/jsjkx.220100086
    摘要37)      PDF(pc) (4271KB)(35)    收藏
    针对传统的聚类算法无法捕获高维轨迹数据在低维空间中的隐含关系,且难以定义适当的相似性度量以同时考虑轨迹的局部和全局特征的问题,提出了一种基于深度神经网络的多变量轨迹深度聚类框架(MTDC)并将其用于航空交通流识别与异常检测。该框架主要包含一个非对称的自编码器和一个自定义的轨迹聚类层。自编码器由一维卷积神经网络和双向长短时记忆网络堆叠而成,用于学习原始输入在低维隐空间中的特征表示。轨迹聚类层则通过计算隐空间中样本的Q分布实现聚类。结合自编码器的重建损失和轨迹聚类Q分布定义了一个新的异常分数,用于检测异常轨迹。使用基于广播式自动相关监视(ADS-B)的真实轨迹数据进行实验,结果表明,所提框架能有效地进行航空交通流识别,并能检测出具有实际意义且可解释的异常轨迹。
    参考文献 | 相关文章 | 多维度评价
    3. 异构信息网络的注意力感知多通道图卷积评分预测模型
    周明强, 代开浪, 吴全旺, 朱庆生
    计算机科学    2023, 50 (3): 129-138.   DOI: 10.11896/jsjkx.220300004
    摘要29)      PDF(pc) (4257KB)(35)    收藏
    异构信息网络(Heterogeneous Information Network,HIN)包含了丰富的语义信息,利用其进行评分预测已成为缓解推荐系统数据稀疏性问题的一个重要途径。然而,传统采用元路径来提取HIN语义信息的方法忽略了元路径中的评分信息,从而导致元路径无法精确捕获用户和推荐项目之间的语义相似性,同时也未能良好区分不同元路径的重要性。为了解决这两个问题,首先提出了一种带有评分限制的元路径以获取更准确的HIN语义信息,利用这些信息构建用户和项目多层网络;然后结合图卷积网络和注意力机制设计了一个用于评分预测的神经网络,通过多通道图卷积有效地表示了HIN的多种语义信息,采用注意力机制区分不同元路径的重要性,弥补了传统方法的不足;最后融合了用户和项目的属性信息,进一步提高了评分预测的准确性。在Douban Book和Yelp数据集上的实验结果表明所提模型明显优于对比的基线模型,尤其在数据稀疏的情况下,均方根误差比基线模型最多减少了50%,从而验证了所提模型的优越性。
    参考文献 | 相关文章 | 多维度评价
    4. 基于标签共现和特征局部相关的心电异常检测方法
    韩京宇, 钱龙, 葛康, 毛毅
    计算机科学    2023, 50 (3): 139-146.   DOI: 10.11896/jsjkx.220200004
    摘要27)      PDF(pc) (1927KB)(33)    收藏
    自动的心电异常识别是一个多标签分类问题,多通过对每个标签训练一个二分类器来实现异常识别。由于异常数目多,特征和异常间以及不同异常间的相关性复杂,自动检测的效果并不理想。为了充分利用异常和特征间的依存关系,提出了一种基于异常标签共现和特征局部相关(Label Co-occurrence and Feature's local Pertinence,LCFP)的心电异常识别方法。首先,根据标签共现性和特征局部相关性,为标签构建包含宏特征和微特征的联合特征空间。宏特征采用狄利克雷过程混合模型聚类构建,以区分不同的共现标签集;微特征是原始特征空间的一个子集,用于区分共现标签集中的各个标签。进而,在联合特征空间为每个异常训练一个一对多(One-Versus-All)的概率分类器。其次,为充分利用异常的关联,提出在概率分类器排序基础上区分相关和非相关标签,采用Beta分布自适应地学习锚阈值和相关度阈值,以确定实例的相关标签集。LCFP是一种检测多种心电异常的通用方法,提高了心电异常识别的精度。在两个真实数据集上,F1指标分别提高了4%和22.4%,验证了所提方法的有效性。
    参考文献 | 相关文章 | 多维度评价
    5. 具有周期间隙约束的负序列模式挖掘
    王珠林, 武优西, 王月华, 刘靖宇
    计算机科学    2023, 50 (3): 147-154.   DOI: 10.11896/jsjkx.211200248
    摘要21)      PDF(pc) (1980KB)(26)    收藏
    间隙约束的序列模式挖掘是一种特殊形式的序列模式挖掘方法,该方法能够揭示一定间隔下的频繁出现(发生)的子序列。但当前间隙约束的序列模式挖掘方法只关注正序列模式的挖掘,忽略了事件中的缺失行为。为解决该问题,探索了周期间隙约束的负序列模式(Negative Sequential Pattern with Periodic Gap Constraints,NSPG)挖掘方法,该方法能够更灵活地反映元素与元素之间的关系。为高效求解NSPG挖掘问题,提出了NSPG-INtree(Incomplete Nettrees)算法,该算法主要包括两个步骤:候选模式生成和支持度计算。在候选模式生成方面,为了减少候选模式的数量,该算法采用模式连接策略;在支持度计算方面,为了提高模式支持度计算效率并减少空间消耗,该算法采用不完整网树结构计算模式支持度。实验结果表明,NSPG-INtree算法不仅具有较高的挖掘效率,而且能同时挖掘间隙约束的正序列模式和负序列模式。与其他间隙约束的序列模式挖掘算法相比,NSPG-INtree能够多发现209%~352%的模式;与不同策略的对比算法相比,NSPG-INtree能够缩短6%~38%的运行时间。
    参考文献 | 相关文章 | 多维度评价
    6. 一种基于影响力预测的节点排序模型
    段顺然, 尹美娟, 刘粉林, 焦隆隆, 于岚岚
    计算机科学    2023, 50 (3): 155-163.   DOI: 10.11896/jsjkx.211200261
    摘要25)      PDF(pc) (3807KB)(34)    收藏
    节点影响力排序一直是复杂网络研究的热点问题。Susceptible-Infected-Recovered(SIR)模型是一种较为理想的节点影响力排序方法,业内常将其用于评价其他的节点影响力排序方法,但该方法时间复杂度较高,难以实际应用。文中提出一个基于sir值学习的节点影响力排序模型,模型综合节点的局部和全局结构信息描述节点特征,利用机器学习方法构建sir值学习模型,以构建的同等规模网络的节点特征和sir值对模型进行训练,训练后的模型能够基于节点特征预测节点的sir值,进而实现节点影响力排序。文中基于该模型实现了一个具体的节点影响力排序方法,并在真实数据集上进行了实验,结果表明,基于该模型得到的影响力排序结果,其准确性和单调性相比度中心性、Kshell、Weighted Kshell degree neighborhood等基于结构特征的方法均有所提升。
    参考文献 | 相关文章 | 多维度评价
    7. 基于迁移学习和多视图特征融合提高RNA碱基相互作用预测
    王晓飞, 樊学强, 李章维
    计算机科学    2023, 50 (3): 164-172.   DOI: 10.11896/jsjkx.211200186
    摘要24)      PDF(pc) (5749KB)(26)    收藏
    RNA碱基相互作用对维持其三维结构的稳定具有重要作用,准确地预测碱基相互作用可以辅助RNA三维结构的预测。然而,用于预测RNA碱基相互作用的数据量少,导致模型未能充分地学习到数据的特征分布,以及数据存在的特性(对称特性和类别不平衡),都影响了模型的性能。针对模型不充分学习和数据特性问题,在深度学习的基础上,提出了一种高性能的RNA碱基相互作用预测方法tpRNA。tpRNA首次在RNA碱基相互作用预测任务中引入迁移学习以改善因数据量少而产生的模型不充分学习问题,并提出高效的损失函数和特征提取模块,充分发挥迁移学习和卷积神经网络在特征学习方面的优势,以缓解数据特性问题。结果表明,引入迁移学习能减小数据量少导致的模型偏差,提出的损失函数能优化模型的训练,特征提取模块能提取到更有效的特征。与最先进的方法相比,tpRNA在低质量输入特征的情形下具有显著的优势。
    参考文献 | 相关文章 | 多维度评价
    8. 融合IRT的图注意力深度知识追踪模型
    董永峰, 黄港, 薛婉若, 李林昊
    计算机科学    2023, 50 (3): 173-180.   DOI: 10.11896/jsjkx.211200134
    摘要28)      PDF(pc) (2077KB)(23)    收藏
    知识追踪,旨在根据学生的历史答题表现实时追踪学生的知识状态(知识的掌握程度)并且预测学生未来的答题表现。目前的研究仅仅探索了问题或概念本身对学生答题表现的直接影响,而往往忽略了问题及包含的概念中存在的深层次信息对学生答题表现的间接影响。为了更好地利用这些深层次信息,一种融合项目反应理论的图注意力深度知识追踪模型GAKT-IRT被提出。模型将图注意力网络应用于知识追踪领域,取得了显著的提升效果,并使用IRT增加了模型的可解释性。首先,通过图注意力网络层获得问题的深层次特征表示;接着,根据结合了深层次信息的学生历史答题序列对学生的知识状态进行建模;然后,使用IRT对学生未来的答题表现进行预测。在6个公开真实在线教育数据集上的对比实验结果证明了,GAKT-IRT模型可以更好地完成知识追踪任务,在预测学生未来答题表现上具有明显的优势。
    参考文献 | 相关文章 | 多维度评价
    9. 学习索引研究综述
    王艺潭, 王一舒, 袁野
    计算机科学    2023, 50 (1): 1-8.   DOI: 10.11896/jsjkx.211000149
    摘要237)      PDF(pc) (2528KB)(239)    收藏
    大数据时代数据呈爆发式增长,传统索引结构难以处理庞大复杂的数据,为解决这一问题,学习索引应运而生,并成为当前数据库领域的研究热点之一。学习索引利用机器学习模型进行索引构建,通过对数据和物理位置之间的关系进行训练和学习得到学习模型,掌握二者之间的分布特点和规律,从而实现对传统索引的改进和优化。大量实验表明,与传统索引相比,学习索引可以适应大规模数据集,提供更好的搜索性能,具有更低的空间要求。文中详细介绍了学习索引的应用背景,梳理了现有的学习索引模型;根据数据类型的不同,将学习索引分为一维和多维两种类别,并对每种类别中学习索引模型的优缺点和可以支持的查询进行了详细的介绍和分析;最后对学习索引的未来研究方向进行了展望,以期为相关研究提供参考。
    参考文献 | 相关文章 | 多维度评价
    10. 机器学习层谱聚类综述
    王少将, 刘佳, 郑锋, 潘祎诚
    计算机科学    2023, 50 (1): 9-17.   DOI: 10.11896/jsjkx.211000185
    摘要227)      PDF(pc) (2896KB)(269)    收藏
    聚类分析在机器学习、数据挖掘、生物DNA信息等方面都起着极为关键的作用。聚类算法从方法学上可分为扁平聚类和层谱聚类。扁平聚类通常将数据集分为K个并行社区,社区之间没有交集,但现实世界的社区之间多具有不同层次之间的包含关系,因而层谱聚类算法能对数据进行更精细的分析,提供更好的可解释性。而相比扁平聚类,层谱聚类研究进展缓慢。针对层谱聚类面临的问题,从对代价函数的选择、聚类结果衡量指标、聚类算法性能等方面入手,调研了大量的相关文献。其中聚类结果衡量指标主要有模块度、Jaccard 指数、标准化互信息、树状图纯度等。扁平聚类算法中比较经典的算法有K-means算法、标签传播算法、DBSCAN 算法、谱聚类算法等。层谱聚类算法可以进一步划分为分裂聚类算法和凝聚聚类算法,分裂层谱聚类算法有二分K-means算法和递归稀疏割算法,凝聚层谱聚类算法有经典的Louvain算法、BIRCH 算法和近年来提出的HLP 算法、PERCH算法及GRINCH算法。最后,进一步分析了这些算法的优缺点,并总结全文。
    参考文献 | 相关文章 | 多维度评价
    11. 一种增量式本体模型与数据模式映射的图谱实例模型构建演化方法
    单中原, 杨恺, 赵俊峰, 王亚沙, 徐涌鑫
    计算机科学    2023, 50 (1): 18-24.   DOI: 10.11896/jsjkx.220500205
    摘要206)      PDF(pc) (2427KB)(247)    收藏
    在智慧城市领域中,随着信息化技术的不断深入,各信息系统产生的海量数据不断增长,这些多源异构数据之间的语义互通成为了城市智能应用开发需要解决的重要问题之一。构建知识图谱是解决数据语义互通的常用手段之一。在建立知识图谱本体模型后,图谱实例模型的构建演化就成为支撑基于图谱的各类应用的关键技术。为此,如何将不断更新的数据源中的知识实例尽可能自动化地扩充到知识图谱中,成为了图谱构建的首要问题。现有的一些知识实例生成工具对数据导入的支持力度不足,用户需要对源数据进行复杂的预处理,将其转化为符合平台支持的导入数据格式。这导致预处理工作量大,且不能迅速地应对数据不断更新增长的情况。由于智慧城市领域中信息系统所产生的数据多为结构化或半结构化数据,文中提出一种增量式本体模型与数据模式映射的图谱实例模型构建演化方法,面向结构化或半结构化数据生成实例,并随着数据的更新,实现图谱实例模型的增长与演化。文中方法结合机器推荐与人机协同交互设计,针对不同数据源的特征抽取知识并将其正确地映射到本体模型中的概念实体上,实现领域知识图谱实例模型的增量扩充;并通过实体对齐、关系补全等方法,支持实例模型的持续演化。文中方法在企业信息领域知识图谱的构建场景中得到了验证,通过机器推荐和不去重,实现了实例高效且准确的生成,其有效性也得到了证实。
    参考文献 | 相关文章 | 多维度评价
    12. 基于水车模型的时序大数据快速存储
    陆铭琛, 吕晏齐, 刘睿诚, 金培权
    计算机科学    2023, 50 (1): 25-33.   DOI: 10.11896/jsjkx.220900045
    摘要174)      PDF(pc) (2562KB)(219)    收藏
    近年来,随着物联网的高速发展,传感器部署的规模日益壮大。大规模的传感器每秒都会产生大量数据流,并且数据的价值会随着时间的流逝逐渐降低。因此,存储系统不仅需要能承受高速到达的数据流带来的写入压力,还需要以最快的速度将数据持久化,以供后续的查询和分析。这对存储系统的写入性能提出了更高的要求。基于水车模型的快速存储系统可以满足大数据应用场景下的高速时序数据流快速存储需求。该系统部署在高速时序数据流和底层存储节点之间,利用多个数据桶构建一个逻辑上轮转的存储模型(类似于中国古代的水车),并且通过控制每个数据桶的状态来协调数据的写入和落盘。水车模型将数据桶分配给不同的底层存储节点,从而将瞬时写入压力均摊到多个底层存储节点上,并借助多节点的并行写入提高写吞吐。水车模型被部署在单机版MongoDB上,并和分布式MongoDB进行了实验对比。实验结果表明,水车模型可以有效提升系统的写吞吐,降低写入延迟,并且具有良好的横向可扩展性。
    参考文献 | 相关文章 | 多维度评价
    13. 一种存储介质优化的大规模图遍历方法研究
    矫天哲, 何虹燕, 张泽鑫, 宋杰
    计算机科学    2023, 50 (1): 34-40.   DOI: 10.11896/jsjkx.211100049
    摘要99)      PDF(pc) (2971KB)(98)    收藏
    大图数据的BFS算法作为一种基础算法,受到工业界和学术界的广泛重视。不同平台涌现出众多大图BFS算法的研究工作,其中多使用固态硬盘来提高算法效率。在BFS算法遍历过程中,存储设备需要连续重复装载会数据以满足遍历需求,而数据重复装载造成大量数据擦写操作,严重影响了固态硬盘的使用寿命。由此可见,减少BFS算法数据擦写操作可以有效延长固态硬盘的使用寿命。结合图结构的特点,提出数据重用模型,用于描述图遍历过程中的数据重用程度;提出了基于图顶点度的启发式优先访问方法,该方法判断图顶点之间的独立性,并根据判断结果选择优先访问的图顶点,增加数据重用的可能性,提高缓存的命中率,减少闪存颗粒磨损。所提优化方法不修改BFS算法和大图数据,适用于各种BFS算法和数据集。最后,实验验证了所提数据重用模型的正确性,以及启发式优先访问方法的有效性。该优化方法应用于BFS-4K,B40C和Gunrock这3种常见的BFS算法上,能有效减少图遍历过程中的数据写入操作,固态硬盘的使用寿命可分别提高12%,15%,22%。
    参考文献 | 相关文章 | 多维度评价
    14. 结合全局信息的深度图解耦协同过滤
    郝敬宇, 文静轩, 刘华锋, 景丽萍, 于剑
    计算机科学    2023, 50 (1): 41-51.   DOI: 10.11896/jsjkx.220900255
    摘要97)      PDF(pc) (7437KB)(107)    收藏
    基于GCN的协同过滤模型通过用户物品交互二部图上的信息聚合过程生成用户节点和物品节点的表示,预测用户对物品的偏好。然而,这些模型大多没有考虑用户不同的交互意图,无法充分挖掘用户与物品之间的关系。已有的图解耦协同过滤模型建模了用户的交互意图,却忽略了图全局信息,没有考虑用户节点和物品节点的本质特征,造成表示语义不完整;并且由于受到模型迭代结构的影响,意图解耦学习的过程并不高效。针对上述问题,设计了结合全局信息的深度图解耦协同过滤模型G2DCF(Global Graph Disentangled Collaborative Filtering)。该模型构建了图全局通道和图解耦通道,分别学习节点的本质特征和意图特征;通过引入正交约束和表示独立性约束,使用户-物品的交互意图尽可能唯一防止意图退化,同时提高不同意图下表示的独立性,提升模型的解耦效果。对比已有的图协同过滤模型,G2DCF能更综合地刻画用户特征和物品特征。在3个公开数据集上进行了实验,结果表明G2DCF在多个评价指标上优于对比方法;分析了表示分布的表示独立性和表示均匀性,验证了模型的解耦效果;同时从收敛速度上进行了对比,验证了模型的有效性。
    参考文献 | 相关文章 | 多维度评价
    15. 基于影响力剪枝的图神经网络快速计算图精简
    顾希之, 邵蓥侠
    计算机科学    2023, 50 (1): 52-58.   DOI: 10.11896/jsjkx.220900032
    摘要98)      PDF(pc) (3037KB)(108)    收藏
    计算图精简是提升图神经网络(Graph Neural Network,GNN)模型训练速度的一种优化技术,它利用节点间存在共同邻居的特性,通过消除聚合阶段的冗余计算,来加速图神经网络模型的训练。但是,在处理大规模图数据时,已有的计算图精简技术存在计算效率低的问题,影响了计算图精简技术在大规模图神经网络中的应用。文中详细分析了当前的计算图精简技术,统计了包括搜索和重构两阶段处理的时间开销,并总结了现有方法的不足。在此基础上,提出了基于影响力剪枝的图神经网络快速计算图精简算法。该算法应用影响力模型刻画各个节点对计算图精简的贡献,并基于影响力对共同邻居的搜索空间进行剪枝,极大地提升了搜索阶段的效率。此外,详细分析了算法复杂度,从理论上证明了该技术期望的加速效果。最后,为验证所提算法的有效性,将所提算法应用到两种主流的计算图精简技术上,选取常见的图神经网络模型在多个数据集上进行测试,实验结果表明所提算法在保证一定冗余计算去除量的前提下,能够显著地提升计算图精简的效率。相比基线计算图精简技术,所提技术在PPI数据集上搜索阶段的加速效果最高提升了3.4倍,全过程最高提升了1.6倍;在Reddit数据集上搜索阶段的加速效果最高提升了5.1倍,全过程最高提升了3.2倍。
    参考文献 | 相关文章 | 多维度评价
    16. 基于动态机器学习的信用评估模型
    陈奕君, 高浩然, 丁志军
    计算机科学    2023, 50 (1): 59-68.   DOI: 10.11896/jsjkx.220800191
    摘要96)      PDF(pc) (3310KB)(108)    收藏
    随着计算机技术的发展,利用机器学习算法构建自动化评估模型已经成为金融机构进行信用评估的重要手段。然而,目前信用评估模型仍存在一些问题:信用数据本身存在类别不平衡和高维特征的问题,并且不同的时间下外界环境的改变会影响信用主体的行为,即数据会产生概念漂移现象。为此,文中提出了一个动态的信用评估模型,通过集成学习在新的增量数据上训练基分类器,并对各个基分类器的权重进行动态调整来适应概念漂移,以实现模型的动态更新。当发生概念漂移时,会针对概念漂移的检测结果对高维不平衡的信用数据进行不同形式的均衡化和特征选择。特别地,针对特征选择,文中提出了结合历史代表性样本的增量特征选择算法,该算法能够进行高效准确的特征选择,从而使模型可以同时解决增量信用数据存在的高维不平衡和概念漂移问题。最后,文中选取了真实的增量高维信用数据集,验证了所提算法相比其他主流算法在准确率和效率上的优越性。
    参考文献 | 相关文章 | 多维度评价
    17. 有向图的埃尔米特拉普拉斯矩阵研究
    刘楷文, 黄增峰
    计算机科学    2023, 50 (1): 69-75.   DOI: 10.11896/jsjkx.211100067
    摘要69)      PDF(pc) (1524KB)(70)    收藏
    拉普拉斯矩阵对于无向图的研究具有重要意义,其特征值反映了图的部分结构与性质,据此可以设计有效的算法以解决图上一些相关的任务,如划分、聚类等。将拉普拉斯矩阵推广至有向图,一大难点是失去了对称性,特征值可能为复数。为了规避该问题,最近的研究引入了k次单位根作为边权,定义了复数域上的拉普拉斯矩阵,该矩阵是埃尔米特矩阵。文中提出了有向边的旋转角的概念,对该矩阵进行了推广,证明了其具有与无向图拉普拉斯矩阵类似的代数性质;给出了有向图的约束方程组和有向环路的定义,证明了拉普拉斯矩阵最小特征值为0、约束方程组有解以及图中任意有向环路旋转角为 2lπ( $l \in \mathbb{Z}$)这三者间的等价性。最后给出了一些相关推论及应用。
    参考文献 | 相关文章 | 多维度评价
    18. 一种结合标签分类和语义查询扩展的文本素材推荐方法
    孟怡悦, 彭蓉, 吕其标
    计算机科学    2023, 50 (1): 76-86.   DOI: 10.11896/jsjkx.220100078
    摘要82)      PDF(pc) (4176KB)(80)    收藏
    在各类规划、调研报告的编制过程中,编制人员往往需要根据拟定的目录或标题去收集、阅读大量文本素材,分类整理后再甄选使用,不仅工作量大而且质量无法得到保障。为此,在数字政府规划文档编制领域中提出了一种结合标签分类和语义查询扩展的文本素材推荐方法,从信息检索的角度出发,将目录中的各级标题视为查询语句,将参阅的文本素材作为目标文档,从而进行文本素材检索与推荐。该方法基于差分进化算法,将基于词向量平均的文本素材推荐方法、基于语义查询扩展的文本素材推荐方法和基于标签分类的文本素材推荐方法有机结合,弥补了传统的文本素材推荐方法的不足,实现了通过目录结构的标题检索以段落为粒度的文本素材。在10个数据集上的实验验证结果表明,该方法的性能提升显著,能够大大减少人工素材选择的工作量,同时减少素材分类的工作量,降低文档编制的难度。
    参考文献 | 相关文章 | 多维度评价
    19. 基于关系数据库的时态RDF建模
    韩啸, 章哲庆, 严丽
    计算机科学    2022, 49 (11): 90-97.   DOI: 10.11896/jsjkx.211100065
    摘要127)      PDF(pc) (2509KB)(108)    收藏
    随着时态数据的不断增加,时态知识图谱的概念得到了普及,如何高效地表示时态知识图谱已成为一个重要的研究方向。RDF(Resource Description Framework)虽然在传统知识图谱建模中被广泛运用,但其只能表示静态语义,缺乏表示时态知识图谱的能力,因此已有几种针对时态知识图谱的时态RDF模型被提出。但这些模型都只是将时态信息简单地附加在谓语或整个三元组上,缺少对时态信息所属对象的准确定位。为了更好地表示时态知识图谱,文中提出了一个新的时态RDF表示模型-tRDF。该模型首先根据宾语的不同类型,选择性地将时态信息附加在宾语或谓语上;其次,结合时态数据库的概念,给出了一种基于关系数据库PostgreSQL的tRDF数据存储方法;最后,从数据存储的时间和空间两个方面对所提出的tRDF数据存储方法进行了验证。实验结果表明,所提方案能有效地表示时态知识图谱。
    参考文献 | 相关文章 | 多维度评价
    20. 动态部分标记混合数据的增量式特征选择算法
    闫振超, 舒文豪, 谢昕
    计算机科学    2022, 49 (11): 98-108.   DOI: 10.11896/jsjkx.210900076
    摘要134)      PDF(pc) (3679KB)(117)    收藏
    许多实际应用中的数据集是由符号型、数值型和缺失型特征构成的混合数据。针对混合数据的决策标记,由于获取全部数据的决策标记需要耗费大量的人工和时间成本,只能为部分数据进行决策标记,因此产生了部分标记数据。同时,现实应用领域中数据是动态产生的,即数据维度随着不同的需求动态地增加或删减。针对混合数据的高维性、部分标记和动态性,文中提出了两种面向部分标记混合数据的增量式特征选择算法。首先,利用信息粒度对部分标记混合数据的特征进行重要度分析;其次,当特征集发生动态变化时,结合增量学习的思想,给出信息粒度的增量更新机制;然后,在此基础上提出了两种面向部分标记混合数据的增量式特征选择算法;最后,通过与其他算法在UCI数据集上的实验结果进行对比,进一步验证了所提算法的可行性和有效性。
    参考文献 | 相关文章 | 多维度评价
    21. 语义增强的完全不平衡标签网络表示学习算法
    富坤, 郭云朋, 禚佳明, 李佳宁, 刘琪
    计算机科学    2022, 49 (11): 109-116.   DOI: 10.11896/jsjkx.210900101
    摘要75)      PDF(pc) (2604KB)(148)    收藏
    在网络表示学习的研究中,数据的不完整性问题是一个重要问题,该问题使现有的表示学习算法难以达到预期效果。近年来,不少学者针对此类问题提出了解决方法,这些方法大多仅考虑标签信息本身的缺失问题,对数据不平衡性涉及较少,尤其是某一类别标签完全缺失的完全不平衡问题。解决这类问题的学习算法并不完善,主要存在的问题是在聚合邻域特征时侧重于考虑网络结构信息,未利用属性特征与语义特征间的关系来增强表示结果。为了解决以上问题,提出了融合属性特征与结构特征的SECT(Semantic Information Enhanced Network Embedding with Completely Imbalanced Labels)方法。首先,在考虑属性空间和语义空间关系的基础上,引入注意力机制进行监督学习,得到语义信息向量;然后,应用变分自编码器无监督提取结构特征以增强算法的鲁棒性;最后,在嵌入空间中融合语义与结构两种信息。将使用SECT算法得到的网络向量表示在Cora,Citeseer等数据集上进行测试,应用于节点分类任务时与RECT和GCN等算法相比,取得了0.86%~1.97%的效果提升。网络向量表示的可视化结果显示,与其他算法相比,SECT算法的类间距离变大,类簇内部更加紧凑,能较清晰地区分类别边界。实验结果表明了SECT算法的有效性,SECT得益于更好地在低维嵌入空间中融合语义信息,有效提升了存在完全不平衡标签情况下的节点分类任务性能。
    参考文献 | 相关文章 | 多维度评价
    22. 基于微观行为的自适应多注意力会话推荐
    乔晶晶, 王莉
    计算机科学    2022, 49 (11): 117-125.   DOI: 10.11896/jsjkx.210900061
    摘要82)      PDF(pc) (2161KB)(181)    收藏
    会话推荐(Session-based Recommendation,SR)旨在根据短期会话信息推荐用户偏好的下一个物品,它不需要用户的配置文件和长期历史信息,具有广阔的应用前景。现有的SR模型通常关注用户点击行为或仅利用某单一类型的行为数据,忽略了用户点击行为的具体语义,如商品浏览、商品收藏、添加到购物车、购买等。这些不同语义的行为被称为微观行为,能够从微观层面反映用户在购物过程中意图的转换以及决策过程,为改善推荐效果提供了有价值的信息。文中提出了一种基于微观行为的自适应多注意力会话推荐模型(Adaptive Multi-Attention Network,AMAN)。首先,将微观行为组成的会话序列建模为异构有向图,然后建立3个组件进行会话推荐:有向图注意力网络(Directed Graph ATtention network,DGAT)从物品级学习物品表征,自适应捕获具有相同微观操作的物品间的关联性;操作级异构图注意力网络(Operation-level Heterogeneous Graph ATtention network,OHGAT)从操作级学习物品表征,自适应捕获具有不同微观操作的物品间的关联性;微观行为协同注意力网络(Micro-Behavior Co-ATtention network,MBCAT)学习微观行为序列表征,自适应捕获不同微观行为序列间的依赖性。在Yoochoose,Taobao14和Taobao15这3个数据集上的实验结果表明,所提方法优于基线模型。
    参考文献 | 相关文章 | 多维度评价
    23. 知识追踪研究进展
    陈之彧, 单志龙
    计算机科学    2022, 49 (10): 83-95.   DOI: 10.11896/jsjkx.211000119
    摘要120)      PDF(pc) (2019KB)(122)    收藏
    教育数据挖掘是计算机科学、统计学与教育学的交叉学科,主要通过计算机科学与统计学的理论和技术处理教育研究与教学实践的问题,比如在获得最大学习增益的情况下尽可能降低学生的学习成本和教师的教育成本。迅速发展的计算机辅助教育环境和在线教育平台产生了丰富的数据,当然也带来了挑战,无法针对性地为学生提供特定需求的资源。知识追踪是智能辅导教育领域对学生进行教学资源推荐和学习路径诊断的个性化方法,随着时间的推移,对学生的知识状态进行建模,从而根据学生的历史响应序列,预测学生未来的表现。重点从具有可解释性的训练过程、具备高精度的预测结果两方面对知识追踪进行相关文献的分析,并且介绍了该领域常见的数据集、评价指标和应用。最后,对知识追踪领域的挑战进行了展望。
    参考文献 | 相关文章 | 多维度评价
    24. 基于同源控制点的边缘绑定方法
    刘梦欣, 张凡, 李天瑞
    计算机科学    2022, 49 (10): 96-102.   DOI: 10.11896/jsjkx.220300066
    摘要73)      PDF(pc) (2156KB)(88)    收藏
    对含有大量复杂连接关系的节点连接图进行可视化会造成视觉上的严重混乱,边缘绑定是一种有效降低视觉混乱的方法。以往基于空间邻近性进行边缘绑定的方法会导致独立边缘产生模糊性歧义,给予用户错误的认知,而只专注于图的拓扑结构无法有效解决密集连接造成的视觉干扰问题。基于边缘路径的方法能够较好地利用图中原始节点信息对边缘进行控制绑定,从而避免独立边缘产生模糊性歧义,同时展现数据的高级模式。因此,在边缘路径方法的基础上进行了改进,提出了一种基于同源控制点的边缘绑定方法。该方法结合图的拓扑结构信息计算同源控制点,并以此为基础利用最短路径算法选取边缘控制点,然后结合分级思想对边缘聚合程度进行优化,最后通过Bézier曲线对边缘进行平滑处理。将基于同源控制点的边缘绑定方法用于美国迁移数据集和中国铁路线路数据集中,实验结果表明,该方法在改善过度绑定的问题上起到了较好的效果,相比原方法,此方法保留了更多局部数据细节,平衡了整体与局部边缘的绑定程度,可以有效地用于复杂连接图的可视化。
    参考文献 | 相关文章 | 多维度评价
    25. 一种基于局部随机游走的标签传播算法
    刘扬, 郑文萍, 张川, 王文剑
    计算机科学    2022, 49 (10): 103-110.   DOI: 10.11896/jsjkx.220400145
    摘要97)      PDF(pc) (4471KB)(155)    收藏
    社区结构是复杂网络的重要特征之一,识别网络中不同功能的社区对理解复杂网络特性具有重要作用。基于标签传播的社区发现算法通常以节点的直接邻居作为邻域更新标签,可能无法准确发现社区结构或导致得到的社区划分结果不稳定。针对此问题,提出了一种基于局部随机游走的标签传播算法(Local Random Walk Based Label Propagation Algorithm,LRW-LPA),利用节点的k步邻域内局部重要性指标选择重要性最低的节点作为起始节点,进行带重启的局部随机游走以确定起始节点的局部邻域;选择此局部邻域范围内出现次数最多且影响值最大的标签来更新起始节点标签。LRW-LPA采用带重启的局部随机游走过程能更准确地确定节点的合适邻域范围,提高了算法的稳定性。与LPA,BGLL,Infomap,Leiden,Walktrap等经典社区发现算法在12个真实网络和12个人工构造网络上的比较实验表明,LRW-LPA算法在标准互信息(NMI)、调整兰德系数(ARI)和模块度(Q)等方面表现良好。
    参考文献 | 相关文章 | 多维度评价
    26. 基于全局属性注意力神经过程模型的数据补全研究
    程恺, 刘满, 王之腾, 毛绍臣, 申秋慧, 张宏军
    计算机科学    2022, 49 (10): 111-117.   DOI: 10.11896/jsjkx.210800038
    摘要83)      PDF(pc) (3887KB)(105)    收藏
    注意力神经过程(Attentive Neural Process,ANP)模型采用生成模型的方法,以样本的任意局部上下文点为输入,输出整个样本的分布函数,从而模仿高斯过程回归完成数据补全任务。样本的属性信息可以为样本的生成提供重要信息,然而ANP模型忽略了对属性信息的使用。受条件变分自动编码机(CVAE)模型以标签为条件控制样本生成的启发,文中提出了全局属性注意力神经过程(Global-attribute Attentive Neural Process,GANP),将样本属性嵌入到编码器网络,从而使浅层变量隐含样本属性信息。同时,在解码器网络中加入样本属性作为特征,使模型的生成样本更为准确,特别是当输入上下文点数量稀少时,属性信息能够帮助模型生成更清晰、准确的样本。最后,从定性和定量两个方面证明了GANP性能的优越性,可以看出该模型扩展了NP家族模型的应用范围,从而更灵活、快速、准确地解决只有部分上下文信息时整个样本的数据补全问题。
    参考文献 | 相关文章 | 多维度评价
    27. 自适应分组融合改进算数优化算法及应用
    刘成汉, 何庆
    计算机科学    2022, 49 (10): 118-125.   DOI: 10.11896/jsjkx.210800008
    摘要80)      PDF(pc) (2549KB)(129)    收藏
    针对算数优化算法(Arithmetic Optimization Algorithm,AOA)寻优速度慢、精度低和易受局部极值点影响的问题,提出了一种自适应分组融合改进算数优化算法(Adaptive Grouping Fusion Improved Arithmetic Optimization Algorithm,AG-AOA)。首先,采用Halton序列初始化个体位置,提高迭代初期算法的多样性;然后,引入自适应分组策略对种群进行分组操作,根据适应度值大小把个体自适应分为优势组、均势组和劣势组;最后,对各组个体分别采用教与学优化策略、精英反向学习策略和振荡扰动算子进行位置更新,以提高AOA的搜索能力,减小局部极值点对算法的影响。通过包含各种复杂程度的测试函数对AG-AOA的性能进行验证,包括基准测试函数、统计显著性的Wilcoxon秩和检验以及部分CEC2014测试函数。将AG-AOA应用于两个实际工程优化问题,并将所得结果与其他元启发式算法进行了比较和分析,验证了AG-AOA的优越性。
    参考文献 | 相关文章 | 多维度评价
    28. 基于注意力机制交互卷积神经网络的推荐方法
    任胜兰, 郭慧娟, 黄文豪, 汤志宏, 亓慧
    计算机科学    2022, 49 (10): 126-131.   DOI: 10.11896/jsjkx.220700064
    摘要150)      PDF(pc) (2258KB)(179)    收藏
    为了捕捉在线购物时用户与商品之间的动态交互关系,提高推荐系统(RS)的准确度,提出了结合用户倾向性和商品吸引力的用户评价预测方法。首先,将评论分为用户评论文本和商品评论文本,分别输入两个交互卷积神经网络(CNN),并结合注意力机制,动态捕捉文本中的语义信息和上下文信息,得到用户和商品的自适应特征;然后,利用交互注意力网络,分析商品特征和用户特征的动态交互关系,计算出用户对特定商品的倾向性和商品对特定用户的吸引力;最后,通过预测模块提供用户对商品的准确评价预测。在数据集上进行实验,结果表明,所提方法取得了最优性能,比其他方法的MAE和RMSE性能分别至少提升了15.1%和13.6%。此外,基于Top-K的统计指标进一步验证了所提方法的商品推荐精准度。
    参考文献 | 相关文章 | 多维度评价
    29. 基于温度以及运行数据的电缆接头绝缘劣化状态预测
    徐四勤, 黄向前, 杨昆, 张占龙, 甘鹏飞
    计算机科学    2022, 49 (10): 132-137.   DOI: 10.11896/jsjkx.210900139
    摘要84)      PDF(pc) (3635KB)(84)    收藏
    电缆接头绝缘劣化会导致热损耗的增加进而引起接头表面温度上升,同时表面温度受到运行负荷、环境温度等多方面因素的影响,总体上劣化程度与温度数据表现出非线性分布的情况。为此,提出了基于改进麻雀搜索算法(Improved Sparrow Search Algorithm,ISSA)优化的核极限学习机(Kernel Based Extreme Learning Machine,KELM)的电缆接头绝缘劣化程度预测方法。首先通过实验来验证电缆接头多物理耦合模型的计算准确性,并通过耦合计算模型来获取不同劣化程度、载荷和环境温度下的电缆接头表面温度分布,用于构建训练集、验证集和测试集。其次基于鸟群算法(Bird Swarm Algorithm,BSA)中飞行行为的思想优化麻雀搜索算法,保证了全局收敛又不失种群多样性,有效跳出局部最优。然后通过ISSA算法对KELM的惩罚系数C和核函数σ进行优化,得到绝缘劣化状态预测模型。研究结果表明,改进麻雀算法优化的核极限学习机(ISSA-KELM)的预测效果明显优于其他模型。
    参考文献 | 相关文章 | 多维度评价
    30. 用户行为驱动的时序影响力最大化问题研究
    魏鹏, 马玉亮, 袁野, 吴安彪
    计算机科学    2022, 49 (6): 119-126.   DOI: 10.11896/jsjkx.210700145
    摘要126)      PDF(pc) (2516KB)(243)    收藏
    影响力最大化IM问题旨在查找社交网络中的一组用户,通过这些用户,使信息在网络中传播的范围最大化。现有研究主要关注静态网络中的IM问题,然而在现实生活中,社交网络是不断演化的,基于静态网络的传播模型(如独立级联模型、线性阈值模型)无法适用于演化网络中的信息传播过程。同时,现有研究忽略了用户行为对信息传播的影响。因此,针对该问题,提出了一种用户行为驱动的独立级联BDIC传播模型,该模型主要根据用户行为对信息的传播过程进行建模,可有效刻画演化社交网络中的信息传播过程。在该模型的基础上,提出了用户行为驱动的影响力最大化算法,主要包括3个步骤:首先,建模消息传播过程,计算演化社交网络中的信息传播概率;然后,提出一种用户行为驱动的反向影响力采样方法,有效查询单个时间点下的种子用户;最后,设计一种不同时间节点(时间序列)下的种子节点查询方法,有效反映演化社交网络中种子节点动态变化的特性。为了评估所提算法的有效性,设计了种子节点与受影响节点的相似度对比方法。通过大量真实数据集上的实验,验证了信息传播概率算法的高效性和扩展性,证明了相比普通的独立级联模型,BDIC模型能更好地建模演化社交网络中的信息传播过程。
    参考文献 | 相关文章 | 多维度评价
    首页 | 前页| 后页 | 尾页 第1页 共9页 共260条记录