知识图谱虚拟专题

Select

1. 知识图谱构建技术:分类、调查和未来方向

杭婷婷, 冯钧, 陆佳民

计算机科学 2021, 48 (2): 175-189. DOI: 10.11896/jsjkx.200700010

摘要（1690）

PDF（pc）（2659KB）（6685）

知识图谱的概念由谷歌于2012年提出,随后逐渐成为人工智能领域的一个研究热点,已在信息搜索、自动问答、决策分析等应用中发挥作用。虽然知识图谱在各领域展现出了巨大的潜力,但不难发现目前缺乏成熟的知识图谱构建平台,需要对知识图谱的构建体系进行研究,以满足不同的行业应用需求。文中以知识图谱构建为主线,首先介绍目前主流的通用知识图谱和领域知识图谱,描述两者在构建过程中的区别;然后,分类讨论图谱构建过程中存在的问题和挑战,并针对这些问题和挑战,分类描述目前图谱构建过程中的知识抽取、知识表示、知识融合、知识推理、知识存储5个层面的解决方法和策略;最后,展望未来可能的研究方向。

参考文献 | 相关文章 | 多维度评价

Select

2. 联合学习用户端和项目端知识图谱的个性化推荐

梁浩宏, 古天龙, 宾辰忠, 常亮

计算机科学 2021, 48 (5): 109-116. DOI: 10.11896/jsjkx.200600115

摘要（534）

PDF（pc）（1912KB）（1403）

如何在已有的用户行为和辅助信息的基础上准确建模用户的偏好非常重要。在各种辅助信息中,知识图谱(Know-ledge Graph,KG)作为一种新型辅助信息,其节点和边包含了丰富的结构信息和语义信息,近年来受到了越来越多研究者的关注。大量研究表明,在个性化推荐中引入知识图谱可以有效地提高推荐的性能,并增强推荐的合理性和可解释性。然而,现有的方法要么是在KG上探索每个用户-项目交互对(user-item)的独立子路径,要么使用图表示学习的方法在KG中分别学习目标用户(user)或项目(item)的表示,虽然都取得了一定的效果,但是前者没有充分捕获用户-项目(user-item)在KG上的结构信息,后者在产生嵌入(embedding)表示的过程中忽略了user和item的相互影响。为了弥补上述方法的不足,提出了一种联合学习用户端和项目端知识图谱(User-end and Item-end Knowledge Graph,UIKG)的新模型。该模型通过挖掘用户和项目在各自KG中的关联属性信息,并通过联合学习有效地捕获用户的个性化偏好与项目之间的关联性。具体的操作步骤是,利用基于图卷积神经网络的方法从用户知识图谱中学习用户表示向量,再将用户表示向量引入项目知识图谱中联合学习得到项目表示向量,实现用户端KG和项目端KG的无缝统一,最后通过多层感知器进行偏好预测,得到用户对项目的偏好概率,从而更有效地挖掘KG中的高阶结构信息和语义信息来捕获用户的个性化偏好。在公开数据集上的实验结果表明,与基线方法相比,UIKG在Recall@K指标上提高了2.5%~13.6%,在AUC和F1指标上提高了0.4%~5.8%。

参考文献 | 相关文章 | 多维度评价

Select

3. 四元数关系旋转的知识图谱补全模型

陈恒, 王维美, 李冠宇, 史一民

计算机科学 2021, 48 (5): 225-231. DOI: 10.11896/jsjkx.200300093

摘要（663）

PDF（pc）（1515KB）（1466）

知识图谱是真实世界三元组的结构化表示,通常三元组被表示成头实体、关系、尾实体的形式。针对知识图谱中广泛存在的数据稀疏问题,提出了一种将四元数作为关系旋转的知识图谱补全方法。文中使用极具表现力的超复数表示对实体和关系进行建模,以进行链接预测。这种超复数嵌入用于表示实体,关系则被建模为四元数空间中的旋转。具体来说,将每个关系定义为超复数空间中头实体到尾实体的旋转,用于推理和建模各种关系模式,包括对称/反对称、反转和组合。在公开的数据集WN18RR和FB15K-237上进行相关的链接预测实验,实验结果表明,在WN18RR数据集中,其平均倒数排名(Mean Reciprocal Rank,MRR)比RotatE的提高了4.6%,其Hit@10比RotatE的提高了1.7%;在FB15K-237数据集中,其平均倒数排名比RotatE的提高了5.6%,其Hit@3比RotatE的提高了1.4%。该实验证明,使用四元数作为关系旋转的知识图谱补全方法可以有效提高三元组预测精度。

参考文献 | 相关文章 | 多维度评价

Select

4. KSN:一种基于知识图谱和相似度网络的Web服务发现模型

于扬, 邢镔, 曾骏, 文俊浩

计算机科学 2021, 48 (10): 160-166. DOI: 10.11896/jsjkx.200900026

摘要（661）

PDF（pc）（2829KB）（1259）

服务发现旨在解决服务信息爆炸的问题,找到定位满足服务请求者需求的服务。由于服务描述信息主要由带有噪声的短文本组成,并且具有语义稀疏的特征,因此很难提取服务描述文档的隐含上下文信息,此外,传统的服务发现方法在获取服务的特征表示后,直接进行相似度计算,其使用的度量函数是不符合人类感知的。针对上述两个问题,文中提出了一种基于知识图谱和神经相似网络的服务发现框架(KSN)。它使用知识图谱来连接服务描述和规格中的实体以获得丰富的外部信息,从而增强服务描述的语义信息,使用卷积神经网络(Convolutional Neural Network,CNN)提取服务的特征向量,并将其作为神经相似网络的输入,神经相似网络会学习一个相似度函数,用于计算服务和请求之间的相似度以支持服务发现过程。通过对ProgrammableWeb爬取的真实服务数据集的大量实验结果表明,就多种评估指标而言,KSN优于现有的Web服务发现方法。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于知识图谱的行为路径协同过滤推荐算法

陈源毅, 冯文龙, 黄梦醒, 冯思玲

计算机科学 2021, 48 (11): 176-183. DOI: 10.11896/jsjkx.201000004

摘要（638）

PDF（pc）（2493KB）（1232）

针对个性化推荐,常用的推荐算法有内容推荐、物品协同过滤(Item CF)和用户协同过滤(User CF),但是这些算法以及它们的改进算法大多偏向于关注用户的显性反馈(标签、评分等)或评分数据,缺少对多维度用户行为和行为顺序的利用,导致推荐准确率不够高及冷启动等问题。为了提高推荐精度,文中提出了一种基于知识图谱的行为路径协同过滤推荐算法(BR-CF)。首先根据用户行为数据,考虑行为顺序创建行为图谱(behavior graph)和行为路径(behavior route),然后采用向量化技术(Keras Tokenizer)将文本类型的路径向量化,最后计算多维度行为路径向量之间的相似度,对各维度分别进行路径协同过滤推荐。在此基础上,文中提出了两种BR-CF与Item CF相结合的改进算法。实验结果表明,在阿里天池数据集UserBehavior上,BR-CF算法能够有效地在多个维度中进行推荐,实现数据的充分利用和推荐的多样性,并且此改进算法很好地提升了Item CF的推荐性能。

参考文献 | 相关文章 | 多维度评价

Select

6. 基于知识图谱和标签感知的推荐算法

宁泽飞, 孙静宇, 王欣娟

计算机科学 2021, 48 (11): 192-198. DOI: 10.11896/jsjkx.201000085

摘要（538）

PDF（pc）（2411KB）（1862）

推荐系统缓解了互联网数据量剧增带来的信息过载问题,但传统的推荐系统由于数据稀疏和冷启动等问题导致推荐算法的准确性不高。因此,文中提出了一种基于知识图谱和标签感知的推荐算法(Knowledge Graph and Tag-Aware,KGTA)。首先,利用项目和用户标签信息,通过知识图谱表示学习捕获低阶与高阶特征,将两个知识图谱中实体和关系的语义信息嵌入低维的向量空间中,从而获得项目和用户的统一表示。其次,分别利用深度神经网络和加入注意力机制的递归神经网络来提取项目和用户的潜在特征。最后,根据潜在特征预测评分。该算法不仅利用了知识图谱和标签的关系信息和语义信息,而且通过深层结构学习了项目和用户的隐含特征。在MovieLens数据集上的实验结果表明,该算法能够有效预测用户评分,提高推荐结果的准确性。

参考文献 | 相关文章 | 多维度评价

Select

7. 知识图谱嵌入的高阶协同过滤推荐系统

徐兵, 弋沛玉, 王金策, 彭舰

计算机科学 2021, 48 (11A): 244-250. DOI: 10.11896/jsjkx.210100211

摘要（602）

PDF（pc）（3243KB）（1175）

针对推荐系统存在的数据稀疏问题,传统的协同过滤方法无法捕捉辅助信息之间的相关性,从而降低了推荐的准确度,文中提出KGE-CF模型,引入了知识图谱作为辅助信息,利用知识图谱中多源结构性的数据来缓解数据稀疏问题。KGE-CF结合多层感知机捕获高阶非线性特征的能力,能够学习出用户与项目更深层次的交互信息,从而提升推荐质量。首先,KGE-CF模型将用户的历史交互项目与知识图谱中的实体进行映射,并且利用知识图谱的翻译模型进行训练,得到实体嵌入向量与关系向量,并依据“兴趣迁移”思想进一步学习出更为丰富的用户向量;然后,模型将学习得到的用户向量与项目向量拼接,作为多层感知机的输入,捕捉用户与项目之间的高阶特征信息;最后,通过一个sigmoid函数得到用户对候选项目的偏好程度。通过在真实数据集上的实验,证明了提出的KGE-CF模型在点击率预测和top-k两种推荐场景下均优于其他方法。

参考文献 | 相关文章 | 多维度评价

Select

8. 基于属性图模型的领域知识图谱构建方法

梁静茹, 鄂海红, 宋美娜

计算机科学 2022, 49 (2): 174-181. DOI: 10.11896/jsjkx.210500076

摘要（667）

PDF（pc）（3138KB）（1800）

随着大数据时代的到来,各个行业领域需要处理的数据之间的关系数量呈几何级数增长,亟需一种支持海量复杂数据关系表示能力的数据模型,即领域知识图谱。虽然领域知识图谱展现了巨大的潜力,但不难发现目前仍然缺乏成熟的构建技术和平台。如何快速构建出领域知识图谱是一个重要挑战。在对领域知识图谱进行系统的研究后,提出了一种基于属性图模型的领域知识图谱构建方法。该方法对于存储在多种原始业务数据库中的结构化、半结构化数据,通过约定图数据库的数据对接协议、多种图实体模式和关系模式配置方案等方式,完成对应的高质量完整的图谱模式构建;然后将原始数据库的实例数据经过抽取、转换后加载到属性图数据库HugeGraph中,完成领域知识图谱的构建。最终,通过对多个数据集进行实验,并使用Gremlin语句对知识图谱数据进行测试,验证了所提方法具有完整性和可靠性。

参考文献 | 相关文章 | 多维度评价

Select

9. 基于学术知识图谱的辅助创新技术研究

钟将, 尹红, 张剑

计算机科学 2022, 49 (5): 194-199. DOI: 10.11896/jsjkx.210400195

摘要（456）

PDF（pc）（2406KB）（864）

计算机领域知识快速更新且存在较多歧义,导致学生自主创新时难以找到合理的解决方案。作为辅助创新工具,智能问答系统可以协助学生更快地把握学科发展前沿,精准地找出解决问题的方法。在大规模科技文献库上构建科研知识图谱,实现了辅助学生创新的智能问答系统。为了减小查询问句中噪声实体带来的影响,提出一种基于辅助任务的意图信息增强神经网络(Auxiliary Task Enhanced Intent Information for Question Answering in Computer Domain,ATEI-QA)。相比传统方法,该方法能够更精确地提取问句意图信息,减小噪声实体给意图识别带来的影响。在计算机领域数据集和通用数据集上与3个主流模型开展了对比实验,结果表明所提模型在领域数据集上的MAP和MRR值平均提升了3.27%和1.72%,在通用数据集上的MAP和MRR值平均提升了4.37%和2.81%。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于自适应注意力机制的知识图谱补全算法

王杰, 李晓楠, 李冠宇

计算机科学 2022, 49 (7): 204-211. DOI: 10.11896/jsjkx.210400129

摘要（758）

PDF（pc）（3278KB）（1185）

现有的知识图谱补全模型通常将多源信息整合为实体和关系学习单一的静态特征表示,但无法表征不同上下文中出现的实体和关系的细差含义和动态属性,即实体和关系在涉及不同的三元组时可能有着不同的角色和含义,并因此表现出不同的属性。为此,提出了一种自适应注意力网络用于知识图谱补全,引入自适应注意力建模每个特征维度对特定任务的贡献程度,为目标实体和关系生成动态可变的嵌入表示。具体而言,所提模型通过定义邻居编码器和路径聚合器来处理实体邻域子图中的两种结构,自适应地调整邻居实体和关系路径的注意力得分,以捕获逻辑上与任务最相关的属性特征,为实体和关系赋予符合当前任务的细粒度语义。在链接预测任务中的实验结果表明,所提模型在FB15K-237数据集中的MeanRank指标比PathCon降低了6.9%,Hits@1比PathCon提高了2.3%;在稀疏数据集NELL-995和DDB14上,其Hits@1分别达到了87.9%和98%,证明了引入自适应注意力机制能够有效提取实体和关系的动态属性,为二者生成更全面的表示形式,从而提高知识图谱补全精度。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于知识图谱的层次粒化推荐方法

秦琪琦, 张月琴, 王润泽, 张泽华

计算机科学 2022, 49 (8): 64-69. DOI: 10.11896/jsjkx.210600111

摘要（680）

PDF（pc）（2724KB）（1166）

基于图神经网络的推荐系统是当前数据挖掘应用的研究热点。在异质信息网络(Heterogeneous Information Network,HIN)上结合图神经网络进行推荐,可通过用户的关联信息来学习用户的偏好,从而提升推荐性能。但现有基于HIN的推荐方法大多存在不能有效地解释高阶建模结果及人工设计元路径需要相关领域知识的问题。因此,结合层次粒化思想,在异质推荐过程中引入知识图谱,提出一种基于知识图谱的异质推荐方法(Heterogeneous Recommendation Methods for Knowledge Graphs,HKR)。该方法首先结合知识图谱,对局部上下文和非局部上下文进行层次粒化,分别学习用户特征的粗粒度表示;然后基于门控机制结合局部和非局部的属性节点嵌入,进一步学习用户和项目之间的潜在特征;最后将细粒度的特征融合用于推荐。在真实的大规模数据集上的实验结果表明,所提方法的性能在多方面评测上均优于目前的基于知识图谱的图神经网络推荐方法。

参考文献 | 相关文章 | 多维度评价

Select

12. 时序知识图谱表示学习

徐涌鑫, 赵俊峰, 王亚沙, 谢冰, 杨恺

计算机科学 2022, 49 (9): 162-171. DOI: 10.11896/jsjkx.220500204

摘要（2098）

PDF（pc）（1811KB）（3094）

知识图谱作为一种结构化的人类知识形式,对海量多源异构异质的数据语义互通起到了很好的支撑作用,并有效地支持了数据分析等任务,成为了近年来学术界和工业界的研究热点。目前大多数知识图谱都是根据非实时的静态数据构建,没有考虑实体和关系的时间特性。然而社交网络通信、金融贸易、疫情传播网络等应用场景的数据具有实时动态的特点以及复杂的时间特性,如何利用时序数据构建知识图谱并且对该知识图谱进行有效建模是一个具有挑战性的问题。目前,有许多研究工作利用时序数据中的时间信息丰富知识图谱的特征,赋予知识图谱动态特征,将事实三元组拓展为(头实体,关系,尾实体,时间)的四元组表示,使用时间相关四元组进行知识表示的知识图谱被统称为时序知识图谱。文中对时序知识图谱相关文献进行整理和分析,并对时序知识图谱表示学习的工作进行了全面综述。具体地,首先简单介绍了时序知识图谱的背景与定义;其次总结了时序知识图谱表示学习方法相比传统知识图谱表示学习方法的优点;然后从事实的建模方法角度详细阐述了时序知识图谱表示学习的主要方法,并且介绍了上述方法使用到的数据集;最后对该技术的主要挑战进行了总结,并对其未来研究方向进行了展望。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于Key-Value关联记忆网络的知识图谱问答方法

饶志双, 贾真, 张凡, 李天瑞

计算机科学 2022, 49 (9): 202-207. DOI: 10.11896/jsjkx.220300277

摘要（828）

PDF（pc）（2036KB）（1145）

基于知识图谱的问答(Question Answering over Knowledge Graph,KG-QA)系统通过对给定的自然语言问题进行语义解析,将问题映射到知识图谱〈主,谓,宾〉三元组,并对三元组进行推理得到问题的答案。由于自然语言具有多样性的特点,一个问题可能有多种表述,而三元组知识在知识图谱中却是规范的结构化数据,如何将自然语言问题映射到知识图谱三元组是KG-QA的难点。文中提出了一种新的Key-Value关联记忆网络,从知识图谱的角度出发,关注候选答案知识间的关联关系以及知识图谱中的知识与自然语言问题表征之间的关系。此外,在模型中引入了注意力机制,使其具有更好的可解释性。在WebQuestions数据集上进行实验,结果表明,所提方法的F1值比基于信息抽取的最优方法提高了5.9%,比基于语义分析的最优方法略有提高,验证了该方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

14. 融合知识图谱的多层次传承影响力计算与泛化研究

孔世明, 冯永, 张嘉云

计算机科学 2022, 49 (9): 221-227. DOI: 10.11896/jsjkx.210700144

摘要（678）

PDF（pc）（2252KB）（752）

影响力计算和分析在社交网络、网页重要度评估等领域有着广泛应用。对于有传承链和时间跨度因素的多层次影响力计算,目前尚缺乏较好且通用的解决办法。同时,传播影响力最大化计算是一个NP难题,近似算法求解准确度不高且计算复杂。针对上述问题,文中提出了融合知识图谱的多层次传承影响力与泛化算法,实现了传承影响力和传承关系的计算。该算法融合了知识图谱中的广度优先搜索层次计算模型,兼顾时间跨度限制计算传承影响力和传承链;为了优化计算效率,进一步使用深度优先搜索和不同层次加不同权重的策略,只计算前n层次的影响力;不仅能很好地计算传承影响力,还可以泛化成各种传播影响力计算模型。在此基础上,文中又提出了通过筛选传播影响力大的节点作为候选节点进行局部最优搜索的传播影响力最大化近似算法,该算法在运行速度和最大传播节点数上都取得了良好的效果。最后,通过多种仿真实验验证了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

15. 联合知识图谱和预训练模型的中文关键词抽取方法

姚奕, 杨帆

计算机科学 2022, 49 (10): 243-251. DOI: 10.11896/jsjkx.210800176

摘要（759）

PDF（pc）（2534KB）（1058）

关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法TF-IDF相比F1值提高了9.14%,与传统图方法TextRank相比F1值提高了4.82%。

参考文献 | 相关文章 | 多维度评价

Select

16. 一种专利知识图谱的构建方法

邓亮, 曹存根

计算机科学 2022, 49 (11): 185-196. DOI: 10.11896/jsjkx.211100063

摘要（1172）

PDF（pc）（3779KB）（1596）

专利知识图谱对专利精准检索、专利深度分析和专利知识培训等应用起到了重要作用。文中提出了一种实用的基于种子知识图谱、文本挖掘以及关系补全的专利知识图谱构建方法。在该方法中,为确保质量,首先人工建立一个种子专利知识图谱,然后采用专利文本模式的概念和关系抽取方法扩展种子专利知识图谱,最后对扩展的专利知识图谱进行定量评估。文中针对中医药领域专利进行了种子知识的人工提取和词法句法模式的人工总结,并使用机器学习的方法在学习到新的词法句法模式后对种子专利知识图谱进行扩展和图谱补全。实验结果表明,中医药领域专利种子知识图谱中的节点数和关系数分别为19 453个和194 775条,经过扩展后,它们分别达到了558 461个和7 275 958条,即分别增加了27.7倍和36.3倍。

参考文献 | 相关文章 | 多维度评价

Select

17. 基于先验知识图谱的多代理被遮挡目标类别推理模型

荣欢, 钱敏峰, 马廷淮, 孙圣杰

计算机科学 2023, 50 (1): 243-252. DOI: 10.11896/jsjkx.220700112

摘要（753）

PDF（pc）（6559KB）（763）

目标检测(Object Detection)是计算机视觉中最为热门的方向之一,在军事、医疗等重要领域都有广泛运用。然而,大多数目标检测模型都只能对可见物体进行识别,日常生活中的图片往往存在被遮挡(不可见)的目标物体,现有目标检测模型对图片中的被遮挡目标难以表现出较理想的检测性能。为此,文中提出了一种基于图库先验知识图谱的多代理协作式图片被遮挡目标类别推理模型(IMG-KGR-MAC)。具体而言,1)IMG-KGR-MAC根据给定图库中所有图片的可见目标及其之间的位置关系构建全局先验知识图谱;同时,根据图片自身所含目标及其位置关系,为各图片分别建立图片知识图谱;各图片内被遮挡目标的信息均不计入全局先验知识图谱和图片自身知识图谱;2)采用DDPG(Deep Deterministic Policy Gradient)深度强化学习思想,构建两个相互协作的代理;代理1根据当前图片语义信息从全局先验知识图谱挑选出与被遮挡目标最为适配的“类别标签”,将其作为新实体节点加入到给定图片自身的知识图谱中;代理2根据代理1新加入的实体,从全局先验知识图谱中进一步挑选〈实体,关系〉,扩展与新实体节点相关联的图谱结构;3)代理1与代理2通过共享任务环境和在奖励值上建立通信,相互协作地按“图片被遮挡目标(实体)→关联图谱结构”以及“关联图谱结构→图片被遮挡目标(实体)”原理,开展正向与反向推理,从而有效估计出给定图片被遮挡目标最为可能的类别标签。实验结果表明,与现有相关方法相比,所提出的IMG-KGR-MAC模型可以学习到给定图片被遮挡目标与全局先验知识图谱之间的语义关系,有效克服了现有模型对被遮挡目标难以检测的弊端,对于被遮挡目标有良好的推理能力,在MR(Mean Rank)以及mAP(Mean Average Precision)等多项指标上都有超过20%的提升。

参考文献 | 相关文章 | 多维度评价

Select

18. 知识图谱赋能的知识工程:理论、技术与系统专题序言

王鑫, 汤庸, 王昊奋, 李博涵, Jianxin LI

计算机科学 2023, 50 (3): 1-2. DOI: 10.11896/jsjkx.qy20230301

摘要（675）

PDF（pc）（1202KB）（858）

相关文章 | 多维度评价

Select

19. 基于动态记忆和双层重构强化的知识图谱至文本转译模型

马廷淮, 孙圣杰, 荣欢, 钱敏峰

计算机科学 2023, 50 (3): 12-22. DOI: 10.11896/jsjkx.220700111

摘要（983）

PDF（pc）（4618KB）（971）

知识图谱转译文本(Graph-to-Text)是知识图谱领域中一个新的任务,旨在将知识图谱转化为描述该知识的可读性文本。随着近年来研究的不断深入,知识图谱转译文本的生成技术已经被应用于商品评论生成、推荐解释生成、论文摘要生成等领域。现有方法中的转译模型均采用先规划后实现的方式,未能根据已生成文本动态调整规划且未按静态内容规划对知识进行跟踪,导致文本前后语义不连贯。为了提高生成文本语义的连贯性,文中提出了基于动态记忆和双层重构强化的知识图谱至文本转译模型,通过静态内容规划、动态内容规划和双层重构机制这3个阶段,弥补了知识图谱与文本之间的结构化差异,在生成文本的同时侧重关注各三元组中的重要内容。与现有的生成模型相比,该模型不仅能缓解知识图谱与文本之间的结构化差异,还提高了定位关键实体的能力,从而使生成的文本具有更强的事实一致性和语义连贯性。在WebNLG数据集上进行了广泛实验,结果表明,在知识图谱转译文本的任务上,所提模型与现有模型相比,内容规划更加准确,生成文本语句间的逻辑合理且关联性更强,在BLEU,METEOR,ROUGE,CHRF++等指标上优于现有模型。

参考文献 | 相关文章 | 多维度评价

Select

20. 基于关系约束的上下文感知时态知识图谱补全

汪璟玢, 赖晓连, 林新宇, 杨心逸

计算机科学 2023, 50 (3): 23-33. DOI: 10.11896/jsjkx.220400255

摘要（770）

PDF（pc）（3229KB）（974）

现有的时间知识图谱补全模型仅考虑四元组自身的结构信息,忽略了实体隐含的邻居信息和关系对实体的约束,导致模型在时态知识图谱补全任务上表现不佳。此外,一些数据集在时间上呈现不均衡的分布,导致模型训练难以达到一个较好的平衡点。针对这些问题,提出了一个基于关系约束的上下文感知模型(CARC)。CARC通过自适应时间粒度聚合模块来解决数据集在时间上分布不均衡的问题,并使用邻居聚合器将上下文信息集成到实体嵌入中,以增强实体的嵌入表示。此外,设计了四元组关系约束模块,使具有相同关系约束的实体嵌入彼此相近,不同关系约束的实体嵌入彼此远离,以进一步增强实体的嵌入表示。在多个公开的时间数据集上进行了大量实验,实验结果证明了所提模型的优越性。

参考文献 | 相关文章 | 多维度评价

Select

21. 一种静态分析与知识图谱结合的Java冗余代码检测方法

刘昕炜, 陶传奇

计算机科学 2023, 50 (3): 65-71. DOI: 10.11896/jsjkx.220700240

摘要（528）

PDF（pc）（1429KB）（775）

冗余代码普遍存在于商业和开源软件中,它的存在可能会增加内存占用,影响代码可维护性,增加维护成本。快速类型分析算法是当前Java冗余代码检测中常用的静态分析方法,该算法在虚方法分析方面还存在一些不足。XTA是一种调用图构造算法,在处理虚方法的调用方面具有较高的精度和效率。文中提出了一种基于XTA调用图构建算法的方法来检测Java代码中的冗余代码,在一个名为“RCD”(Redundant Code Detection)的工具原型中实现了这种方法,并通过构建知识图谱辅助人工审查,以提高人工审查的效率以及冗余代码检测的可信度。通过在4个开源Java应用程序上的实验对RCD与其他3个冗余代码检测工具进行了比较。实验结果表明,RCD在检测冗余代码的准确性方面相比其他工具提高了1%~30%,同时在检测冗余虚方法的完整性方面提升了4%左右。

参考文献 | 相关文章 | 多维度评价

Select

22. 细粒度语义知识图谱增强的中文OOV词嵌入学习

陈姝睿, 梁子然, 饶洋辉

计算机科学 2023, 50 (3): 72-82. DOI: 10.11896/jsjkx.220700249

摘要（695）

PDF（pc）（2405KB）（1038）

随着信息化领域的范围不断扩大,许多特定领域的文本语料开始涌现。这些特定领域,如医疗、通信等,由于受到安全性和敏感性的影响,其数据规模通常较小,传统的词嵌入学习模型难以获得有效的结果。另一方面,直接应用现有的预训练语言模型时会出现较多未登录词,这些词汇无法表示成向量,从而影响下游任务的性能表现。许多学者开始研究如何利用细粒度语义信息来得到较高质量的未登录词向量表示。然而,当前的未登录词嵌入学习模型大多针对英文语料,对中文词的细粒度语义信息只能进行简单的拼接或映射,难以在中文未登录词嵌入学习任务中得到有效的向量表示。针对上述问题,首先通过中文构字规则,即中文词所包含的汉字、汉字所包含的部件和拼音等,构建细粒度的知识图谱,使其不仅能涵盖汉字和单词之间的关联关系,还能对拼音和汉字、组件和汉字等细粒度语义信息之间的多元且复杂的关联关系进行表征。然后,在知识图谱上运行图卷积算法,从而对中文词的细粒度语义信息之间以及它们与词语义之间更深层次的关系进行建模。此外,文中通过在子图结构上构建图读出来进一步挖掘细粒度语义信息与词语义信息之间的组成关系,据此提升模型在未登录词嵌入推断中的精准度。实验结果表明,在面对未登录词占比较大的特定语料上的词配对、词相似任务,以及文本分类、命名实体识别等下游任务时,所提模型都取得了更好的性能。

参考文献 | 相关文章 | 多维度评价

Select

23. 医学知识图谱研究与应用综述

蒋川宇, 韩翔宇, 杨文蕊, 吕博涵, 黄小欧, 谢夏, 谷阳

计算机科学 2023, 50 (3): 83-93. DOI: 10.11896/jsjkx.220700241

摘要（1411）

PDF（pc）（2148KB）（1610）

医学数据数字化推进过程中,如何选择合适的技术来对医学数据进行高效处理和准确分析,是当今医学领域普遍面临的问题。利用具有优秀联想与推理能力的知识图谱技术来对医学数据进行处理与分析,能更好地实现智慧医疗、辅助诊断等应用。医学知识图谱的完整构建过程包括知识抽取、知识融合和知识推理。其中知识抽取可细分为实体抽取、关系抽取和属性抽取,知识融合则主要包括实体对齐和实体消歧。首先,对现今医学知识图谱的构建技术和实际应用进行归纳整理,针对每一具体构建过程阐明技术发展脉络。在此基础上,对相关技术进行介绍并说明其优点和局限性。其次,介绍几个已成熟运用的医学知识图谱。最后,根据知识图谱在医学领域的技术与应用现状,给出未来知识图谱可进行的技术兼应用性的研究方向。

参考文献 | 相关文章 | 多维度评价

Select

24. 基于表示学习的知识图谱推理研究综述

李志飞, 赵月, 张龑

计算机科学 2023, 50 (3): 94-113. DOI: 10.11896/jsjkx.220900136

摘要（1067）

PDF（pc）（4422KB）（1169）

知识图谱以结构化形式描述了现实世界中的客观知识,但面临着构建不完整或者无法处理新增知识等挑战。知识图谱推理方法成为了知识图谱补全和更新的重要手段,该方法旨在基于图谱中已有的事实推断出未知的事实。近年来,基于表示学习的知识图谱推理研究受到了广泛关注,其主要研究思路是将实体和关系嵌入到低维连续向量空间从而进行推理,具有计算效率快、推理性能高等优势。文中以基于表示学习的知识图谱推理方法为研究对象,首先对相关的符号表示、数据集、评价指标、训练方法以及评测任务进行了简要概述;其次介绍了基于平移距离和语义匹配的两种典型知识图谱推理方法;然后对融合多源信息的推理方法进行了分类和梳理,以及详细分析了近期流行的基于神经网络的推理研究进展;最后总结全文,同时对知识图谱推理的未来研究方向进行展望。

参考文献 | 相关文章 | 多维度评价

Select

25. 知识图谱嵌入模型中的损失函数研究综述

申秋慧, 张宏军, 徐有为, 王航, 程恺

计算机科学 2023, 50 (4): 149-158. DOI: 10.11896/jsjkx.211200175

摘要（1059）

PDF（pc）（2702KB）（1631）

表达方式丰富直观的知识图谱得到了大量学者的关注。在知识图谱嵌入方面已积累了大量研究,其成果在电商、金融、医药、交通、智能问答等领域发挥了重要的作用。其中,损失函数在知识图谱嵌入模型的训练阶段起到了非常关键的作用。在现有知识图谱嵌入研究的基础上,根据基础损失函数把模型中使用的损失函数梳理为合页损失、逻辑回归损失、交叉熵损失、对数似然损失、负采样损失和均方误差损失六大类,并逐类详细分析了损失函数的原型公式、物理含义和其在知识图谱嵌入模型中的扩展、演变及应用。在此基础上,对静态和动态两大知识图谱场景中各种损失函数的使用情况、效率和收敛性进行了综合分析评价;根据分析结果,结合知识图谱的发展应用趋势和损失函数现状,对损失函数的未来研究方向进行了探讨。

参考文献 | 相关文章 | 多维度评价

Select

26. 混合曲率空间用于多关系异构知识图谱链接补全

栗书敬, 黄增峰

计算机科学 2023, 50 (4): 172-180. DOI: 10.11896/jsjkx.220500135

摘要（557）

PDF（pc）（2479KB）（641）

知识图谱方法与技术在人工智能领域有较高价值,其面临的一大难题是现有的知识图谱数据集中存在大量边缺失的现象,知识图谱表示学习为解决这一问题提供了解决方案。表示学习的质量取决于嵌入空间的几何形状与数据结构的匹配程度。欧氏空间一直是知识图谱表示学习的主力,而双曲和球面空间因其能够更好地嵌入新类型的结构数据而逐渐受到关注。但大多数数据的异质度较高,单一空间建模可能会导致信息失真较大。为了解决这个问题,受MuRP模型的启发,提出了用混合曲率空间来提供适合各种异质结构数据的表示,用欧氏、双曲和球面空间的笛卡尔积来构造混合空间;设计了混合空间的图注意力机制来获取关系的重要性。在知识图谱3个基准数据集上的实验结果表明,所提模型可以有效缓解异质结构嵌入常曲率低维空间导致的问题。将所提方法应用于推荐系统的冷启动问题上,相应指标均有一定程度的提高。

参考文献 | 相关文章 | 多维度评价

Select

27. 基于智能映射推荐的知识图谱实例构建与演化方法

张雅晴, 单中原, 赵俊峰, 王亚沙

计算机科学 2023, 50 (6): 142-150. DOI: 10.11896/jsjkx.230300071

摘要（381）

PDF（pc）（2496KB）（649）

随着大数据技术的深入发展,各领域产生了海量异构数据,构建知识图谱是实现异构数据语义互通的重要手段。通过将结构化数据与本体模型映射匹配来生成实例模型是图谱实例层构建常用的方法。然而,对于复杂异构的领域数据来说,现有映射式实例构建方法大多需要用户手动完成全部映射匹配,映射操作繁琐,无法进行智能匹配,费时费力且容易出错。除此之外,现有方法对实例导入后的增量更新也支持不足。针对现有模式匹配和实例构建方法的映射操作繁琐的问题,提出了基于智能映射推荐的实例构建与演化方法。其中,智能映射复用推荐机制,在用户手动映射之前进行数据模式匹配计算,对元素级相似度、表级相似度和表间传播相似度进行多级相似度综合计算,根据数据模式匹配度仲裁排序后生成推荐映射。另外,增量发现机制通过自动发现冗余实例和冲突实例,生成系统后台任务进行处理,可实现实例的高效无重复导入。在山东市政府开放数据集和深圳市医疗急救数据集上进行了实验,在映射复用推荐模块的辅助下,交互时间缩短为传统模式的约26%,字段推荐匹配准确率达到98.1%;在增量发现模块的实验中,导入了1 394万个实例节点以及2 158万条关系边所需的时间由31.21 h缩短至2.23 h,验证了智能映射复用推荐的可用性和匹配准确率,提高了实例层构建与演化的效率。

参考文献 | 相关文章 | 多维度评价