摘要: 语义标注是实现语义网的一个重要研究内容,目前已有很多标注方法取得了不错的效果。但这些方法几乎都没有注意到本体所描述的知识往往稀疏地分布在文档中,也未能有效地利用文档的组织结构信息,使得这些方法对质量较差的文档的标注不理想。为此提出了一种基于稀疏编码的本体语义自动标注方法((Semantic Annotation Method based on Sparse Coding, SAMSC),该方法先按本体知识描述从文档中识别出一定的语义作为初始值,再通过迭代解析文档段落结构和描述主题,完成本体知识与文档资源的相关系数矩阵计算,最后在全局文档空间中通过最小化损失函数来实现用本体对文档的语义标注。实验表明,该方法能有效地对互联网中大量良芬不齐的文档进行自动语义标注,对质量差的文档资源能取得让人接受的结果。
陈叶旺,李海波,余金山,陈维斌. 一种基于稀疏编码的语义标注方法[J]. 计算机科学, 2011, 38(9): 150-154. https://doi.org/
CHEN Ye-wang, LI Hai-bo, YU Jin-shan, CHEN Wei-bin. Semantic Annotation Method Based on Sparse Coding[J]. Computer Science, 2011, 38(9): 150-154. https://doi.org/