计算机科学 ›› 2008, Vol. 35 ›› Issue (10): 162-164.

• • 上一篇    下一篇

一种基于词编码的中文文档格式

  

  • 出版日期:2018-11-16 发布日期:2018-11-16

  • Online:2018-11-16 Published:2018-11-16

摘要: 分析了汉语自动分词问题产生的根源和面临的困难,针对性地提出了一种基于词的中文编码方法和中文文档新格式,实现了以词作为中文文本的最小信息载体,使中文文本分析可以在词平台上实现,避免了自动分词对中文信息处理带来的障碍。基于中文词的编码方法,以每个词作为一个单位,对词进行编码。此方法避开了中文的自动分词问题,特别是解决了歧义切分的难题,并提出了一种利用文档格式解决未登录词问题的新思路。采用统计分析方法对词平台基础上的关键词自动抽取进行了实验研究,取得良好效果。

关键词: 中文信息处理 词典码 文档格式 自动分词

Abstract: The key reasons why Chinese word automatic segmentation arises and the difficulties in the process were analyzed. This paper presented a novel Chinese text encoding method and a new format. In this format,words become the smallest information unit of the

Key words: Chinese information processing,Word coding, Text format, Automatic segmentation

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!