计算机科学 ›› 2008, Vol. 35 ›› Issue (3): 91-93.
• • 上一篇 下一篇
出版日期:
发布日期:
基金资助:
Online:
Published:
摘要: 在目前的web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单,易于实现,对网页结构的依赖性小。
关键词: 信息提取 属性向量 Wrapper 显示属性
Abstract: In the research of Web information extraction, most of the existing algorithms are based on HTML struc-ture. As the structure of HTML files changes frequently, wrapper must be updated accordingly. But the update of wrapper needs a lot of domain knowledge.
Key words: Web information extraction,Attribute vector,Wrapper,Display attributes
. 一种基于分类算法的网页信息提取方法[J]. 计算机科学, 2008, 35(3): 91-93. https://doi.org/
0 / / 推荐
导出引用管理器 EndNote|Reference Manager|ProCite|BibTeX|RefWorks
链接本文: https://www.jsjkx.com/CN/
https://www.jsjkx.com/CN/Y2008/V35/I3/91
Cited