计算机科学 ›› 2007, Vol. 34 ›› Issue (10): 133-136.
任仲晟 薛永生
REN Zhong-Sheng ,XUE Yong-Sheng (Department of Computer Science, Xiamen University, Xiamen 361005)
摘要: 本文研究了从dataintensive类型的web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim-HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项。实验表明,该算法是有效的。
No related articles found! |
|