齐飞,王宁,张丽方,孙伟娟.基于列重合度的网络表格一致性扩展[J].计算机科学,2017,44(9):208-215
基于列重合度的网络表格一致性扩展
Consistent Web Table Augmentation Based on Column Overlapping
投稿时间:2016-08-11  修订日期:2016-12-28
DOI:10.11896/j.issn.1002-137X.2017.09.039
中文关键词:  网络表格扩展,列重合度,列映射,一致性支持度
英文关键词:Web table augmentation,Overlapping degree of columns,Column mapping,Consistent support degree
基金项目:本文受国家自然科学基金面上项目(61370060)资助
作者单位
齐飞 北京交通大学计算机与信息技术学院 北京100044 
王宁 北京交通大学计算机与信息技术学院 北京100044 
张丽方 北京交通大学计算机与信息技术学院 北京100044 
孙伟娟 北京交通大学计算机与信息技术学院 北京100044 
摘要点击次数: 77
全文下载次数: 60
中文摘要:
      网络表格的扩展是根据已知信息扩展与主列相关的其他属性列,以满足人们通过表格获取感兴趣信息的需求。目前的研究工作主要针对由主列和待扩展列组成的实体-属性二元表,并将主列视为其他属性列扩展的唯一依据,但该技术运用到具有多个待扩展列的网络表格时,由多个二元表拼接而成的结果表很容易出现实体不一致现象。综合考虑各属性列间以及元组行间的关系,提出一致性支持度概念,设计并实现了基于列重合度的表格一致性扩展系统CCA,其既能保证候选值的高匹配分数,又能使结果表中填值所使用的数据源表数目最小化,有效地避免了实体不一致问题。实验表明,与现有方法相比CCA系统有更高的精确度、覆盖率、一致性,以及更低的查询时间代价。
英文摘要:
      Web table augmentation refers to extend table content based on main column or other known information,which helps people to obtain information they are interested in.Current research focuses on entity-attribute binary table made of main column and extended column,where the primary column is the only basis.When it is applied to a table with multiple columns to be extended,the result table consolidated by binary tables will suffer from entity inconsistency problem.We proposed consistency support degree based on relationships between columns as well as between tuples in the table,and implemented the CCA system for table consistency augmentation based on column overlapping.Our methodkeeps the high matching score of candidate values using as few source tables as possible to avoid entity inconsistency.Experimental results show that the proposed CCA system has higher accuracy,coverage,consistency and lower query time cost compared with existing methods.
查看全文  查看/发表评论  下载PDF阅读器