计算机科学 ›› 2014, Vol. 41 ›› Issue (Z11): 307-312.

• 数据挖掘 • 上一篇    下一篇

一种区分索引与信息的网页分类数学模型及证明

王树西,夏增艳   

  1. 对外经济贸易大学信息学院 北京100029;北京邮电大学民族教育学院 北京102209
  • 出版日期:2018-11-14 发布日期:2018-11-14
  • 基金资助:
    本文受对外经济贸易大学“信息学院基金”(13YBLG02,X12511)资助

Classification Mathematical Model and Proof to Distinguish Index and Information Web Page

WANG Shu-xi and XIA Zeng-yan   

  • Online:2018-11-14 Published:2018-11-14

摘要: 综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中“最大内容段”的长度,计算出这个网页为“信息网页”的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,“网络传销国家监控中心”用这个模型有效地对网络传销网页集合进行了分类。

关键词: 网页分类,索引页面,信息页面,网络传销,网络传销国家监控中心

Abstract: This paper surveyed domestic and international research of Web page classification,analyzed core technologies of Web page classification,including ideas,algorithms,formulas and evaluation criteria.In order to attack Internet Pyramid Selling,it is necessary to accurately identify and classify Internet Pyramid Selling Web pages.According to “maximum content length” of Web page,its “information page” probability is calculated.Web page classification mathematical model is deduced through strict formulas.Above mathematical model has been applied,and “National MLM Monitor Center” effectively classifies Internet Pyramid Selling Web pages using above model.

Key words: Web page classification,Indexed page information page,Internet pyramid selling,National MLM monitor center

[1] Qi Xiao-guang,Davison B D.Web Page Classification:Features and AtgorithmsI[J].ACM Computing Surveys(CSUR),2009,41(2):12-42
[2] Shen D,Yang Q,Chen Z.Noise Reduction Through Summarization for Web Page cIassificalion[J].Information Processing & Management,2007,43(6):1735-1747
[3] Broughton V.A faceted classification as the basis of a faceted terminology:Conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification (2nd Ed.)[J].Axiomathes,2008,18(2):193-210
[4] Mozafari B,Zaniolo C.Publishing naive bayesian classifiers:Privacy without accuracy loss[C]∥Proc of the VLDB Endowment.New York:ACM,2009:1173-1185
[5] Fiol-Roig G,Mir6-Julia M,Herraiz E.Data mining techniquesfor Web page classification[J].Highlights in Practical Applications of Agents and Muhiagent Systems,2011,89:61-68
[6] Baykan E,Henzinger M,Marian L,et al.A comprehensive study of features and algorithms for URL-based topic classification[J].ACM Transactions on the Web(TWEB),2011,5(3):15
[7] Sriurai W,Meesad P,Haruechmyasak C.Improving Web page classification by integrating neighboring pages via a topic model[C]∥Proceedings of IICS2010.2010:238-246
[8] 李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001(9)
[9] 侯翠琴,焦李成.基于图的Co-Training网页分类[J].电子学报,2009(10)
[10] 鲁明羽,沈抖,郭崇慧,等.面向网页分类的网页摘要方法[J].电子学报,2006(8)
[11] 郑德权,张迪,赵铁军,等.Blog网页分类与识别技术研究[J].通信学报,2007(12)
[12] 孙建涛,沈抖,陆玉昌,等.网页分类技术[J].清华大学学报:自然科学版,2004(1)
[13] 彭涛,左万利,赫枫龄,等.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006(3)
[14] 李宇峰,黄圣君,周志华.一种基于正则化的半监督多标记学习方法[J].计算机研究与发展,2012(6)
[15] 赵志滨,贾岩峰,姚兰,等.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013(1)
[16] 单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003(22)
[17] 张茂元,邹春燕,卢正鼎.一种基于变调整学习规则的模糊网页分类方法研究[J].计算机研究与发展,2007(1)
[18] 殷贤亮,李猛.基于分块的网页主题信息自动提取算法[J].华中科技大学学报:自然科学版,2007(10)
[19] 汤亚玲,崔志明.行为特征分析模式下的网页分类技术研究[J].计算机工程,2012(20)
[20] 彭小刚,明仲,王海涛,等.基于wordNet的类别可拓展网页分类系统[J].深圳大学学报:理工版,2009(2)
[21] 王振宇,唐远华,郭力.面向分层结构的网页分类与抓取[J].计算机工程与科学,2012(11)
[22] 张婕,山岚.CBC算法在网页分类中的应用研究[J].北京化工大学学报:自然科学版,2013(1)
[23] 左敬龙,余桂兰.具有量子特性的ACA-SVM网页分类方法[J].计算机工程与应用,2011(12)
[24] 张青.移动互联网场景中客户特征分类技术研究[J].电信科学,2014(1)
[25] 傅向华,刘国,陈冬剑.一种核心子集选择训练的大规模中文网页分类方法[J].小型微型计算机系统,2011(8)
[26] 宋军涛,周铜,杜庆灵.支持向量机和蚁群算法的网页分类研究[J].计算机工程与应用,2009(17)
[27] 陈沧.基于大规模类别体系的网页分类及在商品分类中的应用研究[D].扬州:扬州大学,2010
[28] 孙聪凯.语义模型、近似推理算法及其在网页分类的应用[D].上海:上海交通大学,2009
[29] 余桂兰,陈珂,左敬龙.基于云模型的并行蚁群-SVM分类方法[J].计算机技术与发展,2014(4)
[30] 秦兵,郑实福,刘挺,等.可分性判据在中文网页分类中的应用[J].微处理机,2002(1)
[31] 王天江,孔华武.一种基于定性推理的网页分类方法[J].计算机工程与应用,2007(9)
[32] 阎红灿,李敏强,任蕴丽,等.结构和内容联合提取的XML网页分类研究[J].天津大学学报:社会科学版,2009(3)

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!