计算机科学 ›› 2014, Vol. 41 ›› Issue (Z11): 307-312.
王树西,夏增艳
WANG Shu-xi and XIA Zeng-yan
摘要: 综述了网页分类的国内外研究现状,分析了网页分类的核心技术,包括思想、算法、公式、评测标准。为了打击非法网络传销,必须对传销网页进行准确识别与分类。根据网页中“最大内容段”的长度,计算出这个网页为“信息网页”的概率,通过严格的数学公式推导得到数学模型。本数学模型已经得到应用,“网络传销国家监控中心”用这个模型有效地对网络传销网页集合进行了分类。
[1] Qi Xiao-guang,Davison B D.Web Page Classification:Features and AtgorithmsI[J].ACM Computing Surveys(CSUR),2009,41(2):12-42 [2] Shen D,Yang Q,Chen Z.Noise Reduction Through Summarization for Web Page cIassificalion[J].Information Processing & Management,2007,43(6):1735-1747 [3] Broughton V.A faceted classification as the basis of a faceted terminology:Conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification (2nd Ed.)[J].Axiomathes,2008,18(2):193-210 [4] Mozafari B,Zaniolo C.Publishing naive bayesian classifiers:Privacy without accuracy loss[C]∥Proc of the VLDB Endowment.New York:ACM,2009:1173-1185 [5] Fiol-Roig G,Mir6-Julia M,Herraiz E.Data mining techniquesfor Web page classification[J].Highlights in Practical Applications of Agents and Muhiagent Systems,2011,89:61-68 [6] Baykan E,Henzinger M,Marian L,et al.A comprehensive study of features and algorithms for URL-based topic classification[J].ACM Transactions on the Web(TWEB),2011,5(3):15 [7] Sriurai W,Meesad P,Haruechmyasak C.Improving Web page classification by integrating neighboring pages via a topic model[C]∥Proceedings of IICS2010.2010:238-246 [8] 李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001(9) [9] 侯翠琴,焦李成.基于图的Co-Training网页分类[J].电子学报,2009(10) [10] 鲁明羽,沈抖,郭崇慧,等.面向网页分类的网页摘要方法[J].电子学报,2006(8) [11] 郑德权,张迪,赵铁军,等.Blog网页分类与识别技术研究[J].通信学报,2007(12) [12] 孙建涛,沈抖,陆玉昌,等.网页分类技术[J].清华大学学报:自然科学版,2004(1) [13] 彭涛,左万利,赫枫龄,等.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006(3) [14] 李宇峰,黄圣君,周志华.一种基于正则化的半监督多标记学习方法[J].计算机研究与发展,2012(6) [15] 赵志滨,贾岩峰,姚兰,等.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013(1) [16] 单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003(22) [17] 张茂元,邹春燕,卢正鼎.一种基于变调整学习规则的模糊网页分类方法研究[J].计算机研究与发展,2007(1) [18] 殷贤亮,李猛.基于分块的网页主题信息自动提取算法[J].华中科技大学学报:自然科学版,2007(10) [19] 汤亚玲,崔志明.行为特征分析模式下的网页分类技术研究[J].计算机工程,2012(20) [20] 彭小刚,明仲,王海涛,等.基于wordNet的类别可拓展网页分类系统[J].深圳大学学报:理工版,2009(2) [21] 王振宇,唐远华,郭力.面向分层结构的网页分类与抓取[J].计算机工程与科学,2012(11) [22] 张婕,山岚.CBC算法在网页分类中的应用研究[J].北京化工大学学报:自然科学版,2013(1) [23] 左敬龙,余桂兰.具有量子特性的ACA-SVM网页分类方法[J].计算机工程与应用,2011(12) [24] 张青.移动互联网场景中客户特征分类技术研究[J].电信科学,2014(1) [25] 傅向华,刘国,陈冬剑.一种核心子集选择训练的大规模中文网页分类方法[J].小型微型计算机系统,2011(8) [26] 宋军涛,周铜,杜庆灵.支持向量机和蚁群算法的网页分类研究[J].计算机工程与应用,2009(17) [27] 陈沧.基于大规模类别体系的网页分类及在商品分类中的应用研究[D].扬州:扬州大学,2010 [28] 孙聪凯.语义模型、近似推理算法及其在网页分类的应用[D].上海:上海交通大学,2009 [29] 余桂兰,陈珂,左敬龙.基于云模型的并行蚁群-SVM分类方法[J].计算机技术与发展,2014(4) [30] 秦兵,郑实福,刘挺,等.可分性判据在中文网页分类中的应用[J].微处理机,2002(1) [31] 王天江,孔华武.一种基于定性推理的网页分类方法[J].计算机工程与应用,2007(9) [32] 阎红灿,李敏强,任蕴丽,等.结构和内容联合提取的XML网页分类研究[J].天津大学学报:社会科学版,2009(3) |
No related articles found! |
|