计算机科学 ›› 2018, Vol. 45 ›› Issue (11A): 445-452.

• 大数据与数据挖掘 • 上一篇    下一篇

利用粒计算的符号型数据分组算法

杨烽   

  1. 西南石油大学计算机科学学院 成都610500
  • 出版日期:2019-02-26 发布日期:2019-02-26
  • 作者简介:杨 烽 男,硕士生,主要研究领域为粒计算、推荐系统等。

Symbolic Value Partition Algorithm Using Granular Computing

YANG Feng   

  1. School of Computer Science,Southwest Petroleum University,Chengdu 610500,China
  • Online:2019-02-26 Published:2019-02-26

摘要: 在数据挖掘领域,基于符号型数据分组的数据预处理是一个极富挑战性的问题,它给人们提供了一种更加简化的数据表现形式。在已往的研究中,相关学者提出了许多解决方案,例如,运用粗糙集的方法来解决这一问题。文中提出了一种基于粒计算的符号型数据分组算法,主要分为粒度生成和粒度选择两个阶段。在粒度生成阶段,对于每一条属性,以对应属性值的聚类为叶子节点,自底向上以二进制树的形式构建粒层,形成属性树森林。在粒度选择阶段,以信息增益为基础,对每棵树进行全局考虑,选取最优的粒层,选层结果就是符号型数据的分组结果。实验结果表明,本算法呈现出比已有算法更加平衡的层次结构和更加优秀的压缩效率,具有较好的应用价值。

关键词: 粒计算, 信息增益, 符号型, 数据分组

Abstract: In the field of data mining,data preprocessing based on symbolic data packets is a very challenging issue.It provides people with a more simplified representation of data.In the past research,researchers proposed many solutions,such as using rough set approach to solve this problem.In this paper,a symbolic data grouping algorithm based on grain computing was proposed,which is divided into two stages:granularity generation and granularity selection.At the stage of particle size generation,for each attribute,the tree is constructed from the bottom of the leaf with the cluster of corresponding attribute values as a binary tree,forming a forest of attribute trees.In the stage of granularity selection,each tree is globally considered on the basis of information gain,and the optimal grain layer is selected.The result of layer selection is the grouping result of symbolic data.Experimental results show that compared with the existing algorithms,this algorithm presents a more balanced hierarchy and more excellent compression efficiency,and has better application value.

Key words: Granular computing, Information gain, Symbol, Value partition

中图分类号: 

  • TP311
[1]王齐,钱宇华,李飞江.基于空间结构的符号数据仿射传播算法[J].模式识别与人工智能,2016,29(12):1132-1139.
[2]党红恩,赵尔平,刘炜,等.利用数据变换与并行运算的闭频繁项集挖掘方法[J].湘潭大学自然科学学报,2018,40(1):119-122.
[3]BAZAN J G,NGUYEN H S,NGUYEN S H,et al.Rough Set Algorithms in Classification Problem[C]∥Rough set methods and applications.Physica-Verlag GmbH,2000:49-88.
[4]MIN F,LIU Q,FANG C.Rough sets approach to symbolic value partition[J].International Journal of Approximate Reaso-ning,2008,49(3):689-700.
[5]沈思倩,毛宇光,江冠儒.不完全数据集的差分隐私保护决策树研究[J].计算机科学,2017,44(6):139-143.
[6]HOSSAIN M M,HABIB A,RAHMAN M S.Transliteration Based Bengali Text Compression using Huffman principle[C]∥International Conference on Informatics,Electronics & Vision.IEEE,2014:1-6.
[7]朱淑芹,李俊青,葛广英.基于一个新的四维离散混沌映射的图像加密新算法[J].计算机科学,2017,44(1):188-193.
[8]孙艳歌,王志海,原继东,等.基于信息熵的数据流自适应集成分类算法[J].中国科学技术大学学报,2017,47(7):575-582.
[9]XU Y,CHEN B Z,HU Z C.Research for multi-sensor data fusion based on Huffman tree clustering algorithm in greenhouses[J].International Journal of Embedded Systems,2016,8(1):34.
[10]曹鹏,栗伟,赵大哲.面向不均衡数据集的ARSGOS算法[J].小型微型计算机系统,2014,35(4):818-823.
[11]FALANDYSZ J.Review:On published data and methods for selenium in mushrooms[J].Food Chemistry,2013,138(1):242-250.
[12]YANG L,LUO P,CHEN C L,et al.A large-scale car dataset for fine-grained categorization and verification[C]∥Computer Vision and Pattern Recognition.IEEE,2015:3973-3981.
[13]SHASHA D.Open Field Tic-Tac-Toe[J].Communications of the Acm,2017,60(1):112.
[14]JONAS A.DieGSVP-Agenturen als Forschungsobjekt[M]∥Das Governance-System der GSVP:Die Rolle des EU-Satellitenzentrums und der Europischen Verteidigungsagentur.Nomos Verlagsgesellschaft mbH & Co.KG,2015:133-177.
[15]赵继军,郭昆,冯楠,等.基于RSVP—TE的有向泛洪IRWA算法研究[J].光通信研究,2013(5):8-11.
[1] 延安, 闫心怡, 陈泽华. 一致决策信息系统规则提取的形式向量方法[J]. 计算机科学, 2019, 46(10): 236-241.
[2] 陈丽芳, 代琪, 付其峰. 基于粒计算的极限学习机模型设计与应用[J]. 计算机科学, 2018, 45(10): 59-63.
[3] 李虹利, 蒙祖强. 运用信息增益和不一致度进行填补的属性约简算法[J]. 计算机科学, 2018, 45(10): 217-224.
[4] 尚奥,裴晓鹏,吕迎春,陈泽华. 基于等价关系的完全确定时序逻辑电路状态化简算法[J]. 计算机科学, 2018, 45(1): 118-121.
[5] 叶晓庆,刘盾,梁德翠. 基于协同过滤的三支粒推荐算法研究[J]. 计算机科学, 2018, 45(1): 90-96.
[6] 吴珺,王春枝. 面向大数据的多维粒矩阵关联分析及应用[J]. 计算机科学, 2017, 44(Z11): 407-410, 421.
[7] 赵颖秀,刘文奇,李金海,赵宁. 基于粒计算与信息融合的P2P网贷用户信用评估[J]. 计算机科学, 2016, 43(9): 242-246.
[8] 姜芳,李国和,岳翔. 基于语义的文档特征提取研究方法[J]. 计算机科学, 2016, 43(2): 254-258.
[9] 郑鹭斌,陈玉明,曾志强,卢俊文. 二进制粒计算模型[J]. 计算机科学, 2016, 43(1): 270-274.
[10] 陈丽芳,陈亮,刘保相. 基于粒计算的哈夫曼树SVM多分类模型研究[J]. 计算机科学, 2016, 43(1): 64-68.
[11] 唐孝,舒兰,郑伟. 基于小波变换和粗糙集的早搏信号识别算法[J]. 计算机科学, 2015, 42(Z11): 32-35.
[12] 李 玲,刘华文,徐晓丹,赵建民. 基于信息增益的多标签特征选择算法[J]. 计算机科学, 2015, 42(7): 52-56.
[13] 马贺,张裕,陈泽华. 基于粒计算的逻辑函数快速粒约简算法[J]. 计算机科学, 2015, 42(6): 76-78, 87.
[14] 周丹晨. 融合粗糙集和商空间的企业级信息系统日志挖掘方法[J]. 计算机科学, 2014, 41(Z6): 421-424.
[15] 唐孝,舒兰. 基于粒计算的属性约简改进算法[J]. 计算机科学, 2014, 41(Z11): 313-315,346.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 编辑部. 新网站开通,欢迎大家订阅![J]. 计算机科学, 2018, 1(1): 1 .
[2] 雷丽晖,王静. 可能性测度下的LTL模型检测并行化研究[J]. 计算机科学, 2018, 45(4): 71 -75, 88 .
[3] 夏庆勋,庄毅. 一种基于局部性原理的远程验证机制[J]. 计算机科学, 2018, 45(4): 148 -151, 162 .
[4] 厉柏伸,李领治,孙涌,朱艳琴. 基于伪梯度提升决策树的内网防御算法[J]. 计算机科学, 2018, 45(4): 157 -162 .
[5] 王欢,张云峰,张艳. 一种基于CFDs规则的修复序列快速判定方法[J]. 计算机科学, 2018, 45(3): 311 -316 .
[6] 孙启,金燕,何琨,徐凌轩. 用于求解混合车辆路径问题的混合进化算法[J]. 计算机科学, 2018, 45(4): 76 -82 .
[7] 张佳男,肖鸣宇. 带权混合支配问题的近似算法研究[J]. 计算机科学, 2018, 45(4): 83 -88 .
[8] 伍建辉,黄中祥,李武,吴健辉,彭鑫,张生. 城市道路建设时序决策的鲁棒优化[J]. 计算机科学, 2018, 45(4): 89 -93 .
[9] 刘琴. 计算机取证过程中基于约束的数据质量问题研究[J]. 计算机科学, 2018, 45(4): 169 -172 .
[10] 钟菲,杨斌. 基于主成分分析网络的车牌检测方法[J]. 计算机科学, 2018, 45(3): 268 -273 .