基于属性重要度约简算法在数据挖掘中的应用研究论文由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“数据挖掘算法研究论文”。
摘 要:属性约简是粗糙集理论研究的核心内容之一,本文通过对属性重要度的计算,以核为基础计算条件属性集中除核以外其他属性的重要性来确定最小的约简,最后通过实例分析验证了算法的有效性与可行性。
关键词:数据挖掘 属性约简 重要度
数据挖掘是从海量的且不断动态变化的数据中,借助有效的方法挖掘出潜在、有价值的知识过程。而粗糙集理论它是一种刻画不完整性和不确定性的数学工具,能在保持分类能力不变的前提下,通过知识约简从中发现隐含的知识,揭示潜在的规律,是由波兰科学家Pawlak在1982年提出的。而属性约简是粗糙集理论研究的核心内容之一,它能保证在分类能力不变的情况下,消除重复、冗余的属性和属性值,减少数据挖掘要处理的信息量,提高数据挖掘的效率。本文提出了通过计算单个属性的重要性,以重要性大于零的属性为核,来选取其它属性加入核中形成新的集合RED,直至剩下的所有属性的重要性为零,得到的集合REDn即为属性约简。粗糙集的基本理论[1-2]
定义1设 是一个信息系统,其中 是对象的非空有限集合,即;是属性的非空有限集合;,是属性 的值域;是一个信息函数,即每个对象在每个属性上对应的信息值。若,其中 为非空有限条件属性集合,为非空有限决策属性集合,且,则称信息系统为决策表。
定义2对决策表,,考虑单决策属性的情况,即,则的分辨矩阵是一个 矩阵,其中的元素定义如下:
定义3对分辨矩阵中每个,用布尔函数 来表示,若,则决策表的分辨函数 可定义为:。基于粗糙集的数据挖掘的属性约简算法[3-4]
2.1 算法分析
第一步:求核。通过求条件属性C中的每个属性a对在整个条件属性集C的重要性SigC(x)来确定属性核CORE(x),重要性SigC(x)>0的属性为核属性。
第二步:通过向属性核CORE(x)中依次加入重要性大的属性来确定属性集x的最小约简,详细步骤如下:(1)把a加入到属性集R 中,计算重要性,选择重要性最大的属性;(2)如果两个属性有相同的重要性,取离散值小的属性。
2.2 算法复杂度
通过算法的分析,在对决策表进行划分的时间复杂度为O(n2)。而计算条件属性的重要性也是满足划分的线性关系,因此所求属性核的时间复杂度为O(n2),依次添加次重要度的属性也没有增加额外的开销,因此整个时间复杂度还是O(n2)。
2.3 实例及分析
为了进一步验证算法的可行性,下面以表1中的决策表为例进行分析说明,其中对象集,条件属性集,决策属性。
以上对计算出的实验数据的重要性进行统计得出信息系统的两个约简为{c1,c4}和{c2,c4}。结语
本文针对属性约简算法中的属性重要度的计算来确定核,适合对海量数据的挖掘,不仅节省了存储空间,而且在时间复杂度开销少,通过实验分析验证了算法的可行性与有效性,为决策表的属性约简提供了一条高效的途径。
参考文献:
[1]张文修,吴伟志.粗糙集理论与方法[M].北京:科学出版社,2001:18-19
[2]周献中,黄兵,李华雄,等.不完备信息系统知识获取的粗糙集理论与方法[M].南京:南京大学出版社,2010:10-11
[3]饶泓,夏叶娟,李娒竹.基于分辨矩阵和属性重要度的规则提取算法[J].计算机工程与应用,2008,44(3):163-165
[4]黄国顺,刘云生.一种改进的决策表属性重要性及其快速约简算法[J].计算机工程与应用,2007,43(28):173-176
基于属性重要度约简算法在数据挖掘中的应用研究论文摘 要:属性约简是粗糙集理论研究的核心内容之一,本文通过对属性重要度的计算,以核为基础计算条件属性集中除核以外其他属性......
数据挖掘论文在现实的学习、工作中,许多人都有过写论文的经历,对论文都不陌生吧,论文是一种综合性的文体,通过论文可直接看出一个人的综合能力和专业基础。那么你知道一篇好的论......
刀豆文库小编为你整合推荐3篇数据挖掘论文,也许这些就是您需要的文章,但愿刀豆文库能带给您一些学习、工作上的帮助。......
数据挖掘论文题目:大数据挖掘在智游应用中的探究摘要:大数据和智游都是当下的热点,没有大数据的智游无从谈“智慧”,数据挖掘是大数据应用于智游的核心,文章探究了在智游应用中,目......
数据挖掘论文无论在学习或是工作中,大家都接触过论文吧,论文可以推广经验,交流认识。那要怎么写好论文呢?以下是小编整理的数据挖掘论文,供大家参考借鉴,希望可以帮助到有需要的朋......