相关服务

  • 《现代电子技术》2007年第1期摘录:里宣塑蔓:璺王里篁垒邳攫糊c一

如发现有乱码, 请直接从这里浏览原文
正文摘录:

里宣塑蔓:璺王里篁垒邳攫糊c一均值聚类的目标连续属性量化算法制是要求z。具有单位长度,即在约束条件肌,-_-1之下,求z-使Var(y,)达到最大,由此z,所确定的随机变量y,--_z,。x称为X,,X。,…,X。的第一主成分。如果第一主成分y。还不足以反映原变量的信息,进一步求y:。为_『使y,和y!反映原变量的信息不相重叠,要求y,与y!小相关,即:cov(y。,y:)二二引掣!一O(j)于是,在约束条件幽:一1及刈型:一O之下,求0使Var(K)达到最大,因此z。所确定的随机变量y?一蹦X称为x.,X。,…,x,的第二主成分,依此类推。求X的各个主成分,等价于求他的协方差矩阵的各特征值及相应的正交单位化特征向量。2模糊c均值聚类准则模糊聚类的思想来源于Raspli于1969年提出的HCM(Hardc—Means),是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法”j。FcM把”个样本向量X,(.j-_l,2…,”)分为c、个模糊组,求出每组的聚类中心,使得非相似性指标的价值函数达到最小。与引入模糊划分相适应,隶属矩阵哕允许有取值在(O,1)间的元素。不过,加上归一化规定.一个数据集的隶属度的和总等1:∑“。一1,Vj一1,…M(6),l那么,FCM的价值函数(或目标函数)定义为:_『(哕一,….f【)一∑I,,一∑∑“jdj(7)这里“。介于(O,1)间;f。为模糊组j的聚类中心,d。一}fr:一-一,,{为第j个聚类中心与第j个数据点间的欧氏距离;且m∈(Z,cO)是一个权重系数。构造如下新的目标函数,可求得使式(7)达到最小值的必要条件:-,(缈,f,,…,f。矗,…,且)---,(妙“。,…一)+∑pf∑“。一l1JJ、,l’一∑∑“:(,j+∑矗f∑“。一11(8)r一1,一1,一l、f=l’这里p,j一1,2,…,”,是式(6)的,z个约束式的拉格朗日乘子。对所有输入参量求导.使式(7)达到最小的两个必要条件为:∑螺r,Z—J一[J—Jf。一上÷一∑“:J—l1。骞(砉)。。”’”有关这两个必要条件的证明可参考文献”j。(9)(10)3基于PcA和模糊C一均值聚类的连续属性量化算法连续属性量化的指导原则是用最少的条件属性离散值,使量化后的决策表尽量相容(或称为协调)。对于一个决策表而言.如果条件属性的划分较粗,则可能导敛划分后的决策表不相容;反之,则可能使划分后的决策表巾含有很多冗余信息,使约简率较低。为了兼顺决策表的相容性和尽量少的属性离散值.这里定义不相容度来度量决策表的离散程度。定义(不卡H容度)决策表是一个信息系统s。定义为5一(U。(_、UD,V,/、).则属性(、的小相容度'7为:j0l7一]讨其中.(、一Ⅲ中小相容的对象);L,表示非空有限对象集;c为条件属性,D为决策属性,cnD一移;V是属性的值域;/’是信息函数。显然O≤叩≤1。理论上.若要求离散化后的决策表是相容的,则有叩一()。但在_丁程实际中,一一般取,7小于一个较小的阈值。基于PCA和模糊C一均值聚类连续属性量化的基本思想是:首先应用主成分分析进行特征空间压缩。然后给出各连续属性的初始分类数,用模糊C一均值聚类算法给出连续属性的离散区间。若决策表是不相容的或不相容度小于某个阈值.则量化过程完成。含则应先增加重要属性的分类区间数,其次再考虑其他次荸要属性,直至决策表的小相容度满足要求为止。属性的重要性程度用主成分分析过程中得到的协方差矩阵的特征值来描述。应用主成分分析压缩特征卒间,压缩后的特征向量按重要性递减的顺序排列:r,,c,,…,靠。根据属性的重要性程度量化,可避免把各属性『亩=J等看待时属性的选择顺序对量化结果的影响。连续属性量化算法如下:(1)参数初始化.给定各连续属性初始分类数M一2;d一1,2,…,是;j—O;不相容度判决阈值穆、;(2)取d一1维连续属性分析;(3)将第d维连续属性按属性值的升序排列;(4)用模糊(。均值聚类算法对第d维属性分类,并把相邻两类的边界属性值的算术平均值作为两分类的分界阈值;(5)用分界阈值把第d维连续属性的值域分为M。.个子区问,分别形成连续属性的M个离散值,标以不同符号:(6)j—O,若d<走.则d一矗十1,转(3):否则转(7);j—l,转(9):(7)榆杏决策表足否满足不相容度条件(计算'7.判断足岔小十艰).若满足。则转(11);否!J!『Jj—O,转(8);j一1,转(9);

阅读此文(图):   在线翻阅