《现代电子技术》2007年第1期摘录:基于PCA和模糊C-均值聚类的目标连续属性量化算法
-
如发现有乱码,
请直接从这里浏览原文
正文摘录:2007年籀2期总第241入式与单片机基于PCA和模糊C一均值聚类的目标连续属性量化算法马守明,程显毅(汀矩大学汁算机科学与通信]-拌学院汀苏镇江212013)摘要:机器学习中很多方法要求目标属性是离散的.而实际中很多属性是连续的。目前的连续属性量化算法存在的问题是当新的对象加入决策表时.原有的分割点可能不是最优的。基于PCA(主成分分析)、模糊(、均值聚类和不相容度概念,提出一种目标连续属性量化算法。该算法具有在量化过程中区别对待不同的条件属性,以决策表的不相容度为连续属性量化终止的标准,在保持决策表信息损失最少的情况下.尽量减少分类的区r6数等特点。关键词:PCA;模糊C一均值;连续属性;不相容度中图分类号:TPl8文献标识码:B文章编号:1()(),1373X(2007)02—059—03AnObjectContinuousAttributesQuantifyingAlgorithmBasedonPCAandFuzzyCmeansMAShouming.CHEN(;XianyiAbstract:’I、hediscretcattrit)ulcswcr(、requiredbyVOIuFI~inousmethods()nmachineLearning,blJtcontinuousattributesa。。universalinDractice.T11epr()}]1(1111ofactualcontinuousatlrihutesquantifyingalgorithmisthatintrinsiccultingpointmaybenotLh。hestwhenanewohJectcnterdc,cisiontables.Anobjectcontinuousattributesdecisiontables‘tuantifymgalgorithmbasedonfLJzzvcnlealls.PrincipalComponerltAnalysis(PCA)andincompatibilityconceptwasproposed·lbealgorithmcarl(i(、alwithdifferentuLIalificationaItributersdistinctively,thinktheincompatibilityofadecisiontableasquantifyingendingL’riteri()n,reduccthefieldnLJml)eranc[keepthe1eastinformationlosssimuhaneously.Keywords!PCA;fuzzyC—means:continuousattribules;irlc(mapatibilityJ赳1识丧达系统的基本成分是被研究对象的集合,火丁这些埘象的知识是通过指定对象的属性和他们的属性值束描述的。。为r对柑集理论中决策表进行简化,需要在决策一致的条件下,将连续属忡的值域按照某种算法映射硎尽量小的离散集合或区间LfI。对H标连续属性量化的办法仃很多种。“,主要分为躲督量化和非监督罱化。例如,HongS。。。用一种k最相邻近聚类(ne|irestIleighborclustering)技术来量化连续属性,利川【u1函数的性质得到最优分类数。EllisjClarke等人’以最小熵或MDI。(minimaldescriptionlength)准则为评价标准实现数据的量化。Holte”’提…了一一种贪婪的译规则离散器(onerulediscretizer)方法。水文提出一种基j:土成分‘}村i(PrincipalComponentAnalysis,PCA)和1鹤≤糊C一均伉聚类实现连续属忡决策表的黾化算法。l主成分分析法基本原理主成分分析就是导出少数几个主分鞋,使他仃J峰_l『能收稿日期:200(;一0616基金项目:图家门然科学基金(60173039);江苏省研究彗:创新基金(xmOI35)反映原始变量的信息,m}l‘彼此间独、Z.以达刮简化数掘的H的。’。设x。,X:,…,x.为实际问题所涉及的户个随机变最,i己x一(X,.X:,…,x,)’,其协力‘差矩阵为:石一(口。)。。一E[(x—E(x))(x—E(x))。](1)设z:一(z,z。.…,z。)’,(i—l,2,…,p)为p个常数向量,考虑如下线形组合:,Y.一17x—z.、X。+厶X!+…“卜“X.jy!一fjx—fl】lx一+-xz+…+。z—x一(2)]j\Y,…l~r>Xkx、七lpax!__r…+}。?xp易知有:var(Y,)一Vat(fjX)一zj三z。,i一1,2.…,p(3)COV(Y,.1’,)一Coy(zjX.z?x)I;I三『_,i一1,2,…,p(4)如果希望J{jY.代替原米p个变黾X.,X!.…-X∥就要求y。尽可能地反映原P个变量的信息。这坐“信息”Hj、’。的方差来度量,即要求Var(Y.)一纠三l,达到最大。似×、f任意常是.女口取,。===是z,小4:Var(ijx)==走’Var(列x)一∥zj三,,因此,必须埘z,加以限制,价则Var(Y,)尢界。敲方便的限59
阅读此文(图):
在线翻阅