如发现有乱码,
请直接从这里浏览原文
正文摘录:谢金晶等:基于贝叶斯公式鱼亟尘退塞塑塑鱼B鲑遒遗篁鎏集中包含单词训的邮件个数,则有:P(f,)一涨对式(7)中的P(X一函与类别r。无关,而先验概率…P(C—c,)一般可由经验得到,但似然函数P(X—zlC一…。,)的计算则相对较难。为简化计算,则假设各特征变量之(3)问相对独立,即采用朴素贝叶斯,可得:故采用此函数时会选取期望交叉熵最大的那些单词作为特征向量。而在互信息函数中,可得单词W的互信息为:^(叫)一∑1g裂(4)其与期望交叉熵的本质不同在于他未考虑单词发生的频度,这会造成互信息函数经常会倾向选择稀有单词。这本是互信息函数的缺点,但是由于现在的垃圾邮件制造者会在垃圾邮件中加入大量的合法单词,从而减少非法单词出现的概率,以逃避过滤。则此时选择这些稀有单词做为特征项反而会减少损失,即减少误判率及漏判率。为了权衡得到更好的评估函数,笔者综合改进此2种函数,提出新的评估函数:.^。一“×I^(叫)l+19×^(训)(5)由式(1),(4)可得具体表达式为:‰(训)一d×P(训)∑P(c:I叫)llg兰箬l+卢×霎-g等等^~P(X—jIC—c,)一IIP(X。一z*IC—c。)k=1故有:P(C—c,lX—z)ⅡP(X。一ztIc—C1)P(c—Ci)——j!=i—————————————.————————————————————————————————一(8)J=1、yP(C—f,)P(x—zlC—c,)由于本文采用各单词在邮件巳中出现的频率作为向量t中各特征项的值,则可将式(8)改写为:P(c—c,1x一三)±:nⅡP(X。一z—Ic—c:)P(c—C1)^一兰三l一——————————————————————————一(9)J=1∑P(C—Cj)P(x一-zzIc—q)丘J=0其中厶表示特征项z。在邮件e:中出现的频率,P(Xt一-zmIc—c,)为单词37.。在c:类邮件中tP,现的概率,P(Xt—zmJ—num(n)1+∑^(6)1C—c。)一——ii兰忑;r,num(c;)表示c。类邮件个其中。,p为权衡因子,。+J8—1。由于在1g旦鲁士半中,1g值的正负分别代表训的出现倾向于或不倾向于说明文本属于a类,且lg—o表明叫的出现与c。类是否出现无关。故可能出现这样的现象,某单词毗本来很重要,但他的出现倾向于c。的出现,c。的不出现,则其值相加后恰为0。这样就无法将训。类单词和本身出现与C:类出现无关的单词区分开,故将lg取绝对值,使其统一为正。可由此评估函数来计算学习集中出现单词训的_厂。(叫)。根据计算出的每个单词的‰(训)从大到小排序,取前N个单词作为特征项。且可以通过调整a,卢的相对大小使对判别垃圾邮件贡献最大的特征项尽量排在前方。2.3基于贝叶斯公式的最小损失垃圾邮件过滤算法由上文方法提取邮件特征项后,可得邮件e。的特征向量为乏一(z,,z。,…,z。),则由贝叶斯公式得,邮件e:属于c。类(i一0,1,C。为垃圾邮件,C,为合法邮件)的概率为:P(C—c,lx一蜀而邮件e,属于C:类的条件为:P(C—C,lX—z)一Max{P(C一%lX—z),P(C—c。lX—z)}由贝叶斯公式可得:P(C一。.1x一函一:!!茎三兰L皇_三一一生土£竖三_三尘j-i∑P(C—q)P(x—jlc—c,)J—o(7)”}∑∑^数,n为向量维数。则可求得邮件吼为垃圾邮件的概率P(C—c0lx—z,),为合法邮件的概率P(C—c。lx—z。)。一般,在传统算法中当P(C一嘞IX—z。,)>P(C—c,Ix—Z)时,就判邮件白为垃圾邮件,否则为合法邮件。但是这种判断并不精确,会产生较大的误判率和漏判率。故引入r一;篆l}}剖,r表明邮件e:为垃圾邮件的概率是合法邮件概率的倍数,则当t越大,其为垃圾邮件的可能性就越大。由IonAndroutsopoul。s等人的实验可知,当£>999时,其准确率可高达100%。但是会存在这样一个问题:当t<999时,怎样才能使准确率达到令人满意的程度呢?由于特征向量维数N大小的选取可对t造成损失,即当N越大时,也就代表属性集越大时,计算得到的t就越能真实地反映邮件情况,越有益于提高分类的准确率。但是过大的属性集会使计算量急剧增长,导致效率低下。为此笔者提出这样的想法:取一个合适的较小的N,由于学习集中的单词已由上文中儿,(训)排好序,记为(叫,,Wz,…,训。)则每次按序从这些单词中取出N个,则第i次即取出(叫…+,,叫。++。,…,ZU,…。),并由此属性集计算t:,然后计算f一∑otjt,,由于在越早的次数里特征项对分类的贡旦献越大,故对权值吗有“。<az<…<呜,且∑aj一1。由
阅读此文(图):
在线翻阅