《现代电子技术》2006年第24期摘录:基于贝叶斯公式的最小损失垃圾邮件过滤算法
-
如发现有乱码,
请直接从这里浏览原文
正文摘录:2006年第24期总第239基于贝叶斯公式的最小损失垃圾邮件过滤算法谢金晶,张艺濒(武汉大学计算机学院湖北武汉430072)摘要:为了减少将合法邮件误判为垃圾邮件的误报率及将垃圾邮件误判为合法邮件的漏报率的损失,首先基于现有的文本特征提取评估函数:期望交叉熵及互信息提出一种新的评估函数。利用此函数可提取到更具有代表性的邮件特征向量。在此之上提出一种基于贝叶斯公式可减少损失的垃圾邮件过滤方法。经过仿真测试后,发现基于新评估函数的新方法可有效降低误报率和漏报率。关键词:贝叶斯公式;评估函数;最小损失;垃圾邮件中图分类号:TP302.1文献标识码:B文章编号:1004—373X(2006)24—055一03MinimizingCostFilteringAlgorithmforSpamE——mailBasedonBayesianXIEJinjing,ZHANGYibin(ComputerCollege,WuhanUniversty,Wuhan,430072。China)Abstract:TominimizetheCOStofwrongreportratethatmistakethelegalmailsasspamandmissingreportratethatmis—takethespamaslegalmails,firstanewevaluationfunctionwhichbasedonexistingevaluationfunctionoftextfeatureextrac—tlon:eXpectatloncrossentropyandmutualinformationisbroughtforwardinthispaper.Usingthisfunction,wecangetmorerepresentationaleigenvectorfromemail.AndthenthispaperpresentsaminimizingCOStanti--spamtilteringalgorithmbasedonBayesian.Aftersomesimulationtests,itfoundthatnewalgorithmbasedonnewevaluationfunctioncancutdownwrongre—portrateandmissingreportrateefficiently.Keywords:Bayesian;evaluationfunction;costminimizing;spam1引言随着互联网技术的高速发展,电子邮件以其方便、快捷、经济的优点被越来越多的运用到人们的日常生活和工作当中。但同时垃圾邮件的危害也日益严重。垃圾邮件不仅占用了大量网络传输带宽,影响正常网络通信,还浪费了人们的时间和精力。如何过滤垃圾邮件已成为邮件服务提供商和大量学者的研究课题。人们固然不希望收到垃圾邮件,但是更不能容忍合法邮件被当作垃圾邮件过滤掉。这就对垃圾邮件的过滤提出了高准确度的要求。为了提高准确率,减少损失,本文提出了基于贝叶斯公式的垃圾邮件过滤方法。2算法描述2.1预处理邮件样本由于邮件是一个无结构的文本,需要将其表示为一个向量才能计算。对任一邮件%其特征向量表示为:云一(“,鼢,…,z。),其中巩,鼢,…,z。分别对应于特征项收稿日期:2006—06一n基金项目:湖北省自然科学基金(2005ABA238)资助x,,X∥”,x。的特征值。一般在现有的垃圾邮件过滤算法中采用布尔型向量表示方式。即:当特征项x。存在于邮件e:中时,特征值32。一1,否则z。一0。此种表示方法固然简单,且具有较高的效率,却无法表达特征项在邮件中出现频率的信息。本文采用特征项出现在邮件中的绝对频率来表示邮件的特征向量。用^表示在邮件e:中特征项x。出现的次数,则邮件向量可表示为:z:一(_厂1:,^∥-.,^)。2.2提取邮件特征项本文采用单词表示向量的每一维,但邮件一般由大量不同的单词组成,若将学习集中每个单词都表示成特征项的话,则特征向量的维数将异常庞大。因此需用特征选择来筛选特征项,达到降维的目的。目前在文本处理中常用的评估函数有信息增益、期望交叉熵、互信息等。本文基于期望交叉熵,互信息提出了一种新的评估函数。由期望交叉熵函数,可得文本中单词W的期望交叉熵为:£;1一,I、^(叫)一P(叫)∑尸(tlw)lg耸掣(1)i=0‘\0i,若用num(s)表示总的学习集中邮件个数,num(c。)表示学习集中0类邮件个数,Dnum(c:,硼)表示学习集中c:类中包含单词W的邮件个数,Dnum(s,训)表示总的学习55
阅读此文(图):
在线翻阅