《电脑知识与技术》月刊

《电脑知识与技术》的读者对象主要为广大电脑用户、电脑爱...
所属分类:自动化/计算机技术 / IT/互联网/数码
 

相关服务

本刊更新通知服务(免费)

  • 希望本刊有任何更新(新闻,内容等)都能得到及时的通知吗?

投稿说明

我们联合292家刊社开通了在线投稿服务! 您可以搜索您要找的刊物并查询其[投稿]栏目。您也可以通过致电(010)84852199转3了解详情。

帮助

0

基于粗糙集的河流水质生物分类系统的研究

所投刊社及刊社评论 | 作者个人资料 
投票 0条评论 收藏  推荐本文 博客引用
作者:王霞    所属分类: IT/互联网/数码
摘要 摘要:水是生命之源,也是人类赖以生存的自然环境。随着社会的进步,对水质精确分类的研究也广泛开展起来。本文借鉴前人经验,提出基于粗糙集的河流水质生物分类体系的研究,运用粗糙集分类的优势,将普通的生化方法加以改进,实现对河流水质的正确分类。
正文 字体大小:  
基于粗糙集的河流水质生物分类系统的研究
(王霞1 李功振2)
1(徐州师范大学计算机科学与技术学院,江苏徐州,221116)
2(中国矿业大学环境与测绘学院,江苏徐州,221009)

摘要:水是生命之源,也是人类赖以生存的自然环境。随着社会的进步,对水质精确分类的研究也广泛开展起来。本文借鉴前人经验,提出基于粗糙集的河流水质生物分类体系的研究,运用粗糙集分类的优势,将普通的生化方法加以改进,实现对河流水质的正确分类。

关键词:粗糙集,水质分类,
The Research of biology categorization for water quality based on Rough Sets
(WANGXia1 Li Gongzhen2)
1(Department of Computer Science and Technology, Xuzhou Normal University, Xuzhou 221116,)
2(School of environment and informatics,China University of Mining and Technology,Xuzhou,221009)

Abstract: Water is the source of life, and is the natural environment of which people must depend on. With the society development , the research of exact categorization on water is widely developed. Based on other people’s experiences, the author introduced the research of biology categorization for water quality based on Rough Sets. Fully used the superiority of Rough Sets, improving ordinary biochemical method . Thus realized the exact categorization for water.
Key words : Rough Sets, categorization on water quality
1 引言
河流是人类最重要的淡水资源,它可用于许多方面,包括饮用水供应、农田灌溉、工业和城市用水的供应、工业和城市废弃物的处理、航海、渔业及人们休闲娱乐活动等。河流水资源管理者们因此需要有关他们所掌握的水资源数量和质量的优质科学数据。但是光有这些优质科学数据并不是最终的目标,我们应该对这些科学数据进行有效的评价和适当的选择,能够根据这些数据对河流水质进行合理分类,从而更好地为优化环境战略提供服务。目前,对于河流水质的分类主要是通过其物理、化学和生物性质来进行分类的。后者受水中存在的生物体种类和密度(包括生物种群结构及其多样性)的影响。众所周知,理化性质只能有限地描述出在特定点某一时间的水质情况,而生物(生物活体)可作为水质在一段时期内水质连续的监视器。这就使得用生物的方法检测水质更重要。本文正是从这个基础出发,将粗糙集应用于河流水质的生物分类体系,将生物体作为分类属性来检测水质。
2 粗糙集的基本理论
1982年波兰华沙理工大学计算机研究所的Zdzistlaw Pawlak在基于Forge边界区域的思想首先提出了粗糙集理论(Rough Set Theory ,RST)。粗糙集理论的主要优势之一是它不需要任何预备的或额外的有关数据信息,比如统计学中的概率分布,Dempster-Shafer理论中的基本概率赋值,或者模糊集理论中的隶属度或概率值。RST特别适用于不要求精确数值结果的不确定性问题。
粗集的一些理论和方法可用来从数据库中发现分类规则。其基本思想是,将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间的上下近似关系生成判定规则。
粗集理论中的信息系统可用一个四元组来表示:S={R,A,V,f}。其中R是一个非空集合,表示数据库中的所有记录(Record);A表示数据库中的全部属性(Attribute);V是属性值组成的集合;f是属性和记录的函数,f(a,e)的值确定记录e关于属性a的取值。对于属性集A中的任意一个属性a,如果记录 和记录 对于属性a的取值相同,我们称 和 基于属性集相等。基于某个属性集A的所有等价记录的集合,被定义为等价类。属于同一等价类的记录归为一类,此分类称为R基于属性集A的划分,表示为 。
3 基于粗糙集的河流水质的生物分类系统
3.1 系统的总体设计
整个系统基于分布式计算机系统来进行设计。除控制模块外,各个模块都采取嵌入式技术。
系统的总体设计框图如图1所示。
整个系统由数据采集、水质分析与分类和控制中心三个模块组成。其中,数据采集模块采用嵌入式系统,进行河流水质数据的实地采集,并将其传送给水质分析与分类模块。水质分析与分类模块接收所有数据采集模块采集的河流水质数据,对水质数据进行存储、分析分类,并将结果发给控制中心。控制中心模块对水质分类结果进行管理、查询和显示以及管理所有数据采集模块和水质分析与分类模块。由于河流水质监测覆盖的范围广,情况比较复杂。三个模块之间利用网络进行数据传输和联系。
3.2 数据采集模块的实现[3]
水质数据的实时采集传送由数据采集任务、数据处理任务、网络任务、操作系统任务和文件系统任务来共同完成。
通常情况下数据采集任务处于睡眠延时等待状态,延时时间到数据采集任务被激活,进行依次数据采集并将数据保存在自己的堆栈中,完毕后重新进行睡眠等待状态。
图1 系统总体框图
3.3 水质分析与分类模块的实现
这个模块是水质生物分类系统的中心,主要由三个子模块组成:知识库子模块,水质监测和水质分析子模块,属性约简子模块
整个模块的概念化设计如图3所示,它首先根据专家知识和待分类水质的信息指导下,形成一个粗粒度的,并且可以根据水质变化自适应调整的知识库。然后在知识库子系统的指导下,对采样水质进行分析获取其中生存的生物,然后进行有选择的基于粗糙集的属性约简和分类,确定水质类别。

















图3 水质监测和分析模块总框图
3.3.1 知识库子模块
知识库子系统主要由专家知识库、领域规则库和结果规则库三个部分组成。专家知识库和领域规则库是一对不可分割的知识库。其中,专家知识库是存储领域专家知识的数据库,主要是采用领域专家的规则知识,这是他们在多年的实践中所获取的知识。领域规则库是用来存储领域知识的数据库,主要是包括分类知识所在领域的所包含的基本概念、属性、实体、规则等的知识。一般知识库的建立都是领域专家在知识工程师或工具的辅助下定义比较完备详尽的概念、属性、关系等,它们建立知识库的目的多是用于复杂的推理,而本系统的领域知识库知识用于简单的匹配、查找操作,所以就由开发者自己构建一个简单的、粗粒度的将来可以不断扩充和改进的知识库。结果规则库主要用来存储最小化规则集。
3.3.2 水质监测和分析子模块
水质监测和分析子模块主要进行的任务是对上一个阶段采集的水样进行分析,利用一定的方法找出水样中的生物种类,从而根据生物种类来确定水质标准。具体而言,就是水样采集之后,马上加固定液固定,以免时间延长标本变质。从野外采集并经固定的水样,带回研究室必须进一步沉淀浓缩。然后对样本在显微镜下进行种类鉴定,一般鉴定到属或种,优势尽可能鉴定到种。这些种名就形成下一个阶段属性约简模块的关键词集合。
3.3.3 属性约简子模块
属性约简子模块完成的任务主要是根据上一个阶段产生的生物关键词进行过滤,利用粗糙集进行属性约简,形成最小规则集和,用来指导用户的水质分类。其主要使用的是作者自行设计的一种基于聚类和粗糙集的算法。
该算法利用聚类和粗糙集的优点来进行描述的。先利用空间向量模型的知识对采样水质进行直接聚类,然后利用粗糙集进行规则约简,从而形成一个较优的规则集。
算法的具体描述如下:
输入:获取的水质数据的生物体种名集合(关键词集合)
输出:分类规则
算法步骤:
step one:根据输入的关键词集合,计算两两水质之间的相似度,形成水质相似度对称矩阵 , 表示水质 和水质 的相似度;
step two:选取一个阀值λ对矩阵进行λ-截集的处理,相似度大于等于λ的转化为1,小于λ转化为0,形成新的矩阵 ;
step three:将矩阵 对应一个无向图,若 为1,则从 到 有一条边,若 为0则没有边。将有连线的连通的各接点合并形成类,完成对训练集中大量水质的分类。从而组成下一步进行分类时的信息表。
Step four:离散化信息表中的数据;删除重复信息行;
Step five:令初始约简属性集B为空;计算条件属性C中各属性集对决策属性D的重要性,构成集合S;
Step six:若 ,则循环:
(1) 从S中取出最大值,将对应属性 加入约简属性集B;
(2) 将 的重要性值从集合S中删除;
(3) 计算B对D的条件熵E(D|B);
step seven: 对约简后的每个对象(行)进行值约简,消去冗余规则,求出优化的规则集。
4 总结
本文提出一种基于粗糙集的河流水质的生物分类系统,它实现了在无人看守的情况下进行野外河流水质数据的自动采集和传送,并且通过将水质模型集成在GIS中,充分利用了GIS的表达能力和水质模型的模拟分析能力,能够实时反映水质的状况,达到对河流水质的动态监测。

参考资料
1 曾黄麟,粗糙集理论及其应用,重庆大学出版社,1998年3月
2 李德毅,归纳学习:从数据库中知识发现德处理过程模型的研究,计算机科学,1999年第2期。
3 徐遥令等,基于GIS的河流水质动态监测系统。
4 王霞.基于粗糙集和聚类的文本自动分类的研究.[硕士学位论文].兰州,兰州交通大学,2004.
5. Jiye Liang, K S Chin, Chuangyin Dang et al. A new method for measuring uncertainty and fuzzyness in rough set theory [J]. Internatinal Journal of General System, 2002;31(4):pp331~342
6 Yanf.Y ete.A Comparative Study of Feature Selection in Text Categorization. In:Proc. Of the 14th Intl.Conf. on Machine Learning ICML97,1997
7. Simon Parsons, A rough set approach to reasoning under uncertainty, Expt.Theory.Atrif.Intell.7, 1995.
8. A.Skowron, The Rough Sets Theory and Evidence Theory, Fundaments Information, 1990, Vol.13, pp245~262
9. Z.Pawlak. Rough Sets. International Journal of Information and Computer Science. Vol.11, No.5,1982.pp341~356.












   

 我来说两句
加载中...

IT/互联网/数码类精选文章

IT/互联网/数码类热门文章

IT/互联网/数码类热门评论