足球比分直播

化学聚类分析与线性判别分析方法分析.pdf

返回
化学聚类分析与线性判别分析方法分析.pdf_第1页
第1页 / 共59页
化学聚类分析与线性判别分析方法分析.pdf_第2页
第2页 / 共59页
化学聚类分析与线性判别分析方法分析.pdf_第3页
第3页 / 共59页
化学聚类分析与线性判别分析方法分析.pdf_第4页
第4页 / 共59页
化学聚类分析与线性判别分析方法分析.pdf_第5页
第5页 / 共59页
点击查看更多>>
资源描述:
AbstractChapter 1 is aIl introduction section.which briefly describes the research profile ofthe area of the chemical pattem recognition,especially the two major branches of thechemical partem recognition,i.e.。linear discriminant analysis and cluster analysis.Furthermore,based on the survey of literature,some problems and.some hotspots inthe current research is analyzed and discussed,and the research background of thisthesis is presented.The research direction of the thesis is focused on the development and application of linear discriminant analysis and cluster analysis.In chapter 2,the nearest local maximum searching algorithmNLMSA,anunsupervised clustering algorithm based on kernel density estimation is proposed.It isdesigned for detecting inherent group structures with arbitrary shape clusters amongmultidimensional measurement data without any a priori ination.The algorithmis named after its clustering mechanism of converging data points to theircorresponding nearest local maxima ofthe data’s density estimate along the ascendinggradient direction.Two simulated data sets and two real data sets are employed tovalidate the perance of the .A comparison between the clustering resultsobtained from the proposed algoriffma and the Kmeans cluster analysis shows that theNLMSA possesses quite satisfactory perance.In chapter 3,we propose a refined criterion function for the clustering ofhi曲一dimensional chemical data.A nonEuclid distance metric of error derived fromthe latent variable model is introduced to determine the distance of an object to themean of the class to which it belongs,and the within class error is calculated bysumming the error metric of all objects in the class.The proposed criterion function isobtained by summing all the within class error.Based upon the function,a proposedrefined clustering was developed to discover the latent structures of the datain the chemical subspace spanned by the few latent variables.Two simulated data setsand two real data sets are employed to uate the perance of the ,andthe approach is also compared with the Kmeans cluster analysis.The study showsthat the clustering based on the refined criterion function wotdd be aneffective technique for the clustering of the hi曲一dimensional chemical data.IIIIn chapter 4,based on the idea of the“Optimal Hyperplane’’introduced by theSVM Support Vector Machine,we propose a new criterion for lineardiscriminant analysis and develop an algorithm named‘ maximal betweenclassseparation projection linear discriminant analysis”by employing the real numbergenetic algorithm aS the optimization t001.This separates the projection of thetwo classes of the data of interests farthest by finding out the proper projectiondirection to improve the linear discriminant ’S classification perance andpredication ability.The classfication results of two simulated data sets and two realdata sets obtained by using the proposed show that proposed has goodprediction ability and call effectively cope with the linear-inseparable data.In chapter 5,we use the refined clustering algorithm based on the latent variablemodeling,which is proposed in the chapter 3,to recognize the patterns in tWO metaloxide semiconductorMOSgas sensor array data set.The results obtained after theprocession of the data show that the algorithm Can inerrable identify the samplesaccording to different gas chemical substances in the two data sets.Key wordsChemical pattern recognition,Linear discriminant analysis,Clusteranalysis,Nearest local maximum searching algorithm,Latent variablemodel,Maximal betweenclass separation projection criterion,Gassensor artay.第一章绪论1.1前言分析化学是化学的一个重要分支,它主要研究物质中有哪些元素或基团定性分析每种成分的数量或物质纯度如何定量分析;原子如何联结成分予,以及在空间如何排列等等.即分析化学是一门获取物质的定性,定量以及结构信息的科学。分析化学这一名称虽创自玻意耳Robert Boyle,17世纪英国科学家,但其实践运用与化学工艺的历史同样古老。古代冶炼、酿造等工艺的高度发展,都是与鉴定、分析、制作过程的控制等手段密切联系在一起的。在东、西方兴起的炼丹术、炼金术等都可视为分析化学的前驱。可以说,分析化学的发展伴随了人类文明的发展。并且一直在人类的科学和生产实践中发挥着重要的作用。进入20世纪之后,由于现代科学技术的发展和相邻学科的不断渗透,使分析化学这一古老的学科经历了巨大的变革【M】。首先是物理化学溶液平衡理论的引入使分析化学从一门技术一跃而成为--17具有理论基础的科学。随后,物理学和电子学的发展使得各种新型分析仪器相继问世,这些分析仪器具有强大的快速数据产生能力,能提供具有较高时间,空间分辨率的多维分析数据。在此期间,以溶液平衡理论为基础的经典分析化学发展成为--f3包括众多仪器分析手段色谱分析、电化学分析、光化学分析、波谱分析、质谱分析、热分析、放射分析、表面分析等为主的现代分析化学;另一方面,随着计算机信息科学的飞速发展,使得具有强大的数据产生能力的现代分析仪器与计算机化的数据处理方法的结合成为可能,而这种结合极大的扩展与提高了分析化学家对化学量测数据或者说化学信息的获取和处理的手段。化学计量学JF是在计算机信息科学技术与现代分析化学结合的基础上发展起来的的一门新兴学科16|。20世纪70年代,瑞典化学家S.Wold最早提出“化学计量学”这一名词,随后美国学者B.R.Kowalski表示赞同并于1974年与S.Wold共同发起成立了国际化学计量学学会,化学计量学从此诞生。化学计量学应用数学、统计学与计算机科学方法与技术,设计和选择撮优的化学量测方法,解析化学量测数据,最大限度的获取有关物质系统及其它相关信息,是化学,分析化学与数学,统计学及计算机科学之间的接口161。历经30余年的发展,化学计量学的基础理论和方法已基本构成了一套完整的体系。根据美国分析化学杂志Analytical Chemistry双年综述‘7。酗的分类,目前化学计量学的研究大致可以分为以下多个方面1最优化方法.2信号处理,3因子分析,4多元曲线分辨,5多元校正,6参数估计,7化合物结构一活性和结构一性质关系,8化学模式识别,9化学数据库检索,10人工智能,11化学图像分析。1.2化学模式识别概况模式识别是人工智能科学的一个重要的分支114”j。模式识别技术最早在六十年代术被引入到化学领域,化学计量学的建立和发展使得模式识别技术在化学研究领域日益得到了广泛的应用同时,化学计量学家们也发展了自己的各种各样的模式识别算法并且推动了模式识别技术的提高,因此化学模式识别成为了化学计量学领域的~个重要组成部分瞄·26删。按照模式识别研究者的经典定义134],所谓模式指的是对某些感兴趣的客体的定量或结构的描叙,模式类是具有某些共同特征的模式的集合;而模式识别是研究一种计算机化的自动技术,依靠这种技术,计算机自动的或人尽量少干涉把待识别的模式分配到各自所属的模式类中去。在分析化学领域,模式对应的是化学量测数据的变量,化学模式识别的目的和作用,就在于通过分析多变量的化学量测数据对不同样本按某些共同的特征进行分类识别,从而发现被量测样本之间的内在联系,获得决策性的信息。因此,化学模式识别是将化学量测数据转化为解决实际问题所需要的信息的一种重要手段[61。模式识别方法依据计算机学习过程或称训练过程可分为有监督模式识别方法和无监督模式识别方法两个大的范畴。有监督的模式识别方法指的是模式识别的学习过程是有监督的‘6’玎1。一般是用组已知类别的样本作为训练集,即用已知的样本进行训I练,让计算机向这些已知样本学习,这种求取分类器的模式识剐方法称为“有监督的学习”或“有老师”的学习,其中训练集就是老师,并由这个学习过程得到分类模型,从而对未知样本的类别进行预测。无监督的模式识别方法是一种事先对数据的类别未知,无需训练过程的分类泌别方法。在化学模式识别中,常见的有监督的模式识别方法有线性判别法陋川、Bayes判别法刚、K最近邻澍38 391、有监督的人工神经网络法140-43]、簇类的独立软模式SIMCA法144‘451等等,常见的无监督模式识别方法有聚类分析法146舶】、无监督神经网络法[43,49-5 01、以及以主成分分析m 521和非线性映射153l为代表的降维显示法等等。另外,由于具备不同f传统模式议别方法的分类原理,建立在模糊数学154I基础上的模糊模式识别方法155,561可以被看作化学模式识别中的一个独立的范畴,其中无监督的模糊聚类分析157.58 7和有监督的模糊人工神经网络方法删已经得到了』’‘泛的应用。1.3聚类分析在对数据进行模式识别的许多实际问题中,人们在事先往往是对数据的内在分类一无所知的,无监督模式识别方法由于无需已知类别的训练样本即可对数据进行分类识别而适合处理这类问题。聚类分析是无监督模式识别法的代表,其主要思路就是利用同类样本彼此相似,即常说的“物以类聚”,相类似的样本在多维空间中彼此的距离应小些,而相似的样本在多维空间中彼此的距离应大些。聚类分析即为如何使相似的样本“聚”在一起,从而达到分类的目的。聚类分析的应用范围十分广泛,分析化学家可以通过对不同未知化合物的化学量测数据进行聚类分析从而识别不同化合物【5”,生物化学家通过对未知细菌的生物化学测试得到的数掘进行聚类分析将这些细菌分f]-N类160],医护人员通过对看病者的多项生理测试指标作聚类分析可以判断看病者是否属于患病者的类或者非患者的类133I,从而帮助做出临床诊断等。按照BratcheU对聚类分析方法的分类【6。l,聚类分析可以分为,系统聚类法又称谱系聚类法,优化一划分聚类法,密度聚类法等其他聚类方法。其中应用的最广泛的是系统聚类法,使用该方法是不需要任何数据的先验信息的,其基本思想是先认为每个样本都自成一类,然后规定类与类之间的距离。开始,因为每个样本自成一类,类与类之间的距离是等价的,选择距离最小的一对合并成一个新的类,计算新类与其他类的距离,再将距离最小的两类合并成。类,这样每次减少一类,直至所有的样本都成为一类为止。在系统聚类法中,类与类之间的距离定义有许多种,因此也使系统聚类法按类间距离的定义分为多种不同类型的方法,计有最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法和方差平方和法等【33J。通过对数据进行系统聚类得到的是由一系列的在不同程度的相似度下对样本所做的分类划分嵌套组成的树图。树图反映的只是数据中样本与样本之阳J的相似关系,依据这些相似关系,数据可以在不同相似性度量下做许多种分类划分。而不能对数据给出个单一的分类划分,即不能给出所谓的“硬划分”。但是对数据进行“硬划分”是很多实际问题的处理中希望得到的,如在对未知化合物进行聚类分析时,人们希望了解每个化合物的确切类别。在聚类分析中,对数据的单一划分往往是利用优化一划分方法得到。『F因为优化一划分方法能够处理“硬划分”这一类问题,使得该类方法的应用也十分广泛。优化一划分方法的工作原理往往是这样的,首先设计一个聚类准则和选定聚类数目,然后将聚类准则当成一个目标函数,使用优化方法优化该目标函数.在目标函数收敛于最优值的同时完成对数据的划分。在化学研究领域,特别是在化学计量学研究中,优化一划分聚类方法被人们广泛的研究,一些无监督的人工神经网络方法实际上也属于二此类方法,常用的优化一划分聚类方法有K均值聚类分析∽621、ART网络‘63-651、Kohonen网络143_”150、661、Neural gas网络167瞎。上面提到的优化一划分方法比较普遍存在的缺点是仅仅对凸形的聚类结构有较好的效果,这是因为优化一划分方法的聚类准则都是基f度量样本间的距离的,而现有的距离定义都限制了优化一划分方法只能识别凸形的聚类结构。当数据中存在其他形状的聚类结构时,比如凹形的聚类结构或者任意不规则的聚类结构时,优化一划分方法无法很好的对数据进行聚类,甚至会出现大量的分类错误。优化一划分方法虽然是无监督的方法,但是在实际处理数据的过程中还是需要一些数据的先验信息,任何优化一划分方法在进行聚类之前部需要基于先验信息预先设定聚类的数目,而这往往是和人们使用无监督方法的韧衷,即在对数据完全未知的情况下对数据进行模式识别的愿望是背道而驰的。另外,由于在优化一划分方法的聚类过程中,聚类数目是人为给定的,所以得到的聚类结果不一定能反映数据内在的正确分类结构,从而导致错误的聚类。密度方法是基于数据的概率密度分如进行聚类的方法,与上面提到的系统聚类法和优化一划分聚类法侧重于比较样本与样本之间的距离不同,密度方法中对聚类的定义更加贴近数据本身的特性,即数据本身的内在结构。在密度方法中,在空间分布上比较密集,相互靠近使得概率密度高的样本被看成是一个类,概率密度低的样本分布较稀疏的区域成为概率密度高的聚类与聚类之蒯的边界。基于这样一个原理的密度方法摆脱的了距离定义的限制,使得对具有任意形状的聚类结构进行聚类成为可链。团为密度方法有以上的优点,人们一直对密度方法有着很大的兴趣,Wishartl68l、Ruspini[691、Massat和Kaufman[46一Ol,Daszykowsk[711等都提出了各自的基于概率密度进行聚类的方法。在我们的研究中,结合核函数密度估计和局部最优化技术提出了最近局部最大值搜索算法,恢方法是·个密度方法,县有可以识别任意形状的聚类结构而无需先验信息的优点,我们将在后面章节讨论。众所周知,通过现代分析仪器获得的化学量测数据是多维的。比如,使_Ifj近红外光谱分析~个化合物可以得到~个具有对应于几百个不同吸收波长的几百个变量的鼍测样本矢嚣,化学模式识别处理的对象就是由这些分析仪器产生的鼍测数据,所以高维数的化学量测数据的模式识别问题是化学研究者们无法回避的。在模式识别领域,人们早就发现,许多模式识别方法在低维数据中有非常良d好的分类效果,但是在处理高维数据时却表现非常糟糕,这就是Bellman指出的“维数灾难”问题【72】。传统的基于距离量度的划分聚类方法,如K均值聚类分析等在处理高维数据也常常陷入“维数灾难”的困境,究其原因主要是在高维数的数据空问中,样本点的分布是非常稀疏的,以现有的距离定义去度量样本与样本之间的距离将会使距离变得非常之大, 从而有可能使得这些方法无法找到明是的聚类结构。隐变量【7叫方法和理论一直是化学计量学的基本组成部分.Wold指出【74】像主成分分析【5I-521,偏最小二乘【75J等隐变量方法之所被大量的应用于解析化学量测数据,主要是因为多维的化学量测数据具有较小的化学秩,即多维的化学量测数据中包含化学信息的因子数比较少,所以在化学计量学中往往用少量的隐变量即可以表征绝大部分有用的化学信息,甚至剔除一些误差干扰因素。因此,结合隐变量方法的模式识别方法将有可能无需直接面对数据的高维数所带来的“维数灾难”,有望在高维数化学量测数据的模式识别问题中将有可能发挥一定的优势。在这方面,Wold提出的簇类的独立软模式法SIMCAⅢ,45】就是一个非常成功的范例,Massart和Kaufman对此也有研究mJ。1.4线性判别分析作为有监督模式识别方法的基本组成部分,线性判别分析的计算比较简单,易于分析,也是化学模式识别中最广泛应用的方法之一I徭851。历史上,最早的关于线性判别分析的工作是从Fisher的经典论文186l开始的,在这篇论文中,Fisher结合方差分析的思想提出了著名的Fisher判别分析法。Rosenblatt[871提出的线性学习机算法在线性判别分析方法的发展上具有深刻意义,不仅得到广泛的应用而且成为很多后来发展的线性判别分析方法的基础。除了以上提到的两种经典方法,其他在化学计量学领域广泛应用的线性判别方法还有逐步线性判别分析【33】、最小均方误差算法LMSEL34]等。线性判别分析方法是基于以下的原理工作的 ·般认为,在数据空间中,属于某一个类的一个样本点集,总是在某种程度上与属于另一个类的样本点集相分离。首先以样本为自变量建立一个线性函数,通过对已知类别的训练样本进行训练在该线性函数的基础上建立使各类分离的分类模型,从而对未知样本进行分类预测。分类模型一般是在线性函数的基础E设计一个判别准则函数,通过使用优化算法优化该判别准则函数使在找到准则函数的最优值的同时实现各类的最大程度的分离。因此,线性判别分析往往是~个优化线性判别准则函数的问题。线性判别分析仅仅对线性町分的数据有较好的分类效果,而且许多的线性判别算法在训练结果好的情况下表现出较差的预测能力,因此改进线性判别分析方法使得预测能力得以提高甚至可以较好的处理线性不可分数据是非常有必要和有益的。在我们的研究中,将提出一个改进的线性判别算法以达到此目的。1.5模式识别与气体传感器阵列模式识别在本质上可以说是对人类感知,识别过程的模拟【3“。感知和识别能力是人类和其他一些生物的一种基本属性。以人类为例,人类主体通过感官获得被识别客体的刺激信号,然后通过自己的大脑处理感官刺激完成对客体的识别。在模式识别中,数据是对被识别客体的描述,对应于人类识别过程中的感官刺激,计算机处理数据完成对客体的识别,对应于人类大脑做出的识别决策。因为模式识剐技术具备模拟人类感知,识别的能力,所以通过模式l}{别技术与传感器件的结合,人们发展出多种模拟人类感觉的智能传感系统。本世纪八十年代初,Persaud和Dodd最早提出模型鼻的概念f88t,Shunner等雎9】发展了这一思想,他们将具有很高识别能力的Sn02气体传感器阵列与计算机连接,用于加工显示,以模拟生物的嗅觉系统。随后关于电子鼻的研究日益开展起来。电子鼻实际上是结合模式识别技术的一种气体传感器系统。相对于单个的传感器,阵列式的气体传感器气体传感器阵列能提供多通道信息,而且解决了选择性不足的困难,因此电子鼻一般采用的是气体传感器阵列加模式识别的组合。根据Jurs在2000年的综述所指出唧J,各种类型的模式识别方法被广泛应用于气体传感器阵列研究中,这些方法包括线性判别分析、主成分分析、聚类分析、各种类型的有监督和无监督人工神经网络等,几乎囊括了所有模式识别方法。可以蜕,模式识别方法已经渗透到气体传感器阵列领域的方方面面,而且可以预见模式识别技术的提高将进一步增强气体传感器阵列的识别能力,使人们得以研制出更加灵敏的电予募。1.6本论文的工作本文作者针对前述的化学模式识别方法和模式识别在气体传感器阵列中的应用等研究中的难点和热点问题,立足于本实验室的条件,在文献综述的基础I二,着重在聚类分析方法和线性判别分析方法等方面展丌了研究,在此研究基础上撰写了本论文,该论文主要涉及以F的主要内容。1.基于核函数密度估计提出了无需任何关于数据的先验信息而且司’以识别任意形状聚类结构的最近局部最大值搜索聚类算法,该方法首先用核函数密度估计得到数据的概率密度,然后利用从属于同~聚类的数据点沿最速上升方向6上升梯度方向都能收敛于同一个最近的局部最大的原理通过使用梯度上升局部寻优方法对每一个数据点都进行局部寻优实现对数据的聚类分析。通过用平滑系数对聚类数作图得到的可靠性曲线,可以评价聚类结果和确定合适的聚类数。通过对两组模拟数据和两组真实数据进行聚类的结果表明,该方法能在无任何关于数据的先验信息的情况下对具有任意形状聚类结构的数据进行聚类。2.针对现有的聚类方法在处理高维化学量测数据时性能不佳,容易陷入“维数灾难”的缺点。基于隐变量模型改进了误差平方和聚类准则函数,用样本点到类的隐变量模型所代表的化学子空间的距离量度取代了惯用的的欧几罩德距离从而避免了在高维数空间中样本散布过于稀疏,样本与样本之间距离太大从而导致聚类边界模糊的问题。在此聚类准则的基础上提出了一个迭代聚类算法,通过使用该算法对模拟数据和真实化学量测数据的进行聚类分析的结果表明,该方法能有效的处理高维化学量测数据的聚类问题。3.基于支持向量机算法中最优分类面的思想提出了最大类分离投影线性判别法。目的在于改善线性判别分析方法存在的预测能力差,难以处理线性不可分数据的缺点,该方法使用了实数遗传算法作为优化工具,通过对我们所提出的最大类分离投影判别准则函数进行寻优实现分类。利用该方法可以寻找到一个最佳投影方向使线性可分的两类在该方向上的投影间隔最大,或者使线性不可分的两类的投影重迭最小,从而降低分类错误率并使预测能力提高。通过对模拟数据和真实数据进行分类的结果表明,该方法具有较好的预测能力,并且能有效的对线性不可分数据进行分类。4.使用基于隐变量模型的聚类算法对两组金属氧化物半导体MOS传感器阵列数据进行聚类分析。~组数据为表面涂有不同金属氧化物催化涂层的Sn02气体传感器阵列对醇,酮,酯类挥发性气体的响应数据。另一组为会属氧化物半导体MOS传感器阵列对甲烷,乙烷,丙烷,和丙烯四种烃类气体的响应数据。聚类分析结果表明,基于隐变量模型的聚类算法能够准确识别两组传感器阵列数据中对应不同气体物质的样本。第二章基于核函数密度估计的聚类方法一最近局部最大值搜索算法2.1前言优化一划分方法在化学中是应用得最为广泛的,比如K-均值聚类分析|34621、Kohohen神经网络143,501等。这些方法中的大多数都是按照如下的原理工作的,首先要设定好数据中聚类的数目并设计一个准则函数,然后通过优化这个准则函数在找到最优的准则函数值同时完成对数据的分类。在通常情况下,由于数据内在分类结构的性质在处理数据之前是未知的,因此预先设定的分类数可能会是不可靠的,因此优化一划分方法无法很好的预测数据结构。此外,大多数优化~划分方法仅在处理凸形的聚类结构甚至是球形的聚类结构时效果比较理想,但是却无法有效地识别具有其它任意形状的聚类结构,例如椭圆形或者凹形的聚类结构,而这些聚类结构往往更加普遍【舶】并经常在实际处理的化学数据中遇到。总而言之,这些优化分区方法在实际的化学模式识别应用中具有一定的局限性。与侧重于测量和比较数据中样本点之问距离的优化一划分方法不同的是,基f密度的方法主要根据数据概率密度分布来区分类别。样本分椎密度大的区域被认为是一个聚类,而样本分布稀疏的区域则是划分各个聚类的分界线。基于密度的方法,特别是核函数密度估计方法可以在无需任何先验信息的情况下进行聚类分析并能处理任意形状的聚类结构。由于有上述的优点,基于核函密度估计的方法一直一起化学计量学家的极大兴趣,CLUPOTl46 7。l是Coomans和Massart提出的一种类似的基于核函数密度估计的聚类方法,Daszykowski等也进行了这方面研究川。本章提出了一种新的基于核函数密度估计的聚类算法。在通常的聚类分析方法中,需首先从数据样本中选取聚类中心,然后再逐一考察数据点属于哪个聚类。在这个新提出的算法中,我们采用从每个样本进行梯度局部最大搜索柬获得商斯核函数密度估计的局部最大值的方法来完成聚类。这个局部最大值是样本沿着梯度上升方向所能找到的最近的一个局部最大,并被视为该样本所属聚类的代表点。如果数据中的某些样本都能收敛于同一个局部最大点或者说从这些样本开始都找到了同一个聚类的代表点,则可以认为这些样本属于同一聚类。该方法被命名为“最近局部最大值搜索算法”,英文简写为NLMSA。可靠性曲线【4“”1被用8
展开阅读全文
收藏
下载资源

加入会员免费下载





足球比分直播