常用的数据分析方法之判别分析

slime2022-04-28 16:06

判别分析又称为线性判别分析(Linear Discriminant Analysis)。产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。

常用的数据分析方法之判别分析

判别分析方法目的与特点

目的

判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本去分类。

例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别,把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。

特点

因此,判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。

当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。

判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。

原理说明

判别分析时,通常需要将数据分为两部分。一部分是训练模型数据,一部分是验证模型数据。

首先通过训练集数据训练拟合出一个模型。接着再利用另一部分验证模型效果。如果在测试集数据上,也表现良好,那么说明拟合模型非常好。

后面可以利用此模型用于预测其它“没有确定类别”的数据,来预测新数据的类别情况。

判别分析的方法

判别分析中,根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。

费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。

对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。

贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。

所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。

距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。

以上就是小编为大家整理发布的“常用的数据分析方法之判别分析”一文,更多相关内容尽在开课吧广场-数据分析频道。

免责声明:本站所提供的内容均来源于网友提供或网络搜集,由本站编辑整理,仅供个人研究、交流学习使用。如涉及版权问题,请联系本站管理员予以更改或删除。
有用
分享
上一篇
本文最新,没有上一篇了
舆情数据分析都有哪些方法?
舆情数据分析都有哪些方法?
下一篇
全部评论快来秀出你的观点
登录 后可发表观点…
发表
暂无评论,快来抢沙发!
Hello,World公开课