机器学习入门需要知晓的话

开课吧小一2021-06-10 16:04

点赞
有用
分享分享

    随着人工智能技术的不断完善,机器学习技术也得到了广泛的使用,为了能够快速入门机器学习,需要了解以下这些信息:

机器学习入门需要知晓的话

    1、机器学习有四种用途:分类、聚类、回归和降维。理解了这句话,就意味着学会了机器学习。迷茫的时候,在心里默念这句话,就会找到前进的方向。更严格一点,计算器学习的目的只有三个:分类、聚类和回归,降维不过是达成目标的手段之一。

    2、分类和聚类都是对个体样本归类,看起来很相似,实则相去甚远——前者属于有监督的学习,后者属于无监督的学习。

    分类是基于经验的,而经验来自过往的数据,这意味着分类需要训练;聚类则是基于当前全部样本的特征,不依赖经验,自然也就无需训练。举个例子:让你从一堆水果中挑出苹果、橘子和香蕉,这是分类;让你将画在纸上的若干个图案分组,分组规则由你决定,这是聚类。

    3、从字面上看,分类和回归看上去风马牛不相及,其实二者是亲兄弟,使用的算法几乎完全重合。

    分类是对个体样本做出定性判定,回归是对个体样本做出定量判定,二者同属于有监督的学习,都是基于经验的。举个例子:有经验的老师预测某学生考试及格或不及格,这是分类;预测某学生能考多少分,这是回归;不管是预测是否及格还是预测考多少分,老师的经验数据和思考方法是相同的,只是最后的表述不同而已。

    4、传统的软件开发,代码是重点,而对于机器学习,数据是重点。

    在训练机器学习模型时,数据的质量和数量都会影响训练结果的准确性和有效性。因此,无论是学习还是应用机器学习模型解决问题,前提都是要有足够多且足够好的数据集。

    5、数据集通常是指由若干个样本数据组成的二维数组,数组的每一行表示一个样本的数据。

    6、数据集的列,也被成为特征维或特征列。

    7、所谓降维,并非是将数据集从二维变成一维,而是减少数据集的特征维。

机器学习入门需要知晓的话

    8、标准化是对样本集的每个特征列减去该特征列的平均值进行中心化,再除以标准差进行缩放。

    9、归一化是对样本集的每个特征列减去该特征列的最小值进行中心化,再除以极差(最大值最小值之差)进行缩放。归一化处理类似于标准化,结果收敛于[0,1]区间内。

    10、机器学习模型只能处理数值数据,因此需要将性别、职业等非数值数据变成整数,这个过程被称为特征编码。

    11、Scikit-learn的数据集子模块datasets提供了若干数据集:函数名以load开头的是模块内置的小型数据集;函数名以fetch开头,是需要从外部数据源下载的大型数据集。

    12、每个二维的数据集对应着一个一维的标签集,用于标识每个样本的所属类别或属性值。通常数据集用大写字母X表示,标签集用小写字母y表示。

    13、模型训练时,通常会将数据集和标签集分成两部分:一部分用于训练,一部分用于测试。

    分割数据集是一项非常重要的工作,不同的分割方法对于模型训练的结果有不同的影响。

    14、近朱者赤,近墨者黑,距离谁最近,就和谁同类——这就是k-近邻分类。

    k-近邻分类是最简单、最容易的分类方法。

机器学习入门需要知晓的话

    15、k-近邻算法不仅可以用来解决分类问题,也可以用来解决回归问题。k-近邻回归预测样本的标签由它最近邻标签的均值计算而来。

    16、常用的回归模型的评价方法有均方误差、中位数绝对误差和复相关系数等。

    17、决策树、支持向量机(SVM)、贝叶斯等算法,既可以解决分类问题,也可以解决回归问题。

    18、随机森林是将多棵分类决策树或者回归决策树集成在一起的算法,是机器学习的一个分支—集成学习的方法。

    19、基于质心的聚类,无论是k均值聚类还是均值漂移聚类,其局限性都是显而易见的:无法处理细长条、环形或者交叉的不规则的样本分布。

    20、基于密度的空间聚类具有更好的适应性,可以发现任何形状的簇。

    基于密度的空间聚类,全称是基于密度的带噪声的空间聚类应用算法(英文简写为DBSCAN)。该聚类算法将簇视为被低密度区域分隔的高密度区域,这与K均值聚类假设簇总是凸的这一条件完全不同,因此可以发现任何形状的簇。

    21、主成分分析(PCA)是一种统计方法,也是最常用的降维方法。

    主成分分析通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。显然,主成分分析的降维并不是简单地丢掉一些特征,而是通过正交变换,把具有相关性的高维变量合并为线性无关的低维变量,从而达到降维的目的。

    以上就是小编为大家整理的“机器学习入门需要知晓的话”一文,更多相关信息尽在开课吧人工智能教程频道。

相关推荐:

2021大厂高频面试题精选,0元免费领

福利来袭,C++经典项目实战免费领取!

职场进阶必备,数据分析职业能力特训营

免责声明:本站所提供的内容均来源于网友提供或网络搜集,由本站编辑整理,仅供个人研究、交流学习使用。如涉及版权问题,请联系本站管理员予以更改或删除。
有用
分享