1-机器学习简述
1-机器学习简述
什么是机器学习
机器学习就是计算机对一部分数据进行学习,然后对另外一些数据进行预测和判断。
核心是:使用算法解析数据,从中学习,然后对新数据做出决定或预测。
也就是说,计算机利用获取的数据得出某一模型,然后利用此模型进行预测的一种方法。
机器学习是一门多领域交叉学科,设计概率论,高等数学、统计学、计算机科学等多门学科。
机器学习的概念就是 通过海量的训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测。
机器学习分类
机器学习主要分为两类。
- 监督学习(Supervised Learning)
- 无监督学习(Unsupervised Learning)
分别进行解释。
监督学习
监督学习就是训练算法的数据集有对应的类别或正确值。
即利用一组已知类别的样本调整分类器参数,使其达到所要求的性能。
通俗地讲,就是根据已有的数据集,直到输入和输出结果之间的关系。根据这种已知的关系,训练得到最优模型。
例如根据房屋面积预测出售价格,已知多个房屋的面积和出售价格,来预测新的房屋的出售价格。这个例子中,数据集有房屋的面积和它们的售出价格,所以符合监督学习的特点,即售出价格就是正确值。
监督学习分类
监督学习可分为**回归(regression)和分类(classification)**问题。
回归
回归问题是针对解决连续型变量问题的,即对已经存在的点(训练数据)进行分析,拟合出适当的函数模型,这是y就是数据的标签,而对于一个新的自变量x,通过函数模型得到标签y。
上述的房屋价格预测问题,就是回归问题。因为房屋价格是连续性变量。
分类
分类问题通常是针对离散型变量问题。其输出的结果是有限的。
例如垃圾邮件分类,输出的结果只有是垃圾邮件和不是垃圾邮件两类。
当然也有 多个输出类别问题,例如三个四个,但输出结果是离散的,是有限的。
无监督学习
无监督学习使用的样本数据集没有所谓的“正确答案”。即无监督学习主要通过类别未知(没有被标记)的训练样本来解决各类问题。
无监督学习从无标注的数据中学习数据的统计规律或内在结构。
简单来说,无监督学习的本质就是:虽然不知道这些数据是什么,但是我知道哪些数据是相似的,哪些数据是不同的。
无监督学习两类常见的问题是聚类(clustering)和降维问题。
聚类
简单来说就是一种自动分类的方法。在监督学习中,很清楚每一个分类是什么。但是在聚类中不是,并不清楚聚类中的几个分类是什么意思。
每一个分类称为一个簇(cluster)。
降维
一个例子分清监督学习和非监督学习
如果给定计算机猫和狗的图片,并告诉计算机哪个是猫,哪个是狗,让计算机学习,然后给计算机一个新的图片,让计算机去判断图片包含猫或者狗,这种带着打好的标签去学习的方法叫做 监督学习。
而如果同样给定猫和狗的照片,但是不告诉计算机哪个是猫,哪个是狗,让计算机自己去判断总结猫和狗照片的不同之处,来完成猫和狗的分类。这种没有提前打好标签而是直接凭计算机去观察不同数据之间的特性从而发现规律的学习方法叫做 非监督学习。