写在前面
我们在这里将学习到以下:
- 机器学习定义
- 基本术语
- 假设空间
- 归纳偏好
- 发展历程(了解即可)
##何为机器学习
机器学习就是一门一门研究关于“学习算法”的学科。“学习算法”就是计算机从数据中产生的“模型”。“数据”可以类比于我们生活中的经验。我们可以基于经验来作出预判,机器学习也可以通过“学习算法”来作出预判。
基本术语
数据集(data set):数据的集合
样本(sample)或示例(instance):一个事件或对象
属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质
属性值(attribute value):属性上的值
属性空间(attribute space)或样本空间(sample space)或输入空间:属性张成的空间
特征向量(feature vector):样本空间中的所对应得点,维度是特征
训练集(training set):训练样本组成的集合为训练集,训练集可分为训练样本和验证样本,监督学习中有标记(label)y,非监督学习中没有标记y
测试集(testing set):学得模型后,用来预测的的数据集合
监督学习(supervised learning):训练数据拥有标记信息,例如:回归(regression),分类(classification),SVM,决策树等
无监督学习(unsupervised learning):训练数据没有标记信息,例如:聚类(clustering)
泛化能力(generalization):机器学习学习得到的模型能够很好适用于整个样本空间,并不单单适用于训练样本,这样适用于新样本的能力,成为泛化能力
假设空间
归纳(induction):从特殊到一般的”泛化”过程,即从具体的事实归结出一般性规律
演绎(deduction):从一般到特殊的“特化”过程,即从基础原理推演出具体状况
机器学习是从样例中学习的,所以可以称为是”归纳学习”。
假设空间:是在学习过程中所有假设组成空间。
版本空间(version space):一个与训练集一致的“假设集合”
####难点分析:
假设空间规模问题:
书中例子为西瓜,其中属性有三种,分别为色泽、根蒂、敲声
这三种属性分别有3/3/3种可能取值,但假设空间却是4x4x4+1 =65
这里的假设空间中,属性的“无论取什么属性值都合适,即通配符*”,也是一种属性值,而不是作为单一属性的三种可能取值的集合存在。
因此假设空间是:
{青绿、乌黑、浅白、*} x {蜷缩、稍蜷、硬挺、*} x {浊响、清脆、沉闷、*} +1(没有“好瓜”的定义) = 65
归纳偏好
对于一个具体的学习算法而言,需要要产生一个模型,这时候,学习算法本身的“偏好”就会起到关键的作用。
机器学习算法在学习过程中对某种类型假设的偏好,成为“归纳偏好(inductive bias)”,或简称为“偏好”。
任何一个有效的机器学习算法必有其归纳偏好。
#####“奥卡姆剃刀原理(Occam’s razor)“:
若有多个假设与观察一致,则选择最简单的那个。注意:“奥卡姆剃刀“并非唯一可行的原则
#####“没有免费的午餐定理(No Free Lunch Theorem,简称NFL定理)“:
总误差与学习算法无关。
所以让我们理解并认识到: 脱离具体问题,空泛地谈论“什么学习算法更好”是毫无意义的。