精读西瓜书(一)

写在前面

我们在这里将学习到以下:

  • 机器学习定义
  • 基本术语
  • 假设空间
  • 归纳偏好
  • 发展历程(了解即可)

##何为机器学习

机器学习就是一门一门研究关于“学习算法”的学科。“学习算法”就是计算机从数据中产生的“模型”。“数据”可以类比于我们生活中的经验。我们可以基于经验来作出预判,机器学习也可以通过“学习算法”来作出预判。

基本术语

数据集(data set):数据的集合

样本(sample)或示例(instance):一个事件或对象

属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质

属性值(attribute value):属性上的值

属性空间(attribute space)或样本空间(sample space)或输入空间:属性张成的空间

特征向量(feature vector):样本空间中的所对应得点,维度是特征

训练集(training set):训练样本组成的集合为训练集,训练集可分为训练样本和验证样本,监督学习中有标记(label)y,非监督学习中没有标记y

测试集(testing set):学得模型后,用来预测的的数据集合

监督学习(supervised learning):训练数据拥有标记信息,例如:回归(regression),分类(classification),SVM,决策树等

无监督学习(unsupervised learning):训练数据没有标记信息,例如:聚类(clustering)

泛化能力(generalization):机器学习学习得到的模型能够很好适用于整个样本空间,并不单单适用于训练样本,这样适用于新样本的能力,成为泛化能力

假设空间

归纳(induction):从特殊到一般的”泛化”过程,即从具体的事实归结出一般性规律

演绎(deduction):从一般到特殊的“特化”过程,即从基础原理推演出具体状况

机器学习是从样例中学习的,所以可以称为是”归纳学习”。

假设空间:是在学习过程中所有假设组成空间。

版本空间(version space):一个与训练集一致的“假设集合”

####难点分析:

假设空间规模问题:

书中例子为西瓜,其中属性有三种,分别为色泽、根蒂、敲声

这三种属性分别有3/3/3种可能取值,但假设空间却是4x4x4+1 =65

这里的假设空间中,属性的“无论取什么属性值都合适,即通配符*”,也是一种属性值,而不是作为单一属性的三种可能取值的集合存在。

因此假设空间是:

{青绿、乌黑、浅白、*} x {蜷缩、稍蜷、硬挺、*} x {浊响、清脆、沉闷、*} +1(没有“好瓜”的定义) = 65

归纳偏好

对于一个具体的学习算法而言,需要要产生一个模型,这时候,学习算法本身的“偏好”就会起到关键的作用。

机器学习算法在学习过程中对某种类型假设的偏好,成为“归纳偏好(inductive bias)”,或简称为“偏好”。

任何一个有效的机器学习算法必有其归纳偏好。

#####“奥卡姆剃刀原理(Occam’s razor)“:

若有多个假设与观察一致,则选择最简单的那个。注意:“奥卡姆剃刀“并非唯一可行的原则

#####“没有免费的午餐定理(No Free Lunch Theorem,简称NFL定理)“:

总误差与学习算法无关。

所以让我们理解并认识到: 脱离具体问题,空泛地谈论“什么学习算法更好”是毫无意义的。


-------------本文结束感谢您的阅读-------------


本文标题:精读西瓜书(一)

文章作者:HuXuzhe

发布时间:2018年09月01日 - 23:09

最后更新:2018年09月02日 - 14:09

原始链接:https://huxuzhe.github.io/2018/09/02/精读西瓜书-一/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

HuXuzhe wechat
关注微信公众号:"AI数据分析算法",轻轻扫一扫,加入我们的AI_LEGENDS !
坚持原创,您的支持将鼓励我继续创作!
0%