写在前面
继续西瓜书第二章内容,这篇内容以比较检验,偏差与方差为主,即将结束西瓜书第二章内容。
知识点归纳
比较检验
有了实验评估方法和性能度量,就能对学习器的性能进行评估比较。
但是怎么来做这个比较?
实际上,机器学习中性能比较是比较复杂的,这里面主要涉及到三个重要因素。
1、希望比较的是泛化性能,但实际获得的是测试集上的性能,两者对比结果可能未必相同
2、测试集上的性能与测试集本身的选择有很大关系,即便是相同的测试集,测试样例不同,测试结果也会有不同
3、学习算法本身就有一定的随机性,即便相同的参数、相同的测试集,运行多次,结果也会有不同
因此,统计假设检验(hypothesis test)为我们进行学习器性能比较提供了重要依据。
假设检验
为了便于讨论,本篇默认 以错误率为性能度量,用$\epsilon$表示。
比较检验的重要方法是统计假设检验。我们先来链接一下何为假设检验,若想详细了解,请自行学习并参考《概率论与数理统计》浙江大学[第四版]。下面简单的解释一下假设检验。
在总体的分布函数完全未知或只知其形式,但不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设。我们要根据样本对所提出的假设作出是接受,还是拒绝的决策。假设检验是作出这一决策的过程。
假设检验四步走:
1、条件:满足条件(总体的分布函数完全未知或已知其形式,但不知其参数)
2、目标:推断总体的某位未知特性为目标
3、方法:提出某些关于总体的假设
4、行动:根据样本对所提出的假设作出是接受还是拒绝的决策
假设检验在机器学习的【比较检验】中是如何应用的,接下来来说明解释。
假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想。
1、条件:
现实任务中,我们并不知道学习器的泛化错误率$\epsilon$,只能获知其测试错误率$\hat{\epsilon}$.泛化错误率与测试错误率未必相同,但直观上,二者接近性比较大。因此,可根据测试错误率估推出泛化错误率的分布。
2、目标:
“若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。”这便是总体的未知性。
3、方法:
以书中的例子为例,“$\epsilon = \epsilon_0$”,将泛化错误率假设为某数值$\epsilon_0$。
4、行动:
通过显著度$\alpha$来判断做出假设该被接受还是拒绝。
举例说明:
测试错误率:$\hat{\epsilon}$
泛化错误率:$\epsilon$
测试样本数:$m$
误分类样本数:$m^\prime$
未完待续