13 Hazard of Overfitting

Published: 25 Sep 2018 Category: ml-foundations

什么是过拟合,什么引起过拟合,如何解决过拟合,见详细课件

关注几个核心问题

  • What is Overfitting
  • The Role of Noise and Data Size
  • Dealing with Overfitting

过拟合

注意区分过拟合与Bad Generalization。当从简单模型切换到复杂模型时,$E_{in}$减少,但$E_{out}$增加,表示发生了过拟合。

ml-foundations-bad-generalization-and-overfitting

Data Size

从Case Study入手,过拟合表现很直观。

ml-foundations-overfitting-case-study

从下面learning curve看出,Data Size对过拟合影响明显。当数据量小的时候,用复杂模型,是很不明智的。

ml-foundations-overfitting-learning-curve

Noise

考察Noise的影响呢,设计如下实验:Gaussian iid noise $\epsilon$ with level $\sigma^2$。

分别用$g_2$和$g_{10}$拟合上述target function,衡量过拟合程度,用$E_{out}(g_{10}) - E_{in}(g_2)$表示。

ml-foundations-impact-of-noise-and-data-size

《Learning From Data》教材封面的两张图!!!从中可以看出四个常见的过拟合因素。其中deterministic noise指的是,复杂模型的信息,简单假设捕获不了,表现的像noise一样。

Target complexity acts like noise.

ml-foundations-deterministic-noise

解决过拟合

用一个开车的例子类比。简单的解决过拟合手段,比如简单的例子

  • data cleaning/pruning
    • possibly helps, but effect varies
    • correct the label (data cleaning)
    • remove the example (data pruning)
  • data hinting
    • possibly helps, but watch out virtual example not iid
    • add virtual examples by shifting/… given digits

ml-foundations-driving-analogy

更系统高效的手段,比如Regularization/Validation。