08 Noise and Error

Published: 15 Sep 2018 Category: ml-foundations

在target function有noise的时候,VC bound holds;介绍最基本的错误衡量方式,见详细课件

Noise

理想情况下,存在一个target function,但噪音总会存在,比如信用卡审批例子

  • noise in $y$, good customer, mislabeled as bad
  • noise in $y$, same customers, different labels
  • noise in $x$: inaccurate customer information

关心的问题是,如果存在Noise,VC bound是否依然成立?

考虑推导用最原始的Bin of Marbles的例子,如果i.i.d.,后面一系列推导假设类似,即VC bound holds。

ml-foundations-noise-1

关于target distribution,其实可以看做

ideal mini-target + noise

ml-foundations-noise-2

Error Measure

用以衡量$g$于$f$的相似程度。常见的比如point wise error measure,不同学习任务,对应的error measure也不一样。

ml-foundations-error-measure

Algorithmic Error Measure

Error measure一般要根据学习任务设定。

err is application/user-dependent

比如0/1 error penalizes both types equally,但有些场景是不太适用的,比如Fingerprint Verification for Supermarket/CIA

对超市来说,false accept代价很小,false reject代价稍大。

ml-foundations-fingerprint-verfication-1

对CIA来说,false accept代价极大,false reject代价不大。

ml-foundations-fingerprint-verfication-2

Weighted Classification

不同的误分类代价不同,权重不同,error measure也不一样,算法能保证$E_{in}^w(h)$较小吗?

其实算法能保证$E_{in}^{0/1}$较小,$E_{in}^{w}$只需要把权重大的样本多访问几次,就得到等价问题。

ml-foundations-weighted-classification