归一化、标准化、正则化

数据分析中为了方便下一步对数据进行处理,会经常用到归一化Normalization 标准化Standardization 正则化Regularization

总结

归一化Normalization

把数据变为(0,1)之间的小数,比如min-max归一化;

主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速;

标准化Standardization/Normalization

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。z-score标准化,即零-均值标准化(常用方法),y=(x-μ)/σ;

归一化和标准化的英文翻译是一致的,但是根据其用途(或公式)的不同去理解(或翻译)

正则化Regularization

用一组与原不适定问题相“邻近”的适定问题的解,去逼近原问题的解,这种方法称为正则化方法;

要点

归一化

常见目的:消除不同数据之间的量纲:

归一化是为了消除不同数据之间的量纲,方便数据比较和共同处理,比如在神经网络中,归一化可以加快训练网络的收敛性;

标准化

常见目的:方便数据的下一步处理

标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理;

正则化

常见目的:增加引导约束

正则化而是利用先验知识,在处理过程中引入正则化因子(regulator),增加引导约束的作用,比如在逻辑回归中使用正则化,可有效降低过拟合的现象

归一化(Normalization)

  1. 把数据变为(0,1)之间的小数。主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速。
  2. 把有量纲表达式变换为无量纲表达式,成为纯量。经过归一化处理的数据,处于同一数量级,可以消除指标之间的量纲和量纲单位的影响,提高不同数据指标之间的可比性

主要算法:

  1. 线性转换,即min-max归一化(常用方法)

y=(x-min)/(max-min)

  1. 对数函数转换

y=log10(x)

  1. 反余切函数转换

y=atan(x)*2/PI

标准化(Standardization)

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。

主要方法:

  1. z-score标准化,即零-均值标准化(常用方法)

$x_i=(x-\mu)/\sigma$

其中$\mu$是样本数据均值mean,$\sigma$是样本数据标准差std

上图则是一个散点序列的标准化过程:原图->减去均值->除以标准差

显而易见,变成了一个均值为 0 ,方差为 1 的分布,下图通过 Cost 函数让我们更好的理解标准化的作用。

机器学习的目标无非就是不断优化损失函数,使其值最小。在上图中,$ J(w,b) $就是我们要优化的目标函数。

标准化后可以更容易得出最优参数$ w $,$ b $并计算出$ J(w,b) $最小值,从而达到加速收敛的效果。

标准化是一种统计的处理,基于正态分布的假设,将数据变换为均值为0、标准差为1的标准正态分布。但即使数据不服从正态分布,也可以用此法。特别适用于数据的最大值和最小值未知,或存在孤立点。

  1. 小数定标标准化

y=x/10^j (j确保max(|y|)<1)

通过移动x的小数位置进行标准化

  1. 对数Logistic模式

y=1/(1+e^(-x))

正则化(Regularization)

正则化主要用于避免过拟合的产生和减少网络误差。

正则化一般具有如下形式:

$J(w,b)=1/m\sum_{i=1}^mL(f(x),y)+\lambda R(f)$

其中,第 1 项是经验风险,第 2 项是正则项,$\lambda>=0$为调整两者之间关系的系数。

第 1 项的经验风险较小的模型可能较复杂(有多个非零参数),这时第 2 项的模型复杂度会较大。

常见的有正则项有 L1 正则L2 正则以及Dropout ,其中 L2 正则 的控制过拟合的效果比 L1 正则 的好。

正则化的作用是选择经验风险与模型复杂度同时较小的模型

$L_p$范数

$L_p$正则的 L 是指$L_p$范数,定义为:

$L_0$范数:$||w||_0=\neq(i)withx_i\neq0$ (非零元素个数)

$L_1$范数:$||w||_1=\sum_{i=1}^d|x_i|$(每个元素绝对值之和)

$L_2$范数:$||w||_2=(\sum_{i=1}^d x_i^2)^{1/2} $(欧氏距离)

$L_p$范数:$||w||_p=(\sum_{i=1}^d x_i^p)^{1/p} $(欧氏距离)

在机器学习中,若使用了$||w||_p$作为正则项,我们则说该机器学习任务引入了$L_p$正则化

L1 正则 Lasso regularizer

$J(w,b)=1/m\sum_{i=1}^mL(f(x),y)+{\lambda/m }||w||_1$

  • 凸函数,不是处处可微分
  • 得到的是稀疏解(最优解常出现在顶点上,且顶点上的 w 只有很少的元素是非零的)

L2 正则 Ridge Regularizer / Weight Decay

$J(w,b)=1/m\sum_{i=1}^mL(f(x),y)+{\lambda/2m }||w||_2^2$

  • 凸函数,处处可微分
  • 易于优化

Dropout

Dropout 主要用于神经网络,其原理是使神经网络中的某些神经元随机失活,让模型不过度依赖某一神经元,达到增强模型鲁棒性以及控制过拟合的效果。

以下内容转自或参考:

归一化、标准化、正则化的概念和区别

ML 入门:归一化、标准化和正则化 -

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2020-2023 cyg
  • 访问人数: | 浏览次数: