线性回归::归一化(Vs)标准化
feature-extraction
machine-learning
5
0

我正在使用线性回归来预测数据。但是,当我标准化(Vs)标准化变量时,我得到的是完全相反的结果。

归一化= x -xmin / xmax – xmin零分数标准化= x-xmean / xstd

a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?

谢谢,桑托什

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

这是有道理的,因为标准化和标准化会做不同的事情。

规范化将您的数据转换为0到1之间的范围

标准化会转换您的数据,以使所得分布的平均值为0,标准差为1

标准化/标准化旨在实现相似的目标,即创建具有相似范围的要素。我们希望如此,这样就可以确保我们能够捕获特征中的真实信息,并且不会因为某个特征的值比其他特征大得多而对某个特征进行权衡。

如果您的所有功能都在彼此相似的范围内,则无需真正进行标准化/标准化。但是,如果某些功能自然具有比其他功能大/小得多的值,则需要进行标准化/标准化

如果您要标准化至少一个变量/功能,那么我也会对所有其他变量/功能进行同样的处理

收藏
评论

第一个问题是为什么我们需要规范化/标准化?

=>我们以数据集为例,其中有薪水变量和年龄变量。年龄范围从0到90,薪水范围从2万到25万。

我们比较2个人的差异,然后年龄差异将在100以下,而薪水差异将在数千之间。

因此,如果我们不希望一个变量主导另一个变量,则可以使用Normalization或Standardization。现在,年龄和薪水将处于相同的比例,但是当我们使用标准化或规范化时,我们将失去原始价值,并将其转化为某些价值。因此,如果我们想从我们的数据中得出推论,那么就失去了解释性,但极为重要。

归一化将值重新缩放为[0,1]的范围。也称为最小-最大缩放。

标准化会重新缩放数据,使其平均值(μ)为0,标准偏差(σ)为1,因此可以得出正态图。

在此处输入图片说明

下面的例子:

在此处输入图片说明

另一个例子:

在此处输入图片说明

在上图中,您可以看到我们的实际数据(绿色)以黑白1到6传播,标准化数据(红色)以-1到3左右传播,而标准化数据(蓝色)以0到1左右传播。 。

通常,许多算法要求您先标准化/标准化数据,然后再将其作为参数传递。像PCA中一样,我们通过将3D数据绘制为1D(例如)来进行尺寸缩减,这里需要进行标准化。

但是在图像处理中,需要在处理之前对像素进行标准化。但是在规范化过程中,我们会丢失异常值(极端数据点-太低或太高),这是一个轻微的劣势。

因此,这取决于我们的选择偏好,但最推荐使用标准化方法,因为它会产生一条正常曲线。

收藏
评论

请注意,结果可能不一定会如此不同。您可能只需要为两个选项使用不同的超参数,即可得出相似的结果。

理想的情况是测试最适合您的问题的方法。如果由于某种原因您负担不起,那么大多数算法可能会从标准化中受益,而不是从标准化中受益。

有关何时应优先于另一方法的一些示例,请参见此处

例如,在聚类分析中,为了比较基于某些距离量度的要素之间的相似性,标准化可能特别重要。另一个突出的例子是主成分分析,在这种情况下,我们通常更喜欢标准化而不是最小-最大缩放,因为我们对最大化方差的成分感兴趣(取决于问题以及PCA是否通过相关矩阵而不是通过相关矩阵计算成分)。协方差矩阵;但在我之前的文章中有更多关于PCA的信息。

但是,这并不意味着Min-Max缩放根本没有用!流行的应用是图像处理,其中必须将像素强度标准化以适合特定范围内(即RGB颜色范围为0到255)。而且,典型的神经网络算法需要0-1尺度的数据。

标准化相对于标准化的一个缺点是,它会丢失数据中的某些信息,尤其是有关离群值的信息。

同样在链接页面上,有以下图片:

标准化和标准化数据集的图

如您所见,缩放比例将所有数据紧密地聚集在一起,这可能不是您想要的。这可能会导致诸如梯度下降之类的算法花费更长的时间才能收敛到与标准化数据集相同的解决方案,甚至可能使其无法实现。

“规范化变量”实际上没有任何意义。正确的术语是“规范化/缩放要素”。如果要归一化或缩放一个功能,则其余功能应相同。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号