第一个问题是为什么我们需要规范化/标准化?
=>我们以数据集为例,其中有薪水变量和年龄变量。年龄范围从0到90,薪水范围从2万到25万。
我们比较2个人的差异,然后年龄差异将在100以下,而薪水差异将在数千之间。
因此,如果我们不希望一个变量主导另一个变量,则可以使用Normalization或Standardization。现在,年龄和薪水将处于相同的比例,但是当我们使用标准化或规范化时,我们将失去原始价值,并将其转化为某些价值。因此,如果我们想从我们的数据中得出推论,那么就失去了解释性,但极为重要。
归一化将值重新缩放为[0,1]的范围。也称为最小-最大缩放。
标准化会重新缩放数据,使其平均值(μ)为0,标准偏差(σ)为1,因此可以得出正态图。
下面的例子:
另一个例子:
在上图中,您可以看到我们的实际数据(绿色)以黑白1到6传播,标准化数据(红色)以-1到3左右传播,而标准化数据(蓝色)以0到1左右传播。 。
通常,许多算法要求您先标准化/标准化数据,然后再将其作为参数传递。像PCA中一样,我们通过将3D数据绘制为1D(例如)来进行尺寸缩减,这里需要进行标准化。
但是在图像处理中,需要在处理之前对像素进行标准化。但是在规范化过程中,我们会丢失异常值(极端数据点-太低或太高),这是一个轻微的劣势。
因此,这取决于我们的选择偏好,但最推荐使用标准化方法,因为它会产生一条正常曲线。
0
我正在使用线性回归来预测数据。但是,当我标准化(Vs)标准化变量时,我得到的是完全相反的结果。
归一化= x -xmin / xmax – xmin零分数标准化= x-xmean / xstd
谢谢,桑托什