为什么要缩放功能?
machine-learning
svm
5
0

我发现在SVM(支持向量机)问题中进行缩放确实可以改善其性能……我已阅读以下说明:

“缩放的主要优点是避免较大数值范围的属性主导较小数值范围的属性。”

不幸的是,这没有帮助我。有人可以给我更好的解释吗?先感谢您!

参考资料:
Stack Overflow
收藏
评论
共 4 个回答
高赞 时间 活跃

我们可以通过将每个输入值都设置在大致相同的范围内来加快梯度下降的速度。这是因为θ在小范围内会迅速下降,而在大范围内会缓慢下降,因此当变量非常不均匀时,会无效率地振荡到最佳状态。这是来自Andrews NG的Coursera课程。

因此,完成了一些诸如标准化数据的工作。有时研究人员想知道特定的观察是普遍的还是例外的。用从平均值中去除的标准偏差的数量表示分数。这个数字就是我们所说的z分数。如果我们将原始分数重新编码为z分数,则表示我们标准化了一个变量。

收藏
评论

从另一个角度来看只是个人想法。
1.为什么要素缩放会产生影响?
应用机器学习算法有一个词,“垃圾进,垃圾出”。功能的真实反映越多,算法将获得越高的准确性。这也适用于机器学习算法如何处理要素之间的关系。与人脑不同,例如,当机器学习算法进行分类时,所有特征都由相同的坐标系表示和计算,从某种意义上说,这在特征之间建立了先验假设 (实际上并不是数据本身的反映)。而且大多数算法的本质是在特征之间找到最合适的权重百分比以拟合数据。因此,当这些算法的输入为非缩放特征时,大规模数据对权重的影响更大。实际上,这并不是数据本身的反映。
2.为什么通常通过特征缩放来提高准确性?
在无监督机器学习算法中,有关超参数(或超超参数)选择(例如,分层Dirichlet过程,hLDA)的常见做法是,您不应添加任何关于数据的个人主观假设。最好的方法只是假设它们具有出现的相等概率。我认为这也适用。特征缩放只是尝试假设所有特征都有平等机会来影响权重,这更真实地反映了您对数据了解的信息/知识。通常也会导致更好的精度。

顺便说一句,关于仿射变换不变性和收敛更快,有兴趣的链接在这里上stats.stackexchange.com。

收藏
评论

特征缩放是应用于优化问题(不仅仅是SVM)的一般技巧。解决SVM优化问题的下划线算法是梯度下降。安德鲁·吴在他coursera影片的最佳解释这里

我将在此处说明核心思想(我借用了安德鲁的幻灯片)。假设您只有两个参数,并且其中一个参数可以采用相对较大的值范围。然后,成本函数的轮廓可能看起来像个又高又瘦的椭圆形(请参见下面的蓝色椭圆形)。您的渐变(渐变路径以红色绘制)可能需要很长时间,并且要来回寻找最佳解决方案。
在此处输入图片说明

相反,如果您缩放了要素,则成本函数的轮廓可能看起来像圆形;则渐变可以采用更直的路径并更快地达到最佳点。 在此处输入图片说明

收藏
评论

支持SVM中缩放功能背后的真正原因是这样的事实,即该分类器不是仿射变换不变式 。换句话说,如果将一个功能乘以1000,则SVM提供的解决方案将完全不同。它与基础的优化技术几乎没有关系(尽管它们受这些规模问题的影响,但它们仍应收敛到全局最优)。

考虑一个例子:您有一个男人和一个女人,由他们的性别和身高(两个特征)编码。让我们假设一个非常简单的情况,使用这样的数据:

0->男人1->女人

╔═════╦════════╗
║ sex ║ height ║
╠═════╬════════╣
║  1  ║  150   ║
╠═════╬════════╣
║  1  ║  160   ║
╠═════╬════════╣
║  1  ║  170   ║
╠═════╬════════╣
║  0  ║  180   ║
╠═════╬════════╣
║  0  ║  190   ║
╠═════╬════════╣
║  0  ║  200   ║
╚═════╩════════╝

让我们做些愚蠢的事情。训练它以预测人的性别,因此我们尝试学习f(x,y)= x(忽略第二个参数)。

显而易见,对于此类数据,最大的边缘分类器将在“ 175”身高附近的某个位置“水平”切割飞机,因此一旦获得新的样本“ 0 178”(身高178cm的女性),我们便得到了是一个男人。

但是,如果我们将所有内容按比例缩小到[0,1],我们将得到……

╔═════╦════════╗
║ sex ║ height ║
╠═════╬════════╣
║  1  ║  0.0   ║
╠═════╬════════╣
║  1  ║  0.2   ║
╠═════╬════════╣
║  1  ║  0.4   ║
╠═════╬════════╣
║  0  ║  0.6   ║
╠═════╬════════╣
║  0  ║  0.8   ║
╠═════╬════════╣
║  0  ║  1.0   ║
╚═════╩════════╝

现在最大的边距分类器几乎按预期(垂直)“切开”飞机,因此在给定新样本“ 0 178”(也将其缩放到“ 0 0.56”左右)的情况下,我们认为它是女性(正确!)

因此总的来说,缩放可以确保仅仅因为一些功能而不会导致将它们用作主要的预测器

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号