例如,如果进行逻辑回归,则将使用S型函数来估计概率,将交叉熵用作损失函数,并使用梯度下降来将其最小化。这样做但将MSE用作损失函数可能会导致非凸问题,您可能会发现局部极小值。使用交叉熵将导致凸问题,您可能会在其中找到最佳解决方案。
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
这里还有一个有趣的分析: https : //jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-神经网络分类器训练的平方误差/
0
尽管以上两种方法都为更好的预测接近度提供了更好的分数,但是交叉熵仍然是首选。是在每种情况下还是在某些特殊情况下,我们都倾向于使用交叉熵而不是MSE?