相关功能和分类准确性
classification
machine-learning
6
0

我想问每个人有关相关特征(变量)如何影响机器学习算法分类准确性的问题。具有相关特征的意思是它们之间的相关性,而不是与目标类别的相关性(即几何图形的周长和面积,或者教育水平和平均收入)。在我看来,相关特征会对分类算法的准确性产生负面影响,我想说是因为相关性使其中之一变得毫无用处。真的是这样吗?问题是否随分类算法类型而变化?真的欢迎任何关于论文和讲座的建议!谢谢

参考资料:
Stack Overflow
收藏
评论
共 1 个回答
高赞 时间 活跃

相关功能本身不会影响分类准确性。现实情况中的问题是,我们有数量有限的训练示例用于训练分类器。对于固定数量的训练示例,增加特征数量通常会使分类精度提高到一定程度,但是随着特征数量的不断增加,分类精度最终将降低,因为相对于大量特征而言,我们随后被采样不足 。要了解有关此含义的更多信息,请查看维数诅咒

如果两个数值特征完全相关,则一个特征不会添加任何其他信息(由另一个决定)。因此,如果特征数量过多(相对于训练样本大小),则通过特征提取技术(例如,通过主成分 )来减少特征数量是有益的

相关性的影响确实取决于分类器的类型。一些非参数分类器对变量的相关性不太敏感(尽管训练时间可能会随着特征数量的增加而增加)。对于诸如高斯最大似然之类的统计方法,相对于训练样本大小而言,具有太多相关特征将使分类器在原始特征空间中不可用(样本数据的协方差矩阵变为奇异)。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号