PCA是否具有分类功能?
data-mining
machine-learning
python
scikit-learn
5
0

据我了解,我认为PCA只能用于连续功能。但是,在尝试了解onehot编码和标签编码之间的区别时,是通过以下链接中的帖子获得的:

何时使用One Hot Encoding,LabelEncoder和DictVectorizor?

它指出,在PCA之后进行热编码是一种非常好的方法,这基本上意味着PCA被应用于分类特征。因此感到困惑,请在同一点上建议我。

参考资料:
Stack Overflow
收藏
评论
共 4 个回答
高赞 时间 活跃

MCA是用于分类数据降维的已知技术。在R中,有很多程序包可以使用MCA,甚至可以在混合环境中与PCA混合使用。在python中也存在一个mca库。 MCA运用了与PCA相似的数学,实际上是法国统计学家曾经说过的PCA:“数据分析是找到对角化的正确矩阵”

http://gastonsanchez.com/visually-enforced/how-to/2012/10/13/MCA-in-R/

收藏
评论

最近的出版物显示了在将被视为单纯形顶点的分类变量上计算PCA时产生的巨大且有意义的结果。

分类变量的协方差和PCA ,Nitsuma Hirotaka和Okada Takashi,2018年。

收藏
评论

我不同意其他观点。

虽然您可以对二进制数据 (例如,单热编码数据) 使用PCA,但这并不意味着它是一件好事,否则它将非常有效。

PCA被设计用于连续变量。它试图最小化方差(=平方偏差)。当您有二进制变量时,平方偏差的概念会分解。

是的,您可以使用PCA。是的,您会得到一个输出。它甚至是最小二乘的输出-好像PCA不会对此类数据进行分段处理。它可以工作,但意义远不如您希望的那样。而且据认为没有那么频繁的模式挖掘那么有意义。

收藏
评论

基本上,PCA查找并消除关于特征集的信息较少(重复)的信息,并减小特征空间的维数。换句话说,假设存在一个N维超空间,PCA会发现数据变化最大的M(M <N)个特征。以这种方式,数据可以被表示为M维特征向量。在数学上,它是特征空间的某种特征值和特征向量计算。

因此,特征是否连续是不重要的。

PCA在许多应用中被广泛使用。主要是为了消除分类/识别之前来自某些传感器或硬件的嘈杂,信息量较少的数据。

编辑:

从统计学上讲,分类特征可以视为区间[0,1]中的离散随机变量。期望E {X}和方差E {(XE {X})^ 2)的计算对于离散rvs仍然有效且有意义。对于分类功能,我仍然支持PCA的适用性。

考虑一种情况,您想预测“给定的一天是否会下雨”。您具有分类特征X,即“在给定的一天我必须上班吗”,1表示是,0表示否。显然,天气条件并不取决于我们的工作时间表,因此P(R | X)= P(R)。假设每周工作5天,那么在我们随机收集的数据集中,对于X而言,我们的1比0多。 PCA可能会导致在要素表示中放弃这种低方差维。

归根结底,PCA可以减少尺寸,同时减少信息损失。直观地,我们依靠给定轴上数据的方差来衡量其对任务的有用性。我认为将其应用于分类特征没有任何理论上的限制。实际值取决于应用程序和数据,连续变量也是如此。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号