在分割训练和测试数据之前或之后对数据进行归一化?
machine-learning
8
0

我想将数据分为训练集和测试集,是否应该在拆分之前或之后对数据进行归一化处理?建立预测模型时,它有什么区别吗?提前致谢。

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

首先,您需要将数据分为训练和测试集(可能还需要验证集)。

不要忘记测试数据点代表真实数据。解释性(或预测性)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来对数据进行居中和归一化的技术。如果您采用整个数据集的均值和方差,则会将未来的信息引入训练解释变量(即均值和方差)。

因此,您应该对训练数据进行特征归一化。然后也对测试实例执行归一化,但是这次使用训练解释变量的均值和方差。这样,我们可以测试和评估我们的模型是否可以很好地推广到新的,看不见的数据点。

收藏
评论

您可以使用健身然后转变学习

normalizer = preprocessing.Normalizer().fit(xtrain)

转变

xtrainnorm = normalizer.transform(xtrain) 
xtestnorm = normalizer.transform(Xtest) 
收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号