首先,您需要将数据分为训练和测试集(可能还需要验证集)。
不要忘记测试数据点代表真实数据。解释性(或预测性)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来对数据进行居中和归一化的技术。如果您采用整个数据集的均值和方差,则会将未来的信息引入训练解释变量(即均值和方差)。
因此,您应该对训练数据进行特征归一化。然后也对测试实例执行归一化,但是这次使用训练解释变量的均值和方差。这样,我们可以测试和评估我们的模型是否可以很好地推广到新的,看不见的数据点。
0
首先,您需要将数据分为训练和测试集(可能还需要验证集)。
不要忘记测试数据点代表真实数据。解释性(或预测性)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来对数据进行居中和归一化的技术。如果您采用整个数据集的均值和方差,则会将未来的信息引入训练解释变量(即均值和方差)。
因此,您应该对训练数据进行特征归一化。然后也对测试实例执行归一化,但是这次使用训练解释变量的均值和方差。这样,我们可以测试和评估我们的模型是否可以很好地推广到新的,看不见的数据点。
0
您可以使用健身然后转变学习
normalizer = preprocessing.Normalizer().fit(xtrain)
转变
xtrainnorm = normalizer.transform(xtrain)
xtestnorm = normalizer.transform(Xtest)
0
我想将数据分为训练集和测试集,是否应该在拆分之前或之后对数据进行归一化处理?建立预测模型时,它有什么区别吗?提前致谢。