mtry的默认设置非常明智,因此实际上不需要对其进行处理。有一个用于优化此参数的功能tuneRF
。但是,请注意,这可能会导致偏差。
引导复制的数量没有优化。我通常从ntree=501
开始,然后绘制随机森林对象。这将向您显示基于OOB错误的错误收敛。您希望有足够的树来稳定错误,但又不要过多,以至于无法过度关联集合,从而导致过度拟合。
需要注意的是:变量交互的稳定速度要比错误稳定的慢,因此,如果您有大量的自变量,则需要更多的重复。我将ntree保留为奇数,以便可以打破联系。
对于您问题的维度,我将从ntree=1501
开始。我还建议您考虑一种已发布的变量选择方法,以减少自变量的数量。
0
我正在使用R包
randomForest
对某些生物学数据进行回归分析。我的训练数据大小是38772 X 201
。我只是想知道-多少个树
ntree
和每个级别的mtry
变量个数mtry
什么mtry
?是否存在一个近似公式来查找此类参数值?输入数据中的每一行都是200个字符,代表氨基酸序列,我想建立一个回归模型以使用这种序列来预测蛋白质之间的距离。