数据挖掘中的自举数据是什么?
data-mining
machine-learning
4
0

最近,我碰到了这个词,但实际上不知道它指的是什么。我已经在网上搜索过,但收获不大。谢谢。

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

采样一下您在星期六醒来的一天中的时间。在某些星期五晚上,您喝了很多酒,所以您起得很早(但是回去睡觉)。其他日子,您会在正常时间醒来。其他日子你睡。

结果如下:

[3.1、4.8、6.3、6.4、6.6、7.3、7.5、7.7、7.9、10.1]

您起床的平均时间是几点?

好吧,现在是6.8点(或6:48)。对我来说有点早。

您对下周六何时醒来的预测有多好?您能否量化您可能会犯的错误?

这是一个非常小的样本,我们不确定底层流程的分布,因此使用标准参数统计技术†可能不是一个好主意。

我们为什么不对样本进行随机抽样,然后计算均值并重复一次呢?这将使我们对我们的估计有多糟糕做出估计。

我做了几次,平均值在5.98到7.8之间

这就是所谓的bootstrap ,它最初是由Bradley Efron在1979年提到的。

一个变种称为“ 折刀” ,您在其中采样除一个数据集以外的所有数据集,取平均值并重复。折刀平均值为6.8(与算术平均值相同),范围为6.4至7.2。

另一种方法称为k折交叉验证 ,您可以(随机)将数据集分成k个大小相等的部分,计算除一个部分外的所有部分的平均值,然后重复k次。 5倍交叉验证平均值是6.8,范围是4到9。

†此分布恰好是正态分布。平均值的95%置信区间为5.43至8.11,合理接近,但大于自举平均值。

收藏
评论

如果没有足够的数据来训练算法,则可以通过(均匀地)随机选择项目并复制(带有替换项)来增加训练集的大小。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号