标记数据和未标记数据有什么区别?
machine-learning
5
0

他在塞巴斯蒂安·瑟鲁姆(Sebastian Thrum)的这段视频中说,监督学习适用于“标记”数据,无监督学习适用于“未标记”数据。他是什么意思?谷歌搜索“带标签的数据与未带标签的数据”返回了大量关于该主题的学术论文。我只想知道基本区别。

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

机器学习中有许多不同的问题,因此我将以分类为例。在分类中,标记的数据通常由一包多维特征向量(通常称为X)组成,每个向量都有一个标记Y,通常仅为与某个类别相对应的整数。 (面部= 1,非面部= -1)。未标记的数据缺少Y分量。在许多情况下,未标记的数据很多并且很容易获得,但是标记的数据通常需要人工/专家进行注释。

收藏
评论

通常, 未标记的数据由您可以从世界上相对容易地获得的自然或人为人工制品的样本组成。未标记数据的一些示例可能包括照片,录音,视频,新闻,推文,X射线(如果您正在处理医疗应用程序)等。每条未标记数据都没有“解释”-只包含数据,没有别的。

加标签的数据通常采用一组未加标签的数据,并以某种有意义的“标签”,“标签”或“类”扩充该未加标签的数据的每一条,这些“标签”,“标签”或“类”以某种方式提供信息或希望知道。例如,上述类型的未标记数据的标签可能是这张照片包含一匹马还是一头牛,在此音频记录中说出了哪些字眼,该视频中正在执行什么类型的操作,该新闻文章的主题是什么?是,这条推文的总体感觉是什么,此X射线中的点是否是肿瘤等。

数据标签通常是通过要求人们对给定的未标记数据做出判断而获得的(例如,“这张照片中是否包含马或牛?”),并且获取成本要比未标记的原始数据高得多。

在获得标记的数据集之后,可以将机器学习模型应用于数据,以便可以将新的未标记数据呈现给模型,并可以为该条未标记数据猜测或预测可能的标签。

机器学习有许多活跃的研究领域,旨在整合未标记和标记的数据以建立更好,更准确的世界模型。半监督学习尝试将未标记的数据和已标记的数据(或更普遍的是,只有一些数据点带有标签的未标记数据集)组合到集成模型中。深度神经网络和特征学习是试图仅构建未标记数据模型,然后将来自标签的信息应用于模型有趣部分的研究领域。

收藏
评论

监督学习使用的标签数据为观察值(或行)添加了有意义的标签标签 。这些标签可以来自观察或询问人员或专家有关数据。

分类回归可以应用于带标签的数据集进行监督学习。

可以将机器学习模型应用于标记的数据,以便可以将新的未标记的数据呈现给模型,并可以猜测或预测可能的标记。 在此处输入图片说明

但是, 无监督学习使用的未标记数据没有任何有意义的标签或标签。 在此处输入图片说明无监督学习比有监督学习困难得多的算法,因为我们对数据或预期结果的了解很少或根本不了解。

聚类被认为是用于对数据点或某种程度上相似的对象进行分组的最流行的无监督机器学习技术之一。

无监督学习的模型较少,可用于确保模型结果准确的评估方法也较少。因此,由于机器正在为我们创造成果,因此,无监督学习会创造出难以控制的环境。

图片由Coursera提供:Python的机器学习

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号