数据挖掘中分类和聚类之间的区别? [关闭]
classification
cluster-analysis
data-mining
machine-learning
5
0

有人可以解释一下数据挖掘中分类和聚类之间的区别吗?

如果可以,请提供两个示例以了解主要思想。

参考资料:
Stack Overflow
收藏
评论
共 10 个回答
高赞 时间 活跃

如果您向任何数据挖掘或机器学习人员提出了此问题,他们将使用术语“有监督的学习”和“无监督的学习”来向您解释聚类和分类之间的区别。因此,让我首先向您介绍受监管和不受监管的关键字。

有监督的学习:假设您有一个篮子,里面装有一些新鲜水果,您的任务是将同一类型的水果放在一个地方。假设水果是苹果,香蕉,樱桃和葡萄。因此,您已经从以前的工作中知道了每种水果的形状,因此可以很容易地将同一类型的水果放在一个地方。在这里,您以前的工作在数据挖掘中被称为训练有素的数据。因此您已经从训练有素的数据中学到了东西,这是因为您有一个响应变量,该变量表示如果某些水果具有某种特性,那么它就是葡萄,就像每种水果一样。

您将从训练后的数据中获得此类数据。这种学习称为监督学习。这种类型的解决问题归类于“分类”下。因此,您已经学到了东西,可以自信地完成工作。

无人看管:假设您有一个篮子,里面装有一些新鲜水果,您的任务是将同一类型的水果放在一个地方。

这次您对这些水果一无所知,您是第一次看到这些水果,因此您将如何布置相同类型的水果。

您首先要做的是接上水果,然后选择该特定水果的任何物理特性。假设你上色了。

然后,您将根据颜色排列它们,然后分组将像这样。 红颜色组:苹果和樱桃水果。 绿颜色组:香蕉和葡萄。所以现在您将使用另一个物理字符作为大小,所以现在这些组将是这样的。 红颜色和大尺寸:苹果。 红色和小尺寸:樱桃果。 绿色和大尺寸:香蕉。 绿色和小尺寸 :葡萄。工作完成了幸福的结局。

在这里您之前没有学过任何东西,这意味着没有训练数据,也没有响应变量。这种学习称为无监督学习。聚类属于无监督学习。

收藏
评论

我是Data Mining的新手,但正如我的教科书所述,CLASSICIATION应该是有监督的学习,而CLUSTERING无监督的学习。监督学习和非监督学习之间的区别可以在这里找到。

收藏
评论

分类

是基于示例学习 ,将预定义的类分配给新观察值

这是机器学习中的关键任务之一。

聚类(或聚类分析)

尽管通常被称为“无监督分类”,但它却大不相同。

与许多机器学习者将教给您的知识相反,这不是关于为对象分配“类”,而是在没有预定义它们的情况下。对于那些进行过多分类的人来说,这是非常有限的看法。一个典型的例子, 如果您有一把锤子(分类器),那么一切对您来说就像钉子(分类问题) 。但这也是为什么分类人员没有聚集的原因。

而是将其视为结构发现 。聚类的任务是在您以前不知道的数据中查找结构(例如组)。 如果您学到了一些新知识, 集群成功。如果您只知道已经知道的结构,那么它将失败。

聚类分析是数据挖掘的关键任务(也是机器学习中的丑小鸭,所以不要听机器学习者拒绝聚类)。

“无监督学习”有点矛盾

这已经在文献中反复提及 ,但是无监督学习是必不可少的 。它不存在,但是像“军事情报”一样是矛盾的。

该算法要么从示例中学习(然后是“监督学习”),要么不学习。如果所有聚类方法都是“学习”的,那么计算数据集的最小值,最大值和平均值也是“无监督学习”。然后,任何计算都会“获悉”其输出。因此,“无监督学习”一词完全没有意义 ,它意味着一切,一无所有。

但是,某些“无监督学习”算法确实属于优化类别。例如,k均值最小二乘优化。这样的方法遍布统计数据,因此我认为我们不需要将它们标记为“无监督学习”,而应继续将它们称为“优化问题”。更精确,更有意义。有很多聚类算法不涉及优化,也不适合机器学习范例。因此,不要在“无监督学习”的保护下将他们挤在那里。

有一些与集群相关的“学习”,但不是程序在学习。应当由用户来学习有关其数据集的新知识。

收藏
评论

通过聚类,您可以将数据与所需的属性分组,例如提取的聚类的数量,形状和其他属性。而在分类中,组的数量和形状是固定的。大多数聚类算法都将聚类的数量作为参数。但是,有一些方法可以找到适当数量的群集。

收藏
评论

聚类旨在查找数据中的组。 “集群”是一个直观的概念,没有严格的数学定义。一个群集的成员应该彼此相似,并且与其他群集的成员不相同。聚类算法对未标记的数据集Z进行运算并在其上产生分区。

对于类和类标签,类包含相似的对象,而来自不同类的对象则不同。有些类具有明确的含义,在最简单的情况下是互斥的。例如,在签名验证中,签名是真实的或伪造的。真正的类是两者之一,无论我们可能无法通过观察特定的签名来正确猜测。

收藏
评论

通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类。

群集尝试对一组对象进行分组,并查找对象之间是否存在某种关系。

在机器学习的上下文中,分类是有监督的学习,而聚类是无监督的学习

还可以查看Wikipedia的分类聚类

收藏
评论

请阅读以下信息:

在此处输入图片说明

在此处输入图片说明 在此处输入图片说明

收藏
评论

我敢肯定,您中有许多人听说过机器学习。十几个人甚至可能知道它是什么。你们中的一些人可能也使用过机器学习算法。你知道这是怎么回事吗?从现在起的5年内,将有很多人熟悉这项必不可少的技术。 Siri是机器学习。亚马逊的Alexa是机器学习。广告和购物商品推荐系统是机器学习的。让我们尝试以一个2岁男孩的简单类比来理解机器学习。只是为了好玩,我们称他为Kylo Ren

资料来源:blog.printkeg.com

假设Kylo Ren看到了一头大象。他的大脑会告诉他什么?(记住,即使他是维达的继任者,他的思维能力也很低)。他的大脑会告诉他,他看到了一个巨大的动人生物,颜色为灰色。他接下来看到一只猫,他的大脑告诉他这是一只动人的小动物,颜色金黄。最终,他看到旁边有一把军刀,大脑告诉他这是一个可以玩耍的无生命物体!

此时他的大脑知道军刀不同于大象和猫,因为军刀是可以玩的东西,不会自行移动。即使Kylo不知道可移动的含义,他的大脑也可以弄清楚这一点。这个简单的现象称为聚类。

资料来源:jeffcarpenterblog.tumblr.com

机器学习不过是此过程的数学形式。许多研究统计学的人意识到,他们可以使某些方程式以与大脑相同的方式起作用。大脑可以聚集相似的物体,大脑可以从错误中学习,大脑可以学习识别事物。

所有这些都可以用统计来表示,并且此过程的基于计算机的模拟称为机器学习。为什么我们需要基于计算机的仿真?因为计算机可以比人脑更快地完成繁重的数学运算。我很想进入机器学习的数学/统计部分,但是如果您不先清除一些概念,就不会想进入该领域。

让我们回到Kylo Ren。假设Kylo拿起军刀开始玩。他不小心撞到了冲锋队,冲锋队受伤了。他不知道发生了什么,继续玩。接下来,他打了一只猫,猫受伤了。这次,Kylo确信自己做得不好,并且要谨慎一些。但是由于他的军刀技能不好,他击中了大象,并且绝对确定自己有麻烦。此后他变得非常小心,并且只在我们在《原力觉醒》中看到时才故意打他的父亲!

资料来源:joyreactor.com

可以用方程式模仿从错误中学习的整个过程,在方程式中,做错事的感觉由错误或代价表示。识别与军刀无关的过程称为分类。聚类和分类是机器学习的绝对基础。让我们看看它们之间的区别。

凯洛(Kylo)区分动物和轻型军刀,因为他的大脑认为轻型军刀不能自行移动,因此与众不同。该决定仅基于存在的对象(数据),没有提供外部帮助或建议。与此相反,Kylo通过首先观察击中物体可以做什么来区分小心轻剑的重要性。决定并非完全基于军刀,而是基于它可以对不同物体执行的操作。简而言之,这里有一些帮助。

资料来源:品脱

由于学习上的这种差异,因此将聚类称为无监督学习方法,将分类称为有监督学习方法。它们在机器学习世界中非常不同,并且通常由当前数据的种类决定。获得标记的数据(或帮助我们学习的东西,例如Kylo的突击队员,大象和猫)通常不容易,并且在要区分的数据很大时变得非常复杂。另一方面,没有标签的学习可能有其自身的缺点,例如不知道标签的标题是什么。如果Kylo想要在没有任何示例或帮助的情况下谨慎对待军刀,他将不知道该怎么做。他只知道这不是必须要做的。这有点la脚,但您明白了!

我们才刚刚开始使用机器学习。分类本身可以是连续数字的分类或标签的分类。例如,如果Kylo必须对每个突击队员的身高进行分类,那么答案将是很多的,因为身高可以是5.0、5.01、5.011等。答案将非常有限。实际上,它们可以用简单数字表示。红色可以为0,蓝色可以为1,绿色可以为2。

如果您了解基本数学知识,就会知道0,1,2和5.1,5.01,5.011是不同的,分别称为离散数和连续数。离散数的分类称为逻辑回归,连续数的分类称为回归。 Logistic回归也称为分类,因此在其他地方阅读此术语时请不要混淆

这是机器学习的非常基本的介绍。我将在下一篇文章中介绍统计方面的内容。请让我知道是否需要任何更正:)

第二部分在这里发布。 在此处输入图片说明

收藏
评论

+分类:给您一些新数据,您必须为其设置新标签。

例如,一家公司希望对潜在客户进行分类。当有新客户来时,他们必须确定这是否是要购买其产品的客户。

+聚类:为您提供了一组历史记录,记录了谁买了什么。

通过使用聚类技术,您可以区分客户的细分。

收藏
评论

首先,就像许多答案一样,这里是:分类是有监督的学习,而聚类是无监督的。这表示:

  1. 分类需要标记的数据,以便可以对分类器进行此数据的训练,然后再根据他所知道的内容对新的看不见的数据进行分类。诸如聚类之类的无监督学习不使用标记的数据,它的实际作用是发现数据(如组)中的固有结构。

  2. 两种技术之间的另一个区别(与前一种技术有关)是,分类是离散回归问题的一种形式,其中输出是分类因变量。而集群的输出会产生一组称为组的子集。出于相同的原因,评估这两个模型的方法也有所不同:在分类中,您通常必须检查精度和召回率,例如过拟合和欠拟合等,这些都将告诉您该模型的性能如何。但是在集群中,您通常需要有远见的专家来解释您发现的内容,因为您不知道自己拥有什么类型的结构(组或集群的类型)。这就是为什么聚类属于探索性数据分析的原因。

  3. 最后,我想说应用程序是两者之间的主要区别。顾名思义,分类用于区分属于某个类别或另一个类别的实例,例如男人或女人,猫或狗等。聚类通常用于诊断医学疾病,发现模式,等等

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号