我敢肯定,您中有许多人听说过机器学习。十几个人甚至可能知道它是什么。你们中的一些人可能也使用过机器学习算法。你知道这是怎么回事吗?从现在起的5年内,将有很多人熟悉这项必不可少的技术。 Siri是机器学习。亚马逊的Alexa是机器学习。广告和购物商品推荐系统是机器学习的。让我们尝试以一个2岁男孩的简单类比来理解机器学习。只是为了好玩,我们称他为Kylo Ren
假设Kylo Ren看到了一头大象。他的大脑会告诉他什么?(记住,即使他是维达的继任者,他的思维能力也很低)。他的大脑会告诉他,他看到了一个巨大的动人生物,颜色为灰色。他接下来看到一只猫,他的大脑告诉他这是一只动人的小动物,颜色金黄。最终,他看到旁边有一把军刀,大脑告诉他这是一个可以玩耍的无生命物体!
此时他的大脑知道军刀不同于大象和猫,因为军刀是可以玩的东西,不会自行移动。即使Kylo不知道可移动的含义,他的大脑也可以弄清楚这一点。这个简单的现象称为聚类。
机器学习不过是此过程的数学形式。许多研究统计学的人意识到,他们可以使某些方程式以与大脑相同的方式起作用。大脑可以聚集相似的物体,大脑可以从错误中学习,大脑可以学习识别事物。
所有这些都可以用统计来表示,并且此过程的基于计算机的模拟称为机器学习。为什么我们需要基于计算机的仿真?因为计算机可以比人脑更快地完成繁重的数学运算。我很想进入机器学习的数学/统计部分,但是如果您不先清除一些概念,就不会想进入该领域。
让我们回到Kylo Ren。假设Kylo拿起军刀开始玩。他不小心撞到了冲锋队,冲锋队受伤了。他不知道发生了什么,继续玩。接下来,他打了一只猫,猫受伤了。这次,Kylo确信自己做得不好,并且要谨慎一些。但是由于他的军刀技能不好,他击中了大象,并且绝对确定自己有麻烦。此后他变得非常小心,并且只在我们在《原力觉醒》中看到时才故意打他的父亲!
可以用方程式模仿从错误中学习的整个过程,在方程式中,做错事的感觉由错误或代价表示。识别与军刀无关的过程称为分类。聚类和分类是机器学习的绝对基础。让我们看看它们之间的区别。
凯洛(Kylo)区分动物和轻型军刀,因为他的大脑认为轻型军刀不能自行移动,因此与众不同。该决定仅基于存在的对象(数据),没有提供外部帮助或建议。与此相反,Kylo通过首先观察击中物体可以做什么来区分小心轻剑的重要性。决定并非完全基于军刀,而是基于它可以对不同物体执行的操作。简而言之,这里有一些帮助。
由于学习上的这种差异,因此将聚类称为无监督学习方法,将分类称为有监督学习方法。它们在机器学习世界中非常不同,并且通常由当前数据的种类决定。获得标记的数据(或帮助我们学习的东西,例如Kylo的突击队员,大象和猫)通常不容易,并且在要区分的数据很大时变得非常复杂。另一方面,没有标签的学习可能有其自身的缺点,例如不知道标签的标题是什么。如果Kylo想要在没有任何示例或帮助的情况下谨慎对待军刀,他将不知道该怎么做。他只知道这不是必须要做的。这有点la脚,但您明白了!
我们才刚刚开始使用机器学习。分类本身可以是连续数字的分类或标签的分类。例如,如果Kylo必须对每个突击队员的身高进行分类,那么答案将是很多的,因为身高可以是5.0、5.01、5.011等。答案将非常有限。实际上,它们可以用简单数字表示。红色可以为0,蓝色可以为1,绿色可以为2。
如果您了解基本数学知识,就会知道0,1,2和5.1,5.01,5.011是不同的,分别称为离散数和连续数。离散数的分类称为逻辑回归,连续数的分类称为回归。 Logistic回归也称为分类,因此在其他地方阅读此术语时请不要混淆
这是机器学习的非常基本的介绍。我将在下一篇文章中介绍统计方面的内容。请让我知道是否需要任何更正:)
第二部分在这里发布。
0
有人可以解释一下数据挖掘中分类和聚类之间的区别吗?
如果可以,请提供两个示例以了解主要思想。