神经网络:“线性可分离”是什么意思?
machine-learning
neural-network
5
0

我目前正在阅读Tom Mitchell撰写的《机器学习》一书。在谈论神经网络时,Mitchell指出:

“尽管当训练样本可线性分离时,感知器规则会找到成功的权重向量,但如果样本不可线性分离,则可能无法收敛。”

我在理解他的“线性可分离”含义时遇到问题?维基百科告诉我:“如果二维空间中的两套点可以用一条线完全分开,则它们是线性可分离的。”

但是,这如何应用于神经网络的训练集?输入(或动作单元)如何线性分离?

我不是最擅长几何和数学的人-有人能像我5岁时向我解释吗? ;) 谢谢!

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

假设您要编写一种算法,该算法基于大小和价格这两个参数来确定房屋是否在同一年出售。因此,您有2个输入(大小和价格),而1个输出将出售或不出售。现在,当您收到训练集时,可能会发生输出未累积以使我们的预测变得容易的情况(您能告诉我,根据第一张图,如果X是N或S,第二张图怎么样):

        ^
        |  N S   N
       s|  S X    N
       i|  N     N S
       z|  S  N  S  N
       e|  N S  S N
        +----------->
          price


        ^
        |  S S   N
       s|  X S    N
       i|  S     N N
       z|  S  N  N  N
       e|    N N N
        +----------->
          price

哪里:

S-sold,
N-not sold

如您在第一张图中所看到的,您无法真正用直线将两个可能的输出(已售/未售出)分开,无论您如何尝试,该行的两边总会同时存在SN ,这意味着您的算法将有很多possible行,但没有最终的正确行来拆分2个输出(当然也要预测新的行,这是一开始的目标)。这就是linearly separable (第二张图)数据集更容易预测的原因。

收藏
评论

查看以下两个数据集:

^                         ^
|   X    O                |  AA    /
|                         |  A    /
|                         |      /   B
|   O    X                |  A  /   BB
|                         |    /   B
+----------->             +----------->

左数据集不是线性可分离的(不使用内核)。右边的线可通过指示的线分为A' and两部分。

即,您不能在左侧图像中画一条直线 ,因此所有X都在一侧,而所有O都在另一侧。这就是为什么它被称为“不可线性分离”的原因==不存在将这两个类别分开的线性流形。

现在,著名的内核技巧 (肯定会在下一本书中进行讨论)实际上通过虚拟添加其他维度以使非线性问题可线性分离,从而允许将许多线性方法用于非线性问题。

收藏
评论

这意味着存在一个超平面(它将输入空间分成两个半空间),这样,第一类的所有点都在一个半空间中,第二类的所有点都在另一个半空间中。

在二维中,这意味着有一条线将一个类别的点与另一类别的点分开。

编辑:例如,在此图像中,如果蓝色圆圈代表一个类别的点,红色圆圈代表另一个类别的点,则这些点是线性可分离的。

在此处输入图片说明

在三个维度上,这意味着存在一个平面,该平面将一个类别的点与另一类别的点分开。

在更高的维度上,这是相似的:必须存在一个将两组点分开的超平面。

您提到您不擅长数学,因此我没有写正式的定义,但是请让我知道(在评论中)是否有帮助。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号