信息获取价值可以为负吗?
machine-learning
6
0

是否有机会使信息获取的价值为负?它是根据以下论文中的公式计算的。我无法编写公式,因为它包含一些硬符号。

http://citeseerx.ist.psu.edu

谢谢!

参考资料:
Stack Overflow
收藏
评论
共 1 个回答
高赞 时间 活跃

IG(Y|X) = H(Y) - H(Y|X) >= 0 ,因为H(Y) >= H(Y|X)最坏的情况是X和Y是独立的,因此H(Y|X)=H(Y)

另一种思考的方式是,通过观察随机变量X取某个值,我们将不会获得任何信息或获得有关Y的信息(您不会丢失任何信息)。


编辑

让我澄清一下决策树环境中的信息获取(实际上,我来自机器学习背景时,我首先想到的是)。

假设一个分类问题,我们给定一组实例和标签(离散类)。

选择在树的每个节点上拆分哪个属性的想法是,选择将类属性拆分为两个最可能的实例组(即最低熵)的功能。

反过来,这等效于选择具有最高信息增益的特征,因为

InfoGain = entropyBeforeSplit - entropyAfterSplit

其中拆分后的熵是每个分支的熵的总和,该熵的总和由该分支下的实例数加权。

现在不存在可能的类值拆分,该拆分将产生比拆分之前更差的纯度(更高的熵)的情况。

以二进制分类问题的简单示例为例。在某个节点上,我们有5个阳性实例和4个阴性实例(总计9个)。因此,熵(拆分之前)为:

H([4,5]) = -4/9*lg(4/9) -5/9*lg(5/9) = 0.99107606

现在让我们考虑一些分裂的情况。最好的情况是,当前属性完美地分割了实例(即,一个分支全为正,另一分支全为负):

    [4+,5-]
     /   \        H([4,0],[0,5]) =  4/9*( -4/4*lg(4/4) ) + 5/9*( -5/5*lg(5/5) )
    /     \                      =  0           // zero entropy, perfect split
[4+,0-]  [0+,5-]

然后

IG = H([4,5]) - H([4,0],[0,5]) = H([4,5])       // highest possible in this case

假设第二个属性是最坏的情况,其中创建的分支之一没有任何实例,而是所有实例都落入另一个实例(例如,如果该属性在各个实例之间是恒定的,那么就没有用):

    [4+,5-]
     /   \        H([4,5],[0,0]) =  9/9 * H([4,5]) + 0
    /     \                      =  H([4,5])    // the entropy as before split
[4+,5-]  [0+,0-]

IG = H([4,5]) - H([4,5],[0,0]) = 0              // lowest possible in this case

现在,在这两种情况之间的某个位置,您将看到许多情况,例如:

    [4+,5-]
     /   \        H([3,2],[1,3]) =  5/9 * ( -3/5*lg(3/5) -2/5*lg(2/5) )
    /     \                       + 4/9 * ( -1/4*lg(1/1) -3/4*lg(3/4) )
[3+,2-]  [1+,3-]

IG = H([4,5]) - H([3,2],[1,3]) = [...] = 0.31331323

因此,无论您如何拆分这9个实例,您都可以获得正的信息。我意识到这不是数学上的证明(为此,请转到MathOverflow!),我只是认为一个实际的示例会有所帮助。

(注意:所有计算均基于Google)

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号