我发现前面的答案有点复杂-投影层只是简单的矩阵乘法,或者在NN的上下文中是规则/密集/线性层,最后没有非线性激活(Sigmoid / tanh / relu / etc。)的想法是将(例如)100K维离散向量投影到600维连续向量中(我在这里随机选择数字,“您的里程可能会有所不同”)。确切的矩阵参数是通过训练过程学习的。
之前/之后发生的事情已经取决于模型和上下文,而不是OP要求的。
(在实践中,您甚至不用担心矩阵乘法(因为您正在乘以1-hot向量,其中单词索引为1,其他任何地方为0),并将训练后的矩阵作为监视表(即6257)语料库中的单词=投影矩阵中的第6257行)。
0
我目前正在尝试了解word2vec神经网络学习算法背后的架构,该架构用于根据上下文将单词表示为矢量。
看完Tomas Mikolov的论文后,我遇到了他定义的投影层 。即使这个词在使用word2vec时被广泛使用,我也无法找到它在神经网络环境中的确切定义。
我的问题是,在神经网络环境中,什么是投影层?它是给与先前节点的链接共享相同权重的隐藏层的名称吗?它的单元实际上具有某种激活功能吗?
tutorial可以在本教程中找到另一个更广泛地涉及该问题的资源,该资源也涉及第67页周围的投影层 。