word2vec
的思想是使文本中彼此靠拢(在彼此的上下文中)出现的单词的向量之间的相似度(点积)最大化,而使没有单词的向量的相似度最小。在要链接的论文的等式(3)中,暂时忽略幂。你有
v_c * v_w
-------------------
sum(v_c1 * v_w)
分子基本上是单词c
(上下文)和w
(目标)之间的相似性。分母计算所有其他上下文c1
和目标单词w
的相似度。最大化此比率可确保在文本中更靠近单词的单词比没有单词的单词具有更多相似的向量。但是,由于存在许多上下文c1
,因此计算速度可能非常慢。负采样是解决此问题的方法之一-只需随机选择几个上下文c1
。最终结果是,如果cat
出现在food
的上下文中,那么food
的向量与cat
的向量(以其点积来衡量)比其他几个随机选择的单词 (例如democracy
, greed
, Freddy
)( Freddy
),而不是语言中的所有其他单词 。这使word2vec
训练速度快得多。
0
我正在阅读下面的论文,遇到一些麻烦,理解了负采样的概念。
http://arxiv.org/pdf/1402.3722v1.pdf
有人可以帮忙吗?