一种简单的解决方案是使用字符n元语法向量的点积。这在排序更改(许多编辑距离度量标准未提供)方面很可靠,并且捕获了词干周围的许多问题。它还防止了完全语义理解的AI完全问题。
要计算n元语法向量,只需选取n的值(例如3),然后将短语中的每个3字序列散列为向量。将向量归一化为单位长度,然后采用不同向量的点积来检测相似性。
J. Mitchell和M. Lapata,“语义分布模型的构成”,认知科学,第1卷,第1期中对此方法进行了描述。 34号8,第1388-1429页,2010年11月。DOI10.1111 / j.1551-6709.2010.01106.x
0
输入:词组1,词组2
输出:语义相似性值(0到1之间),或者这两个短语谈论同一件事的可能性