NLP:找到单词之间语义相似性的简便方法好吗?
nlp
5
0

我不知道StackOverflow是否涵盖NLP,所以我来试试。我有兴趣从特定领域中找到两个词的语义相关性,即“图像质量”和“噪声”。我正在做一些研究,以确定相机的评论对于相机的特定属性是正面还是负面。 (例如每条评论中的图片质量)。

但是,并不是每个人都在帖子中使用完全相同的措辞“图像质量”,所以我要看看是否有一种方法可以构建这样的内容:

“图像质量”包括(“噪声”,“颜色”,“清晰度”等),因此我可以将所有东西都包裹在一把大伞中。

我正在用另一种语言执行此操作,因此Wordnet不一定有帮助。不,我不能在Google或Microsoft工作,因此我也没有来自人们点击行为的数据作为输入数据。

但是,我确实有很多文本,带有位置标记,分段等。

参考资料:
Stack Overflow
收藏
评论
共 6 个回答
高赞 时间 活跃

为了找到单词之间的语义相似性, 单词空间模型应该可以解决问题。这样的模型可以非常容易且相当有效地实施。最有可能的是,您将希望实现某种降维。我能想到的最简单的方法是随机索引 ,它已在NLP中广泛使用。

一旦有了词空间模型,就可以计算词之间的距离(例如,余弦距离)。在这样的模型中,您应该获得之前提到的结果( “焦点”和“细节”之间的距离应大于“相机重量”与“闪光灯”之间的距离 )。

希望这可以帮助!

收藏
评论

发表您的评论:

  1. NLP一直使用通过机器学习进行分类。
  2. 关于概念之间的语义相似性,请参阅林德康对相似性的信息理论定义

另请参阅以下问题: 查找相关单词两个短语的语义相似度

收藏
评论

看一下潜在语义索引http://en.wikipedia.org/wiki/Latent_semantic_indexing,它专门解决了您的问题。但是,您需要想出一些方法将这些元概念与正面或负面情绪相关联。情绪分析http://en.wikipedia.org/wiki/Sentiment_analysis应该可以为您提供帮助。

收藏
评论

几周前,我在HackerNews上看到了word2vec ,看起来非常接近您想要的。

收藏
评论

查看Google相似距离-http : //arxiv.org/abs/cs.CL/0412098例如。如果很多网页都包含这两个网页,则可能是相关的。

演示程序, 网址http://mechanicalcinderella.com

除此之外,您可以尝试翻译诸如wordnet之类的项目((谷歌翻译可能会有所帮助),或启动协作式本体。

收藏
评论

Word-Space绝对是解决问题的方法。如果LSA会使您的应用程序变慢,并且如果随机索引的语义太浅,则应该考虑api.cortical.io 。该REST API可以为您提供任何单词的语义指纹表示。该语义指纹包含单词所属的所有不同上下文。您可以消除一个词的歧义,例如“器官”的返回(肌肉,钢琴,教堂,成员资格...)。对于每种上下文,您都可以使用上下文术语:“钢琴”将赋予(器官,单簧管,小提琴,长笛) ,大提琴,作品,大键琴,管弦乐队)关于您的最后一个方面,这些语义指纹是完全独立于语言的。当前cortical.io API涵盖:英语,西班牙语,法语,德语,丹麦语,阿拉伯语,俄语,中文。到2014年底,将发布更多语言。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号