为了找到单词之间的语义相似性, 单词空间模型应该可以解决问题。这样的模型可以非常容易且相当有效地实施。最有可能的是,您将希望实现某种降维。我能想到的最简单的方法是随机索引 ,它已在NLP中广泛使用。
一旦有了词空间模型,就可以计算词之间的距离(例如,余弦距离)。在这样的模型中,您应该获得之前提到的结果( “焦点”和“细节”之间的距离应大于“相机重量”与“闪光灯”之间的距离 )。
希望这可以帮助!
0
0
看一下潜在语义索引http://en.wikipedia.org/wiki/Latent_semantic_indexing,它专门解决了您的问题。但是,您需要想出一些方法将这些元概念与正面或负面情绪相关联。情绪分析http://en.wikipedia.org/wiki/Sentiment_analysis应该可以为您提供帮助。
0
查看Google相似距离-http : //arxiv.org/abs/cs.CL/0412098例如。如果很多网页都包含这两个网页,则可能是相关的。
演示程序, 网址为http://mechanicalcinderella.com
除此之外,您可以尝试翻译诸如wordnet之类的项目((谷歌翻译可能会有所帮助),或启动协作式本体。
0
Word-Space绝对是解决问题的方法。如果LSA会使您的应用程序变慢,并且如果随机索引的语义太浅,则应该考虑api.cortical.io 。该REST API可以为您提供任何单词的语义指纹表示。该语义指纹包含单词所属的所有不同上下文。您可以消除一个词的歧义,例如“器官”的返回(肌肉,钢琴,教堂,成员资格...)。对于每种上下文,您都可以使用上下文术语:“钢琴”将赋予(器官,单簧管,小提琴,长笛) ,大提琴,作品,大键琴,管弦乐队)关于您的最后一个方面,这些语义指纹是完全独立于语言的。当前cortical.io API涵盖:英语,西班牙语,法语,德语,丹麦语,阿拉伯语,俄语,中文。到2014年底,将发布更多语言。
0
我不知道StackOverflow是否涵盖NLP,所以我来试试。我有兴趣从特定领域中找到两个词的语义相关性,即“图像质量”和“噪声”。我正在做一些研究,以确定相机的评论对于相机的特定属性是正面还是负面。 (例如每条评论中的图片质量)。
但是,并不是每个人都在帖子中使用完全相同的措辞“图像质量”,所以我要看看是否有一种方法可以构建这样的内容:
“图像质量”包括(“噪声”,“颜色”,“清晰度”等),因此我可以将所有东西都包裹在一把大伞中。
我正在用另一种语言执行此操作,因此Wordnet不一定有帮助。不,我不能在Google或Microsoft工作,因此我也没有来自人们点击行为的数据作为输入数据。
但是,我确实有很多文本,带有位置标记,分段等。