情感分析的最佳算法方法
nlp
5
0

我的要求是接受新闻文章并确定它们对某个主题是正面还是负面。我采用的是下面概述的方法,但是我继续阅读NLP在这里可能有用。我所读的所有内容都指向NLP从事实中发现意见,我认为这对我来说并没有多大意义。我想知道两件事:

1)为什么我的算法不起作用和/或如何改进它? (我知道讽刺可能是一个陷阱,但我再也看不到这种类型的新闻会发生太多)

2)NLP有什么帮助,我为什么要使用它?

我的算法方法(我有肯定,否定和否定词的字典):

1)计算文章中正负词的数量

2)如果发现一个否定词与正词或负词中的2或3个词相符(即:不是最好的),则该分数将被否定。

3)将分数乘以已手动分配给每个单词的权重。 (1.0开始)

4)将正数和负数的总和相加以获得情感分数。

参考资料:
Stack Overflow
收藏
评论
共 5 个回答
高赞 时间 活跃

我认为您的算法没有什么特别的错误 ,这是一种相当直接和实用的方法,但是在很多情况下它会出错。

  1. 歧义词 :“此产品效果非常好”与“此产品非常好”

  2. 遗漏的否定词 -“数百万年我永远都不会说这种产品值得购买”

  3. 带引号/间接文字 -“我父亲说此产品很糟糕,但我不同意”

  4. 比较 -“该产品与头部的孔一样有用”

  5. 细微之处 -“此产品丑陋,缓慢且无启发性,但它是市场上唯一可以胜任的产品”

我将产品评论用作示例,而不是新闻报道,但您明白了。实际上,新闻报道可能会更难,因为它们经常尝试展示论点的两面,并倾向于使用某种风格来表达观点。例如,最后的例子在意见书中相当普遍。

就NLP可以帮助您解决上述问题中的任何一项而言, 词义歧义消除 (甚至只是词性标注 )可能对(1)有所帮助, 句法解析可能对(2)中的长距离依赖项(某种分块 )有所帮助可能有助于(3)。虽然这都是研究级的工作,但我不知道您可以直接使用。问题(4)和(5)要困难得多,我现在举手放弃。

我会坚持使用您所采用的方法,并仔细查看输出,以查看它是否在执行您想要的操作。当然,这随后引发了一个问题,即您首先要了解“情感”的定义...

收藏
评论

我相信您提到的所有问题的最佳答案是阅读刘冰教授题为“情感分析和观点挖掘”的书。这本书是情感分析领域中最好的书。太神奇了看看它,您将找到所有“为什么”和“如何”问题的答案!

收藏
评论

机器学习技术可能更好。

Whitelaw,Garg和Argamon使用与您处理负数类似的技术,可达到92%的准确性,并支持用于文本分类的矢量机。

收藏
评论

我最喜欢的例子是“只读这本书”。它不包含任何明显的情感词,并且在很大程度上取决于上下文。如果它在电影评论中停顿了,那意味着电影很浪费时间,但是书本很好。但是,如果在书评中,它会带来积极的情绪。

怎么样-“这是市场上最小的[手机]手机”。早在90年代,它就受到了极大的好评。今天,它可能表明它太小了。

我认为这是开始进行情感分析的复杂性的起点: http : //www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html (作者:Lillian Lee康奈尔)。

收藏
评论

您可能会发现OpinionFinder系统以及描述该系统的论文很有用。可以在http://www.cs.pitt.edu/mpqa/上获得此文档,还可以使用其他资源进行意见分析。

它超出了文档级别的极性分类,但尝试在句子级别找到个人意见。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号