无监督情绪分析
machine-learning
nlp
6
0

我读过很多文章,这些文章解释了在情感分析系统真正起作用之前,需要将最初的文本分类为“正”或“负”的一系列文章。

我的问题是:是否有人尝试对“正”形容词与“负”形容词进行基本检查,并考虑到任何简单的否定词,以避免将“不快乐”归类为正?如果是这样,是否有任何文章讨论这种策略不现实的原因?

参考资料:
Stack Overflow
收藏
评论
共 6 个回答
高赞 时间 活跃

一个由彼得·特尼经典论文 (2002年)解释只用出色的话, 为种子组做监督的情感分析(正极/负极分类)的方法。 Turney使用这两个形容词的互斥信息来达到74%的准确性。

收藏
评论

我尝试使用情感词典来发现关键字,以在句子级别预测情感标签。考虑到词汇表的一般性(不依赖域),结果仅为61%。该论文可在我的主页上找到。

在稍微改进的版本中,考虑了否定副词。名为EmoLib的整个系统可用于演示:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

问候,

收藏
评论

我在“评论”中尝试了几种情感分析方法来挖掘观点。最适合我的方法是在Liu的书中描述的方法: http : //www.cs.uic.edu/~liub/WebMiningBook.html在本书中,Liu和其他人比较了许多策略,并讨论了有关情感分析和意见挖掘。

尽管我的主要目标是提取意见中的特征,但我还是实现了情感分类器,以检测此特征的正面和负面分类。

我将NLTK用于预处理(单词标记化,POS标记)和创建三字母组合。然后,我还使用了这个被摄对象中的贝叶斯分类器来与Liu指出的其他策略进行比较。

其中一种方法依赖于将表示此信息的所有trigrram标记为pos / neg,并对这些数据使用一些分类器。我尝试过的另一种方法(效果更好,数据集的准确度大约为85%),是计算句子中每个单词以及作为pos / neg类种子的优/劣单词的PMI(准时互信息)得分的总和。

收藏
评论

larsmans提到的Turney(2002)的论文是一个很好的基础文章。 Li和He [2009]在一项较新的研究中,介绍了一种使用潜在狄利克雷分配 (LDA)训练模型的方法,该模型可以完全无人监督的方式同时对文章的整体情感和主题进行分类。他们达到的准确度是84.6%。

收藏
评论

大卫,

我不确定这是否有帮助,但是您可能想看看Jacob Perkin的博客文章,其中涉及使用NLTK进行情感分析。

收藏
评论

我没有尝试过像您描述的那样进行未经训练的情绪分析,但我的头顶上说您是在简化问题。仅分析形容词不足以充分理解文本的情感。例如,考虑“愚蠢”一词。单独地,您会将其归类为否定的,但是如果产品评论中有“ ... [x]个产品使他们的竞争对手由于没有先考虑此功能而显得愚蠢……”,那么肯定会有积极的态度。 。单词出现的更大上下文肯定与诸如此类的事情有关。这就是为什么仅采用未经训练的“言辞袋”方法(更不用说有限的形容词袋)不足以充分解决这一问题的原因。

预先分类的数据(“训练数据”)有助于将问题从尝试从头开始确定文本是正面还是负面情绪转变为试图确定文本与正面文本还是负面文本更相似,并以这种方式对其进行分类。另一个要点是,文本分析(例如情绪分析)通常会受到文本特征(取决于域)的差异的极大影响。这就是为什么要训练一组良好的数据(即,来自您正在工作的域内的准确数据,并希望代表您将要分类的文本)与构建一个良好的数据一样重要系统进行分类。

不完全是一篇文章,但希望能有所帮助。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号