用于情绪分析的训练数据[关闭]
machine-learning
nlp
text-analysis
7
0

我在哪里可以获得在公司范围内已被归类为正面/负面情绪的文档集?我想要一大堆文档,这些文档为公司提供评论,例如分析师和媒体对公司的评论。

我发现语料库对产品和电影都有评论。业务领域是否有语料库,包括与业务语言相匹配的公司评论?

参考资料:
Stack Overflow
收藏
评论
共 4 个回答
高赞 时间 活跃

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

您可以使用带有笑脸的Twitter,例如: http ://web.archive.org/web/20111119181304/http: //deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-语料库的情感分析和观点挖掘.pdf

希望能帮助您入门。如果您对否定,情感范围等特定子任务感兴趣,则文献中还有更多内容。

为了专注于公司,您可以将一种方法与主题检测相结合,或者廉价地仅提及给定公司的很多内容。或者,您也可以通过Mechanical Turkers注释数据。

收藏
评论

这是几周前我在博客上写的一个列表。其中一些数据集最近已包含在NLTK Python平台中。

词汇表


数据集


参考文献:

收藏
评论
收藏
评论

如果您有一些有关要探索的域的资源(媒体渠道,博客等),则可以创建自己的语料库。我在python中这样做:

  • 使用Beautiful Soup http://www.crummy.com/software/BeautifulSoup/来解析我要分类的内容。
  • 分开那些对公司有正面/负面意见的句子。
  • 使用NLTK处理此句子,标记单词,POS标记等。
  • 使用NLTK PMI计算仅在一类中频繁出现的二元或三元组

创建语料库是预处理,检查,标记等工作的艰苦工作,但具有为特定领域准备模型的好处,可以多次提高准确性。如果您可以获得已经准备好的语料库,请继续进行情绪分析;)

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号