您正在执行的操作的一个选项是术语频率到反文档频率,即tf-idf。在此计算下,最强的项将具有最高的权重。在此处检查是否: http : //en.wikipedia.org/wiki/Tf-idf
另一种选择是使用像词这样的朴素贝叶斯分类器之类的东西作为特征,并找出文本中最强的特征以确定文档的类别。对于最大熵分类器,这将类似地工作。
至于执行此操作的工具,最好的最佳工具是NLTK,这是一个包含大量文档和教程的Python库: http : //nltk.sourceforge.net/
对于Java,请尝试使用OpenNLP: http ://opennlp.sourceforge.net/
对于短语,请考虑我提供的第二个选项,即使用双字母组和三字母组作为功能,甚至使用tf-idf中的术语。
祝好运!
0
我正在做一个项目,在该项目中需要分析文本页面和文本页面集合以确定主词。我想知道是否有一个库(首选c#或java)可以为我处理繁重的工作。如果没有,下面是否有一种算法或多种算法可以实现我的目标。
除了不需要可视化之外,我想做的事情类似于从您在网上找到的url或rss feed构建的词云。他们一直被用于分析总统候选人的演讲,以了解主题或最常用的词是什么。
复杂的是,我需要对成千上万个简短文档进行处理,然后对这些文档的集合或类别进行处理。
我最初的计划是解析文档,然后过滤常见的单词-of,the,he,she等。然后计算剩余单词在文本中出现的次数(以及整个集合/类别)。
问题是,将来我想处理词干,复数形式等。我也想看看是否有一种方法可以识别重要的短语。 (而不是一个单词的数量,一个短语的数量总共是2-3个单词)
任何对策略,库或算法有帮助的指导都将受到赞赏。