尽管不是专业的文本挖掘框架,但Weka具有许多通常用于文本挖掘任务的分类器,例如:SVM,kNN,多项式NaiveBayes等。
它还具有一些可以处理文本数据的过滤器,例如可以执行TF / IDF转换的StringToWordVector
过滤器。
请访问Weka Wiki网站以获取更多信息。
0
0
我已经使用LingPipe ( 一套Java库,用于人类语言的语言分析)来进行文本挖掘(及其他相关)任务。
它是一个非常有据可查的软件包,并且该站点包含一些教程,这些教程彻底解释了如何使用LingPipe执行某些任务,例如命名实体识别 。还有一个新闻组,您可以在其中发布有关软件(或与NLP相关的任务)的任何问题,并获得软件包作者本身的迅速答复;当然还有博客 。
源代码也非常易于遵循和完善的文档记录,对我而言,这始终是一大优势。
至于机器学习算法,从朴素贝叶斯到条件随机场 ,都有很多。另一方面,对于字典匹配算法,它们具有ExactDicitonaryChunker ,它是Aho-Corasich算法(用于此任务的非常非常快的算法)的实现。
总而言之,我认为它是Java最好的NLP软件包之一(我没有使用过其中的每个软件包,因此我不能说这是最好的),因此我绝对推荐使用它你在手边。
0
老实说,我认为这里给出的几个答案非常好。但是,为了满足我的要求,我选择将Apache UIMA与ClearTK一起使用。它支持几种ML方法,我没有任何许可证问题。另外,我可以对其他ML方法进行包装,并且可以利用UIMA框架的优势,该框架组织良好且速度很快。
谢谢大家的有趣回答。
最好的问候,乌克兰
0
我想知道什么是使用botg机器学习和字典方法的最佳开源Java文本挖掘框架。
我正在使用Mallet,但是文档不多,我不知道它是否能满足我的所有要求。