Java开源文本挖掘框架
java
machine-learning
nlp
6
0

我想知道什么是使用botg机器学习和字典方法的最佳开源Java文本挖掘框架。

我正在使用Mallet,但是文档不多,我不知道它是否能满足我的所有要求。

参考资料:
Stack Overflow
收藏
评论
共 5 个回答
高赞 时间 活跃

尽管不是专业的文本挖掘框架,但Weka具有许多通常用于文本挖掘任务的分类器,例如:SVM,kNN,多项式NaiveBayes等。

它还具有一些可以处理文本数据的过滤器,例如可以执行TF / IDF转换的StringToWordVector过滤器。

请访问Weka Wiki网站以获取更多信息。

收藏
评论

您可能已经了解GATE: http//gate.ac.uk/

...但这就是我们(在我的日常工作中)用于许多其他文本挖掘问题的方式。它非常灵活和开放。

收藏
评论

我已经使用LingPipe一套Java库,用于人类语言的语言分析)来进行文本挖掘(及其他相关)任务。

它是一个非常有据可查的软件包,并且该站点包含一些教程,这些教程彻底解释了如何使用LingPipe执行某些任务,例如命名实体识别 。还有一个新闻组,您可以在其中发布有关软件(或与NLP相关的任务)的任何问题,并获得软件包作者本身的迅速答复;当然还有博客

源代码也非常易于遵循和完善的文档记录,对我而言,这始终是一大优势。

至于机器学习算法,从朴素贝叶斯到条件随机场 ,都有很多。另一方面,对于字典匹配算法,它们具有ExactDicitonaryChunker ,它是Aho-Corasich算法(用于此任务的非常非常快的算法)的实现。

总而言之,我认为它是Java最好的NLP软件包之一(我没有使用过其中的每个软件包,因此我不能说这是最好的),因此我绝对推荐使用它你在手边。

收藏
评论

老实说,我认为这里给出的几个答案非常好。但是,为了满足我的要求,我选择将Apache UIMAClearTK一起使用。它支持几种ML方法,我没有任何许可证问题。另外,我可以对其他ML方法进行包装,并且可以利用UIMA框架的优势,该框架组织良好且速度很快。

谢谢大家的有趣回答。

最好的问候,乌克兰

收藏
评论
收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号