什么是用于词性标记的好的Java库? [关闭]
java
nlp
5
0

我正在寻找Java中好的开源POS Tagger 。到目前为止,这是我想出的。

有人有任何建议吗?

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

我曾经使用过LingPipe和斯坦福的POS Tagger。后者是最先进的 POS Tagger,但是根据我的经验,它太慢了(尽管它们确实提供了不太准确的模型,而且速度相当快)。当然,它始终取决于您要实现的目标,并且始终在速度和准确性之间进行权衡。

我还曾经使用过基于LBJ的NER软件,尽管它非常准确,但是源代码却是一团糟。 LingPipe和Stanford的来源都非常干净并且有据可查。

您还可以查看LTAG-spinal 。我还没有使用过它,但是从算法描述和列出的准确性来看,它肯定比到目前为止的替代方法更好。

希望能帮助到你。

收藏
评论

您是否要在特定域中标记POS?大多数通用标记器都接受有关新闻专栏文字的培训。通常,当您在特定领域(例如和生物医学文本)中使用它们时,它们的效果不佳。还有其他专门针对此类领域训练的标记工具,例如生物医学文本的dTagger (java)。

对于新闻专栏文字,Adwait Ratnaparkhi的MXPOST非常好,也是我推荐的。

其他Java实现包括:

  1. 蒙蒂林加
  2. Berkeley Parser (不是真正的POS标记器,但是所有功能强大的解析器通常都包括POS标记器。Googlefor Java语法分析器 ,您会发现很多。)
  3. 标签
  4. LBJ

其他海报张贴的OpenNLPLingpipe也相当不错。

可以在此处找到有关POS标记的最新信息 。如您所见, LTAG-Spinal (也被另一位海报提及)目前排名最高,但是各个标记之间的差异并不大。我自己没有使用过LTAG。

另请注意,POS标记的基准性能约为90%。基线意味着-(a)使用词典中最常见的POS标签标记每个单词,(b)将每个未知单词标记为名词。

收藏
评论

我使用OpenNLP的结果很好。您也可以签出MorphAdorner

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号