除此之外,大多数较轻的NER系统在很大程度上取决于所使用的域。例如,您将找到有关生物医学NER系统的大量工具和论文。除了我以前的文章(如果您要进行NER,它已经包含了我的主要建议)之外,还可能需要研究以下一些工具:
- 斯坦福大学的CER-NER
- 如果您对此特定领域感兴趣,可以使用Postech生物医学NER系统
- OpenCalais似乎是一个商业系统。有一些针对OpenCalais的UIMA包装器,但它们似乎过时了。 UIMA还有一个基于字典的Context-Mapper注释器,可以帮助您。请注意,UIMA意味着学习曲线上的大量开销;-)
- OpenNLP也具有NER工具。
- 巴里岛(Balie)也有NER。
- ABNER进行 NER,但同样专注于生物医学领域。
- 来自德国耶拿大学的JULIE实验室工具也可以使用NER。它们具有独立版本和UIMA分析引擎。
补充说明:如果没有对输入进行标记化,您将无法摆脱。自然语言的标记化并不是一件容易的事,这就是为什么我建议您使用一个可以同时为您实现这两种目的的工具箱。
0
我正在寻找Java的简单但“足够好”的命名实体识别库(和字典),我正在处理电子邮件和文档并提取一些“基本信息”,例如:名称,地点,地址和日期
我一直在环顾四周,大多数似乎都是沉重的一面和完整的NLP项目。
有什么建议吗?