NLTK使用自定义数据命名实体识别
named-entity-recognition
nlp
nltk
python
5
0

我正在尝试使用NLTK从我的文本中提取命名实体。我发现NLTK NER的目的不是很准确,我也想添加一些自己的标签。我一直在尝试找到一种训练我自己的NER的方法,但是我似乎找不到合适的资源。关于NLTK,我有几个问题

  1. 我可以使用自己的数据来训练NLTK中的命名实体识别器吗?
  2. 如果我可以使用自己的数据进行训练,则named_entity.py是要修改的文件吗?
  3. 输入文件格式是否必须在IOB中?埃里克NNP B-PERSON?
  4. 除了可以使用的nltk菜谱和带有python的nlp之外,是否有其他资源?

我真的很感谢这方面的帮助

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

您是否致力于使用NLTK / Python?我遇到了与您相同的问题,使用斯坦福的命名实体识别器可以得到更好的结果: http : //nlp.stanford.edu/software/CRF-NER.shtml 。常见问题解答中很好地记录了使用您自己的数据训练分类器的过程。

如果您确实需要使用NLTK,我会在邮件列表中查找其他用户的一些建议: http : //groups.google.com/group/nltk-users

希望这可以帮助!

收藏
评论

您可以与nltk一起轻松使用Stanford NER。 python脚本就像

from nltk.tag.stanford import NERTagger
import os
java_path = "/Java/jdk1.8.0_45/bin/java.exe"
os.environ['JAVAHOME'] = java_path
st = NERTagger('../ner-model.ser.gz','../stanford-ner.jar')
tagging = st.tag(text.split())   

要训练自己的数据并创建模型,可以参考Stanford NER FAQ上的第一个问题。

链接是http://nlp.stanford.edu/software/crf-faq.shtml

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号