什么是CoNLL数据格式?
nlp
text-mining
5
0

我是文字挖掘的新手。我使用的是开放源代码jar(Mate Parser),它在依赖项解析后以CoNLL 2009格式提供输出。我想将依赖项解析结果用于信息提取。但是我能够理解一些输出,但不能理解CoNLL数据格式。谁能帮助我理解CoNLL数据格式?任何类型的指针将不胜感激。

参考资料:
Stack Overflow
收藏
评论
共 1 个回答
高赞 时间 活跃

由于CoNLL是每年不同的共享任务,因此有许多不同的CoNLL格式。 2009年CoNLL的格式描述在这里 。每行代表一个单词,带有一系列制表符分隔的字段。 _ s表示空值。 Mate-Parser的手册说,它使用了CoNLL 2009的前12列:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

其中一些列的定义来自早期的共享任务(2006和2007年使用的CoNLL-X格式 ):

  • ID (句子索引,从1开始)
  • FORM (单词形式本身)
  • LEMMA (单词的引理或词干)
  • POS (词性)
  • FEAT (以|分隔的形态特征列表)
  • HEAD (语法父级的索引, ROOT为0)
  • DEPRELHEAD和这个词之间的句法关系)

那些以P开头的列(例如PPOS而不是POS )存在变体,表示该值是自动预测的,而不是黄金标准值。

更新:现在还有一种CoNLL-U数据格式,它扩展了CoNLL-X格式。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号