BILOU标签在命名实体识别中是什么意思?
named-entity-recognition
nlp
5
0

标题几乎概括了这个问题。我注意到,在某些论文中,人们提到了NER的BILOU编码方案,而不是典型的BIO标记方案(如Ratinov和Roth在2009年发表的这篇论文http://cogcomp.cs.illinois.edu/page / publication_view / 199

通过使用2003 CoNLL数据,我知道

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

有人告诉我BILOU中的词代表

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

我还看到人们引用了另一个标签

E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag

我对NER文献还很陌生,但是我一直找不到能明确解释这些标签的内容。我的问题特别涉及“ last”和“ end”标签之间的区别是什么,以及“ unit”标签代表什么。

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃
B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole

BILOU与BMEWO相同。

还有BMEWO +,它将有关周围单词类的更多信息放到外部令牌(因此为“ O加号”)

在此处查看详细信息https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

收藏
评论

我想补充一些比较BIO和BILOU方案的经验。我的实验仅在一个数据集上进行,可能并不具有代表性。

我的数据集包含约35,000个短话(2-10个标记),并使用11个不同的标签进行了注释。换句话说,有11个命名实体。

使用的功能包括单词,左右2克,1-5个字符的ngram(中间的除外),形状特征等。很少有实体也受到地名词典的支持。

我重新整理了数据集并将其分为80/20部分:训练和测试。重复此过程5次,对于每个实体,我记录了精确度,召回率和F1量度。绩效是在实体级别上衡量的,而不是在Ratinov&Roth,2009年论文中在令牌级别上衡量的。

我用来训练模型的软件是CRFSuite。我使用c1 = 0和c2 = 1的L-BFGS求解器。

首先,比较5倍的测试结果非常相似。这意味着每次运行之间几乎没有可变性,这很好。其次,BIO方案的执行与BILOU方案非常相似。如果存在显着差异,则可能是精度,召回率和F1度量中的时段后的第三或第四位数。

结论:在我的实验中,BILOU方案并不比BIO方案更好(但也不差)。

收藏
评论

基于一个问题和Clear TK中的补丁 ,BILOU似乎代表“ 多令牌块单位长度块和外部的开始,内部和最后令牌”(添加了重点)。例如,用方括号表示的分块

(foo foo foo) (bar) no no no (bar bar)

可以用BILOU编码为

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar
收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号