您可以在文本上运行POS标记器,然后使语法适应于POS标记而不是单词。
> text = nltk.word_tokenize("A car has a door")
['A', 'car', 'has', 'a', 'door']
> tagged_text = nltk.pos_tag(text)
[('A', 'DT'), ('car', 'NN'), ('has', 'VBZ'), ('a', 'DT'), ('door', 'NN')]
> pos_tags = [pos for (token,pos) in nltk.pos_tag(text)]
['DT', 'NN', 'VBZ', 'DT', 'NN']
> simple_grammar = nltk.parse_cfg("""
S -> NP VP
PP -> P NP
NP -> Det N | Det N PP
VP -> V NP | VP PP
Det -> 'DT'
N -> 'NN'
V -> 'VBZ'
P -> 'PP'
""")
> parser = nltk.ChartParser(simple_grammar)
> tree = parser.parse(pos_tags)
0
我正在学习NLTK书籍,似乎无法做似乎是构建体面语法的自然的第一步。
我的目标是为特定的文本语料库建立语法。
(最初的问题:我是否应该尝试从头开始语法,还是应该从预定义的语法开始?如果我应该从另一种语法开始,那么对于英语来说这是一个很好的语法?)
假设我有以下简单语法:
该语法可以解析一个非常简单的句子,例如:
现在,我想将此语法扩展为处理带有其他名词和动词的句子。如何在语法中不手动定义这些名词和动词的情况下将其添加到语法中?
例如,假设我希望能够解析句子“汽车有车轮”。我知道提供的分词器可以神奇地找出哪些词是动词/名词等。如何使用分词器的输出来告诉语法“ wheels”是一个名词?