POS标签德语
nlp
nltk
python
5
0

我正在使用NLTK从以下命令开头的文本字符串中提取名词:

tagged_text = nltk.pos_tag(nltk.Text(nltk.word_tokenize(some_string)))

它的英文很好用。 有没有一种简便的方法也可以使其适用于德语?

(我没有自然语言编程的经验,但是我设法使用了到目前为止很棒的python nltk库。)

参考资料:
Stack Overflow
收藏
评论
共 5 个回答
高赞 时间 活跃

模式库包含用于解析德语句子的功能,结果包含词性标签。以下内容是从其文档中复制的:

from pattern.de import parse, split
s = parse('Die Katze liegt auf der Matte.')
s = split(s)
print s.sentences[0]

>>>   Sentence('Die/DT/B-NP/O Katze/NN/I-NP/O liegt/VB/B-VP/O'
     'auf/IN/B-PP/B-PNP der/DT/B-NP/I-PNP Matte/NN/I-NP/I-PNP ././O/O')

如果您更喜欢SSTS标记集,则可以设置可选参数tagset="STTS"

更新 :另一个选择是spacy ,此博客文章中有一个简单的示例

import spacy

nlp = spacy.load('de')
doc = nlp(u'Ich bin ein Berliner.')

# show universal pos tags
print(' '.join('{word}/{tag}'.format(word=t.orth_, tag=t.pos_) for t in doc))
# output: Ich/PRON bin/AUX ein/DET Berliner/NOUN ./PUNCT
收藏
评论

我写了一篇博客文章,介绍如何转换带德语注释的TIGER Corpus,以便将其与NLTK一起使用。 在这里看看。

收藏
评论

自然语言软件通过利用语料库及其提供的统计信息来发挥其魔力。您需要告诉nltk一些德语语料库,以帮助其正确标记德语。我相信EUROPARL语料库可能会帮助您前进。

请参阅nltk.corpus.europarl_raw及其配置示例的答案

另外,考虑使用“ nlp”标记该问题。

收藏
评论

可能您可以使用Stanford POS标记器。下面是我写的食谱。我已经为德国NLP编写了python食谱,您可以在http://htmlpreview.github.io/?https://github.com/alvations/DLTK/blob/master/docs/index.html上访问它们

#-*- coding: utf8 -*-

import os, glob, codecs

def installStanfordTag():
    if not os.path.exists('stanford-postagger-full-2013-06-20'):
        os.system('wget http://nlp.stanford.edu/software/stanford-postagger-full-2013-06-20.zip')
        os.system('unzip stanford-postagger-full-2013-06-20.zip')
    return

def tag(infile):
    cmd = "./stanford-postagger.sh "+models[m]+" "+infile
    tagout = os.popen(cmd).readlines()
    return [i.strip() for i in tagout]

def taglinebyline(sents):
    tagged = []
    for ss in sents:
        os.popen("echo '''"+ss+"''' > stanfordtemp.txt")
        tagged.append(tag('stanfordtemp.txt')[0])
    return tagged

installStanfordTag()
stagdir = './stanford-postagger-full-2013-06-20/'
models = {'fast':'models/german-fast.tagger',
          'dewac':'models/german-dewac.tagger',
          'hgc':'models/german-hgc.tagger'}
os.chdir(stagdir)
print os.getcwd()


m = 'fast' # It's best to use the fast german tagger if your data is small.

sentences = ['Ich bin schwanger .','Ich bin wieder schwanger .','Ich verstehe nur Bahnhof .']

tagged_sents = taglinebyline(sentences) # Call the stanford tagger

for sent in tagged_sents:
    print sent
收藏
评论

词性(POS)标记非常特定于特定的[自然]语言。 NLTK包括许多不同的标记器,它们使用不同的技术来推断给定令牌中给定令牌的标签。这些标记器中的大多数(但不是全部)都使用一种统计模型作为主要手段或“唯一手段”。这样的标记器需要一些“训练数据”,以在其上构建语言的统计表示,并且训练数据以语料库的形式出现。

NTLK“发行版”本身包括许多此类语料库,以及一组“语料库阅读器”,它们提供了读取不同类型语料库的API。我不了解NTLK的状况,是否包括任何德国语料。但是,您可以免费找到一些免费的语料库,然后将其转换为满足适当的NTLK语料库阅读器的格式,然后可以使用它来训练德语的POS标记器。

您甚至可以创建自己的语料库,但这是一项艰苦的工作。如果你在大学里工作,那你就必须找到贿赂和强迫学生为你这样做的方法;-)

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号