英语的“停词”列表? [关闭]
language-agnostic
nlp
5
0

我正在为某些英语文本生成一些统计信息,并且我想跳过一些无趣的单词,例如“ a”和“ the”。

  • 在哪里可以找到这些无趣的单词的列表?
  • 这些单词的列表是否与英语中最常用的单词列表相同?

更新:这些显然称为“停用词”,而不是“跳过词”。

参考资料:
Stack Overflow
收藏
评论
共 6 个回答
高赞 时间 活跃

通常,这些词会以最高频率出现在文档中。假设您有一个全局的单词列表:

{ Word Count }

在单词列表中,如果您按从高到低的顺序对单词进行排序,则会有一个图形(计数(y轴)和单词(x轴))是对数逆函数。所有停用词都是在左侧,“停用词”的终止点将位于存在最高一阶导数的位置。

此解决方案比尝试字典更好:

  • 此解决方案是不受语言限制的通用方法
  • 此尝试可了解哪些单词被视为“停用词”
  • 此尝试将为非常相似的集合产生更好的结果,并为集合中的项目生成唯一的单词列表
  • 停用词可以在以后的时间重新计算(这样可以缓存和统计确定停用词可能与计算时不同)
  • 这也可以消除基于时间的或非正式的单词和名称(例如语,或者如果您有一堆以公司名称为标题的文档)

字典尝试更好:

  • 查找时间快得多
  • 结果被预缓存
  • 这很简单
  • 其他人想出了停用词。
收藏
评论

放入Google的神奇词是“停用词”。这样就形成了一个看起来合理的列表

MySQL也有内置的停用词列表 ,但这对我来说太全面了。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被视为停用词。

收藏
评论

获取有关大型txt语料库中单词频率的统计信息。忽略所有频率大于某个数字的单词。

收藏
评论

这些称为停用词 ,请检查此样本

收藏
评论

根据您所使用的英语子域的不同,您可能/希望编译自己的停用词列表。一些通用停用词在域中可能是有意义的。例如,“ are”一词实际上在某些领域可能是缩写/缩写 。相反, 根据您的应用程序 ,您可能希望忽略某些领域特定的单词而您可能不想在通用英语领域中忽略它们。例如,如果您要分析医院报告的语料库,则可能希望忽略“历史”和“症状”之类的词,因为它们会在每个报告中都出现,并且可能没有用(从普通的香草倒置索引角度来看)。

否则,由Google返回的列表应该可以。 Porter Stemmer 使用此方法 ,Lucene seach引擎实现使用此方法

收藏
评论

我想我前一段时间使用lucene.net构建搜索应用程序时,从这里使用了德语的停用词列表。该站点还包含一个英语列表,并且该站点上的列表显然也是lucene项目默认使用的列表。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号