Lucene标准分析仪vs Snowball
nlp
5
0

刚开始使用Lucene.Net。我使用标准分析器索引了100,000行,运行了一些测试查询,并注意到如果原始术语为单数,则复数查询不会返回结果。我了解雪球分析仪增加了词干支持,听起来不错。但是,我想知道打雪仗与标准相比是否有任何弊端?我会因为丢失而失去任何东西吗?还有其他分析仪要考虑吗?

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

是的,通过使用诸如Snowball之类的词干提取器,您正在丢失有关文本原始格式的信息。有时这会很有用,有时则没有用。

例如,Snowball会将“组织”衍生为“器官”,因此对“组织”的搜索将以“器官”返回结果,而没有任何得分惩罚。

是否适合您取决于您的内容和所支持的查询类型(例如,搜索是否非常基础,或者用户是否非常复杂,并使用搜索来准确过滤结果)。您可能还希望研究攻击性较低的词干,例如KStem

收藏
评论

我刚刚完成了一个执行词法分析的分析器。这类似于词干,不同之处在于它使用上下文确定单词的类型(名词,动词等)并使用该信息来得出词干。它还将单词的原始形式保留在索引中。也许我的图书馆对您有用。但是,它需要Lucene Java,并且我不知道任何C#/。NET lemmatizer。

收藏
评论

雪球分析仪会比标准分析仪更具攻击性,因此会增加召回率。因此,您需要评估搜索结果,以查看是否需要增加数据的查全率或准确性

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号