是否存在一种算法来帮助检测英语句子的“主要话题”?
nlp
5
0

我试图找出是否存在一种可以检测句子“关键概念”的已知算法。

用例如下:

  1. 用户输入一个句子作为查询(鸡肉味道像火鸡吗?)
  2. 我们的系统识别句子的概念(鸡,火鸡)
  3. 并搜索我们的语料库内容

我们所缺乏的领域是确定句子的核心“主题”的真正含义。句子“鸡肉的味道像火鸡吗”的主要主题是“鸡肉”,因为用户正在询问鸡肉的味道。而“土耳其”是一个不太重要的帮助主题。

所以...我正在尝试找出是否有一种算法可以帮助我识别句子的主要主题...让我知道您是否知道任何一个!!!

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

实际上,我对此做了一个研究项目,赢得了两项比赛,并且正在参加国民比赛。

该方法有两个步骤

  1. 上下文无关语法 解析句子
  2. 在生成的分析树中, 找到仅服从于名词短语类成分的所有名词

例如,“我吃馅饼”有2个名词:“ I”和“ pie”。查看语法分析树,“派”位于动词短语中,因此它不能成为主题。但是,“ I”仅在NP样成分内部。作为唯一的主题候选人,它就是主题。在http://www.candlemind.com找到此程序的早期副本。请注意,词汇表仅限于基本单数词,没有动词变位,因此它具有“ man”但没有“ men”,具有“ eat”但没有“ ate”。另外,我使用的CFG是手工制作的。我将在短期内更新此程序。

无论如何,此程序有局限性 。我的导师指出,在目前的状态下,它无法识别主题为“真实” NP(语法实际上称为NP)的句子。例如,“月球不再平坦已不再是争论。”主题实际上是“月亮是平坦的”。但是,该程序会将“月亮”识别为主题。我很快会解决这个问题。

无论如何,这对于大多数句子来说已经足够了……

我的研究论文也可以在那找到。转到第11页阅读方法。

希望这可以帮助。

收藏
评论

对于许多较长的句子,很难说出确切的话题是什么,而且可能不止一个。

一种获得近似ans的方法是

1.)首先使用openNLP,stanford Parser或任何一个标记句子。 2.)然后从句子中删除所有停用词。 3.)拾起名词(适当,单数和复数)。

其他方式是

1.)用任何解析器将句子切成短语。 2.)挑选所有名词短语。 3.)删除没有名词作为儿童的名词短语。 4.)仅保留形容词和名词,从剩余的名词短语中删除所有单词。

这可能会给大约。猜。

收藏
评论

您的大多数基本NLP解析技术都将能够提取句子的基本方面-即,鸡肉和火鸡NP,它们之间通过形容词“ like”等链接。将它们转换为“ topic”或“ concept” '比较困难

诸如潜在语义分析之类的技术及其许多派生工具将这些信息转换为矢量(某些方法具有保留语音各部分之间的层次/关系的方法),然后将它们与通常按概念预先分类的矢量进行比较。请参阅http://en.wikipedia.org/wiki/Latent_semantic_analysis开始。

编辑这是一个LSA应用程序示例,您可以试用该应用程序,以查看是否要进一步追求它。 http://lsi.research.telcordia.com/lsi/demos.html

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号