无监督自动标记算法?
machine-learning
nlp
5
0

我想构建一个Web应用程序,允许用户上传文档视频图像音乐 ,然后使他们能够搜索它们。将其视为Dropbox +语义搜索。

用户上载新文件(例如Document1.docx)时 ,如何根据文件内容自动生成标签?换句话说,不需要用户输入即可确定文件的内容。如果假设Document1.docx是有关数据挖掘的研究论文,那么当用户搜索数据挖掘研究论文document1时 ,应在搜索结果中返回该文件,因为数据挖掘研究论文很可能会自动-为给定文档生成的标签。

1.您将针对此问题推荐哪些算法?

2.是否有一个自然语言库可以为我做到这一点?

3.我应该考虑使用哪种机器学习技术来提高标记精度?

4.如何将其扩展到视频和图像自动标记?

提前致谢!

参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

用于此类任务的最常见的无监督机器学习模型是潜在狄利克雷分配 (LDA)。该模型会根据这些文档中的单词自动推断出文档集中的主题集合。在您的文档集中运行LDA会在搜索特定主题时将具有概率的单词分配给某些主题,然后您可以检索与该单词相关的概率最高的文档。

图像和音乐也有一些扩展,请参见http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf

LDA有几种语言的几种有效实现:

收藏
评论

这些家伙提出了LDA的替代方案。

用于社交推荐系统的自动标签推荐算法http://research.microsoft.com/pubs/79896/tagging.pdf

尚未阅读整篇文章,但有两种算法:

  1. 监督学习版本。这还不错。您可以使用Wikipedia训练算法
  2. “原型”版本。还没有机会解决这个问题,但这是他们的建议

更新:我对此进行了更多研究,并且找到了另一种方法。基本上,这是一个两阶段的方法,很容易理解和实现。尽管对于10万个文档而言太慢,但它(可能)对1000多个文档具有良好的性能(因此,它非常适合标记单个用户的文档)。我将尝试这种方法,并将报告性能/可用性。

同时,这是方法:

  1. 按照http://qr.ae/36RAP使用TextRank来为单个文档生成标签列表。这将为独立于其他文档的单个文档生成标签列表。
  2. 使用“使用机器学习支持连续本体开发”中的算法( https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Contin__Ontology_Development )将标签列表(来自步骤1)集成到现有标签列表中。
收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号