信息检索(IR)vs数据挖掘vs机器学习(ML)
data-mining
machine-learning
4
0

人们经常把IR,ML和数据挖掘这两个术语混为一谈,但是我注意到它们之间有很多重叠之处。

从在这些领域有经验的人那里,究竟能划出什么界限?

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

这只是一个人(经过ML正式培训)的观点;其他人可能会看到完全不同的情况。

机器学习可能是这三个术语中最相似的,也是应用最一致的-它仅限于模式提取 (或模式匹配) 算法本身。

在您提到的术语中,“机器学习”是学术部门用来描述其课程,学术部门和研究计划的最常用术语,也是学术期刊和会议论文集中最常用的术语。 ML显然是您提到的术语中与上下文关系最少的。

信息检索数据挖掘更接近于描述完整的商业流程 ,即从用户查询到相关结果的检索/传递。机器学习算法可能在该流程中某个位置,在更复杂的应用程序中通常是这样,但这不是正式的要求。另外,术语“ 数据挖掘”似乎通常是指在大数据上应用某些流程(即,> 2BG),因此通常在该工作流的前端附近包括一个分布式处理(map-reduce)组件。

因此,信息检索(IR)和数据挖掘(DM)以基础结构算法的方式与机器学习(ML)相关。换句话说,机器学习是用于解决信息检索问题的工具之一。但这只是工具的一种来源。但是IR并不依赖于ML,例如,特定的IR项目可能是响应用户的搜索查询IR来存储和快速检索全索引数据,其症结在于优化数据流的性能,即,即从查询到将搜索结果交付给用户的往返行程。预测或模式匹配在这里可能没有用。同样,DM项目可能将ML算法用于预测引擎,而DM项目也更可能涉及整个处理流程-例如,用于有效输入海量数据的并行计算技术(可能是TB ),将原始结果提供给处理引擎,以计算变量(列)的描述性统计信息(均值,标准差,分布等)。

最后考虑Netflix奖。该竞赛仅针对机器学习-重点在于预测算法,事实证明存在一个成功标准:该算法返回的预测的准确性。想象一下,是否将“ Netflix奖”更名为数据挖掘竞赛。成功的标准几乎可以肯定会得到扩展,以便在实际的商业环境中更准确地访问算法的性能-因此,可能会考虑整体执行速度(向用户交付建议的速度)以及准确性。

术语“信息检索”和“数据挖掘”现在已成为主流,尽管有一段时间我只在工作说明或供应商文献中看到这些术语(通常在“解决方案”旁边)。在我的雇主处,我们最近雇用了“数据挖掘”分析师。我不知道他到底干什么,但是他每天都系领带。

收藏
评论

您还可以将模式识别和(计算性)统计信息添加为与您提到的三个领域重叠的另外两个领域。

我想说它们之间没有明确的界线。使他们与众不同的是他们的历史和重点。统计强调数学上的严格性,数据挖掘强调对大型数据集的缩放,而ML介于两者之间。

收藏
评论

我尝试画线如下:

信息检索是关于尽快找到数据中已经存在的内容。

机器学习是将现有知识尽可能准确地概括为数据的技术。

数据挖掘主要是要发现数据中隐藏的 ,您以前知道的东西,尽可能地“新”。

他们相交并且经常使用彼此的技术。 DM和IR都使用索引结构来加速流程。 DM使用了许多ML技术,例如,对数据集有用的概括模式可能是一种新知识。

它们通常很难分开。帮自己一个忙,不要只为流行词而去。在我看来,区分它们的最佳方法是根据它们的意图 ,如上所述:查找数据,归纳为新数据,查找现有数据的新属性。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号