如何获取Wikipedia类别及其子类别下的所有文章页面?
nlp
5
0

我想获得一个类别及其子类别下的所有文章名称。

我知道的选项:

  1. 使用Wikipedia API。它有这样的选择吗?
  2. d / l转储。哪种格式更适合我的用法?
  3. 还有一个选项可以在Wikipedia中进行搜索,例如incategory:"music" ,但是我没有看到在XML中进行查看的选项。

请分享您的想法

参考资料:
Stack Overflow
收藏
评论
共 3 个回答
高赞 时间 活跃

以下资源将帮助您从类别及其所有子类别下载所有页面:

http://en.wikipedia.org/wiki/Wikipedia:CatScan

这里还有一个API:

https://www.mediawiki.org/wiki/API:类别成员

收藏
评论

您可以通过以下两种API方法执行此操作:

对于该类别的文章页面

YOUR_URL/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Music

对于获取子类别:

YOUR_URL/api.php?action=query&format=json&list=categorymembers&cmtype=subcat&cmtitle=Category:Music

您可以获取有关Mediawiki API的更多信息

收藏
评论

请注意,维基百科的分类系统不是一棵树,甚至不是一个无环图。通过持续跟踪子类别链接,您很有可能最终会回到起点。

如果要进行许多这样的查询,最好通过下载数据库转储来解决。如果这是很少见的事情,并且仅处理小类别,那么您可能可以避免对list=categorymembers进行重复查询。

incategory:"music"似乎没有进行子类别搜索。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号