当前位置 : wordpress

标签 wordpress 下的文章

wordpress文章采集器(python代码)

折腾了几天总算用python弄出了一个wordpress文章采集器,比起手工采集更新文章站点来说效率当然是不能比了。看了下采集2000篇文章,只用了20来分钟,如果是手工的话20分钟顶多也就更新百来篇文章。深刻体会到了科学技术是第一生产力。

  • 文章采集前:
  • 文章采集中
  • 文章采集后

这个wordpress文章采集器的思路是这样的:

  1. 先提供一个入口链接
  2. 程序会从入口页面出发逐页扫描抓取文章链接
  3. 由抓取的文章链接进一步抓取文章内容
  4. 将抓取的文章数据(标题、正文)等写入wordpress数据库

整个思路还是很明了的。在整个过程中,我犯过不少错误:

- 阅读剩余部分 -