最近想采集一些新闻数据做下数据库,开始复杂的数据想用python来做采集来的,但python需要自己写函数,写存储逻辑代码,如果发布端是通用的cms的话,还需要考虑写一个发布入库的逻辑,做计划任务又要搞一通服务器配置,还有重新读一读cms程序的业务代码才能搞。
有些规范的数据就开始考虑用火车头采集器来采集尝试着把老版本火车头浏览器采集用起来,结果发现老版本已经装不上了。后来安装了最新的火车头采集器和火车头浏览器。
在服务器安装了火车头采集器,10.0版本,10版本支持json采集,字符串组装,计划任务什么的,而且预制了一些采集后的发布到常用cms程序的脚步本,但是不包含wordpress。
[……]