最近想采集一些新闻数据做下数据库,开始复杂的数据想用python来做采集来的,但python需要自己写函数,写存储逻辑代码,如果发布端是通用的cms的话,还需要考虑写一个发布入库的逻辑,做计划任务又要搞一通服务器配置,还有重新读一读cms程序的业务代码才能搞。
有些规范的数据就开始考虑用火车头采集器来采集尝试着把老版本火车头浏览器采集用起来,结果发现老版本已经装不上了。后来安装了最新的火车头采集器和火车头浏览器。
在服务器安装了火车头采集器,10.0版本,10版本支持json采集,字符串组装,计划任务什么的,而且预制了一些采集后的发布到常用cms程序的脚步本,但是不包含wordpress。
我尝试了 帝国cms 7.5和discuzx3.4版本的采集发布,记录一下使用注意事项。
discuzx3.0以上版本只新增了门户发布模块,并没有增加帖子模块,我用的2.0的版本帖子发布,测试也可以正常发布。
discuzx 帖子发布,discuzx 的帖子不支持html标签,需要将采集的内容过滤掉html标签,换行什么的用文本换行替代。发布到门户的话,需要选择支持门户手机访问的模板,要不然发布了内容,没法手机访问。
帝国cms7.5的发布模块需,填写起始地址时是要用后台的网址目录,比如帝国默认的后台地址http://baidu.com/e/admin/
在帝国后台关闭安全设置的金刚模式,要不然不能发布成功。
添加一个单独的发稿管理员,防止登录后掉线。
同样,帝国cms也要选一个支持手机访问的模板,要不然只能提供pc浏览体验了。