头条爬虫抓取频繁

最近cdn流量和请求数消耗过快。cdn的流量全部都花给了爬虫,关键爬取的还是写死链页面。

一天流量使用几十G都达到了一个月的用量了。

在腾讯云下载了cdn日志,发现全是头条爬虫。

(compatible; Bytespider; )

5分钟的就爬取了几万条。 明显不是一天几千次爬取的频率。

这是头条后台的爬虫显示量,感觉并不真实。

在头条站长后台增加了爬取频率限制,然后再在cdn将瓢虫直接拉黑。

明天观察一下应用效果。

下午流量明显:

但是据说https请求数即便是在拦截范围内,也会产生计费。

退出移动版