发布于2025年4月8日 由小葱头条爬虫抓取频繁 最近cdn流量和请求数消耗过快。cdn的流量全部都花给了爬虫,关键爬取的还是写死链页面。 一天流量使用几十G都达到了一个月的用量了。 在腾讯云下载了cdn日志,发现全是头条爬虫。 (compatible; Bytespider; ) 5分钟的就爬取了几万条。 明显不是一天几千次爬取的频率。 这是头条后台的爬虫显示量,感觉并不真实。 在头条站长后台增加了爬取频率限制,然后再在cdn将瓢虫直接拉黑。 明天观察一下应用效果。 下午流量明显: 但是据说https请求数即便是在拦截范围内,也会产生计费。 相关