从ChatGPT爬虫(GPTBot)的到来说开去
9月 10, 2023 by 傅老师 · Leave a Comment
不久前纽约时报通过robots.txt禁止了ChatGPT的爬虫(GPTBot):
User-agent: GPTBot
Disallow: /
前天ChatGPT爬虫也开始光临傅老师管理的一个网站,其User-agent显示为:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
ChatGPT爬虫非常的努力,平均每天大约能爬取12k+的页面。傅老师观察了一些时候,在被爬取6410的页面后(约10个小时),从user-agent层面将其“拉黑”了。主要有三方面考虑:
一、每天12k+的http请求,虽然不算多,但也还是会占据一些服务器资源,浪费掉一些流量;
二、站内资源目前在9000万到1.1亿的级别,其中大约有20%为独有数据,白白让ChatGPT拿去还是有点心疼;
三、ChatGPT不会为网站带来任何流量。
大概上述第三点才是真正的原因吧。反观国内的一些搜索引擎,积累了这么多年的中文数据,却搞不出一个像样的AI产品。要点名批评的是so.com和sogou.com(搜狗)。
so.com爬虫不讲原则,既不通过反向DNS标记自己是360爬虫,现在还越来越多地连ua中的标记也不带了,干脆一副流氓模式。考虑到so.com基本上没有带来什么流量,目前傅老师正在考虑是否彻底block掉360的蜘蛛。
搜狗爬虫还算是比较讲原则,但总是一副“饿死鬼”的样子,一下子搞数百的并发,直接把nginx干成502。搜狗流量虽然少,但比360还是要多一些,目前傅老师采取的动态限流的方法,Sogou web spider并发太高的话就喂它503。
——本文最后由傅老师于2023-09-10编辑过