220.181.51.*到底是不是百度蜘蛛(Baiduspider)的IP段?

3月 25, 2023 by · Leave a Comment 

不得不说,谷歌蜘蛛(Googlebot)和必应蜘蛛(bingbot)是最遵守规则的,也是透明度最高的;百度蜘蛛(Baiduspider)和搜狗蜘蛛(Sogou web spider)要差一些;360蜘蛛(360spider)是最垃圾的,官方公开的IP段百年不更新,蜘蛛IP也不作rDNS,结果就是任何人随便找个河南郑州的家宽就能冒充360spider来爬你的数据。

现在我们来看看这个问题:

220.181.51.*到底是不是百度蜘蛛(Baiduspider)的IP段?

220.181.51.*这个段其实早已映入傅老师眼帘。大多数IP查询网站查到的结果都是“北京市 电信百度蜘蛛”,而且百度的确有个正宗蜘蛛段:220.181.108.*,看上去很像对吧?为了确认这个问题,傅老师曾在https://ziyuan.baidu.com向百度官方提过这个问题,但是官方统一机器回复:

您好, 请查看文章,如何识别Baiduspider,https://ziyuan.baidu.com/college/articleinfo?id=1002,感谢您的支持!

至此依然没有解决220.181.51.*到底是不是百度蜘蛛(Baiduspider)的IP段的问题。我们手动试试,批量做一个rDNS查询:

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

……

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

……

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

根据百度官方所讲述的第二个判断方法第一步就可以看出,因为220.181.51.*这个段反向DNS查询没有看到crawl.baidu.com的影子,所以这个C段不是百度蜘蛛。随便抽几个IP构造出rDNS来ping一下看看,也没有解析。

baiduspider-220-181-51-1.crawl.baidu.com

baiduspider-220-181-51-100.crawl.baidu.com

baiduspider-220-181-51-250.crawl.baidu.com

照这样看来,220.181.51.*应该不是百度蜘蛛。但是会不会是百度官方给遗漏了呢?因为百度官方给的“双向DNS解析认证”就有遗漏的情况,比如220.181.108.197-220.181.108.210就只有反向解析,没有正向解析。但这些IP又确实是百度蜘蛛。那我们继续找找看220.181.51.*这个段有没有什么线索能和百度关联上。

一、根据IP去查一下ASN:

CHINANET-IDC-BJ-AP IDC, China Telecommunications Corporation, CN

说明此段为中国电信的数据中心。但没有百度的影子。

二、前面反查信息中有个域名ctid.com.cn
有毅力的朋友可以根据ctid.com.cn的whois信息找到一个邮箱,从此邮箱可以找到关联的公司,依然没看到和百度的关联。更加有耐心的朋友可以进一步发邮件给那个邮箱直接询问。

综上所述,220.181.51.*有百度蜘蛛的样子,但是没有百度蜘蛛的实证。目前傅老师的做法是开放非核心页面给它爬(例如首页、目录页、栏目页),不限量;核心页面(文章页)如果每天爬个几页可以放行,但是多了就ban掉它。

2023.4.4更新
220.181.51.*这个段99%的可能是百度蜘蛛。傅老师在防火墙为它设置了白名单,但是在后端代码层面没有将其设置白名单,因此触发了captcha验证,结果这个captcha验证页面被百度收录了,并且出现在百度搜索结果页面。

——本文最后由傅老师于2023-04-04编辑过

百度首页“我的关注”、新闻推荐、导航怎样屏蔽或关掉?

7月 7, 2019 by · Leave a Comment 

忘记从哪一天开始了,百度PC端打开就成了下面的样子:

搜索框下面增加了三个内容:我的关注(可能登录了才会有)、推荐、导航。默认的是推荐标签,里面会呈现一些百度抓取的新闻内容。

自从华为被美国打了之后,就总是推华为的新闻,弄得“审美疲劳”了。

怎样关闭百度首页的新闻推荐呢?以firefox为例,点击菜单栏的“Adblock Plus”按钮:

然后弹出框中点右上角“设置”图标:

然后点左侧“advanced”(高级)标签,点右边下方有一个按钮”Edit Filters“,在末尾添加:

baidu.com##.s-mancacrd-main

保存即可,如下图所示:

最后声明一下,傅老师本人是不用baidu.com作为生产工具的,效率太低,访问百度主要是为了做一些“测试”性的工作。

——本文最后由傅老师于2019-07-07编辑过