谷歌爬虫Googlebot最近怎么干起了垃圾爬虫的勾当?

四月 28, 2021 by · Leave a Comment 

谷歌爬虫(Googlebot)一向以守规矩著称,然而这两天66.249.71.*中的几个IP地址却干起了垃圾爬虫的勾当:

1、伪造user-agent;
2、伪造访问来路

为了确认没有错怪谷歌爬虫,傅老师还专门反查(dig -x)了一下几个ip:

45.71.249.66.in-addr.arpa. 47657 IN PTR crawl-66-249-71-45.googlebot.com.

143.71.249.66.in-addr.arpa. 86400 IN PTR crawl-66-249-71-143.googlebot.com.

77.71.249.66.in-addr.arpa. 86400 IN PTR crawl-66-249-71-77.googlebot.com.

看样子傅老师没有冤枉这几个googlebot。

至于为什么会发生这种情况,还需要进一步观察一下。

备注:如果你的centos服务器上没有dig命令,可以yum安装:
yum install dnsutils

——本文最后由傅老师于2021-04-28编辑过

2021-04-27拦截的骚扰电话

四月 27, 2021 by · Leave a Comment 

4001095555 @ 2021-04-27 10:21:32

如果您认为上述号码不是骚扰电话,请联系傅老师

2021-04-22拦截的骚扰电话

四月 22, 2021 by · Leave a Comment 

0755 61607315 @ 2021-04-22 11:48:34

如果您认为上述号码不是骚扰电话,请联系傅老师

给流浪猫喂猫粮在一定程度上应该算是一种破坏生态平衡的行为

四月 21, 2021 by · Leave a Comment 

现在不但爱狗人士多,爱猫人士也很多。傅老师经常看到小区里不同角落都会有热心的居民定时定点投放猫粮,一大盆子,数只猫咪上来就疯抢,饱餐一顿后扬长而去,盆子里还剩下许多。

自然界中的野生动物生怕吃了这顿没下顿,所以当它们有食物的时候都是尽量全部塞进肚子里。这些小区里的“流浪猫”碰着猫粮这么美味可口的食物,自然更是要把自己的肚子塞满塞到胀才对,但是竟然还剩下那么多猫粮,可见流浪猫的生活习性可能已经因为热心居民的定时投食而发生了改变:既然定时就有足够量的可口食物,那就不需要捕食(抓老鼠)了。

猫捉老鼠还有一个因素,就是猫咪需要摄入一定量的牛磺酸才能令自己夜间能看得见,不过现在网购的猫粮都已经含有牛磺酸了,所以吃猫粮的猫咪也是不缺牛磺酸的。

既然不为食物,也不为牛磺酸,那么请问猫咪为什么还要辛苦去抓老鼠?

下面的视频可以证明,衣食无忧的猫咪的确渐渐地不抓老鼠了。

大清早窗户外就吊着一只长尾巴是一种怎样的体验?

防诈骗的十个“凡是”

四月 13, 2021 by · Leave a Comment 

张贴在万达广场的《防诈骗十个“凡是”》。

2021-04-09拦截的骚扰电话

四月 9, 2021 by · Leave a Comment 

0752 7850195 @ 2021-04-09 16:29:03

如果您认为上述号码不是骚扰电话,请联系傅老师

【原创】一个很好的计算问题

四月 4, 2021 by · Leave a Comment 

为了节约流量,傅老师对服务器添加了如下反爬规则:

当某一用户连续下载20张“真图”(每张真图大小都是10k字节)后,开始给这个用户输出“假图”(每张假图大小为3k字节),维持1分钟。1分钟之后恢复正常,如此循环。

问题:在不暂停、不变速的连续“爬图”模式下,用户应该设置怎样的下载速度来下载图片,以获得“爬图”的最大效率?

(效率可以定义为“单位时间内的真图假图比”)

书名号误用一则,中央电视台不是书名

四月 4, 2021 by · Leave a Comment 

万达广场一家美食店打了个招牌如下:

老重庆地标性美食小吃
《中央电视台》专访美食

上面“中央电视台”书名号用错了,中央电视台并非书名,不能使用书名号。即使是中央电视台的某个栏目名,也不能使用书名号,参考:书名号的用法

123.6.49.*段的假360蜘蛛最近很用力啊

二月 15, 2021 by · Leave a Comment 

最近有一个爬虫IP段引起了傅老师的注意:

123.6.49.*

反查DNS为:

hn.kd.ny.adsl

其携带的UA显示是360Spider。查360官方文档:http://www.so.com/help/spider_ip.html,此ip段不在官方的蜘蛛列表上,证明它是冒牌的360蜘蛛。

这个假360蜘蛛采集特点和真360蜘蛛不同,后者总是以采集页面的url作referrer,假360蜘蛛则以网站首页做referrer,而且采集量特别巨大,曾有几天(以24小时为单位)竟然超过了百度蜘蛛。

傅老师先养着这个假360蜘蛛(返回200状态,给它一个图片验证),看看它打算爬多久。

position:absolute在firefox中window.print打印时的bug

一月 25, 2021 by · Leave a Comment 

场景:
页面上有类似这样的dom:

<div><img src=“//www.baidu.com/123.jpg”></div>

CSS中设定img:

img{
 position:absolute;
 display:block;
 width:100px;
 height:100px;
}

当页面调用window.print打印时,如果这个dom出现在第二页或之后,img就会出现在body的左上角。Firefox这个position:absolute的坑埋得确实有点深。

解决方法也很简单:给img的上层div加上position:

div{
 position: relative;
}

另外,打印预览的情形下,审查元素依然可用。

——本文最后由傅老师于2021-01-25编辑过

Next Page »