使用scp免密远程复制(传出或拉取)文件

11月 18, 2023 by · Leave a Comment 

默认情况下使用scp传输文件需要输入ssh密码,这不便于在crontab中使用。我们可以在主机上生成密钥,复制到远程服务器建立信任,这样scp就可以实现免密复制文件了。

下面以两台服务器复制(包括传出和拉取)文件为例,详细说一下过程。假定我们要把服务器1.1.1.1上的/root/a.tar.gz传出到服务器2.2.2.2上,二者的ssh端口都是222。

第一步

在1.1.1.1上运行:
ssh-keygen -t rsa

一路回车(好像是3次),结束后会在/root/.ssh目录下出现两个文件:

id_rsa
id_rsa.pub

第二步

把id_rsa.pub文件复制到2.2.2.2的/root/.ssh目录下,然后改名为authorized_keys。如果该文件已经存在,可以用这个命令把文件追加进去:

cat id_rsa.pub >> authorized_keys

第三步

开始第一次免密复制文件,从1.1.1.1上将文件传出到2.2.2.2。
在1.1.1.1上运行
scp -P 222 /root/a.tar.gz root@2.2.2.2:/root
如果你的ssh端口是默认的22,那么-P 222可以不要。
这一次要输入yes才会开始,之后就不用了。

如果你想在2.2.2.2上从1.1.1.1拉取文件过来,那么你就要在2.2.2.2上做一次ssh-keygen,然后把authorized_keys文件复制到1.1.1.1上去。拉取文件执行的命令是:
scp -P 222 root@1.1.1.1:/root/a.tar.gz /root

——本文最后由傅老师于2023-11-18编辑过

上海火车站进站送人接人站台票全攻略

11月 14, 2023 by · Leave a Comment 

现在上海火车站已经不售卖站台票了,那么要把亲友送到火车上,或者要到站台上接亲友,该怎样才能进站呢?昨天傅老师就亲自走了一趟这个流程(记得带上身份证)。

在上海火车站进站安检处和值班工作人员说“我要送人/接人”,然后工作人员会帮助你进行登记,并使用身份证识别后自动打印一个《接送旅客凭证》,如下图:

之后就使用这个凭证走所有的“人工通道”即可,因为没有车票,所以不能通过检票闸机。

经人工入口,和旅客一样正常安检之后,就来到候车室了。检票口同样走人工入口,把刚才获得的《接送旅客凭证》给检票员看一下即可。

到达站台送别亲友(或接到亲友)之后,不要原路返回,而是走出站口离开火车站,在出站的时候同样走人工通道,把《接送旅客凭证》交给检票员即可。

以上全程都可以帮助亲友携带行李。

搜狗蜘蛛新增43.231.99.*部分IP

9月 12, 2023 by · Leave a Comment 

最近搜狗出现了一些新的蜘蛛IP:
43.231.99.64-43.231.99.95

主要携带两个user-agent:

MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 (compatible; Sogou web spider/4.0; +http://www.sogou.com/docs/help/webmasters.htm#07)

Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

反向DNS查询结果:

64.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-64.crawl.sogou.com.

65.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-65.crawl.sogou.com.

66.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-66.crawl.sogou.com.

67.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-67.crawl.sogou.com.

68.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-68.crawl.sogou.com.

69.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-69.crawl.sogou.com.

70.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-70.crawl.sogou.com.

71.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-71.crawl.sogou.com.

72.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-72.crawl.sogou.com.

73.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-73.crawl.sogou.com.

74.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-74.crawl.sogou.com.

75.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-75.crawl.sogou.com.

76.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-76.crawl.sogou.com.

77.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-77.crawl.sogou.com.

78.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-78.crawl.sogou.com.

79.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-79.crawl.sogou.com.

80.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-80.crawl.sogou.com.

81.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-81.crawl.sogou.com.

82.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-82.crawl.sogou.com.

83.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-83.crawl.sogou.com.

84.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-84.crawl.sogou.com.

85.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-85.crawl.sogou.com.

86.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-86.crawl.sogou.com.

87.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-87.crawl.sogou.com.

88.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-88.crawl.sogou.com.

89.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-89.crawl.sogou.com.

90.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-90.crawl.sogou.com.

91.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-91.crawl.sogou.com.

92.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-92.crawl.sogou.com.

93.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-93.crawl.sogou.com.

94.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-94.crawl.sogou.com.

95.99.231.43.in-addr.arpa. 3600 IN PTR sogouspider-43-231-99-95.crawl.sogou.com.

从ChatGPT爬虫(GPTBot)的到来说开去

9月 10, 2023 by · Leave a Comment 

不久前纽约时报通过robots.txt禁止了ChatGPT的爬虫(GPTBot)

User-agent: GPTBot
Disallow: /

前天ChatGPT爬虫也开始光临傅老师管理的一个网站,其User-agent显示为:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

ChatGPT爬虫非常的努力,平均每天大约能爬取12k+的页面。傅老师观察了一些时候,在被爬取6410的页面后(约10个小时),从user-agent层面将其“拉黑”了。主要有三方面考虑:

一、每天12k+的http请求,虽然不算多,但也还是会占据一些服务器资源,浪费掉一些流量;

二、站内资源目前在9000万到1.1亿的级别,其中大约有20%为独有数据,白白让ChatGPT拿去还是有点心疼;

三、ChatGPT不会为网站带来任何流量。

大概上述第三点才是真正的原因吧。反观国内的一些搜索引擎,积累了这么多年的中文数据,却搞不出一个像样的AI产品。要点名批评的是so.com和sogou.com(搜狗)。

so.com爬虫不讲原则,既不通过反向DNS标记自己是360爬虫,现在还越来越多地连ua中的标记也不带了,干脆一副流氓模式。考虑到so.com基本上没有带来什么流量,目前傅老师正在考虑是否彻底block掉360的蜘蛛。

搜狗爬虫还算是比较讲原则,但总是一副“饿死鬼”的样子,一下子搞数百的并发,直接把nginx干成502。搜狗流量虽然少,但比360还是要多一些,目前傅老师采取的动态限流的方法,Sogou web spider并发太高的话就喂它503。

——本文最后由傅老师于2023-09-10编辑过

“蹬别蚊虫”是什么意思?

9月 8, 2023 by · Leave a Comment 

最近看到社区医院拉出一条横幅:

2023年自然疫源性疾病宣传主题:蹬别蚊虫

这里的“蹬别”是什么意思?

根据横幅标语上下文,傅老师猜测它可能类似“告别蚊虫”、“再也不接触蚊虫”的意思,不过查遍了《现代汉语词典》和《辞海》,甚至连《康熙字典》也检索了一下,连差强人意的“蹬别”的用法解释都没有见到。看来这里的“蹬别”是标语撰写人故弄玄虚,生造的一个词语!

滴滴青桔说给我买了个保险,所以我拿命去骑青桔共享单车?

8月 6, 2023 by · Leave a Comment 

一向小心翼翼的傅老师,昨天(8月5日,周六)晚上还是栽在了滴滴青桔共享单车上。

昨晚出发的时候,天已经黑了,在小区门口打开闪光灯才得以解锁一辆滴滴青桔单车。

傅老师把座凳调节到165-170之间,压下座凳锁定杆,用力拍了几下座凳,确定已锁定。接着傅老师又推着车捏了捏前后刹车,刹车都没问题。最后傅老师反踩了一下脚踏板,链条没问题。简要车况检查之后,傅老师一骨碌翻上车,向万达广场进发。

第一个十字路口是绿灯,于是直行通过,下一个路过应当左转。就在接近路口约20米处悲剧发生了:

当时傅老师感觉座凳骤然下沉,似乎当时左脚恰好踩在脚踏板最低处,因此左脚滑脱了踏板,脚尖触地了,相当于左脚别住了前行中的自行车,车速骤降,所以傅老师整个身体有向前冲的感觉,但是车速并不快,当时左脚大约点地了几下之后,整个人身体连同青桔单车失去了平衡,向左前方翻倒在地。

傅老师左膝盖严重擦伤,流血、渗液,周围还有淤血,同时上衣口袋中的手机向左前方飞出,掉在机动车道边缘。

傅老师颤颤巍巍站起来,看了下伤口,然后看前后没有过往的汽车或自行车,就把手机拾起,并把青桔单车扶起来,一瘸一拐地推到人行道上。

订单信息显示:解锁时间为2023-08-05 19:28:28,订单时长8分32秒。在此之前,傅老师在微信的滴滴青桔小程序中提交了“车辆故障”反馈,时间是19:35:41。因此实际骑行时间大约是3分半钟的样子,就算3分钟吧。

在从百度地图查看骑行距离大约510米的样子,这样算起来骑行速度大约是:

510米÷180秒=2.83米/秒,相当于10.18千米/小时。(实际跌倒时间要看道路监控才有,这里只是大概的估算)

这速度快吗?并不快!傅老师没有饮酒,双手扶把,穿的有bang的鞋子(不是拖鞋),严格走自行车道。这其实是滴滴青桔单车的质量问题。

傅老师尝试在滴滴青桔后台提交“事故处理”,竟然无法上传图片,只好无图提交。

“事故处理”提交后滴滴青桔很快有客服联系了傅老师,交谈之后得知:

1. 滴滴青桔给每个用户买了保险的,放心吧;

2. 药店买药凭票理赔上限200块;

3. 二级或以上医院治疗费用凭票理赔;

4. 因受伤导致的误工费什么的不在理赔之列!

随后滴滴青桔发来了相关理赔的短信,并后台对接了“深圳人保”,今天(6号,周日)上午“深圳人保”打来的电话,但傅老师没有接到。

事实上,这几年的滴滴青桔单车的维护显然跟不上,且不说外观脏、破、旧,有的青桔单车甚至没有刹车,车轮偏摆(车轮转动时不在一个平面上),座凳不稳定(自动下沉,左右旋转,向后倾斜),方向盘不正,等等,这些都是重大的安全隐患。虽然说滴滴青桔单车给每一个骑行者买了保险,但我犯不着因为你提供这个保险就拿命去骑青桔单车吧!这一次血的教训,傅老师也该告别共享单车了!

——本文最后由傅老师于2023-08-06编辑过

落下、弄丢、忘记的区别:forget, miss, leave

7月 13, 2023 by · Leave a Comment 

先从一个题目说起:
I _____ my key at home, so I ransacked all the rooms.
A. forgot
B. missed
C. left

这个题目相当有迷惑性,乍一看每个单词都可以,但其实so后面的从句就暗示了题目的答案。

下面我们详细说说:

I forgot my key at home. 这个句子可以译作“我把钥匙忘/落在家里了。”句中的forgot表示知道钥匙在什么地方,但是忘记拿了。

I missed my key at home. 这个句子可以译作“我把钥匙弄丢在家里了。”句中的missed暗示我不知道钥匙在何处(虽然知道在家里,但不知道具体位置),有找不着的意思。

I left my key at home. 这个句子可以译作“我把钥匙放在家里了。”句中的left表示我是“故意”把钥匙留在家里的,而且我也知道钥匙在何处。

弄明白上面三个句子的暗含意思,那么再做前面的选择题就很容易了,答案是B。

三星Note 8的几个问题

6月 28, 2023 by · Leave a Comment 

傅老师基本上把数据都转移到Fold 4上来了,还剩下一个sim卡,因为当时的sim卡是大卡剪卡的,边缘有些不齐,因此插不进fold 4里面去(边缘翘起来了)。现在回想一下,虽说总体Note 8还是不错,而且刚开始一两年很好用,但是中后期还是出现了一些明显甚至严重的问题。

国行Note 8购自2017年底,现在就详细说说Note 8存在的问题。

Note 8问题一:烧屏

现象是游戏中的文字或图案被印在了手机屏幕上,退出游戏后印记依然存在,颜色大致呈紫红色,黑屏下看不出来,但是在白色屏幕下(例如浏览网页时)就十分明显。截至换机前夕,该Note 8屏幕上已有10处印记。

此烧屏现象大约在2019年出现。

Note 8问题二:手写笔无法弹出

三星Note 8是内置spen配置,2020年疫情前就出现了spen无法弹出的问题,即按了spen顶部笔帽之后不弹起,因此无法弹出手机。解决方法是把鼠标垫摆在桌边,然后拿手机spen另一侧对着鼠标垫砸,这样靠惯性把spen弄出来。2021年后傅老师习惯了这个不好弹出的spen,小心翼翼,后来也就很少“砸”手机了。

现在的Fold 4是外配spen,因此不存在手写笔无法弹出的问题了,不过依然带来了Fold 4戴spen无线充电失效的问题

Note 8问题三:实体按键脱落

Note 8左侧有音量按键、bixby按键,右侧则是电源开关。

大约在2021年,手机bixby键首先脱落,反正这个键平时基本不用,倒也没啥影响;2021年的样子音量键脱落,这个对手机使用就有较大影响了;2022年电源键脱落,这个影响就非常大了,平时无法关机,无法熄屏,手机过热强行自动关机后无法开机……说起来都是“恨”。

当时解决电源键脱落的问题,傅老师不得不随身携带原装盒中的那个安装sim卡用的针。

Note 8问题四:自动关机

最初的时候Note 8并不会自动关机,2020年夏天在户外拍照,只出现了因手机太热自动退出拍照APP的情况,还没有自动关机。但是到2022年时就出现大问题了,春末夏初,上海封城刚结束,到处都要扫码才能进入,结果一启动微信或者支付宝的二维码扫码功能,Note 8就自动关机了,用sim卡针开机再扫,循环关机;跟亲友微信视频到中途自动关机;平时拍摄视频时自动关机……好一个惨字!

就这样折腾着到了2023年。

最后一个可能算不上问题,就是晚上睡觉前充满电到100%,第二天一早起来还剩下80%多的电量,但如果以“超级省电”模式,那一晚上待机耗电就很少,大约3-4%。

三星Fold 4的spen与无线充电不“兼容”,成一大败笔

6月 27, 2023 by · Leave a Comment 

三星Z Fold 4和以前的Note系列不同,虽然支持spen手写笔,但是没有内置,因此不但spen要另外花钱买,而且要想随身携带的话,还得把它系在手机壳背面,这样手机后面就隆起一大块。

这样导致两个问题:

一、无线充电用不了

手写笔导致手机背部隆起一大块,超过了无线充电的有效距离。傅老师打电话问了三星商城(4008105858),他们表示目前没有小型的无线充电器售卖,因此Fold 4戴了笔套就不能无线充电,要想无线充电得先摘笔套。

二、书写不畅

由于隆起的笔套的缘故,Fold 4展开后无论是横放还是纵放都放不平,手写体验极差,要想手写舒适,又得摘笔套。

因此现在三星Fold 4与spen所面临的局面非常尴尬:要么让Note老用户放弃使用spen,要么就每天把笔套装上取下使劲折腾!

——本文最后由傅老师于2023-06-27编辑过

220.181.51.*到底是不是百度蜘蛛(Baiduspider)的IP段?

3月 25, 2023 by · Leave a Comment 

不得不说,谷歌蜘蛛(Googlebot)和必应蜘蛛(bingbot)是最遵守规则的,也是透明度最高的;百度蜘蛛(Baiduspider)和搜狗蜘蛛(Sogou web spider)要差一些;360蜘蛛(360spider)是最垃圾的,官方公开的IP段百年不更新,蜘蛛IP也不作rDNS,结果就是任何人随便找个河南郑州的家宽就能冒充360spider来爬你的数据。

现在我们来看看这个问题:

220.181.51.*到底是不是百度蜘蛛(Baiduspider)的IP段?

220.181.51.*这个段其实早已映入傅老师眼帘。大多数IP查询网站查到的结果都是“北京市 电信百度蜘蛛”,而且百度的确有个正宗蜘蛛段:220.181.108.*,看上去很像对吧?为了确认这个问题,傅老师曾在https://ziyuan.baidu.com向百度官方提过这个问题,但是官方统一机器回复:

您好, 请查看文章,如何识别Baiduspider,https://ziyuan.baidu.com/college/articleinfo?id=1002,感谢您的支持!

至此依然没有解决220.181.51.*到底是不是百度蜘蛛(Baiduspider)的IP段的问题。我们手动试试,批量做一个rDNS查询:

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

……

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

……

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

181.220.in-addr.arpa. 1800 IN SOA idc-ns1.bjtelecom.net. hostmaster11.ctid.com.cn. 1141804898 10800 3600 604800 38400

根据百度官方所讲述的第二个判断方法第一步就可以看出,因为220.181.51.*这个段反向DNS查询没有看到crawl.baidu.com的影子,所以这个C段不是百度蜘蛛。随便抽几个IP构造出rDNS来ping一下看看,也没有解析。

baiduspider-220-181-51-1.crawl.baidu.com

baiduspider-220-181-51-100.crawl.baidu.com

baiduspider-220-181-51-250.crawl.baidu.com

照这样看来,220.181.51.*应该不是百度蜘蛛。但是会不会是百度官方给遗漏了呢?因为百度官方给的“双向DNS解析认证”就有遗漏的情况,比如220.181.108.197-220.181.108.210就只有反向解析,没有正向解析。但这些IP又确实是百度蜘蛛。那我们继续找找看220.181.51.*这个段有没有什么线索能和百度关联上。

一、根据IP去查一下ASN:

CHINANET-IDC-BJ-AP IDC, China Telecommunications Corporation, CN

说明此段为中国电信的数据中心。但没有百度的影子。

二、前面反查信息中有个域名ctid.com.cn
有毅力的朋友可以根据ctid.com.cn的whois信息找到一个邮箱,从此邮箱可以找到关联的公司,依然没看到和百度的关联。更加有耐心的朋友可以进一步发邮件给那个邮箱直接询问。

综上所述,220.181.51.*有百度蜘蛛的样子,但是没有百度蜘蛛的实证。目前傅老师的做法是开放非核心页面给它爬(例如首页、目录页、栏目页),不限量;核心页面(文章页)如果每天爬个几页可以放行,但是多了就ban掉它。

2023.4.4更新
220.181.51.*这个段99%的可能是百度蜘蛛。傅老师在防火墙为它设置了白名单,但是在后端代码层面没有将其设置白名单,因此触发了captcha验证,结果这个captcha验证页面被百度收录了,并且出现在百度搜索结果页面。

——本文最后由傅老师于2023-04-04编辑过

Next Page »