记录生活中的点滴

每天我们身边都经历着这样或者那样的事情，好的不好的，高兴的不高兴的，快乐亦或忧伤的……这些都是人生必须要经历的，以后回想起来，看到这些有的时候觉得好笑，无论怎么样，这都组成了我们生活的一部分。

你需要知道的 10 大互联网爬虫

2022年04月24日

机器人和僵尸网络通常与网络犯罪分子窃取数据、身份、信用卡号码和更糟糕的情况有关。但是，机器人也可以有好的目的。将好的机器人与坏的机器人区分开来，也可以在保护你公司的网站和确保你的网站获得应有的互联网流量方面发挥很大作用。大多数好的机器人基本上都是世界上最大的网站派出的爬虫，为其搜索引擎和社交媒体平台索引内容。你想让这些机器人访问你。它们会给你带来更多的访问量！如果我们阻止这些好的爬虫抓取我们的网...

腾讯云无法访问 gihub.com 解决方案

2022年04月24日

昨天（2022年4月23日）本地写好的代码，登录腾讯云服务器拉取，结果如下图所示：ssh: connect to host github.com port 22: Connection timed out fatal: Could not read from remote repository. Please make sure you have the correct access ri...

临时记事本

2022年04月24日

这篇文章作为零时记事本，大家看到不要惊讶😮| 爬虫名称 | 被抓取网站 % | 爬虫类别 || :--- | :----: | ---: || Googlebot | 96% | 搜索引擎爬虫 || Baidu Spider | 89% | 搜索引擎爬虫 || MSN Bot/Bing...

反爬虫的重点：识别爬虫

2022年04月22日

我们在网站运营的时候，最大的问题就是：我们自己花费几个小时甚至是几天辛辛苦苦创作作的内容，被爬虫只需要 1s 就抓去了。为了保卫我们创作的成果，也为了网站的稳定运行，我们需要对爬虫说：No，我们在反爬虫的过程中最重要的就是如何识别爬虫。为了识别识别爬虫，常用的有以下几个方法：真人检测所谓的真人检测也就是出现一个验证码，让你输入验证码的内容，这些验证码对于人类来说很容易识别，但是对于机器来说却很难识...

How crawler data is collected and organized

2022年04月18日

Some users have been curious about how the crawler data on the crawler-aware website is organized, and today we will be more than curious to reveal how the crawler data is collected and organized.The ...

爬虫数据是如何收集和整理的

2022年04月15日

有用户一直好奇爬虫识别网站上的爬虫数据是如何整理的，今天就更大家来揭秘爬虫数据是如何收集整理的。通过查询 IP 地址来获得 rDNS 方式我们可以通过爬虫的 IP 地址来反向查询 rDNS，例如：我们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为：baiduspider-116-179-32-160.crawl.baidu.com从上面大致可以判断应该是百度...

Python 遍历文件以及删除文件

2022年04月08日

使用 Python 遍历文件，我们使用 os.walk(folder) 这个函数，其中 folder 就是我们需要遍历的文件最顶层。例如下面有这样的一个文件结构：base/ ├── fileA.txt ├── fileA2.xls ├── fileA3.xls ├── fileA4.pdf ├── sub1 │ ├── fileB.txt │ ├── fileB2.xls ...

菲律宾 Globe 电话卡充值与查询余额

2022年04月08日

如果您是用于注册Shopee、Lazada等卖家账户，注册店铺以后，请及时充值 Globe延期续费套餐，然后每半年内充值一次此套餐，双重保障，使卡一直处于活跃状态。（如果充值失败，请把失败号码充值25P，其他的额度不一定能给号码延有效期）充值其他额度话费，不一定能延期号码有效期，务必注意。一、买卡须知：菲律宾 Globe 电话卡，发货的卡，所有卡芯没有任何插痕，全部是从菲律宾进口回来，保证未进行任...