“2022年4月”存档文章有33

爬虫数据是如何收集和整理的

有用户一直好奇爬虫识别网站上的爬虫数据是如何整理的,今天就更大家来揭秘爬虫数据是如何收集整理的。通过查询 IP 地址来获得 rDNS 方式我们可以通过爬虫的 IP 地址来反向查询 rDNS,例如:我们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为:baiduspider-116-179-32-160.crawl.baidu.com从上面大致可以判断应该是百度...

Python 遍历文件以及删除文件

使用 Python 遍历文件,我们使用 os.walk(folder) 这个函数,其中 folder 就是我们需要遍历的文件最顶层。例如下面有这样的一个文件结构:base/ ├── fileA.txt ├── fileA2.xls ├── fileA3.xls ├── fileA4.pdf ├── sub1 │ ├── fileB.txt │ ├── fileB2.xls ...

Python 如何使用 SSH 上传文件

最近项目上需要将采集到的数据上传到服务器,采集使用的是 Python 爬虫,所以考虑怎么使用 Python 将文件上传到 Ubuntu 服务器。在 Python 中我们可以使用 Paramiko 库,具体代码示例:import paramiko @staticmethod def update_files_to_ubuntu_server(): ssh = paramiko.SS...

菲律宾 Globe 电话卡充值与查询余额

如果您是用于注册Shopee、Lazada等卖家账户,注册店铺以后,请及时充值 Globe延期续费套餐,然后每半年内充值一次此套餐,双重保障,使卡一直处于活跃状态。(如果充值失败,请把失败号码充值25P,其他的额度不一定能给号码延有效期)充值其他额度话费,不一定能延期号码有效期,务必注意。一、买卡须知:菲律宾 Globe 电话卡,发货的卡,所有卡芯没有任何插痕,全部是从菲律宾进口回来,保证未进行任...

Python 生成 UUID GUID

在 Python 中如果您想要的只是一个唯一的 ID,您可能应该调用 uuid1() 或 uuid4()。请注意,这 uuid1() 可能会损害隐私,因为它会创建一个包含计算机网络地址的 UUID。 uuid4() 创建一个随机的 UUID。下面的方法可以在 Python 2 和 Python 3 中生成 UUID:>>> import uuid >>> # make a random UU...

MySQL 升级到 8.0 无法远程连接

今天升级了一台腾讯云的 CVM 服务器,从原来的 16.04 升级到 20.04,具体升级过程可以查看这篇文章:After updating your package information, the essential package 'ubuntu-minimal' could not be located. This may be because you have no official m...

After updating your package information, the essential package 'ubuntu-minimal' could not be located. This may be because you have no official mirrors listed in your software sources

最近将 Ubuntu 16.04 升级到 20.04 的时候出现了如下错误:Invalid package informationAfter updating your package information, the essential package 'ubuntu-minimal' could not be located. This may be because you have no o...

Linux 查看日志的6种方法

作为一名后端程序员,和 Linux 打交道的地方很多,不会看 Linux 日志,为日后的故障排除带来了很多不便,为了使工作顺利开展,需要经常查看生产环境中的各种日志,总结了在 Linux 6 种查看日志的方法。Linux查看日志的命令有多种: tail、cat、tac、head、echo等,本文只介绍几种常用的方法。tailtail 是查看后面多少行日志,这个是我最常用的一种查看方式:命令格式: ...