爬虫系列：数据采集-详细内容

文章内容

2021/10/19 11:17:49,作者: 黄兵

爬虫系列：数据采集

在上一期，主要讲解了：连接网站与解析 HTML

上一期只是一个简单的例子，获取了网站的一小部分内容，本期开始讲解需要获取网站的所有文章列表。

在开始以前，还是要提醒大家：在网络爬虫的时候，你必须非常谨慎地考虑需要消耗多少网络流量，还要尽力思考能不能让采集目标的服务器负载更低一点。

本次示例采集The ScrapingBee Blog博客的文章。

在做数据采集以前，对网站经行分析，看看代码结构。

需要采集的部分是一个个的小 card 组成，截图如下：

multiple card

获取所有卡片的父标签之后，循环单个卡片的内容：

one item card

单个卡片的内容，就是我们需要的内容，整理完思路之后，开始完成代码：

首先我们还是复用上一期网站连接的代码：

def __init__(self):
    self._target_url = 'https://www.scrapingbee.com/blog/'
    self._init_connection = connection_util.ProcessConnection()

以上代码定义了一个被采集的网址，同时复用上一期的网站连接代码。

    # 连接目标网站，获取内容
    get_content = self._init_connection.init_connection(self._target_url)

连接到上面定义的目标网站，并获取网站的内容。

    if get_content:
        parent = get_content.findAll("section", {"class": "section-sm"})[0]
        get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]

如果存在内容，对网站内容的标签经行查找，以上是获取所有 card 的父标签，获取具体网站结构可以自己查看网站的完整内容。

文章内容

2021/10/19 11:17:49,作 者: 黄兵

爬虫系列：数据采集

发表评论

评论列表

兔宝宝游戏网 on 2021-10-24 10:18:56 回复 有用（0）

游客l82g on 2021-11-02 17:35:16

搜索文章

文章分类

文章归档

2021/10/19 11:17:49,作者: 黄兵

兔宝宝游戏网 on 2021-10-24 10:18:56 回复有用（0）