【Python实战】网络爬虫实战详解

分享好友最新动态首页最新动态分类切换频道

【Python实战】网络爬虫实战详解

2024-12-26 09:24

网络爬虫（Web crawler），又称为网络蜘蛛（Web spider）或网络机器人（Web robot），主要用来爬取目标网站内容的程序或脚本。

从功能上来区分网络爬虫：

数据采集
数据处理
数据储存

功能：下载网页数据，为搜索引擎系统提供数据来源。
组件：控制器、解析器、资源库。

Web网络爬虫系统首先将种子URL放入下载队列，然后简单地从队首中取出一个URL下载其对应的网页。得到网页的内容将其储存后，再经过解析网页中的链接信息可以得到一些新的URL，将这些URL加入下载队列。然后取出一个URL，对其对应的网页进行下载，再解析，如此反复进行，直到遍历了整个网络或满足某种条件后才会停止下来。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

聚焦爬虫工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用链接并将其放入等待抓取URL队列。然后它将根据一定搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统某一条件时停止。另外所有被爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

通用网络爬虫又称全网爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面顺序要求相对较低，同时由于待刷新页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，但通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强应用价值。

实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

在爬虫系统中，待抓取URL队列是很重要的一部分。队列中URL以什么样顺序排列也是一个很重要的问题，因为这涉及先抓取哪个页面，后抓取哪个页面。

而决定这些URL排列顺序的方法，称之为抓取策略。

在抓取过程中，在完成当前层次搜索后，才进行下一层次搜索。

优点：算法设计和实现相对简单。
缺点：随着抓取网页增多，大量无关网页将被下载并过滤，算法效率将变低。

从起始网页开始，选择一个URL进入，分析这个网页中的URL，一个链接一个链接地抓取下去，直到处理完一条路线之后再处理下一条URL中的路线。

按照一定的网页分析法，预测候选URL与目标网页的相似度，或者与主题的相关性，并选取评价最好的一个或几个URL进行抓取。

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐程度。

Partial PageRank算法借鉴了PageRank算法的思想，对于已经下载的网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，计算完之后，将待抓取URL队列中的URL按照PageRank值的大小排列，并按照该顺序抓取页面。

用于目前互联网中海量URL管理，它包含多个爬虫（程序），每个爬虫（程序）需要完成的任务和单个爬行器类似。它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务，可能爬虫会将自己抽取的URL发送给其他爬虫。

这些爬虫可能分布在同一个局域网之中，或分散在不同地理位置。

现在比较流行的分布式爬虫：

Apache Nutch： 依赖hadoop运行，hadoop本身会消耗很多时间。Nutch是为搜索引擎设计的爬虫，如果不是要做搜索引擎，尽量不要选择Nutch。

用Java开发的抓取网络资源的小程序，常用的工具包括Crawler4j、WebMagic、WebCollector等。

Scrapy： 由Python编写的，轻量级的、高层次的屏幕抓取框架。最吸引人的地方在于Scrapy是一个框架，任何使用者可以根据自己的需求进行进行修改，并具有一些高级函数，可以简化抓取过程。

抓取某网首页

使用urllib模块，此模块提供了读取Web页面数据接口，可以像读取本地文件一样读取www和ftp上的数据。urllib是一个URL处理包，这个包中集合了一些处理URL的模块。

urllib.request 模块： 用来打开和读取URLs的。
urllib.error 模块： 包含一些由 urllib.request 产生的错误，可以用try进行捕捉处理。
urllib.parse 模块： 包含一些解析 URLs的方法。
urllib.robotparser： 用来解析 robots.txt 文本文件。它提供了一个单独的 RobotFileParser 类，通过该类提供的 can_fetch() 方法测试爬虫是否可以下载一个页面。

以下代码为抓取某网页的代码：

代码如下：

以上使用Python版本为 3.9。

本篇内容参考自《Python3 数据分析与机器学习实战》一书，编写此篇以学习为主。

都看到这儿啦，来个一键三连呗 (´▽`ʃ♡ƪ)