分享好友 最新动态首页 最新动态分类 切换频道
【Python实战】网络爬虫实战详解
2024-12-26 09:24



网络爬虫(Web crawler,又称为网络蜘蛛(Web spider)或网络机器人(Web robot,主要用来爬取目标网站内容的程序或脚本。

从功能上来区分网络爬虫

  • 数据采集
  • 数据处理
  • 数据储存

  • 功能:下载网页数据,为搜索引擎系统提供数据来源。
  • 组件:控制器、解析器、资源库。

Web网络爬虫系统首先将种子URL放入下载队列,然后简单地从队首中取出一个URL下载其对应的网页。得到网页的内容将其储存后,再经过解析网页中的链接信息可以得到一些新的URL,将这些URL加入下载队列。然后取出一个URL,对其对应的网页进行下载,再解析,如此反复进行,直到遍历了整个网络或满足某种条件后才会停止下来。

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

聚焦爬虫工作流程较为复杂需要根据一定的网页分析算法过滤与主题无关的链接,保留有用链接并将其放入等待抓取URL队列。然后它将根据一定搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统某一条件时停止。另外所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

通用网络爬虫又称全网爬虫, 爬行对象从一些种子URL扩充到整个Web主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面顺序要求相对较低,同时由于待刷新页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。虽然存在一定缺陷, 但通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强应用价值。

实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

在爬虫系统中,待抓取URL队列是很重要的一部分。队列中URL以什么样顺序排列也是一个很重要的问题,因为这涉及先抓取哪个页面,后抓取哪个页面。

而决定这些URL排列顺序的方法,称之为抓取策略。

在抓取过程中,在完成当前层次搜索后,才进行下一层次搜索。

  • 优点:算法设计和实现相对简单。
  • 缺点:随着抓取网页增多,大量无关网页将被下载并过滤,算法效率将变低。

从起始网页开始,选择一个URL进入,分析这个网页中的URL,一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条URL中的路线。

按照一定的网页分析法,预测候选URL与目标网页的相似度,或者与主题的相关性,并选取评价最好的一个或几个URL进行抓取。

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐程度。

Partial PageRank算法借鉴了PageRank算法的思想,对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。

用于目前互联网中海量URL管理,它包含多个爬虫(程序,每个爬虫(程序)需要完成的任务和单个爬行器类似。它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。

这些爬虫可能分布在同一个局域网之中,或分散在不同地理位置。

现在比较流行的分布式爬虫

  • Apache Nutch 依赖hadoop运行,hadoop本身会消耗很多时间。Nutch是为搜索引擎设计的爬虫,如果不是要做搜索引擎,尽量不要选择Nutch。

用Java开发的抓取网络资源的小程序,常用的工具包括Crawler4j、WebMagic、WebCollector等。

  • Scrapy 由Python编写的,轻量级的、高层次的屏幕抓取框架。最吸引人的地方在于Scrapy是一个框架,任何使用者可以根据自己的需求进行进行修改,并具有一些高级函数,可以简化抓取过程。

抓取某网首页

使用urllib模块,此模块提供了读取Web页面数据接口,可以像读取本地文件一样读取www和ftp上的数据。urllib是一个URL处理包,这个包中集合了一些处理URL的模块。

  1. urllib.request 模块 用来打开和读取URLs的。
  2. urllib.error 模块 包含一些由 urllib.request 产生的错误,可以用try进行捕捉处理。
  3. urllib.parse 模块 包含一些解析 URLs的方法。
  4. urllib.robotparser 用来解析 robots.txt 文本文件。它提供了一个单独的 RobotFileParser 类,通过该类提供的 can_fetch() 方法测试爬虫是否可以下载一个页面。

以下代码为抓取某网页的代码

 
 

代码如下

 
 

代码如下

 
 

代码如下

 
 

以上使用Python版本为 3.9。

本篇内容参考自《Python3 数据分析与机器学习实战》一书,编写此篇以学习为主。

都看到这儿啦,来个一键三连呗 (´▽`ʃ♡ƪ)

最新文章
天科合达二期项目10kV电力接入土建工程(含电力管线及新建开闭所)施工招标
第一章 招标公告天科合达二期项目10kV电力接入土建工程(含电力管线及新建开闭所)施工招标一、招标条件本(批)招标项目已由相应部门同意建设,建设资金已落实,项目已具备招标条件,现对该(批)项目进行公开招标。国网江苏省电力有限公
超牛的 AI 创作PPT神器!真的好用到炸裂!- 万彩智演丨(文中有福利)
这次向官方争取到了3个月的万彩智演特别版会员福利,仅200个,领完即止!特别版相比免费版可以去水印,以及更高的视频清晰度、更多的可用素材。领取方式:添加万彩福利官微信↓,即可免费领取。1 人只能领取一次哦。下面简单说说软件的特色
网站SEO提升软件外链工具
SEO提升软件软件填入自己网站的链接即可1.外链工具只是网站推广的辅助工具,一般适用于短时间内无法建设大量外链的新站,新站应坚持每天做一到两次为宜,大约一周左右能看到效果。老站不建议使用此类工具,老站应以优质内容建设为主,辅以
SEO优化推广前,你知道要如何挖掘网站的关键词吗?
深度SEO:网站关键词长尾词如何挖掘、SEO优化需要注意哪些事项? 1、使用百度搜索建议:在百度搜索框中输入你的核心关键词,百度会自动给出相关的搜索建议,这些建议往往是用户常用的长尾关键词。2、利用百度指数:百度指数是一个反映用户
苹果CMS模板源码,适用于H5网页漫画小说,支持与公众号对接以及三级分销功能。
H5网页漫画小说苹果cms模板系统源码支持对接公众号支持三级分销评论、收藏、历史记录三级分销独有的模板搜索功能微信、qq防红(后台配置)站外采集接口记录阅读章节SEO优化(后台配置)轮播图、推荐配置对接支付、qq登录及对接公众号等等苹
腾讯云4核8g10M轻量服务器能承受多少人在线访问?
腾讯云4核8g10M轻量应用服务器支持多少人同时在线?企业型-4核8G-100G-1500G,1500GB月流量,系统盘为100GB SSD盘,10M公网带宽,下载速度峰值为1280KB/s,即1.25M/秒,假设网站内页平均大小为60KB,则支持21人同时在线。腾讯云百科来详细
高性价比工作手机推荐,帮助您选择最适合的工作手机
点击以上视频即可播放了解详情 ↑百度搜索“红鹰工作手机”即可联系红鹰 ↓红鹰工作手机是一款具有高性价比的工作手机,帮助企业快速分配客户、消除中间环节、接待客户零延迟、把握最佳接触时机成单和转化,使销售管理更加方便。红鹰工作手
最新开源微信小程序一键开发平台源码 支持15大功能模块+完整前后端+搭建教程
分享一个开源微信小程序一键开发综合平台源码,系统支持15大小程序功能模块,涉及各行各业,含完整前后端+详细搭建部署教程。 系统特色功能一览: 1、全新重构升级功能后端文件和前端文件; 2、整套源码
Windows优化大师专业版 7.88最新下载
Windows优化大师是一款功能强大的系统辅助软件,它提供了全面有效且简便安全的系统检测、系统优化、系统清理、系统维护四大功能模块及数个附加的工具。使用Windows优化大师,能够高效地帮助用户了解自己的计算机软硬件信息,简化操作系统
韩媒:台积电、SK 海力士组 AI 晶片联盟,传为反制三星
▼韩国媒体报道,全球第二大记忆体晶片制造商 SK 海力士(SK hynix)正与台积电结盟,以强化双方在人工智慧(AI)领域的合作伙伴关系。韩国媒体Pulse 7 日引述业界消息人士说法报道,SK海力士和台积电共同组成One Team战略同盟,双方的合作
相关文章
推荐文章
发表评论
0评