分享好友 最新资讯首页 最新资讯分类 切换频道
巨细!Python爬虫详解
2024-12-27 11:53

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,他们沿着蜘蛛网抓取自己想要的猎物/数据。

巨细!Python爬虫详解

爬虫的基本流程

网页的请求与响应

网页的请求和响应方式是 Request 和 Response

Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server

Response:服务器接收请求,分析用户发来的请求信息,收到请求信息后返回数据(返回的数据中可能包含其他链接,如:image、js、css等

浏览器在接收 Response 后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收 Response 后,是要提取其中的有用数据。

发起请求:Request

请求的发起是使用 http 库向目标站点发起请求,即发送一个Request

Request对象的作用是与客户端交互,收集客户端的 Form、Cookies、超链接,或者收集服务器端的环境变量。

Request 对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过 HTML 表单或在网页地址后面提供参数的方法提交数据。

然后服务器通过 request 对象的相关方法来获取这些数据。request 的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。

Request 包含:请求 URL、请求头、请求体等

Request 请求方式 GET/POST

请求url: url全称统一资源定位符,一个网页文档、一张图片、 一个视频等都可以用url唯一来确定

请求头 User-agent:请求头中如果没有 user-agent 客户端配置,服务端可能将你当做一个非法用户

cookies cookie 用来保存登录信息

一般做爬虫都会加上请求头 例如:抓取百度网址的数据请求信息如下

获取响应内容

爬虫程序在发送请求后,如果服务器能正常响应,则会得到一个Response,即响应

Response 信息包含:html、json、图片、视频等,如果没报错则能看到网页的基本信息。例如:一个的获取网页响应内容程序如下

 

以上内容输出的就是网页的基本信息,它包含 html、json、图片、视频等,如下图所示

Response 响应后会返回一些响应信息,例下

1、响应状态

  • 200:代表成功
  • 301:代表跳转
  • 404:文件不存在
  • 403:权限
  • 502:服务器错误

2、Respone header

  • set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

3、preview 是网页源代码

  • 最主要的部分,包含了请求资源的内容,如网页html、图片、二进制数据等

4、解析内容

解析 html 数据:解析 html 数据方法有使用正则表达式、第三方解析库如 Beautifulsoup,pyquery 等

解析 json 数据:解析 json数据可使用 json 模块

解析二进制数据:以 b 的方式写入文件

5、保存数据

爬取的数据以文件的形式保存在本地或者直接将抓取的内容保存在数据库中,数据库可以是 MySQL、Mongdb、Redis、Oracle 等……

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例

六、面试宝典

需要这份系统化学习资料的朋友,可以戳这里无偿获取

最新文章
现在做外链的渠道有哪些?seo人员该如何做外链?
最近看到百度的变化很大,更新频率也不断的上升,同时也让很多人的网站受到排名下降或者上升的影响,根据笔者
关于开展2024年度阳新县“富川英才”计划申报工作的通知
关于开展2024年度阳新县“富川英才”计划申报工作的通知各镇(场)区、有关县直单位,各重点企业:为支持我县民营企业加大科技创
河化股份跌2.09%,成交额2.14亿元,今日主力净流入-226.47万
12月13日,跌2.09%,成交额2.14亿元,换手率8.68%,总市值24.02亿元。根据AI大模型测算河化股份后市走势。短期趋势看,该股当前
闲聊AI绘图:轻松打造你的专属美女写真作品!
在这个数字化飞速发展的时代,AI技术逐渐渗透到了我们生活的各个方面,其中AI绘图更是引发了一股热潮。想象一下,和朋友分享一张
用AI生成超逼真美女写真,轻松制作你的专属形象!
访问网站或微信小程序:在浏览器中输入搜狐简单AI的网址,或者直接打开微信,搜索“小程序”中的搜狐简单AI即可。选择功能模块:
解答:微信小程序开通审核费用、后期费用怎样?
随着各种小程序生成工具的涌现,普通人要想制作小程序已经不是难事。但是仍有很多与费用相关的问题,小白并不明白。所以今天就跟
Unix系统:构建机器学习AI算法的稳固基石
  在人工智能和机器学习的世界里,稳定和可靠的环境至关重要。Unix,这款历史悠久且广受欢迎的操作系统,以其卓越的稳定性、安
荣威 D7 智能科技方面表现怎样
荣威 D7 在智能科技方面表现出色。 车内配置宽奢静谧的云宿智能座舱,双幅式平底方向盘造型拉风。 12.3 英寸液晶仪表与 12.3 英
盘点奔驰GLB车型配置 性价比的明智之选
的外观方正硬朗,整车线条平直,整体看起来很有设计感。新车采用了双横幅式进气格栅,上面装饰有镀铬饰条,并与大尺寸的奔驰logo
百度、谷歌们能够承担FDA的职责吗
百度贴吧事件就像是给了众人一个对行业里垄断巨头发泄的机会,无一例外落到道德谴责上,但是时候从商业的角度作出思考了,商业公