分享好友 最新动态首页 最新动态分类 切换频道
实战|Python轻松实现动态网页爬虫(附详细源码)
2024-12-26 15:22

一、什么是动态网页
我一向注重理论与实践相结合,知其然也要知其所以然,才能以不变应万变。

所谓的动态网页,是指跟静态网页相对的一种网页编程技术。静态网页,随着html代码的生成,页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然,页面代码虽然没有变,但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。——来源百度百科

动态网页具有减少工作量、内容更新快、可完成功能多等特点,被很多公司所采用,比如狗东、某宝、某瓣、某乎等等。

二、什么是AJAX

随着人们对动态网页加载速度的要求越来越高,AJAX技术应运而生并成为许多站点的首选。AJAX是一种用于创建快速动态网页的技术,通过在后台与服务器进行少量数据交换,使网页实现异步更新。这意味着在不重新加载整个网页的情况下,可以对网页的某部分进行更新。

三、如何爬取AJAX动态加载网页

  1. 解析接口

只要是有数据发送过来,那肯定是有发送到服务器的请求的吧。我们只需找出它悄悄加载出的页面的真实请求即可。特点:爬取速度快,爬取的数据干净,有些网站解析难度较大。

  1. Selenium

selenium是什么呢?它本来是个自动化测试工具,但是被广泛的用户拿去爬虫了。它是一个工具,这个工具可以用代码操作浏览器,比如控制浏览器的下滑、模拟鼠标点击等。特点:代码较简单,爬取速度慢,容易被封ip。

既然如此,那我们就开启爬虫的正确姿势吧,先用解析接口的方法来写爬虫。

 

构造真实请求,添加Headers。这里J哥没有贴自己的User-Agent和Cookie,主要是一向胆小甚微的我害怕啊。

 

构建get_page函数,自变量为page,也就是页数。以字典类型创建表单data,用post方式去请求网页数据。这里要注意要对返回的数据解码,编码为’gbk’,否则返回的数据会乱码!另外我还加了异常处理优化了下,以防意外发生。

 

构建parse_page函数,对返回的网页数据进行解析,用Xpath提取所有字段内容,保存为csv格式。有人会问为啥J哥这么喜欢用Xpath,因为简单好用啊!这么简单的网页结构搞个正则大法装x,J哥我做不到啊。

 

最后,遍历一下页数,调用一下函数。OK,搞定

 
 

二、Selenium

好学的朋友可能还想看看Selenium是如何来爬AJAX动态加载网页的,J哥自然会满足你的好奇心。于是赶紧新建了一个py文件,准备趁势追击,用Selenium把这网站爬下来。

首先,把相关库导进来。

 

然后,用chromedriver驱动打开这个网站。

 
 
 

总结一下,对于AJAX动态加载网页爬虫,一般就两种方式:解析接口;Selenium。我推荐解析接口的方式,如果解析的是json数据,就更好爬了。实在没辙了再用Selenium吧。

最新文章
高德地图搜不到地址怎么办-商家新开门店地图定位
高德地图搜不到地址,可能有以下几种原因,解决办法如下:1. 地址输入有误:确认输入的地址是否正确,可以对照地图软件的其他信息,或者询问当地居民获得更准确的信息。2. 地址数据不全:某些偏僻或者新兴地区的地址数据可能尚未完全录入,
能源矿产检测 矿产成分检测 矿石元素检测
能源矿产检测 矿产成分检测 矿石元素检测 矿石能源一般属于不可再生能源,属于现代工业的基础原料。矿石检测主要是指利用分析检测仪器对矿石材料进行分析检测,确定矿石材料成分和品位,为企业进行矿石开采研究提供分析技术支持。能源属于
百度小说排行榜2021前十名完结
现如今,小说越来越多,但似乎找到一本心仪的小说却变得越来越难,面对浩如烟海的小说,从哪里知道什么更适合自己呢?小编为你提前排雷,帮你找到自己心中的最爱,大家有什么意见与建议可以在评论区中一起交流,一起建立起一个小书虫们的交
外勤365产品培训FAQ课件
外勤365产品培训常见问题外勤人员精细化管理工具出现网络请求失败原因:1.网络不稳定或者比较差2.是否限制外勤365软件3.后台很多其它软件在使用网络问题一、网络请求失败、界面转圈处理方法:1.换接入点在Android手机上,点击“设置”——
谷歌为成为苹果默认搜索引擎支付数十亿美元
据国外媒体报道,谷歌向苹果支付了数十亿美元,以便让其成为iPhone和Mac电脑中的Safari浏览器的默认搜索引擎。据之前消息,谷歌与苹果谈判,希望能够成为他们的默认搜索引擎。就在最近的一次采访中,苹果前法律总顾问布鲁斯·休厄尔透露了
网站分析与SEO效果的评估,互联网营销
网站分析与SEO效果的评估,互联网营销网站分析网站分析与SEO效果的评估,互联网营销  让我在能动笔的岁月中继续动笔吧!我一直想要写关于网站分析如何帮助评估SEO的效果,但是,因为自己并不是SEO的专家,而且目前仍在学习的过程中,因此
百度快照是什么功能
百度快照,是百度搜索引擎推出的一项服务,它的主要功能是在网页无法正常访问时,通过保存的网页备份,为用户提供一个可以查看的网页版本,这种服务对于网站管理员和普通用户来说都有很大的帮助。百度快照的工作原理其实很简单,当用户在百
大脑开始萎缩,不是看忘不忘事!医生告诫:若有这2异常或已萎缩
“哎呀,完了完了,这次出门又没带钥匙。”老李头看着空空如也的衣服兜,忍不住感叹道,“最近老忘事,看来年纪大了大脑开始萎缩了。”一旁的妻子忍不住批评道:“一大早上出来散步你就给我整这出损色,没带钥匙说自己大脑萎缩,睡觉厨房灯
网信办新规管理搜索服务 百度:每页不超4条推广
  昨日,国家互联网信息办公室发布《互联网信息搜索服务管理规定》(以下简称《规定》)。《规定》要求,提供付费搜索信息服务应当依法查验客户有关资质,明确付费搜索信息页面比例上限,醒目区分自然搜索结果与付费搜索信息。  国家互
笔记本电脑如何复制粘贴网址
要复制和粘贴网址,您可以按照以下步骤进行操作:1. 打开您的网页浏览器并进入要复制的网页。2. 在地址栏上方,将鼠标光标定位到网址文本框中。3. 单击右键,在弹出菜单中选择“复制”选项。或者,您也可以使用Ctrl+C组合键来完成复制操作
相关文章
推荐文章
发表评论
0评