分享好友 最新资讯首页 最新资讯分类 切换频道
一文让你彻底掌握python爬虫的编写(代码可以直接使用!)
2024-12-29 06:07

最近闲来无事研究了下python的爬虫机制,为了以后回顾,所以写篇博文详细讲下过程。(以爬取某网站图片为例

示范网站:https://www.dpm.org.cn/lights/royal.html

 

首先我们需要分析我们要爬取的网页

我们需要得到以下几个内容

1:网页的url(用以request发送请求)

2:我们所要爬取的内容在哪里(用正则去抓取)

3:我们要爬取的具体内容的url

以下详细说明

第一步获得url:https://www.dpm.org.cn/lights/royal.html

第二步F12进入检查模式(我用的google浏览器)

找到图片在哪个子标签里(需要有一点html知识),网页html内容很多,我们将鼠标放在某一行,这一行对应网页里的块就会高亮,很方便就可以找到图片在哪里子标签里。

例子中的图片在class='pic'的div里,具体的地址在img标签中,属性src。

第三步:有很多网站src对应的地址并不是完整的地址,例如会去掉头部地址,只有子目录查找的地址,这时候我们需要自己补齐完整的url。(头部地址基本都是固定的,也就是网站的地址,用字符串拼接即可)

OK。我们获得了写代码需要的所有先验信息,可以直接写了。

先贴一个获取图片地址的代码

 

web_url就是第一步得到的url。

第二步得到的先验信息用在正则搜索里。bs.find_all会得到所有class='pic'的div文本(列表形式存储)

我们只需要遍历div文本列表,继续用正则搜索标签为img,属性为src的文本,也就是图片的具体地址。

到这一步,我们已经获得了了完整的图片具体地址

图片地址例如https://img.dpm.org.cn/Uploads/Picture/2020/04/28/s5ea8381900a46.jpg这样的形式

接着只需要存在本地。

 

这里的img_url就是上面得到的img_web_url里的元素值。用requests.get获得图片网页的文本,再存储到本地即可。

到这里整个爬虫程序也就结束了,是不是很简单?下面贴上完整代码。

 

大家可以看到我把Picture类里的方法拿到main函数里单独运行,目的是为了多线程(Pool只能在main函数里写)运行。如果你不需要多线程,把Pool的操作都删除,直接在Picture类的start方法里完成整个程序即可。

如果发现了403错误,可以在用request请求之前添加headers信息,例如

headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36" }    #浏览器请求头,有时python直接获取图片时防盗链会踢出,所以我们假装是在用浏览器

具体添加到什么程度,比如cookie,Referer这些加不加由你当时的具体情况决定,这取决于你要爬取的网站反爬虫功能有多强。

如何查看自己浏览器的请求头请自行baidu,这里就不赘述了。

 

爬取结果图
 

我踩过的坑

我原本程序用的urllib库,但一直403,怎么修改headers都没用,后面放弃了,使用了request+bs4这一套方案,连headers都不用就能跑通,至今不知道是为什么。大家如果用urllib库一直403,可以选择改用request。

------------------------------------------------------------------------------------------------------------------------------------------------------------

2020-5-5凌晨

想想再加点东西,还是以这个网站为例子,我们看到这一页图片只有几张,下面还有翻页的提示

如果我们想将整个网站所有壁纸一次性全爬到呢

很简单,从第二步做起,我们分析得到翻页内容块在class='pages'的div标签里,页面具体地址在标签为a,属性href中,那么仍然使用正则去搜索得到这些地址,这些地址也是我们的url,遍历再跑一遍即可。这里我们发现,网页地址没有头部地址,那么在遍历url时添加上head='https://www.dpm.org.cn/'头部地址即可。并且我们发现网页的命令是有规律的,最后一个元素代表页面下标,其他完全相同,那都不需要正则,自己构造一个循环range(2,110)就行了。

'https://www.dpm.org.cn/lights/royal/p/'+str(i)+'.html'

另外,上文的多线程是用在存图片上(因为就一个网页),这里我们有110个网页要存,那可以将多线程用于处理整个网页上,将上面存储图片的程序全在类Picture里完成,在main函数里多线程并行调用Picture类即可。

最新文章
手机国产排行榜前十名国产智能手机的新风尚
华为Mate 40系列华为Mate 40系列是华为旗下的高端智能手机,搭载了麒麟9000处理器,配备了多个摄像头和优秀的相机性能。该系列以
oracle------分析函数和开窗函数over( )
     1  概念   分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算
微信朋友圈怎么分享歌曲
在社交媒体日益丰富的今天,分享音乐已成为人们表达情感、传递品味的一种方式。微信朋友圈作为广大用户分享生活点滴的平台,自然
管家婆一码一肖资料免费公开,现况评判解释说法_人工智能版65.741
  随着人工智能技术的发展,越来越多的领域开始受到它的影响和渗透。在赌博行业中,这种影响尤其明显。最近,一款名为“管家婆
百度宝宝知道怎么用?百度宝宝妈妈圈发帖子的详细教程
因为百度宝宝知道分三个阶段,备孕、怀孕中、已出生,所以针对不同的阶段选择相应的妈妈圈,这个圈子里的妈妈们都跟你同一个阶段
利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读
芯东西8月11日报道,昨天,在第五届OCP China Day(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》
新人开抖音直播的技巧分享 抖音小店代运营
现在开通抖音直播的人越来越多了,对于抖音新人主播来说有必要掌握一些直播的技巧,很多的主播们开播了以后总是会冷场,那么有没
vue 筛选组件_1.5W字,手摸手教你从0到1开发一个复杂组件(Filter)
貌似在面试中,你如何设计一个 react/vue 组件,貌似已经是司空见惯的问题了。本文不是理论片,更多的是自己
淘宝账户是什么,淘宝账号是什么意思
淘宝用户,一般指的是淘宝的买家这是狭义的说法就是指,使用淘宝购物的人广义上任何登录淘宝网站的,都可以称之为淘宝用户。淘宝
福彩3D两码和排序-两码和技术
福彩3D两码和排序-两码和技术3D2017001:由上期奖号最大两数之和取尾对应本期两码和为:[8062];奖号:369对3D2017002:由上期奖