分享好友 最新动态首页 最新动态分类 切换频道
图解爬虫,用几个最简单的例子带你入门Python爬虫
2024-12-28 18:00

爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python。之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序。本篇博客将以Python语言,用几个非常简单的例子带大家入门Python爬虫。

点此免费领取CSDN大礼包:《python学习路线&全套学习资料》免费分享

如果把我们的因特网比作一张复杂的蜘蛛网的话,那我们的爬虫就是一个蜘,我们可以让这个蜘蛛在网上任意爬行,在网中寻找对我们有价值的“猎物”。

  1. 向服务器发送网络请求
  2. 浏览器接收并处理你的请求
  3. 浏览器返回你需要的数据
  4. 浏览器解析数据,并以网页的形式展现出来

我们可以将上面的过程类比我们的日常购物

  1. 和老板说我要杯珍珠奶茶
  2. 老板在店里看看有没有你要的东西
  3. 老板拿出做奶茶的材料
  4. 老板将材料做成奶茶并给你

简单的爬虫就是单纯的网络请求,也可以对请求的数据进行一些简单的处理。Python提供了原生的网络请求模块urllib,还有封装版的requests模块。相比直线requests要更加方便好用,所以本文使用requests进行网络请求。

 

下面我们看看爬取的网站打开是什么样子的

这就是我们熟悉的百度页面,上面看起来还是比较完整的。我们再以其它网站为例,可以就是不同的效果了,我们以CSDN为例

首先我们需要明确一点,在爬取一些简单的网页时,我们爬取图片或者视频就是匹配出网页中包含的url信息,也就是我们说的网址。然后我们通过这个具体的url进行图片的下载,这样就完成了图片的爬取。我们有如下url:img-blog.csdnimg.cn/20200516143…,我们将这个图片url来演示下载图片的代码

 

可以看到,代码和上面网页爬取是一样的,只是打开的文件后缀为jpg。实际上图片、视频、音频这种文件用二进制写入的方式比较恰当,而对应html代码这种文本信息,我们通常直接获取它的文本,获取方式为,在我们获取文本后就可以匹配其中的图片url了。我们以下列topit.pro为例

 

上面我们就完成了一个网站的爬取。在匹配时我们用到了正则表达式,因为正则的内容比较多,在这里就不展开了,有兴趣的读者可以自己去了解一下,这里只说一个简单的。Python使用正则是通过re模块实现的,可以调用匹配文本中所有符合要求的字符串。该函数传入两个参数,第一个为正则表达式,第二个为要匹配的字符串,对正则不了解的话只需要知道我们使用该正则可以将图片中的src内容拿出来。

BeautifulSoup是一个用来分析XML文件和HTML文件的模块,我们前面使用正则表达式进行模式匹配,但自己写正则表达式是一个比较繁琐的过程,而且容易出错。如果我们把解析工作交给BeautifulSoup会大大减少我们的工作量,在使用之前我们先安装。

我们直接使用pip安装

 

模块的导入如下

 

下面我们就来看看BeautifulSoup的使用,我们用下面HTML文件测试

 

上面是一个非常简答的html页面,body内包含了8个img标签,现在我们需要获取它们的src,代码如下

 

解析结果如下

 

正好就是我们需要的内容。

 

输出结果如下

 

我们只爬取一个就好了,我们进入第一个网址查看源码,发现了这么一句

 

其中srcUrl就包含了视频文件的网站,但是我们肯定不能自己一个网页一个网页自己找,我们可以使用正则表达式

 

结果如下

 

然后我们就可以下载这个视频了

 

完整代码如下


最新文章
最好的手机管家排行榜 手机管家排行榜前十名2022
手机管家app哪个好?手机管家就是一种用来进行手机文件以及信息安全管理的软件。随着科技的发展,网络安全成为了一大隐患,各种各样的不良信息骚扰着我们。手机管家就是这方面的清道夫,它具有极强的安全防护功能,让你的手机安全上网,摆脱
以“重”为壁垒获高估值,神马专车成网约车市场实力悍将
近年来有关汽车生态颠覆性变革的话题被行业热议。随着互联网技术、新能源技术的迅猛发展以及国家可持续发展战略的实施,移动出行和新能源汽车成为未来汽车产业新的利润池。众多汽车生产商、网约车服务商、有些流量平台也抓紧布局,力图抢占
使用Google身份验证进行ssh二次验证
谷歌身份验证器,即Google Authenticator(Google身份验证器)v2.33 谷歌推出的一款动态口令工具,解决大家的google账户遭到恶意攻击的问题。1、透过QR图码自动设定2、支持多个账户3、支援多种语言1、编辑/etc/selinux/config文件,关闭sel
亚洲尺码和欧洲尺码专线:从正常衬衫到“紧身装”-这次真的大开眼界!
穿衣服选错尺码是什么体验?有的网友买大了一号,勉强还能靠皮带撑撑场面;但买小了呢?你可能就会经历一场“奇幻时尚之旅”。尤其当外国朋友遭遇亚洲尺码,那画面简直让人哭笑不得!最近,一位暴躁老外在网上吐槽:他在亚洲网站买了一条L号裤
脂肪醇十强企业名单(2023年第三季度概念股票营收排名)
  华鲁恒升发布2023年第三季度财报,实现营业收入69.87亿元,同比增长7.91%,归母净利润12.18亿,同比18.84%;每股收益为0.57元。  第二、神马股份37.63亿元  神马股份发布2023年第三季度财报,实现营业收入37.63亿元,同比增长-2.17
熊掌号关键词优化,助力品牌在互联网浪潮中脱颖而出
随着互联网的飞速发展,越来越多的企业和个人开始关注搜索引擎(SEO)的重要性。熊掌号作为一款新型搜索引擎产品,以其独特的优势受到了广泛关注。优化作为SEO的核心策略,对于熊掌号的运营至关重要。本文将围绕熊掌号关键词优化展开,探讨
粉笔(02469)垂域大模型落地面试场景 AI考官1:1模拟真实考场
2025年度国考笔试已经落幕,广大考生即将投入到紧张的面试备考复习中。公考行业龙头粉笔(02469)宣布,基于公司自研垂域大模型,推出精品面试AI点评产品,于12月13日正式上线,用户可以以1元/次的价格限时进行体验。据了解,精品面试AI点
邵氏经典电视全面升级,呈现色彩极致之美
《舍不得星星》是一部备受欢迎的电视剧,讲述了青春爱情的跌宕起伏。为了满足广大观众的需求,许多网站提供该剧的免费观看选项。观众只需在网络上搜索,即可找到相关资源,欣赏这部充满感动与欢乐的作品。蛇倒刺蛇是中国民间传说中的一种神
基于微信小程序的图书管理系统
对图书管理的流程进行科学整理、归纳和功能的精简,通过软件工程的研究方法,结合当下流行的互联网技术,最终设计并实现了一个简单、易操作的图书管理小程序。内容包括系统的设计思路、系统模块和实现方法。系统使用过程
常用脚本语法记录
1、获取脚本当前所在路径 2、数组接收多个值演示数组调用案例 3、比较浮点值演示 4、删除匹配文本所在的行演示返回 5、替换文件中最后一行的数据演示6、删除文本最后一行的数据  7、ss.sh: line 7: [: ==: unary operator expecte
相关文章
推荐文章
发表评论
0评