分享好友 最新动态首页 最新动态分类 切换频道
2024年Python爬虫教程:解析网页中的元素_copy selector,2024年最新2024春招面试
2024-12-27 01:42

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的

① 2000多本Python电子书(主流和经典的书籍应该都有了

② Python标准库资料(最全中文版

③ 项目源码(四五十个有趣且经典的练手项目及源码

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习

⑤ Python学习路线图(告别不入流的学习

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导,让我们一起学习成长

一、基本步骤

在我们理解了网页中标签是如何嵌套,以及网页的构成之后,我们就是可以开始学习使用python中的第三方库BeautifulSoup筛选出一个网页中我们想要得到的数据。

接下来我们了解一下爬取网页信息的步骤。

想要获得我们所需的数据分三步

第一步:使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,‘lxml’)

第二步:描述想要爬去信息的东西在哪里。

信息 = Soup.select(‘???’)

要知道它叫什么名字,如何去定位。

第三步:从标签中获得你想要的信息

Something

从标签中获取我们需要的信息,去掉一些没有用的结构,并且把我们获取的信息按照一定格式装在数据容器中,方便我们去查询。

二、两种路径获得方式详解

接下来,我们首先进行第一步,如何使用BeautifulSoup解析网页

Soup = BeautifulSoup(html,‘lxml’)

实际上我们构造一个解析文件需要一个网页文件和解析查询库。就好比左边的Soup是汤,html是汤料,而lxml是食谱。

今天我们需要讲的BeautifulSoup,通过我们告诉它元素的具体的位置,就可以向他指定我们想要爬去的信息。

找到相应的元素右键检查的,看到元素的代码信息进行右击,我们有两种方式获得标签的位置的具体描述方式

1.使用copy selector

2.使用copy XPath

这两种复制的路径有什么区别,接下来就让大家看一下

右键标签copy selector复制出来的路径

body > div.body-wrapper > div.content-wrapper > div > div.main-content > div:nth-child(15) > a

右键标签copy XPath复制出来的路径

/html/body/div[4]/div[2]/div/div[2]/div[14]/a

这两种不同的路径描述方式,使用copy selector复制出来的路径叫做 CSS Selector,使用copy XPath复制出来的叫做XPath。

这两种路径的描述方式在今后的学习中我们都可以用的到,但是我们今天要学习的BeautifulSoup它只认第一种,就是CSS Selector。

但是为了方便我们以后的学习,更好认识网页间不同元素的结构,我们先讲一下XPath,在学习了它之后,CSS Selector也会更好的理解,同时日后我们需要学习的一些库也需要用到XPath去描述一些元素的位置。

对XPath和

XPath

1.什么是XPath

Xpath使用路径表达式在XML文档中进行导航,解析到路径跟踪到的XML元素。

2.XPath路径表达式

路径表达式是xpath的传入参数,xpath使用路径表达式对XML文档中的节点(或者多个节点)进行定位。

路径表达式类似这种:/html/body/div[4]/div[2]/div/div[2]/div[14]/a 或者 /html/body/div[@class=”content”] ,其中第二个路径中的[@class=”content”] 是为了在多个相同标签中定位到一个标签。

刚才拿到的那个XPath的路径 /html/body/div[4]/div[2]/div/div[2]/div[14]/a,就针对于这一串来讲,拿到的这个元素的完整路径,叫做绝对路径,其中每个‘/’就是一个节点,下面我们通过这个结构图我们可以简单了解一下。

如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功
最后祝你好运

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

最新文章
青岛SEO优化服务性价比揭秘,助力网站排名飙升的秘密
青岛整站SEO优化服务透明,性价比高,助您快速提升网站排名,实现线上业务飞跃。选择专业团队,让您的网站在搜索引擎中脱颖而出。随着互联网的普及,越来越多的企业开始重视网络营销,而SEO(搜索引擎优化)作为网络营销的重要组成部分,已
淘宝网店铺排行榜靠前需要哪些条件
淘宝网店铺排行榜靠前需要哪些条件?在淘宝这个竞争非常激烈的平台,要想得到好的排名,大家需要满足以下条件:1、产品质量与口碑在淘宝上,产品质量是决定一个店铺能否长期发展的关键因素。优质的产品不仅能够吸引更多的顾客,还能在顾客中
梦幻西游手游:最强神兽登场?极限能打4连击,物理门派要失业了
在《梦幻西游》手游中,自本周维护后,虎年专属神兽——超级神虎终于亮相三界。作为全新神兽,超级神虎凭借特色技能虎虎生威能够在1回合打出4次攻击的效果令无数少侠心动不已,今天小灵为大家带来超级神虎的分析和培养介绍,对超级神虎感兴
短剧cps小说系统源码交付抖音小程序快速搭建
前言:小说系统源码交付,快速搭建,小说系统源码交付抖音小程序,快速搭建,小说系统源码交付抖音小程序在当前移动互联网时代,短剧和小说内容的消费正在迅速增长,其中抖音小程序成为了重要的传播途径。作为一本书的多样化延伸,短剧与小说的
免费漫画软件推荐 好用的看漫画软件排行
对于漫画爱好者或者喜欢二次元的小伙伴们来说,找到一款好用的免费漫画软件是必不可少的。那小编今天就为大家整理了一份国内免费漫画软件的排行榜,一起来看看哪些App可以让你畅游二次元世界吧,并且软件内还会有连载的漫画,包括热门漫画
用AI轻松生成超逼真美女写真,搜狐简单AI带你开启创作之旅!
在经过这些工具的对比,搜狐简单AI脱颖而出,以“功能丰富”、“操作简单”、“适合新手用户”、以及“免费使用”的优势,成为平衡各类型用户需求的绝佳选择。如果你正在寻找便捷的AI生图工具,形成了合适的产品选择,请一定考虑搜狐简单AI
苹果怎么显示归属地
苹果手机作为现代通讯工具的重要组成部分,其归属地显示功能对于用户来说具有极大的便利性。然而,许多用户对于如何在苹果手机上设置和显示归属地信息并不十分了解。以下将详细解析这一功能,帮助用户更好地使用苹果手机。首先,确保你的苹
红米K50电竞版 OS1.0.8.0.ULJCNXM 面具ROOT服务
ROOT信息:机型:红米K50电竞版系统版本:OS1.0.8.0.ULJCNXM版本类型:稳定版安卓版本:14.0面具版本:27.0对应版本面具apk下载地址:http://tfile.7to.cn/qituroot/tool/Magisk-v27.0.apk手机ROOT完成开机后,请手动安装对应版本的面具APP
法院冻结不了三个银行
小编导语在当今社会,金融机构在经济活动中扮演着至关重要的角色。银行作为资金流动的中介,不仅支持经济发展,还为个人和企业提供了必要的金融服务。当法院需要对某些资金进行冻结时,往往会遇到各种法律和实际操作上的挑战。本站将探讨“
相关文章
推荐文章
发表评论
0评