Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助!
相信很多小伙伴在使用python的使用会用来爬取一些网站上常见的数据,在做金融分析的时候如果没有数据的话我们可以去网上爬取,那么今天我要介绍的一个最近学到的爬虫神器—Postman。
它具体有什么功能呢?我们下面来慢慢你介绍:
Postman是一个接口测试工具,在做接口测试的时候,Postman相当于一个客户端,它可以模拟用户发起的各类HTTP请求,将请求数据发送至服务端,获取对应的响应结果, 从而验证响应中的结果数据是否和预期值相匹配;并确保开发人员能够及时处理接口中的bug,进而保证产品上线之后的稳定性和安全性。它主要是用来模拟各种HTTP请求的(如:get/post/delete/put..等等),Postman与浏览器的区别在于有的浏览器不能输出Json格式,而Postman更直观接口返回的结果。——来源百度百科
作为一个接口测试工具,如何运用到python爬虫中去呢?让我们一步一步来看:
1.首先需要在电脑下载安装Postman客户端
下载链接就是Postman的官网的下载链接,我把链接附在下面:
下载好之后,直接双击安装就行,什么都不用做。
2.注册一个Postman账号,然后打开Postman
3.进入我们想要爬取的网页页面,找到想要爬取的内容
这里我们试着爬取一个旅游网站的景点名:
网址:厦门旅游景点推荐-2022厦门旅游必去景点-排名,网红,好玩-去哪儿攻略 (qunar.com)
比如说我们想要爬取页面中的景点的名字,比如:鼓浪屿、曾厝垵、 环岛路等等
4.在页面中鼠标右键选择“检查”或者打开浏览器的“开发人员工具”
在上述操作后我们进入如下的页面:
我们将目光聚焦在右半侧,这时候我们需要“刷新”一下页面,得到如下结果,点击红色框选的内容:
我们点击红色框选的内容得到如下结果:
我们可以选择“预览”,并且在里面查询是否存在我们想要爬取的内容,比如说“鼓浪屿”:
很明显可以看出,“预览”中存在我们想要的内容,并且可以和左侧的内容对应上 。
接下来我们鼠标选到如下内容,然后右键,选择复制为cURL(bash):
5.进入Postman,将复制的内容加载进去
我们在Postman中选择import,然后选择Raw text,将我们复制的内容粘贴进去:
粘贴复制的内容,并点击Continue,下一步点击Import:
6.通过Postman发送请求
在完成上一步的Import后我们进入如下页面,这时候我们点击Send:
点击Send后我们相当于通过Postman向服务器发送了请求,并且服务器返回给了我们HTML格式的内容如下:
这个返回给我们的HTML格式文档其实就是我们爬取的页面的页面源代码,我们可以从下图得到验证:
7.通过Postman生成python爬虫代码
我们点击右上角的这个按钮:
得到如下页面,其中我们选择Python - Requests,之后我们将右侧代码复制,粘贴到python文件中:
我们打印一下结果如下,这样我们就得到最后爬取下来的结果,如果我们后面要继续获得景点名称的话,我们就在如今得到的HTML结果的基础上采用Xpath、正则表达式、Beautiful Soup等等工具进行查找即可,这个内容我们后面再讲:
今天的文章就分享到这里啦!