Python 爬虫从入门到进阶之路（四）

日期：2024-12-28 作者：yv2qx 移动：http://3jjewl.riyuangf.com/mobile/quote/76396.html

之前的文章我们做了一个简单的例子爬取了百度首页的 html，我们用到的是 urlopen 来打开请求，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的 urlopen() 方法不支持代理、cookie等其他的HTTP/HTTPS高级功能，所以我们需要用到 Python 的 opener 来自定义我们的请求内容。

具体步骤：

使用相关的来创建特定功能的处理器对象；
然后通过方法使用这些处理器对象，创建自定义opener对象；
使用自定义的opener对象，调用方法发送请求。

我们先来回顾一下使用 urlopen 获取百度首页的 html 代码实例：

接下来我们看一下使用 opener 的处理方式：

在上面的第一段代码中，我们是通过直接来导入我们需要的包，这样当我们要使用时需要来使用，第二段代码我们是通过来导入我们需要的包，这样当我们使用时直接来使用就可以了。

第一段代码在前面的文章中我们已经说过了，这里就不多做解释了。

第二段代码中，我们使用了 opener 的方法来处理我们的请求，这样我们就可以对代理，cookie 等做进一步的操作，后续文章会讲到。最终结果如下：

在中，我们还可以添加一个参数，会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

代码如下：

输出结果如下：

可以看出在响应结果的时候会为我们打印输出一些请求信息。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行