广西高端网站建设/百度云网盘资源搜索

   日期:2024-12-30    作者:junxi555 移动:http://3jjewl.riyuangf.com/mobile/quote/81493.html

目录什么是爬虫

编辑器的选择

mac 操作

简单爬虫代码

一些轮子

总结

学习的链接

尾声

什么是爬虫

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。为什么是python?

Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实现你想要的功能。

编辑器的选择

可以考虑使用Pycharm,专用编辑器会更好用一些。与其特立独行用最轻便最好用的,倒不如用用户量大的Idle,生态更好,遇到问题会更有的可能找到解决方案。

我想,这可能便是Idle和编程语言的护城河。

mac 操作python 版本号查询

直接在 terminal 键入 python( 此为 python2 )

直接在 terminal 键入 python3( 此为 python3 )注意事项

python 默认对应 python2.7, pip 默认对应 pip2, python2 对应 pip2

python3 对应 pip3,不想用系统默认的python和pip,则需要使用 python3 和 pip3.安装 python3

mac 本身带有 python2.7,需要自行安装python3brew install python3链接 python3

安装但没有链接到 python3,此时需要链接python3brew link python

但是出现错误Error: Permission denied @ dir_s_mkdir - /usr/local/Frameworks

输入以下指令,从而将相应的文件夹的权限打开sudo mkdir /usr/local/Frameworks

sudo chown $(whoami):admin /usr/local/Frameworks

简单爬虫代码

一段可获得html网页的朴素的爬虫代码import urllib.request

response = urllib.request.urlopen(‘http://python.org/’)

result = response.read().decode(‘utf-8’)

print(result)

若有些网址设有反爬机制,请求若没有headers就会报错。

可以通过chrome浏览器的F12-network查看request的headers,将该网页的headers信息复制下来使用。

一段加入headers的获取网页爬虫代码import urllib.request

headers = {‘User_Agent’: ‘’}

response = urllib.request.Request(‘http://python.org/’, headers=headers)

html = urllib.request.urlopen(response)

result = html.read().decode(‘utf-8’)

print(result)

反馈异常错误非常关键,避免在爬取的过程中被打断而终止。

一段加入try…exception结构的网页爬虫网页import urllib.requestimport urllib.error

try:

headers = {}

response = urllib.request.Request(‘http://python.org/’,

headers=headers)

html = urllib.request.urlopen(response)

result = html.read().decode(‘utf-8’)

except urllib.error.URLError as e:

if hasattr(e, ‘reason’):

print(‘错误原因是’ + str(e.reason))

except urllib.error.HTTPError as e:

if hasattr(e, ‘code’):

print(‘错误状态码是’ + str(e.code))

else:

print(‘请求成功通过。’)

一些轮子

总结试着一站式解决问题

看博客文章的时候,遇到一些问题,先不要着急去其他的地方查,先看看这篇文章里面有没有提到这种错误和问题。作者因为经历过一遍,更有可能把问题和总结写在文章里面。

有的程序对插件版本有一定的要求

python的代码有可能对相应的插件的版本有要求,有可能这个便是程序难以使用的原因。

学习的链接


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号