hello 大家好~
又是元气满满的一天呢~
既然元气满满,要不要搞点事情,譬如说,爬取“Boss直聘”的招聘数据~
说走咱就走,说干咱就干~
目标确定
我们本次使用的是Selenium来抓取数据。
获取的信息有标题、薪资、公司名称、公司信息、经验要求、公司标签和公司福利等信息
网页分析
因为我们使用的是selenium来获取数据所以我们要做的事就是使用电脑来模拟人的手动操作,无需对网页过多分析。准备好工具即可
1. selenium 安装
selenium可以直接可以用pip安装。
2. chromedriver安装
要注意的是chromedriver的版本一定要与Chrome的版本一致,不然就不起作用。
有两个下载地址分别如下:
1、http://chromedriver.storage.googleapis.com/index.html
2、https://npm.taobao.org/mirrors/chromedriver/
当然,你首先需要查看你的Chrome版本,在浏览器中输入
chrome://version 即可查看浏览器版本信息
准备就绪接下来进入实战
导入所需模块
打开浏览器并且加载网页内容
获取网页信息
由图看以看出,所有招聘信息都存在于li标签之中
所以接下来我们的思路就很清晰,先获取到所有的li标签
再去提取内部我们所需要的信息
我们成功获取到了所有的li对象,接下来我们循环遍历出我们所需要的信息
数据保存
接下来我们将数据保存在csv中便于后续可视化展示
多页获取
我们找到下一页所在的标签,然后循环获取100页数据
数据可视化
职位招聘排行榜
职位经验要求