介绍: 本次数据爬取只进行一些简单数据的爬取,如商品标题、价格、图片链接以及详情页中的销量、评价和送的天猫积分,相信看过这个博客后的小伙伴,一定可以把功能更加完善。
有关登录这部分的话,不做讲解,想要知道的小伙伴可以参考我的另一篇博客Python爬虫:Selenium和动作链实现淘宝模拟登录,分析的很清楚。
1.创建Scrapy的tTaobao项目
items.py
附:登录及滑块验证
一、滑块验证码
想要破解滑块验证码其实不难,大体来说肯定是要找到滑块验证码然后使用动作链进行点击滑动,然后再点击登录就OK了。
那接下来开始代码分析。
二、代码分析
第二部分
注意截图时机,登录页面一开始加载后滑块验证码并不会出现,等到账号和密码输入后才会出现,所以截图的时机要放在账号和密码输入之后。
本来这个找到滑块验证码我一开始是想用clss值找的,但class相同的有两个,所以我选择了根据xpath语法找。
第三部分
做到这里其实就没多少了,接下来要做的就是要点击滑块并右移实现验证。
完整代码如下: