scrapy入门实战-爬取代理网站

   日期:2024-12-26    作者:yxshengkai 移动:http://3jjewl.riyuangf.com/mobile/quote/44804.html

 相关视频

Python之scrapy入门_哔哩哔哩_bilibili

:scrapy入门实战-爬取代理网站 - JayMu - 博客园

入门scrapy。

学习了有这几点

1.如何使用scrapy框架对网站进行爬虫

2.如何对网页源代码使用xpath进行解析

3.如何书写spider爬虫文件,对源代码进行解析

4.学会使用scrapy的基础命令,创建项目,使用模板生成一个爬虫文件spider

5,通过配置settings.py反爬虫。如设置user-agent

设定目标:爬取网络代理www.xicidaili.com网站。

使用scrapy startproject 项目名称

scrapy startproject xicidailiSpider

项目名称应该如何命名呢建议是需要爬虫的域名+Spider.举个例子:比如要爬取www.zhihu.com,那么项目名称可以写成zhihuSpider。

会在目录中出现该文件目录

2.  目录中spiders放置的是爬虫文件,然后middlewares.py是中间件,有下载器的中间件,有爬虫文件的中间件。pipelines.py是管道文件,是对spider爬虫文件解析数据的处理。settings.py是设置相关属性,是否遵守爬虫的robotstxt协议,设置User-Agent等。

3.可以使用scrapy提供的模板,命令如下

scrapy genspider 爬虫名字   需要爬虫的网络域名

举例子

我们需要爬取的www.xicidaili.com

那么可以使用

scarpy genspider xicidaili  xicidaili.com

命令完成后,最终的目录如下

建立后项目后,需要对提取的网页进行分析

经常使用的有三种解析模式

1.正则表达式

2 xpath   response.xpath("表达式")

3 css    response.css("表达式")

XPath的语法是w3c的教程。XPath 语法

需要安装一个xpath helper插件在浏览器中,可以帮助验证书写的xpath是否正确。

xpath语法需要多实践,看确实不容易记住。

 
 

运行

scrapy crawl xicidai 项目名,这个必须唯一。

如果需要输出文件

scarpy crawl xicidaili --output ip.json 或者ip.csv 


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号