scrapy入门实战-爬取代理网站

日期：2024-12-26 作者：yxshengkai 移动：http://3jjewl.riyuangf.com/mobile/quote/44804.html

相关视频：

Python之scrapy入门_哔哩哔哩_bilibili

转：scrapy入门实战-爬取代理网站 - JayMu - 博客园

入门scrapy。

学习了有这几点

1.如何使用scrapy框架对网站进行爬虫；

2.如何对网页源代码使用xpath进行解析；

3.如何书写spider爬虫文件，对源代码进行解析；

4.学会使用scrapy的基础命令，创建项目，使用模板生成一个爬虫文件spider；

5,通过配置settings.py反爬虫。如设置user-agent；

设定目标:爬取网络代理www.xicidaili.com网站。

使用scrapy startproject 项目名称

scrapy startproject xicidailiSpider

项目名称应该如何命名呢：建议是需要爬虫的域名+Spider.举个例子：比如要爬取www.zhihu.com,那么项目名称可以写成zhihuSpider。

2. 目录中spiders放置的是爬虫文件，然后middlewares.py是中间件，有下载器的中间件，有爬虫文件的中间件。pipelines.py是管道文件，是对spider爬虫文件解析数据的处理。settings.py是设置相关属性，是否遵守爬虫的robotstxt协议，设置User-Agent等。

3.可以使用scrapy提供的模板，命令如下：

scrapy genspider 爬虫名字需要爬虫的网络域名

举例子：

我们需要爬取的www.xicidaili.com

那么可以使用

scarpy genspider xicidaili xicidaili.com

命令完成后，最终的目录如下：

建立后项目后，需要对提取的网页进行分析

经常使用的有三种解析模式：

1.正则表达式

2 xpath response.xpath("表达式")

3 css response.css("表达式")

XPath的语法是w3c的教程。XPath 语法

需要安装一个xpath helper插件在浏览器中，可以帮助验证书写的xpath是否正确。

xpath语法需要多实践，看确实不容易记住。

运行

scrapy crawl xicidai 项目名，这个必须唯一。

如果需要输出文件，

scarpy crawl xicidaili --output ip.json 或者ip.csv　

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行