1.python爬虫实战:爬取数据实战【Python】(测试代码+api例程)

   日期:2024-12-26    作者:kuehz 移动:http://3jjewl.riyuangf.com/mobile/quote/54983.html

1.python爬虫实战:爬取数据实战【Python】(测试代码+api例程)


欢迎关注 『Python』 系列,持续更新中
欢迎关注 『Python』 系列,持续更新中

适合有一定的基础xpath知识基础的同学练手使用,最后的数据输出格式化大家还可以再美化下,本次关键是爬虫。

“%10s %10s %10s” % (“名称”, “分数”, “城市”)
让字符串占位10个位置,占位格式化输出

name = tr.xpath(“https://blog.csdn.net/u011027547/article/details/td[2]/div/div[2]/div[1]/div/div/a/text()”)[0].replace(" “, “”).replace(” ", “”)
获取指定xpath节点的文本,取得列表第一项,replace格式化掉多于的空格和换行符

  • 导入必要的包
 
  • 根据url获取页面源码并提取和解析数据(注意,这里一定要记得转化编码格式,否则会乱码
 
  • 拿到所有学校的数据集合(这里末尾的tr[1]表示取第一个学校,改成tr后表示取所有的tr也就是取所有的学校),这样方便后续的循环for遍历,类似先找到所有对象的集合,然后对每个对象进行统一的提取信息操作
 
  • 取出信息并且装入result列表,二层列表嵌套
 
 
  1. 一定要加上这句编码格式设定为utf-8,否则会乱码。
  2. 使用复制完整的xpath路径,新手入门建议

 

大家喜欢的话,给个👍,点个关注!继续跟大家分享敲代码过程中遇到的问题

版权声明

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2022 mzh

Crated:2022-1-10


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号