分享好友 最新动态首页 最新动态分类 切换频道
2024年最全python爬取 “得到” App 电子书信息(1),面试心得体会600字
2024-12-26 04:10

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的

2024年最全python爬取 “得到” App 电子书信息(1),面试心得体会600字

① 2000多本Python电子书(主流和经典的书籍应该都有了

② Python标准库资料(最全中文版

③ 项目源码(四五十个有趣且经典的练手项目及源码

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习

⑤ Python学习路线图(告别不入流的学习

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导,让我们一起学习成长

可以看到 URL 为 https://dedao.igetget.com/v3/discover/bookList 的接口,其后面还加了一个 sign 参数。通过 URL 的名称,可以确定这就是获取电子书列表的接口。在 URL 的下方输出的是响应内容,是一个 JSON 格式的字符串,我们将它格式化,如图 所示。

格式化后的内容包含一个 c 字段、一个 list 字段,list 的每个元素都包含价格、标题、描述等内容。第一个返回结果是电子书《情人》,而此时 App 的内容也是这本电子书,描述的内容和价格也是完全匹配的,App 页面如图所示。

这就说明当前接口就是获取电子书信息的接口,我们只需要从这个接口来获取内容就好了。然后解析返回结果,将结果保存到数据库。

4. 数据抓取

接下来我们需要对接口做过滤限制,抓取如上分析的接口,再提取结果中的对应字段。

这里,我们修改脚本如下所示

import json

from mitmproxy import ctx

def response(flow):

url = ‘https://dedao.igetget.com/v3/discover/bookList’

if flow.request.url.startswith(url):

text = flow.response.text

data = json.loads(text)

books = data.get(‘c’).get(‘list’)

for book in books:

ctx.log.info(str(book))

重新滑动电子书页面,在 PC 端控制台观察输出,如图所示。

控制台输出

现在输出了图书的全部信息,一本图书信息对应一条 JSON 格式的数据。

5. 提取保存

接下来我们需要提取信息,再把信息保存到数据库中。方便起见,我们选择 MongoDB 数据库。

脚本还可以增加提取信息和保存信息的部分,修改代码如下所示

import json

import pymongo

from mitmproxy import ctx

client = pymongo.MongoClient(‘localhost’)

db = client[‘igetget’]

collection = db[‘books’]

def response(flow):

global collection

url = ‘https://dedao.igetget.com/v3/discover/bookList’

if flow.request.url.startswith(url):

text = flow.response.text

data = json.loads(text)

books = data.get(‘c’).get(‘list’)

for book in books:

data = {‘title’: book.get(‘operating_title’),

‘cover’: book.get(‘cover’),

‘summary’: book.get(‘other_share_summary’),

‘price’: book.get(‘price’)

}

ctx.log.info(str(data))

collection.insert(data)

重新滑动页面,控制台便会输出信息,如图所示。

现在输出的每一条内容都是经过提取之后的内容,包含了电子书的标题、封面、描述、价格信息。

最开始我们声明了 MongoDB 的数据库连接,提取出信息之后调用该对象的 insert() 方法将数据插入到数据库即可。

滑动几页,发现所有图书信息都被保存到 MongoDB 中,如图所示。

目前为止,我们利用一个非常简单的脚本把 “得到” App 的电子书信息保存下来。

代码部分


import json

import pymongo

from mitmproxy import ctx

client = pymongo.MongoClient(‘localhost’)

db = client[‘igetget’]

collection = db[‘books’]

def response(flow):

global collection

url = ‘https://dedao.igetget.com/v3/discover/bookList’

if flow.request.url.startswith(url):

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

最新文章
默契问答游戏规则?
这里不知道说你要问的是默契问答游戏规则,还是说你能接受异地恋问题。默契规则的话,他就是说你要不再提醒?对方的时间里,两个人答的答案是一样的,同一个问题答的问答案必须是相同的。关于异地恋这个问题的话,我自己是能接受的,因为现
高效广告优化指南,竞价推广账户思维革新策略
竞价推广账户优化,关键在于策略。精准定位目标受众,提高广告投放精准度;优化关键词策略,提高关键词质量和相关性;优化广告创意,提升点击率;合理调整出价策略,实现效果最大化。掌握这些关键策略,助力广告效果显著提升。随着互联网的
百度音乐人上传歌曲
在百度音乐的世界里,梦想和才华相遇,音乐与热情共舞。这是一个让音乐人的声音得到展现的舞台,一个让热爱音乐的人们汇聚的家园。百度音乐人,这个寄托了无数音乐梦想的地方,孕育着一颗颗音乐之星的诞生。这里没有局限,只有尽情释放自我
喵趣漫画官方正版最新版
喵趣漫画官方正版最新版是一款方便且充满乐趣的漫画阅读应用,软件每日更新原创漫画作品,为读者带来全新阅读体验。智能推荐相关漫画,让阅读更个性化。喵趣漫画最新版打破时空限制,随时随地畅享阅读乐趣。无论身处何地,只需打开App,精
给WordPress用户的十五款实用工具
如果你使用开源博客平台WordPress,你会发现网上有非常多的工具可以助你提高工作效率,确保你的WordPress站点顺利运行。这篇文章将聚集这些非常方便的应用程序、插件以及浏览器扩展来帮助你完成各种博客任务,涉及的范围涵盖简单的抓屏到Wo
云南马帮普洱茶价格一览:深度解析市场行情与收藏价值指南
云南马帮普洱茶价格一览:深度解析市场行情与收藏价值指南普洱茶源自中国云南省以其独有的发酵工艺和陈化特性深受广大茶友的喜爱。从古至今,云南的马帮文化为普洱茶的传播和发展提供了关键的推动力。本文将深入探讨云南马帮普洱茶的市场行
旧房墙面翻新简单方法,旧房墙面翻新步骤有哪些
老房子或多或少都存在一些问题,尤其是墙面这个大面积区域,例如出现开裂或者脱落的情况,直接影响到居家的美观性。那么,接下来装信通小编就为大家分享旧房墙面翻新简单方法及步骤,赶快学习起来吧!旧房墙面翻新简单方法:1、手绘这种方法
韩国刀具品牌排行榜(2020全球十大知名刀具品牌排行榜)
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室依法管网、依法办网、依法上网的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和
点猫科技:“创客教育解决方案”成功入选 获教育部资源中心认可
点猫科技成立于2015年,是国内资深的编程教育企业,旗下拥有编程教育品牌“编程猫”。近日,教育部教育技术与资源发展中心(中央电化教育馆)公布了2024年“数字校园综合解决方案”第二批测试合格名单,其中点猫科技的“中小学人工智能创客
大智慧大数据终端:开启智能化投资时代
引言:随着互联网技术与金融行业的深度融合,大数据应用在投资决策中的作用日益凸显。大智慧大数据终端作为投资者获取信息、分析数据、进行决策的重要工具,已经成为金融行业的热门话题。本文旨在深入探讨大智慧大数据终端的行业现状与发展
相关文章
推荐文章
发表评论
0评