如何用Python解析vip电影。
什么是vip电影?
这些vip电影啊,想要观看的话,必须充值会员,否则没法看。
比如这个:
这些vip电影解析后呢?
不需要会员,不需要登录,可以直接观看。
比如,正确解析后如下:
话不多说,我们直接开整!
- 环境使用
Python 3.10 (不一定3.10,只要不是Python2就行)
Pycharm
- 模块使用
requests >>> pip install requests
为了让大家更好的学会这个案例,已经把源码打包好了,方便大家使用,给你们直接做成exe了
仅限于学习使用,请勿商用哈
由于篇幅限制,无法展示完整代码,我直接将代码打包上传,安全无毒,100%免费,可在下方获取!
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
- 网址:几大播放器懂的都懂
- 数据: 视频内容 (链接)
2.抓包分析
通过浏览器开发者工具分析对应数据位置
pc端: 网页浏览器自带开发者工具抓包分析
app: 利用第三方抓包工具去分析数据位置
- 打开开发者工具
- F12 / 右键点击检查选择network(网络)
- 刷新网页
- 让本网页的数据内容重新加载一遍
- 通过关键字搜索找到对应数据位置
- 通过链接中一段进行搜索
- 关键字: 需要什么数据就搜什么数据
项目对于视频网站数据采集
开发者工具 -> 网络 -> 媒体文件 -> 对应视频链接
数据包地址: https://www.kuaishou.com/graphql
二、代码实现步骤
1.发送请求
模拟浏览器对于url地址发送请求
模拟浏览器
请求网址
刚刚通过抓包分析找到链接地址
发送请求
- 一般情况: 使用第三方模块 requests
- 请求方法: 在对应数据包中 -> 标头 -> 常规 -> 请求方法
- POST
- 请求参数:
- POST请求: 需要传递表单数据 (载荷中查看)
2.获取数据
- 获取服务器返回响应数据
- response.text
获取响应文本数据 -> 字符串
一般情况在获取网页源代码的时候
获取响应json数据 -> 字典
必须是完整的json数据格式
获取响应二进制数据 -> 二进制
一般用于获取图片/视频/音频/特定格式文件… 数据内容的时候
采集视频: 视频地址
对于视频地址发送请求 -> 获取二进制数据进行相关数据保存
3.解析数据
提取我们需要的数据内容字典取值
一般获取json数据, 可能存在多层嵌套
dit = {'key': 'value', 'key1': 'value1'}
json = {'A': '1', 'B': {'B1': '2', 'B3': '3'}}
键值对取值: 根据冒号左边的内容[键], 提取冒号右边的内容[值]
一层一层提取
比如提取数字3: json['B']['B3'] -> '3'
4.保存数据
获取视频内容, 进行本地保存
相对路径: 相当于代码所在文件路径 -> video 代码文件目录video文件夹
绝对路径: c盘->文件夹->那个文件路径
三、代码展示
由于篇幅限制,无法展示完整代码,我直接将代码打包上传,安全无毒,100%免费,可在下方获取!