分享好友 最新动态首页 最新动态分类 切换频道
2024年最全简短的爬虫程序,14行Python代码轻松实现爬取网站视频(1)
2024-12-27 05:08

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: IvanFX 复兴计算机社团

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

基本步骤与准备工作


调试环境

pycharm+python3

需要库

  • urllib.

  • request

  • re

(http.cookiejar 后续爬虫进场会使用到的库,本项目反爬不涉及所以可以不添加)

如果import过程显示没有上述库,可以通过文件→设置→projet interpreter中右侧点击+来添加(如果您使用anaconda或者python也可以直接运行本项目,通过cmd→pip install添加

2.在本文中我们通过python对于在线的短视频进行爬取,下载存储。基本步骤如下(可以写注释梳理思路

(1)分析页面URL和视频文件URL特征

(2)获取网页源代码HTML,解决反爬机制

(3)批量下载视频存储

分析页面URL与文件URL特征


1.分析网页URL

通过网页网址:http://www.budejie.com/video/1,我们可以发现针对不同页码变化的知识网址最后一个数值,而这个数值代表了页数,所以只需要改变为固定网址+变量的形式批量获取该站的网址URL

2.分析文件名URL

通过对于网页当中的mp4的文件名进行分析,发现文件的URL是明文显示的,所以通过re的正则可以匹配获取。

批量获取URL,并从中提取视频的URL


import urllib.request

import re

for page in range (1,20):

req = urllib.request.Request(“http://www.budejie.com/video/%s” % page)

html = urllib.request.urlopen(req).read()

html = html.decode(‘UTF-8’)

print(html)

1.批量爬取网页URL

这里我们page变量代表页面的编码,从这里我们暂时先爬取前20页。

(1)req获取网页反馈

(2)html通过函数获取网页的元代码

(3)通过对于源代码UTF-8编码恢复中文的显示。

但是通过上述代码的执行发现错误显示http Error 403,因为网页的反爬机制不能获取。

2.通过页面增加头文件

我们通过谷歌浏览器访问页面,按F12并切换到Network,刷新界面观察访问进程,可以从进程文件中选取一个查看头文件,添加到代码中,(这里选取的baisibudejie.js)修改代码如下,可以正常爬取界面。

最后

不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码,过几天我还会做个视频教程出来,有需要也可以领取~

给大家准备的学习资料包括但不限于

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

最新文章
除了谷歌和百度以外还有什么搜索引擎好用_除了google还有什么搜索引擎
在当今数字化的时代,搜索引擎已成为我们获取信息的重要工具,谷歌和百度无疑是最为人们熟知的两大搜索引擎,它们在搜索领域占据着重要的地位,提供了海量的信息和便捷的搜索体验,除了这两者之外,还有许多其他优秀的搜索引擎值得我们去探
谷歌呼吁美国政府拆分微软与OpenAI的独家云服务协议
据《信息》杂志周二报道,谷歌已要求美国政府拆分微软与OpenAI独家云服务协议,该协议将OpenAI的技术托管在微软的云服务器上。报道称,此次对话发生在美国联邦贸易委员会(FTC)就更广泛的调查向谷歌询问微软商业行为之后。一位直接参与讨
高清美女写真生成工具大测评!来看看最值得推荐的AI绘图神器吧!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个人人追求个性的时代,传统的摄影逐渐让位于高科技的AI工具。有人问,"我也想生成一张超
新奥长期免费资料大全|经典解释落实
  在当代社会,获取知识变得越来越便捷,新奥长期免费资料大全就是这样一个平台,它致力于向公众提供丰富的学习资源,包括但不限于经典文献、研究报告、学术论文等,覆盖各个学科领域。本文将以“新奥长期免费资料大全 | 经典解释落实”
论文ai写作网站有哪些 论文ai写作网站一览
论文ai写作网站有哪些,AI写作网站是一个能够帮助用户更高效地进行创作和写作的工具。用户只需提供一些关键信息,AI就可以自动生成文章的内容,从而大大提升了创作的效率。这对于有时间压力或者灵感不足的用户来说,是一个非常有用的辅助工
梦幻西游最强的宝宝没有之一,神马浮云在它面前都是垃圾
梦幻西游中召唤兽跟随号主南征北战,为自己的武神之战付出汗马功劳,也获得了丰功伟绩;今天咱们就说一说梦幻西游中最强悍而且已经是绝版的召唤兽,绝对是站在武神坛顶端的宝宝了,价值肯定超过最少两百万,神马浮云在它面前就是垃圾,咱们
谷歌adsense广告怎么赚钱?英文网站通过google广告盈利赚美金
想赚美金,又不想太累?那就来做英文内容网站去挂谷歌ADSENSE广告来赚钱吧。如何去做一个高级的英文内容网站,并把它当做一个资产去沉淀和积累,获取大流量后稳稳收益?依内容营销为指导,把网站上每一项内容都做成可以长期沉淀的资产,帮
蚂蚁庄园答案合集(蚂蚁庄园答案大全集结,轻松解锁庄园秘籍)
随着移动互联网的普及,各类手机应用层出不穷。其中,蚂蚁庄园作为一款集娱乐、知识于一体的游戏应用,深受广大用户的喜爱。蚂蚁庄园答案合集(《蚂蚁庄园答案大全集结,轻松解锁庄园秘籍》)正是为了满足用户在庄园游戏中遇到的各种问题而
骛与鹜的区别
描写黄山天都峰的诗句:1、孤峰突兀现青虚,喜若羁人望故都。神马已驰身尚远,却疑真有二文殊。——李弥逊《次韵公显宫教实见天都峰》2、奇险天都著,遥观亦有缘。大雄无与并,苍浑莫之先。倏忽阴晴异,逡巡起伏迁。云腾致雨气,水泻在山泉
最新款手机排行榜前十名(2023年畅销机型排名)
2023年最新款手机排行榜前十名在2023年的手机市场中,各种品牌的新机型层出不穷,竞争激烈,以下是基于销售数据和用户评价,我们列出的2023年最新款手机排行榜前十名:1. iPhone 14 Pro处理器:A16芯片屏幕:6.1英寸 Super Retina XDR 显示
相关文章
推荐文章
发表评论
0评