以下载txt为例,涉及三种方法:
网站网址连续,通过循环计算网址爬取
从目录页爬取
循环点击下一章进行爬取
事先确定需爬取网页网址值域,在run()函数中循环拼接网址,调用SaveText函数下载
注:如需每次执行前清空文件可在run()函数中使用open('file.txt', 'w').close()
传入目录页网址,提取出每一章网址,循环爬取每章内容
传入第一页网址后,自动提取下一章网址循环至最后一页。
3.1示例:只需点击下一章到直到最后一页
3.2 示例网址中存在“下一页”和“下一章”
代码逻辑:拆分出【download_title()】-下载标题 和【download_txt()】-下载文章内容 两个函数,run()函数优先识别下一页并调用【download_txt()】,
识别到下一章 时调用【download_title()】和【download_txt()】