jS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了
如果不加,如果网站有防爬技术,比如频繁访问,后面你会发现什么数据都取不到
User-Agent获取地方:
网页获取位置:
使用代理IP解决反爬。(免费代理不靠谱,最好使用付费的。有按次数收费的,有按时长收费的,根据自身情况选择)
是什么意思呢,就是每次发送请求,让你像从不同的地域发过来的一样,第一次我的ip地址是河北,第二次是广东,第三次是美国。。。像这样:
尽量不要用sleep(1)、sleep(3)这种整数时间的等待,一看就是机器。。
还是那句话,让爬虫程序表现地更像一个人!
上面4点防爬技术,不一定要全部加入,只看被爬网站是否有防爬技术,多数用到1、2点就搞定
官网:阳光开奖
经过排查,是通过接口获取数据再由JS来生成这部分网页元素
通过检查元素是有数据的(JS来生成这部分网页元素)
导出excel
上面都是获取一个网页的数据,如果源数据网页是有分页的,那如何抓取
,如果这个编程语言完全不会,用chatgpt来写代码还是有点困难的,对于编程人员来说chatpgt就很好用
参考:
python怎样抓取js生成的页面_ITPUB博客