分享好友 最新资讯首页 最新资讯分类 切换频道
爬虫到底违法吗?你离违法还有多远?
2024-12-27 16:35

最近,国家依法查处了部分编写爬虫程序,盗取其他公司数据的不良企业。一时间风声鹤唳,关于爬虫程序是否违法的讨论遍布程序员圈子。那么到底编写爬虫程序是否违法呢

其爬虫下载数据,一般而言都不违法,因为爬虫爬取的数据同行也是网站上用户打开页面能够看到的数据,但是如果符合下列条件的网站进行强行数据采集时,会具有法律风险。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。如果想查看一个网站的Robots协议,可以打开位于网站根目录下的robots.txt文件即可,例如:https://www.jd.com/robots.txt。

如果因为爬虫的问题产生官司,通常如果对方能够举证你的爬虫有破坏动产(如服务器)的行为,那么基本上打官司你会败诉并要求做出赔偿。

以下是业界某位大神关于爬虫相关问题的回答。

1.非爬虫方向的技术转行做爬虫是否可行

:可行,而且有一定的基础会很容易上手,至于深入的部分就看自己了。

2. 非技术转行做爬虫是否可行

:可行,但我认为较难,因为爬虫做深了以后是需要你了解各种相关领域知识的,而你现在对这些领域的东西一无所知,甚至可能连编程都还不知道怎么开始,起点会比有基础的人低很多。

3. 爬虫工作日常如何?加班多不多

:这个得看公司的,有些公司搞得都是些天天更新反爬的平台(比如工商信息相关的,那基本就是得一直盯着看会不会出问题,一不小心就会要加班。

4. 爬虫对于学生党的用处体现在哪些地方

:这个问题看个人,因为爬虫技术可用的地方太多了,没法一个一个地都拿出来说。比如你想搞个自动签到的工具,这其实本质上就是爬虫;比如你想搞个自动回复设定内容的机器人,这其实本质上也是爬虫。

5. 学到什么程度才能入职爬虫工程师

:我觉得首先发请求不用说了吧?抓包工具的使用也不用说了吧?熟练掌握XPath、正则表达式这种解析工具也是基本的,然后JSON之类的传输格式至少要了解过长啥样吧,再就是JS逆向总得会一点吧(从只改变量名函数名混淆级别的代码中找出加密参数生成部分的程度)。差不多会这些以后,再自己做几个项目,应聘个初级爬虫工程师没啥问题。

6. 如何成为一名优秀的爬虫工程师

:垂直爬虫做到后面本质上就是逆向,你需要有良好的逆向思维方式,并且对一些安全领域的骚东西也有一定的了解,这样你才能游刃有余地处理高难度的反爬。

7. 学爬虫的学习路线

:有一些Python基础就可以做爬虫了,主要是数据获取、数据解析、数据预处理、数据持久化这方面的东西,然后是一些三方库和框架,如Scrapy、Selenium WebDriver等。

8. 大约学习并从事爬虫几年才可以达到一个不错的高度

:这个问题也很看个人,我觉得主要看有没有需求逼迫成长吧。之前招人的时候,很多三年经验的也就比入门水平稍微好一点,他们在工作时遇到的难点几乎全是依靠自动化测试工具解决的,对逆向水平毫无增长。所以建议还是多依靠逆向手段去解决问题,成长速度会很快。

9. 薪资方面如何,在几年内可以达到15K

:同上,标15K及以上的招聘还是挺多的,看看招聘需求就知道大概到什么程度了。

10. 面试爬虫哪些技能点是加分项

:丰富且有深度的逆向经验、熟悉通信协议底层实现、有过哪些骚操作经历等,但主要还是逆向经验和反爬方面的经验。

11. 作为一名爬虫工程师,对该岗位的前景如何看待

:未来主要内容在App上的平台应该会越来越多,难度也会越来越高,所以对于爬虫工程师的逆向水平要求会越来越高,只会简单逆向甚至不会逆向的人找工作会越来越难。

12. 爬虫和数据挖掘是一样的吗

:不一样,爬虫只是将数据取回来,具体怎么分析才是数据挖掘的事情。

13. 爬虫是否和黑客差不多

:差很多,与上个问题类似,只不过“黑客”这个词太宽泛了,黑客也是有具体方向的。

14.千奇百怪的验证码只能对接打码平台吗?有啥其他办法

:自己破呗,逆向+机器学习。

15. 如何爬x平台

:涉及法律问题,这种针对某个平台的东西是不能细说的。

16. 爬虫违法吗?如何避免过线导致的违法?怎么规避法律风险

:算是擦边球吧,其实你即使遵守规则去爬别人的网站,只要人家想搞你,还是可以让你做的事情变成违法的。所以建议不要做太过分的事情,毕竟狗急了也会跳墙。

还有就是不要为一些明显是做灰黑产的人/公司写代码,一旦他们出事了,你也会被牵连。

知乎上之前那个很火的被抓了的人,从回答内容中来看其实就是做打码平台的那个微凉,他这一个平台据说赚了至少千万,主要应该是提供给做黑产的人使用了,这种情况下被抓是迟早的事。最好的避免违法的办法就是明显觉得不太好的事情就不要去碰,基本就不会有啥问题。

17. 如何有目的地爬取到真正想要的数据

:让需要数据的人提需求,如果你自己就是那个需要数据的人,那就去做市场调研,看看你需要的数据在哪里能找到。

18. 反爬虫最先进的技术是什么?最有效的技术是什么

:最先进的技术其实就是使用在PC平台上已经玩烂的各种反破解技术将行为监测点(设备指纹、用户操作等)隐藏起来,然后传给服务端做行为识别,如果操作非人类或者缺少某些东西就触发风控。

最有效的技术其实不是技术而是方法,这个方法就是账号收费,将你的数据变成需要花多少钱才能看到这样子的,就能做到啥高端技术都不用上、轻松提高爬虫方的获取数据成本的效果,当然这也需要结合良好的产品设计,否则普通用户的体验会很差。

19. 请问爬虫在x领域有哪些应用

:这个应该是对应领域的人自己思考一下自己拿到那些公开数据究竟可以做什么。

20. 需要大量账号的平台成本过高该怎么办

:人家就是依靠这种方式来提高你成本的,你如果觉得成本过高要么放弃要么换一条路线获取数据。

如果你对Python感兴趣的话,可以试试我整理的这份Python全套学习资料,微信扫描下方二维码免费领取

最新文章
花集通-花店一站式管理系统 5.2.6
没有加固或未知加固INTERNET访问网络连接,可能产生GPRS流量READ_EXTERNAL_STORAGE访问外部存储的权限WRITE_EXTERNAL_STORAGE允
高清美女写真生成不再难!试试这些AI绘画工具!
Artbreeder: 这个平台的特别之处在于它允许用户混搭不同图像、调整多种参数,创造出属于自己的独特美丽肖像。你可以调整性别、年
我要看百度新闻怎么没有呢 百度首页新闻不见恢复方法
用任意的浏览器输入百度的官网网址,这里以ie浏览器为例。输入网址后,我们来到百度的首页,我们需要登录这个首页才能看到相应的
解答谷歌付费推广引流的几种方式
解答谷歌付费推广引流的几种方式谷歌搜索付费流量的方式有三种分别为:谷歌搜索引擎广告宣传、谷歌联盟广告宣传、YouTube广告宣
澳柯玛热水器24小时人工400电话/专业快速响应 - 行业 - 百科知识-蓝心网
澳柯玛热水器售后24小时维修服务热线:400-658-8618。澳柯玛热水器全市各区售后服务点热线号码。☎:400-658-8618澳柯玛热水器售
如何注册及认证微信小程序
我们将要注册微信小程序的商户们分成两类:(1)已经拥有了认证过的企业公众号;(2)还尚未注册过公众号的。建议先申请微信公众
量化经典博易大师指标公式汇总以及源代码集成二.doc
量化经典 博易大师指标公式汇总以及源代码集成二无敌趋势 RSV1:=(CLOSE-LLV(LOW,21))/(HHV(HIGH,21)-LLV(LOW,21))*100; RSV2:=(C
穆丹枫笔下的星辰之舞,璀璨世界的深度解析
亲爱的书友们,大家好!今天我要为大家带来的是一部令人期待已久的小说——穆丹枫的最新力作《星辰之舞》,这部小说于2017年12月
马的典故和传说
关于马的典故和传说18篇  在平日的学习、工作和生活里,大家都看到过典故吧,中华上下五千年,产生了无数故事。当你说出一个典
黑暗奇幻游戏有哪些好玩 人气高的黑暗奇幻游戏排行榜
探寻黑暗幻想世界的魅力,你是否在寻找那些让人沉迷的高人气游戏?这篇文章带你揭示黑暗奇幻游戏排行榜的秘密,精选出一系列深度