资讯首页 新闻资讯 专栏文章 专题报道 天眼财经
网贷天眼 > 资讯  > 新闻资讯 > 金融科技 > 又一家数据公司被查,爬虫到底做错了什么?

热点推荐

又一家数据公司被查,爬虫到底做错了什么?

原作者: 张凯强 来自: 面向人生编程 | 发布时间: 2019-9-10 18:11 |浏览量:7007 | 评论: 16

9 月 6 日下午,多位业内人士称,杭州知名大数据服务公司杭州魔蝎数据科技有限公司,疑似被相关执法人员控制,其中一位周姓核心高管人员被警方带走。

 

以上是昨天技术圈传播的一则新闻,又一家数据公司被调查,很多数据从业者、爬虫开发者发出了“感叹” —— 「爬虫用得好,XX进得早;数据玩得溜,XX吃个够」。

 

魔蝎科技作为一家数据服务公司,曾在 2017 年一篇『爬虫凶猛:爬支付宝、爬微信、窃取现金贷放贷数据』的文章中,被指出存在开发使用恶意爬虫的行为。

 

当然关于魔蝎科技为什么被查,这个等待执法部门的调查结果即可,咱们不在这里无端猜测。

 

我今天要说的是关于爬虫的合法性,我希望通过一些案例来探讨:怎样做一个不触碰红线的爬虫开发者。

 

爬虫作为一种计算机技术,具有技术中立性,爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到 20 年前,搜索引擎、聚合导航、数据分析、人工智能等业务,都需要基于爬虫技术。

 

但是爬虫作为获取数据的技术手段之一,由于部分数据存在敏感性,如果不能甄别哪些数据是可以爬取,哪些会触及红线,可能下一位上新闻的主角就是你。

 

如何界定爬虫的合法性,目前没有明文规定,但我通过翻阅大量文章、事件、分享、司法案例,我总结出界定的三个关键点:采集途径、采集行为、使用目的。

 

数据的采集途径

 

通过什么途径爬取数据,这个是最需要重视的一点。总体来说,未公开、未经许可、且带有敏感信息的数据,不管是通过什么渠道获得,都是一种不合法的行为。

 

所以在采集这类比较敏感的数据时,最好先查询下相关法律法规,特别是用户个人信息、其他商业平台的信息 等这类信息,寻找一条合适的途径。

 

个人数据

 

采集和分析个人信息数据,应该是当下所有互联网都会做的一件事,但是大部分个人数据都是非公开的,想获得必须通过合法途径,可参见『网络安全法』第四十一条:

 

网络运营者收集、使用个人信息,应当遵循合法、正当、必要的原则,公开收集、使用规则,明示收集、使用信息的目的、方式和范围,并经被收集者同意...

 

也就是必须在提前告知收集的方式、范围、目的,并经过用户授权或同意后,才能采集使用,也就是我们常见的各种网站与 App 的用户协议中关于信息收集的部分。

 

相关反面案例:

 

8月20日,澎湃新闻从绍兴市越城区公安分局获悉,该局日前侦破一起特大流量劫持案,涉案的新三板挂牌公司北京瑞智华胜科技股份有限公司,涉嫌非法窃取用户个人信息30亿条,涉及百度、腾讯、阿里、京东等全国96家互联网公司产品,目前警方已从该公司及其关联公司抓获6名犯罪嫌疑人。

 

......

 

北京瑞智华胜公司及其关联公司在与正规运营商合作中,会加入一些非法软件用于清洗流量、获取用户的 cookie。

 

节选自 澎湃新闻:『新三板挂牌公司涉窃取30亿条个人信息,非法牟利超千万元』[1]

 

公开数据

 

从合法公开渠道,并且不明显违背个人信息主体意愿,都没有什么问题。但如果通过破解、侵入等“黑客”手段来获取数据,那也有相关法律等着你:

 

刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:

 

(一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;

 

......

 

违反 Robots 协议

 

虽然 Robots 协议没有法规强制遵守,但 Robots 协议作为行业约定,在遵循之下会给你带来合法支持。

 

因为 Robots 协议具有指导意义,如果注明 Disallow 就说明是平台明显要保护的页面数据,想爬取之前应该仔细考虑一下。

 

数据的采集行为

 

使用技术手段应该懂得克制,一些容易对服务器和业务造成干扰甚至破坏的行为,应当充分衡量其承受能力,毕竟不是每家都是 BAT 级。

 

高并发压力

 

做技术经常专注于优化,爬虫开发也是如此,想尽各种办法增加并发数、请求效率,但高并发带来的近乎 DDOS 的请求,如果对对方服务器造成压力,影响了对方正常业务,那就应该警惕了。

 

如果一旦导致严重后果,后果参见:

 

《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪

 

所以请爬取的时候,即使没有反爬限制,也不要肆无忌惮地开启高并发,掂量一下对方服务器的实力。

 

影响正常业务

 

除了高并发请求,还有一些影响业务的情况,常见的比如抢单,会影响正常用户的体验。

 

数据的使用目的

 

数据使用目的同样是一大关键,就算你通过合法途径采集的数据,如果对数据没有正确的使用,同样会存在不合法的行为。

 

超出约定的使用

 

一种情况是公开收集的数据,但没有遵循之前告知的使用目的,比如用户协议上说只是分析用户行为,帮助提高产品体验,结果变成了出售用户画像数据。

 

还有一种情况,是有知识产权、著作权的作品,可能会允许你下载或引用,但明显标注了使用范围,比如不能转载、不能用于商业行为等,更不能去盗用,这些都是有法律明文保护,所以要注意使用。

 

其他情况就不列举了。

 

出售个人信息

 

关于出售个人信息,千万不要做,是法律特别指出禁止的,参见:

 

根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对“情节严重”的解释:

 

(1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;

 

(2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;

 

(3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

 

此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

 

不正当商业行为

 

如果将竞品公司的数据,作为自己公司的商业目的,这就可能存在构成不正当商业竞争,或者是违反知识产权保护。

 

这种情况在目前涉及爬虫的商业诉讼案中比较常见,两年前比较知名的案件,“车来了” App 抓取其竞品 “酷米客” 的公交车数据,并展示在自己的产品上:

 

虽然公交车作为公共交通工具,其实时运行路线、运行时间等信息仅系客观事实,但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位,作为公交信息查询软件的后台数据后,此类信息便具有了实用性并能够为权利人带来现实或潜在、当下或将来的经济利益,已经具备无形财产的属性。元光公司利用网络爬虫技术大量获取并且无偿使用谷米公司“酷米客”软件的实时公交信息数据的行为,实为一种“不劳而获”、“食人而肥”的行为,构成不正当竞争。

 

节选自『深圳市中级人民法院(2017)粤03民初822号民事判决书』

 

「爬虫法」即将出台

 

好消息是,相关办法已经在路上了。

 

5 月 28 日零点,国家互联网信息办公室发布了《数据安全管理办法》征求意见稿。

 

我也查阅了这份意见稿,里面对数据的获取、存储、传输、使用等都做了一些规定,包括关于爬虫行为的若干规定(还在征求阶段,因此后续可能会有变化)。

 

比如,第二章第十六条:

 

网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

 

第三章第二十七条:

 

网络运营者向他人提供个人信息前,应当评估可能带来的安全风险,并征得个人信息主体同意。下列情况除外:

 

(一)从合法公开渠道收集且不明显违背个人信息主体意愿;

 

(二)个人信息主体主动公开;

 

(三)经过匿名化处理;

 

(四)执法机关依法履行职责所必需;

 

(五)维护国家安全、社会公共利益、个人信息主体生命安全所必需。

 

 节选自『数据安全管理办法(征求意见稿)』[2]


查看全文
下载手机客户端阅读全文 >
内容标签:

更多【金融科技】相关文章

有话要说

登录并发表

热门评论

全部评论

为您推荐
热门头条
新闻资讯
专栏文章
天眼财经

为您推荐

沸腾的AI课赛道,“嘘声”越来越大?
沸腾的AI课赛道,“嘘声”越来越大?
网贷专栏   |  刘旷  |  2020-09-17 10:37
浏览 1134
回复 1
极光Q2财报:SaaS虽猛,转型仍痛
极光Q2财报:SaaS虽猛,转型仍痛
网贷专栏   |  刘旷  |  2020-09-17 10:11
浏览 1203
回复 0
小微企业2020自救图鉴:创业公司如何渡过最难一...
小微企业2020自救图鉴:创业公司如何渡过最难一年?
网贷专栏   |  陈纪英  |  2020-09-17 09:30
浏览 1283
回复 0
直播带货:敲响了丧钟,也吹响了集结号
直播带货:敲响了丧钟,也吹响了集结号
网贷专栏   |  孟永辉  |  2020-09-16 19:19
浏览 1006
回复 0
58同城退市自救,前浪神奇不再,掉队的58拆分自...
58同城退市自救,前浪神奇不再,掉队的58拆分自身能有用吗?
网贷专栏   |  江瀚视野观察  |  2020-09-16 14:22
浏览 1258
回复 1
加载更多>>
汇丰银行又陷丑闻:明知客户涉嫌诈骗仍允许转移资产
汇丰银行又陷丑闻:明知客户涉嫌诈骗仍允许转移资产
银行   |  天眼编辑03  |  2020-9-21 20:15
浏览 406
回复 0
走近和了解LPR:如何产生?会对百姓带来什么影响?
走近和了解LPR:如何产生?会对百姓带来什么影响?
银行   |  无风之浪  |  2020-9-21 18:53
浏览 583
回复 0
“微信清粉”软件存风险 有用户中毒或被盗取个人信息
“微信清粉”软件存风险 有用户中毒或被盗取个人信息
金融科技   |  天眼编辑03  |  2020-9-21 16:20
浏览 713
回复 0
频抛橄榄枝 银行理财子公司“破圈”营销之路
频抛橄榄枝 银行理财子公司“破圈”营销之路
银行   |  天眼编辑03  |  2020-9-21 13:38
浏览 652
回复 0
16家私人银行中报PK 万亿俱乐部升至6家
16家私人银行中报PK 万亿俱乐部升至6家
银行   |  HHYYE  |  2020-9-21 12:35
浏览 732
回复 0
币圈骗局再泛滥 电话拉人头微信群养“韭菜”
币圈骗局再泛滥 电话拉人头微信群养“韭菜”
消费金融   |  天眼编辑02  |  2020-9-21 12:13
浏览 2356
回复 0
证监会:取消证券公司月度经营数据的披露要求
证监会:取消证券公司月度经营数据的披露要求
消费金融   |  天眼编辑03  |  2020-9-21 12:10
浏览 742
回复 0
跌停风暴来袭 暴风集团A股退场倒计时
跌停风暴来袭 暴风集团A股退场倒计时
消费金融   |  天眼编辑02  |  2020-9-21 12:03
浏览 823
回复 0
“固收+”概念基金走俏 新品不断年内募集高至200亿元
“固收+”概念基金走俏 新品不断年内募集高至200亿元
消费金融   |  天眼编辑02  |  2020-9-21 11:52
浏览 812
回复 0
加载更多>>
抖音快手的新战争从IPO开始
抖音快手的新战争从IPO开始
专栏文章   |  刘旷  |  2020-9-21 10:48
浏览 587
回复 0
悬崖边上的蛋壳公寓
悬崖边上的蛋壳公寓
专栏文章   |  刘旷  |  2020-9-21 10:46
浏览 523
回复 0
智乐宝“失联”罗生门:900多名家长“入坑”谁之过?
智乐宝“失联”罗生门:900多名家长“入坑”谁之过?
专栏文章   |  独角金融  |  2020-9-20 16:30
浏览 842
回复 0
再跑科创板圈钱,恒大汽车要做特斯拉还是贾跃亭?
再跑科创板圈钱,恒大汽车要做特斯拉还是贾跃亭?
专栏文章   |  刘旷  |  2020-9-18 15:26
浏览 921
回复 0
银之杰的个人征信业务还有没有戏?
银之杰的个人征信业务还有没有戏?
专栏文章   |  琥珀金融帮  |  2020-9-17 14:32
浏览 2972
回复 0
内循环、促消费,商品怎么不大幅降价呢?
内循环、促消费,商品怎么不大幅降价呢?
专栏文章   |  洪言微语  |  2020-9-17 14:31
浏览 4463
回复 0
二次上市,中通打响快递头牌捍卫战
二次上市,中通打响快递头牌捍卫战
专栏文章   |  刘旷  |  2020-9-17 14:31
浏览 3206
回复 0
百度的AI时空争夺战
百度的AI时空争夺战
专栏文章   |  江瀚视野观察  |  2020-9-17 14:22
浏览 4343
回复 1
本质嬗变的新零售开启新方向
本质嬗变的新零售开启新方向
专栏文章   |  孟永辉  |  2020-9-17 14:20
浏览 3101
回复 1
加载更多>>
新疆第5批P2P网贷机构清退!新金所、赢贷通上榜!
新疆第5批P2P网贷机构清退!新金所、赢贷通上榜!
天眼原创   |  无风之浪  |  2020-9-21 18:32
浏览 659
回复 0
龙江银行广信支行被罚20万:内控制度执行不严
龙江银行广信支行被罚20万:内控制度执行不严
天眼原创   |  无风之浪  |  2020-9-21 17:22
浏览 701
回复 0
黑龙江友谊农商行遭罚单:因年度违规分红被罚50万
黑龙江友谊农商行遭罚单:因年度违规分红被罚50万
天眼原创   |  天眼编辑03  |  2020-9-21 11:20
浏览 996
回复 0
刚刚!字节跳动发声明:辟谣关于TikTok的四大传言
刚刚!字节跳动发声明:辟谣关于TikTok的四大传言
天眼原创   |  天眼编辑03  |  2020-9-21 09:18
浏览 1375
回复 1
特朗普政府的WeChat禁令突遇挫折!加州联邦法官阻止
特朗普政府的WeChat禁令突遇挫折!加州联邦法官阻止
天眼原创   |  无风之浪  |  2020-9-21 08:52
浏览 1120
回复 1
加载更多>>
下载APP
银讯APP
银讯APP
官方微信
银讯官方微信
联系客服
在线客服
400-6673-500
周一至周日:9:00-21:00
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部