太古观察:大数据合规与爬虫

9月以来,多家涉及大数据风控业务和爬虫技术的公司相关人员被抓或者被调查,由此引发了大数据产业及业务合规问题的讨论。

事件回放:

据媒体报道,新颜科技已在9月1日通知所有商户,无法提供网络小贷合作协议的商户,将在9月2日晚上21时关闭所有接口,不再提供服务。新颜科技人士表示,协助调查是因为与其合作的一家持牌网贷平台涉及暴力催收问题,新颜科技本身的业务并未受影响,新颜科技人工智能科技有限公司CEO黄向前也被警方要求协助调查。

9月6日,网友TonyStark爆料称,杭州西湖分局集结200余名警力,对涉嫌侵犯公民个人信息的魔蝎科技进行统一抓捕。截止目前抓获涉案人员120余名,冻结资金2300余万元,勘验固定服务器1000余台,扣押电脑100多台,手机200余部。案件正在进一步侦办中。

9月11日,据网上一则视频显示,位于华星时代广场的公信宝大门被贴了“古荡派出所封”字样的封条,据金色财经报道,针对公信宝主体运营公司杭州存信数据科技有限公司被杭州市公安局查封一事,杭州市公安局西湖区分局古荡派出所回应称,此事属实。公信宝员工被全部带走。

爬虫是什么?违法的吗?

提到大数据,就不得不提到爬虫这个概念,网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览网站并收集信息的机器人。可以说如果没有爬虫,就没有了数据采集。

例如,你有一个新网站上线,你怎么做百度才会收录你的网站呢?除了你要在指定网站提交收录外,还需要吸引百度的蜘蛛(爬虫)定期访问你的网站,当它看到有质量的内容,就会收集,被收集的页面就可以在搜索引擎里搜到了。所以说,爬虫作为一项网络技术,其本身是不违法的。

使用爬虫的方式可能违法

爬虫作为一项技术,其本身是不违法的,但是如果使用爬虫的方式不当,就可能出现违法行为。一般来说,其违法行为体现在数据的来源和用途两方面。

在今年5月发布的《数据安全管理办法(征求意见稿)》第十六条中,对自动数据采集做了明确规范:网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

例如,有些网站会设置了反爬虫策略,然后你又在自己的爬虫里设计了反反爬虫技术,那么你就有可能涉及非法获取计算机信息系统数据罪。

在数据的使用方面,尤其是涉及到公民个人信息方面,如果使用不当,则有可能涉及侵犯公民个人信息罪。根据今年5月发布的《数据安全管理办法(征求意见稿)》第十五条规定,网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。备案内容包括收集使用规则,收集使用的目的、规模、方式、范围、类型、期限等,不包括数据内容本身。所以说,当你合法的获得了大量的个人信息之后,需要遵守信息使用时的相关规定。

大数据合规的要点
随着移动互联网带宽的迅猛发展,大数据产业也在迅速发展着。对于大数据企业而言,数据的获得方式应遵守网站的Robots协议及适用协议,在数据存储及传输时应满足《个人信息安全规范》的要求。同时,对于以经营为目的的大数据企业在收集重要数据或个人敏感信息时,应向所在地网信部门备案收集使用的目的、规模、方式、范围、类型、期限等.

对于数据的使用,则要重点考虑是否违反侵犯公民个人信息以及非法买卖个人信息等我国《刑法》相关法律规定。

相关律师

律所地址

北京市朝阳区曙光西里甲六号院时间国际H座(8号楼)北区18层

邮箱地址

tigood@tigood.com.cn

联系电话

010-57165265