11.8亿条淘宝用户数据被盗 黑客8个月获利34万!多家平台数据泄露频频 这事怨爬虫?

2021-06-17 09:35 大众报业·风口财经阅读 (29857) 扫描到手机

原标题:风口观察 | 实锤!11.8亿条淘宝用户数据被盗,黑客8个月获利34万!多家平台数据泄露频频,这事怨爬虫?

  一周前的6月3日,河南省商丘市睢阳区人民法院在裁判文书网公开了一份刑事判决书,文书显示,两名犯罪分子在淘宝爬取并盗走大量数据。经过检方核实,被盗取的淘宝用户数据高达11.8亿条,涉及UID、淘宝昵称、手机号码等敏感信息。

  判决文书显示,2020年8月14日,淘宝(中国)软件有限公司报警称,在2020年7月6日到2020年7月13日时,有黑产人员通过接口,绕过平台风控,批量爬取数据。在7月6日至7月13日之间,平均每天爬取数量500万,爬取内容包括买家UID、淘宝昵称、用户手机号等敏感信息。

  淘宝网站排查后发现,逯某有重大作案嫌疑,接到报警后,当地警方将此事立为刑事案件。经审理查明,逯某受雇于黎某,而后者成立了一家名为“浏阳市泰创网络科技”的公司,该公司设有返利部、客服部、招商部等部门。

  自2019年11月份至2020年7月份,该公司利用该信息盈利,共获利340187.68元。逯某、黎某二人因为“侵犯公民个人信息罪”,分别被判处有期徒刑三年三个月和三年六个月,并处罚金人民币十万元和三十五万元。

到底发生了什么?

  两个相隔千里的人,是如何一起合作做下这起惊天大案的呢?

  被告人逯某供述称,2017年7月在QQ群里认识了黎某,黎某当时在做“淘宝客”需要一些“淘宝客”软件,其为黎某编了个“微信加人”软件,没收钱,黎某承诺说算其技术入股,等以后成立公司了再与我算钱。

  2019年3月份黎某成立了一家名为“浏阳市泰创网络科技”的公司,逯某成为该公司技术员,一直在家远程办公,并领取每月1万元的报酬。

  2019年11月份,逯某开始用自己开发的爬虫软件“淘评评”,通过淘宝商品详细信息接口和淘宝信息分享接口,爬取淘宝客户的淘宝数字ID和淘宝昵称,并通过淘宝分享接口可以爬取淘宝客户手机号信息。

  其中,爬取的客户的手机号码信息,逯某都提供给黎某了,爬取的淘宝客户ID和淘宝昵称,逯某则存在了自己的电脑硬盘里,没有提供给黎某和外泄。

  而黎某,则在收到淘宝客户手机号码之后会把这些信息数据导入“微信加人”软件,加微信好友成功后,拉入建好的微信群,由公司里的员工负责发送广告链接。淘宝用户在该公司的微信群里购买商品之后,该公司将获得佣金。

  就这样神不知鬼不觉地进行了8个多月,逯某前前后后爬取了5000多万条信息,并从其他地方下载了11亿多条数据。直到2020年8月14日淘宝(中国)软件有限公司报警称,在2020年7月6日到2020年7月13日时,有黑产人员通过接口,绕过平台风控,批量爬取数据。在7月6日至7月13日之间,平均每天爬取数量500万,爬取内容包括买家用户昵称,用户评价内容,昵称等敏感信息。

  最终,逯某和黎某被河南警方逮捕。经过公检方面核查,逯某电脑里通过其开发的软件爬取淘宝客户的数字ID、淘宝昵称、手机号码等淘宝客户信息共计1180738048条。

  值得注意的是,被告人逯某表示,这11.8亿的数据通过微信文件的形式发给黎某之后,黎某会转一笔费用给他,整个获利只有六七万或七八万元。

不是第一次

多家平台出现数据泄露

  这并不是淘宝第一次被恶意地爬取淘宝数据。

  2019年5月,阿里妈妈在进行违规排查过程中,发现部分淘宝客在无线APP端未经授权爬取淘宝购物车、收藏夹等并恶性宣传做淘宝客推广的行为。这一行为严重违反《淘宝客应用开发者规范》第九条:开发者不得以任何形式爬取任何淘宝数据;违反《阿里妈妈推广者规范》第八条,存在流量劫持的违规行为。

  此次专项治理共发现粉象生活、省钱快报、羊毛省钱、返钱宝宝、喵喵折、叮当叮当等此类违规APP共43个。

  事实上,不仅淘宝出现这类情况,在2013年时,京东也发生过类似案件。数据外泄包括密码、手机号码、电子邮件地址、用户名。

  今年4月,Facebook指责“恶意行为者”泄露了超过5.3亿用户的姓名和电话号码等数据。

  记者梳理发现,多家大数据公司被查原因都与 " 网络爬虫抓取数据 " 相关。

  2019 年 8 月,据新京报报道,大数据营销系统 " 鹰眼智客 " 利用爬虫技术 , 从淘宝、京东等网站上爬取到店家手机号后,用于营销。此外,借助该软件,通过微信附近的人,用户可任意设定虚拟位置后批量申请好友,还能 " 站街 " 钓鱼营销。其后,鹰眼智客所属的郑州共赢科技有限公司接受警方调查。

  据南方都市报报道,2019 年 9 月前后,多家数据公司接连被查,包括魔蝎科技、还包括聚信立、新颜科技、公信宝、同盾等。从事金融科技行业多年的资深人士曾告诉南都记者,被查原因很可能与违规使用爬虫数据以及暴力催收有关。

  今年年初,魔蝎科技相关案件迎来一审判决。判决结果显示,魔蝎科技犯侵犯公民个人信息罪,判处罚金三千万元。公司法人周某某被判有期徒刑三年,缓刑四年;技术总监袁某被判有期徒刑三年,缓刑三年。

矛盾的爬虫技术

  网络爬虫原本是指平台按照一定规则,自动从互联网上提取网络信息的程序或脚本,本为互联网行业的常用技术之一。但近年来,爬虫技术往往被应用于 " 套路贷 "" 暴力催收 " 以及 " 侵犯个人信息权益的商业营销 " 上,而被推上风口浪尖。

  在一些场景,爬虫技术很容易游走在违法边缘。尤其在一些金融大数据公司中,爬虫业务被广泛应用。2019 年下半年,一场严厉的监管风暴下,多家金融大数据公司接连被查,被查原因中多涉及违规利用爬虫技术的问题。

  业内有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。

  “爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员表示,“技术无罪,关键在于人”。

  北京市安理律师事务所高级合伙人王新锐、罗为曾公开撰文表示,创新型业务很容易进入法律的灰色地带,但仅仅进入灰色地带本身,并不会直接招致处罚,严重侵犯了其他人的合法利益,才是被罚甚至失去自由的根本原因。

  爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演,力量此消彼长。

  据一位资深程序员介绍,现在比较常见的反爬虫技术手段主要有,检测 Header 信息;设置 IP 访问频率,分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作;识别 UA、通过动态页面增加爬取难度等方式。

  这几年,随着 AI 的发展,一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如,腾讯云网站管家 WAF 就将 AI 检测引擎能力,运用到了爬虫 Bot 程序检测的环节上,AI 引擎能够对站点访问流量的会话进行追踪,通过流量画像,匹配行为模型及行为标签进行识别,进而识别出爬虫 Bot 程序流量行为。

  2019 年 5 月,被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

  一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。

  随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟,爬虫只是技术,灰色的是“助恶者”。

大众报业·风口财经综合整理,素材来源:中国基金报、南方都市报、AI在线、搜狐科技、36氪等

(本文观点仅供参考,不构成投资建议,投资有风险,入市需谨慎!)