爬虫有风险!同盾科技爬虫业务两名负责人被带走配合调查

据媒体 9 月 26 日晚的报道,知名大数据公司同盾科技有限公司(下称“同盾”)爬虫类产品“数聚魔盒”负责人被查。9 月 27 日,同盾官方就此做以回应,称“为配合警方调查曾经服务的某第三方单位,杭州信川(即“杭州信川科技有限公司”)及有关人员正积极协助警方调查取证,以协助相关部门查清该第三方单位的情况。”

天眼查显示,杭州信川科技有限公司正是“数聚魔盒”的运营主体。公开信息显示,数聚魔盒主要涉及数据采集流程,支持爬取数据用作信用评估;其合作方来自消费金融、理财、保险、车房租赁等领域。数聚魔盒在宣传资料中称,"在未来 2 年内,数聚魔盒将为超过 10000 家客户提供数据服务,成为互联网大数据领域的引领者。

针对“同盾科技爬虫业务负责人被查”的消息,同盾科技公关人员回应称,这是因为此前曾经服务过的甲方客户出了问题,目前信川科技(同盾科技子公司)相关人员正积极协助警方调查取证,以协助相关部门查清该单位的情况。至于该客户所属行业及具体问题,同盾并未做出回应。

同盾 9 月 27 日的《关于杭州信川科技有限公司相关情况的公开声明》全文如下:

近日,网络上出现有关杭州信川科技有限公司(以下称“杭州信川”)的舆论内容,为避免不实谣传和恶意攻击,为接受行业及媒体公众的监督,为更好地服务社会及广大客户,同盾科技有限公司(以下称“同盾科技”)特此声明:

1、杭州信川为独立运营的法人实体,不涉及金融业务、不引流、不放贷。

数聚魔盒为杭州信川旗下的独立品牌产品,在进入条件与适用场景上均有严格的授权要求与限制。为积极响应国家关于个人信息保护的相关政策和最新要求,杭州信川自 2018 年开始已逐步调整业务,截至目前已全部终止相关服务。

2、为配合警方调查曾经服务的某第三方单位,杭州信川及有关人员正积极协助警方调查取证,以协助相关部门查清该第三方单位的情况。

3、同盾科技是国内第三方智能风控与分析决策技术服务提供商,专注于科技赋能。作为涉金融服务的数据分析行业的头部企业,同盾科技严格遵照法律法规与监管要求开展个人信息保护及相关合规工作。在企业内部,同盾科技已参照法律法规及相关国家标准的要求,积极制定了应用系统全生命周期安全管理流程、同盾安全风险管理流程、产品合规内部指引、同盾员工行为安全准则、同盾科技员工商业行为准则红线等几十条巨细靡遗的安全规范制度。针对合作客户,同盾科技有着严格的准入筛选和退出机制,一旦发现客户存在违规违法行为,同盾科技即刻主动终止相关合作。

同盾科技 1300 位员工,依然相信并且坚持心存敬畏,向善而行,呼吁行业良性竞争,为金融风险管控和维护金融体系稳定贡献绵薄之力,共同创造更大的商业和社会价值!

在此之前的 11 天前,即 9 月 16 日晚间,曾网传同盾爬虫部门解散以及创始人 CEO 蒋韬“跑路”等消息。 同盾 9 月 17 日曾发布辟谣声明。声明称,CEO 蒋韬近日一直在国内处理公司事务。涉及爬虫技术的产品数聚魔盒为子公司杭州信川科技有限公司独立运营产品。为响应个人信息保护政策,目前杭州信川科技有限公司已停止相关服务,员工已正常调岗。蒋韬也发表微信公号文章《心存敬畏 向善而行》,称“我在杭州,一切安好”。

此前,同盾曾被曝计划于 2020 年赴美 IPO 上市,陷入爬虫风波及高管被查事件之后,上市是否能如期进行不得而知。


爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

爬虫所带来风险主要体现在以下 3 个方面:

  • 违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;
  • 爬虫干扰了被访问网站的正常运营;
  • 爬虫抓取了受到法律保护的特定类型的数据或信息。

那么作为爬虫开发者,如何在使用爬虫时避免进局子的厄运呢?

  • 严格遵守网站设置的 robots 协议;
  • 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
  • 在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;
  • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

部分资料来源:知乎

你可能感兴趣的:(大数据,网页爬虫)