先抛出我的观点:希望各位做爬虫的同学,尽快,尽可能多地做海外的爬虫项目,爬海外的网站,这才是你们新的未来。
最近两年,我已经没有做过国内任何网站的爬虫了,根据这两年爬海外网站的一些经验,谈谈我的发现和想法。
国内网站在这么多年的爬虫与反爬虫的斗争中,反爬能力越来越强,瑞数、极验和其它第三方专业反爬虫系统,已经能挡住很多人了。
国内值得爬的网站就只有几个,大家都在爬,你有1GB的数据,他有1TB的数据,内卷极其严重。并且还有很多工作室直接使用群控技术,几万台机器一起爬,普通人很难跟他们竞争。
国内一些专门做舆情分析的公司,他们甚至可以通过地下渠道直接拿到网站的内部API,数据质量比你通过爬虫爬的数据高多了。
最后,比较重要的是,爬国内的大网站,很容易被请喝茶。轻者拘留,重者在档案里面留下一辈子的污点。
NLP最重要的四个元素就是:语料、模型、算法、算力。其中模型和算力可以复用,自然不是问题。但因为没有人抓海外的数据,因此缺少了语料,没有语料,就没有办法训练模型。NLP里面的ABSA、语意理解、文本生成、智能问答也全都做不下去。特别是小众语言——法语、俄语、韩语、西班牙语,几乎就没有国内的公司在做。
抓数据不难,但难在对数据的标注。现在国内对小众语言的标注,还停留在使用Google翻译把小众语言先翻译成英文,再让人去给英文打标的阶段。
如果你能尽早收集小语种的语料,然后让懂这个语料的人去打标,那么以后即便你不直接做NLP,光出售小语种的标注数据,你都可以大赚一笔。国内学习小语种的大学生,找工作都很困难。如果你能让他们兼职给你标注数据,不仅提供了就业岗位,而且价格非常低廉,属于是双赢。
语料抓取的壁垒不是爬虫技术,而是数据量和数据多样性。数据量达到一定规模以后,壁垒自然就能形成。别人的爬虫再先进,只要他短期收集不了那么多的数据,那么他就没有办法超过你。
总之,越早开始收集海外语料,越早能形成自己的壁垒。
众所周知,游戏在内地已经没有未来了,各大游戏厂商在接下来的几年会把游戏出海作为最重要的目标。目前已经有几家公司的游戏在东南亚大杀四方,在欧美市场也一路血洗当地的产品。想必大家都知道我说的是哪几个游戏。
但可以确定的是,目前国内做舆情分析的公司,还没有谁能够把海外舆情(特指非英语国家)分析做好。如果你有丰富的海外舆情抓取经验,那么当这些公司招聘的时候,你就有很高的竞争力。
除了游戏外,基于数据的尽职调查也是一个方向。投资人在确定是否要投资某个创业公司前,都会做尽职调查(DD)。其中基于数据的尽职调查(DDD)就是其中的重要一环。例如一个电商初创公司告诉投资人,他每个月的销售额有几百亿,然后你用爬虫爬一下他的商城,根据每个商品的销量和评论,反推出他的月销售额只有几百元,那么你就能知道这个电商公司在骗投资人了。
又比如某个直播网站,对投资人宣称自己的日活月活非常高,然后你用爬虫监控一下热门主播的评论数,礼物数,设计一个公式计算出它的真实日活月活,两边一对比你就知道他们有没有骗人了。
只要你把视野放开,稍微研究一下我国台湾、香港的网站,以及英法意德,巴西韩国,俄罗斯东南亚的网站,你就会发现:
大部分网站几乎没有反爬虫机制
语料极其丰富
小部分网站有极难的反爬虫系统(Akamai),但是可以通过曲折绕过的方式拿到数据
国内几乎没有竞争对手,你爬得越多,你积累的原始资本就越大
如果你是个人开发者,你几乎不用担心有什么风险。因为不会有人来找你喝茶。
有人可能会问,难道美国、欧洲自己没有做爬虫、做舆情的公司吗?他们肯定也做了很多年了,为什么国内的公司要找你,而不去找这些欧美本土的公司?
我认为,就凭这五个字:你是自己人
。
如果你是一家中国的公司,专注分析海外舆情。即便你的业务能力跟一家欧美公司差不多甚至稍微低一些(当然低太多可不行),国内的大公司在选择合作伙伴的时候,一定会优先考虑你,而不是欧美当地的公司。
无论从人性上,还是从法律合规上,选择自己人都会安心很多。从人性上,中国人会选择跟中国人合作。大家都在互联网圈子,你这个公司怎么样,你这个老板怎么样,稍稍打听一下就知道了。只要知道你确实有实力,为什么不找你?
从业务上,两边公司沟通都用中文,有什么问题线上聊一下或者出个差,早上出发中午就能到,沟通起来很方便。
我提到如果你是个人开发者或者小公司,那么你几乎不用担心任何风险。尽管爬就是了。
但如果你是国内的大公司,那么还是有一些注意事项的。因为大公司会担心像GDPR这样的信息保护法,也会担心如果爬虫被发现了会影响自己的国际声誉。但这些其实都不是什么大问题,都有办法绕过去的。
具体做法跟本文的关系不大,我就先不讲了。如果大家对爬虫出海有兴趣的话,请留言告诉我,我可以再分享一些具体的实践经验。