找到合适的数据源是个大问题

随着抓取新浪微博上面人像数量越来越多,可以从聚合页上找到的优质相册已经没有了。

重新写了一个探测符合需求的爬虫,专门用来批量探测相册,目前已经探测了超过5万的推算枚举的uid,只找到8个合适的,命中率好差,还好,这个过程不需要人工干预,机器自己在跑。

发现两个新数据源,Instagram和pintrest,最后发现Instagram更靠谱,明天准备开始写爬虫!

今天,小朋友们一起抓了100不到,还算好吧~_~


PS:中午就喝多了!整个下午崩溃!

找到合适的数据源是个大问题_第1张图片
图片发自App

你可能感兴趣的:(找到合适的数据源是个大问题)