浅谈数据采集(爬虫)的一些工作经验

这里先谈谈我的学习背景吧,不喜欢可以绕过,纯属自学之路,然后求职之路,没有任何技术原理。。

学了一个月的python,,可能语法比较简单的关系,很快就接触到python爬虫,一开始我真的很不理解爬虫是干什么的,后来到传智博客的官网看了一下python的课程,也发现也有爬虫的课程,就开始嗑视频了,大概看了两个星期的我,已经开始投简历了,不过结果显而易见,没有工作经验是很难找到专职爬虫的岗位的。后来我问了一些朋友,他们给我的建议就是跑偏门。

后来我就直接投一些数据采集的岗位,因为是实习,所以对于钱看的比较淡。因为简历我自己也不会写,就去淘宝交了几十块帮忙写。果不其然,我第一天投的简历,后了第二天就有了回应了。叫我去面试。心里那叫一个激动。

好了,我面试的岗位的工作内容就是爬取电商网站的数据,好比比较奇葩的是,他们公司并没有要求我用代码去爬,而是用一个叫八爪鱼的工具,因为我没用过这个软件,可是面试官也不太懂技术,就问我会不会,我那时候掌握的技术就是一些基本的爬取原理,并没有实战过,可是内心戏就是反正我是学东西的,而且工具肯定没有代码的难,怎么说也算入行,那就骗面试官说会会会!

哈哈哈,到了公司之后,前一个星期那个压力真的挺大的,一开始就叫我用那个工具爬取淘宝商品详情的数据,我就在想,那个工具要掌握,其实就四个要点,xpath,正则表达式,还有简单的http协议,当然还需要掌握web前端的基本知识。

慢慢的,我熟悉了那个软件,上面所说的四个要点也经过不断的百度慢慢能做到公司业务的需求了。经过了两个月的实习,我相信我已经很掌握这个工具了,可是自己比谁都清楚,工具肯定没有代码快,而且就是这个软件还是要收费的。心想,万一我的到了别的公司,这些数据还不是要用代码去爬,想要高工资,只有一天路,那就是代码爬虫。。

这时候对于代码爬虫,我脑子里马上就想到我一开始学了一个月的python了,我开始上班偷偷花时间用python写爬虫了。因为之前爬过的电商网站还是挺多的,对于需求我是知道的,所以学起来比较有方向。其实这些对于一个没经验的小白确实是个很重要的工作经验,过来人来说,不懂需求,学起来会很无味,不过不怕,小编我在这里列表几个需求。。

就拿淘宝为例,其他电商网站大同小异。。

淘宝有很分类,就好比男装,女装,每个分类有很多店铺,每个店铺里面又有很多分类,分类下面有很多商品,商品里面很多详情信息,所以要求就是一个店铺,你能看见的信息都要爬取。这就是需求。

好了,小编写到这,决定还是把求职经历和技术贴分开,这样看起来没那么枯燥,今天就先写到这,等有时间再写一个完整的技术贴,附上源码。

你可能感兴趣的:(浅谈数据采集(爬虫)的一些工作经验)