python会计实证研究_实证研究者的爬虫工具选择

作为一个实证研究小青年??,有段时间因为研究的需要,要做定向爬虫。这是自己学习Python最初的缘由。那个时候爬虫的材料还不是太多,自己在网上找了一些文章和电子书来学习。边学边试,不久就完工了。

完工之后还不时关注爬虫的技术教程,后来发现网上有大批小伙伴开始学习爬虫,很多是非专业小伙伴(本职工作不是爬虫 ),一时间感觉爬虫好火。

个人认为(不一定对),爬虫火是源于用户需求(研究的需要;好玩;尝鲜……)和培训者推动。作为实证研究者,确实需要一些爬虫技术来帮助自己完成数据收集,这个时候选一个比较好的工具很有必要。如果阅读了比较陈旧的网络经验贴或者听了第三方培训,而选择了不太合适的工具,会影响占用过多的研究时间,影响研究进展。

场景:做实证研究,需要取数,可以爬虫(定向爬虫)实现。那么,如何选工具呢?

Python:最简单的组合requests+bs4

当时自己花了大量时间去研究urllib和requests异同,bs4和lxml的异同……嘿呀,左手来个urllib,右手来个requests……浪费时间?

期间还去学Scrapy,不过用得不太习惯,后面就没有仔细学习了。

此外还去折腾无头浏览器。嗨,对只是拿数据做研究发文章的小青年,其实没有必要去研究无头浏览器。

术业有专攻,过于复杂的爬虫还是交给专业小伙伴来做,自己抓紧进行研究设计和构思。

复杂到什么程度呢,下面举些例子:如果高频率发起请求,只是换换ip代码就还可以凑合用,那么还可以自己干

如果只是post几个数据,构建一些url,那么还可以自己干

如果只是构造Request Headers就可以蒙混过关抓数据,那么还可以自己干

如果……

如果已经需要应对复杂验证码,这个时候可以不自己整了

如果自己东拉西扯写了好几天,代码还没实现,这个时候可以不自己整了

可以跳过的工具R

R社区的小伙伴很热情,编了一些包,也可以爬虫。有些初学的小伙伴很激动,R可以爬虫啦。其实,爬虫不是R语言的强项。如果不是尝鲜,没有必要花时间去学习用R来实现爬虫。有多的时间可以深入学习数据分析手艺和撰写报告的手艺。Stata

Stata乃是实证小青年常用之利器,做起应用微观计量十分便捷,若是分析结果一路星星,那是何等的酣畅淋漓?

现在有小伙伴用Stata做爬虫,还做文本分析。其实只是做简单爬虫,稍微复杂点的网页或者是有点基本的反爬虫机制,Stata就难以应付了。所以,爬虫就不要去麻烦实证分析好伙伴Stata,交给其他更好的工具吧。curl

有微信文章推介用curl来爬虫。curl的官方介绍是“command line tool and library for transferring data with URLs”。只简单用过curl,个人认为在爬虫场景中它没有requests+bs4组合好用。……

其他工具

此外,还尝鲜过Julia(<1.0)和Node.js中的requests工具,但是感觉都不爽。这和个人的手艺不熟练?、工具生态不成熟有关。不过,Node.js写爬虫还是很好玩。

Go语言爬虫工具也有一些,可以后面去试试。

除了自己写代码,网上还有一些数据采集工具也可以尝试一下。

以上是对“拿数据,做实证,发文章”小伙伴的爬虫工具选择的看法,一家之言,仅供参考?

你可能感兴趣的:(python会计实证研究)