本文以初学者角度,介绍部分入门python爬虫到数据分析的常见工具,包含开发工具、API和python扩展库等
以下是python爬虫开发中较为常用的一些工具,包含开发工具PyCharm、网页请求API- requests库和Chrome浏览器+ XPath数据提取组合,对初学者来说都是比较容易上手的。
简介:PyCharm,是一款python IDE工具,非常适合初学者使用,它自带了一套帮助用户提高效率的工具,包含有版本控制、调试、智能提示、代码跳转等。
版本推荐:PyCharm Community社区版。
一是,PyCharm社区版是免费的,官网下载安装即可使用;
二是,PyCharm社区版本开放了适用于初学者及开发人员的几乎所有功能,几乎可以满足平时的所有使用。
requests是一个Python HTTP库,号称是“为人类准备的HTTP库”。
虽然python也自带了urllib和urllib2两个库,以提供功能强大的HTTP支持,但是使用起来不是很方便。
对于初学者,个人更推荐使用requests
一是,语法本身较为简洁简单,易上手;
二是,作为开源库,有很多的学习使用教程,使用起来效率也比较高。
安装语法:pip install requests
写爬虫程序,可用的浏览器和数据提取方式很多,其中Chrome浏览器+XPath数据提取组合,使用较多,也是较为直观和方便的。
推荐原因如下:
一是:Chrome浏览器,查看网页结构、定位网页元素和简单抓包找链接等都非常方便
二是:XPath,以路径表达式方式在网页源代码中选取节点,提取数据,语法较为简单
三是:在Chrome浏览器中,支持直接测试XPath路径表达式。这一点对初学者来说,是非常有利的,可以较为直观的测试自己的XPath路径表达式是否准确,是否提取到目标数据节点。
数据存储的方式有很多,但是就初学和实用来看,关系型数据库中,MySQL还是比较简单上手的。
一是:MySQL,作为一个关系型数据库管理系统,因为其免费,在互联网行业使用率非常高,资料也就十分的完善。
二是:MySQL+Navicat可视化组合使用,进行SQL语句的编写、测试都是十分方便和直观的。
Notepad++,在查看文本型数据(如txt文件)方面,相对于Windows自带记事本,功能更加强大。
特别是其支持正则表达式,对纯文本关键词模糊查找或替换都是十分方便的。
此外,它还是一款代码编辑工具,支持多种编程语言,涵盖C、Java、python等,可以提高程序编辑效率。
Jupyter Notebook是一个Web应用程序,支持python等多种编程语言
作为数据清理和转换、统计建模,数据可视化的工具,使用起来非常直观和方便。
常见2种安装方法:
一是,直接命令安装,pip install jupyter;
二是,安装开源的Python发行版本Anaconda,它会自带默认安装jupyter。
有时候在分析文本数据时,可能需要先进行翻译。
自8月1日,百度翻译API免费版开始限量
9月底,谷歌翻译中国版也停服了
可以免费调用的免费API越来越少了。
有道翻译,相对百度翻译来说,可以不注册账号,类似爬虫方式来获取翻译,使用起来还是比较方便。
-end-