小白学(Python数据分析与数据运营)的日常杂记2

数据化运营所需的Python相关工具和组件

1. Python程序

  • Python仍然是两个系列的版本并存Python 2和Python 3这两个版本的语法不完全兼容

2. Python IDE工具——PyCharm。

3.Python第三方库——交互开发库、科学计算库、机器学习库、自然语言库、数据库连接库、图像处理库、网络爬虫库、图像展示库等

  • 交互开发库——IPython
  • 科学计算库——Numpy(Numeric Python)是Python科学计算的基础工具包,快速高效的多维数组ndarray,大多数Python的多维数据组都是基于Numpy进行处理的。Numpy和稀疏矩阵运算包Scipy配合使用更加方便。在Python或IPython中导入库后通过__version__属性查看:在python环境下print(numpy.__version__)
  • Scipy(Scientific Computing Tools for Python)是一组专门解决科学和工程计算不同场景的主题工具包,主要功能包括:数值积分和微分方程求解器。扩展了有numpy.linal的线性代数历程和矩阵分解功能。函数优化器(最小化器)以及根查找方法。信号处理工具。系数矩阵和系数线性系统求解器。
  • Pandas:(Python Data Analysis Library)是一个用于Python数据分析的库,它的主要作用是进行数据分析,Pandas提供用于进行结构化数据分析的二维表格型数据结构DataFrame,类似于R中的数据框,能提供类似数据库中的切片、切块、聚合、选择子集等精细化操作,为数据分析提供了便捷。另外,Pandas还提供了时间序列功能,用于金融行业的数据分析。
  • Statsmodels:是Python统计建模和计量经济学的工具包,包括一些描述性统计、统计模型估计和统计测试,集成了多种线性回归模型、广义线性回归模型、离散数据分布模型、时间序列分析模型、非参数估计、生存分析、主成分分析、核密度估计以及广泛的统计测试和绘图等功能。
  • 机器学习库——scikit-learn:又称Sklearn是一个基于Python的机器学习综合库,内置监督式学习和非监督式学习两类机器学习方法,包括各种回归、K近邻、贝叶斯、决策树、混合高斯模型、聚类、分类、流式学习、人工神经网络、集成方法等主流算法,同时支持预置数据集、数据预处理、模型选择和评估等方法,是一个非常完整的机器学习工具库。scikit-learn是Python数据挖掘和机器学习的主要库之一。
  • 自然语言处理库: 
    • 结巴分词:由于NLTK本身不支持中文分词,因此在针对中文的处理过程中,我们会引入其他分词工具,例如结巴分词。结巴分词是国内的Python文本处理工具包,分词模式分为三种:精确模式、全模式和搜索引擎模式。结巴分词支持繁体分词、自定义词典等,是非常好的Python中文分词解决方案,可以实现分词、词典管理、关键字抽取、词性标注等。结巴分词的安装直接使用pip install jieba命令即可。安装成功之后,在IPython中输入import jieba时,若不报错则说明该库已经成功安装并导入。
    • Gensim:Gensim是一个专业的主题模型(主题模型发掘文字中隐含主题的一种统计建模方法)Python工具包,用来提供可扩展统计语义、分析纯文本语义结构以及检索语义上类似的文档等功能。Gensim的安装直接使用pip  install  gensim命令即可。安装成功之后,在IPython中输入import gensim时,若不报错则说明该库已经成功安装并导入。
  • 其他不在这里一一赘述

你可能感兴趣的:(小白学(Python数据分析与数据运营)的日常杂记2)