python进行数据科学的工作流程与常用的库

数据科学的工作流程:获取、检查和探索、清理和准备、建模、评估、部署。

   获取:常用的库是 python requests。启动方法—import requests。

   检查:(1)推荐使用jupyter记事本,这是一个全面交互的计算环境,它是一个基于Web的前端。启动方法—在Anaconda Prompt中输入jupyter notebook,会弹出一个网页,在new里面选择python3就会新建一个网页记事本。

        (2)pandas是一个卓越的数据分析工具,可以简单的调用并读取数据集且转化为CSV文件,且对数据集的切割与选择有很多快捷方式。

   可视化数据:(1)matplotlib库,这个有点类似MATLAB中的可视化操作

              (2)seaborn库,Seaborn是建立在matplotlib之上的。

   准备:(1)map。map方法适用于序列数据,可以对数据用3字母等代码系统重新进行编码,常用python字典作为其替换参数,适用于数据的单列转变。

(2) apply。apply可以在数据框中创建新的列,适用于数据框,比如对让两列数据的每一行对应相乘得到新的一列。

(3) applymap。applymap适用于对数据框里所有的数据单元执行一个函数。常用用法是根据一定的条件标准来转变或格式化每一个单元。

  (4) groupby。groupby基于某些你所选择的类别对数据进行分组。

   建模和评估:(1) statsmodels是用于探索数据。估计模型,并运行统计检验的python包,可以构造线性回归等标准统计建模。

              (2) scikit-learn是python机器学习包中的王者,scikit-learn覆盖的一些领域包括分类、回归、聚类、降维、模型选择和预处理。

    numpy也是常用的库

你可能感兴趣的:(python)