Python数据分析之理论知识
也是比较理论类的知识点,可以看看
人自然智能、人工智能、机器学习、深度学习之间的关系,它们是(包含)关系,同时是(部分继承)关系。
人自然智能、人工智能、机器学习、深度学习的英文缩写分别是(NI)、(AI)、(ML)、(DL)。
本书将要学习的Python六大第三方库是(Jupyter)、(Numpy)、(Scipy)、(Pandas)、(Scikit-learn)、(Matplotlib)。
基于Python语言的第三方库支持(Windows)、(Linux)、(Mac)操作系统下的使用。
数据处理流程从项目角度,它涉及(产生)、(获取)、(规整)、(分析)、(应用)、(反馈**)**六大环节。
Jupyter Notebook是广受科学家、数据工程师、人工智能工程师喜欢的一款(探索)式的代码调试及数据处理工具。
新建最新版本的Python代码文件,需要先选择(Python3)内核。
在Jupyter Notebook上运行代码可以通过点(运行)快捷按钮或直接在单元格里输入(Shift+Enter)快命令来执行。
若想知道代码开发文件存放的具体位置,可以用(%pwd)魔法命令。
(lower())方法实现字符串里英文字母的小写化,(upper())方法实现字符串里英文字母的大写化。
(figure)是绘图框架——画板,(axes)是绘图区域——画纸,(plot())是画笔。
.Matplotlib支持(直角)坐标系、(极)坐标系。
Matplotlib提供了(text())、(arrow())、(annotate())三种常见的标注方法。
(Figure())可以指定多绘图框架,(subplot())可以指定多绘图区域。
在三维空间可以用(scatter())绘制散点,用(plot3D)绘制线,用(plot_surface)绘制三维上的一个平面。
Matplotlib库工程化主体通过(Web)项目、(GUI)项目两种方式的结合来实现。
带索引的一维数据对象用(Series())创建,带索引的二维数据对象用(DataFrame())创建。
对DataFrame的数据修改可以通过(iloc)属性、用(Series)值修改指定列值、用(where())方法修改符合条件的数据。
在Pandas里缺失数据用(NaT)、(NaN)、(nan)等来表示。
Pandas为不同DataFrame对象的合并,提供了merge()函数,其合并方法为(left)、(right)、(outer)、(inner)
Scikit-learn库所提供的模型采用的统一的使用方法,(fit())方法用于训练模型,(predict())方法用于预测模型、(score())方法用于预测准确度的评分。