Python数据分析基础入门(二)

Python数据分析基础入门(二)

    • python数据分析第三方库介绍
    • Numpy
    • Scipy
    • Pandas
    • Scikit-Learn

python数据分析第三方库介绍

Python本身数据分析功能不强,需要安装一些第三方库来增强它的能力,一般用的的库有Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras和Gensim等。

Numpy

虽然列表可以完成基本的数组功能,但它不是真正的数组,而在数据量较大时,使用列表的速度会非常慢。因此,Numpy提供了真正的数组功能。值得强调的是,Numpy内置的函数处理数据的速度是C语言级别的,因此编程时,应尽量使用它们内置的函数。

代码1 Numpy基本操作
# -*- coding:utf-8 -*
import numpy as np
a = np.array([2,0,1,5]) #创建一维数组
print(a)
print(a[:3]) #输出数组前三个数值
print(a.min()) #输出数组中最小值
a.sort() #将a中元素从小到大排序
b = np.array([[1,2,3],[4,5,6]])
print(b*b)

Scipy

Numpy提供了多维数组的功能,但只是一般数组,不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理以及图像处理、常微分方程求解和其他科学与工程中常用计算。
Scipy依赖于Numpy。

代码2 Scipy基本操作
# -*- coding:utf-8 -*
from scipy.optimize import fsolve
def f(x): #定义求解方程
	x1 = x[0]
	x2 = x[1]
	return [2*x1 - x2**2 -1,x1**2 - x2 -2]
result = fsove(f,[1,1])
print(result) #输出结果,为array([1.91963957,1.68501606])
from scipy import integrate
def g(x):
	return (1-x**2)**0.5
pi_2,err = integrate.quad(g,-1,1)

Pandas

Pandas功能非常强大,支持类似于SQL的数据增、删、查、改,并带有丰富的数据处理函数;支持时间序列分析功能;支持处理缺失数据等。
pandas基本数据结构是Series和DataFrame,Series就是 序列,类似于一维数组;Dataframe相当于一张二维的表格,类似于二维数组。

代码3 Pandas基本操作
import pandas as pd 
s = pd.Series([1,2,3],index=['a','b','c']) #创建一个序列s
d = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c']) #创建一个表
pd.read_csv('data.csv',encoding = 'utf-8') #读取csv文件,一般用encoding指定编码
pd.read_excel('data.xls') #读取Excel文件,创建DataFrame

Scikit-Learn

Scikit-Learn是python下强大的机器学习工具包,包括数据预处理、分类、回归、聚类、预测和模型分析等。
创建一个机器学习很简单:

代码4 Scikit-Learn基本操作
from sklearn.linear_model import LinearRegression #导入线性回归模型
model = LinearRegression() #建立线性回归模型
model.fit(X,y) #训练监督模型
model.predict(X_new) #预测新样本

你可能感兴趣的:(python数据分析与挖掘实战)