机器学习Pandas的简单使用

欢迎来到机器学习的世界 
博客主页:卿云阁 

欢迎关注点赞收藏⭐️留言

本文由卿云阁原创!

本阶段属于练气阶段,希望各位仙友顺利完成突破

首发时间:2021年3月18日

✉️希望可以和大家一起完成进阶之路!

作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


目录

一、Pandas的介绍

二 、Pandas的使用

三 、Pandas教程

机器学习Pandas的简单使用_第1张图片

一、Pandas的介绍

  • 2008年WesMcKinney开发出的库
  • 专门用于数据挖掘的开源python库
  • 以Numpy为基础,借力Numpy模块在计算方面性能高的优势
  • 基于matplotlib,能够简便的画图
  • 独特的数据结构

(1).head()可以读取前几条数据,指定前几条都可以

import pandas as pd
df = pd.read_csv('D://iris.csv')
df.head(6)

机器学习Pandas的简单使用_第2张图片

 (2).info返回当前的信息

df.info()


结果:

RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Sepal.Length  150 non-null    float64
 1   Sepal.Width   150 non-null    float64
 2   Petal.Length  150 non-null    float64
 3   Petal.Width   150 non-null    float64
 4   Species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

 (3)索引列和名

df.index


结果:
RangeIndex(start=0, stop=891, step=1
df.columns #列名

结果:
Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width',
       'Species'],
      dtype='object')
df.dtypes

结果:
Sepal.Length    float64
Sepal.Width     float64
Petal.Length    float64
Petal.Width     float64
Species          object
dtype: object
df.values #数值

结果:
array([[5.1, 3.5, 1.4, 0.2, 'setosa'],
       [4.9, 3.0, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.6, 1.4, 0.2, 'setosa'],
       [5.4, 3.9, 1.7, 0.4, 'setosa'],
       [4.6, 3.4, 1.4, 0.3, 'setosa'],
       [5.0, 3.4, 1.5, 0.2, 'setosa'],
       [4.4, 2.9, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.1, 'setosa'],
       [5.4, 3.7, 1.5, 0.2, 'setosa'],
       [4.8, 3.4, 1.6, 0.2, 'setosa'],
       [4.8, 3.0, 1.4, 0.1, 'setosa'],
       [4.3, 3.0, 1.1, 0.1, 'setosa'],
       [5.8, 4.0, 1.2, 0.2, 'setosa'],
       [5.7, 4.4, 1.5, 0.4, 'setosa'],
       [5.4, 3.9, 1.3, 0.4, 'setosa'],
       [5.1, 3.5, 1.4, 0.3, 'setosa'],
       [5.7, 3.8, 1.7, 0.3, 'setosa'],
       [5.1, 3.8, 1.5, 0.3, 'setosa'],
       [5.4, 3.4, 1.7, 0.2, 'setosa'],
       [5.1, 3.7, 1.5, 0.4, 'setosa'],
       [4.6, 3.6, 1.0, 0.2, 'setosa'],
       [5.1, 3.3, 1.7, 0.5, 'setosa'],
       [4.8, 3.4, 1.9, 0.2, 'setosa'],
       [5.0, 3.0, 1.6, 0.2, 'setosa'],
       [5.0, 3.4, 1.6, 0.4, 'setosa'],
       [5.2, 3.5, 1.5, 0.2, 'setosa'],
       [5.2, 3.4, 1.4, 0.2, 'setosa'],
       [4.7, 3.2, 1.6, 0.2, 'setosa'],
       [4.8, 3.1, 1.6, 0.2, 'setosa'],
       [5.4, 3.4, 1.5, 0.4, 'setosa'],
       [5.2, 4.1, 1.5, 0.1, 'setosa'],
       [5.5, 4.2, 1.4, 0.2, 'setosa'],
       [4.9, 3.1, 1.5, 0.2, 'setosa'],
       [5.0, 3.2, 1.2, 0.2, 'setosa'],
       [5.5, 3.5, 1.3, 0.2, 'setosa'],
       [4.9, 3.6, 1.4, 0.1, 'setosa'],
       [4.4, 3.0, 1.3, 0.2, 'setosa'],
       [5.1, 3.4, 1.5, 0.2, 'setosa'],
       [5.0, 3.5, 1.3, 0.3, 'setosa'],
       [4.5, 2.3, 1.3, 0.3, 'setosa'],
       [4.4, 3.2, 1.3, 0.2, 'setosa'],
       [5.0, 3.5, 1.6, 0.6, 'setosa'],
       [5.1, 3.8, 1.9, 0.4, 'setosa'],
       [4.8, 3.0, 1.4, 0.3, 'setosa'],
       [5.1, 3.8, 1.6, 0.2, 'setosa'],
       [4.6, 3.2, 1.4, 0.2, 'setosa'],
       [5.3, 3.7, 1.5, 0.2, 'setosa'],
       [5.0, 3.3, 1.4, 0.2, 'setosa'],
       [7.0, 3.2, 4.7, 1.4, 'versicolor'],
       [6.4, 3.2, 4.5, 1.5, 'versicolor'],
       [6.9, 3.1, 4.9, 1.5, 'versicolor'],
       [5.5, 2.3, 4.0, 1.3, 'versicolor'],
       [6.5, 2.8, 4.6, 1.5, 'versicolor'],
       [5.7, 2.8, 4.5, 1.3, 'versicolor'],
       [6.3, 3.3, 4.7, 1.6, 'versicolor'],
       [4.9, 2.4, 3.3, 1.0, 'versicolor'],
       [6.6, 2.9, 4.6, 1.3, 'versicolor'],
       [5.2, 2.7, 3.9, 1.4, 'versicolor'],
       [5.0, 2.0, 3.5, 1.0, 'versicolor'],
       [5.9, 3.0, 4.2, 1.5, 'versicolor'],
       [6.0, 2.2, 4.0, 1.0, 'versicolor'],
       [6.1, 2.9, 4.7, 1.4, 'versicolor'],
       [5.6, 2.9, 3.6, 1.3, 'versicolor'],
       [6.7, 3.1, 4.4, 1.4, 'versicolor'],
       [5.6, 3.0, 4.5, 1.5, 'versicolor'],
       [5.8, 2.7, 4.1, 1.0, 'versicolor'],
       [6.2, 2.2, 4.5, 1.5, 'versicolor'],
       [5.6, 2.5, 3.9, 1.1, 'versicolor'],
       [5.9, 3.2, 4.8, 1.8, 'versicolor'],
       [6.1, 2.8, 4.0, 1.3, 'versicolor'],
       [6.3, 2.5, 4.9, 1.5, 'versicolor'],
       [6.1, 2.8, 4.7, 1.2, 'versicolor'],
       [6.4, 2.9, 4.3, 1.3, 'versicolor'],
       [6.6, 3.0, 4.4, 1.4, 'versicolor'],
       [6.8, 2.8, 4.8, 1.4, 'versicolor'],
       [6.7, 3.0, 5.0, 1.7, 'versicolor'],
       [6.0, 2.9, 4.5, 1.5, 'versicolor'],
       [5.7, 2.6, 3.5, 1.0, 'versicolor'],
       [5.5, 2.4, 3.8, 1.1, 'versicolor'],
       [5.5, 2.4, 3.7, 1.0, 'versicolor'],
       [5.8, 2.7, 3.9, 1.2, 'versicolor'],
       [6.0, 2.7, 5.1, 1.6, 'versicolor'],
       [5.4, 3.0, 4.5, 1.5, 'versicolor'],
       [6.0, 3.4, 4.5, 1.6, 'versicolor'],
       [6.7, 3.1, 4.7, 1.5, 'versicolor'],
       [6.3, 2.3, 4.4, 1.3, 'versicolor'],
       [5.6, 3.0, 4.1, 1.3, 'versicolor'],
       [5.5, 2.5, 4.0, 1.3, 'versicolor'],
       [5.5, 2.6, 4.4, 1.2, 'versicolor'],
       [6.1, 3.0, 4.6, 1.4, 'versicolor'],
       [5.8, 2.6, 4.0, 1.2, 'versicolor'],
       [5.0, 2.3, 3.3, 1.0, 'versicolor'],
       [5.6, 2.7, 4.2, 1.3, 'versicolor'],
       [5.7, 3.0, 4.2, 1.2, 'versicolor'],
       [5.7, 2.9, 4.2, 1.3, 'versicolor'],
       [6.2, 2.9, 4.3, 1.3, 'versicolor'],
       [5.1, 2.5, 3.0, 1.1, 'versicolor'],
       [5.7, 2.8, 4.1, 1.3, 'versicolor'],
       [6.3, 3.3, 6.0, 2.5, 'virginica'],
       [5.8, 2.7, 5.1, 1.9, 'virginica'],
       [7.1, 3.0, 5.9, 2.1, 'virginica'],
       [6.3, 2.9, 5.6, 1.8, 'virginica'],
       [6.5, 3.0, 5.8, 2.2, 'virginica'],
       [7.6, 3.0, 6.6, 2.1, 'virginica'],
       [4.9, 2.5, 4.5, 1.7, 'virginica'],
       [7.3, 2.9, 6.3, 1.8, 'virginica'],
       [6.7, 2.5, 5.8, 1.8, 'virginica'],
       [7.2, 3.6, 6.1, 2.5, 'virginica'],
       [6.5, 3.2, 5.1, 2.0, 'virginica'],
       [6.4, 2.7, 5.3, 1.9, 'virginica'],
       [6.8, 3.0, 5.5, 2.1, 'virginica'],
       [5.7, 2.5, 5.0, 2.0, 'virginica'],
       [5.8, 2.8, 5.1, 2.4, 'virginica'],
       [6.4, 3.2, 5.3, 2.3, 'virginica'],
       [6.5, 3.0, 5.5, 1.8, 'virginica'],
       [7.7, 3.8, 6.7, 2.2, 'virginica'],
       [7.7, 2.6, 6.9, 2.3, 'virginica'],
       [6.0, 2.2, 5.0, 1.5, 'virginica'],
       [6.9, 3.2, 5.7, 2.3, 'virginica'],
       [5.6, 2.8, 4.9, 2.0, 'virginica'],
       [7.7, 2.8, 6.7, 2.0, 'virginica'],
       [6.3, 2.7, 4.9, 1.8, 'virginica'],
       [6.7, 3.3, 5.7, 2.1, 'virginica'],
       [7.2, 3.2, 6.0, 1.8, 'virginica'],
       [6.2, 2.8, 4.8, 1.8, 'virginica'],
       [6.1, 3.0, 4.9, 1.8, 'virginica'],
       [6.4, 2.8, 5.6, 2.1, 'virginica'],
       [7.2, 3.0, 5.8, 1.6, 'virginica'],
       [7.4, 2.8, 6.1, 1.9, 'virginica'],
       [7.9, 3.8, 6.4, 2.0, 'virginica'],
       [6.4, 2.8, 5.6, 2.2, 'virginica'],
       [6.3, 2.8, 5.1, 1.5, 'virginica'],
       [6.1, 2.6, 5.6, 1.4, 'virginica'],
       [7.7, 3.0, 6.1, 2.3, 'virginica'],
       [6.3, 3.4, 5.6, 2.4, 'virginica'],
       [6.4, 3.1, 5.5, 1.8, 'virginica'],
       [6.0, 3.0, 4.8, 1.8, 'virginica'],
       [6.9, 3.1, 5.4, 2.1, 'virginica'],
       [6.7, 3.1, 5.6, 2.4, 'virginica'],
       [6.9, 3.1, 5.1, 2.3, 'virginica'],
       [5.8, 2.7, 5.1, 1.9, 'virginica'],
       [6.8, 3.2, 5.9, 2.3, 'virginica'],
       [6.7, 3.3, 5.7, 2.5, 'virginica'],
       [6.7, 3.0, 5.2, 2.3, 'virginica'],
       [6.3, 2.5, 5.0, 1.9, 'virginica'],
       [6.5, 3.0, 5.2, 2.0, 'virginica'],
       [6.2, 3.4, 5.4, 2.3, 'virginica'],
       [5.9, 3.0, 5.1, 1.8, 'virginica']], dtype=object)

(4)自己创建一个dataframe结构

data = {'country':['aaa','bbb','ccc'],#国家
       'population':[10,12,14]}       #人口
df_data = pd.DataFrame(data)
df_data

机器学习Pandas的简单使用_第3张图片

(5)取指定的数据

age = df['Age']
age[:5]

结果:
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

二 、Pandas的使用

1.将红酒数据转换为 pandas DataFrame

DataFrame 可以方便地处理像 Excel 工作表那样的二维数据。 df_X DataFrame 形式的特
征值。 下面的代码调用 head 方法输出了数据集前 5 行的数据 ,用于查看数据集中包含了什 么样的数据。
import pandas as pd
from sklearn.datasets import load_wine
data=load_wine()
df_X = pd.DataFrame(data.data, columns=data.feature_names)
df_X.head(5)

2.接下来看一下转换后的数据。做法和刚才相同:调用 head
法。 df_y 是名副其实的目标变量数据。
df_y = pd.DataFrame(data.target, columns=["kind(target)"])
df_y.head(5)

机器学习Pandas的简单使用_第4张图片

 3.我们将这些数据合并在一起。下面使用 pandas 的 concat 将特征值 df_X 和目标变量 df_y 合并。

df=pd.concat([df_X,df_y],axis=1)
df.head(5)

机器学习Pandas的简单使用_第5张图片

直方图的形式输出的 alcohol 列的数据。由于下面的代码没有指定 bins 参数,所
以程序使用默认的参数值 10 ,输出了有 10 个区间的直方图。
import matplotlib.pyplot as plt
plt.hist(df.loc[:,"alcohol"])

机器学习Pandas的简单使用_第6张图片

下面的代码使用 corr 方法汇总计算并输出了相关系数(表 1-12 )。相关系数越接近于 1 ,越表 明数据之间是正相关关系;越接近于 -1 ,越表明数据之间是负相关关系。换言之,如果相关系数在 0 左右,表明数据列之间的相关性很低。
df.corr()

机器学习Pandas的简单使用_第7张图片

describe 方法用于输出每列的统计信息。输出的统计信息从上到下依次为行数、平均值、标
准差、最小值、 25 百分位数、中位数、 75 百分位数、最大值 。从统计信息可以看出每列 包含的数据具有何种特性、有没有缺损等信息。
机器学习Pandas的简单使用_第8张图片

使用 scatter_matrix 输出散点图矩阵。这里将 14 列全都输出了出来

from pandas.plotting import scatter_matrix
_ = scatter_matrix(df, figsize=(15, 15))

 机器学习Pandas的简单使用_第9张图片

下列代码输出的是从所有散点图矩阵中选出的索引为 0 的列、索引为 9 的列和最后一列的关联性。通过像这样减少散点图矩阵输出的列,能够看出更细致的情况.

机器学习Pandas的简单使用_第10张图片


三 、Pandas教程

https://www.runoob.com/pandas/pandas-install.html

你可能感兴趣的:(人工智能,python)