Pandas 笔记 (一)

Pandas 笔记

# Pandas 提供高性能、易于使用的数据结构和数据分析工具
# Pandas 可以从 CSV、JSON、SQL、MICROSOFTEXCEL 导入数据
# Pandas 可以对各种数据进行运算操作,比如归并、再形成、选择、还有数据清洗和特征加工
# Pandas 主要数据结构是 Series (一维数据) 与 DataFrame (二维数据)
# Series 是一种类似于一维数组的对象,它由一组数据 (各种 Numpy 数据类型) 以及一组与之对应的
# 数据标签 (即索引) 组成。
# DataFrame 是一种表格形式的数据结构,它含有一组有序的列,每列可以是不同的值类型 (数值、字符串、
# 布尔类型)。 DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典 (共同用一个索引)。

import pandas as pd

print(pd.__version__)

mydataset = {
    'sites' : ["Google", "Runoob", "Wiki"],
    'number' : [1, 2, 3]
}

myvar = pd.DataFrame(mydataset)

print(myvar)

'''
Pandas Series 类似表格中的一个列 (column),类似于一维数组,可以保存任何数据类型
Series 由索引 (index) 和列组成
pandas.Series(data, index, dtype, name, copy)
    data    一维数组 (ndarray 类型)
    index   数据索引标签,如果不指定,默认从 0 开始
    dtype   数据类型
    name    设置名称
    copy    拷贝数据,默认为 false
'''

a = [1, 2, 3]
myvar = pd.Series(a)
print(myvar)

'''
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型 (数值、字符串、
布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典 (共用一个索引)。

    idx  Column-1  Column-2  ...  Column-k
    ...   ...      ...       ...  ...
    
pandas.DataFrame(data, index, columns, dtype, copy)
    data    一组数据 (ndarry、series、map、lists、dict 等类型)
    index   索引值,或者可以称为行标签
    columns 列标签,默认为 RangeIndex (0, 1, 2, 3, ..., n)
    dtype   数据类型
    copy    拷贝数据,默认为 false    
'''

data = [
    ['Google', 10], ['Runoob', 12], ['Wiki', 13]
]

df = pd.DataFrame(data, columns = ['Site', 'Age'], dtype = float)
print(df)

# Pandas 可以使用 loc 属性返回指定行的数据
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)

# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

# Pandas 读取 csv  文件
df = pd.read_csv('nba.csv')
print(df)
print(df.to_string())

# 可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件

# head 方法用于读取前面 n 行,如果不填参数 n,默认返回 5 行
# tail 方法用于读取末尾的 n 行,默认为 5 行
# info 返回表格的一些基本信息
print(df.head())
print(df.info())

# pandas 处理 json
URL = 'https://static.runoob.com/download/sites.json'
df = pd.read_json(URL)
print(df)

# 数据清洗是对一些没有用的数据进行处理的过程
# 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要对使数据分析更加准确,
# 就需要对这些没有用的数据进行处理
# dropna 删除包含空字段的行
# fillna 来替换一些空字符
# mean median mode 方法计算列的均值、中位数值和众数
# to_datetime 格式化日期
# duplicated 清洗重复数据


你可能感兴趣的:(DL,&,ML,c++,python,矩阵)