动手学深度学习(pytorch版)第二章-2.2数据预处理Note-pandas

1. 创建 

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

os.makedirs(): 创建一个文件夹, 括号里是路径
os.path.join('..', 'data'): 把括号里的路径组合起来, '..'指的是本代码文件的上一级目录, data即为要创建的文件夹
exist_ok=True: 意思是即使data文件夹已经存在了也不会报错

尽管文件夹里还没有csv文件, 但是我们可以先创建一个指向csv文件的路径
os.path.join可以把路径和文件名组合在一起
csv文件指的是只用逗号分隔的文件

with open(路径+文件名, 模式) as 变量: 以某种方式打开该文件, 模式 r表示只读模式, w表示写入模式, a表示追加模式(都是写内容, w是覆盖, a是添加)
变量会接收文件这个对象, 在后续操作用变量名代替即可
如果该文件不存在并且模式是w或者a, 那么with open函数会在该路径下自动创建该文件, 如果是r则会报错
NA在pandas里面表示缺失值, 对于数值数据pandas也会用浮点值NaN表示缺失值; None是python内置的缺失值

pd.read_csv(): 读取一个csv文件并将其转换为一个Pandas数据框的函数
数据框可以看作是一个二维的数组或矩阵

csv文件的可视化: 

动手学深度学习(pytorch版)第二章-2.2数据预处理Note-pandas_第1张图片 

动手学深度学习(pytorch版)第二章-2.2数据预处理Note-pandas_第2张图片

2.读入

import pandas as pd

data = pd.read_csv(data_file)
print(data)
/*
output:
   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000
*/

3.处理缺失值

  “NAN”项代表缺失值。处理缺失数据的典型方法包括插值法和删除法,其中插值法用一个替代值弥补缺失值,删除法则直接忽略缺失值。这里使用插值法。

  通过位置索引iloc,将data分成inputs和outputs,其中前者为data的前两列,后者为data最后一列。对于inputs中缺少的数值,用同一列的均值替换“NAN”项。这里的2替换成-1也可以。通过.fillna()填充空值。.mean()求平均值,inputs只有第一列可求平均值,所以不写。

  对于inputs中的类别值或离散值,将“NAN”视为一个类别。由于“巷子类型”(“Alley”)列只接受两种类型的类别值"Pave"和“NaN",pandas可以自动将此列转换为两列”Alley_Pave"和“Alley_nan"。巷子类型为"Pave"的行会将”Alley_Pave"的值设置为1,“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。用.get_dummies()来生成两列one-hot,保留分类变量中的缺失值,将其单独作为一列,加dummy_na= True,处理过后就会分为两列,由值0,1来表示类型。
 

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
/*
output:
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
*/
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)
/*
   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1
*/

4 .转换为张量格式

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y
/*
output:
(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))
*/

 

你可能感兴趣的:(深度学习,pytorch,人工智能)