机器学习— —导入数据、处理缺失值

DAY1

    • 集成开发环境
    • 原始数据展示
    • 主要函数介绍
      • data.iloc()函数
        • dataset.iloc[0]
        • dataset.iloc[:,:-1]
        • dataset.iloc[:,3]
        • dataset.iloc[1:3,1]
      • mean()
    • 可执行代码
    • 导入结果展示(缺失值处理前)
    • 缺失值处理后
    • 我的写在最后

集成开发环境

  • Spyder (前身是 Pydee) 是一个强大的交互式 Python 语言开发环境,提供高级的代码编辑、交互测试、调试等特性,支持包括 Windows、Linux 和 OS X 系统。
  • 下载Anaconda之后,打开Spyder环境:
    机器学习— —导入数据、处理缺失值_第1张图片
    机器学习— —导入数据、处理缺失值_第2张图片

原始数据展示

  • 是.csv文件
    机器学习— —导入数据、处理缺失值_第3张图片

主要函数介绍

data.iloc()函数

  • 属于pandas库,功能:从数据表中提出想要的数据。
  • 其中,i 表示只接受整型的参数;loc表示location。

机器学习— —导入数据、处理缺失值_第4张图片

dataset.iloc[0]

机器学习— —导入数据、处理缺失值_第5张图片

dataset.iloc[:,:-1]

机器学习— —导入数据、处理缺失值_第6张图片

dataset.iloc[:,3]

机器学习— —导入数据、处理缺失值_第7张图片

dataset.iloc[1:3,1]

取左不取右。
机器学习— —导入数据、处理缺失值_第8张图片

mean()

这个函数在excel中也表示用来求平均数。
机器学习— —导入数据、处理缺失值_第9张图片

可执行代码

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

dataset=pd.read_csv('Data.csv')
# 自变量包括所有的行,除最后一列之外的列
x=dataset.iloc[:,:-1]
# 因变量包括所有的行,最后一列
y=dataset.iloc[:,3]
# 处理缺失值
X['Age'] = X['Age'].fillna(X['Age'].mean()) #median
X['Salary'] = X['Salary'].fillna(X['Salary'].mean()) #median

导入结果展示(缺失值处理前)

机器学习— —导入数据、处理缺失值_第10张图片
机器学习— —导入数据、处理缺失值_第11张图片
机器学习— —导入数据、处理缺失值_第12张图片

缺失值处理后

机器学习— —导入数据、处理缺失值_第13张图片

我的写在最后

学习资料来自荔枝微课。

你可能感兴趣的:(机器学习,python实践,python,人工智能)