【ML】pandas 处理数据中的非数字列

数据集

鸢尾花数据集:https://www.kaggle.com/datasets/himanshunakrani/iris-dataset

数据处理

查看数据的前几行

import numpy as np 
import pandas as pd 

origin_data = pd.read_csv("/kaggle/input/iris-dataset/iris.csv")
origin_data.head()

输出:

sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa

查看非数字列的数据分布

origin_data.loc[:,'species'].value_counts()

输出:

setosa        50
versicolor    50
virginica     50
Name: species, dtype: int64

这里我们知道去重后一共有三种数据,接下来我们将每个类型换为数字。

替换非数字列为数字列

data = origin_data.replace({'species':{'setosa':1,'versicolor':2,'virginica':3}})

你可能感兴趣的:(机器学习,python,pandas,python,数据分析)