python数据挖掘实战 -数据预处理篇(数据可视化-空值填充-哑变量编码)

数据预处理包含:数据盘点-数据可视化分析-空值填充-数据编码
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
import time
import pandas as pd
import numpy as np

1.获取数据
train_df = pd.read_csv(‘…/input/train.csv’)
2.数据概览
df.info()
df.describe()
df.head()
3.数据可视化
(1)df[‘label’].value_counts().plot.pie(autopct=’%1.1f%%’)
python数据挖掘实战 -数据预处理篇(数据可视化-空值填充-哑变量编码)_第1张图片
(2)df.groupby([‘X1’,‘Label’])[‘Label’].count()
X1 Y
female 0 81
1 233
male 0 468
1 109

(3)df[[‘X1’,‘Y’]].groupby([‘X1’]).mean(

你可能感兴趣的:(数据建模,BI,人工智能技术)