python数据处理代码_Python----数据预处理代码实例

1. 导入标准库导入numpy尽可能npimport pltimport熊猫pd 2。导入数据集的数据集= _csv(数据(1). csv) # read_csv:读csv文件#创建一个包含所有的独立变量矩阵,和因素变量向量# iloc意味着选择一个特定的行和列的数据集;逗号前意味着行,下面列;结肠意味着选择所有,没有冒号,这意味着选择列;值意味着选择数据的数据集。X = [:,: 1]。值#选择数据,不要选择最后一列。y = (: 3)。值#选择数据,选择第三列数据的每一行3。缺失的数据从进口输入#数据挖掘和数据分析标准库,输入缺失数据处理#输入参数:missing_values缺失的数据,定义如何识别的实际数据,默认值:南;

轴= 0 = 1需要行输入=输入需要列(missing_values =\u2018南\u2019,策略=\u201C的意思是\u201D,轴= 0)输入= (X[: 1:3]) #配件fitX [: 1:3] = (X [: 1: 3]) 4。分类数据导入LabelEncoder OneHotEncoderlabelencoder_X = LabelEncoder () X (: 0) = labelencoder__transform (X [: 0]) onehotencoder = onehotencoder (categorical_features = [0]) _transform (X) .

将数据集分为训练集和测试集_selection进口train_test_splitX_train X_test, y_train y_test = train_test_split (X, y, test_ random_state = 0)# X_train(训练集的变量)这个词,X_test(变量的测试设置这个词),y_train(训练集)的因变量,y_test(训练集的因变量)#训练集的比例,在某些情况下也可以分配1\/3的数据给出了训练集;的比例train_size训练集# random_state决定随机数生成的方法,和数据是随机分配给训练集和测试集;当random_state是相同的,相同的训练集和测试集将获得6 Feature扩展#特性(两种方式:一是:标准化;

数据预处理模板(1)导入标准库(2)导入数据集(3)失踪,很少遇到分类(4)将数据集分为训练集和测试集(5)特性的扩展,不需要在大多数情况下,但功能扩展在某些情况下是必需的

你可能感兴趣的:(python数据处理代码)