Python

1.安装H2o

cmd:输入pip install h2o

Python_第1张图片

2.启动

python
import h2o
h2o.init()

Python_第2张图片

启动成功之后可以在浏览器中输入:localhost:54321
Python_第3张图片

3.数据准备

使用到的数据在我的github
Python_第4张图片

3.建模

a.读入数据
Python_第5张图片

Python_第6张图片

b.解析文件
Python_第7张图片

c.查看Job
Python_第8张图片

d.创建模型
Python_第9张图片

e.选择随机森林
Python_第10张图片
f.选择特征,响应列,其他参数按需调整
Python_第11张图片
g.参数填好之后,建模

Python_第12张图片

h.查看Job
Python_第13张图片
i.随机森林数的数量与trainlogloess之间的关系
Python_第14张图片
j.各个属性的重要程度
Python_第15张图片

4.分类

a.导入测试集
Python_第16张图片
b.接下来几个步骤建模时候的一样,这里就不赘述
c.预测
Python_第17张图片

Python_第18张图片

d.分类结果
Python_第19张图片

e.将分类结果与测试集合并
Python_第20张图片

f.将合并结果导出
Python_第21张图片

Python_第22张图片

进度条跑到百分之百就说明导出成功
Python_第23张图片

得到的结果,比之前的测试集多了三列

Python_第24张图片

5.使用IDE的代码编写


# coding: utf-8

# In[1]:

import h2o
h2o.init()


# In[75]:

trainFrame =h2o.import_file("C:\\Users\\gpwner\\Desktop\\train.csv")[2:]
names=trainFrame.col_names[:-1]
response_column = 'Catrgory'


# In[37]:

from h2o.estimators import H2ORandomForestEstimator
# Define model
model = H2ORandomForestEstimator(ntrees=50, max_depth=20, nfolds=10)
model.train(x=names,y=response_column,training_frame=trainFrame)


# In[84]:

testdata =h2o.import_file("C:\\Users\\gpwner\\Desktop\\test.csv")[2:]
pre_tag=H2ORandomForestEstimator.predict(model ,testdata)
pre_tag['predict']
resultdata=testdata.cbind(pre_tag['predict'])
resultdata
h2o.download_csv(resultdata,"C:\\Users\\gpwner\\Desktop\\predict.csv")


# In[82]:

from __future__ import division
correct=resultdata[resultdata['Catrgory']==resultdata['predict']]
print(float(len(correct)/len(resultdata)))

你可能感兴趣的:(python)