机器学习入门——加州房价问题

#加州房价数据集
import pandas as pd #导入Pandas,用于数据读取和处理
# 读入房价数据,示例代码中的文件地址为internet链接,读者也可以下载该文件到本机进行读取
# 如,当数据集和代码文件位于相同本地目录,路径名应为\"./house.csv\",或直接放\"house.csv\"亦可
df_housing = pd.read_csv("./house.csv")
df_housing.head #显示加州房价数据
print(df_housing)#打印

X = df_housing.drop("median_house_value",axis = 1)# 构建特征集x,用drop方法把最后一列median_house_value去掉,其他所有字段都是特征集X
y = df_housing.median_house_value #构建标签集y房价

from sklearn.model_selection import train_test_split #导入数据集拆分工具
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2, random_state=0) #以80%/20%的比例进行数据集的拆分,80%训练集,20%测试集

from sklearn.linear_model import LinearRegression #导入线性回归算法模型
model = LinearRegression() #使用线性回归算法
model.fit(X_train, y_train) #用训练集数据,训练机器,拟合函数,确定参数
y_pred = model.predict(X_test) #预测测试集的Y值
print ('房价的真值(测试集)',y_test)
print ('预测的房价(测试集)',y_pred)
print("给预测评分:", model.score(X_test, y_test)) #评估预测结果

#导入matplotlib画图库
# #用散点图显示家庭收入中位数和房价中位数的分布
import matplotlib.pyplot as plt
plt.scatter(X_test.median_income, y_test,  color='brown')#画出回归函数(从特征到预测标签)
plt.plot(X_test.median_income, y_pred, color='green', linewidth=1)
plt.xlabel('Median Income') #X轴-家庭收入中位数
plt.ylabel('Median House Value') #Y轴-房价中位数
plt.show() #显示房价分布和机器习得的函数图形

详细的解释在代码的注释中,这里就不赘述了。
运行结果:
机器学习入门——加州房价问题_第1张图片

机器学习入门——加州房价问题_第2张图片

你可能感兴趣的:(python,机器学习,机器学习,python,数据挖掘)