大作业
一、boston房价预测
1. 读取数据集
from sklearn.datasets import load_boston boston=load_boston() boston.data #读取房价数据 boston.target boston.data.shape
结果:
2. 训练集与测试集划分
from sklearn.model_selection import train_test_split #导入训练集和测试集包 x_train,x_test,y_train,y_test=train_test_split(boston.data,boston.target,test_size=0.3) #划分为测试集为0.3 ,训练集为0.7
3. 线性回归模型:建立13个变量与房价之间的预测模型,并检测模型好坏。
from sklearn.linear_model import LinearRegression #导入线性回归的包 LineR=LinearRegression() #线性回归 LineR.fit(x_train,y_train) #训练集
print(LineR.coef_,LineR.intercept_) #回归方程的斜率和截距
from sklearn.metrics import regression # 检测模型好坏 y_pred= LineR.predict(x_test) print("预测的均方误差:", regression.mean_squared_error(y_test,y_pred)) # 模型的预测指标 print("预测的平均绝对误差:", regression.mean_absolute_error(y_test,y_pred)) print("模型的分数:",LineR.score(x_test, y_test)) # 输出模型的分数
结果:
4. 多项式回归模型:建立13个变量与房价之间的预测模型,并检测模型好坏。
from sklearn.preprocessing import PolynomialFeatures poly=PolynomialFeatures(degree=2) x_poly_train=poly.fit_transform(x_train) LineR=LinearRegression() #建立多项回归模型 LineR.fit(x_poly_train,y_train) x_poly_test=poly.transform(x_test) #多项回归预测模型 y_pred1=LineR.predict(x_poly_test) #检查模型好坏 print("预测的均方误差:", regression.mean_squared_error(y_test,y_pred1)) print("预测的平均绝对误差:", regression.mean_absolute_error(y_test,y_pred1)) #计算模型的预测指标 print("模型的分数:",LineR.score(x_poly_test, y_test)) # 输出模型的分数
结果:
5. 比较线性模型与非线性模型的性能,并说明原因。
两者区别:线性就是每个变量的指数都是1,而非线性就是至少有一个变量的指数不是1。
线性回归模型:是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = kx+b,k为误差服 从均值为0的正态分布。线性回归模型是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。
非线性回归模型:是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
二、中文文本分类
1、解压0369文件夹:时政、体育、星座、游戏、娱乐
2、处理数据的步骤如下:
1.各种获取文件,写文件
#导入数据包 import numpy as np import sys from datetime import datetime import gc path = 'C:\\Users\\Administrator\\0369'
2.除去噪声,如:格式转换,去掉符号,整体规范化.
3.遍历每个个文件夹下的每个文本文件。
4.使用jieba分词将中文文本切割。
中文分词就是将一句话拆分为各个词语,因为中文分词在不同的语境中歧义较大,所以分词极其重要。
可以用jieba.add_word('word')增加词,用jieba.load_userdict('wordDict.txt')导入词库。
维护自定义词库
5.去掉停用词。
维护停用词表
import jieba #导入结巴库 with open(r'C:\\Users\\Administrator\\Desktop\\stopsCN.txt',encoding='utf-8') as f: stopwords = f.read().split('\n') #加载停用词并赋值 def processing(tokens): # 定义函数处理文本,字符串 # 去掉非字母汉字 tokens = "".join([char for char in tokens if char.isalpha()]) # 结巴分词,保留长度大于2的词 tokens = [token for token in jieba.cut(tokens, cut_all=True) if len(token) >= 2] # 删除停用词 tokens = " ".join([token for token in tokens if token not in stopwords]) return tokens # 处理好的数据存放 data1 = [] # 文本文件 data2 = [] # 标签文件 import os # 导入os数据包 for root, dirs, files in os.walk(path): # 用walk方法,在当前目录路径,子目录,非子目录并返回文件路径 for f in files: filePath = os.path.join(root, f) with open(filePath, encoding='utf-8') as f: content = f.read() target = filePath.split('\\')[-2] # 获取数据类别标签,并处理该数据 data2.append(target) data1.append(processing(content))
结果:
6.对处理之后的文本开始用TF-IDF算法进行单词权值的计算
from sklearn.model_selection import cross_val_score from sklearn.metrics import classification_report from sklearn.model_selection import train_test_split # 导入训练集和测试集包 # 训练集和测试集划分为0.7和0.3 x_train, x_test, y_train, y_test = train_test_split(data1, data2, test_size=0.3, stratify=data1) from sklearn.feature_extraction.text import TfidfVectorizer # 数据向量化处理,选择TfidfVectorizer的方式建立特征向量。 vectorizer = TfidfVectorizer() X_train = vectorizer.fit_transform(x_train) X_test = vectorizer.transform(x_test) data2.append(target) print(data2[0:10] cessing(content)) data1[0:10]
结果:
7.贝叶斯预测种类
from sklearn.naive_bayes import MultinomialNB nmb = MultinomialNB() # 运用多项式朴素贝叶斯建立模型 module = nmb.fit(X_train, y_train) # 调用fit方法 y_predict = module.predict(X_test) # 进行预测 scores = cross_val_score(mnb, X_test, y_test, cv=5) print("Accuracy:%.3f" % scores.mean()) # 输出模型精确度 print("classification_report:\n", classification_report(y_predict, y_test))
结果:
8、.新文本类别预测
# 将预测结果和实际结果进行对比 import collections import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体 mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 testCount = collections.Counter(y_test) predCount = collections.Counter(y_predict) print('实际:', testCount, '\n', '预测', predCount) # 统计测试集和预测集的各类新闻的个数 nameList = list(testCount.keys()) testList = list(testCount.values()) predictList = list(predCount.values()) x = list(range(len(nameList))) print("新闻类别:", nameList, '\n', "实际:", testList, '\n', "预测:", predictList) # 建立标签列表,实际结果列表,预测结果列表, plt.figure(figsize=(7, 5)) total_width, n = 0.6, 2 width = total_width / n plt.bar(x, testList, width=width, label='实际', fc='g') for i in range(len(x)): x[i] = x[i] + width plt.bar(x, predictList, width=width, label='预测', tick_label=nameList, fc='b') plt.grid() plt.title('实际和预测对比图', fontsize=17) plt.xlabel('新闻类别', fontsize=17) plt.ylabel('频数', fontsize=17) plt.legend(fontsize=17) plt.tick_params(labelsize=15) plt.show() #输出图像
结果: