西门催学不吹雪

使用 scikit-learn 构建模型

文章目录

1. sklearn 介绍
2. sklearn 转换器处理数据

2.1 加载数据集
2.2 划分数据集
2.3 数据预处理与降维

3. 聚类模型

3.1 构建聚类模型
3.2 评价聚类模型

4. 分类模型

4.1 构建分类模型
4.2 评价分类模型

5. 回归模型

5.1 构建回归模型
5.2 评价回归模型

1. sklearn 介绍

scikit-learn（简称 sklearn）是一个简单有效的数据挖掘和数据分析工具，可以提供用户在各种环境下重复使用。而且 sklearn 建立在 Numpy、Scipy 和 Matplotlib 基础之上，对一些常用的算法进行了封装。目前，sklearn 的基本模块主要有 数据预处理、模型选择、分类、聚合、数据降维 和回归 6 个。
在数据量不大的情况下，sklearn 可以解决大部分问题。sklearn 库整合了多种机器学习算法，可以帮助使用者在数据分析过程中快速建立模型，且模型接口统一，使用起来非常方便。对于算法不精通的用户在执行建模任务时，并不需要自行编写所有的算法，只需简单地调用 sklearn 库里的模块就可以。

scikit-learn 0.22.1 官方文档

2. sklearn 转换器处理数据

sklearn 提供了 model_selection 模型选择模块、preprocessing 数据预处理模块与 decomposition 特征分解模块。通过这三个模块能够实现数据预处理与模型构建前的数据标准化、二值化、数据集分割、交叉验证和 PCA 降维等工作。

2.1 加载数据集

sklearn 库的 datasets 模块集成了部分数据分析的经典数据集，可以使用这些数据集进行数据预处理、建模等操作，熟悉 sklearn 的数据分析流程和建模流程。使用 sklearn 进行数据预处理会用到 sklearn 提供的统一接口——转换器（Transformer）。

datasets 模块常用数据集加载函数

数据集加载函数	类型	说明	数据集加载函数	类型	说明
load_boston	回归	波士顿房价数据集	load_diabetes	回归	糖尿病数据集
load_breast_cancer	分类	乳腺癌数据集	load_iris	分类	鸢尾花数据集
load_wine	分类	葡萄酒数据集	load_digits	分类	数字数据集

# 加载breast_cancer数据集
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()         # 加载后的数据集可以视为一个字典
print('breast_cancer数据集的key为：\n',cancer.keys())
print('breast_cancer数据集的长度为：',len(cancer))
print('breast_cancer数据集的类型为：',type(cancer))

# 数据集内部信息获取
cancer_data = cancer['data']
print('breast_cancer数据集的数据为：\n',cancer_data)

cancer_target = cancer['target']
print('breast_cancer数据集的标签为：\n',cancer_target)

cancer_target_names = cancer['target_names']
print('breast_cancer数据集的标签名为为：\n',cancer_target_names)

cancer_names = cancer['feature_names']
print('breast_cancer数据集的特征名为：\n',cancer_names)

cancer_filename = cancer['filename']
print('breast_cancer数据集的文件名为：\n',cancer_filename)

cancer_desc = cancer['DESCR']
print('breast_cancer数据集的描述信息为：\n',cancer_desc)

注：数据集的描述性信息比较多，这里只展示部分结果。

2.2 划分数据集

在数据分析过程中，为了保证模型在实际系统中能够起到预期作用，一般需要将样本分成独立的三部分：训练集（train set）、验证集（validation set）和 测试集（test set）。其中，训练集用于估计模型，验证集用于确定网络结构或者控制模型复杂程度的参数，而测试集则用于检验最优模型的性能。典型的划分方式是训练集占总样本的 50%，而验证集和测试集各占 25%。
当数据较少的时候，使用上面的方法将数据分为 3 部分就不合适了。常用的方法是留少部分数据做测试集，然后对其余 $N$ 个样本采用 $K$ 折交叉验证法。其基本步骤是将样本打乱，然后均匀分成 $K$ 份，轮流选择其中 $(K - 1)$ 份做训练，剩余一份做验证，计算预测误差平方和，最后把 $K$ 次的预测误差平方和的均值作为选择最优模型结构的依据。
sklearn 的 model_selection 模块提供了 train_test_split 函数，能够对数据集进行拆分。

sklearn.model_selection.train_test_split(*arrays, **options)

train_test_split 函数官方文档

train_test_split 函数常用参数说明

参数名称	说明
*arrays	接收一个或多个数据集。代表要划分的数据集。若为分类回归，则分别传入数据和标签；若为聚类，则传入数据。无默认。
test_size	接收 float、int 类型数据或者 None。代表测试集大小。若传入的为 float 类型的数据，则需要想定 0~1 之间，代表测试集在总数中的占比；若传入的为 int 类型的数据，则表示测试集记录的绝对数目。该参数与 trian_size 可以只传入一个。若 test_size 和 train_size 均为默认，则 test_size 为 25%。
train_size	接收 float、int 类型数据或者 None。代表训练集大小。
random_state	接收 int。代表随机种子编号。相同随机种子编号产生相同的随机结果。默认为 None。

# 使用train_test_split划分数据集
from sklearn.model_selection import train_test_split

cancer_data_train, cancer_data_test, cancer_target_train, cancer_target_test = \
train_test_split(cancer_data,cancer_target,test_size=0.2,random_state=42)

print('原始数据集的形状为：',cancer_data.shape)
print('原始数据集标签的形状为：',cancer_target.shape)
print('训练集数据的形状为：',cancer_data_train.shape)
print('训练集标签的形状为：',cancer_target_train.shape)
print('测试集数据的形状为：',cancer_data_test.shape)
print('测试集标签的形状为：',cancer_target_test.shape)

2.3 数据预处理与降维

为帮助用户实现大量的特征处理相关操作，sklearn 把相关的功能封装为转换器。转换器主要包括三个方法：fit、transform 和 fit_transform。

转换器的 3 个方法说明

方法名称	说明
fit	fit 方法主要通过分析特征和目标值提取有价值的信息，这些信息可以是统计量，也可以是权值系数。
transform	transform 方法主要用来对特征进行转换。从可利用信息的角度分为无信息转换和有信息转换。无信息转换是指不利用任何其他信息进行转换，比如指数和对数函数进行转换等。有信息转换根据是否利用目标值向量又可分为无监督转换和有监督转换。无监督转换只利用特征的统计信息的转换，比如标准化和 PCA 降维等。有监督转换指既利用了特征信息又利用了目标值信息的转换，比如通过模型选择特征和 LDA 降维。
fit_transform	fit_transform 方法就是先调用 fit 方法，然后调用 transform 方法。

目前，使用 sklearn 转换器能够实现对传入的 Numpy 数组进行标准化处理、归一化处理、二值化处理和 PCA 降维等操作。
在我的上一篇博客中，基于 pandas 库介绍了标准化原理、概念与方法。但是在数据分析过程中，各类特征处理相关的操作都需要对训练集和测试集分开进行，需要将训练集的操作规则、权重系数等应用到测试集中。如果使用 pandas，则应用至测试集的过程相对繁琐。使用 sklearn 转换器可以解决这一困扰。

sklearn 中 prepocessing 模块常用预处理函数说明

函数名称	说明	函数名称	说明
MinMaxScaler	对特征进行离差标准化	StandardScaler	对特征进行标准差标准化
Normalizer	对特征进行归一化	Binarizer	对定量特征进行二值化处理
OneHotEncoder	对定性特征进行独热编码处理	FunctionTransformer	对特征进行自定义函数变换

# 离差标准化
import numpy as np
from sklearn.preprocessing import MinMaxScaler

Scaler = MinMaxScaler().fit(cancer_data_train)            # 生成规则
cancer_trainScaler = Scaler.transform(cancer_data_train)  # 将规则应用到训练集
cancer_testScaler = Scaler.transform(cancer_data_test)    # 将规则应用到测试集

print('离差标准化前训练集数据的最小值为：',np.min(cancer_data_train))
print('离差标准化后训练集数据的最小值为：',np.min(cancer_trainScaler))
print('离差标准化前训练集数据的最大值为：',np.max(cancer_data_train))
print('离差标准化后训练集数据的最大值为：',np.max(cancer_trainScaler))

print('离差标准化前测试集数据的最小值为：',np.min(cancer_data_test))
print('离差标准化后测试集数据的最小值为：',np.min(cancer_testScaler))
print('离差标准化前测试集数据的最大值为：',np.max(cancer_data_test))
print('离差标准化后测试集数据的最大值为：',np.max(cancer_testScaler))

sklearn 除了提供基本的特征变换函数外，还提供了降维算法、特征选择算法，这些算法的使用也是通过转换器的方式进行的。
sklearn 的 decomposition 模块提供 PCA 降维方法。PCA（Principal Component Analysis，主成分分析）

sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, 
					iterated_power='auto', random_state=None)

PCA 函数官方文档

PCA 降维算法常用参数说明

参数名称	说明
n_components	接收 None、int、float 或 ‘mle’。未指定时，代表所有特征均会被保留下来；如果为 int，则表示将原始数据降低到 n 个维度；如果为 float，则 PCA 根据样本特征方差来决定降维后的维度数；赋值为 “mle”，PCA 会用 MLE 算法根据特征的方差分布情况自动选择一定数量的主成分特征来降维。默认为 None。
copy	接收 boolean。代表是否在运行算法时将原始数据复制一份，若为 True，则运行后，原始数据的值不会有任何改变；若为 False，则运行 PCA 算法后，原始数据的值会发生改变。默认为 True。
whiten	接收 boolean。表示白化，就是对降维后的数据的每个特征进行归一化，让方差都为 1。默认为 False。
svd_solver	接收 auto、full、arpack、randomized。代表使用的 SVD 算法。randomized 一般适用于数据量大，数据维数多，同时主成分数目比例又较低的 PCA 降维，它使用了一些加快 SVD 的随机算法。full 是使用 Scipy 库实现的传统 SVD 算法。arpack 和 randomized 的适用场景类似，区别是，randomized 使用的是 sklearn 自己的 SVD 实现，而 arpack 直接使用了 Scipy 库的 sparse SVD 实现。 auto 则代表 PCA 类会自动在上述 3 种算法中权衡，选择一个合适的 SVD 算法来降维。默认为 auto。

# 对breast_cancer数据集进行PCA降维
from sklearn.decomposition import PCA

pca_model = PCA(n_components=10).fit(cancer_trainScaler)   # 生成规则
cancer_trainPca = pca_model.transform(cancer_trainScaler)  # 将规则应用到训练集
cancer_testPca = pca_model.transform(cancer_testScaler)    # 将规则应用到测试集

print('PCA降维前训练集数据的形状为：',cancer_trainScaler.shape)
print('PCA降维后训练集数据的形状为：',cancer_trainPca.shape)
print('PCA降维前测试集数据的形状为：',cancer_testScaler.shape)
print('PCA降维后测试集数据的形状为：',cancer_testPca.shape)

3. 聚类模型

聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。聚类模型可以将无类标记的数据聚集为多个簇，视为一类，是一种无监督的学习算法。在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体，并且概括出每一类消费者的消费模式或消费习惯。同时，聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤，如异常值识别、连续型特征离散化等。

3.1 构建聚类模型

聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将它们划分为若干组，划分的原则是组内（内部）距离最小化，而组间（外部）距离最大化。

聚类算法类别

算法类别	主要算法
划分（分裂）方法	K-Means 算法（K-平均）、K-MEDOIDS 算法（K-中心点）和 CLARANS（基于选择的算法）
层次分析方法	BIRCH 算法（平衡迭代规约和聚类）、CURE 算法（代表点聚类）和CHAMELEON 算法（动态模型）
基于密度的方法	DBSCAN 算法（基于高密度连接区域）、DENCLUE 算法（密度分布函数）和 OPTICS 算法（对象排序识别）
基于网格的方法	STING 算法（统计信息网格）、CLIOUE 算法（聚类高维空间）和 WAVE-CLUSTER 算法（小波变换）

sklearn 的 cluster 模块提供的聚类算法说明

函数名称	主要参数	适用范围	距离度量
KMeans	簇数	可用于样本数目很大，聚类数目中等的场景	点之间距离
SpectralClustering	簇数	可用于样本数目中等、聚类数目较少的场景	图距离
AgglomerativeClustering	簇数、链接类型、距离	可用于样本数目较大、聚类数目较大的场景	任意成对点线图间的距离
DBSCAN	半径大小、最低成员数目	可用于样本数目很大，聚类数目中等的场景	最近的点之间的距离
Birch	分支因子、阈值可选全局集群	可用于样本数目很大，聚类数目较大的场景	点之间的欧式距离

KMeans 函数官方文档

聚类算法实现需要 sklearn 估计器（Estimator）。sklearn 估计器拥有 fit 和 predict 两个方法。

估计器两个方法说明

方法名称	说明
fit	fit 方法主要用于训练算法。该方法可接受用于有监督学习的训练集即标签两个参数，也可以接受用于无监督学习的数据。
predict	predict 用于预测有监督学习的测试集标签，亦可以用于划分传入数据的类别。

# 使用sklearn估计器构建K-Means聚类模型
from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

iris = load_iris()
iris_data = iris['data']
iris_target = iris['target']
iris_names = iris['feature_names']

scaler = MinMaxScaler().fit(iris_data)         # 训练规则
iris_dataScaler = scaler.transform(iris_data)  # 应用规则

kmeans = KMeans(n_clusters=3, random_state=123).fit(iris_dataScaler) # 构建并训练模型

print('构建的K-Means模型为：\n',kmeans)
result = kmeans.predict([[1.5,1.5,1.5,1.5]])
print('花瓣花萼长度宽度都为1.5的鸢尾花预测类别为：',result)

聚类完成后需要通过可视化的方式查看聚类效果，通过 sklearn 的 manifold 模块中的 TSNE 函数可以实现多维数据的可视化展现。

TNSE 函数官方文档

# 聚类结果可视化
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE 

# 使用TSNE将数据降维，降成两维
tsne = TSNE(n_components=2,init='random',random_state=177).fit(iris_data)

df = pd.DataFrame(tsne.embedding_) # 将原始数据转换为DataFrame
df['labels'] = kmeans.labels_      # 将聚类结果存储进df中

# 提取不同标签的数据
df1 = df[df['labels']==0]
df2 = df[df['labels']==1]
df3 = df[df['labels']==2]

# 绘制图形
plt.plot(df1[0],df1[1],'bo',df2[0],df2[1],'r*',df3[0],df3[1],'gD')
plt.show()

3.2 评价聚类模型

聚类评价的标准是组内的对象之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。即组内的相似性越大，组间差别越大，聚类效果就越好。
sklearn 的 metrics 模块提供的聚类模型评价指标如下。

metrics 模块提供的聚类模型评价指标

sklearn 函数	方法名称	真实值	最佳值	官方文档链接
adjusted_rand_score	ARI 评价法（兰德系数）	需要	1.0	官方文档
adjusted_mutual_info_score	AMI 评价法（互信息）	需要	1.0	官方文档
v_measure_score	V-measure 评分	需要	1.0	官方文档
fowlkes_mallows_score	FMI 评分	需要	1.0	官方文档
silhouette_score	轮廓系数评价法	不需要	畸变程度最大	官方文档
calinski_harabaz_score	Calinski-Harabaz 指数评价法	不需要	相较最大	官方文档

其中前 4 种方法均需要真实值的配合才能够评价聚类算法的优劣，后两种则不需要真实值的配合。但是前 4 种方法评价的效果更具有说服力，并且在实际运行的过程中，在真实值做参考的情况下，聚类方法的评价可以等同于分类算法的评价。
除了轮廓系数评价法以外的评价算法，在不考虑业务场景的情况下都是得分越高，其效果越好，最高分值为 1。而轮廓系数评价法则需要判断不同类别数目情况下的轮廓系数的走势，寻找最优的聚类数目。

# (一)使用FMI评价方法评价K-Means聚类模型
from sklearn.metrics import fowlkes_mallows_score

for i in range(2,7):
    kmeans = KMeans(n_clusters=i,random_state=123).fit(iris_data)
    score = fowlkes_mallows_score(iris_target,kmeans.labels_)
    print('iris数据集聚%d类FMI评价分值为：%f'%(i,score))

    
# (二)使用轮廓系数评价法评价K-Means聚类模型
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

silhouetteScore = []
for i in range(2,15):
    kmeans = KMeans(n_clusters=i,random_state=123).fit(iris_data)
    score = silhouette_score(iris_data,kmeans.labels_)
    silhouetteScore.append(score)

plt.plot(range(2,15),silhouetteScore)
plt.show()


# (三)使用Calinski-Harabasz指数评价K-Means聚类模型
from sklearn.metrics import calinski_harabasz_score

for i in range(2,7):
    kmeans = KMeans(n_clusters=i,random_state=123).fit(iris_data)
    score = calinski_harabasz_score(iris.data,kmeans.labels_)
    print('iris数据集聚%d类calinski_harabasz指数为：%f'%(i,score))

使用 FMI 评价法时，iris 数据 3 类的时候 FMI 评价法分值最高，故聚类为 3 类的时候 K-Means聚类模型最好。使用轮廓系数评价法时，做出轮廓系数走势图，根据图形判断聚类效果。可以看出，聚类数目为 2、3 和 5、6 时平均畸变程度最大。由于 iris 数据本身就是 3 种鸢尾花花瓣、花萼长度和宽度的数据，侧面说明了聚类数目为 3 效果最佳。使用 Calinski-Harabaz 指数评价法时，聚类数目为 3 时得分最高，所以聚类为 3 类的时候 K-Means聚类模型最好。

4. 分类模型

分类是指构造一个分类模型。输入样本的特征值，输出对应的类别，将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上，属于监督学习。在实际应用场景中，分类算法被用于行为分析、物品识别、图像检测等。

4.1 构建分类模型

在数据分析领域，分类的算法很多，其原理千差万别，有基于样本距离的最近邻算法，有基于特征信息熵的决策树，有基于 bagging 的随机森林，有基于 boosting 的梯度提升分类树，但其实现的过程相差不大。sklearn 中提供的分类算法风非常多，分别存在于不同的模块中。常见的分类算法如下表。

sklearn 库的常用分类算法

模块名称	函数名称	算法名称	官方文档链接
linear_model	LogisticRegression	逻辑斯蒂回归	官方文档
svm	SVC	支持向量机	官方文档
neighbors	KNeighborsClassifier	K 最邻近分类	官方文档
native_bayes	GaussianNB	高斯朴素贝叶斯	官方文档
tree	DessionTreeClassifier	分类决策树	官方文档
ensemble	RandomForestClassifier	随机森林分类	官方文档
ensemble	GradientBoostingClassifier	梯度提升分类树	官方文档

# 使用sklearn估计器构建SVM模型
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

cancer = load_breast_cancer()
cancer_data = cancer['data']
cancer_target = cancer['target']
cancer_names = cancer['feature_names']

# 划分数据集
cancer_data_train, cancer_data_test, cancer_target_train, cancer_target_test = \
train_test_split(cancer_data,cancer_target,test_size=0.2,random_state=42)

# 数据标准化
stdScaler = StandardScaler().fit(cancer_data_train)
cancer_trainStd = stdScaler.transform(cancer_data_train)
cancer_testStd = stdScaler.transform(cancer_data_test)

# 建立SVM模型
svm = SVC().fit(cancer_trainStd,cancer_target_train)
print('建立的SVM模型为：\n',svm)

# 预测训练集结果
cancer_target_pred = svm.predict(cancer_testStd)
print('预测前20个结果为：\n',cancer_target_pred[:20])

# 计算准确率
true = np.sum(cancer_target_pred == cancer_target_test)
print('预测对的结果数目为：',true)
print('预测错的结果数目为：',cancer_target_pred.shape[0]-true)
print('SVM模型预测结果的准确率为：',true/cancer_target_pred.shape[0])

4.2 评价分类模型

分类模型对测试集进行预测而得出的准确率并不能很好地反映模型的性能，为了有效判断一个预测模型的性能表现，需要结合真实值计算出准确率、召回率、F1 值和 Cohen’s Kappa 系数等指标来衡量。
sklearn 的 metrics 模块提供的分类模型评价指标如下。

metrics 模块提供的分类模型评价指标

sklearn 函数	方法名称	最佳值	官方文档链接
accuracy_score	准确率	1.0	官方文档
precision_score	Precision（精确率）	1.0	官方文档
recall_score	Recall（召回率）	1.0	官方文档
f1_score	F1 值	1.0	官方文档
cohen_kappa_score	Cohen’s Kappa 系数	1.0	官方文档
roc_curve	ROC 曲线	最靠近 y 轴	官方文档

# 分类模型常用评价方法
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, cohen_kappa_score

print('使用SVM模型预测breast_cancer数据的准确率为：',
     accuracy_score(cancer_target_test,cancer_target_pred))
print('使用SVM模型预测breast_cancer数据的精确为：',
     precision_score(cancer_target_test,cancer_target_pred))
print('使用SVM模型预测breast_cancer数据的召回率为：',
     recall_score(cancer_target_test,cancer_target_pred))
print('使用SVM模型预测breast_cancer数据F1值为：',
     f1_score(cancer_target_test,cancer_target_pred))
print('使用SVM模型预测breast_cancer数据的Cohen\'s kappa 系数为：',
     cohen_kappa_score(cancer_target_test,cancer_target_pred))


# 分类模型评价报告
from sklearn.metrics import classification_report

print('使用SVM预测breast_cancer数据的分类报告为：\n',
     classification_report(cancer_target_test,cancer_target_pred))


# 绘制ROC曲线
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

fpr,tpr,thresholds = roc_curve(cancer_target_test,cancer_target_pred)

plt.figure(figsize=(10,6))
plt.xlim(0,1)
plt.ylim(0.0,1.1)
plt.xlabel('False Postive Rate')
plt.ylabel('True Postive Rate')
plt.plot(fpr,tpr)
plt.show()

ROC 曲线纵坐标范围为 [0,1]，通常情况下，ROC 曲线与 x 轴形成的面积越大，表示模型的性能越好。

5. 回归模型

回归算法的实现过程与分类算法类似，原理相差不大。分类和回归的主要区别在于，分类算法的标签是离散的，但是回归算法标签是连续的。

5.1 构建回归模型

从 19 世纪高斯提出最小二乘法起，回归分析的历史已有 200 多年。从经典的回归分析方法到近代的回归分析方法，按照研究方法划分，回归分析研究的范围大致如下所示。

$\begin{cases} 线性回归 \begin{cases} 一元线性回归\\多元线性回归\\多个因变量与多个自变量的回归 \end{cases}\\ 回归诊断 \begin{cases} 如何从数据推断回归模型基本假设的合理性\\基本假设不成立时如何对数据进行修正\\判断回归方程拟合的结果\\选择回归函数的形式\end{cases}\\回归变量选择 \begin{cases}自变量选择的标准\\逐步分析回归法 \end{cases}\\参数估计方法改进 \begin{cases} 偏最小二乘回归\\岭回归\\主成分回归\end{cases}\\非线性回归 \begin{cases}一元非线性回归\\多段回归\\多元非线性回归 \end{cases}\\含有定性变量的回归 \begin{cases}自变量含有定性变量的情况\\因变量含有定性变量的情况\end{cases} \end{cases}$

在回归模型中，自变量与因变量具有相关关系，自变量的值是已知的，因变量是要预测的。回归算法的实现步骤和分类算法基本相同，分为学习和预测两个步骤。学习是通过训练样本数据来拟合回归方程的；预测则是利用学习过程中拟合出的回归方程，将测试数据放入方程中求出预测值。

常用的回归模型

回归模型名称	适用条件	算法描述
线性回归	因变量与自变量是线性关系	对一个或多个自变量和因变量之间的线性关系进行建模，可用最小二乘估计法求解模型系数。
非线性回归	因变量与自变量之间不都是线性关系	对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以通过简单的函数变换转化成线性关系，则可以利用线性回归的思想求解；如果不能转化，则利用非线性最小二乘估计法求解。
Logistic 回归	因变量一般有 1 和 0 （是与否）两种取值	是广义线性回归模型的特例，利用 Logistics 函数将因变量的取值范围控制在 0~1，表示取值为 1 的概率。
岭回归	参与建模的自变量之间具有多重共线性	是一种改进的最小二乘估计法的方法
主成分回归	参与建模的自变量之间具有多重共线性	主成分回归是根据主成分分析的思想提出来的，是对最小二乘估计法的一种改进，它是参数估计的一种有偏估计。可以消除自变量之间的多重共线性。

sklearn 库内部常用回归算法

模块名称	函数名称	算法名称	官方文档链接
linear_model	LinearRegression	线性回归	官方文档
svm	SVR	支持向量回归	官方文档
neighbors	KNeighborsRegressor	最邻近回归	官方文档
tree	DesionTreeRegressor	回归决策树	官方文档
ensemble	RandomForestRegressor	随机森林回归	官方文档
ensemble	GradientBoostingRegressor	梯度提升回归数	官方文档

# 使用sklearn估计器构建线性回归模型
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

boston = load_boston()
X = boston['data']
y = boston['target']
names = boston['feature_names']

# 划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=125)

# 建立线性回归模型
clf = LinearRegression().fit(X_train,y_train)
print('建立的线性回归模型为：\n',clf)

# 预测训练接结果
y_pred = clf.predict(X_test)
print('预测结果的前20个为：\n',y_pred[:20])

# 回归结果可视化
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
plt.figure(figsize=(10,6))
plt.plot(range(y_test.shape[0]),y_test,'b-')
plt.plot(range(y_test.shape[0]),y_pred,'r-.')
plt.xlim((0,102))
plt.ylim(0,55)
plt.legend(['真实值','预测值'])
plt.show()

5.2 评价回归模型

回归模型的性能评价不同于分类模型，虽然都是对照真实值进行评价，但由于回归模型的预测结果和真实值都是连续的，所以不能够求取 Presision、Recall 和 F1 值等评价指标。回归模型拥有一套独立的评价指标。

metrics 模块提供的回归模型评价指标

sklearn 函数	方法名称	最优值	官方文档链接
mean_absolute_error	平均绝对误差	0.0	官方文档
mean_square_error	均方误差	0.0	官方文档
median_absolute_error	中值绝对误差	0.0	官方文档
explained_variance_score	可解释方差值	1.0	官方文档
r2_score	R² 值	1.0	官方文档

# 回归模型常用的评价方法
from sklearn.metrics import explained_variance_score,mean_absolute_error,mean_squared_error,\
median_absolute_error,r2_score

print('boston数据线性回归模型的平均绝对误差为：',mean_absolute_error(y_test,y_pred))
print('boston数据线性回归模型的均方误差为：',mean_squared_error(y_test,y_pred))
print('boston数据线性回归模型的中值绝对误差为：',median_absolute_error(y_test,y_pred))
print('boston数据线性回归模型的可解释方差值为：',explained_variance_score(y_test,y_pred))
print('boston数据线性回归模型的R方值为：',r2_score(y_test,y_pred))

你可能感兴趣的:(Python,数据分析)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st