OceanProo

机器学习完整流程

1.项目概述

1.1.划定问题

1.2.选择性能指标

1.3.核实假设

2.获取数据

2.1.创建工作空间

2.2.下载数据

2.3.快速查看数据结构

2.4.创建测试集

3.数据探索并可视化数据，发现规律

3.1.查找关联

3.2.属性组合试验

4.为机器学习模型学习准备数据

4.1.数据清洗

4.2.处理文本和类别属性

4.3.自定义转换器

4.4.特征缩放

4.5.转换流水线

5.选择模型，进行训练

5.1.在训练集上训练和评估

5.2.交叉验证做更佳的评估

6.微调模型

6.1.网格搜索

6.2.随机搜索

6.3.集成方法

6.4.分析最佳模型和误差

6.5.用测试集评估系统

7.给出解决方案

8.部署、监控、维护系统

1.项目概述

数据的有哪些特征类别，将要建立的模型需要预测什么

1.1.划定问题

第一个问题就是项目的商业目标是什么，建立模型不是最终目的，建立模型的目的是公司的收益和将要处理的问题

第二个问题就是现有解决方案的性能，以便对将要建立的模型性能有个大概预期

1.2.选择性能指标

RMSE和MAE都是测量预测值和目标值两个向量距离的方法，有多种测量向量距离，或范式的方法：

欧几里得范数的平方和的根(RMSE),计算对应与e1范数的绝对值之和(MAE)，又称为曼哈顿范数，测量列城市中的两点，沿着矩形边形行走的距离

范数的指数越高，就越关注大的值而忽略小的值，这就是RMSE比MAE对异常值更命案，但当异常值是指数分布(类似正太分布)，RMSE表现会更高

范数(norm)：它常常被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小

回归问题的常用性能指标是均方根误差(RMSE)，均方根误差测量的是系统预测的标准差

当异常值较多时，可以用到平均绝对误差(MAE,Mean Absolute Error)

1.3.核实假设

最后，最好列出并核对迄今作出的假设，这样可以尽早发现问题，例如，你的系统输出会传入下游机器学习系统，我们的假设会被下游机器学习系统当作输入使用，如果下游系统实际需要的是分类值(高，中，低)，这就是你就需要假设分类问题，而不是回归问题

2.获取数据

2.1.创建工作空间

安装相关工具，准备相关初始数据

2.2.下载数据

import os
import tarfile
import pandas as pd
from six.moves import urllib
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT	+ HOUSING_PATH + "/housing.tgz"
def	fetch_housing_data(housing_url=HOUSING_URL,	housing_path=HOUSING_PATH):
'''在工作空间创建一个目录，下载tar文件，然后解压出csv文件'''
	if	not	os.path.isdir(housing_path):
		os.makedirs(housing_path)
		tgz_path = os.path.join(housing_path, "housing.tgz")
		urllib.request.urlretrieve(housing_url,	tgz_path)
		housing_tgz	= tarfile.open(tgz_path)
		housing_tgz.extractall(path=housing_path)
		housing_tgz.close()

def	load_housing_data(housing_path=HOUSING_PATH):
'''读取csv文件'''
	csv_path = os.path.join(housing_path, "housing.csv")
	return pd.read_csv(csv_path)

2.3.快速查看数据结构及其可视化

data.head()
data.info()
data.value_counts
data.describe

import	matplotlib.pyplot	as	plt
housing.hist(bins=50,	figsize=(20,15))
plt.show()

2.4.创建测试集

分割数据：如果查看了测试集，就会根据测试集的规律来选择某个机器学习类型，再当你使用测试集来评估误差时，就会导致过于乐观，而实际部署的系统表现就会差，这称为数据透视偏差。

创建测试集很简单，只是简单从数据集内随机抽取一部分数据即可，一般是数据集的20%，放到一边：

import numpy as np
def	split_train_test(data,test_ratio):  #scikit-learn提供列此方法
	shuffled_indices=np.random.permutation(len(data))
	test_set_size=int(len(data)	*test_ratio)
	test_indices=shuffled_indices[:test_set_size]
	train_indices=shuffled_indices[test_set_size:]
	return	data.iloc[train_indices],	data.iloc[test_indices]

train_set,test_set=split_train_test(housing,0.2)
print(len(train_set),"train	+",	len(test_set),"test")
16512	train	+	4128	test

3.数据探索并可视化数据，发现规律

3.1.查找关联

标准相关系数：standard correlation coeficent，又称为皮尔逊相关系数。使用corr(两类)或corr_matrix(1和其他)方法，相关系数范围是-1～1,1表示正相关，即x大y大，-1表示负相关，x大y小，为0表示没有相关

from pandas.tools.plotting import scatter_matrix  #每个属性和其他属性的相关性
attributes = ["median_house_value",	"median_income", "total_rooms",							"housing_median_age"]
scatter_matrix(housing[attributes],	figsize=(12,8))

3.2.特征组合试验

将多个特征组合为一个特征，如将单价和数量组合为总价

data['总价']=data['单价']*data['数量']

4.为机器学习模型学习准备数据

4.1.数据清洗

4.11.首先需要将数据集的标签和样本拆分，使用drop删掉标签

housing=strat_train_set.drop("median_house_value",axis=1)
housing_labels=strat_train_set["median_house_value"]

4.12.大多数机器学习算法不能处理缺失值，因此先创建一个函数来处理特征值缺失

housing.dropna(subset=["total_bedrooms"])  #删除缺失值所在行
housing.drop("total_bedrooms",	axis=1)  #删除整个属性
median	=	housing["total_bedrooms"].median()  
housing["total_bedrooms"].fillna(median)  #填充缺失，0或中位数或平均数

scikit-learn提供列缺失值处理方法Imputer

from sklearn.preprocessing import Imputer
imputer = Imputer(strategy="median")  #实例化Imputer
imputer.fit(housing_num)  #使用fit方法，将Imputer实例拟合到训练数据

#Imputer计算出了houseing_num样本集所有特征的中位数，现在即将现在只有某个特征存在缺失值，但不能保证其他特征不存在缺失值，所以需要进一步扩充到其他特征，即使用转换器，结果返回一个包含转换值的普通数组

imputer.statistics_
array([	-118.51	,	34.26	,	29.	,	2119.	,	433.	,	1164.	,	408.	,	3.5414])
housing_num.median().values
array([	-118.51	,	34.26	,	29.	,	2119.	,	433.	,	1164.	,	408.	,	3.5414])
X = imputer.transform(housing_num)
#可以将其放回到DataFrame中
housing_tr = pd.DataFrame(X,	columns=housing_num.columns)

4.2.处理文本和类别属性

文本属性不能计算中位数等数学涵义，而机器学习大多时间需要和数值打交道，所以我们需要将文本属性转换为数值

scikit-learn为文本转数值的任务提供了一个转换器LabelEncoder，使用算法会认为两个邻近的值比疏远的值更相近，但在文本/类别属性来说，显然是错误的，要解决这类问题，可以给每个属性创建一个二元分类，即只存在0类和1类，因为只有一个编码为1(热)，其余编码为0(冷)，这称作独热编码One-HotEncoding，scikit-learn提供了一个编码器OneHotEncoder，用于将整数分类值转换为独热向量，注意：fit_transform()用于2D数组，所以需要先转换，使用LabelBinarizer可以同时实现两步(从文本到整数分类，再从整数分类到独热向量)

from sklearn.preprocessing import LabelEncoder
encoder=LabelEncoder()
housing_cat	=housing["ocean_proximity"]
housing_cat_encoded	=encoder.fit_transform(housing_cat)  #用于实现转换器
housing_cat_encoded
array([1,	1,	4,	...,	1,	0,	3])  #单列，产生一维数组

from sklearn.preprocessing import OneHotEncoder  
encoder = OneHotEncoder()  #fit_transform只能编码2D数组,所以需要reshape重置
housing_cat_1hot=encoder.fit_transform(housing_cat_encoded.reshape(-1,1))
housing_cat_1hot  #输出结果是一个scipy稀疏矩阵，而非numpy数组
<16513x5	sparse	matrix	of	type	''
				with	16513	stored	elements	in	Compressed	Sparse	Row	format>

from sklearn.preprocessing import LabelBinarizer
encoder	= LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(housing_cat)
housing_cat_1hot  #返回的结果是一个密集的numpy数组，设置参数sparse_output=True可以转为稀疏矩阵
array([[0,	1,	0,	0,	0],
	[0,	1,	0,	0,	0],
	[0,	0,	0,	0,	1],
	...,
	[0,	1,	0,	0,	0],
	[1,	0,	0,	0,	0],
	[0,	0,	0,	1,	0]])

4.3.自定义转换器

scikit-learn有很多有用的转换器，但有时候还是需要自己手动写转换器，比如自定义的数据清理和特征组合，需要让自制的转换器和scikit-learn的组件(如流水线)一起工作，因为scikit-learn是依赖鸭子类型的(不是继承)，所以只需要执行三个方法：

fit(),返回self,transfrom和fit_transform,通过添加TransformerMixin作为基类，可以很容易得到最后一个

from sklearn.base import BaseEstimator,TransformerMixin
rooms_ix,bedrooms_ix,population_ix,household_ix	=3,4,5,6
class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def	__init__(self,	add_bedrooms_per_room=True):  #超参数add_bedrooms_per_room								
        self.add_bedrooms_per_room = add_bedrooms_per_room
				def	fit(self, X, y=None):
				    return	self		#	nothing	else	to	do
				def	transform(self,	X,	y=None):
					rooms_per_household =X[:,rooms_ix]/X[:,household_ix]
					population_per_household = X[:,population_ix]/X[:,household_ix]
					if self.add_bedrooms_per_room:
						bedrooms_per_room	=	X[:,	bedrooms_ix]	/	X[:,	rooms_ix]
					return np.c_[X,rooms_per_household,oppulation_per_household,bedrooms_per_room]														
					else:
					   return np.c_[X,rooms_per_household,population_per_household]
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

4.4.特征缩放

数据要做的最重要转换之一就是特征缩放，当输入的数值属性度量值不同时，机器学习算法的性能都不会好，比如总房间数是6-33234,而收入中位数是0-15,有两种常见的方法可以让所有的属性有相同的度量：

线性函数归一化(Min-Max scaling)和标准化(standardization)

4.4.1归一化

归一化，normolization，即值被转变，重新缩放，知道值的范围在0-1之间，我们通过减去最小值，然后再除以最大值和最小值的差值来进行归一化，scikit-learn提供了一个转换器MinMxaScaler来实现这个功能，它有一个超参数feature_range，可以改变范围，让值不是在0-1

4.4.2标准化

标准化，standardization，即首先减去平均值(所以标准化值的平均值总是0)，然后除以方差，使得到的分布具有单位方差，与归一化不同，标准化不会把值限定在某个范围，标准化的优点是受异常值的影响较小，scikit-learn提供了一个转换器StandardScaler来进行标准化

4.5.转换流水线

特征工程可能存在多个数据转换步骤，需要按一定顺序执行，scikit-learn提供了类Pipeline(流水线)来进行一系列转换

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
num_pipeline = Pipeline([
						('imputer',	Imputer(strategy="median")),
						('attribs_adder',	CombinedAttributesAdder()),
						('std_scaler',	StandardScaler()),
						])
housing_num_tr = num_pipeline.fit_transform(housing_num)

#Pipeline构造器需要定义一个表示步骤顺序的名称/估计器对的列表，除了最后一个估计器，其余都要是转换器(即他们都要由fit_transform方法)，名字可以随便取
#当调用流水线的fit()方法，就会对所有转换器顺序调用fit_transform()方法，将每次调用的输出作为参数传递给下一个转换器调用，知道最后一个估计器，使用fit()方法

#这个例子中的最后一个估计器是standardScaler，它是一个转换器，因此流水线有一个transform()方法，可以顺序对数据做所有转换(它还有一个fit_transform方法可以使用，就不必调用fit后再调用transform方法)

有了一个是对数值的流水线，还需要对分类值进行应用LabelBinarizer：如何将这么转换为流水线？scikit-learn提供了一个类featureUnion实现这个功能，给featureUnion一列转换器(可以是所有转换器)，当调用它的transform方法，每个转换器的transform会被并行执行，等待输出，然后将输出合并起来，并返回结果，一个完整的处理数值和类别属性的流水线如下所示：

from sklearn.pipeline import FeatureUnion
num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]
num_pipeline = Pipeline([
	 ('selector',	DataFrameSelector(num_attribs)),
	 ('imputer',	Imputer(strategy="median")),
	 ('attribs_adder',	CombinedAttributesAdder()),
	 ('std_scaler',	StandardScaler()),
	 ])

cat_pipeline = Pipeline([
	 ('selector',	DataFrameSelector(cat_attribs)),
	 ('label_binarizer',	LabelBinarizer()),
	 ])
full_pipeline = FeatureUnion(transformer_list=[
	 ("num_pipeline",	num_pipeline),
	 ("cat_pipeline",	cat_pipeline),	
			])

cat_pipeline = Pipeline([
	 ('selector',	DataFrameSelector(cat_attribs)),
	 ('cat_encoder',	CategoricalEncoder(encoding="onehot-dense")),
	 ])

#运行整个流水线
housing_prepared=full_pipeline.fit_transform(housing)
housing_prepared
array([[0.73225807,	-0.67331551,0.58426443,	...,0.,
0.,		0.],
	[-0.99102923,1.63234656,	-0.92655887,...,0.,
0.,0.],
[...]
housing_prepared.shape
(16513,	17)

每一个子流水线都以一个选择转换器开始：通过选择对应的属性(数值或类)、丢弃其他的，来转换数据，并将输出DataFrame转换为numpy数组，scikit-learn没有工具来处理DataFrame，因此需要自定义一个简单的转换器

from sklearn.base	import	BaseEstimator,	TransformerMixin
class	DataFrameSelector(BaseEstimator,	TransformerMixin):
				def	__init__(self,	attribute_names):
								self.attribute_names	=	attribute_names
				def	fit(self,	X,	y=None):
								return	self
				def	transform(self,	X):
								return	X[self.attribute_names].values

5.选择模型，进行训练

5.1.在训练集上训练和评估

L1，Lasso回归和L2，岭回归是正则化项，又叫做罚项，是为了限制模型的参数，防止模型过拟合而加在损失函数后面的一项。

二、区别：

　　1.L1是模型各个参数的绝对值之和。

　　　L2是模型各个参数的平方和的开方值。

　　2.L1会趋向于产生少量的特征，而其他的特征都是0.

　　　因为最优的参数值很大概率出现在坐标轴上，这样就会导致某一维的权重为0 ，产生稀疏权重矩阵

　　 L2会选择更多的特征，这些特征都会接近于0。

最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是0。当最小化||w||时，就会使每一项趋近于0

from sklearn.linear_model import LinearRegression
lin_reg	= LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)  #完成线性回归模型

some_data=housing.iloc[:5]
some_labels	=housing_labels.iloc[:5]
some_data_prepared=full_pipeline.transform(some_data)
print("Predictions:\t",	lin_reg.predict(some_data_prepared))
Predictions:[303104. 44800. 308928. 294208. 368704.]
print("Labels:\t\t",list(some_labels))
Labels:	 359400.0,	69700.0, 302100.0, 301300.0, 351900.0]
#对比结果可知，预测结果并不准确，比如，69700比4480超过列50%，可以继续用scikit-learn的的mean_squared_error函数来计算下这个回归模型的RMSE(均方根误差)：

from sklearn.metrics import	mean_squared_error
housing_predictions	=lin_reg.predict(housing_prepared)
lin_mse	=mean_squared_error(housing_labels,	housing_predictions)  #均方误差
lin_rmse=np.sqrt(lin_mse)  #均方根误差
lin_rmse
68628.413493824875
#预测误差达到68628，这个一个欠拟合模型，意味着特征没有提供足够多的信息做一个好的预测，或者模型并不强大，修复一个欠拟合模型主要方法是选一个更佳强大的模型，或者给模型提供更好的特征，或者去除模型上的限制，而这个模型没有加限制(正则化)，所以最后一个方法可以排除，可以试试更换一个更强大的模型，比如决策树DecisionTreeRegressor：

from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared,	housing_labels)

#计算均方根误差误差，误差为0,模型完美是不可能的，只能说明是过拟合的情况，需要进一步处理
housing_predictions	=tree_reg.predict(housing_prepared)
tree_mse=mean_squared_error(housing_labels,	housing_predictions)
tree_rmse=np.sqrt(tree_mse)
tree_rmse
0.0

5.2.交叉验证做更佳的评估

#评估决策树模型的一种方法是使用train_test_split函数来分割测试集，得到一个更小的训练集和验证集，另一中方法是使用交叉验证功能，如K折交叉验证(K-Fold cross-validation)：它随机将训练集分成K个子集，称为‘折’，然后评估决策树模型K次，每次选择一个不用的‘折’来做评估，其他K-1个‘折’用来做训练集，返回一个包含10个评分的数组：
from sklearn.model_selection import	cross_val_score

scores = cross_val_score(tree_reg, housing_prepared, housing_labels,																									scoring="neg_mean_squared_error", cv=10)
rmse_scores	= np.sqrt(-scores)
def	display_scores(scores):
    print("Scores:",	scores)  #评分
    print("Mean:",	scores.mean())  #评分的准确性，它的平均值
    print("Standard	deviation:",	scores.std())  #评分的标准差

display_scores(tree_rmse_scores)

#交叉验证功能期望的是效用函数(越大越好)，而不是损失函数(越低越好)，因此得分函数实际上与MSE相反(效用函数是负的)，所以sqrt计算的是‘-scores’

lin_scores=cross_val_score(lin_reg,housing_prepared,housing_labels,																								scoring="neg_mean_squared_error",cv=10)

lin_rmse_scores	=np.sqrt(-lin_scores)
display_scores(lin_rmse_scores)
Scores:	[70423.5893262 65804.84913139 66620.84314068 72510.11362141
 66414.74423281 71958.89083606		67624.90198297		67825.36117664 72512.36533141 68028.11688067]
Mean: 68972.377566
Standard deviation:	2493.98819069  #比决策树的性能要好

#再继续尝试随机森林模型(RandomForestRegressor),随机森林是通过特征的随机子集训练多个决策树，在其他多个模型之上进行学习，称之为集成学习(Ensemble Learning)
from sklearn.ensemble import RandomForestRegressor
forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared,	housing_labels)
forest_rmse
22542.396440343684
display_scores(forest_rmse_scores)
Scores:	[53789.2879722 50256.19806622 52521.55342602 53237.44937943 52428.82176158		55854.61222549 52158.02291609 50093.66125649 53240.80406125 52761.50852822]
Mean: 52634.1919593
Standard deviation:	1576.20472269  #比线性模型和决策树的结果要好

#看起来随机森林结果比较好，有希望进一般规整，解决过拟合问题，可以通过简化模型，或给模型加限制(即规整化)，或用跟多的数据，在深入规整随机森林之前可以先试试其他算法(支持向量机、神经网络什么的)，不要在调参上花费太多时间，目标是先列出一各可能模型列表(2-5个)


#需要保存训练好的模型，要确认有超参数、训练参数，以及交叉验证评分和实际预测值，可以用python的pickle模型，也可以使用Scikit-learn提供的sklearn.externals.joblib，后者序列化大numpy数组更有优势

from sklearn.externals import joblib
joblib.dump(my_model, "my_model.pkl")  #保存
my_model_loaded	=joblib.load("my_model.pkl")  #打开

6.微调模型

假设我们已经完成列上几步的工作，我们有了一个保存有几个可能模型的列表，我们现在就需要对几个模型进行微调，最后确定最佳模型

6.1.网格搜索

使用scikit-learn提供的GridSearchCV进行网格搜索，只需要告诉GridSearchCV要试验哪些参数，要试验哪些参数值，GridSearchCV就能使用交叉验证试验所有可能超参数值的组合，例如，下面的代码搜索了RandomForestRegressor超参数组合

from sklearn.model_selection import GridSearchCV
param_grid=[{'n_estimators':[3,	10,	30],'max_features':	[2,	4,	6,	8]},{'bootstrap':[False],'n_estimators':[3,	10],'max_features':	[2,	3,4]},]
forest_reg=RandomForestRegressor()
grid_search=GridSearchCV(forest_reg,param_grid,	cv=5,																	scoring='neg_mean_squared_error')
grid_search.fit(housing_prepared,	housing_labels)

grid_search.best_params_  #返回最佳参数
{'max_features':	6,	'n_estimators':	30}

cvres=grid_search.cv_results_  #返回最佳评分
for	mean_score,	params	in	zip(cvres["mean_test_score"],	cvres["params"]):
    print(np.sqrt(-mean_score),	params)

grid_search.best_estimator_  #返回最佳估计器
RandomForestRegressor(bootstrap=True,criterion='mse',max_depth=None,max_features=6,	max_leaf_nodes=None,min_samples_leaf=1,min_samples_split=2,min_weight_fraction_leaf=0.0,n_estimators=30,	n_jobs=1,oob_score=False,random_state=None,verbose=0,	warm_start=False)

#当不能确定超参数选取哪个范围的值的时候，最好的就是使用10的幂进行微调，如[0.01,0.1,1,10,100]
#当使用GridSearchCV是以refit=True(默认值)开始运行的，则一旦用交叉验证找到了最佳估计器，就会在整体训练集上重新训练，这样得到的才是正真的最佳估计器

#此处得到的MSE是42992,比默认参数的52634要好一些，这就是此模型的最佳参数的结果

6.2.随机搜索

当搜索的超参数值空间非常大时，用网格搜索则计算量非常大，这样是很浪费资源即不实际的，最好的办法是使用随机搜索RandomizedSearchCV，它不会搜索范围内的所有可能组合，而是随机抽取组合，可以设定搜索次数，控制计算量

6.3.集成方法

将表现最好的模型组合起来，组合(集成)之后的性能通常会比单独的模型表现更好(向随机森林比决策树表现更好)，特别是单独模型的误差类型不同时

6.4.分析最佳模型和误差

通过分析最佳模型，常常可以获得对问题的更深的了解，随机森林RandomForestRegressor可以指出每个属性对于准确预测的相对重要性,有了这些信息，我们可以丢弃一些不那么重要的特征，还需要分析模型的误差，搞清楚为什么会有这些误差，以及如何改正问题(添加有用特征，去除无用特征，清洗异常值等方法改正)

feature_importances=grid_search.best_estimator_.feature_importances_
feature_importances
array([7.14156423e-02,6.76139189e-02,4.44260894e-02,
1.66308583e-02,1.66076861e-02,1.82402545e-02,
1.63458761e-02,3.26497987e-01,6.04365775e-02,
1.13055290e-01,7.79324766e-02,1.12166442e-02,
1.53344918e-01,8.41308969e-05,2.68483884e-03,
3.46681181e-03])
#将重要性和属性名放在一起
extra_attribs=["rooms_per_hhold","pop_per_hhold","bedrooms_per_room"]
cat_one_hot_attribs=list(encoder.classes_)
attributes=num_attribs	+	extra_attribs	+	cat_one_hot_attribs
sorted(zip(feature_importances,attributes),	reverse=True)
[(0.32649798665134971,	'median_income'),
(0.15334491760305854,	'INLAND'),
(0.11305529021187399,	'pop_per_hhold'),
...]

6.5.用测试集评估系统

调节完系统后，现在已经有了一个性能比较满意的模型了，现在就可以用测试集评估最后的模型了，：

1.从测试集得到预测值和标签，运行full_pipeline转换数据，调用transform，而不是fit_transform

2.用测试集评估模型

评估模型一般会比交叉验证的效果差一点，如果发生这种情况，不要去试图再调整超参数，因为这样不会让效果在未知的新数据表现的更好。然后就是项目的预上线阶段：需要展示你的方案(重点说明学到了什么，做到了什么，没做到什么，做过什么假设，系统的限制是什么)，记录下所有事情，用漂亮的图表和容易记住的表达(比如，收入中位数是房价最重要的预测)

final_model=grid_search.best_estimator_
X_test=strat_test_set.drop("median_house_value",	axis=1)
y_test=strat_test_set["median_house_value"].copy()
X_test_prepared	=full_pipeline.transform(X_test)
final_predictions=final_model.predict(X_test_prepared)
final_mse=mean_squared_error(y_test,final_predictions)
final_rmse=np.sqrt(final_mse)  #evaluates	to	48,209.6

7.给出解决方案：部署、监控、维护系统

启动：在模型确定后，已经可以启动系统了，需要为实际生产做好准备，特别是接入输入数据源，并编写测试

监控：还需要编写监控代码，以固定时间间隔检测系统的实时表现，当发生下降时触发警报，能够捕获在系统崩溃或者性能下降，主要针对模型会随着数据演化而性能下降，除非模型用新数据定期训练

评估系统的表现需要对预测值采样并进行评估，这通常需要人工来进行，但也需要将评估流水线植入系统

评估系统的质量：有时因为低质量的信号(比如失灵的传感器发送随机值，或另一个团队的输出停滞)，系统的表现会逐渐变差，但可能需要一段时间，系统的表现下降到一定程度需要发生警报，如果检测了系统的输入，可以尽早的发现问题，对于线上系统，检测输入数据是非常重要的

定期训练：自动化用新数据定期训练模型，不然训练模型间隔太长，系统的表现波动会比较严重，还需要定期保存系统快照，好能方便回滚到之前的工作状态

你可能感兴趣的:(python,机器学习)

CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
python绘制等边三角形的代码_Python打印等边三角形 weixin_39621178
示例1:#!/usr/bin/python#-*-coding:UTF-8-*-#根据输入打印rows=int(raw_input('pleaseinputnumber:'))#等边三角形foriinrange(0,rows+1):forjinrange(0,rows-i):print"",j+=1forkinrange(0,2*i-1):ifk==0ork==2*i-2ori==rows:ifi
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
python+flask计算机毕业设计基于Android平台的景区移动端旅游软件系统（程序+开题+论文） Node.js彤彤程序 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展，智能手机已成为人们日常生活中不可或缺的一部分，特别是在旅游领域，移动端应用以其便捷性、实时性和个性化服务的特点，极大地改变了人们的旅游体验方式。当前，旅游市场日益繁荣，游客对于旅游信息获取、行程规划、景点导航、票务预订及个性化服务的需
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
python中Flask模块的使用 weixin_30315905 python json
1.简介在服务器上运行Flask接口，就能使用requests模块获取该接口的值。先运行接口文件，再运行requests文件，即可获取值。2.示例2.1一个简单的flask接口1importjson2fromflaskimportFlask,request34#python类型5data={6'name':'John',7'age':18,8'location':'nanjing'910}1112
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
python中的静态方法绛洞花主敏明 python
问题：pycharm中建立新的方法，出现如下的警告：在python中建立类一般使用如下的方法：classDog(object):defrun(self):print("running")run方法是类中的普通方法声明和创建静态方法，在方法上加上staticmethod注明一下classDog(object):@staticmethoddefrun(self):print("running")如下的
一文弄懂Python 变量初始化与内存管理宇寒风暖 python编程 python 开发语言笔记学习
在Python中，变量的初始化并不一定会开辟新的内存空间。Python的内存管理机制非常灵活，它会根据变量的值、类型以及Python的内部优化策略来决定是否复用已有的内存空间。1.变量初始化的基本概念在Python中，变量是对象的引用。当你初始化一个变量时，Python会执行以下操作：创建一个对象（如果该对象不存在）。将变量名绑定到该对象。例如：a=10b="hello"a是一个整数对象的引用。b
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后