玉求瑕

机器学习sklearn指东

sklearn机器学习sklearn指东

1 数据获取

scikit-learn带有一些标准数据集，例如用于分类的iris和digits数据集，用于回归的bostonhouse prices 数据集。

1.1 load

fromsklearn.datasets importload_iris

fromsklearn.datasets importload_boston

iris=load_iris()

boston=load_boston

x_iris=iris.data

y_iris=iris.target

printx_iris.shape

printy_iris.shape

输出为：

(150, 4)

(150,)

1.2make_regression

fromsklearn.datasets importmake_regression

x,y=make_regression(n_samples=5, n_features=5, n_informative=3, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

print1

print x

printy

print2

x,y=make_regression(n_samples=5, n_features=3, n_informative=3, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

print x

printy

fromsklearn.datasets importmake_classification

x,y=make_classification(n_samples=5, n_features=5, n_informative=3)

print3

print x

printy

输出为：

[[ 1.3887649 -0.67264273 0.43790666 -0.17069749 0.38238322]

[ 0.47251375 -0.75166612 0.23178239-1.661831 -0.81182998]

[ 0.03739107 -1.34200362 0.24249631 0.43151133 0.26080355]

[ 1.12646446 0.43570731-0.21344475 0.36708684 -0.87513419]

[ 1.55191935 -0.81177223 -0.03115494 -0.80722552 -0.04601602]]

[ -9.35751369 -158.24803182 42.61616431 21.69803828 -73.08849933]

[[ 2.01145171 1.17357249-1.85035062]

[-0.53409156 0.55599955 0.04779895]

[ 0.43052286 1.60386627 0.48718064]

[-1.93366169 -0.01782231 0.30727286]

[-0.46353664 -0.63285618-0.09485492]]

[ 76.90215821 5.33297211 186.78542704 -115.69362051 -86.88520421]

[[ 1.53228845 -1.5708226 -0.8524258 -1.77329403 1.02937806]

[ 1.04725244 0.10639027-1.12618235 1.40243761 -0.6630892 ]

[ 0.59248386 -0.08554676 -0.25855043 0.30970562 0.21408284]

[-0.49888926 -0.46972133 1.7796799 -2.13879689 2.21883169]

[-1.78928116 1.32412246 1.39049161 0.85772537-0.39507264]]

[0 0 1 0 1]

1.3 np.array

import numpyas np

y_true=np.array([1,0,1,1,0])

y_pred=np.array([0,0,1,1,1])

fromsklearn.metrics importaccuracy_score

printaccuracy_score(y_true,y_pred)

输出为：

0.6

1.4 loadtxt()

import numpyas np

data=np.loadtxt("E:/sklearn/data.txt",delimiter=",")

printdata.shape

printdata[:9,:]

x=data[:,:7]

y=data[:,8]

输出为：

(768, 9)

[[ 6.00000000e+00 1.48000000e+02 7.20000000e+01 3.50000000e+01

0.00000000e+00 3.36000000e+01 6.27000000e-01 5.00000000e+01

1.00000000e+00]

[ 1.00000000e+00 8.50000000e+01 6.60000000e+01 2.90000000e+01

0.00000000e+00 2.66000000e+01 3.51000000e-01 3.10000000e+01

0.00000000e+00]

[ 8.00000000e+00 1.83000000e+02 6.40000000e+01 0.00000000e+00

0.00000000e+00 2.33000000e+01 6.72000000e-01 3.20000000e+01

1.00000000e+00]

[ 1.00000000e+00 8.90000000e+01 6.60000000e+01 2.30000000e+01

9.40000000e+01 2.81000000e+01 1.67000000e-01 2.10000000e+01

0.00000000e+00]

[ 0.00000000e+00 1.37000000e+02 4.00000000e+01 3.50000000e+01

1.68000000e+02 4.31000000e+01 2.28800000e+00 3.30000000e+01

1.00000000e+00]

[ 5.00000000e+00 1.16000000e+02 7.40000000e+01 0.00000000e+00

0.00000000e+00 2.56000000e+01 2.01000000e-01 3.00000000e+01

0.00000000e+00]

[ 3.00000000e+00 7.80000000e+01 5.00000000e+01 3.20000000e+01

8.80000000e+01 3.10000000e+01 2.48000000e-01 2.60000000e+01

1.00000000e+00]

[ 1.00000000e+01 1.15000000e+02 0.00000000e+00 0.00000000e+00

0.00000000e+00 3.53000000e+01 1.34000000e-01 2.90000000e+01

0.00000000e+00]

[ 2.00000000e+00 1.97000000e+02 7.00000000e+01 4.50000000e+01

5.43000000e+02 3.05000000e+01 1.58000000e-01 5.30000000e+01

1.00000000e+00]]

1.5 urlopen

import numpyas np

importurllib

url="http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

raw_data = urllib.urlopen(url)

dataset = np.loadtxt(raw_data, delimiter=",")

X = dataset[:,0:7]

y = dataset[:,8]

print X

printy

输出为：

[[ 6. 148.72. ..., 0. 33.6 0.627]

[ 1. 85.66. ..., 0. 26.6 0.351]

[ 8. 183.64. ..., 0. 23.3 0.672]

...,

[ 5. 121. 72. ..., 112. 26.2 0.245]

[ 1. 126.60. ..., 0. 30.1 0.349]

[ 1. 93.70. ..., 0. 30.4 0.315]]

[ 1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1. 1.

0. 1. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0.

0. 1. 1. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1.

0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0. 0. 1. 0.

1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0.

0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0.

0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 0. 1. 0. 0. 0. 1. 1.

0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.

0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1. 0. 0. 0. 1. 0. 0.

0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 1. 0. 1.

0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 1. 0. 1.

1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 1.

1. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 0. 0. 1. 1. 0. 0.

0. 1. 1. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 0. 0. 0. 0. 0.

0. 0. 1. 1. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 0. 0. 1.

1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 1.

0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 0.

1. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 1. 1.

0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 1. 0. 0.

0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 1. 1. 0. 1.

1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0. 0.

1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 1. 0. 0. 1. 0.

0. 1. 0. 1. 1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 0.

1. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 0.

0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 1. 1. 0. 0. 1. 0.

0. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.

1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 1.

0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0.

0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0.

0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1.

1. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.

0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.

0. 1. 0. 1. 1. 0. 0. 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 0.

0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 0. 0. 1.

1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.

1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 1. 1.

1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 1. 1. 1. 0.

1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 1. 0. 1.

0. 0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1.

1. 0. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 0. 1. 1. 0. 0. 1.

0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0.

0. 1. 1. 0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 0. 0. 1. 1. 1.

0. 1. 0. 1. 0. 1. 0. 0. 0. 0. 1. 0.]

2数据预处理

　主要在sklearn.preprcessing包下。

规范化：

MinMaxScaler :最大最小值规范化
Normalizer :使每条数据各特征值的和为1
StandardScaler :为使各特征的均值为0，方差为1

编码：

LabelEncoder：把字符串类型的数据转化为整型
OneHotEncoder：特征用一个二进制数字来表示
Binarizer :为将数值型特征的二值化
MultiLabelBinarizer：多标签二值化

通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：

不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。

信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。

定性特征不能直接使用：某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征：假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。

存在缺失值：缺失值需要补充。

信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征哑编码可以达到非线性的效果。类似地，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。

　　preproccessing库来进行数据预处理，可以覆盖以上问题的解决方案。

2.1 无量纲化

　　无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特点的范围，例如[0, 1]等。

2.1.1 标准化

fromsklearn.datasets importload_iris

iris=load_iris()

x=iris['data']

print x[:5,:]

fromsklearn.preprocessing importStandardScaler

x_stand= StandardScaler().fit_transform(iris.data)

printx_stand[:5,:]

输出为：

[[ 5.1 3.5 1.4 0.2]

[ 4.9 3. 1.4 0.2]

[ 4.7 3.2 1.3 0.2]

[ 4.6 3.1 1.5 0.2]

[ 5. 3.6 1.4 0.2]]

[[-0.90068117 1.03205722-1.3412724 -1.31297673]

[-1.14301691 -0.1249576 -1.3412724 -1.31297673]

[-1.38535265 0.33784833 -1.39813811 -1.31297673]

[-1.50652052 0.10644536 -1.2844067 -1.31297673]

[-1.02184904 1.26346019 -1.3412724 -1.31297673]]

2.1.2 区间缩放法

　　区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放，公式表达为：

fromsklearn.preprocessing import MinMaxScaler

x_MM=MinMaxScaler().fit_transform(iris.data)

print x_MM[:5,:]

输出为：

[[ 0.22222222 0.625 0.06779661 0.04166667]

[ 0.16666667 0.41666667 0.06779661 0.04166667]

[ 0.11111111 0.5 0.05084746 0.04166667]

[ 0.08333333 0.45833333 0.08474576 0.04166667]

[ 0.19444444 0.66666667 0.06779661 0.04166667]]

2.1.3标准化与归一化的区别

　　简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。

fromsklearn.preprocessing importNormalizer

x_N=Normalizer().fit_transform(iris.data)

print x_N[0:5,:]

输出为：

[[ 0.80377277 0.55160877 0.22064351 0.0315205 ]

[ 0.82813287 0.50702013 0.23660939 0.03380134]

[ 0.80533308 0.54831188 0.2227517 0.03426949]

[ 0.80003025 0.53915082 0.26087943 0.03478392]

[ 0.790965 0.5694948 0.2214702 0.0316386 ]]

2.2对定量特征二值化

　　定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0，公式表达如下：

　　使用preproccessing库的Binarizer类对数据进行二值化的代码如下：

fromsklearn.preprocessing importBinarizer

x_B=Binarizer().fit_transform(iris.data)

print x_B[:5,:]

输出为：

[[ 1. 1. 1. 1.]

[ 1. 1. 1. 1.]

[ 1. 1. 1. 1.]]

2.3对定性特征哑编码?

One-Hot编码，又称为一位有效编码，主要是采用位状态寄存器来对个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

在实际的机器学习的应用任务中，特征有时候并不总是连续值，有可能是一些分类值，如性别可分为“male”和“female”。在机器学习任务中，对于这样的特征，通常我们需要对其进行特征数字化，如下面的例子：

有如下三个特征属性：

性别：["male"，"female"]

地区：["Europe"，"US"，"Asia"]

浏览器：["Firefox"，"Chrome"，"Safari"，"Internet Explorer"]

对于某一个样本，如["male"，"US"，"Internet Explorer"]，我们需要将这个分类值的特征数字化，最直接的方法，我们可以采用序列化的方式：[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。

对于上述的问题，性别的属性是二维的，同理，地区是三维的，浏览器则是四维的，我们可以采用One-Hot编码的方式对上述的样本“["male"，"US"，"InternetExplorer"]”编码，“male”则对应着[1，0]，同理“US”对应着[0，1，0]，“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为：[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

from sklearnimport preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])

array = enc.transform([[0,1,3]]).toarray()

printarray

输出为：

[[ 1. 0. 0. 1. 0. 0. 0. 0. 1.]]

2.4 缺失值计算

fromsklearn.preprocessing importImputer

import numpyas np

imp = Imputer(missing_values='NaN', strategy='mean', axis=0)

X=np.array([[1,2], [np.nan,7],[5,8]])

imp.fit(X)

print imp.transform(X)

Y=[[5,2], [6, np.nan], [7,6]]

imp.fit(Y)

print imp.transform(Y)

输出为：

[[ 1. 2.]

[ 3. 7.]

[ 5. 8.]]

[[ 5. 2.]

[ 6. 4.]

[ 7. 6.]]

2.5 数据变换

from numpyimport log1p

fromsklearn.preprocessing importFunctionTransformer

printiris.data[0:10]

print FunctionTransformer(log1p).fit_transform(iris.data)[0:10]

输出为：

[[ 5.1 3.5 1.4 0.2]

[ 4.9 3. 1.4 0.2]

[ 4.7 3.2 1.3 0.2]

[ 4.6 3.1 1.5 0.2]

[ 5. 3.6 1.4 0.2]

[ 5.4 3.9 1.7 0.4]

[ 4.6 3.4 1.4 0.3]

[ 5. 3.4 1.5 0.2]

[ 4.4 2.9 1.4 0.2]

[ 4.9 3.1 1.5 0.1]]

[[ 1.80828877 1.5040774 0.87546874 0.18232156]

[ 1.77495235 1.38629436 0.87546874 0.18232156]

[ 1.74046617 1.43508453 0.83290912 0.18232156]

[ 1.7227666 1.41098697 0.91629073 0.18232156]

[ 1.79175947 1.5260563 0.87546874 0.18232156]

[ 1.85629799 1.58923521 0.99325177 0.33647224]

[ 1.7227666 1.48160454 0.87546874 0.26236426]

[ 1.79175947 1.48160454 0.91629073 0.18232156]

[ 1.68639895 1.36097655 0.87546874 0.18232156]

[ 1.77495235 1.41098697 0.91629073 0.09531018]]

2.6 回顾

类	功能	说明
StandardScaler	无量纲化	标准化，基于特征矩阵的列，将特征值转换至服从标准正态分布
MinMaxScaler	无量纲化	区间缩放，基于最大最小值，将特征值转换到[0, 1]区间上
Normalizer	归一化	基于特征矩阵的行，将样本向量转换为“单位向量”
Binarizer	二值化	基于给定阈值，将定量特征按阈值划分
OneHotEncoder	哑编码	将定性数据编码为定量数据
Imputer	缺失值计算	计算缺失值，缺失值可填充为均值等
FunctionTransformer	自定义单元数据转换	使用单变元的函数来转换数据

3特征选择

包：sklearn.feature_extraction
特征抽取是数据挖掘任务最为重要的一个环节，一般而言，它对最终结果的影响要高过数据挖掘算法本身。只有先把现实用特征表示出来，才能借助数据挖掘的力量找到问题的答案。特征选择的另一个优点在于：降低真实世界的复杂度，模型比现实更容易操纵。
一般最常使用的特征抽取技术都是高度针对具体领域的，对于特定的领域，如图像处理，在过去一段时间已经开发了各种特征抽取的技术，但这些技术在其他领域的应用却非常有限。

DictVectorizer：将dict类型的list数据，转换成numpy array
FeatureHasher：特征哈希，相当于一种降维技巧
image：图像相关的特征抽取
text：文本相关的特征抽取
text.CountVectorizer：将文本转换为每个词出现的个数的向量
text.TfidfVectorizer：将文本转换为tfidf值的向量
text.HashingVectorizer：文本的特征哈希

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

· 特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

· 特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。

　　根据特征选择的形式又可以将特征选择方法分为3种：

· Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

· Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

· Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。

交叉验证

3.1 Filter

3.1.1 方差选择法

　　使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

fromsklearn.preprocessing importImputer

importnumpy as np

fromsklearn.datasets importload_iris

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection import VarianceThreshold

iris_=VarianceThreshold(threshold=0.5).fit_transform(iris.data)

printlen(iris_)

print len(iris_[0])

输出为：

150

3.1.2 相关系数法?

　　使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下：

fromsklearn.datasets importload_iris

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection import SelectKBest,chi2

data_K=SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)

printlen(data_K)

print len(data_K[0])

输出为：

150

再来一个例子

from sklearn.feature_selection import SelectKBest

from scipy.stats import pearsonr

SelectKBest(lambda X, Y: np.array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

3.1.3 卡方检验

　　经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量：

　　这个统计量的含义简而言之就是自变量对因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下：

fromsklearn.datasets importload_iris

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection import SelectKBest,chi2

data_K=SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)

printlen(data_K)

print len(data_K[0])

输出为：

150

3.1.4 互信息法?

　　经典的互信息也是评价定性自变量对定性因变量的相关性的，互信息计算公式如下：

　　为了处理定量数据，最大信息系数法被提出，使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下：

import numpyas np

fromsklearn.datasets importload_iris

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection import SelectKBest

fromminepy import MINE

defmic(x, y):

m = MINE()

m.compute_score(x, y)

return(m.mic(), 0.5)

data_K=SelectKBest(lambda X, Y:np.array(map(lambdax:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data,iris.target)

printlen(data_K)

printlen(data_K[0])

3.2 Wrapper

3.2.1 递归特征消除法

　　递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。使用feature_selection库的RFE类来选择特征的代码如下：

importnumpy as np

fromsklearn.datasets importload_iris

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection import RFE

fromsklearn.linear_model importLogisticRegression

data_K=RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)

printlen(data_K)

print len(data_K[0])

输出为：

150

3.3 Embedded

3.3.1基于惩罚项的特征选择法？

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型，来选择特征的代码如下：

importnumpy as np

fromsklearn.datasets importload_iris

fromsklearn.feature_selection.from_modelimport SelectFromModel

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection importRFE

fromsklearn.linear_model importLogisticRegression

data_K=SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data,iris.target)

printlen(data_K)

printlen(data_K[0])

　　L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的特征不代表不重要。故，可结合L2惩罚项来优化。具体操作为：若一个特征在L1中的权值为1，选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合，将这一集合中的特征平分L1中的权值，故需要构建一个新的逻辑回归模型：

　　使用feature_selection库的SelectFromModel类结合带L1以及L2惩罚项的逻辑回归模型，来选择特征的代码如下：

1from sklearn.feature_selection import SelectFromModel

3#带L1和L2惩罚项的逻辑回归作为基模型的特征选择

4#参数threshold为权值系数之差的阈值

5SelectFromModel(LR(threshold=0.5, C=0.1)).fit_transform(iris.data, iris.target)

3.3.2基于树模型的特征选择法

树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：

importnumpy as np

fromsklearn.datasets importload_iris

fromsklearn.feature_selection.from_modelimport SelectFromModel

fromsklearn.ensemble.gradient_boostingimport GradientBoostingClassifier

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection importRFE

fromsklearn.linear_model importLogisticRegression

data_K=SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data,iris.target)

printlen(data_K)

print len(data_K[0])

输出为：

150

3.4模型选择法

fromsklearn import metrics

fromsklearn.ensemble importExtraTreesClassifier

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

model = ExtraTreesClassifier()

model.fit(X, y)

print(model.feature_importances_)

输出为：

[ 0.11938889 0.06338136 0.42425273 0.39297703]

3.5皮尔森相关系数

import numpy as np

from scipy.stats importpearsonr

np.random.seed(0)

size = 300

x = np.random.normal(0,1, size)

print "Lowernoise",pearsonr(x, x + np.random.normal(0, 1, size))

print "Highernoise", pearsonr(x,x + np.random.normal(0, 10, size))

Lower noise(0.71824836862138386,7.3240173129992273e-49)Higher noise (0.057964292079338148,0.31700993885324746)

Pearson相关系数的一个明显缺陷是，作为特征排序机制，他只对线性关系敏感。如果关系是非线性的，即便两个变量具有一一对应的关系，Pearson相关性也可能会接近0。

x = np.random.uniform(-1, 1, 100000)

print pearsonr(x, x**2)[0]

-0.00230804707612

3.6互信息和最大信息系数 Mutual informationandmaximal information coefficient (MIC)

想把互信息直接用于特征选择其实不是太方便：1、它不属于度量方式，也没有办法归一化，在不同数据及上的结果无法做比较；2、对于连续变量的计算不是很方便（X和Y都是集合，x，y都是离散的取值），通常变量需要先离散化，而互信息的结果对离散化的方式很敏感。

最大信息系数克服了这两个问题。它首先寻找一种最优的离散化方式，然后把互信息取值转换成一种度量方式，取值区间在[0，1]。 minepy 提供了MIC功能。

反过头来看y=x^2这个例子，MIC算出来的互信息值为1(最大的取值)。

from minepy import MINE

m = MINE()

x = np.random.uniform(-1, 1, 10000)

m.compute_score(x, x**2)

print m.mic()

1.0

MIC的统计能力遭到了一些质疑，当零假设不成立时，MIC的统计就会受到影响。在有的数据集上不存在这个问题，但有的数据集上就存在这个问题

3.7距离相关系数 (Distancecorrelation)

from scipy import spatial

x=np.random.uniform(-1,1,1000)

spatial.distance.correlation(x,x**2)

0.99133695904559382

3.8回顾

类	所属方式	说明
VarianceThreshold	Filter	方差选择法
SelectKBest	Filter	可选关联系数、卡方校验、最大信息系数作为得分计算的方法
RFE	Wrapper	递归地训练基模型，将权值系数较小的特征从特征集合中消除
SelectFromModel	Embedded	训练基模型，选择权值系数较高的特征
model.feature_importances_	Model
Pearsonr
IV	模型选择法
Distance correlation

4降维

4.1 主成分分析法（PCA）

使用decomposition库的PCA类选择特征的代码如下：

importnumpy as np

fromsklearn.datasets importload_iris

fromsklearn.feature_selection.from_modelimportSelectFromModel

fromsklearn.ensemble.gradient_boostingimportGradientBoostingClassifier

fromsklearn.decomposition.pca import PCA

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection importRFE

fromsklearn.linear_model importLogisticRegression

data_K=PCA(n_components=2).fit_transform(iris.data)

printlen(data_K)

print len(data_K[0])

输出为：

150

4.2线性判别分析法（LDA）

使用lda库的LDA类选择特征的代码如下：

fromsklearn.preprocessing importImputer

importnumpy as np

fromsklearn.datasets importload_iris

fromsklearn.feature_selection.from_modelimportSelectFromModel

fromsklearn.ensemble.gradient_boostingimportGradientBoostingClassifier

fromsklearn.decomposition.pca importPCA

fromsklearn.lda import LDA

iris=load_iris()

printlen(iris.data)

printlen(iris.data[0])

fromsklearn.feature_selection importRFE

fromsklearn.linear_model importLogisticRegression

data_K=LDA(n_components=2).fit_transform(iris.data, iris.target)

printlen(data_K)

print len(data_K[0])

输出为：

150

4.3 回顾

库	类	说明
decomposition	PCA	主成分分析法
lda	LDA	线性判别分析法

5模型选择

BaggingClassifier： Bagging分类器组合
BaggingRegressor： Bagging回归器组合
AdaBoostClassifier： AdaBoost分类器组合
AdaBoostRegressor： AdaBoost回归器组合
GradientBoostingClassifier：GradientBoosting分类器组合
GradientBoostingRegressor： GradientBoosting回归器组合
ExtraTreeClassifier：ExtraTree分类器组合
ExtraTreeRegressor： ExtraTree回归器组合
RandomTreeClassifier：随机森林分类器组合
RandomTreeRegressor：随机森林回归器组合

使用举例

AdaBoostClassifier(DecisionTreeClassifier(max_depth=1),

algorithm="SAMME",

n_estimators=200)

5.1逻辑回归

fromsklearn import metrics

fromsklearn.linear_model importLogisticRegression

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

model = LogisticRegression()

model.fit(X, y)

print(model)

# make predictions

expected = y

predicted = model.predict(X)

# summarize the fit of the model

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

输出为：

LogisticRegression(C=1.0, class_weight=None, dual=False,fit_intercept=True,

intercept_scaling=1,max_iter=100, multi_class='ovr', n_jobs=1,

penalty='l2', random_state=None, solver='liblinear', tol=0.0001,

verbose=0, warm_start=False)

precision recall f1-score support

0 1.00 1.00 1.00 50

1 0.98 0.90 0.94 50

2 0.91 0.98 0.94 50

avg / total 0.96 0.96 0.96 150

[[50 0 0]

[ 0 45 5]

[ 0 1 49]]

5.2朴素贝叶斯

fromsklearn import metrics

fromsklearn.linear_model importLogisticRegression

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

#model = LogisticRegression()

fromsklearn.naive_bayes importGaussianNB

model = GaussianNB()

model.fit(X, y)

print(model)

# make predictions

expected = y

predicted = model.predict(X)

# summarize the fit of the model

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

输出为：

GaussianNB(priors=None)

precision recall f1-score support

0 1.00 1.00 1.00 50

1 0.94 0.94 0.94 50

2 0.94 0.94 0.94 50

avg / total 0.96 0.96 0.96 150

[[50 0 0]

[ 0 47 3]

[ 0 3 47]]

5.3 k近邻

fromsklearn import metrics

fromsklearn.linear_model importLogisticRegression

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

#model = LogisticRegression()

#from sklearn.naive_bayes import GaussianNB

#model = GaussianNB()

fromsklearn.neighbors importKNeighborsClassifier

model = KNeighborsClassifier()

model.fit(X, y)

print(model)

# make predictions

expected = y

predicted = model.predict(X)

# summarize the fit of the model

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

输出为：

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None,n_jobs=1, n_neighbors=5, p=2,

weights='uniform')

precision recall f1-score support

0 1.00 1.00 1.00 50

1 0.96 0.94 0.95 50

2 0.94 0.96 0.95 50

avg / total 0.97 0.97 0.97 150

[[50 0 0]

[ 0 47 3]

[ 0 2 48]]

5.4决策树

fromsklearn import metrics

fromsklearn.linear_model importLogisticRegression

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

#model = LogisticRegression()

#from sklearn.naive_bayes import GaussianNB

#model = GaussianNB()

#from sklearn.neighbors import KNeighborsClassifier

#model = KNeighborsClassifier()

fromsklearn.tree importDecisionTreeClassifier

model = DecisionTreeClassifier()

model.fit(X, y)

print(model)

# make predictions

expected = y

predicted = model.predict(X)

# summarize the fit of the model

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

输出为：

DecisionTreeClassifier(class_weight=None, criterion='gini',max_depth=None,

max_features=None,max_leaf_nodes=None,

min_impurity_split=1e-07, min_samples_leaf=1,

min_samples_split=2,min_weight_fraction_leaf=0.0,

presort=False, random_state=None, splitter='best')

precision recall f1-score support

0 1.00 1.00 1.00 50

1 1.00 1.00 1.00 50

2 1.00 1.00 1.00 50

avg / total 1.00 1.00 1.00 150

[[50 0 0]

[ 0 50 0]

[ 0 0 50]]

5.5支持向量机

fromsklearn import metrics

fromsklearn.linear_model importLogisticRegression

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

#model = LogisticRegression()

#from sklearn.naive_bayes import GaussianNB

#model = GaussianNB()

#from sklearn.neighbors import KNeighborsClassifier

#model = KNeighborsClassifier()

#from sklearn.tree import DecisionTreeClassifier

#model = DecisionTreeClassifier()

fromsklearn.svm importSVC

model = SVC()

model.fit(X, y)

print(model)

# make predictions

expected = y

predicted = model.predict(X)

# summarize the fit of the model

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

输出为：

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,

decision_function_shape=None,degree=3, gamma='auto', kernel='rbf',

max_iter=-1, probability=False,random_state=None, shrinking=True,

tol=0.001, verbose=False)

precision recall f1-score support

0 1.00 1.00 1.00 50

1 1.00 0.96 0.98 50

2 0.96 1.00 0.98 50

avg / total 0.99 0.99 0.99 150

[[50 0 0]

[ 0 48 2]

[ 0 0 50]]

6模型训练

　　网格搜索为自动化调参的常见技术之一，grid_search包提供了自动化调参的工具，包括GridSearchCV类。对组合好的对象进行训练以及调参的代码如下：

1from sklearn.grid_search import GridSearchCV

3#新建网格搜索对象

4#第一参数为待训练的模型

5  #param_grid为待调参数组成的网格，字典格式，键为参数名称（格式“对象名称__子对象名称__参数名称”），值为可取的参数值列表

6  grid_search = GridSearchCV(pipeline, param_grid={'FeatureUnionExt__ToBinary__threshold':[1.0, 2.0, 3.0, 4.0], 'LogisticRegression__C':[0.1, 0.2, 0.4, 0.8]})

7#训练以及调参

8 grid_search.fit(iris.data, iris.target)

6.1网格搜索

import numpyas np

fromsklearn.linear_model import Ridge

fromsklearn.grid_search importGridSearchCV

fromsklearn.datasets importload_iris

X=load_iris().data

y=load_iris().target

# prepare a range of alpha values to test

alphas = np.array([1,0.1,0.01,0.001,0.0001,0])

# create and fit a ridge regression model, testing each alpha

model = Ridge()

grid=GridSearchCV(estimator=model,param_grid=dict(alpha=alphas))

grid.fit(X, y)

print(grid)

# summarize the results of the grid search

print(grid.best_score_)

print(grid.best_estimator_.alpha)

输出为：

GridSearchCV(cv=None, error_score='raise',

estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,

normalize=False, random_state=None, solver='auto', tol=0.001),

fit_params={}, iid=True,n_jobs=1,

param_grid={'alpha':array([ 1.00000e+00, 1.00000e-01, 1.00000e-02, 1.00000e-03,

1.00000e-04, 0.00000e+00])},

pre_dispatch='2*n_jobs',refit=True, scoring=None, verbose=0)

0.0

1.0

6.2随机区间

importnumpy as np

fromsklearn.linear_model import Ridge

fromsklearn.grid_search import GridSearchCV

fromsklearn.datasets import load_iris

X=load_iris().data

y=load_iris().target

importnumpy as np

fromscipy.stats import uniformas sp_rand

fromsklearn.linear_model import Ridge

fromsklearn.grid_search import RandomizedSearchCV

# prepare a uniform distribution to sample for the alphaparameter

param_grid= {'alpha': sp_rand()}

# create and fit a ridge regression model, testing random alphavalues

model =Ridge()

rsearch =RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100)

rsearch.fit(X,y)

print(rsearch)

# summarize the results of the random parameter search

print(rsearch.best_score_)

print(rsearch.best_estimator_.alpha)

输出为：

RandomizedSearchCV(cv=None,error_score='raise',

estimator=Ridge(alpha=1.0,copy_X=True, fit_intercept=True, max_iter=None,

normalize=False,random_state=None, solver='auto', tol=0.001),

fit_params={}, iid=True, n_iter=100,n_jobs=1,

param_distributions={'alpha':},

pre_dispatch='2*n_jobs',random_state=None, refit=True,

scoring=None,verbose=0)

0.0

0.878599646028

6.3参数选择（过拟合）

from sklearn.learning_curve importvalidation_curve

from sklearn.datasets import load_digits

from sklearn.svm import SVC

import matplotlib.pyplot as plt

import numpy as np

digits=load_digits()

X=digits.data

y=digits.target

param_range=np.logspace(-6,-2.3,5)

train_loss,test_loss=validation_curve(

SVC(),X,y,param_name='gamma',param_range=param_range,cv=10,

scoring='mean_squared_error')

train_loss_mean=-np.mean(train_loss,axis=1)

test_loss_mean=-np.mean(test_loss,axis=1)

plt.plot(param_range,train_loss_mean,'o-',color="r",label="Training")

plt.plot(param_range,test_loss_mean,'o-',color="g",label="Cross_validation")

plt.xlabel("gamma")

plt.ylabel("Loss")

plt.show()

6.4训练可视化

from sklearn.learning_curve importlearning_curve

from sklearn.datasets import load_digits

from sklearn.svm import SVC

import matplotlib.pyplot as plt

import numpy as np

digits=load_digits()

X=digits.data

y=digits.target

param_range=np.logspace(-6,-2.3,5)

train_sizes,train_loss,test_loss=learning_curve(

SVC(gamma=0.001),X,y,cv=10,

scoring='mean_squared_error',

train_sizes=[0.1,0.25,0.5,0.75,1])

train_loss_mean=-np.mean(train_loss,axis=1)

test_loss_mean=-np.mean(test_loss,axis=1)

plt.plot(train_sizes,train_loss_mean,'o-',color="r",label="Training")

plt.plot(train_sizes,test_loss_mean,'o-',color="g",label="Cross_validation")

plt.xlabel("Training Learning")

plt.ylabel("Loss")

plt.show()

7模型评价

7.1 accuracy_score

from sklearn.metricsimport accuracy_score

y_pred=[0,1,1,0,0]

y_true=[1,1,1,1,0]

printaccuracy_score(y_true,y_pred)

输出为：

0.6

7.2condusion_matrix？

>>>fromsklearn.metrics import confusion_matrix

>>>y_true=[0,0,1,1,0]

>>>y_pred=[0,0,0,1,0]

>>>confusion_matrix(y_true,y_pred)

array([[3,0],

[1, 1]])

7.3classification_report

>>>from sklearn.metrics importclassification_report

>>> y_true = [0, 1, 2, 2, 2]

>>> y_pred = [0, 0, 2, 2, 1]

>>> target_names = ['class 0', 'class 1','class 2']

>>>print(classification_report(y_true,y_pred, target_names=target_names))

precision recall f1-score support

class 0 0.50 1.00 0.67 1

class 1 0.00 0.00 0.00 1

class 2 1.00 0.67 0.80 3

avg / total 0.70 0.60 0.61 5

7.4 precision_recall_fscore_support

>>>from sklearn.metrics importprecision_recall_fscore_support

>>> y_true = np.array(['cat', 'dog', 'pig','cat', 'dog', 'pig'])

>>> y_pred = np.array(['cat', 'pig', 'dog','cat', 'cat', 'dog'])

>>> precision_recall_fscore_support(y_true,y_pred, average='macro')

...

(0.22..., 0.33..., 0.26..., None)

>>> precision_recall_fscore_support(y_true,y_pred, average='micro')

...

(0.33..., 0.33..., 0.33..., None)

>>> precision_recall_fscore_support(y_true,y_pred, average='weighted')

...

(0.22..., 0.33..., 0.26..., None)

7.5 jaccard_similarity_score

>>> import numpy as np

>>>from sklearn.metrics importjaccard_similarity_score

>>> y_pred = [0, 2, 1, 3]

>>> y_true = [0, 1, 2, 3]

>>> jaccard_similarity_score(y_true, y_pred)

0.5

>>> jaccard_similarity_score(y_true, y_pred,normalize=False)

7.6 hamming_loss：汉明损失

>>>from sklearn.metrics import hamming_loss

>>> y_pred = [1, 2, 3, 4]

>>> y_true = [2, 2, 3, 4]

>>> hamming_loss(y_true, y_pred)

0.25

7.7 zero_one_loss：0-1损失

>>>from sklearn.metrics import zero_one_loss

>>> y_pred = [1, 2, 3, 4]

>>> y_true = [2, 2, 3, 4]

>>> zero_one_loss(y_true, y_pred)

0.25

>>> zero_one_loss(y_true, y_pred,normalize=False)

7.8 hinge_loss：hinge损失

>>>from sklearn import svm

>>>from sklearn.metrics import hinge_loss

>>> X = [[0], [1]]

>>> y = [-1, 1]

>>>est = svm.LinearSVC(random_state=0)

>>> est.fit(X, y)

LinearSVC(C=1.0, class_weight=None, dual=True,fit_intercept=True,

intercept_scaling=1, loss='squared_hinge', max_iter=1000,

multi_class='ovr', penalty='l2', random_state=0, tol=0.0001,

verbose=0)

>>> pred_decision =est.decision_function([[-2], [3], [0.5]])

>>> pred_decision

array([-2.18..., 2.36..., 0.09...])

>>> hinge_loss([-1, 1, 1],pred_decision)

0.30...

再来一个例子

>>> X = np.array([[0], [1], [2], [3]])

>>> Y = np.array([0, 1, 2, 3])

>>>labels = np.array([0, 1, 2, 3])

>>>est = svm.LinearSVC()

>>> est.fit(X, Y)

LinearSVC(C=1.0, class_weight=None, dual=True,fit_intercept=True,

intercept_scaling=1, loss='squared_hinge', max_iter=1000,

multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,

verbose=0)

>>> pred_decision =est.decision_function([[-1], [2], [3]])

>>> y_true = [0, 2, 3]

>>> hinge_loss(y_true, pred_decision,labels)

0.56...

7.9 log_loss：log损失

>>> log_loss(["spam","ham", "ham", "spam"],

... [[.1, .9], [.9, .1], [.8, .2], [.35, .65]])

0.21616...

其中，F1是以每个类别为基础进行定义的，包括两个概念：准确率（precision）和召回率（recall）。准确率是指预测结果属于某一类的个体，实际属于该类的比例。召回率是被正确预测为某类的个体，与数据集中该类个体总数的比例。F1是准确率和召回率的调和平均数。

回归结果度量

explained_varicance_score：可解释方差的回归评分函数
mean_absolute_error：平均绝对误差
mean_squared_error：平均平方误差

多标签的度量

coverage_error：涵盖误差
label_ranking_average_precision_score：计算基于排名的平均误差Label ranking average precision (LRAP)

聚类的度量

adjusted_mutual_info_score：调整的互信息评分
silhouette_score：所有样本的轮廓系数的平均值
silhouette_sample：所有样本的轮廓系数

8模型持久性

8.1 joblib

>>>from sklearn import svm

>>> X = [[0, 0], [1, 1]]

>>> y = [0, 1]

>>>clf = svm.SVC()

>>> clf.fit(X, y)

>>>clf.fit(train_X,train_y)

>>>joblib.dump(clf,"train_model.m")

>>>clf =joblib.load("train_model.m")

from skleanr.externals import joblib

joblib.dump(clf,'save/clf')

clf2=joblib.load('save/clf')

8.2 pickle

fromsklearn import svm

fromsklearn import datasets

fromsklearn.cross_validation import train_test_split

fromsklearn.ensemble importRandomForestClassifier

#model = svm.SVC()

model=RandomForestClassifier()

iris = datasets.load_iris()

X, y = iris.data, iris.target

printX.shape

printy.shape

x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.2)

model.fit(x_train, y_train)

importpickle

s = pickle.dumps(model)

model_ = pickle.loads(s)

printmodel_.predict(x_test)

#或者

with open("save/model.pickle","wb") as f:

pickle.dump(model,f)

with open("save/model.pickle","rb") as f:

model2=pickle.load(f)

//////////////////////////////////////////

欢迎加我qq:308747509,大家一起讨论，此文章会持续更新，修正其中的错误，改进其中的方法...

你可能感兴趣的:(机器学习,大数据)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option