muge`

机器学习笔记

常用基本库

第零部分数据勘察

1、去除重复值

2、查看数据分布

第一部分数据预处理

1、数据清洗

2、数据变换

第二部分：特征选择

方差过滤特征

常用基本库

第零部分数据勘察

1、去除重复值

#1、查看数据是否有重复值
data_ord.duplicated().sum() 
data_ord.drop_duplicates(inplace=True) 
data_na.head()

2、查看数据分布

# 描述性统计
data_med.describe()

# 画出各个特征分布图
object_features = list(set(data_na.columns) - set(['ID', 'Purchase or not','lab']))
for feature in object_features:
    print(feature)
    df_train = data_na[data_na['lab']=='train'].copy()
    
    #如果特征类别数大于 10 个则需要分开做操作
    #to_numeric 把特征值转化为数字类型、unique 去重函数、cut 将数据进行分割 
    
    if feature not in ['User area', 'gender']:
        df_train[feature] = pd.to_numeric(df_train[feature])
    
    if len(df_train[feature].unique())>=20:
        df_train['cut'] = pd.cut(df_train[feature],bins=20, include_lowest=True, right=False, precision=0)
        temp_pivot = df_train.pivot_table(index="cut", values='ID', columns='Purchase or not', aggfunc='count', fill_value=0)
    else:
        temp_pivot = df_train.pivot_table(index=feature, values='ID', columns='Purchase or not', aggfunc='count', fill_value=0)
    temp_pivot['percent'] = temp_pivot[1] / (temp_pivot[0]+temp_pivot[1])
    temp_pivot['percent'].plot.bar()
    plt.show()

第一部分数据预处理

1、数据清洗

缺失值填补

方法一：
from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer() #实例化，默认均值填补
imp_median = SimpleImputer(strategy="median") #⽤中位数填补
imp_0 = SimpleImputer(strategy="constant",fill_value=0) #⽤0填补

#fit_transform⼀步完成调取结果
data['age'] = imp_mean.fit_transform(Age) 

#使⽤众数填补Embarked
Embarked = data.loc[:,"Embarked"].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = "most_frequent")
data.loc[:,"Embarked"] = imp_mode.fit_transform(Embarked)

方法二：
data.loc[:,"Age"] = data.loc[:,"Age"].fillna(data.loc[:,"Age"].median())
#.fillna 在DataFrame⾥⾯直接进⾏填补
data.dropna(axis=0,inplace=True)
#.dropna(axis=0)删除所有有缺失值的⾏， .dropna(axis=1)删除所有有缺失值的列
#参数inplace，为True表示在原数据集上进⾏修改，为False表示⽣成⼀个复制对象，不修改原数据

方法三：
# 用 KNN 插入填补离散型特征的缺失值 
from missingpy import KNNImputer
imputer = KNNImputer(n_neighbors=2, weights="uniform")
data_imp=imputer.fit_transform(data_na_imp)

# 用随机森林填补连续缺失值  ****略微耗时 
from missingpy import MissForest 
mf_imp=MissForest() 
data_imp=mf_imp.fit_transform(data_na_imp)

噪声清除
识别噪声的方法：

通过排序观察到过大过小的值
在平均值 ±3 倍标准差外的为噪声
通过四分位发识别噪声 IQR=Q3=Q1 Q1-1.5IQR ~ Q3+1.5IQR

处理方法：将离群值视为空、天花板/盖帽法、函数矫正 (用log(离群值)/1og10 处理压缩数据)

# 离群值用分位数进行处理 
per_columns=set(data_imp_result.columns)- set(['ID', 'User area','gender','Purchase or not','lab'])

def cap(x, quantile=[0.05, 0.95]):
    Q05, Q95=x.quantile(quantile).values.tolist()
   
    # 替换异常值为指定的分位数
    if Q05 > x.min():
        x = x.copy()
        x.loc[xQ95] = Q95
    return(x)

# 对训练集进行盖帽法
data_med_2 = data_imp_result[per_columns].apply(cap) 
# 将原始 ID 和 y 列拼接
# new_data = pd.concat([data_imp_result[['ID', 'User area','gender','Purchase or not','lab']], data_med_2], axis=1)

data_result=data_imp_result.copy()
data_result[data_med_2.columns]=data_med_2
data_result.head()

2、数据变换

数据规范化：属性数据可以缩放使得他们落在较小的区间

最大最小正规化

#归一化 
from sklearn import preprocessing
mms=preprocessing.MinMaxScaler().fit(df_train.iloc[:,1:-1])
mms.transform(df_train.iloc[:,1:-1]) 
np.around(mms.transform(df_test.iloc[:,1:-1]),2)

Z 分数正规化

#标准化
from sklearn import preprocessing  
scaler=preprocessing.StandardScaler().fit(df_train.iloc[:,1:-1])
scaler.transform(df_train.iloc[:,1:-1])
np.around(scaler.transform(df_test.iloc[:,1:-1]),2)

数据离散化：通过把值映射到区间或者概念标号变换数值数据包括分箱、聚类、决策树、相关分析

# 人工离散 
age_range = list(range(0,111,10))
train_data5['age_cut1'] = pd.cut(train_data5['age'], age_range, include_lowest=True, right=False)
train_data5['age_cut1'].value_counts().sort_index()

# 等宽装箱
train_data5['age_cut2'] = pd.cut(train_data5['age'], bins=10, include_lowest=True, right=False, precision=0)
train_data5['age_cut2'].value_counts().sort_index()

# 等深装箱
train_data5['age_cut3'] = pd.qcut(train_data5['age'], 10, precision=1)
train_data5['age_cut3'].value_counts().sort_index()

概念分层：可以基于模式定义以及每个属性的不同值个数产生

#分类型特征 编码 3种： 
#自动离散编码 
d = data['Sex'].value_counts()
data['Sex'].replace(pd.Series(range(len(d)), index = d.index))

#LabelEncoder 连续性指派，分类标签转化成分类数值
from sklearn import preprocessing 
code_age=train['age']
lcode=preprocessing.LabelEncoder()
train['age']=lcode.fit_transform(code_age)

# OneHotEncoder 独热编码 创建出哑变量，OrdinalEncoder 有顺序的独热编码
from matplotlib import pyplot as plt 
plt.hist(new_train_data['age'])
new_train_data['SeriousDlqin2yrs'].value_counts()
data=[['female','18','student'],['male','35','engineer'],['female','25','teacher']]

encoder=preprocessing.OneHotEncoder().fit(data)
encoder.transform(data).toarray()
encoder.categories_ ,encoder.get_feature_names()

#连续型特征 二值化
from sklearn.preprocessing import Binarizer
X = data_2.iloc[:,0].values.reshape(-1,1) #类为特征专⽤，所以不能使⽤⼀维数
组
transformer = Binarizer(threshold=30).fit_transform(X)
transformer

#连续型特征 分段为多分类
from sklearn.preprocessing import KBinsDiscretizer
X = data.iloc[:,0].values.reshape(-1,1)
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit_transform(X)#查看转换后分的箱：变成了⼀列中的三箱
set(est.fit_transform(X).ravel())
est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='uniform')
#查看转换后分的箱：变成了哑变量
est.fit_transform(X).toarray()
est = KBinsDiscretizer(n_bins=3, encode='onehot', strategy='quantile')
#查看转换后分的箱：变成了哑变量,且每个类别数量基本相等
est.fit_transform(X).toarray().sum(0)

? 数据归约：减少需要考虑的维的个数，将原数据较小表示

维归约：主成分分析

数量归约：等深分箱等宽分箱，抽样

第二部分：特征选择

数据过滤：冗余和相关分析；方差过滤，删除方差为 0 没有意义的特征；相关性过滤特征：选出与标签有关且有意义的特征；降维：主成分、因子分析

方差过滤特征

#优先删掉方差为 0 的特征 0表示所有数据都一样或者数据波动不大 对目标变量就没什么用
from sklearn.feature_selection import VarianceThreshold
X_fs0 = VairanceThreshold().fit_transform(X) #默认方差为 0

#参数threshold表示方差的阈值
VTS=VarianceThreshold(np.median(X.var().values)).fit(X) #实例化并训练模型
X_fsvar =VTS.transform(X)  

#查看模型相关接⼝
VTS.get_support(indices=False) #返回与原特征⻓度相等的布尔索引，被留下的特征为True
VTS.get_support(indices=True) #返回被留下的特征的索引

#提取出所有满⾜要求的特证名,以下两种表达都可以
X.columns[VTS.get_support(indices=False)]
X.columns[VTS.get_support(indices=True)]

#提取出满⾜要求的特征矩阵,以下两种表达都可以
X.iloc[:,VTS.get_support(indices=True)]
X.loc[:,VTS.get_support()]

Embedded嵌入法

SelectFromModel是⼀个元变换器，可以与任何在拟合后具有coef_， feature_importances_属性或
参数中可选惩罚项的评估器⼀起使⽤（⽐如随机森林和树模型就具有属性feature_importances_，逻辑
回归就带有l1和l2惩罚项，线性⽀持向量机也⽀持l2惩罚项）

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFC
RFC_ = RFC(n_estimators =10,random_state=0)
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)

#画出学习曲线来确定阈值
import numpy as np
import matplotlib.pyplot as plt

RFC_.fit(X,y).feature_importances_
threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)

score = []
for i in threshold:
  X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y) 
  once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()
  score.append(once)
plt.plot(threshold,score)
plt.show()

降维筛选

from sklearn.decomposition import PCA

#画累计⽅差贡献率曲线，找最佳降维后维度的范围
pca_line = PCA().fit(X)
plt.figure(figsize=[20,5])
plt.plot(np.cumsum(pca_line.explained_variance_ratio_))
plt.xlabel("number of components after dimension reduction")
plt.ylabel("cumulative explained variance ratio")
plt.show()

#降维后维度的学习曲线，继续缩⼩最佳维度的范围
score = []
for i in range(1,101,10):
X_dr = PCA(i).fit_transform(X)
once = cross_val_score(RFC(n_estimators=10,random_state=0)
,X_dr,y,cv=5).mean()
score.append(once)
plt.figure(figsize=[20,5])
plt.plot(range(1,101,10),score)
plt.show()

X_dr = PCA(23).fit_transform(X)
cross_val_score(RFC(n_estimators=100,random_state=0),X_dr,y,cv=5).mean()

#用 pca 降维之后 再用 KNN 算法是否能得到较好的结果
#KNN的k值学习曲线
score = []
for i in range(10):
X_dr = PCA(23).fit_transform(X)
once = cross_val_score(KNN(i+1),X_dr,y,cv=5).mean()
score.append(once)
plt.figure(figsize=[20,5])
plt.plot(range(10),score)
plt.show()

第三部分：数据集拆分

from sklearn.mode_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,random_state=50)

第四部分：数据挖掘模型

分为有监督模型和无监督模型

有监督：指有目标字段(比如根据现有的收入值预测明年的收入，根据现有各种类别用户的行为预测其他用户属于哪一种类别)

# 拟合模型
model.fit(X_train, y_train)
# 模型预测
model.predict(X_test)

# 获得这个模型的参数
model.get_params()
# 为模型进行打分
model.score(data_X, data_y) # 线性回归：R square； 分类问题： acc

1、线性回归

回归模型可以理解为：现有的一个点集，用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线，则称为线性回归。如果是一条二次曲线，则被称为二次回归。
假设函数 用数学的方法描述自变量和因变量之间的关系，它们之间可以是一个线性函数或非线性函数如 a,b。
损失函数 用数学的方法衡量假设函数预测结果与真实值之间的误差。差距越小预测越准确，算法的任务就是使差距最小。
在模型训练中优化算法也是至关重要的，它决定了一个模型的精度和运算速度。一般线性回归实例中主要使用梯度下降法进行优化。梯度就是函数变化增长最快的方向梯度下降就是求函数的最小值梯度上升就是求函数的最大值

最小损失函数minSSE=∑(Yi-aXi-b) ^2
最小二乘的 SSE 是一个凸函数，凸函数的特点就是只有一个最低点，可以通过求偏导的方法来找到最低点
SSE 是a,b的函数，因为 a,b未知
用已知的 x 和 y 的信息去估计一个最好的 a,b 从而使的模型的损失最小
如何找最小值：在此 SSE 中需要先对 b求导让他等于 0，得到中间结果后利用此结果再对 a 求导让其等于 0

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error,r2_score

# 定义线性回归模型
model = LinearRegression(fit_intercept=True, normalize=False, 
    copy_X=True, n_jobs=1)
"""
参数
---
    fit_intercept：是否计算截距。False-模型没有截距
    normalize： 当fit_intercept设置为False时，该参数将被忽略。 如果为真，则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。
     n_jobs：指定线程数
"""
y=ax+b   a:model.coef_   b:model.intercept_

#将预测标签与真实标签一同放入包内 计算均方差 r2得分
mean_squared_error(Y,Y_pred),r2_score(Y,Y_pred)

SST=SSR+SSE ；SST 因变量总变化；SSR因变量可解释变化；SSE 因变量不可解释变化； r2=SSR/SST
线性回归注意事项：
一般要求因变量Y是正态总体的随机变量
做回归要有实际意义，回归线不可外延
做回归前要绘制散点图，特大特小的离群值需要剔除
变量之间要排除多重共线性异方差性残差自相关性

2、逻辑回归LR

将线性回归所产生的值带入到逻辑方程式，将输出值压制在 0-1 之间，用来预测有一个或者多个自变量构成的分类函数中属于某一类的概率，主要用于因素探索性分析Logistic回归实质：发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因，是发生和未发生的概率成为了比值，这个比值就是一个缓冲，将取值范围扩大，再进行对数变换，整个因变量改变。不仅如此，这种变换往往使得因变量和自变量之间呈线性关系，这是根据大量实践而总结。所以，Logistic回归从根本上解决因变量要不是连续变量怎么办的问题公式：log(p/1-p)=p0+p1x1+.........+pkxk
如果数据里面没有多重共线性的话，最小二乘（那个最原始的回归）的分数肯定是最好的
如果x里面或多或少出现了多重共线性，我们采用ridge和lasso加上一个恒大于等于0的惩罚项找到一个局部最优
损失函数 SSE=(y-y_pred).T*(y-y_pred)+ ?
如果损失函数后面是lamabda∑|theta| 表示1范式 Lasso, 用于做特征选取惩罚强度大如果损失函数后面是lamabda∑(theta)^2 表示2范式 Ridge 用于数据含有多重共线性

from sklearn.linear_model import LogisticRegression
# 定义逻辑回归模型
model = LogisticRegression(solver='sag',multi_class='multinomial',max_iter=5000)

"""参数
---
    penalty：使用指定正则化项（默认：l2）
    solver:损失函数的优化方法 
    multi_class:'multinomial'
    dual: n_samples > n_features取False（默认）
    C：正则化强度的反，值越小正则化强度越大
    n_jobs: 指定线程数
    random_state：随机数生成器
    fit_intercept: 是否需要常量
"""

优点：
逻辑回归不假设自变量和因变量存在线性关系
逻辑回归不假设因变量和误差变量呈正态分布
预测结果是介于 0-1 之间的概率
可适用于连续型和类别型的自变量
容易使用和解释
缺点：
对模型中自变量多重共线性较为敏感
预测结果呈S型两端变化小中间变化大导致很多区间变量变化对目标概率影响没有区分度无法确定阈值
逻辑回归相关参数解释 https://blog.csdn.net/laobai1015/article/details/80512849

3、朴素贝叶斯 NB

对于给出的待分类项，求解此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类属于哪个类别。
贝叶斯分类必须限制特征属性必须有条件独立或基本独立

高斯朴素贝叶斯：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度。
多项式朴素贝叶斯：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在一个单词出现的次数，或者是单词的 TF-IDF 值等。
伯努利朴素贝叶斯：特征变量是布尔变量，符合 0/1 分布，在文档分类中特征是单词是否出现。
*伯努利朴素贝叶斯是以文件为粒度，如果该单词在某文件中出现了即为 1，否则为 0。而多项式朴素贝叶斯是以单词为粒度，会计算在某个文件中的具体次数。而高斯朴素贝叶斯适合处理特征变量是连续变量，且符合正态分布（高斯分布）的情况。比如身高、体重这种自然界的现象就比较适合用高斯朴素贝叶斯来处理。而文本分类是使用多项式朴素贝叶斯或者伯努利朴素贝叶斯。

from sklearn import naive_bayes
model = naive_bayes.GaussianNB() # 高斯贝叶斯
model = naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
model = naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)
"""
文本分类问题常用MultinomialNB
参数
---
    alpha：平滑参数
    fit_prior：是否要学习类的先验概率；false-使用统一的先验概率
    class_prior: 是否指定类的先验概率；若指定则不能根据参数调整
    binarize: 二值化的阈值，若为None，则假设输入由二进制向量组成
"""

4、支持向量机SVM

SVM 利用支持向量 SV 作为构建分割超平面的重要数据，最佳的超平面指边界最大化的超平面。(最佳分割线的标准对之前未见到的数据具有最小分类错误率的直线)，支持向量 SV 即落在最佳跑超平面边缘上的数据，因他们最难分类正确，若他们分类正确了，那么其余的训练数据也都能被正确分类

优点：
能构建复杂非线性决策边界，通常具有极高准确率
一般不会出现过拟合，因 SVM 不会使用全量数据而是挑选出支持向量
低维空间向量集难以划分，只要选对适当的核函数就能得到高维空间的分类函数(核函数：多项式、高斯、sigmod)
缺点：
训练时间过长 (要计算距离，需要对特征进行规范化)

from sklearn.svm import SVC
model = SVC(C=1.0, kernel=’rbf’, gamma=’auto’)
"""参数
---
    C：误差项的惩罚参数C
    gamma: 核相关系数。浮点数，If gamma is ‘auto’ then 1/n_features will be used instead.
"""

5、最近邻分类 KNN

定义：对于训练集中每条记录 KNN 确定该记录与训练数据集中相似度最近的 K 条记录，根据这些记录数据的类别将待分类的记录并归到最可能的类别中
KNN 假设：
相同类别的用户有同样的行为
需要判别的点会做跟令居相同的事
优点：
对数据分布没有要求，训练阶段很，可以产生任何形状的决策边界
由于只取前k个最近邻点对较远的噪声点表现鲁棒，所以能很好的避免样本不平衡
缺点：
不产生模型，发现特征间关系的能力有限
分类阶段很慢，类别变量和缺失值需要额外的处理

from sklearn import neighbors
#定义kNN分类模型
model = neighbors.KNeighborsClassifier(n_neighbors=5, n_jobs=1) # 分类
model = neighbors.KNeighborsRegressor(n_neighbors=5, n_jobs=1) # 回归
"""参数
---
    n_neighbors： 使用邻居的数目
    n_jobs：并行任务数
"""

6、神经网络

定义：类似于大脑神经网络，神经网络中有很多神经元，神经元分为输入层、隐藏层、输出层
输入层：负责接收外界刺激
隐藏层：负责增加计算能力，以解决困难问题
输出层：决策层，负责进行决策
神经元由上一层神经元与本层神经元交叉形成的神经建、权重加总、常数项、激活函数组成，激活函数是一个以权重加和及常数项之和为自变量的函数
优点：
自学习能力和自适应能力强
用各种非线性连续函数作为激活函数给模型提供了非线性映射能力，能解决更复杂的问题
容错能力部分神经元受损对整体结果不会造成太大影响
缺点：
对初始网络权重非常敏感，以不同的权重初始化网络，其往往会收敛于不同的局部极小
BP 神经网络算法的收敛速度慢
过拟合问题？

from sklearn.neural_network import MLPClassifier
# 定义多层感知机分类算法
model = MLPClassifier(activation='relu', solver='adam', alpha=0.0001)
"""参数
---
    hidden_layer_sizes: 元祖
    activation：激活函数
    solver ：优化算法{‘lbfgs’, ‘sgd’, ‘adam’}
    alpha：L2惩罚(正则化项)参数。
"""

9、决策树 DT

在已知各种情况发生的概率下通过构成决策树来求取净现值的期望值大于等于 0 的小概率评价项目风险
决策树生成过程：
将所有训练数据放在根节点
字段选择：根据所选字段将数据进行切割
决策树修剪：修剪过程就是溢出部分树分支避免过拟合提高模型准确度
字段选择方法有：ID3，C4.5 ，C5.0， CART， CHAID

from sklearn import tree 
model = tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None, 
    min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, 
    max_features=None, random_state=None, max_leaf_nodes=None, 
    min_impurity_decrease=0.0, min_impurity_split=None,
     class_weight=None, presort=False)
"""参数
---
    criterion ：特征选择准则gini/entropy
    max_depth：树的最大深度，None-尽量下分
    min_samples_split：分裂内部节点，所需要的最小样本树
    min_samples_leaf：叶子节点所需要的最小样本数
    max_features: 寻找最优分割点时的最大特征数
    max_leaf_nodes：优先增长到最大叶子节点数
    min_impurity_decrease：如果这种分离导致杂质的减少大于或等于这个值，则节点将被拆分。
"""

10、集成算法

集成算法：将若干个弱分类器通过一定的策略组合之后产生一个强分类器，分 3 类：装袋法(bagging)、提升法(boosting)、堆叠法(stacking)
装袋法(bagging): 根据均有概率分布从数据集中有放回的重复抽样，每个新数据及和原始数据集大小相等
优点：
各个预测函数可以并行生成节省大量时间开销
能在一定程度上解决过拟合，但是可能会欠拟合
缺点：单个评估其学习能力较弱的的时候 bagging 无法提升模型表现
目标：降低方差，提高模型整体的稳定性
代表算法：随机森林

提升法(boosting)：是一个迭代过程，用来自适应地改变训练样本的分布，是的弱分类器聚集到哪些很难分类的样本上。
做法是给每一个训练样本赋予一个权重，在每一轮结束时自动调整权重
优点：
单个评估学习能力较弱的时候 boosting 有一定可能提升模型表现
在大多数数据集中 boosting 准确性要高于 bagging
缺点:
各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果会比较耗时
会加剧过拟合问题
目标：降低偏差，提高模型整体的精准度
代表算法：adaboost、gdbt、xgboost

随机森林

from sklearn.ensemble import RandomForestClassifier 

rfc_model=RandomForestClassifier(n_estimators=50,class_weight='balanced',random_state=5).fit(x_train,y_train)
y_test_pred=rfc_model.predict(x_test)

11、网格搜索

#网格搜索使得 f1 得分最高 
from sklearn.metrics import make_scorer
from sklearn.ensemble import RandomForestClassifier as rfc 
from sklearn.model_selection import GridSearchCV

scorer = make_scorer(f1_score, pos_label=0)
c_gamma_range = [0.01, 0.1, 1.0, 10.0]

param_grid = [{'clf__C': c_gamma_range,
               'clf__kernel': ['linear']},
               {'clf__C': c_gamma_range,
               'clf__gamma': c_gamma_range,
               'clf__kernel': ['rbf']}]
#param_grid =[{'n_estimators':range(50,100,10),
#             'max_depth':range(5,20,10)}]

# 初始化网格搜索的方法
gs = GridSearchCV(estimator=rfc(),
                  param_grid=param_grid,
                  scoring=scorer,
                  cv=10,
                  n_jobs=-1)
#用网格搜索方法进行拟合数据
gs = gs.fit(X_train, y_train)
# 输出最优的参数组合
print(gs.best_score_)
print(gs.best_params_)
best_model = gs.best_estimator_

无监督：就是没有目标字段，比如拿到一堆数据不知道数据里面到底有什么信息我们就可以用聚类然后找出每一类的特征

12、聚类分析

保持质心点位置不变，更新类别

保持类别不变更新质心点，如此循环，迭代，直到质心点位置不变

损失函数==组内误差和

EM算法最小化损失函数：E 保持组质心不变，更新类别 M 保持组类别不变，更新质心

方法一：手肘法 随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小，常用clf.inertia_评估指标，他的缺点：这个评价参数表示的是簇中某一点到簇中距离的和，这种方法虽然在评估参数最小时表现了聚类的精细性，但是这种情况会出现划分过于精细的状况，并且未考虑和簇外点的距离最大化

import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
 
df_features = pd.read_csv('train.csv',encoding='gbk') # 读入数据
'利用SSE选择k'
SSE = []  # 存放每次结果的误差平方和
for k in range(1,9):
    estimator = KMeans(n_clusters=k)  # 构造聚类器
    estimator.fit(df_features[['R','F','M']])
    SSE.append(estimator.inertia_)
X = range(1,9)
plt.xlabel('k')
plt.ylabel('SSE')
plt.plot(X,SSE,'o-')
plt.show()

方法二：轮廓系数法 轮廓系数的公式为：S=(b-a)/max(a,b)，其中a是单个样本离同类簇所有样本的距离的平均数，b是单个样本到不同簇所有样本的平均。平均轮廓系数的取值范围为[-1,1]，且簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果越好。那么，很自然地，平均轮廓系数最大的k便是最佳聚类数。

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
 
df_features = pd.read_csv('train.csv',encoding='gbk')
Scores = []  # 存放轮廓系数
for k in range(2,9):
    kms = KMeans(n_clusters=k)  # 构造聚类器
    kms.fit(df_features[['R','F','M']])
    Scores.append(silhouette_score(df_features[['R','F','M']],kms.labels_,metric='euclidean'))
X = range(2,9)
plt.xlabel('k')
plt.ylabel('轮廓系数')
plt.plot(X,Scores,'o-')
plt.show()

两者结合看效果更好

13 关联规则

寻找在同一事件中出现不同项的相关性，通过量化的数字表示物品 X 出现对物品 Y 出现有多大影响，体现交易间相关关系非因果关系

支持度：项目 X、Y同时出现在总数据集中的概率 support(X→Y) = P(X∪Y)

置信度：先导项已经发生的情况下后继项发生的概率 confidence(X→Y) = P(Y|X)

提升度：用来度量一类商品相对他的一般购买率此事被购买的可能性大小 lift(X→Y) = P(X∪Y) / P(X)*P(Y) ；lift<1 二者有负向依赖或替代效应 lift>1 二者正向依赖或互补效应

14 序列模式

寻找在同一事件中先后出现不同项的相关性，有时间关系

你可能感兴趣的:(总结,算法,机器学习,python,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

机器学习笔记

常用基本库

第零部分 数据勘察

1、去除重复值

2、查看数据分布

第一部分 数据预处理

1、数据清洗

2、数据变换

第二部分：特征选择

方差过滤特征

相关性过滤特征

Embedded嵌入法

降维筛选

第三部分：数据集拆分

第四部分：数据挖掘模型

1、线性回归

2、逻辑回归LR

3、朴素贝叶斯 NB

4、支持向量机SVM

5、最近邻分类 KNN

6、神经网络

9、决策树 DT

10、集成算法

11、网格搜索

12、聚类分析

你可能感兴趣的:(总结,算法,机器学习,python,深度学习)

第零部分数据勘察

第一部分数据预处理