秋酿玖心

机器学习之分类算法-k近邻、朴素贝叶斯、决策树与随机森林、逻辑回归，回归算法-线性回归、岭回归，k-means

文章目录

- 引入：
- - 1.机器学习算法分类
  - 2.机器学习开发流程
  - 3.sklearn数据集
  - 4.转换器与估计器
  - 5.精确率与召回率
- 模型选择与评优
- - 1.交叉验证：为了让被评估的模型更加准确可信
  - 2.网格搜索：调参数
- 一、分类算法-k近邻算法
- 二、分类算法-朴素贝叶斯算法
- 三、分类算法-决策树与随机森林
- - - 前言引入：信息熵
    - 1.决策树
    - 2.集成学习方法-随机森林（解决过拟合）
- 四、回归算法-线性回归分析
- - - 线性回归
    - 过拟合与欠拟合
    - 岭回归：带有正则化的线性回归-Ridge（解决过拟合）
    - 模型的保存与加载
- 五、分类算法-逻辑回归（二分类）
- 六、非监督学习算法-k-means

引入：

1.机器学习算法分类

监督学习（特征值+目标值）
分类（目标值离散型）： k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归（目标值连续型）：线性回归、岭回归
标注：隐马尔可夫模型 (不做要求)

监督学习（英语：Supervised learning），可以由输入数据中学
到或建立一个模型，并依此模式推测新的结果。输入数据是由
输入特征值和目标值所组成。函数的输出可以是一个连续的值
（称为回归），或是输出是有限个离散值（称作分类）。

无监督学习（特征值）
聚类： k-means

无监督学习（英语：Supervised learning），可以由输入数据中
学到或建立一个模型，并依此模式推测新的结果。输入数据是
由输入特征值所组成。

2.机器学习开发流程

原始数据明确问题做什么
数据的基本处理：pd去处理数据（缺失值，合并表。。。）
特征工程（特征进行处理）【重要】
找到合适算法去进行预测
模型的评估，判定效果：若合格即可上线使用，以API形式提供。若不合格应换算法或重新使用特征工程处理
注：模型：算法+数据

3.sklearn数据集

数据集的划分：
训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效
数据集获取类：sklearn.datasets.load_*()
数据集获取语法：

sklearn.datasets
# 加载获取流行数据集
datasets.load_*()
# 获取小规模数据集，数据包含在datasets里

datasets.fetch_*(data_home=None)
# 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/

获取数据集返回的类型：

其中：（1）分类数据集

sklearn.datasets.load_iris()
          # 加载并返回鸢尾花数据集
sklearn.datasets.load_digits()
          # 加载并返回数字数据集

举例：加载并返回数字数据集

from sklearn.datasets import load_digits
li = load_digits()
print("特征值",li.data)
print("目标值",li.target)
print("描述",li.DESCR)

（2）回归数据集

sklearn.datasets.load_boston()
            # 加载并返回波士顿房价数据集
sklearn.datasets.load_diabetes()
            # 加载和返回糖尿病数据集

举例：加载并返回波士顿房价数据集

from sklearn.datasets import load_boston

li = load_boston()
print(li.data)
print(li.target)

数据集划分类：sklearn.model_selection.train_test_split
数据集分割：

sklearn.model_selection.train_test_split(x,y,test_size)
"""
x	       数据集的特征值
y        数据集的标签值
test_size      测试集的大小，一般为float
random_state        随机数种子,不同的种子会造成不同的随机
采样结果。相同的种子采样结果相同。

return  训练集特征值，测试集特征值，训练标签，测试标签
(默认随机取)
"""

例：

from sklearn.datasets import load_iris,fetch_20newsgroups
from sklearn.model_selection import train_test_split
li = load_iris()
x_train,x_test,y_train,y_test = train_test_split(li.data,li.target,test_size=0.25)

print("训练集特征值目标值",x_train,y_train)
print("测试集特征值目标值",x_test,y_test)

用于分类的大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
# subset: 'train'或者'test','all'，可选，选择要加载的数据集.训练集的“训练”，测试集的“测试”，两者的“全部”
datasets.clear_data_home(data_home=None)
# 清除目录下的数据

例：

from sklearn.datasets import load_iris,fetch_20newsgroups
from sklearn.model_selection import train_test_split
li = load_iris()
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)

4.转换器与估计器

（1）转换器：实现特征工程的API

fit_transform() = fit() + transform()
# fit_transform()输入数据直接转换
# fit()输入数据，但不做事（计算平均值，方差等等）
# transform()进行数据转换

from sklearn.preprocessing import StandardScaler
s = StandardScaler()
s.fit([[1,2,3],[4,5,6]])
print(s.transform([[1,2,3],[4,5,6]]))
ss = StandardScaler()
print(s.fit_transform([[1,2,3],[4,5,6]]))

（2）估计器：实现算法的API

在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator，是一类实现了算法的API

用于分类的估计器：
k-近邻算法 sklearn.neighbors
贝叶斯 sklearn.naive_bayes
逻辑回归 sklearn.linear_model.LogisticRegression
决策树与随机森林sklearn.tree
用于回归的估计器：
线性回归 sklearn.linear_model.LinearRegression
岭回归 sklearn.linear_model.Ridge
估计器的工作流程

具体步骤：
4. 调用fit():fit(x_train,y_train)
5. 输入测试集数据:(1)y_predict = predict(x_test),(2)预测的准确率：score(x_test,y_test)

5.精确率与召回率

分类模型评估：

sklearn.metrics.classification_report

sklearn.metrics.classification_report(y_true, y_pred, target_names=None)
# y_true：真实目标值
# y_pred：估计器预测目标值
# target_names：目标类别名称
# return：每个类别精确率与召回率

例：classification_report(y_test,y_predict,target_names=news.target_names)
from sklearn.metrics import classification_report

模型选择与评优

1.交叉验证：为了让被评估的模型更加准确可信

2.网格搜索：调参数

超参数搜索-网格搜索API：sklearn.model_selection.GridSearchCV

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)
# 对估计器的指定参数值进行详尽搜索
"""
estimator：估计器对象
param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}
cv：指定几折交叉验证
fit：输入训练数据
score：准确率
结果分析：
best_score_:在交叉验证中测试的最好结果
best_estimator_：最好的参数模型
cv_results_:每次交叉验证后的测试集准确率结果和训练集准确率结果
"""

举例：网格搜索对k近邻算法预测调优

	from sklearn.model_selection import GridSear
    # 进行算法流程 # 超参数
    # 1.实例化
    knn = KNeighborsClassifier() # 网格搜索时不加参数，否则会按照该参数来评估
    # # 2.调用fit ,predict,score
    # knn.fit(x_train,y_train)
    #
    # # 得出预测结果
    # y_predict = knn.predict(x_test)
    # print("预测的目标签到位置：",y_predict)
    #
    # # 得出准确率
    # print("预测的准确率：", knn.score(x_test,y_test))


	# 用网格搜索评估
    # 构造一些参数的值进行搜索
    param = {"n_neighbors":[3,5,10]}
    # 进行网格搜索
    gc = GridSearchCV(knn,param_grid=param,cv=2)
    gc.fit(x_train,y_train)

    # 预测准确率
    print("在测试上的准确率：",gc.score(x_test,y_test))
    print("在交叉验证中测试的最好结果:",gc.best_score_)
    print("最好的参数模型:", gc.best_estimator_)
    print("每次交叉验证后的测试集准确率结果和训练集准确率结果:", gc.cv_results_)

一、分类算法-k近邻算法

前提：需要做标准化处理

原理：你的“邻居”来推断出你的类别，比较样本特征（相似的样本，特征之间的值应该都是相近的）

定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
其中计算距离的公式：

算法类，语法：

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
# n_neighbors：int,可选（默认= 5），k_neig	hbors查询默认使用的邻居数 
# algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算
# 法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递
# 给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

其中注意：

n_neighbors = k

k值取很小：容易受异常点影响
k值取很大：容易受最近数据太多导致比例变化

实例流程：

数据集的处理：
（1）缩小数据集范围DataFrame.query()
（2）.处理日期数据pd.to_datetime ,pd.DatetimeIndex
（3）.增加分割的日期数据
（4）.删除没用的日期数据pd.drop()
（5）.将签到位置少于n个用户的删除[pandas分组]
place_count =data.groupby('place_id').aggregate(np.count_nonzero) ; tf = place_count[place_count.row_id > 3].reset_index(); data = data[data['place_id'].isin(tf.place_id)]
分割数据集

# 取出数据当中的特征值和目标值
y = data['place_id']  # DataFrame类型不能用.data表示特征值，data['place_id']表示目标值
x = data.drop(['place_id'],axis=1) # 除data['place_id']外为特征值

# 进行数据的分割训练集和测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)

对数据集进行标准化（提升预测的准确率）
estimator流程进行分类预测
（1）.实例化KNeighborsClassifier()
（2）.调用 fit ()
（3）.得出预测结果predict()
（4）.得出准确率score()

综合举例：

# @XST1520203418
# 要天天开心呀

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import pandas as pd

def kng():
    """
    :k近邻算法预测用户签到位置
    :return:
    """
    #读取数据
    data = pd.read_csv("D:/ProgramData/机器学习/数据/k近邻算法预测用户签到位置/train.csv")
    # print(data.head(10))

    #处理数据
    #1.缩小数据，查询数据筛选
    data = data.query("x>1.0&x<1.25&y>2.5&y<2.75")

    #处理时间的数据
    time_value = pd.to_datetime(data['time'],unit='s')
    # print(time_value)

    # 把日期格式转换成 字典格式
    time_value = pd.DatetimeIndex(time_value)

    # 构造一些新的特征
    data['day'] = time_value.day
    data['hour'] = time_value.hour

    #把时间戳特征删除按列
    data = data.drop(['time'],axis=1)
    data = data.drop(['row_id'],axis=1)
    data = data.drop(['accuracy'],axis=1)
    # print(data)

    # 把签到数量小于n个目标位置删除[分组]
    place_count = data.groupby('place_id').count()  # 按place_id相同数量分组
    # print(place_count)
    tf = place_count[place_count.x > 3].reset_index()  # reset_index()表示把索引重新变成数据的一列
    data = data[data['place_id'].isin(tf.place_id)]
    print(data)

    # 取出数据当中的特征值和目标值
    y = data['place_id']  # DataFrame类型不能用.data表示特征值
    x = data.drop(['place_id'],axis=1)

    # 进行数据的分割训练集和测试集
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)

    # 特征工程（标准化）:提升预测的准确率
    std = StandardScaler()
    # 对测试集和训练集的特征值进行标准化
    x_train = std.fit_transform(x_train)
    x_test = std.fit_transform(x_test)

    # 进行算法流程
    # 1.实例化
    knn = KNeighborsClassifier(n_neighbors=5)
    # 2.调用fit ,predict,score
    knn.fit(x_train,y_train)

    # 得出预测结果
    y_predict = knn.predict(x_test)
    print("预测的目标签到位置：",y_predict)

    # 得出准确率
    print("预测的准确率：", knn.score(x_test,y_test))


if __name__ == '__main__':
    kng()

总结优缺点：

（1）优点：简单，易于理解，易于实现，无需估计参数，无需训练
（2）缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大。必须指定K值，K值选择不当则分类精度不能保证
（3）使用场景：小数据场景，几千～几万样本，具体场景具体业务去测试

二、分类算法-朴素贝叶斯算法

条件：任意两个特征之间是相互独立的

朴素贝叶斯-贝叶斯公式：

举例：

但是其中Ni可能为0，但概率不能为0，于是有了拉普拉斯平滑系数

算法类、语法：

sklearn.naive_bayes.MultinomialNB

sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
# 朴素贝叶斯分类
# alpha：拉普拉斯平滑系数

案例流程：

加载数据，并进行分割
生成文章特征词
朴素贝叶斯estimator流程进行预估

综合举例：

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
def navie():
    """
    朴素贝叶斯进行文本分类
    :return:
    """
    # 获取数据
    news = fetch_20newsgroups(subset='all')

    # 进行数据分割
    x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)

    # 对数据集进行特征抽取
    # 1.实例化TfidfVectorizer
    tf = TfidfVectorizer()
    # 2.以训练集当中的词的列表进行每篇文章重要性统计
    x_train = tf.fit_transform(x_train)
    x_test = tf.transform(x_test)
    print(x_train)

    # 进行朴素贝叶斯算法的预测
    # 1.实例化
    mtl = MultinomialNB(alpha=1.0)
    # 2.fit()传入数据
    mtl.fit(x_train,y_train)
    # 3.预测predict
    y_predict = mtl.predict(x_test)
    print("预测的文章类别为：",y_predict)
    # 4.得出准确率score
    print("准确率为：",mtl.score(x_test,y_test))

if __name__ == '__main__':
    navie()

总结优缺点：

（1）特点：训练集误差大，结果肯定不好，受训练集影响较大。不需要调参

（2）优点：朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。对缺失数据不太敏感，算法也比较简单，常用于文本分类。分类准确度高，速度快

（3）缺点：需要知道先验概率P(F1,F2,…|C)，因此在某些时候会由于假设的先验
模型的原因导致预测效果不佳。

（4）用于文本类预测（该算法前提假设文章中特征词语之间相互独立）

三、分类算法-决策树与随机森林

前言引入：信息熵

认识决策树：程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

认识信息熵：

32支球队，log32=5比特

注：信息和消除不确定性是相联系的

决策树的划分依据之：信息增益，基尼系数
注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

1.决策树

API：class sklearn.tree.DecisionTreeClassifier

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
# 决策树分类器
"""
criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’
max_depth:树的深度大小
random_state:随机数种子

method:
decision_path:返回决策树的路径
"""

决策树预测步骤：

pd读取数据
选择有影响的特征，处理缺失值
进行特征工程，pd转换字典，特征抽取x_train.to_dict(orient="records")
决策树估计器流程
显示决策树的结构并以图片png形式保存在本地tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])

举例：对泰坦尼克号进行预测生死

from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier,export_graphviz
def decision():
    """
    决策树对泰坦尼克号进行预测生死
    :return:
    """
    # 获取数据
    titan = pd.read_csv("D:\ProgramData\机器学习\数据\Titanictrain.csv")
    # print(titan.head(10).T)

    # 处理数据，找出特征值和目标值
    x = titan[['Pclass','Age','Sex']]  # 特征值
    y = titan['Survived']  # 目标值

    # 缺失值处理
    x['Age'].fillna(x['Age'].mean(),inplace=True)  # inplace=True填补回x

    # 分割数据集到训练集和测试集
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)

    # 进行处理，特征工程  {特征-》类别-》one_hot编码}
    dict = DictVectorizer(sparse=False)
    x_train = dict.fit_transform( x_train.to_dict(orient="records")) #  x_train.to_dict(orient="records")默认把一行转换成一个字典
    print(dict.get_feature_names())
    x_test = dict.transform(x_test.to_dict(orient="records"))  # 字典的特征抽取，需要将数据转换成字典类型
    # print(x_train)

    # 用决策树进行预测
    dec = DecisionTreeClassifier(max_depth=10)  # max_depth=10可以改变决策树的深度，也会改变预测的准确率
    dec.fit(x_train,y_train)

    # 预测准确率
    print("准确率：",dec.score(x_test,y_test))

    # 导出决策树的结构
    export_graphviz(dec,out_file="./tree.dot",feature_names=['Age', 'Pclass', 'Sex=female', 'Sex=male'])

if __name__ == '__main__':
    decision()

得到决策树：

总结决策树优缺点：

（1）优点：简单的理解和解释，树木可视化。需要很少的数据准备，其他技术通常需要数据归一化。

（2）缺点：决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合。决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成。

（3）改进：1.减枝cart算法。2.随机森林。

2.集成学习方法-随机森林（解决过拟合）

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测

定义：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

随机森林建立多个决策树的过程（随机又放回的抽样）：{N个样本，M个特征}

建立单个树：
（1）随机在N个样本当中选择一个样本，重复N次，（样本有可能重复）
（2）随机在M个特征中选出m个特征（m
建立多棵决策树（样本、特征大多不一样）

随机森林API:sklearn.ensemble.RandomForestClassifier

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’,max_depth=None, bootstrap=True, random_state=None)
# 随机森林分类器
"""
n_estimators：integer，optional（default = 10） 森林里的树木数量
criteria：string，可选（default =“gini”）分割特征的测量方法
max_depth：integer或None，可选（默认=无）树的最大深度 
bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
"""

举例：

	from sklearn.ensemble import RandomForestClassifier
    # 随机森林进行预测 （超参数调优）
    rf = RandomForestClassifier()
    param = {"n_estimators":[100,120,200,300],"max_depth":[3,5,8,15]}

    # 网格搜索与交叉验证
    gc = GridSearchCV(rf,param_grid=param,cv=2)
    gc.fit(x_train,y_train)
    print("准确率：",gc.score(x_test,y_test))
    print("查看选择的参数模型：",gc.best_params_)

总结随机森林优缺点：
（1）优点：

在当前所有算法中，具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性
对于缺省值问题也能够获得很好得结果

（2）无缺点。故使用较多

四、回归算法-线性回归分析

线性回归

线性回归优化方案：code_回归系数w权重

正规方程，API：sklearn.linear_model.LinearRegression（普通最小二乘线性回归）
梯度下降，API：sklearn.linear_model.SGDRegressor（通过使用SGD最小化线性模型）

正规方程与梯度下降的对比：

实例流程：

数据获取
数据分割
训练与测试数据标准化处理（特征值和目标值都需要进行处理）
使用最简单的线性回归模型LinearRegression和梯度下降估计SGDRegressor对房价进行预测

# @XST1520203418
# 要天天开心呀

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression,SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

def myliner():
    """
    线性回归直接预测房价
    :return:
    """
    # 获取数据
    lb = load_boston()

    # 分割数据集到训练集和测试集
    x_train,x_test,y_train,y_test = train_test_split(lb.data,lb.target,test_size=0.25)
    # print(y_train,y_test)

    # 进行标准化处理（为使误差减小，数据之间差距较小，目标值特征值都需要进行标准化处理）
    # 实例化两个标准化API
    # 特征值标准化
    std_x = StandardScaler()
    x_train = std_x.fit_transform(x_train)
    x_test = std_x.transform(x_test)
    # 目标值标准化
    std_y = StandardScaler()
    y_train = std_y.fit_transform(y_train.reshape(-1,1))
    y_test = std_y.transform(y_test.reshape(-1,1))
    """
    由于版本问题，0.19版本的转换器、estimator，要求数据必须是二维的，而0.18的二维一维都可以
    而y_train,y_test是一维的，所以需要将y_train,y_test转换成二维的：y_train.reshape(-1,1)
    """

    # estimator预测
    # 正规方程求解方程预测（数据简单使用）
    lr = LinearRegression()
    lr.fit(x_train,y_train)
    print(lr.coef_) # 回归系数
    # 预测测试集房价
    y_lr_predict = lr.predict(x_test)
    print("测试集中每个房子的预测价格(标准化时)：",y_lr_predict)
    y_lr_predict = std_y.inverse_transform(y_lr_predict)
    print("测试集中每个房子的预测价格(无标准化时)：", y_lr_predict)

    # 梯度下降去预测房价（数据复杂多样使用）
    sgd = SGDRegressor()
    sgd.fit(x_train, y_train)
    print(sgd.coef_)  # 回归系数
    # 预测测试集房价
    y_sgd_predict = sgd.predict(x_test)
    print("测试集中每个房子的预测价格(标准化时)：", y_sgd_predict)
    y_sgd_predict = std_y.inverse_transform(y_sgd_predict)
    print("测试集中每个房子的预测价格(无标准化时)：", y_sgd_predict)

if __name__ == '__main__':
    myliner()

回归评估API：sklearn.metrics.mean_squared_error

mean_squared_error(y_true, y_pred)
# 均方误差回归损失
"""
y_true:真实值,预测值为标准化之前的值
y_pred:预测值
return:浮点数结果
"""

过拟合与欠拟合

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合：一个假设在训练数据上不能获得更好的拟合，但是在训练数据外的数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

判断欠拟合与过拟合：

通过交叉验证得到训练集和测试集结果


欠拟合原因及解决方法：

（1）原因：学习到数据的特征过少
（2）解决办法：增加数据的特征数量

欠拟合原因及解决方法：

（1）原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点
（2）解决办法：进行特征选择，消除关联性大的特征(很难做)。
交叉验证(让所有数据都有过训练)。
正则化(了解)：

岭回归：带有正则化的线性回归-Ridge（解决过拟合）

API：sklearn.linear_model.Ridge

sklearn.linear_model.Ridge(alpha=1.0)
# 具有l2正则化的线性最小二乘法
# alpha:正则化力度，默认1.0
# coef_:回归系数

    rg = Ridge(alpha=1.0)  # alpha=1.0是一个超参数，可以通过网格搜索找到合适数值
    rg.fit(x_train, y_train)
    print(rg.coef_)  # 回归系数

模型的保存与加载

API：sklearn.externals.joblib

可直接下载使用：

import joblib

保存：joblib.dump(rf,'test.pkl')

加载：estimator=joblib.load('test.pkl')

注：文件格式pkl

    lr = LinearRegression()
    lr.fit(x_train,y_train)
    print(lr.coef_) # 回归系数
    # 保存模型
    joblib.dump(lr,"./test.pkl")  
    # 加载模型
    model = joblib.load("./test.pkl")  
    # 通过模型预测
    y_predict = std_y.inverse_transform(model.predict(x_test))  
    print("保存的模型预测的结果：",y_predict)

五、分类算法-逻辑回归（二分类）

逻辑回归：线性回归的式子作为逻辑回归的输入

逻辑回归公式：

逻辑回归：
逻辑回归API：sklearn.linear_model.LogisticRegression

sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0)
# Logistic回归分类器
# coef_：回归系数

实例流程：

网上获取数据（工具pandas）
数据缺失值处理、标准化
LogisticRegression估计器流程

举例：良／恶性乳腺癌肿分类

def logistic():
    """
    逻辑回归做二分类进行癌症预测（根据）
    :return:
    """
    # 构造列表标签名字
    names = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']

    # 读取数据
    data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",names=names)
    # print(data)

    # 缺失值处理
    data = data.replace(to_replace='?',value=np.nan)  # 先将数据中的"?"替换成np.nan
    data = data.dropna()  # 直接删除nan

    # 进行数据分割
    x = data.drop(["Class"],axis=1)  # 特征值
    y = data["Class"]  # 目标值
    # print(x)
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25)

    # 特征工程标准化处理(只需要特征值处理)
    std = StandardScaler()
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    # 逻辑回归预测
    lo = LogisticRegression()
    lo.fit(x_train,y_train)
    print(lo.coef_)
    y_predict = lo.predict(x_test)
    print("逻辑回归预测值：",y_predict)
    print("准确率：",lo.score(x_test,y_test))
    print("精确率与召回率：",classification_report(y_test,y_predict,labels=[2,4],target_names=["良性","恶性"]))

if __name__ == '__main__':
    logistic()

逻辑回归总结：

（1）应用：广告点击率预测、电商购物搭配推荐
(softmax方法-逻辑回归在多分类问题上的推广)
（2）优点：适合需要得到一个分类概率的场景
（2）缺点：当特征空间很大时，逻辑回归的性能不是很好（看硬件能力）

六、非监督学习算法-k-means

非监督学习特点：物以类聚，人以群分

k-means步骤：

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别，形成k个族群
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

k-means API：sklearn.cluster.KMeans

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)
# k-means聚类
"""
n_clusters:开始的聚类中心数量
init:初始化方法，默认为'k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）
"""

实例流程：

降维之后的数据
k-means聚类
聚类结果显示

举例：

# 减少样本数量
x = data[:500]
# print(x)

# 假设k=4，用户分成4个类别
km = KMeans(n_clusters=4)
km.fit(x)
predict = km.predict(x)

# 显示聚类结果
plt.figure(figsize=(10,8),dpi=80)
# 建立四个颜色的列表
colored = ['orange','blue','purple','green']
color = [colored[i] for i in predict]
plt.scatter(x[:1],x[:20],color=color)
plt.show()

Kmeans性能评估指标API：sklearn.metrics.silhouette_score

sklearn.metrics.silhouette_score(X, labels)
# 计算所有样本的平均轮廓系数
"""
X：特征值
labels：被聚类标记的目标值
"""

其中：

如果〖〗_ 小于0，说明_ 的平均距离大于最近的其他簇。
聚类效果不好
如果〖〗_ 越大，说明_ 的平均距离小于最近的其他簇。
聚类效果好
轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优

总结：

（1）特点分析：采用迭代式算法，直观易懂并且非常实用

（2）缺点：容易收敛到局部最优解(多次聚类)。需要预先设定簇的数量(k-means++解决)

你可能感兴趣的:(笔记)

《社会理论和社会结构》笔记2之孔德“大脑卫生原则” 2022-05-14 定投的奇迹
看到社会学家孔德的‘’大脑卫生原则”读出了自我。面对很多读书建议：拿到一本书，要看前言、目录、前序、后序、他人评价，我一直很排斥，奉行自己的读书原则：读书直奔正文。因为我不要别人以为是如何，我不要别人怎么说，我要的是我自己看完原文之后，我自己怎么想。然后再看前言、目录、前序、后序、他人评价，通过比较，看到我的视野的狭窄，我的看问题的不深刻，从而获得成长。虽然一直这样做，但没有看到所谓大咖这方面的观
学习笔记梳理苹子的天空
一、学生本位的“课改”（一）对语文教材进行调整。先对教材内容的顺序上做调整。学完识字单元之后，继续学习后面的识字单元以及课文单元，没有紧接着教拼音。先让孩子听懂老师说话，去读语文书里面的儿歌或诗歌、小课文。接着是对课教材的内容进行了扩充。大量的补充儿歌，补充童谣，补充童诗，在课堂上让孩子不断地通过唱跳表演的形式去读这些儿歌。通过这样一种方式，让孩子能够先学会听懂老师说话，再去会读会认这些字。把拼音
人的行为读书笔记，2-3 夕颜剑主
第二章：人的行为学在认识论层次的一些问题第二节：先验和实在1.对先验的推理的错误指责先验的推理纯粹是概念的和演绎的。它只能提出一些同义反复语和分析判断，它产生不了别的东西。它的所有含义，都是逻辑的从其前推到而出，都已经蕴含在前提里面。故而，某个流行的反对意见认为，先验的推理对我们的知识无所增益。但事实上，并非如此。2.先验推理可以增进我们的知识几何学的所有定理包含在其公理（axioms）之中，几何
20191009读书笔记龙套哥萨克海龙
阅读1小时，总计1017小时，第981日阅读《九品中正制研究》第二章随着九品中正制的建立，标志着两汉以来以察举征辟制为主体的旧的选举时代的结束，也标志着魏晋南北朝时期以九品中正制为主体的新的选举时代的开始。曹魏初年，由于受曹操“唯才是举”选举政策的影响，中正选举尚能坚持选贤任能的标准，并以“家世”、“德才”两项综合定品。及至齐王芳嘉平以后，由于世家大族势力的兴起，选举标准也相应地发生了变化，史称“
2021年8月6号反思日记 37c089910fbe
一.健康今天的饮食比较健康，吃了两顿有蔬菜和面试，然后健身的话大概跳了50分钟的健身操，但是状态不是很好。今天开始泡脚了，三伏天泡脚对身体非常的好，然后护肤的话今天用的是喜辽托乳膏治痘印，打算是一天刷酸，一天这个药膏。跳健身操给我的最大感受是暴汗特别的酸爽，特别的舒服，每天不跳不出汗，感觉不健康。二.个人成长今天状态不是很好，没有读书也没有做笔记，打算晚上试试看。反思日记的话，今天晚上准时写啊，还
《别人怎么对你，都是你教的》读书笔记之：你剪断了我的翅膀，却抱怨我不会飞翔枋落
循规蹈矩不犯错，就是最好的人生？我的答案当然是否定的，因为我就是一个循规蹈矩的人，可是我觉得，这样的人生没有那么好。作为父母，总希望自己的孩子听话。至少，我就是这样被教育大的。我一直想成为父母眼里的好孩子，也成为了他们眼中的好孩子，但我心里的苦不堪言让我知道，我并不喜欢现在的我。我的好只是别人的好，却不是我自己的好。我总是挤出无辜的笑，其实是不敢面对自己的错误。父母用他们认为正确的方式教育我，没有
阿里云天池-学习笔记（7.22） 2301_81822737 深度学习
概念的初步认识和学习一、损失函数损失函数是衡量模型预测值与真实值之间差异的一个量度，通过最小化这个差异来优化模型的参数。损失函数的选择直接影响到模型的训练效果和最终性能。二、one-hot编码one-hot编码使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候其中只有一位有效（即为1，其余为0）。具体来说，对于每个分类变量，都会为其分配一个唯一的二进制位，并使用该
三衢诗歌笔记(51)·徐一槱莲子风父抱石人
徐一槱，字帆昕。乾隆时人。菱湖诗社中友也。《殷浩宅修禊分韵得藏字》为继兰亭迹，行来曲水旁；宅今成梵宇，名尚纪殷墙；湍自双溪合，荫连万绿藏；群贤矜盛事，可拟永和芳。《瞻定光佛真身》遗蜕千年委梵宫，香台花雨散濛濛；残碑犹识传清献，妙谛无惭号慧通；解脱涅槃常灭度，怪他色相未全空；真如三昧同游戏，大有禅机在个中。《红叶》秋花已寂寂，秋叶尚垂垂；色比红妆丽，功缘青女施；露漙疑浣锦，霜染胜凝脂；最是关情处，遥
工作日志樱花树下_e526
总结上午整理了一下笔记，添加了一些工作原则性的问题，写下来提醒自己不能再犯。下午打了陌电电话，有个好聊的，暂时也不会来住院，不同意加微信，发了介绍医院的短信。还有个是公费的，说在我们这边报销不可的。其他的都不怎么好聊，聊几句就挂电话了。20180918苏洪颖
【每日精进】少了读书和运动，不是美好的一天金台望道
6月25日星期六天气：晴好早晨：5点多起来，就整理发布“读毛年谱（176）”，顺便整理各个平台这个栏目的材料，均声明专栏是读书笔记，并非原创。以后这个栏目都不要放在宝贵的早上来做，完全放在晚上加工。早上做原创工作。以后每天还要安排读书和运动。少了这两样，这一天也不是美好的一天了！上午：到图书馆去，继续写小说第48章。下午：本想去图书馆，中午饭后，就在家里睡大觉了，一下午没做事。呜呼！晚上：完成“读
深入理解Socket套接字原理 Princesk web应用测试学习 websocket tcp/ip python
Socket套接字原理1、什么是Socket在计算机领域，套接字Socket作为计算机之间进行通信的固定的约定方式之一存在。这种太抽象了，我举个例子，我们要是用笔记本电脑前需要先对电脑供电，那供电就有两种方式电线插座供电和电池供电，电网有电就用插座供电，电网没电就用笔记本的自带的电池供电。那么这个供电的工具（电池或者电线插座）就是套接字Socket。Socket起源于Linux系统，我们都知道Li
2023-03-14《第4章如何用OKR激励个体》读书笔记4.1 会思考的南瓜
在OKR的语境中，挑战性体现在即使全身心投入、全力以赴地工作，O也只能完成60%-70%，才是常态。如何才能设置出有挑战性的目标？约翰·洛克（著有《人类理解论》）认为，目标本身就具有激励作用，正确的目标能把人的需要转变为动机，激励人们自觉地朝着一定的方向努力，并最终完成预设的任务。目标设置的5项原则(1)目标要清晰，也就是符合SMART原则中的具体、可衡量以及时间导向。(2)目标要兼顾难度和重要性
C++学习笔记day3 既白765 c++学习
继承：好处：减少重复代码语法：class子类：继承方式父类子类也称为派生类，父类也称为基类。继承中的对象模型：父类中所有的非静态成员都会被子类继承。利用开发人员命令提示工具查看对象模型：跳转盘符C：跳转文件路径cd具体路径下查看命名cl/d1reportSingleClassLayout类名文件名继承中的构造和析构顺序：先构造父类再构造子类先析构子类再析构父类继承中同名成员处理方式：访问子类同名成
C++DAY02笔记
Printf格式化输出（printf）(printformat)函数的原型intprintf(格式化字符串，表达式1，表达式2······)，作用是显示格式串中的内容，并且在该字符串指定的位置插入要显示的值。格式化字符串：1.普通字符-》直接输出。2.转换说明-》以%开头的字符，表示一个占位符，会以表达式的值替换占位符。（常见的转换说明：%d:以整数的形式解释这片内存空间，并十进制的方式输出；%f
学《梁宁产品思维30讲》有槽——微信为什么成为了今天的微信神秘的尹先生
缘起：朋友圈的高分评价文档由搜狗录音助手录制并转写，简单整理后发出，纯属一时兴起吐槽发出。搜狗录音提供了11个小时的免费的转写时长，相比于科大讯飞，搜狗在互联网产品的运营上面的确是更能够讨我们这些C端客户的芳心。他至少让我完整地试一下，如果我觉得效果真的非常好，我才会花这个钱，而讯飞那个就太急功近利了，一两分钟的体验真白瞎了我们去下载APP，希望他们能够换一批运营，关于有道云笔记、讯飞系列的对比吐
得到三周年直播收获简记张照浩
好久没有节奏性的学习得到了，我体会的结论是--一旦停止，前功尽弃，此言不虚啊~哈哈。学的少，进步的少，这就是我的代价。幸好在中午看到朋友分享海报，点进了得到三周年的直播，信息量很大，干货满满，当时没有记笔记，复盘一下，固化下知识，也便于今后再学习。我理解的这场直播为什么会有的原因如下：1、强化仪式感和节奏感。2、正向引导，尊重付出，给予反馈和获得感。3、价值吸引，强化品牌影响力，做推广。4、践行价
不可多得的风味小吃——读杨勇的《家园四书》（笔记4）潜2023
身为亳州人，谁不喜欢了解亳州事？读杨勇先生（雅不知）的《家园四书》，相当于走进了亳州，了解她的过去和现在。《家园四书》总共有四部分组成，每一部分都是一道亳州风味的小吃，让你了解亳州的同时，更能咀嚼出她的美。《历史书：明月前身》写了亳州诸多历史人物。写得厚重大气，篇篇有铮铮铁骨，文笔刚劲有力，也不乏诙谐，偶有文白相间之处，读来很有韵味，像作者的书法，需得细细地品。它是亳州的肉夹馍，咔吱一口咬下去，满
Matlab学习笔记：矩阵基础
MATLAB学习笔记：矩阵基础作为MATLAB的核心，矩阵是处理数据的基础工具。矩阵本质上是一个二维数组，由行和列组成，用于存储和操作数值数据。在本节中，我将详细讲解矩阵的所有知识点，包括创建、索引、运算、函数等，确保内容通俗易懂。我会在关键地方添加MATLAB代码示例，帮助你直观理解。最后，我会总结本课重点，并引出下一节“逻辑基础”的内容。一、什么是矩阵？在MATLAB中，矩阵是一个二维数组，元
ROS个人笔记
写在前面：由于个人原因距离上次学习ROS已经过去了2周时间，本以为时间不算长，但还是忘记了好多。因此写下这篇笔记，主要是记录学习过程中的概念性问题，程序代码可能会写，但是不是主要。1.ROS是什么：是一个生态系统，首先他是一个操作系统。统筹各种资源如通信，开发等。2.在以往开发时一旦工程庞大起来往往会对数据流通的耦合十分苦恼，因此ROS提供的通信方式为松耦合式的：节点Node。另外大工程时的另外一
20180818《遇见心想事成的自己》读书笔记苗苗聊成长
读书时间：20180813-20180818此书主要分为两部分，第一部分是心想事成的秘密，第二部分是秘密后的秘密。看到这两个主题就想起，曾经有些时候，也会期盼着能够心想事成，让自己在困境中突围，然而往往不管用，上天总是不会给到你想要的东西。看了此书才恍然大悟，原来心想事成也有方法，也讲套路。秘密后的秘密，才是核心。在这个快餐式的时代，很多时候我们只学一些表面上的术，就想达成所愿，化解一切难题，往往
HCIP第一、二章笔记整理 aaaBsBsBsB 笔记网络 tcp/ip
第一章：TCP协议的扩展一、面向连接点到点：TCP通讯中仅存在通讯双方，无第三方。连接性质：非物理链路上的连接，而是逻辑上的连接。二、TCP的报文结构核心字段：包括源端口号（16位）、目标端口号（16位）、序列号（32位）、确认应答号（32位）、首部长度（4位）、保留位（6位）、标记位（如SYN、ACK、RST等）、窗口大小（16位）、校验和（16位）、紧急指针（16位）、选项（可变长度）及数据。
HCIP第一天课程笔记整理搞IT的马哥 IP 网络网络协议 tcp/ip 服务器
HCIP----huawei认证高级工程师抽象语言先转化成编码编码一定要转化成二进制（为什么一定要转化成二进制？）二进制信号转化成电信号处理电信号（协议等同于标准，目的就是提升服务）（1876年电话诞生，1946年第一台电子计算机诞生）OSI参考模型---OSI/RM---ISO（国际标准化组织）---1979年颁布开放式系统互联参考模型（应表会传网数物）应用层---提供各种应用服务，将抽象语言转
小红书增加曝光率晓谈小红书_46f9
小红书目前来说的话，主要是依靠内容口碑模式，社群类型营销，笔记，类似于大众电商类型，但是我个人觉得小红书更有优势，以下是我发过的一些操作推广小技巧可以了解下。推广大致大家都大同小异，我只能给予一些适当帮助，如有推广业务需求可以随时私聊我。以下是我个人一些增加曝光率一些方式1：过硬的内容加上适当的曝光，点赞，评论，收藏，转发，等于文章的热度与曝光率2：内容过硬的同时，文章也需要注意一下排版，底色，文
CA复习功课陈小铃子 linux 运维服务器云原生
RHCSA复习笔记（完善版）一、文件管理创建文件/目录：touch[文件名]：创建空文件或更新现有文件时间戳。mkdir[目录名]：创建目录。常用选项：-p递归创建多级目录。查看文件/目录：ls[选项][文件/目录]：列出目录内容。常用选项：-l详细列表，-a显示隐藏文件，-h人性化大小显示。cat[文件名]：查看文件内容（小文件），无法翻页。less[文件名]：分页查看文件内容，支持搜索（/），
《自由人生》读书笔记 2 西红柿阿达
原文:问题：“人生有何意义？”其实这个问题是容易解答的。人生的意义全是各人自己寻出来，造出来的：高尚、卑劣、清贵、污浊、有用、无用……全靠自己的作为。生命本身不过是一件生物学的事实，有什么意义可说？生一个人与一只猫、一只狗，有什么分别？人生的意义不在于何以有生，而在于自己怎样生活。你若情愿把这六尺之躯葬送在白昼做梦之上，那就是你这一生的意义。你若发愤振作起来，决心去寻求生命的意义，去创造自己的生命
C练题笔记之：牛客-HJ012.字符串反转
题目：描述接受一个只包含小写字母的字符串，然后输出该字符串反转后的字符串。（字符串长度不超过1000）输入描述：输入一行，为一个只包含小写字母的字符串。输出描述：输出该字符串反转后的字符串。示例1输入：abcd复制输出：dcba结果：解题思路：获取字符串，用双指针，一头一尾开始交换，直至到中间。代码：#include#includeintmain(){charstr[1024]={};scanf(
STM32F4-ETH通信（lwip）——学习笔记_stm32 lwip 2401_84010497 程序员嵌入式
7、CSMA/CD冲突检测：8、MAC子层：MAC数据包、MAC数据包格式、MAC地址：MAC地址由48位数字组成，它是网卡的物理地址，在以太网传输的最底层，就是根据MAC地址来收发数据的。部分MAC地址用于广播和多播，在同一个网络里不能有两个相同的MAC地址。PC的网卡在出厂时已经设置好了MAC地址，但也可以通过一些软件来进行修改，在嵌入式的以太网控制器中可由程序进行配置。数据包中的DA是目标地
日更92/365：我为什么要写作？富足的徐欢
我为什么要写作？这是真是一个好问题，若在做一件事情之前，知道自己的目标动机和需求，才能排序，分配好自己的时间。余生我想把写作当成我的习惯，因为在写作上面我可以有下面三个方面的提升：1.整理笔记有时，我们听完一堂课，会感觉到心潮澎湃，可是若没有把它整理成笔记或写践行清单，假以时日，这些没有被运用或链接的知识信息会在大脑处抹去。所以整理笔记是最优的辅助学习方法。2.梳理情绪相信大家都有这种体验，当我们
解决修改android手机设置中字体大小后系统布局混乱的方法 f44148db1e8c
均属于笔记，仅供个人参考，有问题欢迎指正重写getResources方法@OverridepublicResourcesgetResources(){//returnsuper.getResources();//解决修改android手机设置中字体大小后系统布局混乱的方法，重构getResources，修改系统倍数对应用内sp的影响；Resourcesres=super.getResources(
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默