xiaopar_

机器学习之分类算法

如果目标值为类别，则属于分类问题，使用分类算法

1、sklearn转换器和预估器（估计器）

转换器 —特征工程的父类

1）实例化（实例化的是一个转换器类（Transformer））

2）调用fit_transform（对于文档建立分类词频矩阵，不能同时调用）

fit_transform(X) 方法是由 fit() 方法和 transform() 方法封装而成

比如，在标准化的时候，标准化的公式：x’ = (x - mean) / std

fit()方法干的事情就是计算传进去的数据中每一列的标准差和平均值

transform()方法干的事情是将标准差和平均值代入公式( x-mean ) / std，进行最终的转换

关于fit()、transform()、fit_transform()，想要了解更多，可以看一下源码实现！

预估器（estimator）

在sklearn中，所有机器学习的一些算法都被封装到估计器这个父类当中，是一类实现了算法的API

1）实例化一个estimator

2）estimator.fit(x_train, y_train) 将训练集的特征值和目标值传进去、进行计算，相当于在做机器学习的训练，当fit()方法调用完，意味着这个模型已经生成了（训练完毕）。

3）模型评估

方法一：直接比对真实值和预测值

y_predict = estimator.predict(x_test) 把测试集的特征值数据传进去生成相应的目标值预测结果

print(‘直接比对真实值和预测值：\n’, y_test == y_ test_ predict ) —打印True或False的ndarray数组

if np.array_equal(y_test_predict, y_test):

print(“模型预测完全成功”)

方法二：计算准确率

accuracy = estimator.score(x_test, y_test) 将测试集的特征值和目标值传进去计算出accuracy（准确率）

用于分类的估计器

sklearn.neighbors k-近邻算法

sklearn.naive_bayes 贝叶斯

sklearn.linear_model.LogisticRegression 逻辑回归

sklearn.tree 决策树与随机森林

用于回归的估计器

sklearn.linear_model.LinearRegression 线性回归

sklearn.linear_model.Ridge 岭回归

3）用于无监督学习的估计器

sklearn.cluster.KMeans 聚类

2、第一个算法— KNN算法（也叫K-近邻算法）（属于分类算法）

“通过你的邻居判断你的类别”

K—K的取值是一个自然数 N—nearest 最近的 N—neighbor 邻居，机器学习中的一个经典算法

KNN算法最早是在1968年由Cover和Hart提出的一种分类算法

核心思想：根据你的“邻居”来推断你的类别

定义：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

假如我在红色圈圈那个地方，但是我不知道我所在哪个区域（这是一个分类问题），只知道五个人到我的距离和他们所在的区域，那么离我最近的那个人所在的区域很可能就是我所在的区域，这就是KNN算法的思路。

在判断我所在的位置的时候，只选择了一个离我最近的那个人，即K=1，容易受到异常值的影响。K取一个合适的数值，可以有效避免异常值。

如何确定谁是邻居？

计算距离

计算距离的方法：欧氏距离、曼哈顿距离、明可夫斯基距离（是欧氏距离和曼哈顿距离的一个推广），最常用的是欧氏距离。

比如：有两个样本a和b

a的特征值为(a1, a2, a3)，b的特征值为(b1, b2, b3)

那么这两个样本之间的欧氏距离为：

那么这两个样本之间的曼哈顿距离为：

|a1 - b1| + |a2 - b2| + |a3 - b3|

示例：利用KNN算法来进行电影类型分析（预测？电影是什么类型）

当k=1时，？电影离He’s not…电影最近，预测为爱情片

当k=2时，？电影离He’s not…和Beautiful…电影最近，预测为爱情片

——

当k=6时，离？电影最近的 6个电影当中， 3个为爱情片，3个为动作片，无法确定类型

如果在电影列表当中新增一部类型为动作片的电影，当k=7时，离？电影最近的7个电影当中，3个为爱情片，4个为动作片，导致被错分为动作片。

KNN算法存在的问题：

k值取得过小，容易受到异常值的影响

k值取得过大，容易受到样本不均衡的影响

如何在sklearn中使用KNN算法？

API：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm=‘auto’)

Classfier—分类器

n_neighbors：int，可选（默认为5），即K值，一般取奇数

algorithm：{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，按默认auto即可

当我们调用这个API时，默认使用的距离计算方法为欧氏距离，我们进入这个API，p=2默认使用欧氏距离来进行KNN计算寻找最近距离。

示例：鸢尾花种类预测

总体思路：

1）获取数据

2）数据集划分

3）特征工程

标准化

4）KNN预估器流程

5）模型评估

代码：

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler 
from sklearn.neighbors import KNeighborsClassifier 
def knn_iris(): 
    ''' 
    用KNN算法对鸢尾花进行分类 
    :return: 
    ''' 
    # 1.获取鸢尾花数据集 
    iris = load_iris() 
    # 2.数据集划分，test_size是划分测试集数据大小，random_state：选择不同的随机数种子，分到的样本不同，准确率也就不同 
    x_train, x_test,  y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=22) 
    # 3.进行特征工程：标准化 
    transfer = StandardScaler() 
    # 调用fit_transform()，fit_transform()封装了fit()和transform() 
    # fit()用于计算，相当于对训练集每个特征求了一个平均值和标准差（见标准化公式），然后进行transform()标准化 
    x_train_new = transfer.fit_transform(x_train) 
    # 用tranform()对测试集做标准化 
    # 如果调用fit_transform()相当于又做了一次计算，求测试集的平均值和标准差 
    # 要求测试集和训练集做一样的处理，所以要用训练集特征中的平均值和标准差来对测试集的特征数据做标准化 
    x_test_new = transfer.transform(x_test) 
    # 4.实例化一个KNN算法预估器，K值不同，准确率也就可能不同 
    estimator = KNeighborsClassifier(n_neighbors=3) 
    # 对预估器进行模型训练 
    estimator.fit(x_train_new, y_train) 
    # 5.模型评估 
    # 方法一：直接比对真实值和预测值 
    # 传入测试数据的特征值，得到预测的目标值 
    y_test_predict = estimator.predict(x_test_new) 
    print('预测的目标值：\n', y_test_predict) 
    print('真实的目标值：\n', y_test) 
    print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
    # 方法二：计算准确率 
    score = estimator.score(x_test_new, y_test) 
    print('准确率为：\n', score) 
    return None 

if __name__ == '__main__': 
    # 用KNN算法对鸢尾花进行分类 
    knn_iris()

结果：

KNN算法总结：

优点：简单，易于理解，易于实现，无需训练

缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大

必须指定K值，K值选择不当则分类精度不能保证

使用场景：小数据场景，几千~几万样本，具体场景具体业务去测试

3、模型选择与调优

交差验证（cross validation,简称CV）

定义：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过四次（组）的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。

训练集：训练集+验证集

测试集：测试集

交叉验证的目的：为了让从训练得到模型结果更加准确

超参数搜索—网格搜索（Grid Search）

目的：对K值进行选择，选择最合适的K值

定义：通常情况下，有很多参数时需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

API：sklearn.model_selection.GridSearchCV(estimator, param_grid=None, cv=None, n_jobs=1)

GridSearchCV——网格搜索和交叉验证

estimator：估计器对象，比如对KNN算法加上网格搜索交叉验证功能，就把实例化后的KNN算法预估器传进来

param_grid：将想要试的超参数以字典的形式传进来，比如K的取值为[1, 3, 5]，则param_grid = {“n_neighbors”:[1, 3, 5]}

cv：指定几折交叉验证，即如果要校验哪个K值好，那么每检验一个K值要进行几次交叉验证，使得出来的结果更准确，一般设置十折交叉验证。

n_jobs：代表为用几个CPU来跑这个模型，默认为1，如果为-1代表CPU满负荷运行，（不建议设为-1，伤电脑）

返回值：sklearn.model_selection._search.GridSearchCV

这个API的返回值也相当于是继承自预估器的一个类，所以使用时和预估器的使用是一样的

GridSearchCV.fit()：输入训练数据

GridSearchCV.score()：计算准确率

GridSearchCV.fit()训练之后，可以查看结果分析：

GridSearchCV类中包含的字段（field），直接调用，不需要括号

最佳参数：best_params_

最佳结果：best_score_

最佳估计器：best_estimator_

交叉验证结果：cv_results_

示例1：给上述鸢尾花种类预测案例增加K值调优

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_selection import GridSearchCV 

def knn_iris_gscv(): 
    ''' 
    用KNN算法对鸢尾花进行分类，添加网格搜索和交叉验证 
    :return: 
    ''' 
    # 1.获取鸢尾花数据集 
    iris = load_iris() 
    # 2.数据集划分 
    x_train, x_test,  y_train, y_test = train_test_split(iris.data, iris.target, random_state=22) 
    # 3.进行特征工程：标准化 
    transfer = StandardScaler() 
    x_train_new = transfer.fit_transform(x_train) 
    x_test_new = transfer.transform(x_test) 
    # 4.实例化一个KNN算法预估器，没有传入K值(即n_neighbors这个参数) 
    estimator = KNeighborsClassifier() 
    # 加入网格搜索和交叉验证， 用于选择最合适的K值，使得训练所得的模型用来测试时，准确率更高 
    # 参数准备，手动设置一个多K值列表的字典 
    param_dict = {'n_neighbors':[1, 3, 5, 7, 9, 11]} 
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10) 
    estimator.fit(x_train_new, y_train) 
    # 5.模型评估 
    # 方法一：直接比对真实值和预测值 
    y_test_predict = estimator.predict(x_test_new) 
    print('预测的目标值：\n', y_test_predict) 
    print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
    # 方法二：计算准确率，求得是测试集在训练集中的结果 
    score = estimator.score(x_test_new, y_test) 
    print('准确率为：\n', score) 
    # 最佳参数：best_params_ 
    print("最佳参数：\n", estimator.best_params_) 
    # 最佳结果：best_score_，交叉验证是对训练集进行划分 
    # 一部分用于训练，一部分用于验证，最佳结果求得是训练部分在验证部分的结果 
    print("最佳结果：\n", estimator.best_score_) 
    # 最佳估计器：best_estimator_ 
    print("最佳估计器：\n", estimator.best_estimator_) 
    return None 
     
if __name__ == '__main__': 
    knn_iris_gscv()

结果：

示例2：预测facebook签到位置（Kaggle上的一个比赛）

先略，晚点补上！！！

4、第二个算法— 朴素贝叶斯算法（属于分类算法）

概率基础

案例：已知小明时产品经理，体重超重，是否会被女神喜欢？二分类问题

1、P(喜欢) = 4/7

2、P(程序员，匀称) = 1/7 联合概率

3、P(程序员|喜欢) = 2/4 = 1/2 条件概率

4、P(程序员，超重|喜欢)= 1/4 既符合联合概率，也符合条件概率

利用贝叶斯公式来计算小明被喜欢的概率：

P(喜欢|产品经理，超重) =

分子：P(产品经理，超重|喜欢) * P(喜欢)

分母：P(产品经理，超重) = ？，按正常逻辑来说，这里的分母为0，因为不存在既是产品经理，体重又超重的样本，但是利用朴素贝叶斯算法，为什么称朴素？因为朴素贝叶斯算法假设特征与特征之间是相互独立的，即P(产品经理，超重) = P(产品经理) * P(超重)，因此可以计算出小明被女神喜欢的概率。

小明被女神喜欢的概率为 7/12

联合概率、条件概率与相互独立

联合概率：包含多个条件，且所有条件同时成立的概率

记作：P(A, B)

条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率

记作：P(A|B)

相互独立：如果P(A, B) = P(A)P(B)，则称事件A与事件相互独立

朴素贝叶斯公式：

（注：W为给定文档的特征值(频数统计，预测文档提供)，C为文档类别）

朴素贝叶斯，之所以朴素，就在于假设了特征与特征之间是相互独立的

朴素贝叶斯算法原理：

朴素+贝叶斯

应用场景：

文本分类

朴素贝叶斯应用在文本分类中的公式为：

其中C为不同文本类别

公式分为三个部分：

P©：每个文档类别的概率（某文档类别数/总文档数量）

P(W|C)：给定文本类别下特征（被预测文档中出现的词）的概率

计算方法：P(F1|C) = Ni / N

Ni为该F1词在C类别所有文档中出现的次数

N为所属类别C下的文档所有词出现的次数和

P(F1, F2, …)：预测文档中每个词的概率

示例：预测测试集属于哪个文本分类

利用朴素贝叶斯在文本分类中的公式来计算：

P(China类 | Chinese, Chinese, Chinese, Tokyo, Japan) =

分子： P(Chinese, Chinese, Chinese, Tokyo, Japan | China类) * P(China类)

= P(Chinese | China类)^3 * P(Tokyo| China类) * P(Japan | China类) * P(China类)

= 5/8^3 * 0 * 0 * 3/4 （没有引入拉普拉斯平滑系数）

= (5 + 1)/(8 + 6)^3 * (0 + 1) / (8 + 6) * (0 + 1) / (8 + 6) * 3/4 (引入拉普拉斯平滑系数，都需要引入)

≈ 0.06

注意P(Chinese | China类)的计算方法！！！

P(Chinese | China类) ≠ 1 而＝5/8，在China类里面出现了8个词，有5个词为Chinese。P(Tokyo | China类) = 0/8，样本量太少，在China类中没有出现Tokyo这个词，这样会导致整个结果为0，而要测试集的文本中出现了3次Chinese，结果极可能为China类，概率为0显然不符合我们的预期。

遇到概率值为0的情况怎么办？

引入拉普拉斯平滑系数，，目的：防止计算出的分类概率为0。α为指定的系数一般为1，m为训练文档中统计出的特征词个数（即训练集有多少种特征词，不是特征词出现的次数和）。

分母： P(Chinese, Chinese, Chinese, Tokyo, Japan)

= P(Chinese) * P(Chinese) * P(Chinese) * P(Tokyo) * P(Japan)

分母和下面的非China类的分母相同，不需要求

P(非China类 | Chinese, Chinese, Chinese, Tokyo, Japan) =

分子：P(Chinese, Chinese, Chinese, Tokyo, Japan | 非China类) * P(非China类)

同上面分子的求法

分母：P(Chinese, Chinese, Chinese, Tokyo, Japan)

求出分子之后，比较一下，即可知道被测试的文本属于哪个文本分类

如何在Sklearn中使用朴素贝叶斯算法？

API：sklearn.naive_bayes.MultinomialNB(alpha=1.0)

naive：天真的（朴素） bayes：贝叶斯 MultinomialNB：朴素贝叶斯的一个方法

alpha：拉普拉斯平滑系数，默认为1.0

sklearn中的机器学习流程基本上都是一样的，即实例化一个预估器，然后调用fit()进行训练。

示例：20类新闻分类

1）获取数据，数据集为sklearn中自带的新闻数据集

2）划分数据集

3）特征工程：文本特征抽取

4）朴素贝叶斯预估器流程，训练好了之后有了模型

5）模型评估

代码：

from sklearn.datasets import fetch_20newsgroups 
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.naive_bayes import MultinomialNB 

def nb_news(): 
    ''' 
    用朴素贝叶斯算法对新闻进行分类 
    :return: 
    ''' 
    # 1）获取数据集 
    news = fetch_20newsgroups(data_home="D:\PythonWorkSpace\机器学习\scikit_learn_data", subset='all') 
    # 2）数据集划分 
    x_train, x_test, y_train, y_test = train_test_split(news.data, news.target) 
    # 3）特征工程：文本特征抽取—tf-idf 
    transfer = TfidfVectorizer() 
    x_train_new = transfer.fit_transform(x_train) 
    x_test_new = transfer.transform(x_test) 
    # 4）朴素贝叶斯算法预估器流程 
    estimator = MultinomialNB(alpha=1.0) 
    estimator.fit(x_train_new, y_train) 
    # 5）模型评估 
    # 方法一：直接比对真实值和预测值 
    y_test_predict = estimator.predict(x_test_new) 
    print('预测的目标值：\n', y_test_predict) 
    print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
    # 方法二：计算准确率，求得是测试集在训练集中的结果 
    score = estimator.score(x_test_new, y_test) 
    print('准确率为：\n', score) 
     
if __name__ == '__main__': 
    nb_news()

结果：fetch_20newsgroups()，下载数据集

总结：

优点：发源于古典数学原理，有稳定的分类效率

对缺失数据不太敏感，常用于文本分类

分类准确率高，速度快

缺点：由于假定特征与特征之间相互独立，所以如果特征和特征之间有关联的话，效果就不会太好。

5、决策树（属于分类算法）

最早的决策树就是利用if-else结构分割数据的一种分类学习方法

理解：

如果是公务员还要看收入，如果收入高则看长相，如果长相好还要看年龄，如果年龄不合适（即使是公务员、收入高、长相好）直接就不见，因此，女孩最看重的是年龄。

决策树分类原理详解：

已知一个人的四个特征，预测是否贷款给这个人，根据什么条件来判断给不给某个人贷款更合适？

先看是否有房子，再看是否有工作，—看了两个特征，可以决定是否贷款给这个人。

先看年龄，再看信贷情况，再看是否有工作—看了三个特征，不高效

如何找到一个数学方法让计算机自动地进行判断应该先看哪个特征后、看哪个特征，从而很快速的得出预测结果（即如何找到一个更高效的决策顺序）？

要使用到信息论的基础知识：信息熵(shang) ，信息增益

信息论中信息的定义：消除随机不定性的东西（称“香农定义”）

信息的衡量 — 信息熵（消除不定性的东西有多少，即得到的信息有多少）

信息熵的定义：H的专业术语，单位为比特

信息熵公式：

信息熵公式理解：总共有n个样本，要想计算n个样本的信息熵的话，就从第一个算到第n个，每一个样本都有一个可能性概率P(xi)，用概率乘以一个对数log b P(xi)，以b为底（b值可以自己定，一般取2为底）

假设现在来了一个人（年龄、工作、房子、信贷情况未知），即没有掌握这个人的信息

贷款情况：15个人里面有6个否，9个是。

求总的信息熵：H(总) = -(6/15 * log 2 (6/15) + 9/15 * log 2 (9/15)) ≈ 0.971 （结果即为总的不确定性）

当知道这个人的年龄（青年人），不确定性就会减少，如果能求出当知道某个特征之后不确定性减少的程度，再比较其他不确定性减少的程度，减少程度最多的就可以优先作为决策构建决策树。

信息增益的定义：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差。即（已知某个特征，不确定性减少的程度，减少的程度最多的最先关注）——信息增益是决策树的划分依据之一。

信息增益公式：g(D,A) = H(D) - H(D|A)

信息增益公式理解：总的信息熵减去已知某个特征的条件下的信息熵，即为信息增益。

条件熵公式：

g(D,年龄) = H(D) - H(D | 年龄)

H(D | 青年) = -(2/5 * log 2 (2/5) + 3/5 * log 2 (3/5))

H(D | 中年) = -(2/5 * log 2 (2/5) + 3/5 * log 2 (3/5))

H(D | 老年) = -(1/5 * log 2 (2/5) + 4/5 * log 2 (4/5))

H(D | 年龄) = 1/3 H(青年) + 1/3 H(D | 中年) + 1/3 H(D | 老年)

所以g(D, 年龄) = 0.313

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况、最终计算的结果g(D | A1) = 0.313、g(D | A2) = 0.324、g(D | A3) = 0.420、g(D | A4)= 0.363，所以我们选择A3作为划分的第一个特征，这样我们就可以一棵树慢慢建立。

如何在sklearn中使用？

决策树API：sklearn.tree.DecisionTreeClassifier(criterion=‘gini’, max_depth=None, random_state=None)

criterion：默认是"gini"系统，也可以选择信息增益的熵“entropy”

max_depth：树的深度大小

random_state：随机数种子

示例1：鸢尾花示例

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier 

def decision_iris(): 
    """ 
    用决策树对鸢尾花进行分类 
    :return: 
    """ 
    # 1）获取数据集 
    iris = load_iris() 
    # 2）数据集划分 
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22) 
    # 3）使用决策树预估器进行分类 
    estimator = DecisionTreeClassifier(criterion='entropy') 
    estimator.fit(x_train, y_train) 
    # 4）模型评估 
    # 方法一：直接比对真实值和预测值 
    y_test_predict = estimator.predict(x_test) 
    print('预测的目标值：\n', y_test_predict) 
    print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
    # 方法二：计算准确率，求得是测试集在训练集中的结果 
    score = estimator.score(x_test, y_test) 
    print('准确率为：\n', score) 
     
if __name__ == '__main__': 
    decision_iris()

结果：

总结：比对之前的用KNN算法来判断鸢尾花种类的结果

发现准确率下降了3个百分点，因为KNN算法在小数据场景，准确率比较高

决策树可视化：

保存树的结构到dot文件：

API：sklearn.tree.export_graphviz(estimator, out_file=‘tree.dot’, feature_names=[’’, ‘’]) 该函数能导出DOT格式

estimator：传入预估器

out_file：导出树的文件名

feature_names：特征名

在上面的代码中，添加如下代码即可：

from sklearn.tree import export_graphviz 
# 可视化决策树 
export_graphviz(estimator, out_file='iris_tree.dot')

导出的是文本文件，如下：

digraph Tree { 
node [shape=box] ; 
0 [label="X[2] <= 2.45\nentropy = 1.584\nsamples = 112\nvalue = [39, 37, 36]"] ; 
1 [label="entropy = 0.0\nsamples = 39\nvalue = [39, 0, 0]"] ; 
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ; 
2 [label="X[3] <= 1.75\nentropy = 1.0\nsamples = 73\nvalue = [0, 37, 36]"] ; 
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ; 
3 [label="X[2] <= 5.05\nentropy = 0.391\nsamples = 39\nvalue = [0, 36, 3]"] ; 
2 -> 3 ; 
4 [label="X[3] <= 1.65\nentropy = 0.183\nsamples = 36\nvalue = [0, 35, 1]"] ; 
3 -> 4 ; 
5 [label="entropy = 0.0\nsamples = 34\nvalue = [0, 34, 0]"] ; 
4 -> 5 ; 
6 [label="X[2] <= 4.75\nentropy = 1.0\nsamples = 2\nvalue = [0, 1, 1]"] ; 
4 -> 6 ; 
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ; 
6 -> 7 ; 
8 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ; 
6 -> 8 ; 
9 [label="X[0] <= 6.05\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ; 
3 -> 9 ; 
10 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ; 
9 -> 10 ; 
11 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ; 
9 -> 11 ; 
12 [label="X[2] <= 4.85\nentropy = 0.191\nsamples = 34\nvalue = [0, 1, 33]"] ; 
2 -> 12 ; 
13 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ; 
12 -> 13 ; 
14 [label="entropy = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ; 
12 -> 14 ; 
}

要想可视化看到树，打开下列网站： http://webgraphviz.com/（如果无法Generate Gragh请使用科学上网工具）

将上面导出的.dot文件内容复制到网站文本框，点击Generate Gragh即可生成可视化决策树，如下：

不明白X[2]，X[3]含义是什么，因为没有传入feature_names，设置feature_names参数即可

export_graphviz(estimator, out_file='iris_tree.dot', feature_names='iris.feature_names')

决策树总结：

优点：可以可视化——可解释能力强

缺点：如果max_depth不设置，并且数据量的特征很多，那么树就会分常长，容易产生过拟合

改进：减枝cart算法（决策树API当中已经实现，随机森林参数调优有相关介绍）

随机森林

示例2：泰坦尼克号乘客生存预测

数据： http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

可直接下载附件：

titanic.csv

数据集中的特征名(feature_names)：

|:----|:----|:----|:----|:----|:----|:----|:----|:----|:----|

数据集中的目标：是否能存活下来（1代表存活，0代表死亡）

|survived |

|:----|

选取可能影响目标值的特征：pclass（1、2、3对应乘客所在值1、2、3对应乘客所在舱位————头等舱、二等舱、平民舱，社会经济阶层的代表社会经济阶层的代表），age（年龄，存在缺失值，有缺失值）、sex（性别）

流程分析：

1）获取数据

2）数据处理

缺失值处理

特征值转换为字典类型

3）划分数据集

4）特征工程：字典特征抽取

5）决策树预估器流程

6）模型评估

代码（Jupyter notebookj）：

import pandas as pd 
# 1、获取数据 
path = 'titanic.csv' 
titanic = pd.read_csv(path)

# 筛选特征值和目标值 
x = titanic[['pclass', 'sex', 'age']] 
y = titanic['survived']

# 2、数据处理 
# 1）缺失值处理,缺失处填入平均值 
x['age'].fillna(x['age'].mean(), inplace=True)

# 2）特征值转换为字典 
x = x.to_dict(orient='records')

部分截图

from sklearn.model_selection import train_test_split 
# 3、数据集划分 
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22) 
# 4、特征工程：字典特征抽取 
from sklearn.feature_extraction import DictVectorizer 
transfer = DictVectorizer() 
x_train_new = transfer.fit_transform(x_train) 
x_test_new = transfer.transform(x_test)

x_train_new为sparse矩阵，查看特征名，pclass有三个，sex有两个，age有一个

from sklearn.tree import DecisionTreeClassifier, export_graphviz 
# 5、使用决策树预估器 
estimator = DecisionTreeClassifier(criterion='entropy') 
estimator.fit(x_train_new, y_train) 
# 6、模型评估 
# 方法一：直接比对真实值和预测值 
y_test_predict = estimator.predict(x_test_new) 
print('预测的目标值：\n', y_test_predict) 
print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
# 方法二：计算准确率，求得是测试集在训练集中的结果 
score = estimator.score(x_test_new, y_test) 
print('准确率为：\n', score) 
# 可视化决策树 
export_graphviz(estimator, out_file='titanic_tree.dot', feature_names=transfer.get_feature_names())

结果：

将生成的titanic_tree.dot文件内容复制到 http://webgraphviz.com/，即可生成决策树

会发现决策树太冗余，那么可以通过设置max_depth来决定决策树的分枝数量。

estimator = DecisionTreeClassifier(criterion='entropy', max_depth=5)

结果：

准确率提高了1个百分点，而且决策冗余也去掉了。

6、随机森林（属于分类算法）——集成学习方法之一

随机：

两个随机：

训练集随机—N个样本中随机有放回的抽样N个

采用bootstrap方法——随机有放回抽样

在[1,2,3,4,5]中抽取一个数，第一次可能抽到2，然后放回2，第二次可能还会抽到二，比如生成了一个新的树的训练集[2,2,3,1,5]

特征随机—从M个特征中随机抽取m个特征

要求：M 远大于m（可以起到降维作用）

森林：包含多个决策树的分类器

如何在sklearn中使用随机森林？

API：sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=‘gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

随机森林分类器

n_estimators：integer，optional，默认为10，森林里的树木数量，可选值[120, 200, 300, 500, 800, 1200]

criterion：string，可选，默认为gini系数，分割特征的测量方法，也可以选择为entropy（即信息增益）

max_depth：integer或None，可选，默认为无，设置每棵决策树的最大深度，可选值[5, 8, 15, 25, 30]

max_features=‘auto’：每个决策树的最大特征数量，即如何生成m

如果为’auto’，则对M（即全部特征）开平方根得到m，即max_features = sqrt(n_features)

如果为’sqrt’，则对M（即全部特征）开平方根得到m，即max_features = sqrt(n_features)，和auto相同

如果为’log2’，max_features = log2(n_features)

如果为None，那么max_features = n_features

bootstrap：boolean，optional，默认为true，是否在构建树时使用随机有放回抽样方法\

因为有些参数可以设置，所以可以网格搜索和交叉验证进行调参，提高准确率

示例：在上面jupyter notebook代码中使用随机森林方法对泰坦尼克号乘客生存进行预测

代码：

from sklearn.ensemble import RandomForestClassifier 
from sklearn.model_selection import GridSearchCV 
# 实例化一个随机森林预估器 
estimator = RandomForestClassifier() 
# 模型选择与调优，加入网格搜索和交叉验证 
# 参数准备，随机森林预估器要调优的参数n_estimators，max_depth 
param_dict = {'n_estimators':[120, 200, 300, 500, 800], 'max_depth':  [5, 8, 15, 25, 30]} 
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3) 
estimator.fit(x_train_new, y_train) 
# 模型评估 
# 方法一：直接比对真实值和预测值 
y_test_predict = estimator.predict(x_test_new) 
print('预测的目标值：\n', y_test_predict) 
print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
# 方法二：计算准确率，求得是测试集在训练集中的结果 
score = estimator.score(x_test_new, y_test) 
print('准确率为：\n', score) 
# 最佳参数：best_params_ 
print("最佳参数：\n", estimator.best_params_) 
# 最佳结果：best_score_，交叉验证是对训练集进行划分 
# 一部分用于训练，一部分用于验证，最佳结果求得是训练部分在验证部分的结果 
print("最佳结果：\n", estimator.best_score_) 
# 最佳估计器：best_estimator_ 
print("最佳估计器：\n", estimator.best_estimator_) 
# 交叉验证结果：cv_results_ 
print("交叉验证结果：\n", estimator.cv_results_)

结果（部分截图）：

总结：

在四种分类算法中，具有很好的准确率

适合运行在大数据集上，特别是在处理高维特征的样本，因为随机森林预估器默认max_features为auto，即全部特征的开平方根，相当于降维了

学习大纲：

你可能感兴趣的:(机器学习专栏,机器学习)

30段极简Python代码：这些小技巧你都Get了么 Python 学习者 Python
学Python怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。本文是30个极简任务，初学者可以尝试着自己实现；本文同样也是30段代码，Python开发者也可以看看是不是有没想到的用法。Python是机器学习最广泛采用的编程语言，它最重要的优势在于编程的易用性。如果读者对基本的Python语法已经有一些了解，那么这篇文章可能会给你一些启发。作者简单概览了30段代码，它们都是平常非常
如何使用DeepSeek进行高效数据挖掘与分析 Small踢倒coffee_氕氘氚笔记经验分享迭代器模式
##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。本文将详细介绍DeepSeek的功能、使用方法及其在实际应用中的优势，旨在为用户提供一份全面的使用指南。##关键词DeepSeek、数据挖掘、数据分析、机器学习、大数据##引言###背景在当今信息爆炸的时代，数据已成为企业决策的重
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
什么是预训练语言模型下游任务？衣衣困语言模型人工智能自然语言处理
问题：Word2Vec模型是预训练模型吗？由于训练的特性，word2Vec模型一定是与训练模型。给定一个词先使用独热编码然后使用预训练好的Q矩阵得到这个词的词向量。这里指的是词向量本身就是预训练的语言模型。什么是下游任务？在自然语言处理（NLP）和机器学习领域，下游任务（downstreamtasks）指的是使用已经训练好的模型或表示（如词向量、预训练的模型等）来解决的具体任务。这些任务通常依赖于
AI辅助的企业估值报告生成器 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能人工智能 ai
AI辅助的企业估值报告生成器关键词AI辅助估值企业估值报告数据处理机器学习算法报告生成器摘要本文将探讨如何利用人工智能技术辅助企业估值报告的生成。通过分析估值报告的重要性、AI技术在估值报告中的应用场景、估值模型与数据处理方法，以及机器学习算法在估值中的应用，本文旨在为企业和投资者提供一个高效、准确、可视化的估值报告生成解决方案。同时，本文还将介绍一个估值报告生成器的实现过程，并通过实际案例进行分
大模型推理速度测评的实战代码 herosunly 大模型推理速度人工智能实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助
深入探索Python机器学习算法：模型评估数据攻城小狮子 Python机器学习 python 机器学习算法 sklearn 人工智能
深入探索Python机器学习算法：模型评估文章目录深入探索Python机器学习算法：模型评估模型评估1.数据集划分1.1划分原则和方法1.2交叉验证技术1.3不同数据集划分方法的适用性2.评估指标分析2.1分类任务评估指标2.2回归任务评估指标2.3不同评估指标的选择和比较3.模型评估的注意事项3.1避免数据泄露问题3.2评估指标的稳定性和可靠性模型评估1.数据集划分1.1划分原则和方法在机器学习
基于springboot+vue在线小说阅读平台系统(源码+lw+部署文档+讲解等) QQ3295391197 Java毕业设计项目 spring boot vue.js 后端
前言博主介绍：✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌主要内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。精彩专栏推荐订
R语言广义加型模型（GAM）的运用例子及实现教程 Mrrunsen R语言大学作业 r语言开发语言
文章目录步骤1：加载所需包和数据步骤2：数据预处理步骤3：拟合广义加型模型步骤4：查看模型摘要和诊断模型摘要系数估计平滑项模型质量步骤5：预测和可视化结论广义加型模型（GeneralizedAdditiveModel，简称GAM）是一种灵活的非线性建模方法，在统计学和机器学习领域被广泛应用。GAM可以用于拟合非线性关系，适用于多个预测变量之间的复杂关系，并且可以处理连续和分类变量。本教程将向您展示
机器学习--特征选择 Luis Li 的猫猫机器学习人工智能
一、方法介绍（一）定义在机器学习中，特征选择是一个至关重要的环节，其目的是从原始特征集合中挑选出最具代表性和信息量的特征子集，使得在该子集上构建的机器学习模型能够达到最佳的预测或分类效果。在实际的数据集里，往往存在大量的特征，其中一些特征可能与目标变量高度相关，对模型的预测有重要贡献；而另一些特征可能是冗余的、不相关的甚至会对模型产生干扰，增加模型的复杂度和噪声。（二）特征选择方法特征选择方法通常
python流水线自动化项目教程小白教程 python python 自动化开发语言 python自动化 python学习教程 python基础教程
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.项目环境准备Python安装选择Python开发环境安装必要库2.数据获取与理解4.模型训练流水线6.模型保存7.模型部署（简单Web服务）8.测试模型部署总结前言以下是一个使用Python构建简单机器学习流水线自动化项目的教程，涵盖数据预处理、模型训练、模型评估和模型部署等主要步骤。1.项目环境准备Python安装访
探索路径规划的艺术：CurvesGenerator - 优雅的曲线生成器邹澜鹤Gardener
探索路径规划的艺术：CurvesGenerator-优雅的曲线生成器CurvesGeneratorCommonusedcurvesformotionplanning.项目地址:https://gitcode.com/gh_mirrors/cu/CurvesGenerator项目介绍在机器学习、自动驾驶和游戏开发等领域中，精确且平滑的路径规划是至关重要的。CurvesGenerator是一个开源项目
AI人工智能代理工作流AI Agent WorkFlow：搭建可拓展的AI代理工作流架构 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能代理工作流AIAgentWorkFlow：搭建可拓展的AI代理工作流架构1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，特别是机器学习和深度学习技术的广泛应用，构建高度智能且自动化的代理系统成为了一个迫切的需求。这些代理系统能够自主地进行决策、执行任务并适应不断变化的环境。然而，现有的代理系统往往在面对复杂任务时缺乏灵活性和可扩展性，这限制了它们在实际应用中的广泛部署和大规模应
Chrome下载视频的插件爱编程的喵喵 Windows实用技巧 windows chrome 下载视频
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome下载视频的插件，希望能对
[水]与grok聊Java 啾啾大学习水 java 开发语言
摘要：AI时代，二本毕业一般工资一般履历的java程序员要怎么做才能不被淘汰呢？3步之内必有解药？AI带来的问题让AI解决？转行么？先水一篇吧（我知道可能不如去学习，但是我要是学习好我会这个样子，可恶，加油）目录1、AI带来的问题职业危机2、AI带来的机遇2.1、职业发展的帮助职业发展预测可能的职业1.AI工程师（AIEngineer）2.机器学习工程师（MachineLearningEngine
Deepseek 使用指南与提问优化策略西瓜拍两瓣 ai 语言模型 python gpt
序言随着人工智能技术的迅猛发展，语义搜索已成为提升信息检索效率和用户体验的核心工具。DeepSeek作为一款先进的语义搜索引擎，通过自然语言处理（NLP）和机器学习技术，能够深入理解用户查询的语义意图，提供高度精准的搜索结果。本文将详细介绍DeepSeek的核心功能、集成方法，并深入探讨如何通过优化提问策略，最大化利用DeepSeek的语义搜索能力，从而提升信息检索的效率和准确性。访问DeepSe
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
程序员未来黄金赛道：AI与大模型引领职业新机遇 AI学习不迷路人工智能大模型自然语言处理 LLM 程序员 AI大模型转行
2025年，人工智能（AI）与大型机器学习模型（LLM）的爆发式发展正重塑技术行业格局。面对AI编程工具日益强大的代码生成能力，程序员的职业角色面临深刻转型。如何在这场变革中抢占先机？本文结合行业趋势与专家洞察，解析程序员未来的核心出路。一、拥抱AI与新兴技术：从“编码者”到“解决方案架构师”AI大模型工程师：随着GPT、通义灵码等代码生成工具普及，程序员的角色正从基础编码转向模型调优与场景化应用
【Address Overfitting】解决过拟合的三种方法 HP-Succinum 机器学习机器学习数据分析
目录1.收集更多数据实践方法：适用场景：优缺点：2.特征选择方法介绍：实践示例：适用场景：优缺点：3.正则化（Regularization）正则化类型：实践示例：适用场景：优缺点：总结与对比总结在机器学习中，过拟合（Overfitting）是模型训练过程中常见的问题。它指的是模型在训练集上表现优秀，但在测试集或新数据上表现较差，无法很好地泛化。过拟合通常源于模型过于复杂或数据不足。本文将详细介绍解
ES: 机器学习、专家系统、控制系统的数学映射 wishchin AI/ES
一、基本定义1.机器学习维基定义：机器学习有下面几种定义：“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。“机器学习是对能通过经验自动改进的计算机算法的研究”。“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”一种经常引用的英文定义是：AcomputerprogramissaidtolearnfromexperienceEw
数据挖掘与数据分析 dundunmm 数据挖掘数据挖掘数据分析人工智能
数据挖掘和数据分析是两个密切相关但有所区别的领域，它们都涉及从数据中提取有价值的信息，但在目标、方法和技术上有所不同。数据挖掘vs.数据分析特征数据挖掘数据分析目标从大数据中自动发现知识和模式通过系统分析数据，得出有意义的结论重点数据模式的自动发现、预测模型的构建数据理解、数据清洗、数据总结、假设验证方法机器学习、聚类、回归、关联规则、深度学习等统计学方法、数据可视化、数据清理、假设检验等应用实时
An Introduction to Statistical Learning with Applicatio AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介1.1定义统计学习（statisticallearning）是一门研究如何从数据中提取知识并应用于预测、决策或其他目的的一门学科。它是机器学习、数据挖掘、计算机视觉等领域的一个分支，是当前热门的AI方向。1.2特点数据驱动：统计学习倾向于采用结构化的数据——如表格或矩阵形式——作为输入；假设空间少：统计学习通常只考虑一种假设空间，即概率模型或概率分布；模型复杂性
DiNN学习笔记1-理论部分瓜皮37 同态加密密码学信息安全神经网络
DiNN学习笔记1-理论部分背景知识机器学习即服务MLaaS中的全同态加密神经网络Fhe-DiNN中的默认设定Fhe-DiNN方案神经元中的计算离散神经网络DiNN评估步骤自举的引入激活函数的同态评估对TFHE的改进明文的打包密钥转换的前置动态变化的消息空间优化盲旋步骤DiNN方案的整体流程参考资料背景知识机器学习即服务机器学习即服务(MachineLearningasaService,MLaaS
大模型算法工程师的技术图谱和学习路径执于代码开发者职业加速服务算法学习
介绍：大模型算法工程师是指在开发和部署复杂的机器学习模型、深度学习模型或其他大规模模型的专业人员。他们的主要职责和技能要求包括：职责：设计、开发和优化大规模机器学习或深度学习模型，解决复杂的业务问题。负责整个模型开发生命周期，包括数据清洗、特征工程、模型选择、训练和部署。与数据科学家、工程团队和产品团队合作，理解业务需求并将算法转化为实际产品。对模型性能进行评估和优化，确保模型的准确性、效率和可扩
机器学习——KNN算法实战—手写数字识别巷955 机器学习算法人工智能
原理简述：KNN算法是机器学习中的一种基础的分类回归算法，选择距离自己最近的几条数据，依据最邻近的数据性质来估测自身的性质。下面我们开始实战，制作手写数字识别模型：一、cv2创建模型1、导入相关的库，这里我们用numpy和cv2两个库importnumpyasnpimportcv22、导入数据，并转化灰度图像img=cv2.imread('digits.png')gray=cv2.cvtColor
数据清洗与统计分析原理与代码实战案例讲解 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《数据清洗与统计分析原理与代码实战案例讲解》关键词：数据清洗、统计分析、Python、R语言、数据预处理、数据分析、机器学习、大数据摘要：本文将深入探讨数据清洗与统计分析的原理，并通过丰富的实战案例展示如何在实际项目中应用这些技术。我们将详细讲解数据清洗的基本概念、流程和方法，以及统计分析的各种技术和应用。通过本文的学习，您将掌握数据清洗与统计分析的核心技能，提升数据处理和分析的能力，为后续的数据
机器学习_PySpark-3.0.3随机森林回归(RandomForestRegressor)实例 Mostcow 数据分析 Python 机器学习随机森林回归大数据
机器学习_PySpark-3.0.3随机森林回归(RandomForestRegressor)实例随机森林回归(RandomForestRegression):任务类型:随机森林回归主要用于回归任务。在回归任务中,算法试图预测一个连续的数值输出,而不是一个离散的类别。输出:随机森林回归的输出是一个连续的数值,表示输入数据的预测结果。算法原理:随机森林回归同样基于决策树,但在回归任务中,每个决策树的
机器学习_Scikit-Learn随机森林回归(RandomForestRegressor)实例 Mostcow Python 数据分析机器学习 scikit-learn 随机森林回归算法
机器学习_Scikit-Learn随机森林回归(RandomForestRegressor)实例随机森林回归(RandomForestRegression):随机森林是一种集成学习方法,它通过构建多个决策树来进行预测。它对于处理大量特征、非线性关系和避免过拟合都有一定的优势。在Python中,你可以使用Scikit-learn库中的RandomForestRegressor来实现。随机森林回归作为
矩阵理论与应用：矩阵范数 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
矩阵理论与应用：矩阵范数1.背景介绍1.1问题的由来矩阵范数在数学、工程、物理以及计算机科学等多个领域都有着广泛的应用。它提供了一种衡量矩阵大小或者矩阵变换的影响程度的方法。矩阵范数的概念对于理解矩阵的性质、数值稳定性、以及在机器学习和信号处理中的矩阵操作至关重要。例如，在数值线性代数中，矩阵范数用于评估算法的收敛性、误差估计和稳定性。在信号处理中，它可以用来评估信号的失真程度或者噪声的影响。1.
聚类分析tensorflow实例_新手必看的机器学习算法集锦（聚类篇）道酝欣赏
继上一篇《机器学习算法之分类》中大致梳理了一遍在机器学习中常用的分类算法，类似的，这一姊妹篇中将会梳理一遍机器学习中的聚类算法，最后也会拓展一些其他无监督学习的方法供了解学习。1.机器学习机器学习是近20多年兴起的一门多领域交叉学科，它涉及到概率论、统计学、计算机科学以及软件工程等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类能从数据中自动分析获得规律
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一