要努力啊啊啊

集成学习详细总结(不涉及数学理论部分)

集成学习（Ensemble Learning）

1概念

集成学习就是将多个弱学习器组合在一起，从而得到一个更好更全面的强监督学习器模型。其中集成学习被分为3大类：bagging（袋装法）不存在强依赖关系，其中基学习器保持并行关系学习。boosting（提升法）存在强依赖关系，其中基学习器存在串行的方式学习。stacking(模型融合)通过组合模型，来提高预测精度。
Ensemble Learning的第一个问题是如何得到若干个个体学习器。这里有两种选择。

1——第一种就是所有的学习器都是同质的，比如所有的学习器都是神经网络，决策树。
2——第二种就是学习器不是同质的，如训练的时候使用随机森林，SVM，决策树等，然后再根据结合策略来确定选择分类器强的。

目前来说，同质个体学习器的应用是最广泛的，一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。
想要获得良好的集成性能，基分类器需要满足两个条件
1———基学习器要一定的性能，并且基学习器的性能不差于随机猜测，且准确率要在50%之上
2———基学习器之间要由差异性，具有多样性，不能基学习器都相同。

2结合策略

学习器的结合策略主要细分为3总。我们假定得到T个弱学习器{h1，h2，，，，ht}

2.1平均法

对于回归问题来讲，通常使用的是平均法，对若干个学习器的结果进行求平均。

2.2投票法

通常对于分类问题来讲，使用的是投票法。分为三种，相对多数投票法，即少数服从多数；绝对多数投票法，不仅仅要求票数最多，而且还需要要求票数过半；加权投票法，每个弱学习器的分类树乘上一个权重，最后各个类别的加权票数求和，选择最大的。

2.3学习法

将不会对弱学习器的结果做逻辑处理，而是再次之上再加上一层学习器。将训练集弱学习器的学习结果作为输入，训练集的输出作为输出，重新训练一个学习器来得到最终的结果。简而言之，再弱学习器之上再进行一次学习。

3Bagging

3.1概念

Bagging是并行式集成学习的最著名代表，名字是由Bootstrap AGGregatING缩写而来，看到Bootstrap我们就会联想到boostrap的随机模拟法和它对应的样本获取方式，它是基于自助采样法（Boostrap sampleing），Bagging也是同理.给定包含m个样本的数据集，先随机抽取一个样本放入采样集中，再把该样本放回，使得下次采样时该样本仍有机会被选中，这样经过m次采样，我们便从原始是数据集中抽取样本得到一个数据量同为m的数据集.说简单一点就是统计里的有放回抽样，且每个样本被抽取的概率相同，均为总样本数分之一。Bagging可以用于多分类，回归的任务.

3.2一般过程

bagging的算法过程如下：

1——从原始样本集中使用Bootstraping 方法随机抽取n个训练样本，共进行k轮抽取，得到k个训练集（k个训练集之间相互独立，元素可以有重复）。
2——对于n个训练集，我们训练k个模型，（这个模型可以根据具体的情况而定，可以是决策树，knn等）
3——对于分类问题：由投票表决定产生的分类结果。对于回归问题，有所选定的k个模型结果的均值来作为最后的预测结果。

3.3典型代表

3.3.1随机森立（决策树）

Ⅰ.概念

随机森林-介绍

Ⅱ.代码练习sklearn

4Boosting

4.1概念

Boosting由于各个基学习器处于串行的关系，各个基学习器存在强依赖关系，所以Boosting的学习是一个迭代的过程。

Boosting的学习机制为：先从基学习器当中训练出来一个基学习器，再根据基学习器对数据集的表现进行操作（将训练错误的数据的权重增大，训练正确的数据的权重减少。）基于调整后的数据集来训练下一个基学习器。如此重复，在基学习器达到设定的数量的时候，然后将这N个基学习器的结果进行加权求平均操作。Boosting中主要为Adaboost，XGBoost。
从偏差-方差的角度来看，Boosting主要关注降低偏差。从而说明Boosting是一个过拟合的模型。
偏差（variance）和方差（bias）

偏差（bias）：预测值和真实值之间的误差。
方差（variance）：预测值之间的离散程度，距离其期望值的距离。方差越大，数据的离散程度就会分散。
对于偏差（bais）：偏差过高是由于模型的复杂度不够，泛化能力不够，应该通过增加模型复杂度来降低偏差（bais）。
对于方差（variance）：方差过高是由于模型的泛化能能力过强，导致了过拟合，应该通过降低模型复杂度来实现。
比如加入正则化来限制模型的学习。

4.2 一般过程

——1 Weak Classifier 1首先对数据集进行分类，这是一个弱分类器。其中可以得出分错了三个数据信息，然后使用Weights Increased对分类错误的数据进行权重增加。
——2 继而使用Weak Classifier 2对处理过后的数据进行再次分类。可以得出分错了3个数据，然后再次使用Weights Increased对分类错误的数据进行权重增加。
——3 继而使用Weak Classifier 3对处理过后的数据进行再次分类。然后最后汇总所有的分类结果信息。

4.3典型代表

4.3.1.AdaBoost算法

Ⅰ.概念

AdaBoost既可以做回归也可以做分类.理论上任何学习器都可以用于Adaboost.但一般来说，使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树，Adaboost分类用了CART分类树，而Adaboost回归用了CART回归树。
优缺点总结：
优点总结

1——作为分类器时，分类精度很高。
2——可以使用任何回归分类模型来构建弱学习器
3——二分类器时，构造简单
4——不容易发生过拟合
缺点总结
1——对异常值比较敏感

Ⅱ.理论总结

暂时省略。。。。

Ⅲ.代码练习sklearn

from numpy import *
import matplotlib.pyplot as plt
import random
from sklearn import tree

def loadDataSet(filename):
    numFeat = len(open(filename).readline().split('\t'))
    dataMat = []
    labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = []
        curLine = line.strip().split('\t')#line.strip()首先清除掉一些空格，然后按照'\t'进行划分
        for i in range(numFeat - 1):#添加数据
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))#添加数据对应标签
    return dataMat,labelMat

#自助法采样
def rand_train(dataMat,labelMat):
    len_train = len(labelMat)
    train_data = []
    train_label = []
    #抽取样本的次数为样本的数目
    for i in range(len_train):
        index = random.randint(0,len_train-1)
        train_data.append(dataMat[index])
        train_label.append(labelMat[index])
    return train_data,train_label

#决策树学习
#默认并行生成十个基学习器
def bagging_by_tree(dataMat,labelMat,t=10):
    test_data,test_label = loadDataSet('E:/ZGW/PycharmProjects1/pythonProject1/scikit-learn/ensemble_learning/HorseColicData/horseColicTest.txt')
    predict_list = []
    for i in range(t):
        train_data,train_label = rand_train(dataMat,labelMat)
        clf = tree.DecisionTreeClassifier()#初始化决策树模型
        clf.fit(train_data,train_label)#训练模型
        total = []
        y_predicted = clf.predict(test_data)#预测数据
        total.append(y_predicted)
        predict_list.append(total)#结果添加到预测列表当中
    return predict_list,test_label

#计算错误率
def calc_error(predict_list,test_label):
    m,n,k = shape(predict_list)
    #分类问题就使用投票数，投票数占比最多的一个类别。
    predict_label = sum(predict_list,axis=0)
    predict_label = sign(predict_label)#取数字符号（数字前的正负号）.如果为负号就说明类别数为-1，如果为正号就说明类别数为+1.
    for i in range(len(predict_label[0])):
        if predict_label[0][i] == 0:
            tip = random.randint(0,1)
            if tip == 0:
                predict_label[0][i] = 1
            else:
                predict_label[0][i] = -1
    error_count = 0
    for i in range(k):
        if predict_label[0][i] != test_label[i]:
            error_count += 1
    error_rate = error_count / k
    return error_rate
def bagging_by_Onetree(dataMat,labelMat,t=10):
    test_data,test_label = loadDataSet('E:/ZGW/PycharmProjects1/pythonProject1/scikit-learn/ensemble_learning/HorseColicData/horseColicTest.txt')
    train_data,train_label = rand_train(dataMat,labelMat)
    clf = tree.DecisionTreeClassifier()
    clf.fit(train_data,train_label)
    y_predicted = clf.predict(test_data)
    error_count = 0
    for i in range(67):
        if y_predicted[i] != test_label[i]:
            error_count += 1
    return error_count/67
if __name__ == "__main__":
    fileName = 'E:/ZGW/PycharmProjects1/pythonProject1/scikit-learn/ensemble_learning/HorseColicData/horseColicTraining.txt'
    dataMat,labelMat =  loadDataSet(fileName)
    train_data,train_label = rand_train(dataMat,labelMat)
    predict_list , test_label = bagging_by_tree(dataMat,labelMat)
    print('单一错误率:',bagging_by_Onetree(dataMat,labelMat))
    print("Bagging错误率：",calc_error(predict_list,test_label))

AdaBoost-参数

1——base_estimator:基分类器，默认是决策树，在该分类器基础上进行boosting，理论上可以是任意一个分类器，但是如果是其他分类器时需要指明样本权重。
2——n_estimators:基分类器提升（循环）次数，默认是50次，这个值过大，模型容易过拟合；值过小，模型容易欠拟合。
3——learning_rate:学习率，表示梯度收敛速度，默认为1，如果过大，容易错过最优值，如果过小，则收敛速度会很慢；该值需要和n_estimators进行一个权衡，当分类器迭代次数较少时，学习率可以小一些，当迭代次数较多时，学习率可以适当放大。
4——algorithm:boosting算法，也就是模型提升准则，有两种方式SAMME, 和SAMME.R两种，默认是SAMME.R，两者的区别主要是弱学习器权重的度量，前者是对样本集预测错误的概率进行划分的，后者是对样本集的预测错误的比例，即错分率进行划分的，默认是用的SAMME.R。
5——随机种子设置。

AdaBoost-方法

1——decision_function(X):返回决策函数值（比如svm中的决策距离）
2——fit(X,Y):在数据集（X,Y）上训练模型。
3——get_parms():获取模型参数
4——predict(X):预测数据集X的结果。
5——predict_log_proba(X):预测数据集X的对数概率。
6——predict_proba(X):预测数据集X的概率值。
7——score(X,Y):输出数据集（X,Y）在模型上的准确率。返回的R方。
8——staged_decision_function(X):返回每个基分类器的决策函数值
9——staged_predict(X):返回每个基分类器的预测数据集X的结果。
10—— staged_predict_proba(X):返回每个基分类器的预测数据集X的概率结果。
11——staged_score(X, Y):返回每个基分类器的预测准确率。
分类

from sklearn.ensemble import AdaBoostClassifier,RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline#连续处理操作
from sklearn.preprocessing import StandardScaler#标准化
from sklearn.datasets import make_moons,make_circles,make_classification#数据多样化的建立
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier#需要注意的是版本的对应，这个玩意需要scikit-learn。1.1以上的版本，需要保证python的版本3.9.
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from matplotlib.colors import ListedColormap
from sklearn.inspection import DecisionBoundaryDisplay
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#分类器名称
names = [
    'Nearest Neighbors',
    'Linear SVM',
    'RBF SVN',
    'Decision Tree',
    'Random Forest',
    'Neural Net',
    'AdaBoost',
    'Native Bayes',
]

#分类器实例化
classifier = [
    KNeighborsClassifier(3),
    SVC(kernel='linear',C=0.025),
    SVC(gamma=2,C=1),
    DecisionTreeClassifier(max_depth=5),
    RandomForestClassifier(max_depth=5,n_estimators=10,max_features=1),
    MLPClassifier(alpha=1,max_iter=1000),#float，可选，默认为0.0001。L2惩罚（正则化项）参数。
    AdaBoostClassifier(),
    GaussianNB(),
]

#数据的建立
X,y = make_classification(n_features=2,n_redundant=0,n_informative=2,random_state=1, n_clusters_per_class=1)
rng = np.random.RandomState(2)#设置随机变量，以重复多次实验。
X = X + 2*rng.uniform(size=X.shape)#在原有的数据基础之上加上一些噪音。
linearly_separable = (X,y)
datasets = [
    make_moons(noise=0.3,random_state=0),
    make_circles(noise=0.2,factor=0.5,random_state=1),
    linearly_separable,
]

plt.figure(figsize=(27,9))
i = 1

for ds_cnt,ds in enumerate(datasets):
    X,y = ds
    X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.4,random_state=42)

    x_min,x_max = X[:,0].min() - 0.5,X[:,0].max() + 0.5
    y_min,y_max = X[:,1].min() - 0.5,X[:,1].max() + 0.5

    #just plot the dataset first
    cm = plt.cm.RdBu#颜色图
    cm_bright = ListedColormap(["#FF0000", "#0000FF"])
    ax = plt.subplot(len(datasets),len(classifier)+1,i)
    if ds_cnt == 0:
        ax.set_title('Input data')
    #Plot the training points
    ax.scatter(X_train[:,0],X_train[:,1],c=y_train,cmap = cm_bright,edgecolors = 'k')
    #Plot the testing points
    ax.scatter(X_test[:,0],X_test[:,1],cmap = cm_bright,edgecolors = 'k',c=y_test,alpha=0.6)

    ax.set_xlim(x_min,x_max)
    ax.set_ylim(y_min,y_max)
    ax.set_xticks(())
    ax.set_yticks(())
    i = i + 1

    #iterate over classifier
    for name,clf in zip(names,classifier):

        ax = plt.subplot(len(datasets),len(classifier) + 1,i)

        clf = make_pipeline(StandardScaler(),clf)
        clf.fit(X_train,y_train)
        score = clf.score(X_test,y_test)
        DecisionBoundaryDisplay.from_estimator(
            clf, X, cmap=cm, alpha=0.8, ax=ax, eps=0.5
        )

        #Plot the training points
        ax.scatter(X_train[:,0],X_train[:,1],c=y_train,cmap=cm_bright,edgecolors='k')
        #Plot the testing points
        ax.scatter(X_test[:,0],X_test[:,1],c=y_test,cmap=cm_bright,edgecolors='k',alpha=0.6)

        ax.set_xlim(x_min,x_max)
        ax.set_ylim(y_min,y_max)
        ax.set_xticks(())
        ax.set_yticks(())
        if ds_cnt == 0:
            ax.set_title(name)
        ax.text(x_max - 0.3,y_min + 0.3,('%.2f' % score).lstrip('0'),size=15,horizontalalignment='right')
        i = i + 1

plt.tight_layout()
plt.show()

回归

import numpy as np
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
import seaborn as sns


rng = np.random.RandomState(1)
X = np.linspace(0,6,100).reshape(100,-1)
y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0,0.1,X.shape[0])

regr_1 = DecisionTreeRegressor(max_depth=4)
regr_2 = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),n_estimators=300,random_state=rng)
regr_1.fit(X, y)
regr_2.fit(X, y)

y_1 = regr_1.predict(X)
y_2 = regr_2.predict(X)

colors = sns.color_palette('colorblind')

plt.figure()
plt.scatter(X,y,color=colors[0],label = 'trainning samples')#原始数据显示散点图
plt.plot(X,y_1,color = colors[1], label="n_estimators=300", linewidth=2)
plt.plot(X,y_2,color = colors[2], label="n_estimators=300", linewidth=2)
plt.xlabel('data')
plt.ylabel('target')
plt.title("Boosted Decision Tree Regression")
plt.legend()
plt.show()

4.3.2.GBDT（Gradient Boosting Decision Tree）梯度提升树

Ⅰ.概念

GBDT（Gradient Boosting Decision Tree）是由决策树（Decision Tree）构成的，所有决策树（Decision Tree）的结果累加起来就是GBDT（Gradient Boosting Decision Tree）的最终结果。无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树通通都是都是CART回归树。目前GBDT的算法比较好的库是xgboost。当然scikit-learn也可以。
这里的“梯度”和“提升”没有直接关系：“梯度”被用来让损失函数快速下降，进而让模型效果“提升”。
优点总结

1——可以灵活处理各种类型的数据，包括连续值和离散值。
2——在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
3——二分类器时，构造简单
4——不容易发生过拟合
缺点总结
1——由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

Ⅱ.理论总结

暂时省略。。。。

Ⅲ.代码练习sklearn

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, ensemble
from sklearn.inspection import permutation_importance#特征重要性排列顺序
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split


diabetes = datasets.load_diabetes()
X, y = diabetes.data, diabetes.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, random_state=13
)

params = {
    "n_estimators": 500,
    "max_depth": 4,
    "min_samples_split": 5,
    "learning_rate": 0.01,
    #"loss": "squared_error",
}

reg = ensemble.GradientBoostingRegressor(**params)
reg.fit(X_train, y_train)

mse = mean_squared_error(y_test, reg.predict(X_test))
print("The mean squared error (MSE) on test set: {:.4f}".format(mse))

test_score = np.zeros((params["n_estimators"],), dtype=np.float64)


for i,y_pred in enumerate(reg.staged_predict(X_test)):#返回每个基分类器的预测数据集X的结果。
    test_score[i] = mean_squared_error(y_test,y_pred)

fig = plt.figure(figsize=(6,6))
plt.subplot(1,1,1)
plt.title('Deviance')
plt.plot(np.arange(params['n_estimators']) + 1,reg.train_score_,'b-',label='Training Set Deviance')
plt.plot(np.arange(params['n_estimators']) + 1,test_score,'r-',label = 'Test Set Deviance')
plt.legend(loc='upper right')
plt.xlabel('Boosting Iterations')
plt.ylabel('Deviance')
plt.tight_layout()
plt.show()




feature_importance = reg.feature_importances_
sorted_idx = np.argsort(feature_importance)#返回的是索引列表
pos = np.arange(sorted_idx.shape[0]) + 0.5
fig = plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.barh(pos,feature_importance[sorted_idx],align='center')
plt.yticks(pos,np.array(diabetes.feature_names)[sorted_idx])
plt.title('Feature Importance (MDI)')

#n_repeats=10:排列特征的次数。置换特征的次数。个人理解可能是交换计算特征重要性的次数。
result = permutation_importance(reg, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2)
sorted_idx = result.importances_mean.argsort()#获得到特征影响因素最大的下表索引，
abc = result.importances[sorted_idx].T
plt.subplot(1,2,2)
plt.boxplot(result.importances[sorted_idx].T,vert=False,labels=np.array(diabetes.feature_names)[sorted_idx])
plt.title('Permutation Importance (test set)')
plt.tight_layout()
plt.show()
print()

4.3.3.XGBoost

Ⅰ.概念

XGBoost(Extreme Gradient Boosting),即一种高效的梯度提升决策树算法。他在原有的GBDT基础上进行了改进，使得模型效果得到大大提升。作为一种前向加法模型，他的核心是采用集成思想——Boosting思想，将多个弱学习器通过一定的方法整合为一个强学习器。即用多棵树共同决策，并且用每棵树的结果都是目标值与之前所有树的预测结果之差并将所有的结果累加即得到最终的结果，以此达到整个模型效果的提升。
XGBoost是由多棵CART(Classification And Regression Tree)，即分类回归树组成，因此他可以处理分类回归等问题。
在数据科学方面，有大量的Kaggle选手选用XGBoost进行数据挖掘比赛，是各大数据科学比赛的必杀武器；在工业界大规模数据方面，XGBoost的分布式版本有广泛的可移植性，支持在Kubernetes、Hadoop、SGE、MPI、 Dask等各个分布式环境上运行，使得它可以很好地解决工业界大规模数据的问题。

Ⅱ.理论总结

暂时省略

Ⅲ.代码练习sklearn

代码在另一个文件当中存放.

4.3.4.LightGBM

Ⅰ.概念

GBDT在工业界应用广泛，通常被用于点击率预测，搜索排序等任务。LightGBM （Light Gradient Boosting Machine）是一个实现GBDT算法的框架，支持高效率的并行训练。
优点总结

1——更快的训练速度。
2——更低的内存消耗。
3——更好的准确率。
4——分布式支持，可以快速处理海量的数据。
缺点总结
1——由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

Ⅱ.理论总结

Ⅲ.代码练习sklearn

1.3Stacking（模型融合）

1.3.1概念

在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器或元学习器（meta-learner），次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。

参考连接：

1——集成学习（Ensemble Learning)
2——集成学习（Ensemble Learning）简单入门
3——统计学总结之Bias(偏差)，Error(误差)，和Variance(方差)的区别
4——集成学习全面总结（boosting，bagging，stacking）
5——集成学习原理小结
6——Sklearn参数详解—Adaboost
7——集成学习-stacking算法

机器学习校招面经二 Y1nhl 搜广推面经机器学习人工智能算法推荐算法数据挖掘搜索算法 pytorch
快手机器学习算法一、AUC（AreaUndertheROCCurve）怎么计算？AUC接近1可能的原因是什么？见【搜广推校招面经四】AUC是评估分类模型性能的重要指标，用于衡量模型在不同阈值下区分正负样本的能力。它是ROC曲线（ReceiverOperatingCharacteristicCurve）下的面积。1.1.ROC曲线的坐标ROC曲线以真正例率（TruePositiveRate,TPR）
华为面试题及答案——机器学习(二) 麦当当MDD 题目挖掘机器学习人工智能数据库开发数据库大数据
21.如何评价分类模型的优劣?（1）模型性能指标准确率（Accuracy）：定义：正确分类的样本数与总样本数之比。适用：当各类样本的数量相对均衡时。精确率（Precision）：定义：预测为正类的样本中实际为正类的比例。适用：当关注假阳性错误的成本较高时（例如垃圾邮件检测）。召回率（Recall）：定义：实际为正类的样本中被正确预测为正类的比例。适用：当关注假阴性错误的成本较高时（例如疾病检测）。
顺丰科技-2024 机器学习算法面经程序员奇奇 offer分享+面试经验顺丰科技机器学习机器学习算法面经
专栏分享：计算机小伙伴秋招春招找工作的面试经验和面试的详情知识点专栏首页：软件测试开发类面经合集主要分享：测试开发类岗位在面试互联网公司时候一些真实的经验面试code学习参考请看：数据结构面试必刷100题一面：1.自我介绍2.线程和进程的区别，什么时候用多进程，什么时候用多线程（这个属于给自挖坑了）3.实习项目问题，项目目标是怎么定的，用的什么算法
基于 Python + Django 的学生成绩综合评价分析预测可视化系统源码空间站11 python django 开发语言课程设计机器学习成绩预测毕业设计
开发报告：一、项目概述本项目是一个基于Python和Django框架开发的学生成绩综合评价分析与预测可视化系统。系统的主要功能包括：学生成绩数据的管理与展示、成绩预测模型的建立与应用、以及预测结果的可视化展示。该系统利用机器学习算法（如线性回归）进行成绩预测，并通过DjangoWeb框架实现数据的展示和用户交互。二、系统功能概述学生信息管理：系统管理学生的基本信息，包括年龄、性别、爱好等，基于Dj
机器学习之学习笔记孤城laugh 机器学习学习笔记人工智能 python
机器学习-学习笔记1.简介2.算法3.特征工程3.1数据集3.2特征提取3.3特征预处理3.4特征降维4.分类算法4.1`sklearn`转换器和估计器4.2K-近邻算法（KNN）4.3模型选择与调优4.4朴素贝叶斯算法4.5决策树4.6集成学习方法之随机森林5.回归算法5.1线性回归5.2过拟合与欠拟合5.3岭回归5.4逻辑回归（实际上是分类算法，用于解决二分类问题）6.聚类算法1.无监督学习2
深度学习day1 孤城laugh 深度学习人工智能笔记学习机器学习
深度学习day11.深度学习与机器学习的区别1.1特征提取方面1.2数据量与计算性能要求1.3算法代表2.深度学习框架之TensorFlow2.1TensorFlow基础2.2TensorFlow基础知识1.**张量（Tensor）**：多维数组、多维列表2.**变量（Variable）**：用于表示程序处理的共享持久状态3.**图与函数**4.**可视化学习（TensorBoard）**：用来展
深度学习现状与未来发展趋势分析报告（深度学习还是主流吗？）与光同尘大道至简深度学习人工智能
此博客分析深度学习当前的主流应用领域、其受关注度的变化趋势、可能的技术替代或补充方案、产业界和学术界的不同发展方向，以及影响其受关注度变化的核心因素。报告将包括结构化分析（背景、现状、挑战、未来趋势）、数据驱动（市场趋势、论文发表量等数据支持）以及行业案例分析，以展示某些行业如何逐步减少对深度学习的依赖。背景深度学习的概念与发展历程：深度学习（DeepLearning）是机器学习中的一类方法，源于
K-means聚类：解锁数据隐藏结构的钥匙蓝天资源分享 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）青云交大数据新视界 Java 大视界大数据 java 可解释性 AI SHAP LIME 因果推理可视化交互
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
基于K8S设计实现机器学习管理调度平台 richenlin 机器学习
设计和实现一套基于Kubernetes(K8s)的机器学习管理调度平台，目标是利用K8s的容器化和调度能力，提供高效的资源管理、任务调度、可扩展性及灵活性，适应机器学习（ML）训练、推理等不同场景的需求。以下是平台设计的主要模块和实施步骤：1.系统架构概述该平台需要一个多层架构，其中K8s作为底层容器调度和资源管理平台，机器学习任务管理与调度层作为平台的核心模块。平台应具备高可用、弹性伸缩、任务监
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
神经网络:人工智能的核心技术 m0_75126181 人工智能神经网络深度学习
神经网络简介神经网络是一种模仿生物神经系统的计算模型,由大量相互连接的神经元组成。它通过学习大量的数据来完成复杂的模式识别和决策任务,是当前人工智能和机器学习领域最重要的技术之一。神经网络的基本结构包括输入层、隐藏层和输出层。输入层接收外部数据,隐藏层对数据进行处理和特征提取,输出层产生最终结果。神经元之间通过带权重的连接相互作用,通过调整这些权重来实现学习过程。神经网络的工作原理神经网络的工作原
强化学习是否能够在完全不确定的环境中找到一个合理的策略，还是说它只能在已知规则下生效？ concisedistinct 人工智能人工智能强化学习
强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。其核心理念是通过与环境的互动，不断学习如何选择最优行动以最大化累积奖励。尽管强化学习在许多已知和相对确定的环境中表现出色，但在面对完全不确定或动态变化的环境时，其表现和可靠性是否依然能保持一致是一个值得深入探讨的问题。我们生活的世界充满了不确定性，尤其是在
（一）spark是什么？一智哇大数据框架学习 spark big data 大数据
1.spark是什么？spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。通过在一个统一的框架下支持这些不同的计算，spark使我们可以简单而低耗地把各种处理流程整合在一起。2.spark的用途（1）：数据科学任务具备SQL、统计、预测建模（机器学习）等方面的经验，以及一定的python，matlab
推荐收藏！数据分析必会的 10 个 python 库！ Python数据挖掘深度学习机器学习数据分析及可视化数据分析 python 数据挖掘算法
大家好，今天给大家分享除了基本的NumPy、Pandas和Matplotlib之外的10个流行的数据分析Python库。文末提供资料和技术交流Scikit-learnScikit-learn是一个功能强大的机器学习库，为监督和无监督学习、模型选择和预处理提供了广泛的算法。Scikit-learn简化了构建机器学习模型的过程，使其成为数据科学家和分析师的热门选择。可以通过pip命令来进行安装。pip
探秘Mixup：数据增强的新利器荣正青
探秘Mixup：数据增强的新利器mixupImplementationofthemixuptrainingmethod项目地址:https://gitcode.com/gh_mirrors/mi/mixup项目简介是一个由HongyiZhang开发的Python库，它实现了机器学习中的数据增强策略——Mixup方法。这个项目的目标是通过混合不同样本的数据点生成新的训练样本，从而帮助模型更好地学习数
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
国内如何快速拿下微软AI-900!? 全球认证考试中心 microsoft 人工智能 ai
微软AI-900认证，全称AzureAIFundamentals是由微软官方最新研发的一项有关人工智能的认证证书。想要获得该证书，需通过AI-900测试或者AI-102。适用于全行业、全学龄人员，考试不设置专业和年龄限制，对人工智能感兴趣即可参加。获得证书能够证明证书持有者在机器学习（ML）、人工智能（AI）基础概念、云技术基础及MicrosoftAzure服务等多方面的掌握程度。此考试的考生应熟
【量子退火（Quantum Annealing, QA）在Machine Learning Classification中的应用】搞技术的妹子机器学习量子计算人工智能
随着量子计算技术的发展，**量子退火（QuantumAnnealing,QA）成为了优化问题中一种潜力巨大的方法。它不仅可以用于求解传统优化问题，还被逐渐应用于机器学习领域，特别是机器学习分类（MachineLearningClassification）**任务中。在这篇博客中，我们将探讨量子退火在机器学习分类中的应用，并通过一个实际的案例来展示如何使用量子退火优化分类模型。什么是量子退火（Qua
二维随机变量 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.二维随机变量基础1.1基本定义二维随机变量(X,Y)(X,Y)(X,Y)是由两个定义在同一概率空间上的随机变量XXX和YYY组成的向量样本空间：每个试验结果e∈Se\inSe∈S对应到平面上的一个点(X(e),Y(e))(
似然函数与极大似然估计 Shockang 机器学习数学通关指南机器学习人工智能数学概率论
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.似然函数：直观理解与数学定义核心概念似然函数是机器学习中参数估计的基石，它从数据与模型之间的关系出发，提供了一种优化参数的数学框架。直观理解：假设你正在调整相机参数以拍摄最清晰的照片。似然函数就像是一个"清晰度指标"，告诉
正交投影与内积空间：机器学习的几何基础 Shockang 机器学习数学通关指南机器学习人工智能线性代数数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文1.内积空间的数学定义1.1代数定义✏️两个维度相同的向量a=[a1,…,an]\mathbf{a}=[a_1,\dots,a_n]a=[a1,…,an]和b=[b1,…,bn]\mathbf{b}=[b_1,\dots,b_
特征值与特征向量 Shockang 机器学习数学通关指南机器学习线性代数矩阵数学
前言本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见《机器学习数学通关指南》正文一、定义与数学表达特征向量：对于方阵AAA，若存在非零向量v\mathbf{v}v满足Av=λvA\mathbf{v}=\lambda\mathbf{v}Av=λv，则v\mathbf{v}v称为AAA的特征向量。特征值：对应
mac系统下安装pycharm 连小黑 python pycharm macos python
mac系统下安装pycharm前言Windows系统安装教程传送门链接:https://blog.csdn.net/lianxiaohei/article/details/121694126随着人工智能的不断发展，机器学习这门技术也越来越重要，也有很多人都因为做自动化，爬虫会学python，今天写的是pycharm编译器，在mac上如何安装,废话不多说，上步骤一、第一步下载示例：下载安装软件的第一
【机器学习】Reinforcement Learning-强化学习基本概念长相忆兮长相忆深度学习人工智能算法机器学习
1、Q值与V值1.1Q值和V值的定义Q值：也称为动作价值函数，评估动作的价值，它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望，表示为Q(s,a)，其中s是状态，a是动作。V值：评估状态的价值，也称为状态价值函数，表示为V(s)，其中s是状态。它代表了智能体在这个状态下，一直到最终状态的奖励总和的期望。V值与动作无关只与状态有关。Q值和V值的概念是一致的，都是衡量在马可洛夫树上某一个节点
机器学习笔记 - 监督学习备忘清单坐望云起深度学习从入门到精通监督学习线性模型支持向量机生成学习集成方法
一、监督学习简介给定一组数据点关联到一组结果，我们想要构建一个分类器，学习如何从预测。1、预测类型下表总结了不同类型的预测模型：2、模型类型下表总结了不同的模型：
30段极简Python代码：这些小技巧你都Get了么 Python 学习者 Python
学Python怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。本文是30个极简任务，初学者可以尝试着自己实现；本文同样也是30段代码，Python开发者也可以看看是不是有没想到的用法。Python是机器学习最广泛采用的编程语言，它最重要的优势在于编程的易用性。如果读者对基本的Python语法已经有一些了解，那么这篇文章可能会给你一些启发。作者简单概览了30段代码，它们都是平常非常
如何使用DeepSeek进行高效数据挖掘与分析 Small踢倒coffee_氕氘氚笔记经验分享迭代器模式
##摘要随着大数据时代的到来，数据挖掘与分析技术在各行各业中扮演着越来越重要的角色。DeepSeek作为一种先进的数据挖掘工具，能够帮助用户从海量数据中提取有价值的信息。本文将详细介绍DeepSeek的功能、使用方法及其在实际应用中的优势，旨在为用户提供一份全面的使用指南。##关键词DeepSeek、数据挖掘、数据分析、机器学习、大数据##引言###背景在当今信息爆炸的时代，数据已成为企业决策的重
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：deathwknight@163.com）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

集成学习详细总结(不涉及数学理论部分)

集成学习（Ensemble Learning）

1概念

2结合策略

2.1平均法

2.2投票法

2.3学习法

3Bagging

3.1概念

3.2一般过程

3.3典型代表

3.3.1随机森立（决策树）

Ⅰ.概念

Ⅱ.代码练习sklearn

4Boosting

4.1概念

4.2 一般过程

4.3典型代表

4.3.1.AdaBoost算法

Ⅰ.概念

Ⅱ.理论总结

Ⅲ.代码练习sklearn

4.3.2.GBDT（Gradient Boosting Decision Tree）梯度提升树

Ⅰ.概念

Ⅱ.理论总结

Ⅲ.代码练习sklearn

4.3.3.XGBoost

Ⅰ.概念

Ⅱ.理论总结

Ⅲ.代码练习sklearn

4.3.4.LightGBM

Ⅰ.概念

Ⅱ.理论总结

Ⅲ.代码练习sklearn

1.3Stacking（模型融合）

1.3.1概念

你可能感兴趣的:(机器学习,集成学习,机器学习,决策树)