Strangers_bye

sklearn集成方法

集成方法

集成方法是训练很多基学习器，然后用这些基学习器去对进行分类或者回归，最后取所有结果中比例最大的作为模型的结果

投票分类器(Voting Classifiers)

定义：对于一个训练集，有很多分类器，比如说Logistic、KNN、SVM等。对于一个样本，我们给出所有分类器的分类结果，然后利用这个结果对样本的分类进行预测
- hard voting classifier ：不考虑分类器的差别，比如说他们的准确性等，直接取投票数最多的类别，将其作为我们最后的对于该样本的分类结果
- soft voting classifier：利用所有分类器给出的各个类别的概率，最后利用各个类别的概率之和进行预测，doft voting的准确率要略微高于hard voting，因为它考虑了每个模型的不同
在很多情况下，投票分类器的精度会比集合里最好的分类器的精度还要高(对于大多数测试集)，因为这种集成方法提高了模型的鲁棒性。
当集成方法中的基学习器之间互相独立时，集成方法的效果会更好

from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
from sklearn.metrics import accuracy_score

# 导入数据
X, y = make_moons(n_samples=500, noise=0.30, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# 三个基学习器
log_clf = LogisticRegression()
rf_clf = RandomForestClassifier()
svm_clf = SVC()
# 投票分类器
voting_clf = VotingClassifier( estimators=[("lr", log_clf), ("rf", rf_clf), ("svc", svm_clf)], voting="hard" )
# voting_clf.fit( X_train, y_train )

for clf in ( log_clf, rf_clf, svm_clf, voting_clf ):
    clf.fit( X_train, y_train )
    y_pred = clf.predict( X_test )
    print( clf.__class__.__name__, accuracy_score(y_test, y_pred) )

LogisticRegression 0.864
RandomForestClassifier 0.88
SVC 0.888
VotingClassifier 0.896

Bagging和Boosting

怎样得到很多基学习器：可以选择很多不同的训练算法，也可以对于每个基学习器，都选择相同的训练算法，但是对于每个基学习器，都用不同的子数据集或者子特征集进行训练
- 有放回抽样：即数据集允许重复（对于每一个基学习器），这也叫bagging
- 无放回抽样：即数据不允许重复，这也叫pasting
  
  both bagging and pasting allow training instances to be sampled several times across multiple predictors, but only bagging allows training instances to be sampled several times for the same predictor
得到很多基学习器之后，就可以利用统计的方法进行分类或者回归
sklearn中的BaggingClassifier可以实现Bagging
- n_estimators：基学习器的数量
- max_samples：每个基学习器中的样本数，如果是整形，则就是样本个数；如果是float，则是样本个数占所有训练集样本个数的比例
- bootstrap ：是否采用有放回抽样(bagging)，为True表示采用，否则为pasting。默认为True
- n_jobs：并行运行的作业数量。-1时，个数为处理器核的个数
- oob_socre：为True时，对模型进行out-of-bag的验证，即在一个基学习器中，没有用于训练的数据用于验证
相对于单个的决策树，Bagging方法得到的分类边界更加平滑
相对于pasting方法来说，bagging方法中模型的偏差会偏大一点，因为它是采用有放回的抽样，所有模型中用到的数据的均匀性会差一点；但是因为这样，模型之间相对独立一点，因此bagging的方差会小一点。在实际使用过程中，bagging的效果一般会更好，因此一般使用bagging。但是对于具体的问题，我们也可以用交叉验证验证两种模型的性能。
Out-of-bag Evaluation：每个模型中只会使用到一部分的数据集，因此剩下的数据集(没有用在)可以用于对模型进行验证
Bagging也支持对特征的采样，可以用max_features和bootstrap_features参数进行设置，这在处理高位特征输入的训练数据中十分有效，可以降低模型的复杂度以及过拟合的风险。同时对样本和特征进行采样称为Random Patches Method，保留所有的样本，只对特征进行采样称为Random Subspaces method

from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier( DecisionTreeClassifier(), n_estimators=500, max_samples=100, bootstrap=True, n_jobs=-1 )

bag_clf.fit( X_train, y_train )
y_pred = bag_clf.predict( X_test )
pred_score = accuracy_score( y_pred, y_test )
print( pred_score )

0.912

%matplotlib inline
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.tree import DecisionTreeClassifier
import numpy as np

def plot_decision_boundary(clf, X, y, axes=[-1.5, 2.5, -1, 1.5], alpha=0.5, contour=True):
    x1s = np.linspace(axes[0], axes[1], 100)
    x2s = np.linspace(axes[2], axes[3], 100)
    x1, x2 = np.meshgrid(x1s, x2s)
    X_new = np.c_[x1.ravel(), x2.ravel()]
    y_pred = clf.predict(X_new).reshape(x1.shape)
    custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])
    plt.contourf(x1, x2, y_pred, alpha=0.3, cmap=custom_cmap, linewidth=10)
    if contour:
        custom_cmap2 = ListedColormap(['#7d7d58','#4c4c7f','#507d50'])
        plt.contour(x1, x2, y_pred, cmap=custom_cmap2, alpha=0.8)
    plt.plot(X[:, 0][y==0], X[:, 1][y==0], "yo", alpha=alpha)
    plt.plot(X[:, 0][y==1], X[:, 1][y==1], "bs", alpha=alpha)
    plt.axis(axes)
    plt.xlabel(r"$x_1$", fontsize=18)
    plt.ylabel(r"$x_2$", fontsize=18, rotation=0)
    return

tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
y_pred_tree = tree_clf.predict(X_test)

plt.figure(figsize=(8,3))
plt.subplot(121)
plot_decision_boundary(tree_clf, X, y)
plt.title("Decision Tree", fontsize=14)
plt.subplot(122)
plot_decision_boundary(bag_clf, X, y)
plt.title("Decision Trees with Bagging", fontsize=14)
plt.show()

bag_clf = BaggingClassifier( DecisionTreeClassifier(), n_estimators=500, max_samples=100, bootstrap=True, n_jobs=-1, oob_score=True )
bag_clf.fit( X_train, y_train )
print( bag_clf.oob_score_ )
y_pred = bag_clf.predict( X_test )
print( accuracy_score(y_test, y_pred) )
# 输出bagging的概率矩阵
df = bag_clf.oob_decision_function_
# print( df )

0.896
0.896

随机森林(Random Forests)

随机森林一般是用bagging方法进行训练，每个决策树中使用的样本数都是全部的训练集，RandomForestClassifier中的参数与决策树基本一致，都是对决策树的形状等性质做一些规定
相比于Bagging方法，随机森林引入了一些额外的随机性，因为它不是在所有的特征中选择最好的分类特征用于分离一个节点，而是在随机的一些特征中选择最优的节点分割方法。这会增大模型的偏差，但是减小了模型的方差。
如果在bagging方法中设置模型随机选择特征进行基学习器的训练，那么它与随机森林等价(其他参数相同的情况下)

Extra-Trees

随机森林中，每个决策树的特征是随机的；而如果在每次选择分割节点的对应特征的阈值时，选择随机的阈值进行分割，而非之前决策树中使用的最优的方法，这会进一步增加模型的偏差，同时降低模型的方差。这种方法的训练速度也比之前的方法要更快

特征的重要性

RF是white bx的模型，它的特征对模型的影响是可解释的，对于单个的决策树来说，越靠近根节点对应的特征越重要，而靠近叶子节点的特征的重要性相对小一些

from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier

rf_clf = RandomForestClassifier( n_estimators=500, max_leaf_nodes=16, n_jobs=-1 )
rf_clf.fit( X_train, y_train )
y_pred_clf = rf_clf.predict( X_test )
print( accuracy_score( y_pred_clf, y_test ) )

extra_tree_clf = ExtraTreesClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1)
extra_tree_clf.fit( X_train, y_train )
y_pred_clf = extra_tree_clf.predict( X_test )
print( accuracy_score( y_pred_clf, y_test ) )

0.928
0.912

from sklearn.datasets import load_iris

iris = load_iris()
rf_clf = RandomForestClassifier( n_estimators=500, n_jobs=-1 )
rf_clf.fit( iris.data, iris.target )
# rf_clf.feature_importances_中已经按照样本中特征的顺序进行了排序，与特征一一顺序对应
for name, score in zip( iris.feature_names, rf_clf.feature_importances_ ):
    print( name, score )

sepal length (cm) 0.103714253389
sepal width (cm) 0.0229312213868
petal length (cm) 0.435857047862
petal width (cm) 0.437497477363

import matplotlib
from sklearn.datasets import fetch_mldata
mnist = fetch_mldata('MNIST original')

rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(mnist["data"], mnist["target"])

def plot_digit(data):
    image = data.reshape(28, 28)
    plt.imshow(image, cmap = matplotlib.cm.hot,
               interpolation="nearest")
    plt.axis("off")
    return

plot_digit(rf_clf.feature_importances_)
cbar = plt.colorbar(ticks=[rf_clf.feature_importances_.min(), rf_clf.feature_importances_.max()])
cbar.ax.set_yticklabels(['Not important', 'Very important'])
plt.show()

Boosting

Boosting最初被称为hypothesis boosting，它指的是将若干弱学习器组合在一起，形成一个强学习器
基本思想是按次序训练学习器，并且修正之前的学习器
目前最常用的Boosting方法是AdaBoost和Gradient Boosting

AdaBoost

AdaBoost也是有很多个基学习器，但是其基本思想是：每个基学习器的训练样本都会受到之前一个基学习器的影响，即在之前的基学习器中，那些被误分类的训练样本在下此次样本的选择中，会被赋予更大的比重，即学习器更关注之前的误分类样本

公式推导

参考链接：http://blog.csdn.net/GYQJN/article/details/45501185

对于二分类器来说，输入为训练集$T=\{(x_{1},y_{1}),(x_{2},y_{2}), ...(x_{N},y_{N})\}$。其中$x_{i}\in X \subseteq R^n ,y_{i}\in Y=\{-1,+1\}$

输出为最终分类器 G(x)

初始化训练数据的权值分布
$D 1 = (w 11, . . ., w 1 i, . . ., w 1 N), w 1 i = 1 N, i = 1, 2, . . ., N$
在初始的时候，分类器对于各个样本的权值是相等的
对于m=1,2,3,…M(M为AdaBoost包含的基学习器个数)
- 使用具有权值分布 Dm 的训练数据集学习，得到基本分类器
  $G m : X \to {- 1, + 1}$
- 计算 Gm(x) 在训练集上的分类误差率
  $e m = P (G m (x i) \neq y i) = \sum i = 1 n w m i I (G m (x i) \neq y i)$
  这里， I(Gm(xi)≠yi) 是示性函数，括号中的不等式成立时，值为1，否则为0
- 计算 Gm(x) 的系数
  $α m = 1 2 l o g 1 - e m e m$
  因此 αm 是关于 em 的递减函数，错误率更小的基学习器会对最终的分类器有更大的贡献
- 更新训练数据集的权值分布
  $D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . ., w m + 1, N)$
  $w m + 1, i = w m i Z m e x p (- α m y i G m (x i)) i = 1, 2, . . ., N$
  其中， Zm 是规划因子
  $Z m = \sum i = 1 N w m i e x p (- α m y i G m (x i))$
  即所有的 wm,i 关于i相加结果为1
- 构建基本分类器的线性组合，得到最终的分类器
  
  $G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x))$
- 由于AdaBoost在每次训练时，都需要用到之前的基学习器，因此无法实现多个基学习器共同训练的并行化

from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1), n_estimators=200,
    algorithm="SAMME.R", learning_rate=0.5, random_state=42)
ada_clf.fit(X_train, y_train)
plt.figure(figsize=(4,3))
plot_decision_boundary( ada_clf, X, y )
plt.show()

# AdaBoost的基本思想示例
m = len(X_train)

plt.figure(figsize=(8, 3))
for subplot, learning_rate in ((121, 1), (122, 0.5)):
    sample_weights = np.ones(m)
    for i in range(5):
        plt.subplot(subplot)
        svm_clf = SVC(kernel="rbf", C=0.05, random_state=42)
        svm_clf.fit(X_train, y_train, sample_weight=sample_weights)
        y_pred = svm_clf.predict(X_train)
        sample_weights[y_pred != y_train] *= (1 + learning_rate)
        plot_decision_boundary(svm_clf, X, y, alpha=0.2)
        plt.title("learning_rate = {}".format(learning_rate), fontsize=16)

plt.subplot(121)
plt.text(-0.7, -0.65, "1", fontsize=14)
plt.text(-0.6, -0.10, "2", fontsize=14)
plt.text(-0.5,  0.10, "3", fontsize=14)
plt.text(-0.4,  0.55, "4", fontsize=14)
plt.text(-0.3,  0.90, "5", fontsize=14)
plt.show()

Gradient Boosting

GB与AdaBoost类似，也是依次在集成方法增加学习器，但是不同的是，AdaBoost是在每次迭代过程中调节训练数据的权重，而GB是在每次迭代过程中，采用之前的基学习器的残差来训练得到新的基学习器
Gradient Boosted Regression Trees也叫GBRT
sklearn中集成了GBRT，里面有一个学习率的超参数。如果这个参数设置的比较小，则需要更多的树来拟合训练集，但是预测效果一般会更好。
对于相同的GBRT，树的个数太多，容易造成过拟合现象

# GBRT的基本实现
from sklearn.tree import DecisionTreeRegressor
np.random.seed(42)
X = np.random.rand(100, 1) - 0.5
y = 3*X[:, 0]**2 + 0.05 * np.random.randn(100)

def plot_predictions(regressors, X, y, axes, label=None, style="r-", data_style="b.", data_label=None):
    x1 = np.linspace(axes[0], axes[1], 500)
    y_pred = sum(regressor.predict(x1.reshape(-1, 1)) for regressor in regressors)
    plt.plot(X[:, 0], y, data_style, label=data_label)
    plt.plot(x1, y_pred, style, linewidth=2, label=label)
    if label or data_label:
        plt.legend(loc="upper center", fontsize=16)
    plt.axis(axes)
    return

tree_reg1 = DecisionTreeRegressor( max_depth=2 )
tree_reg1.fit( X, y )
y2 = y - tree_reg1.predict( X )
tree_reg2 = DecisionTreeRegressor( max_depth=2 )
tree_reg2.fit( X, y2 )
y3 = y2 - tree_reg2.predict(X)
tree_reg3 = DecisionTreeRegressor(max_depth=2)
tree_reg3.fit(X, y3)
# t_pred = sum( tree.predict(X_new) for tree in ( tree_reg1, tree_reg2, tree_reg3 )  )

plt.figure(figsize=(9,9))
plt.subplot(321)
plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h_1(x_1)$", style="g-", data_label="Training set")
plt.ylabel("$y$", fontsize=12, rotation=0)
plt.title("Residuals and tree predictions", fontsize=12)

plt.subplot(322)
plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1)$", data_label="Training set")
plt.ylabel("$y$", fontsize=12, rotation=0)
plt.title("Ensemble predictions", fontsize=12)

plt.subplot(323)
plot_predictions([tree_reg2], X, y2, axes=[-0.5, 0.5, -0.5, 0.5], label="$h_2(x_1)$", style="g-", data_style="k+", data_label="Residuals")
plt.ylabel("$y - h_1(x_1)$", fontsize=12)

plt.subplot(324)
plot_predictions([tree_reg1, tree_reg2], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1) + h_2(x_1)$")
plt.ylabel("$y$", fontsize=12, rotation=0)

plt.subplot(325)
plot_predictions([tree_reg3], X, y3, axes=[-0.5, 0.5, -0.5, 0.5], label="$h_3(x_1)$", style="g-", data_style="k+")
plt.ylabel("$y - h_1(x_1) - h_2(x_1)$", fontsize=16)
plt.xlabel("$x_1$", fontsize=12)

plt.subplot(326)
plot_predictions([tree_reg1, tree_reg2, tree_reg3], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$h(x_1) = h_1(x_1) + h_2(x_1) + h_3(x_1)$")
plt.xlabel("$x_1$", fontsize=12)
plt.ylabel("$y$", fontsize=12, rotation=0)
plt.show()

# sklearn中集成了GBRT
from sklearn.ensemble import GradientBoostingRegressor

gbrt = GradientBoostingRegressor( max_depth=2, n_estimators=3, learning_rate=1.0 )
gbrt.fit( X, y )
plt.figure( figsize=(8,3) )
plt.subplot(121)
plot_predictions( [gbrt], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$n\_estimators=3$" )

gbrt = GradientBoostingRegressor( max_depth=2, n_estimators=30, learning_rate=1.0 )
plt.subplot( 122 )
gbrt.fit( X, y )
plot_predictions( [gbrt], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label="$n\_estimators=200$" )

为了防止过拟合，可以采用early stopping的方法。先设置一个较大的树的个数，然后从这里面找出MSE最小的一棵树，这棵树所在的下标就是我们最终需要的树的个数
GBRT中也包含subsample的超参数，相当于在训练一棵树的时候，只采用这么多的训练样本，类似于随机梯度下降的方法。

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_val, y_train, y_val = train_test_split( X, y )

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120)
gbrt.fit( X_train, y_train )

errors = [ mean_squared_error(y_val, y_pred) for y_pred in gbrt.staged_predict( X_val ) ]
best_n_estimators = np.argmin( errors )
print( "best number of estimators is : ", best_n_estimators )
plt.figure( figsize=(5,3) )
plt.plot( errors )
plt.show()

gbrt_best = GradientBoostingRegressor( max_depth=2, n_estimators=best_n_estimators )
gbrt_best.fit( X_train, y_train )

best number of estimators is :  84

GradientBoostingRegressor(alpha=0.9, criterion='friedman_mse', init=None,
             learning_rate=0.1, loss='ls', max_depth=2, max_features=None,
             max_leaf_nodes=None, min_impurity_decrease=0.0,
             min_impurity_split=None, min_samples_leaf=1,
             min_samples_split=2, min_weight_fraction_leaf=0.0,
             n_estimators=84, presort='auto', random_state=None,
             subsample=1.0, verbose=0, warm_start=False)

Stacking

Stacking不是简单的对所有模型进行简单的平均或者加权聚合，而是训练出一个模型，来对这些基学习器进行聚合。
Stacking首先训练出很多基学习器，然后再训练一个元学习器(meta learner或者blender)，对这些基学习器进行聚合
训练方法：将训练集分为两个子集(subset)。其中一个子集用于训练所有的基学习器(假设有M个基学习器)，用这些基学习对另一个子集的训练集(假设有N个样本)进行预测，得到NXM的预测结果，然后采用线性回归或者决策树等方法，将另一个子集的训练结果作为输入，将训练集的输出作为输出，进行训练，得到元学习器
sklearn不直接支持stacking算法，但是可以自己封装一下

AIGC带来数据革命：R语言如何成为数据科学家的秘密武器？程序边界 AIGC r语言开发语言
文章目录一、R语言的基础特性1.1R语言的起源与发展1.2R语言的核心优势二、R语言在AIGC中的应用场景2.1数据预处理与清洗2.2文本分析与生成2.3机器学习与模型构建2.4数据可视化与报告生成三、R语言在AIGC中的具体案例3.1金融数据分析与预测3.2医疗数据分析与建模3.3社交媒体数据分析与情感分析四、R语言在AIGC中的未来展望4.1与深度学习框架的集成4.2与云计算平台的集成4.3与
解决Python找不到ssl模块问题 No module named _ssl 代码之路无极限 Python入门 ssl python 网络协议
python安装完毕后，提示找不到ssl模块：1234567891011[[email protected]~]$pythonPython2.7.15(default,Oct232018,18:08:43)[GCC4.4.720120313(RedHat4.4.7-23)]onlinux2Type"help","copyright","credits"or"license"formoreinfor
linux中python编辑器_Python 编辑器 weixin_39816062 linux中python编辑器
一个好的编辑器，写python代码时更加得心应手。下面简单介绍下当前应用广泛的python编辑器。常见IDE，主编写1.vimVim是一个使用键盘快捷键而不是菜单或图标来编辑的文本编辑器。配置见：vim.d2.SublimeTextSublimeText是一款高级的，用来编写代码、标记和文章的文本编辑器。用户界面和特性极佳，常用来看一些开源项目大量插件3.PyCharm功能强大，同时支持远程连接4
python安装报错类型_解决Python安装cryptography报错问题 weixin_39928461 python安装报错类型
解决Python安装cryptography报错问题错误一：gcc-pthread-fno-strict-aliasing-DNDEBUG-g-fwrapv-O2-Wall-Wstrict-prototypes-fPIC-DUSE__THREAD-DHAVE_SYNC_SYNCHRONIZE-I/usr/include/ffi-I/usr/include/libffi-I/usr/include/
mac 电脑通过pyenv 安装 python 失败，提示报错：Error The Python ssl extension was not compiled. JustinXTT macos python ssl
Description如题描述，当前在本地高版本的macos电脑上，通过直接命令行方式：pyenvinstall3.10安装python提示报错失败：ErrorThePythonsslextensionwasnotcompiled.MissingtheOpenSSLlib?完整报错路下：❯pyenvinstall3.10python-build:[email protected]
OpenCV-Python实战（1）——OpenCV简介与图像处理基础数字化转型2025 AI人工智能方向 opencv python 图像处理
OpenCV介绍Python安装OpenCV：对于Linux和Windows操作系统，首先需要在shell或cmd中运行以下命令安装NumPy：pipinstallnumpy。然后再安装OpenCV，可以选择仅安装主模块包：pipinstallopencv-python，或者安装完整包（包括主模块和附加模块）：pipinstallopencv-contrib-python。OpenCV主要模块：O
python基于django/flask体育馆管理系统Django-SpringBoot-php-Node.js-flask QQ_511008285 python django flask spring boot php node.js
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
软件下载地址一只联想小新15呀~ 开源软件
养成好习惯，先赞后看，谢谢大家！上干货！C++（5.11）64位：文件密码：awkdFirefox64位：文件密码：9i18Python64位：文件密码:fvck金山打字通C++版64位：TypeEasy_hfnoi.zip-蓝奏云C++（5.16）64位：Dev-Cpp-5.16e.zip-蓝奏云
Python3.10报错 No module named ‘_ssl‘ 李卓璐报错整理 ssl 网络协议网络
报错原因在编译python3.10的时候不存在ssl相关依赖包，因此在make$makeinstall时将ssl忽略了。1.下载ssl依赖apt-getinstallopensslapt-getinstalllibssl-dev2.重新编译pythoncdPython3.10.0./configure--with-sslmakesudomakeinstall3.验证pythonimportssl
【工作记录】python使用总结星光不负赶路人！ python
1.os库2.xlwt库3.xlrd库4.BeautifulSoup库5.panda库6.json库7.re正则8.ddddocr登录网站的时候，经常输入用户名和密码后会遇到验证码，ddddocr是一款强大的通用开源ocr识别库，具有高效、准确、易用的特点，广泛应用于图像处理和文字识别任务。importddddocrtry:login_page.wait_for_timeout(2000)#等待2
Flask应用调试模式下外网访问的技巧带娃的IT创业者 flask python 后端
Flask应用调试模式下外网访问的技巧在调试模式下让外网访问你的Flask应用需要注意安全性问题，因为调试模式会暴露更多信息。以下是几种方法让你在开发过程中从外网访问你的应用：方法一：修改Flask运行参数最简单的方法是修改Flask的运行参数，让它监听所有网络接口：flaskrun--host=0.0.0.0--port=5000或者在Python脚本中：python-c"fromappimpo
【玩转正则表达式】Python、Go、Java正则表达式解释器的差异解析（附示例） ThisIsClark 玩转正则表达式正则表达式 java python golang
正则表达式作为文本处理的利器，在不同编程语言中的实现却暗藏玄机。Python、Go和Java作为主流开发语言，其正则引擎在语法支持、功能完整性和性能表现上存在显著差异。本文通过具体示例，揭示这些差异及应对策略。一、原始字符串与转义差异Python使用r""定义原始字符串，避免转义：importrere.findall(r'\d+','123a456')#输出['123','456']Go和Java
使用Multiprocessing模块创建子进程，需要放到__main__中 Karl_zhujt Python python
1场景说明在Python中，使用multiprocessing模块创建子进程时，将创建子进程的代码放在if__name__=='__main__':块之外，如下面代码：importmultiprocessingimporttimedeftest_func(name):print(f"子进程{name}开始运行")time.sleep(2)#模拟任务执行print(f"子进程{name}结束运行")
python_学习爬虫遇到的第二个问题_urllib获取baidu搜索后网页源代码 KJDETL python_爬虫 python 学习爬虫
第二天学习爬虫，学习的是通过urllib.request和urllib.parse获取baidu搜索后网页源代码。importurllib.requestimporturllib.parse#请求网址url='https://www.baidu.com/s?'#想要搜索的内容data={'wd':'周杰伦'}#通过urllib.parse.urlencode将data进行url编码new_data
【Python】面向对象菜萝卜子 Python python
编程的两大特点面向过程：着重于做什么面向对象（oop）：着重于谁去做python是面向对象语言，面向对象三大特点：封装、继承、多态面向对象：便于代码管理，方便迭代更新。新式类、经典类继承了python内置类的称为新式类，否则是经典类python3类：新式类python3中所有的类默认继承object(基类)，所以一般的类都是新式类python2类：必须显示声明继承内置类才是新式类，否则是经典类两个
【pytorch(cuda)】基于DQN算法的无人机三维城市空间航线规划（Python代码实现） wlz249 python pytorch 算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、DQN算法概述三、基于DQN的无人机三维航线规划方法1.环境建模2.状态与动作定义3.奖励函数设计4.深度神经网络训练5.航线规划四、研究挑战与展望2运行结果3参考文献4Python代码实现⛳️赠与读者‍做科研，涉及到一个深在的
Python基础知识---数据与变量、进制转换银白101 python 开发语言
1.1软件开发概述（1）软件定义定义：是指有一系列按照特定顺序组织的计算机数据与指令的集合。程序=数据+指令程序=数据结构+算法软件的分类：系统软件：主要负责管理操作计算机底层的硬件，为用户提供一个操作的界面，为用户提供最基本的计算机功能WindowsLinuxMACAndroidIOSHarmonyOS应用软件：主要负责处理某一特殊领域功能的软件：微信、陌陌、Soul、网易云音乐、支付宝、Off
python第七章_python第七章：常用模块--小白博客 weixin_39722759 python第七章
yagmail模块python标准库中发送电子邮件的模块比较复杂，因此，有许多开原的库提供了更加易用的接口来发送电子邮件，其中yagmail是一个使用比较广泛的开原项目，yagmail底层依然使用了smtplib和email模块，但是yagmail提供了更好的接口，并具有更好的易读性yagmail是开原项目，因此，在使用前需要安装pipinstallyagmail用法：#连接邮箱服务器yag=ya
股票量化分析软件有哪些？它们各自有何独特优势与适用场景？财云量化 python炒股自动化量化交易程序化交易股票量化分析软件独特优势适用场景股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
C#学习笔记（3）：调用YOLOv8 playerofIE c#学习笔记 YOLO python
最近做的项目需要C#编写上位机程序，同时也要使用yolo进行深度学习检测。使用pythonnet调用写好的py文件，C#代码如下:Runtime.PythonDLL="python310.dll";PythonEngine.Initialize();using(Py.GIL()){dynamicsys=Py.Import("sys");dynamictorch=Py.Import("torch")
Python中的time模块小白的高手之路 python学习深度学习（DL）python 数据结构开发语言
在Python中，importtime这一行代码的作用是导入名为time的标准库模块，这个模块提供了与时间相关的各种函数和工具，用于处理时间戳、时间延迟、时间格式转换等操作。1、time模块的常见用途和核心函数：1.1获取时间戳timestamp=time.time()print(timestamp)#输出如：1717666785.123456time.time()返回当前时间的时间戳（以秒为单位
运维Tips | Ubuntu 24.04 安装配置 samba 文件共享全栈工程师修炼指南企业IT运维实践运维 ubuntu linux 服务器
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]Ubuntu24.04安装配置samba文件共享描述：我们将Ubuntu24.04作为机器学习的工作站，往往需要将Ubuntu24.04中的数据或者代码共享给我们其他使用Windows系统的小伙伴，此时我们可以使用SAMBA，开辟出一个文件共享目录供大家进行数据交换使用。SAMBA是什么?在Linux中，SAMBA是一个开源的软件套件，它提供了
Python weakref --- 弱引用详解 tekin Python 高阶工坊 Python 编程秘籍库 python weakref 弱引用
Pythonweakref—弱引用详解在Python中，内存管理是一个重要的话题。weakref模块提供了弱引用的功能，它允许我们在不增加对象引用计数的情况下引用对象，从而避免影响对象的垃圾回收机制。本教程将依据Python官方文档，详细介绍weakref模块的使用，通过图文并茂的方式帮助理解，对相关联知识点进行扩展深化，用表格对比相近问题，包括与其他引用类型的区别、实际项目应用示例以及类似模块介
Python制作【大麦网】抢票程序，看演唱会再也不怕没票了中年猿人 python 开发语言爬虫
前言大麦网，是中国综合类现场娱乐票务营销平台，业务覆盖演唱会、话剧、音乐剧、体育赛事等领域。但是因为票数有限，还有黄牛们不能丢了饭碗，所以导致了，很多人都抢不到票那么，今天带大家用Python来制作一个自动抢票的脚本小程序知识点：面向对象编程selenium操作浏览器pickle保存和读取Cookie实现免登陆time做延时操作os创建文件，判断文件是否存在开发环境：版本：anaconda5.2.
【Python学习笔记】一些关于多线程，xls文件读取，PyQt5，PyInstaller打包等问题的解决方案记录百里香酚兰 Python自学笔记 python 学习笔记 pyinstaller xls文件 PyQt5 多线程
背景：最近利用休息时间写了个小型exe程序，主要涉及的技术点有：多线程，读取xls文件，基于PyQt5的简单GUI页面，利用PyInstaller打包成exe。虽然有ChatGPT等协助，但难免还是在开发过程中遇到了一些疑难问题，所以开个记录贴刊登解决方式。问题&解决方式：1.PyQt+PyInstaller：tqdm报错AttributeError:‘NoneType‘objecthasnoat
网络爬虫之urllib库 db_zwm_2035 爬虫
目录前言：一、urllib库简介二、使用urllib.request获取网页内容三、处理URL和请求头部四、解析URLs和查询参数五、处理异常七、总结前言：随着互联网的快速发展，网络数据已经成为我们获取信息、解决问题的重要来源。网络爬虫作为获取网络数据的重要工具，越来越受到人们的关注。Python作为一种简单易学、功能强大的编程语言，在网络爬虫领域也得到了广泛的应用。在Python中，urllib
Python 爬虫入门（六）：urllib库的使用方法 blues_C Python爬虫实战 python 爬虫开发语言
Python爬虫入门（六）：urllib库的使用方法前言1.urllib概述2.urllib.request模块2.1发送GET请求2.2发送POST请求2.3添加headers2.4处理异常3.urllib.error模块4.urllib.parse模块4.1URL解析4.2URL编码和解码4.3拼接URL5.urllib.robotparser模块6.实战示例:爬取豆瓣电影Top2507.ur
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
CSP-J备考冲刺必刷题（C++） | AcWing 5367 不合群数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：5367.不合群数-AcWing
构建未来智能：在Mojo模型中自定义模型架构的艺术 2401_85761003 mojo 架构
构建未来智能：在Mojo模型中自定义模型架构的艺术在深度学习的世界里，模型架构的设计往往决定了算法的性能和适用性。Mojo模型，作为一个假想中的高级机器学习框架，允许用户实现自定义的模型架构来解决特定的问题。本文将深入探讨如何在Mojo模型中实现自定义模型架构，并提供详细的步骤和代码示例，以帮助读者掌握这一强大的技术。自定义模型架构的重要性灵活性自定义模型架构提供了设计适合特定问题需求的模型的灵活
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

sklearn集成方法

集成方法

投票分类器(Voting Classifiers)

Bagging和Boosting

随机森林(Random Forests)

Extra-Trees

特征的重要性

Boosting

AdaBoost

公式推导

Gradient Boosting

Stacking

你可能感兴趣的:(python相关,机器学习,python)