zsx_yiyiyi

scikit-learn Cookbook-3

第四章使用 scikit-learn 对数据分类

本章包括以下主题：

[使用决策树实现基本的分类]

[调整决策树模型]

[使用许多决策树 – 随机森林]

[调整随机森林模型]

[使用支持向量机对数据分类]

[使用多类分类来归纳]

[将 LDA 用于分类]

[使用 QDA - 非线性 LDA]

[使用随机梯度下降来分类]

[使用朴素贝叶斯来分类数据]

[标签传递，半监督学习]

4.1 使用决策树实现基本的分类

# 首先，让我们获取一些分类数据，我们可以使用它来练习：

from sklearn import datasets 
X, y = datasets.make_classification(n_samples=1000, n_features=3,
n_redundant=0)

preds = dt.predict(X) 
(y == preds).mean()

首先，如果你观察dt对象，它拥有多种关键字参数，决定了对象的行为。我们如何选择对象十分重要，所以我们要详细观察对象的效果。我们要观察的第一个细节是max_depth。这是个重要的参数，决定了允许多少分支。这非常重要，因为决策树需要很长时间来生成样本外的数据，它们带有一些类型的正则化。之后，我们会看到，我们如何使用多种浅层决策树，来生成更好的模型。让我们创建更复杂的数据集并观察当我们允许不同max_depth时会发生什么。

n_features=200 
X, y = datasets.make_classification(750, n_features,n_informative=5) 

import numpy as np 
training = np.random.choice([True, False], p=[.75, .25],size=len(y))

accuracies = []
for x in np.arange(1, n_features+1): 
    dt = DecisionTreeClassifier(max_depth=x)    
    dt.fit(X[training], y[training])    
    preds = dt.predict(X[~training])    
    accuracies.append((preds == y[~training]).mean())
    
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
ax.plot(range(1, n_features+1), accuracies, color='k')
ax.set_title("Decision Tree Accuracy") 
ax.set_ylabel("% Correct") 
ax.set_xlabel("Max Depth")
plt.show()

我们可以看到，我们实际上在较低最大深度处得到了漂亮的准确率。让我们进一步看看低级别的准确率，首先是 15：

N = 15 
import matplotlib.pyplot as plt 
f, ax = plt.subplots(figsize=(7, 5))
ax.plot(range(1, n_features+1)[:N], accuracies[:N], color='k')
ax.set_title("Decision Tree Accuracy") 
ax.set_ylabel("% Correct") 
ax.set_xlabel("Max Depth")
plt.show()

dt_ci = DecisionTreeClassifier() 
dt.fit(X, y)
ne0 = dt.feature_importances_ != 0
y_comp = dt.feature_importances_[ne0] 
x_comp = np.arange(len(dt.feature_importances_))[ne0]
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5)) 
ax.bar(x_comp, y_comp)
plt.show()

4.2 调整决策树模型

from sklearn import datasets 
X, y = datasets.make_classification(1000, 20, n_informative=3)
from sklearn.tree import DecisionTreeClassifier 
dt = DecisionTreeClassifier() 
dt.fit(X, y)

import io
str_buffer = io.StringIO()
from sklearn import tree 
import pydotplus
tree.export_graphviz(dt, out_file=str_buffer) 
graph = pydotplus.graph_from_dot_data(str_buffer.getvalue()) 
graph.write("tree1.jpg")

dt = DecisionTreeClassifier(max_depth=5).fit(X, y)

def plot_dt(model, filename):
    str_buffer = io.StringIO()
    tree.export_graphviz(model, out_file=str_buffer)    
    graph = pydotplus.graph_from_dot_data(str_buffer.getvalue()) 
    graph.write_jpg(filename)
plot_dt(dt, "tree2.png")

# 如果我们将熵用作分割标准，会发生什么：

dt = DecisionTreeClassifier(criterion='entropy',max_depth=5).fit(X, y) 
plot_dt(dt, "entropy.png")

dt = DecisionTreeClassifier(min_samples_leaf=10,
                                criterion='entropy',
                                max_depth=5).fit(X, y)

4.3 使用许多决策树 – 随机森林

随即森林通过构造大量浅层树，之后让每颗树为分类投票，再选取投票结果。这个想法在机器学习中十分有效。如果我们发现简单训练的分类器只有 60% 的准确率，我们可以训练大量分类器，它们通常是正确的，并且随后一起使用它们。

训练随机森林分类器的机制在 Scikit 中十分容易。这一节中，我们执行以下步骤：

创建用于练习的样例数据集
训练基本的随机森林对象
看一看训练对象的一些属性

from sklearn import datasets 
X, y = datasets.make_classification(1000) 

from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
rf.fit(X, y) 

print( "Accuracy:\t", (y == rf.predict(X)).mean() )
# Accuracy:	 0.996

print("Total Correct:\t", (y == rf.predict(X)).sum())
# Total Correct:	 996

首先，我们查看一些实用属性。这里，由于我们保留默认值，它们是对象的默认值：

rf.criterion：这是决定分割的标准。默认是gini。
rf.bootstrap：布尔值，表示在训练随机森林时是否使用启动样例
rf.n_jobs：训练和预测的任务数量。如果你打算使用所有处理器，将其设置为-1。要记住，如果你的数据集不是非常大，使用过多任务通常会导致浪费，因为处理器之间需要序列化和移动。
rf.max_features：这表示执行最优分割时，考虑的特征数量。在调参过程中这会非常方便。
rf.conpute_importtances：这有助于我们决定，是否计算特征的重要性。如何使用它的信息，请见更多一节。
rf.max_depth：这表示树的深度。
有许多属性需要注意，更多信息请查看官方文档。

probs = rf.predict_proba(X)
import pandas as pd
probs_df = pd.DataFrame(probs, columns=['0', '1'])  
probs_df['was_correct'] = rf.predict(X) == y
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
probs_df.groupby('0').was_correct.mean().plot(kind='bar', ax=ax) 
ax.set_title("Accuracy at 0 class probability")
ax.set_ylabel("% Correct") 
ax.set_xlabel("% trees for 0") 
plt.show()

特征重要性是随机森林的不错的副产品。这通常有助于回答一个问题：如果我们拥有 10 个特征，对于判断数据点的真实类别，哪个特征是最重要的？真实世界中的应用都易于观察。例如，如果一个事务是不真实的，我们可能想要了解，是否有特定的信号，可以用于更快弄清楚事务的类别。

rf = RandomForestClassifier() 
rf.fit(X, y) 
f, ax = plt.subplots(figsize=(7, 5)) 
ax.bar(range(len(rf.feature_importances_)),rf.feature_importances_) 
ax.set_title("Feature Importances")
plt.show()

4.4 调整随机森林模型

为了调整随机森林模型，我们首先需要创建数据集，它有一些难以预测。之后，我们修改参数并且做一些预处理来更好地拟合数据集。

from sklearn import datasets 
X, y = datasets.make_classification(n_samples=10000,
                                    n_features=20,
                                    n_informative=15,
                                    flip_y=.5, weights=[.2, .8])

import numpy as np 
training = np.random.choice([True, False], p=[.8, .2],size=y.shape)
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier() 
rf.fit(X[training], y[training])
preds = rf.predict(X[~training])
print("Accuracy:\t", (preds == y[~training]).mean())

让我们迭代max_features的推荐选项，并观察对拟合有什么影响。我们同事迭代一些浮点值，它们是所使用的特征的分数。使用下列命令：

from sklearn.metrics import confusion_matrix
max_feature_params = ['auto', 'sqrt', 'log2', .01, .5, .99]
confusion_matrixes = {}
for max_feature in max_feature_params:    
    rf = RandomForestClassifier(max_features=max_feature)
    rf.fit(X[training], y[training])    
    confusion_matrixes[max_feature] = confusion_matrix(rf.predict(X[~training]),y[~training])
rf.predict(X[~training]).ravel()

我们可能打算加快训练过程。我之前提到了这个过程，但是同时，我们可以将n_jobs设为我们想要训练的树的数量。这应该大致等于机器的核数。

rf = RandomForestClassifier(n_jobs=4, verbose=True) 
rf.fit(X, y) 

# 这也可以并行预测：

rf.predict(X)

4.5 使用支持向量机对数据分类

from sklearn import datasets 
X, y = datasets.make_classification()

# 从支持向量机模块导入支持向量分类器（SVC）：
from sklearn.svm import SVC
base_svm = SVC()
base_svm.fit(X, y)

让我们看一些属性：

C：以防我们的数据集不是分离好的，C会在间距上放大误差。随着C变大，误差的惩罚也会变大，SVM 会尝试寻找一个更窄的间隔，即使它错误分类了更多数据点。
class_weight：这个表示问题中的每个类应该给予多少权重。这个选项以字典提供，其中类是键，值是与这些类关联的权重。
gamma：这是用于核的 Gamma 参数，并且由rgb, sigmoid和ploy支持。
kernel：这是所用的核，我们在下面使用linear核，但是rgb更流行，并且是默认选项。

X, y = datasets.make_blobs(n_features=2, centers=2) 
from sklearn.svm import LinearSVC 
svm = LinearSVC() 
svm.fit(X, y)

from itertools import product 
from collections import namedtuple
Point = namedtuple('Point', ['x', 'y', 'outcome']) 
decision_boundary = [] 
xmin, xmax = np.percentile(X[:, 0], [0, 100]) 
ymin, ymax = np.percentile(X[:, 1], [0, 100])
for xpt, ypt in product(np.linspace(xmin-2.5, xmax+2.5, 20),np.linspace(ymin-2.5, ymax+2.5, 20)):
    p = Point(xpt, ypt, svm.predict(np.array([xpt, ypt]).reshape(1,-1)))
    decision_boundary.append(p)
import matplotlib.pyplot as plt 
f, ax = plt.subplots(figsize=(7, 5)) 
import numpy as np 
colors = np.array(['r', 'b']) 
for xpt, ypt, pt in decision_boundary:
    ax.scatter(xpt, ypt, color=colors[pt[0]], alpha=.15)
    ax.scatter(X[:, 0], X[:, 1], color=colors[y], s=30)
    ax.set_ylim(ymin, ymax)
    ax.set_xlim(xmin, xmax)
    ax.set_title("A well separated dataset")
plt.show()

让我们看看其他例子，但是这一次决策边界不是那么清晰：

X, y = datasets.make_classification(n_features=2,
                                        n_classes=2,            
                                        n_informative=2,        
                                        n_redundant=0)

首先，让我们使用新的数据点重新训练分类器。

svm.fit(X, y) 
xmin, xmax = np.percentile(X[:, 0], [0, 100]) 
ymin, ymax = np.percentile(X[:, 1], [0, 100]) 
test_points = np.array([[xx, yy] for xx, yy in
                           product(np.linspace(xmin, xmax),
                           np.linspace(ymin, ymax))]) 
test_preds = svm.predict(test_points)
import matplotlib.pyplot as plt 
f, ax = plt.subplots(figsize=(7, 5)) 
import numpy as np 
colors = np.array(['r', 'b']) 
ax.scatter(test_points[:, 0], test_points[:, 1],
               color=colors[test_preds], alpha=.25) 
ax.scatter(X[:, 0], X[:, 1], color=colors[y]) 
ax.set_title("A well separated dataset") 
plt.show()

我们可以看到，决策边界并不完美，但是最后，这是我们获得的最好的线性 SVM。

随让我们可能不能获得更好的线性 SVM，Scikit 中的 SVC 分类器会使用径向基函数。我们之前看过这个函数，但是让我们观察它如何计算我们刚刚拟合的数据集的决策边界。

radial_svm = SVC(kernel='rbf') 
radial_svm.fit(X, y) 
xmin, xmax = np.percentile(X[:, 0], [0, 100]) 
ymin, ymax = np.percentile(X[:, 1], [0, 100])
test_points = np.array([[xx, yy] for xx, yy in
                           product(np.linspace(xmin, xmax),
                           np.linspace(ymin, ymax))]) 
test_preds = radial_svm.predict(test_points)
import matplotlib.pyplot as plt 
f, ax = plt.subplots(figsize=(7, 5)) 
import numpy as np 
colors = np.array(['r', 'b']) 
ax.scatter(test_points[:, 0], test_points[:, 1],
               color=colors[test_preds], alpha=.25) 
ax.scatter(X[:, 0], X[:, 1], color=colors[y]) 
ax.set_title("SVM with a radial basis function") 
plt.show()

我们可以看到，决策边界改变了。我们甚至可以传入我们自己的径向基函数，如果需要的话：

def test_kernel(X, y):
    """ 
    Test kernel that returns the exponentiation of the dot of the X and y matrices.
    This looks an awful lot like the log hazards if you're familiar with survival analysis.    
    """
    return np.exp(np.dot(X, y.T)) 
test_svc = SVC(kernel=test_kernel) 
test_svc.fit(X, y)

4.6 使用多类分类来归纳

在处理线性模型，例如逻辑回归时，我们需要使用OneVsRestClassifier。这个模式会为每个类创建一个分类器。

from sklearn import datasets 
X, y = datasets.make_classification(n_samples=10000, n_classes=3,n_informative=3)
from sklearn.tree import DecisionTreeClassifier 
dt = DecisionTreeClassifier() 
dt.fit(X, y) 
dt.predict(X)

from sklearn.multiclass import OneVsRestClassifier 
from sklearn.linear_model import LogisticRegression

mlr = OneVsRestClassifier(LogisticRegression(), n_jobs=2) 
mlr.fit(X, y) 
mlr.predict(X)

如果我们打算快速时间我们自己的OneVsRestClassifier，应该怎么做呢？首

先，我们需要构造一种方式，来迭代分类，并为每个分类训练分类器。之后，我们首先需要预测每个分类：

import numpy as np 
def train_one_vs_rest(y, class_label):
    y_train = (y == class_label).astype(int)
    return y_train
classifiers = [] 
for class_i in sorted(np.unique(y)):       
    l = LogisticRegression()
    y_train = train_one_vs_rest(y, class_i)
    l.fit(X, y_train)
    classifiers.append(l)

好的，所以既然我们配置好了 OneVsRest 模式，我们需要做的所有事情，就是求出每个数据点对于每个分类器的可能性。我们之后将可能性最大的分类赋给数据点。例如，让我们预测X[0]：

for classifier in classifiers:
    print(classifier.predict_proba(np.array(X[0]).reshape(1,-1)))

[[0.71518295 0.28481705]]
[[0.32110672 0.67889328]]
[[0.9040609 0.0959391]]

你可以看到，第二个分类器（下标为1）拥有“正”的最大可能性，所以我们将这个点标为1。

4.7 将 LDA 用于分类

线性判别分析（LDA）尝试拟合特征的线性组合，来预测结果变量。

import pandas as pd 
from sklearn.lda import LDA 
lda = LDA() 
lda.fit(X.ix[:, :-1], X.ix[:, -1]);

from sklearn.metrics import classification_report 
print(classification_report(X.ix[:, -1].values,lda.predict(X.ix[:, :-1])))

4.8 使用 QDA - 非线性 LDA

QDA 是一些通用技巧的推广，例如平方回归。它只是模型的推广，能够拟合更复杂的模型。但是，就像其它东西那样，当混入复杂性时，就更加困难了。

通过 QDA 对象查看平方判别分析（QDA）。

from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA
qda = QDA()
qda.fit(X.ix[:, :-1], X.ix[:, -1]) 
predictions = qda.predict(X.ix[:, :-1]) 
predictions.sum()

from sklearn.metrics import classification_report 
print(classification_report(X.ix[:, -1].values, predictions))

4.9 使用随机梯度下降来分类

随机梯度下降是个用于训练分类模型的基本技巧

from sklearn import datasets 
X, y = datasets.make_classification() 

from sklearn import linear_model 
sgd_clf = linear_model.SGDClassifier() 

sgd_clf.fit(X, y)

我们可以设置class_weight参数来统计数据集中不平衡的变化总数。
Hinge 损失函数定义为：

max(0, 1 - ty)

这里，t是真正分类，+1 为一种情况，-1 为另一种情况。系数向量记为y，因为它是从模型中拟合出来的。x是感兴趣的值。这也是一种很好的度量方式。以另外一种形式表述：

t ∈ -1, 1
y = βx + b

4.10 使用朴素贝叶斯来分类数据

我们使用 Sklearn 中的newgroups数据集来玩转朴素贝叶斯模型。这是有价值的一组数据，所以我们抓取它而不是加载它。我们也将分类限制为rec.autos和rec.motorcycles。

from sklearn.datasets import fetch_20newsgroups
categories = ["rec.autos", "rec.motorcycles"] 
newgroups = fetch_20newsgroups(categories=categories)

print("\n".join(newgroups.data[:1]) )

我们需要将数据处理为词频矩阵

from sklearn.feature_extraction.text import CountVectorizer
count_vec = CountVectorizer() 
bow = count_vec.fit_transform(newgroups.data)

bow = np.array(bow.todense()) 
bow.shape
# (1192, 19177)

words = np.array(count_vec.get_feature_names()) 
words[bow[0] > 0][:5]

from sklearn import naive_bayes 
clf = naive_bayes.GaussianNB() 

mask = np.random.choice([True, False], len(bow)) 
clf.fit(bow[mask], newgroups.target[mask]) 
predictions = clf.predict(bow[~mask])

np.mean(predictions == newgroups.target[~mask]) 
# 0.9155405405405406

我们也可以将朴素贝叶斯扩展来执行多类分类。我们不适用高斯可能性，而是使用多项式可能性。、

from sklearn.datasets import fetch_20newsgroups 
mn_categories = ["rec.autos", "rec.motorcycles","talk.politics.guns"] 
mn_newgroups = fetch_20newsgroups(categories=mn_categories)

mn_bow = count_vec.fit_transform(mn_newgroups.data) 
mn_bow = np.array(mn_bow.todense()) 

mn_mask = np.random.choice([True, False], len(mn_newgroups.data)) 

multinom = naive_bayes.MultinomialNB() 
multinom.fit(mn_bow[mn_mask], mn_newgroups.target[mn_mask])
mn_predict = multinom.predict(mn_bow[~mn_mask]) 
np.mean(mn_predict == mn_newgroups.target[~mn_mask])
# 0.9585730724971231

4.11 标签传递，半监督学习

标签传递是个半监督学习技巧，它利用带标签和不带标签的数据，来了解不带标签的数据。

from sklearn import datasets 
d = datasets.load_iris()

由于我们会将数据搞乱，我们做一个备份，并向标签名称数组的副本添加一个unlabeled成员。它会使数据的识别变得容易。

X = d.data.copy() 
y = d.target.copy() 
names = d.target_names.copy()
names = np.append(names, ['unlabeled']) 
names 
# array(['setosa', 'versicolor', 'virginica', 'unlabeled'], dtype='

 
  y[:10] 
# array([ 0,  0, -1,  0,  0, -1,  0,  0, -1, -1])

names[y[:10]] 
# array(['setosa', 'setosa', 'unlabeled', 'setosa', 'setosa', 'unlabeled',
# 'setosa', 'setosa', 'unlabeled', 'unlabeled'], dtype='
 
  我们显然拥有一大堆未标注的数据，现在的目标是使用LabelPropagation来预测标签： 
  from sklearn import semi_supervised 
lp = semi_supervised.LabelPropagation()
lp.fit(X, y)

preds = lp.predict(X) 
(preds == d.target).mean() 
# 0.9866666666666667
 
  让我们看看LabelSpreading，它是LabelPropagation的姐妹类 
  ls = semi_supervised.LabelSpreading() 
ls.fit(X, y) 
(ls.predict(X) == d.target).mean() 
# 0.98
 
  第五章 模型后处理 
  本章包括以下主题： 
   
    
    [K-fold 交叉验证]
 
    [自动化交叉验证]
 
    [使用 ShuffleSplit 交叉验证]
 
    [分层的 k-fold]
 
    [菜鸟的网格搜索]
 
    [爆破网格搜索]
 
    [使用伪造的估计器来比较结果]
 
    [回归模型评估]
 
    [特征选取]
 
    [L1 范数上的特征选取]
 
    [使用 joblib 保存模型]
 
    
   
  5.1 K-fold 交叉验证 
  N = 1000  
holdout = 200
from sklearn.datasets import make_regression 
X, y = make_regression(1000, shuffle=True) 

X_h, y_h = X[:holdout], y[:holdout] 
X_t, y_t = X[holdout:], y[holdout:]
from sklearn.model_selection import KFold 

kf = KFold(5, random_state=123)

for train,test in kf.split(X,y):
    print(len(train),len(test))
 
  k-fold 的原理是迭代折叠，并保留1/n_folds * N个数据，其中N是我们的len(y_t)。 
  import numpy as np 
import pandas as pd
patients = np.repeat(np.arange(0, 100, dtype=np.int8), 8)
measurements = pd.DataFrame({'patient_id': patients,'ys': np.random.normal(0, 1, 800)}) 
 
  import numpy as np 
import pandas as pd
patients = np.repeat(np.arange(0, 100, dtype=np.int8), 8)
measurements = pd.DataFrame({'patient_id': patients,'ys': np.random.normal(0, 1, 800)}) 

measurements.head()
 
  custids = np.unique(measurements.patient_id) 
customer_kfold = KFold(4, random_state=123)
for train,test in customer_kfold.split(custids):
    train_cust_ids = custids[train]
    training = measurements[measurements.patient_id.isin(train_cust_ids)]
    testing = measurements[~measurements.patient_id.isin(train_cust_ids)]
    print(len(training),len(testing))
 
  5.2 自动化交叉验证 
  from sklearn import ensemble 
rf = ensemble.RandomForestRegressor(max_features='auto')

from sklearn import datasets 
X, y = datasets.make_regression(10000, 10)

from sklearn.model_selection import cross_val_score
scores = cross_val_score(rf, X, y)

print(scores)
# [0.85050299 0.85524044 0.85971237]
 
  scores =cross_val_score(rf, X, y, verbose=3,cv=4)
# [CV] ....................... , score=0.8563404826144201, total=   0.3s
# [Parallel(n_jobs=1)]: Done   4 out of   4 | elapsed:    1.5s finished
 
  5.3 使用 ShuffleSplit 交叉验证 
  ShuffleSplit是最简单的交叉验证技巧之一。这个交叉验证技巧只是将数据的样本用于指定的迭代数量。 
  import numpy as np
true_loc = 1000 
true_scale = 10 
N = 1000
dataset = np.random.normal(true_loc, true_scale, N)
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
ax.hist(dataset, color='k', alpha=.65, histtype='stepfilled'); 
ax.set_title("Histogram of dataset");
plt.show()
f.savefig("978-1-78398-948-5_06_06.png") 
 
  
 现在，让我们截取前一半数据集，并猜测均值： 
  holdout_set = dataset[:500] 
fitting_set = dataset[500:]
estimate = fitting_set[:int(N/2)].mean()
import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
ax.set_title("True Mean vs Regular Estimate")
ax.vlines(true_loc, 0, 1, color='r', linestyles='-', lw=5,
              alpha=.65, label='true mean') 
ax.vlines(estimate, 0, 1, color='g', linestyles='-', lw=5,
              alpha=.65, label='regular estimate')
ax.set_xlim(999, 1001)
ax.legend()
plt.show()
f.savefig("978-1-78398-948-5_06_07.png") 
 
  
 现在，我们可以使用ShuffleSplit在多个相似的数据集上拟合估计值。 
  from sklearn.model_selection import ShuffleSplit
shuffle_split = ShuffleSplit(n_splits=5, random_state=0)
mean_p=[]
for train_index, test_index in shuffle_split.split(fitting_set): 
    print("TRAIN:", len(train_index), "TEST:", len(test_index))
    mean_p.append(fitting_set[train_index].mean())
    shuf_estimate = np.mean(mean_p)

import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
ax.vlines(true_loc, 0, 1, color='r', linestyles='-', lw=5,
              alpha=.65, label='true mean') 
ax.vlines(estimate, 0, 1, color='g', linestyles='-', lw=5,
              alpha=.65, label='regular estimate') 
ax.vlines(shuf_estimate, 0, 1, color='b', linestyles='-', lw=5,
              alpha=.65, label='shufflesplit estimate')
ax.set_title("All Estimates") 
ax.set_xlim(999, 1001)
ax.legend(loc=3)
plt.show()
 
   
  5.4 分层的 k-fold 
  from sklearn import datasets 
X, y = datasets.make_classification(n_samples=int(1e3),weights=[1./11])
y.mean()
# 0.902
# 90.2% 的样本都是 1，其余为 0。

from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import ShuffleSplit

n_folds = 50
strat_kfold = StratifiedKFold(n_splits=n_folds) 
shuff_split = ShuffleSplit(n_splits=n_folds)
kfold_y_props = [] 
shuff_y_props = []
for (k_train, k_test), (s_train, s_test) in zip(strat_kfold.split(X,y),  
shuff_split.split(X)):         
    kfold_y_props.append(y[k_train].mean())       
    shuff_y_props.append(y[s_train].mean()) 

import matplotlib.pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
ax.plot(range(n_folds), shuff_y_props, label="ShuffleSplit",
            color='k') 
ax.plot(range(n_folds), kfold_y_props, label="Stratified",
            color='k', ls='--') 
ax.set_title("Comparing class proportions.")
ax.legend(loc='best')
plt.show()
 
  
 分层 k-fold 的原理是选取y值。首先，获取所有分类的比例，之后将训练集和测试集按比例划分。这可以推广到多个标签： 
  import numpy as np
X=np.arange(2000).reshape(1000,2)
three_classes = np.random.choice([1,2,3], p=[.1, .4, .5],size=1000)
import itertools as it
sk=StratifiedKFold(n_splits=5)
for train,test in sk.split(X,three_classes):
    print(np.bincount(three_classes[train]))
 
  5.5 菜鸟的网格搜索 
  我们会执行下面这些东西： 
   
   在参数空间中设计基本的搜索网格。 
   迭代网格并检查数据集的参数空间中的每个点的损失或评分函数。 
   选取参数空间中的点，它使评分函数最大或者最小。
 同样，我们训练的模型是个基本的决策树分类器。我们的参数空间是 2 维的，有助于我们可视化。 
   
  我们使用网格搜索来调整两个参数 – criteria和max_features和criteria和max_features。我们需要将其表示为 Python 集合，之后使用itertools.product来迭代它们。 
  from sklearn import datasets 
X, y = datasets.make_classification(n_samples=2000, n_features=10)
 
  创建笛卡尔积 
  import itertools
class cartesian(object):
    def __init__(self):
        self._data_list=[]
    def add_data(self,data=[]): #添加生成笛卡尔积的数据列表
        self._data_list.append(data)
    def build(self): #计算笛卡尔积
        dke=[]
        for item in itertools.product(*self._data_list):
            print(item)
            dke.append(item)
        return dke

car=cartesian()
criteria = ["gini", "entropy"]
max_features = ["auto", "log2", "sqrt"]
car.add_data(criteria)    
car.add_data(max_features)
parameter_space=car.build()
 
  import numpy as np 
train_set = np.random.choice([True, False], size=len(y)) 
from sklearn.tree import DecisionTreeClassifier 
accuracies = {} 
for criterion, max_feature in parameter_space:
    dt = DecisionTreeClassifier(criterion=criterion,max_features=max_feature)
    dt.fit(X[train_set], y[train_set])
    accuracies[(criterion, max_feature)] = (dt.predict(X[~train_set]) 
    == y[~train_set]).mean() 
 
  from matplotlib import pyplot as plt 
from matplotlib import cm 
cmap = cm.RdBu_r 
f, ax = plt.subplots(figsize=(7, 4)) 
ax.set_xticklabels([''] + list(criteria)) 
ax.set_yticklabels([''] + list(max_features)) 
plot_array = [] 
for max_feature in max_features:
    m = [] 
    for criterion in criteria:       
        m.append(accuracies[(criterion, max_feature)])       
        plot_array.append(m) 
colors = ax.matshow(plot_array, vmin=np.min(list(accuracies.values()))-0.001,
 vmax=np.max(list(accuracies.values())) + 0.001, cmap=cmap) 
f.colorbar(colors) 
plt.show()
 
   
  5.6 爆破网格搜索 
  from sklearn.datasets import make_classification
X, y = make_classification(1000, n_features=5)

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression() 

lr.fit(X, y)
 
  import scipy.stats as st  
import numpy as np
random_search_params = {'penalty': ['l1', 'l2'], 'C': st.randint(1, 4)}

from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
gs = GridSearchCV(lr, grid_search_params)
gs.fit(X, y)

gs.cv_results_['mean_test_score']

gs.cv_results_['params']

gs.best_score_

for key in gs.cv_results_:
    print(key)
 
  5.7 使用伪造的估计器来比较结果 
  为最后构建的模型创建一个参照点 
  会执行下列任务：
 创建一些随机数据
 训练多种伪造的估计器
 我们会对回归数据和分类数据来执行这两个步骤。 
  X, y = make_regression()
from sklearn import dummy
dumdum = dummy.DummyRegressor()
dumdum.fit(X, y)

dumdum.predict(X)[:5]
 
  我们可以尝试另外两种策略。我们可以提供常数来做预测（就是下面命令中的constant=None），也可以使用中位值来预测。如果策略是constant，才会使用提供的常数。 
  predictors = [("mean", None),("median", None),("constant", 10)]
for strategy, constant in predictors:
    dumdum = dummy.DummyRegressor(strategy=strategy,constant=constant) 
    dumdum.fit(X, y)    
    print("strategy: {}".format(strategy), ",".join(map(str,dumdum.predict(X)[:5])))
 
  们实际上有四种分类器的选项。这些策略类似于连续情况，但是适用于分类问题： 
  predictors = [("constant", 0),("stratified", None),("uniform", None),("most_frequent", None)] 

X, y = datasets.make_classification()
for strategy, constant in predictors:
    dumdum = dummy.DummyClassifier(strategy=strategy,constant=constant)
    dumdum.fit(X, y)
    print("strategy: {}".format(strategy), ",".join(map(str,dumdum.predict(X)[:5])))
 
  最好在最简单的模型上测试你的模型，这就是伪造的估计器的作用。例如，在一个模型中，5% 的数据是伪造的。所以，我们可能能够训练出一个漂亮的模型，而不需要猜测任何伪造。 
  X, y = datasets.make_classification(20000, weights=[.95, .05])
dumdum = dummy.DummyClassifier(strategy='most_frequent')
dumdum.fit(X, y)

from sklearn.metrics import accuracy_score
print(accuracy_score(y, dumdum.predict(X)))
 
  5.8 回归模型评估 
  m = 2
b = 1
y = lambda x: m * x + b

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import metrics

def data(x, m=2, b=1, e=None, s=10):
    """         
    Args:           
        x: The x value           
        m: Slope           
        b: Intercept           
        e: Error, optional, True will give random error       
    """           
    if e is None:
        e_i = 0       
    elif e is True:
        e_i = np.random.normal(0, s, len(xs))
    else:
        e_i = e
    return x * m + b + e_i 
 
  from functools import partial
N = 100 
xs = np.sort(np.random.rand(N)*100)
y_pred_gen = partial(data, x=xs, e=True) 
y_true_gen = partial(data, x=xs)
y_pred = y_pred_gen() 
y_true = y_true_gen()
f, ax = plt.subplots(figsize=(7, 5))
ax.set_title("Plotting the fit vs the underlying process.") 
ax.scatter(xs, y_pred, label=r'$\hat{y}$')
ax.plot(xs, y_true, label=r'$y$')
ax.legend(loc='best') 
plt.show()
 
   
  e_hat = y_pred - y_true
f, ax = plt.subplots(figsize=(7, 5))
ax.set_title("Residuals") 
ax.hist(e_hat, color='r', alpha=.5, histtype='stepfilled')
plt.show()
 
   
  # 你可以使用下面的代码来计算均方误差值：
metrics.mean_squared_error(y_true, y_pred)
# 89.2452508752873
 
  rsq = 1 - ((y_trus - y_pred) ** 2).sum() / ((y_trus - y_trus.mean()) ** 2).sum() 
  metrics.r2_score(y_true, y_pred)
# 0.9719221677589868
 
  5.9 特征选取 
  # 带有 10000 个特征的回归模型，但是只有 1000 个点
from sklearn import datasets 
X, y = datasets.make_regression(1000, 10000)

from sklearn import feature_selection 
f, p = feature_selection.f_regression(X, y) 
 
  这里，f就是和每个线性模型的特征之一相关的 f 分数。我们之后可以比较这些特征，并基于这个比较，我们可以筛选特征。p是f值对应的 p 值。 
  f.shape
# (10000,)

f[:5] 
# array([0.66406272, 1.35755509, 0.04772681, 0.02917001, 0.84855673])

p.shape
# (10000,)
p[:5]
# array([0.41532372, 0.24424006, 0.82711174, 0.8644217 , 0.35718357])
 
  选取小于.05的p值。这些就是我们用于分析的特征。 
  import numpy as np 
idx = np.arange(0, X.shape[1]) 
features_to_keep = idx[p < .05] 
len(features_to_keep)
# 495
 
  另一个选择是使用VarianceThreshold对象。我们已经了解一些了。但是重要的是理解，我们训练模型的能力，基本上是基于特征所产生的变化。如果没有变化，我们的特征就不能描述独立变量的变化。 
  根据文档，良好的特征可以用于非监督案例，因为它并不是结果变量。我们需要设置起始值来筛选特征。为此，我们选取并提供特征方差的中位值。 
  var_threshold = feature_selection.VarianceThreshold(np.median(np.var(X, axis=1)))
var_threshold.fit_transform(X).shape
 
  让我们观察一个更小的问题，并可视化特征选取如何筛选特定的特征。我们使用第一个示例的相同评分函数，但是仅仅有 20 个特征。 
  X, y = datasets.make_regression(10000, 20)
f, p = feature_selection.f_regression(X, y)

from matplotlib import pyplot as plt
f, ax = plt.subplots(figsize=(7, 5))
ax.bar(np.arange(20), p, color='k') 
ax.set_title("Feature p values")
plt.show()
 
   
  5.10 L1 范数上的特征选取 
  # 首先加载数据集：
import sklearn.datasets as ds 
diabetes = ds.load_diabetes()

# 让我们导入度量模块的mean_squared_error函数，以及cross_validation模块的ShuffleSplit交叉验证函数。
from sklearn import metrics 
from sklearn.model_selection import ShuffleSplit
shuff =ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)

# 现在训练模型，我们会跟踪ShuffleSplit每次迭代中的均方误差。
mses = [] 
for train, test in shuff.split(diabetes.target):
        train_X = diabetes.data[train]
        train_y = diabetes.target[train]
        test_X = diabetes.data[~train]
        test_y = diabetes.target[~train]
        lr.fit(train_X, train_y)   
        mses.append(metrics.mean_squared_error(test_y,lr.predict(test_X)))
np.mean(mses)

#所以既然我们做了常规拟合，让我们在筛选系数为 0 的特征之后再检查它。让我们训练套索回归：
from sklearn import feature_selection 
from sklearn import linear_model
cv = linear_model.LassoCV() 
cv.fit(diabetes.data, diabetes.target) 
cv.coef_
 
  import numpy as np 
columns = np.arange(diabetes.data.shape[1])[cv.coef_ != 0] 
columns

l1mses = []
for train, test in shuff.split(diabetes.target):
    train_X = diabetes.data[train][:, columns]
    train_y = diabetes.target[train]
    test_X = diabetes.data[~train][:, columns]
    test_y = diabetes.target[~train]
    lr.fit(train_X, train_y)           
    l1mses.append(metrics.mean_squared_error(test_y,lr.predict(test_X)))                   
np.mean(l1mses) 

np.mean(l1mses) - np.mean(mses) 
 
  工作原理 
  X, y = ds.make_regression(noise=5) 

lr=LogisticRegression()
mses = []
shuff =ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)
for train, test in shuff.split(y):
    train_X = X[train]
    train_y = y[train]
    test_X = X[~train]
    test_y = y[~train]
    lr.fit(train_X, train_y.astype(int))           
    mses.append(metrics.mean_squared_error(test_y,lr.predict(test_X))) 
np.mean(mses)

cv.fit(X, y)

import numpy as np 
columns = np.arange(X.shape[1])[cv.coef_ != 0] 
columns[:5]
mses = []
shuff = ShuffleSplit(n_splits=5)
for train, test in shuff.split(y):
    train_X = X[train][:, columns]
    train_y = y[train]
    test_X = X[~train][:, columns]
    test_y = y[~train]
    lr.fit(train_X, train_y.astype(int)) 
    mses.append(metrics.mean_squared_error(test_y, lr.predict(test_X)))    
np.mean(mses)
 
  5.11 使用 joblib 保存模型 
  from sklearn import datasets, tree
X, y = datasets.make_classification()
dt = tree.DecisionTreeClassifier() 
dt.fit(X, y)

from sklearn.externals import joblib
joblib.dump(dt, "dtree.clf")
 
  from sklearn import ensemble
rf = ensemble.RandomForestClassifier() 
rf.fit(X, y)

joblib.dump(rf, "rf.clf")

基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
6+，基于免疫原性细胞死亡的非肿瘤分型文章，投稿到接收仅一个多月，肿瘤的热点已经传导至非肿瘤生信文章中！生信小课堂
影响因子：6.147本文从投稿到接收仅一个多月关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习，分子分型等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流！研究概述：脑卒中是世界上死亡和残疾的主要原因之一，缺血性中风占80
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
AI产品经理成长记《零号列车》第一集邂逅0XAI列车黑客思维者 AI产品经理养成人工智能 AI产品经理大模型智能体
《零号列车》绝非传统意义上的AI产品经理教程——它是我沉淀二十多年跨行业数字化转型与工业4.0实战经验后，首创的100集大型小说体培养指南。那些曾在千行百业验证过的知识与经验，不再是枯燥的文字堆砌，而是化作一场沉浸式的学习旅程。这里没有生硬的理论灌输，而是用跌宕起伏的故事情节，串联起AI技术的底层逻辑。你会跟着角色的脚步推进剧情，在不知不觉中吃透机器学习、大模型应用等专业概念；更有深入浅出的技术拆
人工智能时代下的数据新职业：新兴工作岗位版图研究司南锤 economics 人工智能
目录摘要第一章：AI驱动的数据价值链重构1.1从“沉睡金矿”到“流动的血液”：数据作为核心经济资产的激活1.2知识的新经济学：零边际成本革命1.3AI作为新的“操作系统”：重塑产业竞争格局第二章：基石层：数据准备与质量保障中的角色2.1数据标注与标签领导力：数据标注经理/主管2.2“地面真实”的守护者：AI数据质量专家第三章：技术核心层：构建AI与机器学习全生命周期的工程角色3.1AI生产线架构师
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
十种常用数据分析模型耐思nice～数据分析数据分析人工智能机器学习数学建模
1-线性回归（LinearRegression）场景：预测商品销售额优点：简单易用，结果易于解释缺点：假设线性关系，容易受到异常值影响概念：建立自变量和因变量之间线性关系的模型。公式：[y=b_0+b_1x_1+b_2x_2+...+b_nx_n]代码示例：importpandasaspdfromsklearn.linear_modelimportLinearRegressionfromsklea
Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

scikit-learn Cookbook-3

第四章使用 scikit-learn 对数据分类

4.1 使用决策树实现基本的分类

4.2 调整决策树模型

4.3 使用许多决策树 – 随机森林

4.4 调整随机森林模型

4.5 使用支持向量机对数据分类

4.6 使用多类分类来归纳

4.7 将 LDA 用于分类

4.8 使用 QDA - 非线性 LDA

4.9 使用随机梯度下降来分类

4.10 使用朴素贝叶斯来分类数据

4.11 标签传递，半监督学习

第五章模型后处理

5.1 K-fold 交叉验证

5.2 自动化交叉验证

5.3 使用 ShuffleSplit 交叉验证

5.4 分层的 k-fold

5.5 菜鸟的网格搜索

5.6 爆破网格搜索

5.7 使用伪造的估计器来比较结果

5.8 回归模型评估

5.9 特征选取

5.10 L1 范数上的特征选取

5.11 使用 joblib 保存模型

你可能感兴趣的:(机器学习,sklearn)

scikit-learn Cookbook-3

第四章 使用 scikit-learn 对数据分类

4.1 使用决策树实现基本的分类

4.2 调整决策树模型

4.3 使用许多决策树 – 随机森林

4.4 调整随机森林模型

4.5 使用支持向量机对数据分类

4.6 使用多类分类来归纳

4.7 将 LDA 用于分类

4.8 使用 QDA - 非线性 LDA

4.9 使用随机梯度下降来分类

4.10 使用朴素贝叶斯来分类数据

4.11 标签传递，半监督学习

第五章 模型后处理

5.1 K-fold 交叉验证

5.2 自动化交叉验证

5.3 使用 ShuffleSplit 交叉验证

5.4 分层的 k-fold

5.5 菜鸟的网格搜索

5.6 爆破网格搜索

5.7 使用伪造的估计器来比较结果

5.8 回归模型评估

5.9 特征选取

5.10 L1 范数上的特征选取

5.11 使用 joblib 保存模型

你可能感兴趣的:(机器学习,sklearn)

第四章使用 scikit-learn 对数据分类

第五章模型后处理