Shepherd1701

【2021.05--集成学习（下）-Task13】Stacking简单实践

本次 DataWhale 第二十五期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

上一次的任务中简单实践了blending，这一次任务将学习集成学习的最后一部分——stacking。具体原理可参见链接：https://www.cnblogs.com/Christina-Notebook/p/10063146.html

# 载入数据
from sklearn import datasets
iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target
X.shape, y.shape

((150, 2), (150,))

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier
RANDOM_SEED = 42
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3], # 第一层分类器
                            meta_classifier=lr, # 第二层分类器
                            random_state=RANDOM_SEED)
print('3-fold cross validation:\n')
for clf, label in zip([clf1, clf2, clf3, sclf], ['KNN', 'Random Forest', 'NaiveBayes','StackingClassifier']):
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

3-fold cross validation:

Accuracy: 0.91 (+/- 0.01) [KNN]
Accuracy: 0.95 (+/- 0.01) [Random Forest]
Accuracy: 0.91 (+/- 0.02) [NaiveBayes]
Accuracy: 0.93 (+/- 0.02) [StackingClassifier]

# 我们画出决策边界
from mlxtend.plotting import plot_decision_regions
import matplotlib.gridspec as gridspec
import itertools
import matplotlib.pyplot as plt
gs = gridspec.GridSpec(2, 2)
fig = plt.figure(figsize=(10,8))
for clf, lab, grd in zip([clf1, clf2, clf3, sclf],
                         ['KNN', 'Random Forest', 'Naive Bayes', 'StackingCVClassifier'],
                         itertools.product([0, 1], repeat=2)):
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]]) # 这句应该是选取子图的
    fig = plot_decision_regions(X=X, y=y, clf=clf) # 这个函数真简便，上一个任务都不知道。
    plt.title(lab)
plt.show()

使用第一层所有基分类器所产生的类别概率值作为meta-classfier的输入。需要在StackingClassifier 中增加一个参数设置：use_probas = True。

另外，还有一个参数设置average_probas = True,那么这些基分类器所产出的概率值将按照列被平均，否则会拼接。

例如：

基分类器1：predictions=[0.2,0.2,0.7]

基分类器2：predictions=[0.4,0.3,0.8]

基分类器3：predictions=[0.1,0.4,0.6]

1）若use_probas = True，average_probas = True，

则产生的meta-feature 为：[0.233, 0.3, 0.7]

2）若use_probas = True，average_probas = False，

则产生的meta-feature 为：[0.2,0.2,0.7,0.4,0.3,0.8,0.1,0.4,0.6]

# 2.使用概率作为元特征
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3],use_probas=True, meta_classifier=lr, random_state=42)
print('3-fold cross validation:\n')
for clf, label in zip([clf1, clf2, clf3, sclf],
                      ['KNN', 'Random Forest', 'Naive Bayes', 'StackingClassifier']):
    scores = cross_val_score(clf, X, y, cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

3-fold cross validation:

Accuracy: 0.91 (+/- 0.01) [KNN]
Accuracy: 0.95 (+/- 0.01) [Random Forest]
Accuracy: 0.91 (+/- 0.02) [Naive Bayes]
Accuracy: 0.95 (+/- 0.02) [StackingClassifier]

# 3. 堆叠5折CV分类与网格搜索(结合网格搜索调参优化)
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from mlxtend.classifier import StackingCVClassifier

# Initializing models
clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3], meta_classifier=lr, random_state=42)

params = {
     'kneighborsclassifier__n_neighbors': [1, 5],
          'randomforestclassifier__n_estimators': [10, 50],
          'meta_classifier__C': [0.1, 10.0]}

grid = GridSearchCV(estimator=sclf,
                    param_grid=params,
                    cv=5,
                    refit=True)
grid.fit(X, y)

cv_keys = ('mean_test_score', 'std_test_score', 'params')
for r, _ in enumerate(grid.cv_results_['mean_test_score']):
    print("%0.3f +/- %0.2f %r" % (grid.cv_results_[cv_keys[0]][r],
                                  grid.cv_results_[cv_keys[1]][r] / 2.0,
                                  grid.cv_results_[cv_keys[2]][r]))
print('Best parameters: %s' % grid.best_params_)
print('Accuracy: %.2f' % grid.best_score_)

0.947 +/- 0.03 {'kneighborsclassifier__n_neighbors': 1, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
0.933 +/- 0.02 {'kneighborsclassifier__n_neighbors': 1, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 50}
0.940 +/- 0.02 {'kneighborsclassifier__n_neighbors': 1, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 10}
0.940 +/- 0.02 {'kneighborsclassifier__n_neighbors': 1, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 50}
0.953 +/- 0.02 {'kneighborsclassifier__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 50}
0.953 +/- 0.02 {'kneighborsclassifier__n_neighbors': 5, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier__n_neighbors': 5, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 50}
Best parameters: {'kneighborsclassifier__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
Accuracy: 0.95

## 如果我们打算多次使用回归算法，我们要做的就是在参数网格中添加一个附加的数字后缀，如下所示：
from sklearn.model_selection import GridSearchCV

# Initializing models

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = GaussianNB()
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf1, clf2, clf3], meta_classifier=lr, random_state=RANDOM_SEED)

params = {
     'kneighborsclassifier-1__n_neighbors': [1, 5],
          'kneighborsclassifier-2__n_neighbors': [1, 5],
          'randomforestclassifier__n_estimators': [10, 50],
          'meta_classifier__C': [0.1, 10.0]}

grid = GridSearchCV(estimator=sclf,
                    param_grid=params,
                    cv=5,
                    refit=True)
grid.fit(X, y)

cv_keys = ('mean_test_score', 'std_test_score', 'params')

for r, _ in enumerate(grid.cv_results_['mean_test_score']):
    print("%0.3f +/- %0.2f %r"
          % (grid.cv_results_[cv_keys[0]][r],
             grid.cv_results_[cv_keys[1]][r] / 2.0,
             grid.cv_results_[cv_keys[2]][r]))

print('Best parameters: %s' % grid.best_params_)
print('Accuracy: %.2f' % grid.best_score_)

0.940 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
0.940 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 50}
0.940 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 10}
0.940 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 50}
0.960 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 50}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 50}
0.960 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 50}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 1, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 50}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 50}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 10}
0.953 +/- 0.02 {'kneighborsclassifier-1__n_neighbors': 5, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 10.0, 'randomforestclassifier__n_estimators': 50}
Best parameters: {'kneighborsclassifier-1__n_neighbors': 1, 'kneighborsclassifier-2__n_neighbors': 5, 'meta_classifier__C': 0.1, 'randomforestclassifier__n_estimators': 10}
Accuracy: 0.96

## 4.在不同特征子集上运行的分类器的堆叠
###不同的1级分类器可以适合训练数据集中的不同特征子集。以下示例说明了如何使用scikit-learn管道和ColumnSelector：
from sklearn.datasets import load_iris
from mlxtend.classifier import StackingCVClassifier
from mlxtend.feature_selection import ColumnSelector
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression

iris = load_iris()
X = iris.data
y = iris.target

pipe1 = make_pipeline(ColumnSelector(cols=(0, 2)),  # 选择第0,2列
                      LogisticRegression())
pipe2 = make_pipeline(ColumnSelector(cols=(1, 2, 3)),  # 选择第1,2,3列
                      LogisticRegression())

sclf = StackingCVClassifier(classifiers=[pipe1, pipe2],
                            meta_classifier=LogisticRegression(),
                            random_state=42)

sclf.fit(X, y)

StackingCVClassifier(classifiers=[Pipeline(steps=[('columnselector',
                                                   ColumnSelector(cols=(0, 2))),
                                                  ('logisticregression',
                                                   LogisticRegression())]),
                                  Pipeline(steps=[('columnselector',
                                                   ColumnSelector(cols=(1, 2,
                                                                        3))),
                                                  ('logisticregression',
                                                   LogisticRegression())])],
                     meta_classifier=LogisticRegression(), random_state=42)

### 像其他scikit-learn分类器一样，它StackingCVClassifier具有decision_function可用于绘制ROC曲线的方法。
### 请注意，decision_function期望并要求元分类器实现decision_function。
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingCVClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier

iris = datasets.load_iris()
X, y = iris.data[:, [0, 1]], iris.target

# Binarize the output
y = label_binarize(y, classes=[0, 1, 2])
n_classes = y.shape[1]

RANDOM_SEED = 42

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=RANDOM_SEED)

clf1 =  LogisticRegression()
clf2 = RandomForestClassifier(random_state=RANDOM_SEED)
clf3 = SVC(random_state=RANDOM_SEED)
lr = LogisticRegression()

sclf = StackingCVClassifier(classifiers=[clf1, clf2, clf3], meta_classifier=lr)

# Learn to predict each class against the other
classifier = OneVsRestClassifier(sclf)
y_score = classifier.fit(X_train, y_train).decision_function(X_test)

# Compute ROC curve and ROC area for each class
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])

# Compute micro-average ROC curve and ROC area
fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

plt.figure()
lw = 2
plt.plot(fpr[2], tpr[2], color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc[2])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

这一次学习内容以复现为主，之前用stacking都很稀里糊涂的，经过这次学习，对多个同类分类器以及stacking中的管道才做有了认识。

DataWhale Pandas数据分析 Task01：预备知识 Shawnxs_ DataWhale Pandas数据分类 python pandas
文章目录练习Ex1：利用列表推导式写矩阵乘法Ex2：更新矩阵Ex3：卡方统计量Ex4：改进矩阵计算的性能Ex5：连续整数的最大长度心得体会练习Ex1：利用列表推导式写矩阵乘法一般的矩阵乘法根据公式，可以由三重循环写出：In[138]:M1=np.random.rand(2,3)In[139]:M2=np.random.rand(3,4)In[140]:res=np.empty((M1.shape[
Day04-线性代数-特征值和特征向量(DataWhale) liying_tt 数学基础线性代数
七、特征值和特征向量AAA是n阶方阵，数λ\lambdaλ，若存在非零列向量α⃗\vec{\alpha}α，使得Aα⃗=λα⃗A\vec{\alpha}=\lambda\vec{\alpha}Aα=λα，则λ\lambdaλ是特征值，α⃗\vec{\alpha}α是对应于λ\lambdaλ的特征向量λ\lambdaλ可以为0α⃗\vec{\alpha}α不能为0⃗\vec{0}0，且为列向量Aα⃗
用Transformer实现OCR字符识别！ Datawhale 大数据数据挖掘编程语言 python 计算机视觉
Datawhale干货作者：安晟、袁明坤，Datawhale成员在CV领域中，transformer除了分类还能做什么？本文将采用一个单词识别任务数据集，讲解如何使用transformer实现一个简单的OCR文字识别任务，并从中体会transformer是如何应用到除分类以外更复杂的CV任务中的。全文分为四部分：一、数据集简介与获取二、数据分析与关系构建三、如何将transformer引入OCR四
Datawhale X 李宏毅苹果书 AI夏令营入门 Task3-机器学习框架沙雕是沙雕是沙雕人工智能机器学习
目录实践方法论1.模型偏差2.优化问题3.过拟合4.交叉验证5.不匹配实践方法论1.模型偏差当一个模型由于其结构的限制，无法捕捉数据中的真实关系时，即使找到了最优的参数，模型的损失依然较高。可以通过增加输入特征、使用更复杂的模型结构或采用深度学习等方法来新设计模型，增加模型的灵活性。2.优化问题在机器学习模型训练过程中，即使模型的灵活性足够高，也可能由于优化算法的问题导致训练数据的损失不够低。为了
Datawhale X 李宏毅苹果书 AI夏令营-深度学入门task2：线性模型 m0_53743757 人工智能机器学习算法
1.线性模型把输入的特征x乘上一个权重，再加上一个偏置就得到预测的结果，这样的模型称为线性模型（linearmodel）2.分段线性模型线性模型也许过于简单，x1跟y可能中间有比较复杂的关系。线性模型有很大的限制，只能表示一条直线，这一种来自于模型的限制称为模型的偏差，无法模拟真实的情况。所以需要写一个更复杂的、更有灵活性的、有未知参数的函数。分段线性曲线（piecewiselinearcurve
聪明办法学Python第1节：启航 m0_53743757 python 开发语言
作业链接：https://hydro.ac/d/datawhale_p2s/user/53146第一行代码print("聪明办法学Python")#输出：聪明办法学PythonHelloWorld的由来1972年，贝尔实验室成员BrianKernighan首次在程序中使用"hello，world"。注释Comment分类：单行注释，使用#开头多行注释，使用'''或"""包裹起来作用：注释主要是用于
Datawhale七月组队——动手学数据分析 Task01 数据加载及探索性数据分析郁浓
第一次的打卡内容包括数据的载入及初步观察、Pandas基础以及探索性数据分析三个部分。1.数据的载入及初步观察这一节内容中，刚开始绝对路径的设置中"/"和'''\'用错了，直接拿文件夹的路径粘贴过来，导致运行失败使用pandas中read_csv读取csv数据时，对于有表头的数据，将header设置为空(None)，会报错：pandas_libs\parsers.pyxinpandas._libs
Datawhale AI夏令营第五期CV Task01 m0_60530253 人工智能
一、报名参加2024大运河杯数据开发大赛1.登录赛事平台2.修改昵称，实名认证3.打开比赛链接报名参赛4.修改队伍名称二、领取厚德云支持的GPU在线算力！(点击即可跳转)三、体验baseline1.下载baseline相关文件aptinstallgit-lfsgitlfsinstallgitclonehttps://www.modelscope.cn/datasets/Datawhale/AI_C
Datawhale AI夏令营第五期CV Task02 m0_60530253 人工智能深度学习
一、yolo模型介绍YOLO，全称为"YouOnlyLookOnce"，是一种流行的实时目标检测算法，由JosephRedmon等人于2015年首次提出。YOLO的核心思想是将目标检测任务视为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率的映射。这种设计使得YOLO能够以非常快的速度进行目标检测，同时保持较高的精度，特别适合需要实时处理的应用场景。YOLO算法的一个显著特点是它在单个网络
Datawhale AI夏令营第五期魔搭-CV竞赛方向Task1笔记--初识yolo模型切记我是一个温柔的刀客 YOLO 目标检测机器学习
DatawhaleAI夏令营第五期魔搭-CV竞赛方向Task1笔记–初识yolo模型作者:福州大学我是一个温柔的刀客2024/8/221.赛题简介本赛题最终目标是开发一套智能识别系统，能够自动检测和分类城市管理中的违规行为。该系统应利用先进的图像处理和计算机视觉技术，通过对摄像头捕获的视频进行分析，自动准确识别违规行为，并及时向管理部门发出告警，以实现更高效的城市管理。本质上是属于CV中的目标检测
Datawhale Al夏令营第三期 Al+物质科学task2学习笔记 weixin_75033552 学习笔记
AI4Science是一个较为普遍的术语，通常指的是人工智能在科学研究和技术发展中的应用。它涵盖了各种科学领域，包括物理学、化学、生物学、地球科学等。虽然没有一个特定的确切历史，但可以描述人工智能在科学研究中的一些早期里程碑和发展趋势。早期发展知识表示与推理：20世纪70年代末和80年代初，早期的AI研究开始探索如何用机器推理来模拟人类的思维过程。这种推理方式被应用于物理学、化学等学科中，尝试解决
Datawhale x李宏毅苹果书入门 AI夏令营 task03学习笔记 weixin_75033552 人工智能学习笔记
实践方法论训练模型的基本步骤：（如下图所示）用训练集训练模型，（最终得出来最优的参数集）将最优参数集带入模型中，用测试集测试模型（人话：将最优参数集带入原来函数中，用测试集的x值计算y值）（这个过程就叫做预测）训练过程中遇到问题的解决攻略（看下图的方式是“前序遍历”）modelbias出现问题的情况：1.看trainingdata的loss，太大；2.当你模型无论如何调整参数，训练的结果还是不够好
Datawhale X 李宏毅苹果书 AI夏令营进阶 Task2-自适应学习率+分类沙雕是沙雕是沙雕人工智能学习深度学习
目录1.自适应学习率1.1AdaGrad1.2RMSProp1.3Adam1.4学习率调度1.5优化策略的总结2.分类2.1分类与回归的关系2.2带有softmax的分类2.3分类损失1.自适应学习率传统的梯度下降方法在优化过程中常常面临学习率设置不当的问题。固定的学习率在训练初期可能过大，导致模型训练不稳定，而在后期可能过小，导致训练速度缓慢。为了克服这些问题，自适应学习率方法应运而生。这些方法
Datawhale AI夏令营于弋gg 人工智能计算机视觉 python
一、分析CV识别任务任务分析自己研究生期间做过的大多是无监督任务，监督任务做的很少。比如，之前用过yolov5做过滑动验证码的识别，给滑动验证码的缺口打标签是项耗时费力的工作。本次任务相同，是给非机动车、机动车打标签。frame_id：不同帧event_id：一帧里面出现的不同车辆idbbox：车辆位置模型输入输出猜测1）如果识别车辆很容易，那么输入原始音频x，标出每帧的位置作为输出，记为y。放进
[Datawhale#1] cv task1 - Datawhale AI夏令营 cinboxer cv python numpy pandas matplotlib
参加cv方面的培训，记录自己的一些感悟吧。报名赛事2024“大运河杯”数据开发应用创新大赛——城市治理厚德云远程算力租赁https://portal.houdeyun.cn/register?from=Datawhale可以用3090，速度很快！baselineaptinstallgit-lfsgitlfsinstallgitclonehttps://www.modelscope.cn/datas
[Datawhale AI 夏令营][第五期]智能识别系统-Task1笔记 keexh 人工智能笔记
任务是发布在MARS大数据服务平台的2024“大运河杯”数据开发应用创新大赛——城市治理。了解智慧河长的朋友可能听说类似的项目，它们可以识别河道中出现的一些问题。这次的智能识别系统与前者有相似的地方，但这个系统将聚焦城市违规行为的智能检测，通过研究开发高效可靠的计算机视觉算法，提升违规行为检测识别的准确度，降低对大量人工的依赖，提升检测效果和效率，从而推动城市治理向更高效、更智能、更文明的方向发展
DataWhale AI夏令营 2024大运河杯-数据开发应用创新赛-task2 十分钟ll DataWhale AI夏令营人工智能目标跟踪计算机视觉 DataWhale竞赛大运河杯机器学习
DataWhaleAI夏令营2024大运河杯-数据开发应用创新赛YOLO(YouOnlyLookOnce)上分心得分享YOLO(YouOnlyLookOnce)YOLO算的上是近几年最火的目标检测模型了，被广泛的应用在工业、学术等领域。YOLOv1（YouOnlyLookOnce第一版）于2016年由JosephRedmon等人在其论文《YouOnlyLookOnce:Unified,Real-T
Datawhale X 李宏毅苹果书AI夏令营深度学习详解进阶Task02 z are 人工智能深度学习
目录一、自适应学习率二、学习率调度三、优化总结四、分类五、问题与解答本文了解到梯度下降是深度学习中最为基础的优化算法，其核心思想是沿着损失函数的梯度方向更新模型参数，以最小化损失值。公式如下：θt+1←θt-η*∇θL(θt)其中，θ表示模型参数，η表示学习率，L表示损失函数，∇θL表示损失函数关于参数的梯度。然而，梯度下降在复杂误差表面上存在局限性。例如，在鞍点或局部最小值处，梯度接近零，导致模
2020-03-24 黑乎乎AI
Datawhale零基础入门数据挖掘-Task2数据分析【代码摘要】赛题：零基础入门数据挖掘-二手车交易价格预测地址：[https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX]EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确
Datawhale AI夏令营-task03 ghost_him 人工智能
DatawhaleAI夏令营-task03笔记来源：DatawhaleAI夏令营数据增强基础数据增强是一种在机器学习和深度学习领域常用的技术，尤其是在处理图像和视频数据时。**数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。**数据增强涉及对原始数据进行一系列的变换操作，生成新的训练样本。这些变换模拟了真实世界中的变化，对于图像而言，数
【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营 MoyiTech 人工智能学习笔记
局部极小值与鞍点梯度为0的点我们统称为临界点，包括局部极小值、鞍点等局部极小值和鞍点的梯度都为0，那如何判断呢？先请出我们损失函数：L(θ)，θ是模型中的参数的取值，是一个向量。由于网络的复杂性，我们无法直接写出损失函数，不过我们可以写出损失函数的近似取值。根据宋浩老师所讲的大学一年级高等数学的知识，我们可以通过三阶泰勒展开对损失函数在θ附近的取值进行近似：其中，θ是模型中的参数的取值，θ’是在θ
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
局部极小值与鞍点 Datawhale X 李宏毅苹果书 AI夏令营千740 人工智能深度学习机器学习
1，为什么随着参数的不断更新，损失无法降低？当参数对损失微分为零的时候，梯度下降就不能再更新参数了，训练就停下来了，损失不再下降了，此时梯度接近于0。我们把梯度为零的点统称为临界点（criticalpoint）。损失没有办法再下降，也许是因为收敛在了临界点，临界点包括局部极小值，局部极大值和鞍点（梯度是零且区别于局部极小值和局部极大值（localmaximum）的点）2，如果一个点的梯度接近于0，
Datawhale X 李宏毅苹果书 AI夏令营Day03 xuanEpiphany29 人工智能
一、打卡Datawhale二、学习1、文档学习图中展示了一个函数集合，其中包含多个未知参数的函数fθ1(x)和fθ2(x)。通过将这些函数组合起来，可以得到一个更大的函数集合。然而，如果这个函数集合太小了，没有包含任何一个函数，那么即使找到了一个最优的θ∗，其损失仍然不够低。这就像大海里捞针一样，想要找到一个损失低的函数，但最终却发现这个函数并不在这个函数集合内。在这种情况下，可以通过重新设计模型
Datawhale X 李宏毅苹果书 AI夏令营Day02 xuanEpiphany29 人工智能
一、打卡Datawhale进入打卡链接选择相对应的任务打卡就可以了二、学习1、线性模型依旧是b站上老师的授课视频，我找到知乎上解释很好的文章，分享一下机器学习（一）线性模型————理论篇线性回归模型、对数几率模型、线性判别分析模型、多分类学习模型-知乎(zhihu.com)(1)、模型概述线性模型是机器学习中一种非常基础且重要的模型，广泛应用于分类和回归任务。线性模型的基本思想是通过一个线性方程来
FastAPI部署大模型Llama 3.1 记得叫Mark周更人工智能
项目地址：self-llm/models/Llama3_1/01-Llama3_1-8B-InstructFastApi部署调用.mdatmaster·datawhalechina/self-llm(github.com)目的：使用AutoDL的深度学习环境，简单部署大模型环境准备考虑到部分同学配置环境可能会遇到一些问题，我们在AutoDL平台准备了LLaMA3-1的环境镜像，点击下方链接并直接创
Datawhale AI夏令营第四期魔搭- AIGC文生图方向 task03笔记汪贤阳人工智能 AIGC 笔记
如何学习八图ai模型kolors1,Kolors是由快手公司开源的第三代文本到图像生成模型，基于StableDiffusion框架开发。它支持中英文输入，特别在中文内容的理解和生成上表现出色。2,深度学习基础：熟悉神经网络、卷积神经网络（CNN）、Transformer等深度学习模型的基本原理。自然语言处理（NLP）：了解文本编码、语言模型等NLP技术，因为Kolors在生成图像时需要理解并处理输
(202402)多智能体MetaGPT入门2：AI Agent知识体系结构早上真好参与dw开源学习语言模型人工智能
文章目录前言1智能体定义2热门智能体案例3智能体的宏观机会4AIAgent与Sy1&Sy2观看视频前言感谢datawhale组织开源的多智能体学习内容，飞书文档地址在https://deepwisdom.feishu.cn/wiki/KhCcweQKmijXi6kDwnicM0qpnEf本章主要为Agent相关理论知识的学习。1智能体定义智能体=LLM+观察+思考+行动+记忆多智能体=智能体+环境
深入浅出PyTorch学习网址今天是学习的一天人工智能
https://datawhalechina.github.io/thorough-pytorch/
Datawhale用免费GPU线上跑AI项目实践课程任务一学习笔记。部署ChatGLM3-6B模型 Hoogte-oile 学习笔记学习笔记人工智能自然语言处理
前言本篇文章为学习笔记，流程参照Datawhale用免费GPU线上跑AI项目实践课程任务，个人写此文章为记录学习历程和补充概念，并希望为后续的学习者开辟道路，没有侵权的意思。如有错误也希望大佬们批评指正。模型介绍ChatGLM-6B是一个开源的、支持中英双语问答的对话语言模型，基于GeneralLanguageModel(GLM)架构，具有62亿参数。结合模型量化技术，用户可以在消费级的显卡上进行
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

【2021.05--集成学习（下）-Task13】Stacking简单实践

你可能感兴趣的:(DataWhale)