ZIYUE WU

MLb-018 61《Python机器学习基础教程》归纳(下)

此系列文章提炼《Python机器学习基础教程》最核心要点

第四章数据表示与特征工程

一、分类变量

1、One-Hot编码（虚拟变量）

1）检查字符串编码的分类数据（可能有表示不同但是含义相同的数据：man、male等）
```
print(data.gender.value_counts())
```
2）利用get_dummies函数自动变换字符串和分类的列
```
data_dummies=pd.get_dummies(data)
```

3）用values属性将DataFrame转化为Numpy数组

features = data_dummies.loc[:, 'feature_1':'feature_k']
X = features.values
y = data_dummies['target_1'].values
#二分类时target也会变为两列，这个时候调出一列正好是0、1变量

4）注意：要在同时含有训练和测试数据的数据集调用get_dummies

2、数字编码的分类变量
用OneHotEncoder或替换时转换为字符串

demo_df['Integer Feature'] = demo_df['Integer Feature'].astype(str)

二、分箱、离散化、线性模型与树

1、具体操作

bins = np.linspace(-3, 3, 11)
#创建-3到3中10个均匀分布的箱子
which_bin = np.digitize(X, bins=bins)
#记录每个数据点所属的箱子

2、特点
一个箱子内所有点，任何模型会预测相同的值
分箱特征提高线性模型性能，决策树模型准确率降低

三、交互特征与多项式特征

1、使用分箱扩展连续特征

1）重新加入原始特征（向分箱数据上的线性模型添加斜率：图中x轴）

X_combined = np.hstack([X, X_binned])
reg = LinearRegression().fit(X_combined, y)
line_combined = np.hstack([line, line_binned])
reg.predict(line_combined)

2）添加交互特征或乘积特征（每个箱子有不同的斜率）

X_product = np.hstack([X_binned,X* X_binned])
reg = LinearRegression().fit(X_product, y)
line_product = np.hstack([line_binned, line*line_binned])
reg.predict(line_product)

2、使用原始特征的多项式

1）具体操作

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=10, include_bias=False)
#直到x**10的多项式，include_bias默认为False则添加恒等于一的常数特征
poly.fit(X)
X_poly = poly.transform(X)
poly.get_feature_names()
#这一行用来查看获得特征的语义

2）多项式回归模型（多项式特征与线性回归一同使用）

reg = LinearRegression().fit(X_poly, y)
line_poly = poly.transform(line)
reg.predict(line_poly)

四、单变量非线性变换

log和exp函数可以帮助参数调节数据的相对比例，从而改进线性模型或神经网络的学习效果

X_train_log=np.log(X_train)
X_train_exp=np.exp(X_train)

使用：特征和目标之间存在非线性关系

五、自动化特征选择

1、概述
特征选择的原因：过多的特征会使得模型更为复杂
判断特征作用大小的基本策略：单变量统计、基于模型的选择、迭代选择（都是监督方法）
2、单变量统计

1）概念
操作：计算每个特征和目标值之间的关系是否存在统计显著性，然后选择具有最高置信度的特征（分类问题——方差分析）
使用阈值：SelectKBest（选择固定个数k个特征）、SelectPercentile（选择固定百分比的特征）

2）具体操作

from sklearn.feature_selection import SelectPercentile
select = SelectPercentile(percentile=50)
#选择前50%的特征
select.fit(X_train, y_train)
X_train_selected = select.transform(X_train)

3）可视化技巧

mask = select.get_support()
#用get_support查看哪些变量被选中
print(mask)
plt.matshow(mask.reshape(1, -1), cmap='gray_r')
#将遮罩可视化，黑色为True，白色为False
plt.xlabel("Sample index")
plt.yticks(())

3、基于模型的特征选择

1）概念
使用一个监督学习模型判断每个特征的重要性
用特征选择的监督模型不一定和最终监督模型相同
与单变量选择不同，基于模型的选择同时考虑所有特征（可以获取交互项）

2）具体操作

A.使用包含100棵树的随机森林分类器来计算特征重要性

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier
select = SelectFromModel(RandomForestClassifier(n_estimators=100, random_state=42),threshold="median")

B.实际拟合模型

select.fit(X_train, y_train)
X_train_l1 = select.transform(X_train)

C.查看性能

X_test_l1 = select.transform(X_test)
score = LogisticRegression().fit(X_train_l1, y_train).score(X_test_l1, y_test)
print("Test score: {:.3f}".format(score))

4、迭代特征选择

1）概念
构建一系列模型，每个模型使用不同数量的特征
方法：逐一添加或逐一删除（递归特征消除，RFE）

2）具体操作

A.构建模型

from sklearn.feature_selection import RFE
select = RFE(RandomForestClassifier(n_estimators=100, random_state=42),n_features_to_select=40)
select.fit(X_train, y_train)

B.查看性能

X_train_rfe = select.transform(X_train)
X_test_rfe = select.transform(X_test)
score = LogisticRegression().fit(X_train_rfe, y_train).score(X_test_rfe, y_test)
print("Test score: {:.3f}".format(score))

六、利用专家知识

第五章模型评估与改进

一、交叉验证

1、概述
交叉验证：评估泛化性能的统计学方法。数据集被多次划分，需要训练多个模型
优点：多次划分：可以看出模型对训练集选择的敏感度
缺点：增加了计算成本
目的：评估给定算法在特定数据集上训练后的泛化性能（不是一种构建可用于新数据模型的方法）

2、基本操作（k折交叉验证）

from sklearn.model_selection import cross_val_score
logreg = LogisticRegression()
scores = cross_val_score(logreg, iris.data, iris.target, cv=5)
#cv：指定交叉验证折数
print("Cross-validation scores: {}".format(scores))

3、分层k折交叉验证（每个折中类别的比例与整个数据集比例相同）

1）kfold交叉验证分离器（可作为cv参数）

from sklearn.model_selection import KFold
kfold = KFold(n_splits=3, shuffle=True, random_state=0)
#shuffle：将数据打乱（可以代替分层，random_state固定以获得可重复的打乱效果）
print("Cross-validation scores:\n{}".format(cross_val_score(logreg, iris.data, iris.target, cv=kfold)))

2）留一法交叉验证（每折只包含单个样本的k折交叉验证）

from sklearn.model_selection import LeaveOneOut
loo = LeaveOneOut()
scores = cross_val_score(logreg, iris.data, iris.target, cv=loo)
#留一交叉验证中，每次划分单个数据点作为测试集，非常耗时，小数据使用较好
print("Number of cv iterations: ", len(scores))
print("Mean accuracy: {:.2f}".format(scores.mean()))

3）打乱交叉验证

from sklearn.model_selection import ShuffleSplit
shuffle_split = ShuffleSplit(test_size=.5, train_size=.5, n_splits=10)
#每次划分为训练集取样train_size个点，测试集取样test_size个点，重复n_iter次，每次迭代使用部分数据：train_size+test_size<1
scores = cross_val_score(logreg, iris.data, iris.target, cv=shuffle_split)
print("Cross-validation scores:\n{}".format(scores))

4）分组交叉验证（适用于数据分组高度相关，如人脸表情识别，想要泛化到新的人）

from sklearn.model_selection import GroupKFold
groups = [0, 0, 0, 1, 1, 1, 1, 2, 2, 3, 3, 3]
scores = cross_val_score(logreg, X, y, groups, cv=GroupKFold(n_splits=3))
#每次划分中，每个组会整体出现在训练集或测试集中
print("Cross-validation scores:\n{}".format(scores))

二、网格搜索

1、概述
目的：找到一个模型提供最佳泛化性能的参数
简单的编程实现

for gamma in [0.001, 0.01, 0.1, 1, 10, 100]:
for C in [0.001, 0.01, 0.1, 1, 10, 100]:
svm = SVC(gamma=gamma, C=C)
svm.fit(X_train, y_train)
score = svm.score(X_test, y_test)

2、降低参数过拟合风险——验证集

1）两次划分

X_trainval, X_test, y_trainval, y_test = train_test_split(iris.data, iris.target, random_state=0)
X_train, X_valid, y_train, y_valid = train_test_split(X_trainval, y_trainval, random_state=1)

2）改进核心代码：在验证集上评估模型
```
score = svm.score(X_valid, y_valid)
```
3）循环结束后：在训练+验证集上重构模型，在测试集上评估
```
svm.fit(X_trainval, y_trainval)
test_score = svm.score(X_test, y_test)
```

3、带交叉验证的网格搜索

1）改进核心代码：执行交叉验证并计算平均精度

scores = cross_val_score(svm, X_trainval, y_trainval, cv=5)
score = np.mean(scores)

2）利用sklearn中的估计器

param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
#需要一个字典指定搜索参数
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5,return_train_score=True)
grid_search.fit(X_train, y_train)
#仍需要划分训练测试集
print("Test set score: {:.2f}".format(grid_search.score(X_test, y_test)))
#未使用测试集选择参数：best_score_是在训练集上交叉验证得到的，与之前全数据集得到的score不同

3）分析结果

results = pd.DataFrame(grid_search.cv_results_)
#可考虑用热图可视化

4）非网格搜索：param_grid可改为字典组成的列表

param_grid = [{'kernel': ['rbf'],'C': [0.001, 0.01, 0.1, 1, 10, 100],'gamma': [0.001, 0.01, 0.1, 1, 10, 100]},{'kernel': ['linear'],'C': [0.001, 0.01, 0.1, 1, 10, 100]}]

三、评估指标与评分

1、回归指标：使用默认的R^2（由所有回归器的score方法给出）

2、不平和数据集：一个类占据绝大多数

3、二分类指标

1）混淆矩阵

from sklearn.metrics import confusion_matrix
confusion = confusion_matrix(y_test, pred_logreg)
#这里confusion是一个2*2的数组

2）评估指标

A.准确率：正例中真正正例比例
B.召回率：真正正例被预测为正例比例
C.F1分数：准确率与召回率的调和平均

D.绘制报表

from sklearn.metrics import classification_report
print(classification_report(y_test, svc.predict(X_test)))

E.绘制准确率-召回率曲线

from sklearn.metrics import precision_recall_curve
precision, recall, thresholds = precision_recall_curve(y_test, svc.decision_function(X_test))
plt.plot(precision, recall, label="precision recall curve")

F.总计曲线：平均准确率（曲线积分面积，返回浮点数）

from sklearn.metrics import average_precision_score
ap_svc = average_precision_score(y_test, svc.decision_function(X_test))

G.ROC曲线（受试者工作特征曲线，假正例率和真正例率）

from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_test, svc.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")

H.总结曲线：曲线下面积（AUC，返回浮点数）

from sklearn.metrics import roc_auc_score
svc_auc = roc_auc_score(y_test, svc.decision_function(X_test))

4、多分类指标

1）多分类指标的混淆矩阵
2）不平衡数据集：f-分数（多分类版本）
对每个类别计算一个二分类f-分数（其他所有类别都是反类）
使用如下策略对按类别的f-分数进行平均
- 宏平均：所有类别给出相同权重，无论样本大小
- 加权平均：每个类别的支持作为权重来计算按类别f-分数平均值
- 微平均：计算所有类别中FP、FN、TP总数，从而计算准确率、召回率和f-分数
使用方式
- 对每个样本同等看待：微平均f-分数
```
f1_score(y_test, pred, average="micro")
```
- 对每个类别同等看待：宏平均f-分数
```
f1_score(y_test, pred, average="macro")
```

5、在模型选择中使用评估指标

目的：在使用GridSearchCV或cross_val_score进行模型选择时使用AUC等指标

方法：scoring参数

交叉验证

roc_auc =  cross_val_score(SVC(), X, y == 1,scoring="roc_auc")
#分类问题默认就是‘accuracy’（准确率），可以改为‘roc_auc’（AUC）

网格搜索

grid = GridSearchCV(SVC(), param_grid=param_grid, scoring="roc_auc")
#与上同理

常用的是scoring参数
- 分类问题
  - 准确率（accuracy）
  - ROC曲线下面积（roc_auc）
  - 准确率-召回率曲线下面积（average_precision）
  - 四个二分类f1分数及加权变体（f1, f1_macro, f1_micro, f1_weighted）
- 回归问题
  - R^2分数（r2）
  - 均方误差（mean_squared_error）
  - 平均绝对误差（mean_absolute_error）

四、小结

数据划分：训练集-训练模型；验证集-选择模型与参数；测试集-模型评估
明确机器学习的最终目的：确保用于模型评估与选择的指标能够很好地替代模型的实际用途

第六章算法链与管道

一、用预处理进行参数选择

引入：在进行任何预处理之前完成数据集的划分（交叉验证位于处理过程的最外层循环）
Pipeline类
将多个处理步骤合并（glue）为单个估计器
本身具有fit、predict和score方法
最常见：将预处理步骤（如缩放）与一个监督模型（如分类器）连接在一起

二、构建管道

from sklearn.pipeline import Pipeline
pipe=Pipeline([("scaler", MinMaxScaler()), ("svm",SVC())])
#创建了两个步骤，第一个叫scaler，是MinMaxScaler的实例，第二个叫svm，是SVC()的实例
pipe.fit(X_train, y_train)
#拟合管道
print("Test score: {:.2f}".format(pipe.score(X_test, y_test)))
#直接用管道的score方法进行评估

三、在网格搜索中使用管道

param_grid = {'svm__C': [0.001, 0.01, 0.1, 1, 10, 100],'svm__gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
#为网格定义参数网络：步骤名称+双下划线+参数名称
grid = GridSearchCV(pipe, param_grid=param_grid, cv=5)
grid.fit(X_train, y_train)
#现在可以仅适用训练部分进行MinMaxScaler拟合，验证和测试集都没有变化，因此测试部分的信息不会泄露到参数搜索中
print("Best cross-validation accuracy: {:.2f}".format(grid.best_score_))
print("Test set score: {:.2f}".format(grid.score(X_test, y_test)))
print("Best parameters: {}".format(grid.best_params_))

四、通用的管道接口

1、用make_pipeline方便地创建管道

pipe_short = make_pipeline(MinMaxScaler(), SVC(C=100))
区别：会自动制定步骤名称，名称在step属性中

2、利用named_steps访问步骤属性

components = pipe.named_steps["pca"].components_

3、访问网格搜索管道中的属性

print("Best estimator:\n{}".format(grid.best_estimator_))
#访问GridSearchCV找到的最佳LogisticRegression模型的系数
print("Logistic regression coefficients:\n{}".format(grid.best_estimator_.named_steps["logisticregression"].coef_))
#访问每个输入特征相关权重

五、网格搜索预处理步骤与模型参数

1、目的：使用监督任务的输出调节预处理参数

from sklearn.preprocessing import PolynomialFeatures
pipe = make_pipeline(StandardScaler(),PolynomialFeatures(),Ridge())
#缩放数据、计算多项式特征和岭回归放在同一个pipe里
param_grid = {'polynomialfeatures__degree': [1, 2, 3],'ridge__alpha': [0.001, 0.01, 0.1, 1, 10, 100]}
#用网格选择多项式/交互
grid = GridSearchCV(pipe, param_grid=param_grid, cv=5, n_jobs=-1)
grid.fit(X_train, y_train)

2、Tips：用热图将交叉验证结果可视化

plt.matshow(grid.cv_results_['mean_test_score'].reshape(3,-1),vmin=0,cmap='viridis')
plt.xlabel('ridge__alpha')
plt.ylabel('polynomialfeatures__degree')
plt.xticks(range(len(param_grid['ridge__alpha'])),param_grid['ridge__alpha'])
plt.yticks(range(len(param_grid['polynomialfeatures__degree'])),param_grid['polynomialfeatures__degree'])
plt.colorbar()

3、查看最佳模型和对应分数

print("Best parameters: {}".format(grid.best_params_))
print("Test-set score: {:.2f}".format(grid.score(X_test, y_test)))

六、网格搜索选择使用哪个模型

使用搜索网格列表，跳过步骤（如random forest不需要预处理）则设置为None

param_grid = [{'classifier': [SVC()], 'preprocessing': [StandardScaler(), None],'classifier__gamma': [0.001, 0.01, 0.1, 1, 10, 100],'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100]},{'classifier': [RandomForestClassifier(n_estimators=100)],'preprocessing': [None], 'classifier__max_features': [1, 2, 3]}]

网格如此定义，其余同理

你可能感兴趣的:(MLBOOK,01)

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
洛谷 P11120 [ROIR 2024 Day 1] 登机题解殇之夜洛谷 c++c语言算法
Part0前言这种题一看就是签到题，也是特水，建议评红或橙。Part1思路就是先将已有位置先填对称，然后将剩余还未添加的乘客以对称方式填入。首先可以特判掉需要的位置大于空位的情况，直接输出Impossible。然后用数组记录.和X的位置，先遍历所有X的位置，然后看他的对称位置是否为空，若为空，则填入X，然后m--。最后若musingnamespacestd;chara[1010][10];stru
无线鼠标产品整体技术分析总结悟空胆好小计算机外设
无线鼠标产品对比分析，以小米为例文章目录无线鼠标产品对比分析，以小米为例一.小米无线鼠标产品对比1.1小米无线鼠标XMSMSB05YM2.4G单模款1.2小米无线鼠标XMSMSB01YM2.4G+BT双模款二.**单模鼠标与双模的区别****1.连接方式****2.通信性能与可靠性****3.功耗管理****4.适用场景****5.技术扩展性**6.**小结**三.无线鼠标产品技术重点分析3.1.
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
ssrf漏洞复现 ξ流ぁ星ぷ132 安全
目录基础环境查看phpinfo发现线索探测端口+gopher协议基础环境这里发现一些基础协议呗过滤掉了。但是有个提示的info，于是先看看查看phpinfo发现线索发现这台主机的地址了，于是猜测这个网段应该还有其他主机，试了一下172.21.0.1:80172.21.0.3:80果然如下（0.1是陷阱就不浪费时间了，）探测端口+gopher协议然后对这个172.21.0.3这个主机探测端口发现63
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
【DBC】DBC中CAN信号多路复用徐饼干 DBC 程序人生其他经验分享
DBC文件信号多路复用详解1何时定义有些信号比较长，但是又不常用，就可以定义多路复用信号以节约空间。2具体定义2.1定义一个短信号来当做“控制开关”。【若定义1bit，则有2种可能0x00和0x01，复用两路】【若定义2bit，则有4种可能0x00和0x01和0x10和0x11，复用四路】…所以说，这个短信号的长度和你想复用多少路有关，多长？放在什么位置？由定义者决定2.2节约空间是如何体现的现在
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
2025.07.09华为机考真题解析-第一题100分春秋招笔试突围最新互联网春秋招试题合集华为
点击直达笔试专栏《大厂笔试突围》春秋招笔试突围在线OJ笔试突围OJ01.花园灯具照明设计问题描述K小姐正在为她的私人花园设计照明系统。花园是一条长廊，由nnn
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
5G RAN接入场景的IMS语音业务开通全流程码农老gou 5G 5G 网络
1.UE注册请求声明语音能力UE→AMF：发送RegistrationRequestNAS消息，关键参数：-UE'susagesetting="VoiceCentric"//终端以语音业务为核心-RequestedNSSAI:包含IMS切片标识（S-NSSAI）技术意义：通知网络优先保障语音业务资源（如QoS、移动性管理）。触发AMF按语音终端策略处理注册流程。规范依据：TS24.501§5.5.
Matlab裁剪降水数据：1km掩膜制作实战咋（za）说 matlab 降水数据处理裁剪掩膜制作降水数据裁剪 China_Pre
1km降水数据处理-制作数据裁剪掩膜1.数据概述2掩膜文件制作示例2.1数据准备2.2matlab掩膜制作示例代码3结语中国1km分辨率逐月降水量数据集（1901-2024）是高精度、长时间序列的气候数据产品，广泛应用于水文、生态、农业等领域的研究。本篇基于应用需要，以该数据集为输入，结合研究区shp边界文件，制作用于数据提取/裁剪的掩膜文件。下面为具体内容。1.数据概述中国1km分辨率逐
Python Code Acceleration（Python代码加速）李伯爵的指间沙 Python
对于Python的代码执行效率较低的问题，参考博客：https://developer.51cto.com/art/201809/583695.htm进行相应的测试。参考代码如下：fromnumbaimportjitimporttimedeffoo(x,y):tt=time.time()s=0foriinrange(x,y):s+=iprint('Timeused:{}sec'.format(ti
车身焊接机器人系列编程：Yaskawa MA2010_（11）.机器人维护与保养 zhubeibei168 机器人（二）机器人网络
机器人维护与保养1.机器人维护的必要性在汽车制造行业中，车身焊接机器人（如YaskawaMA2010）的高效运行对于生产线的稳定性和生产质量至关重要。机器人维护不仅能够延长机器人的使用寿命，还能确保其在长时间运行中的性能稳定。维护工作主要包括定期检查、清洁、润滑、更换易损件和故障诊断等。本节将详细介绍这些维护工作的具体步骤和注意事项。2.定期检查定期检查是机器人维护的基础，可以及时发现潜在问题并进
FastAPI 实用教程：构建高性能 Python Web API 的终极指南熊猫钓鱼>_> 大数据 hadoop 分布式
本文为原创实战教程，涵盖FastAPI核心特性、路由设计、数据验证、数据库集成、认证授权、测试部署全流程，4000+字助你快速掌握现代PythonWeb开发利器。一、FastAPI为何成为开发者新宠？在PythonWeb框架领域，Flask和Django长期占据主导地位。但FastAPI自2018年发布以来迅速崛起，其魅力在于：极致的性能：基于Starlette（异步Web框架）和Pydantic
jmeter的时间戳函数使用 flower_1111 代码 jmeter jmeter
原文：https://blog.csdn.net/jocleyn/article/details/834144331、__time：获取时间戳、格式化时间（1）、${__time(yyyy-MM-ddHH:mm:ss:SSS,time)}：格式化生成时间格式2018-10-2611:08:23:635（2）、${__time(,)}：默认该公式精确到毫秒级别，13位数1527822855323（3
【译】2018 前端性能优化清单 —— 第一部分 qq_36320160 前端前端
原文地址：Front-EndPerformanceChecklist2018-Part1原文作者：VitalyFriedman译文出自：掘金翻译计划本文永久链接：https://github.com/xitu/gold-miner/blob/master/TODO/front-end-performance-checklist-2018-1.md译者：tvChan校对者：mysterytonyry
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Qt for Android 配置详细（Windows下的）总有刁民想爱朕ha
Qt开发安卓笔记作者：[email protected]年1月讨论和交流一、安装jdk配置环境变量并测试java1.7的版本太高会出现问题。。我是用的是1.6点击jdk-6u21-windows-i586.exe即可，根据提示安装，安装路径可以复制，方便管理。jdk1.6安装在C:\Java\jdk1.6jre1.6安装在C:\Java\jre1.6安装后的文件和路径如上图。1.安
Python 代码实现模糊查询
转载：https://www.cnblogs.com/weiman3389/p/6047017.html
统信UOS安装Oracle 11g的客户端 u011189649 oracle 数据库
统信UOS安装Oracle11g的客户端一个积分的下载地址https://download.csdn.net/download/u011189649/89791511解压客户端压缩文件到/db/#首先执行xhost+xhost+#上传linux.x64_11gR2_client.zip文件至/db/目录;#如果上传不了就在局域网搭个http服务，然后用wget下载#wgethttp://ip/li
学习记录-第二阶段-定时任务-用户管理-用户密码-sudo-20181026-21：00前 chuyun0176 操作系统 java shell
#企业故障案例###################################################################linux定时任务crondexport变量问题群友案例来自网友兄弟北京@Grady(254553457)的总结。1）我写了一个重启resin的脚本，由于业务原因，需要定时在某一个时间重启下resin服务器，于是就在crontab里配置了如下内容：50
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

MLb-018 61《Python机器学习基础教程》归纳(下)

第四章 数据表示与特征工程

一、分类变量

二、分箱、离散化、线性模型与树

三、交互特征与多项式特征

四、单变量非线性变换

五、自动化特征选择

六、利用专家知识

第五章 模型评估与改进

一、交叉验证

二、网格搜索

三、评估指标与评分

四、小结

第六章 算法链与管道

一、用预处理进行参数选择

二、构建管道

三、在网格搜索中使用管道

四、通用的管道接口

五、网格搜索预处理步骤与模型参数

六、网格搜索选择使用哪个模型

你可能感兴趣的:(MLBOOK,01)

第四章数据表示与特征工程

第五章模型评估与改进

第六章算法链与管道