summer_bugs

小白的机器学习（Mechine Learning）笔记

文章目录

小白的机器学习（Mechine Learning）笔记

一.数据的处理

相关库的使用

1.均值移除（标准化）
2.范围缩放
3.归一化
4.二值化
5.独热编码
6.标签编码

二.模型

1.线性回归
2.多项式回归
3.岭回归与Lasso回归

Lasso回归
岭回归

4.决策树

工程优化
集合算法
正向激励
特征重要性
自助聚合
随机森林

5.分类模型

逻辑分类
朴素贝叶斯分类

6.数据集划分

交叉验证
交叉验证

一.数据的处理

在机器学习过程中，我们要将数据给计算机，但不是任何数据计算机都接受，所以，在给计算机训练数据之前，要现将数据进行处理

二.模型

1.线性回归

预测函数 $y=w_0+w_1x$

x：输入

y：输出

$w_0,w_1$ ：模型参数
所谓训练模型，就是根据已知的x和y，找到最佳的模型参数 $w_0,w_1$ ，尽可能的精确描述输入和输出的关系
**单样本误差：**根据预测函数求出输入为x时的预测值： $y_i'=w_0+w_1x$ ，单样本误差为 $\frac{1}{2}(y_i'-y)^2$ ，
**总样本误差：**把所有单样本误差相加即时总样本误差： $\frac{1}{2}\sum_{i=1}^n(y_i'-y)^2$
损失函数： $loss=\frac{1}{2}\sum_{i=1}^n(w_0+w_1x_i-y)^2$

所以损失函数就是总样本误差关于模型参数的函数，该函数属于三维数学模型，即需要找到一组 $w_0,w_1$ 使得loss取得最小值
coding实现

from sklearn.linear_model import LinearRegression
# 创建一个线性回归模型
model=LinearRegression()
# 训练模型，使用训练数据集
model.fit(x_train,y_train)
# 预测模型，得到预测结果
result=model.predict(x_test)
# 评估模型，得到分数
model.score(x_test,y_test)

评估训练结果误差（metrics)

线性回归模型训练完毕后，可以利用测试集评估训练误差，sklearn.metrics提供了相应的常用方法

from sklearn import metrics
# 平均绝对值误差
metrics.mean_absolute_error(y,pred_y)
# 平均均方误差，在平均绝对值误差的基础上**2
metrics.mean_squared_error(y,pred_y)
# 中位绝对值误差
metrics.median_absolut_error(y,pred_y)
# r2得分(0,1]区间的分值，分数越高，误差越小
metrics.r2_score(y,pred_y)

模型的保存和加载

模型训练是个耗时的过程，可以将训练的模型保存到磁盘中，也可在需要的时候从磁盘加载，不需要重新训练

coding实现：

import pickle
pickle.dump(内存对象，磁盘文件)
model=pickle.load(磁盘文件)
--------------------------------------------------
with open(path,'rb') as f:
    model=pickle.load(f)

2.多项式回归

一元多项式回归： $y=w_0+w_1x+w_2x^2+w_3x^3+...+w_dx^d$
将高次项看做对一次项特征的扩展得到： $y=w_0+w_1x_1+w_2x_2+w_3x_3+...+w_dx_d$ ，那么一元多项式回归即可看做为多元线性回归，可以使用LinearRegression模型对样本数据进行模拟训练，所以一元多项式回归的实现需要两个步骤：

1.将一元多项式回归问题转换为多元线性回归问题（只需给出多项式最高次数即可）

2.将1步骤的到多项式的结果中 $w_1,w_2...$ ，当做样本特征，交给线性回归器训练多元线性模型

使用sklearn提供的数据管线实现
coding实现：

from sklearn import pipeline
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression

# PolynomialFeature->多项式特征扩展器，里面填扩展的最高次数
model=pipeline.make_pipeline(preprocessing.PolynomialFeature(10),
                            LinearRegression())
model.fit(x_train,y_train)
result=model.predict(x_test)

3.岭回归与Lasso回归

损失函数计算的是一个样本上的误差

代价函数计算的是整个数据集上的误差，可以理解为多个损失函数之和

Lasso回归

使用多项式回归，如果多项式最高次项比较大，模型就容易出现过拟合，正则化是一种常见的防止过拟合的方法，一般原理是在损失函数后面加上一个对参数的约束项，这个约束项叫做正则化项（regularizer），在线性模型回归中，通常有两种不同的正则化项：

1.**L1正则化：**加上所有参数（不包括0次项）的绝对值之和，即L1正则化，此时叫做Lasso回归

2.**L2正则化：**加上所有参数（不包括0次项）的平方和，即L2正则化，此时叫做岭回归
损失函数图像（选择直线方程进行优化）

假设直线方程： $\hat{h}_{\theta} = \theta_0 + \theta_1 x$ ，该方程只有一个特征x，两个参数 $\theta_0,\theta_1$

对应的损失函数 $J(\theta) = \frac{1}{m} \sum_{i=1}^{m}{(\theta_0 + \theta_1 x^{(i)} - y^{(i)})^2}$ ，该代价函数为均方误差（MSE），其中m是样本量，去一个样本点（1,1）带入上述损失函数，可得 $J(\theta)=(\theta_0+\theta_1-1)^2$ ，该式是一个一元二次方程，可以画出其三维空间图（由于多个样本点的损失函数式所有样本点损失函数之和，且不同样本点只是相当于改变了损失函数中两个变量的参数，因此多样本的损失函数MSE图像只会在下图发生缩放和平移，不会发生过大的形变）

使用 $J$ 轴表示蓝色轴线，上方为正向

$\theta_1$ 表示红色轴线，左边为正向

使用 $\theta_0$ 表示绿色轴线，指向屏幕外的方向为正向.
正则化的图像（以L1正则化为例）

$J(\theta) = \frac{1}{m} \sum_{i=1}^{m}{(\theta_0 + \theta_1 x^{(i)} - y^{(i)})^2} + \lambda ||\theta_1||_1$ ， $\lambda$ ，是正则化项的参数，此处取1（为了方便），由于正则化项不包含截距项（0次项），此时的L1正则化相当于参数 $\theta_1$ 的绝对值，其图像如下：

将两张图片重合，可得到下图：

两个方程相加后，即 $J(\theta)=(\theta_0+\theta_1-1)^2+|\theta_1|$ ，可得到一下图像：

公式 $J(\theta)=(\theta_0+\theta_1-1)^2+\lambda|\theta_1|$ ，在第一项的值非常小，但第二项额值非常大的区域，这些值会受到正则化的巨大影响，从而使这些区域的值与正则化项近似，例如，原来的损失函数 $\theta_0=-\theta_1$ ， $J$ ，轴方向上的值始终为0，但是假如正则化项 $J=|\theta_1|$ 后，该直线原来上为0的点都变成了 $\theta_1$ 的绝对值，这就像和加权平均一样，哪一项的权重越大，对最终结果产生的影响也越大
想象一种极端情况：在参数的整个定义域中，第二项的取值都远远大于第一项，那么最终的损失函数几乎由第二项决定，也就是整个代价函数的图像会非常类似于 $J=|\theta_1|$ ，而不是原来的MSE损失函数，这就相当于在 $\lambda$ 取值过大的情况，最终的全局最优解都将会是坐标的原点

岭回归

岭回归与多项式回归的不同在于代价函数上的差别，岭回归的代价函数如下：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}{(y^{(i)} - (w x^{(i)} + b))^2} + \frac{\lambda}{2} ||w||_2^2 = \frac{1}{2}MSE(\theta) + \frac{\lambda}{2} \sum_{i = 1}^{n}{\theta_i^2} \ \quad \cdots \ (1 - 2)$

其中w是长度为n的向量，不包括截距项的系数 $\theta_0$ ； $\theta$ 是长度为n+1的向量，包括截距项的系数 $\theta_0$ ，m为样本数，n为特征数
可以看到岭回归的正则项是L2正则

4.决策树

核心思想：相似的输入必定会产生相似的输出
从训练样本中选择第一个特征进行子表划分，使每个子表中该特征的值全部相同，然后再在每个子表中选择下一个特征，按照同样的规则继续划分更小的子表，不断重复直到所有的特征全部使用完为止，此时便得到叶级子表，其中所有样本的特征值全部相同，对于待测样本，根据其每一个特征的值，选择对应的子表，逐一匹配，直到找到与之完全匹配的叶级子表，用该子表中样本的输出，通过平均（回归）或者投票（分类）为待测样本提供输出

随着子表的划分，信息熵（信息的混乱程度）越来越小，信息越来越纯，数据越来越有序
coding实现

import sklearn.tree as st

# 创建决策树回归模型，max_depth表示数的最大深度
model=st.DecisionTreeRegressor(max_depth=4)
model.fit(x_train,y_train)
result=predict(x_test)

工程优化

不必用尽所有的特征，叶级子表中允许混杂不同的特征值，以此降低决策树的层数（深度），在精度牺牲可以接受的前提下，提高模型的性能，通常情况下，优先选择使信息熵减少量最大的特征作为划分子表的依据

集合算法

根据多个不同模型给出的预测结果，利用平均（回归）或者投票（分类）的方法，得出最终预测结果
基于决策树的集合算法，就是按照某种规则，构建多棵彼此不同的决策树模型，分别给出针对未知样本的预测结果，最后通过平均或者投票得到相对综合的结论

正向激励

首先为样本矩阵中的样本随机分配初始权重，由此构建一颗带有权重的决策树，在由该决策树提供预测输出时，通过加权平均或者加权投票的方式产生预测值，将训练样本带入模型，预测其输出，对那些预测值与实际值不同的样本，提高其权重，由此形成第二棵决策树，重复以上过程，构建出不同权重的若干棵决策树

coding实现

import sklearn.tree as st
import sklearn.ensemble as se

# 创建决策树模型
model=st.DecisionTreeRegressor(max_depth=4)
# 自适应增强决策树回归模型 n_estimator:构建XXX棵不同权重的决策树，训练模型
model=se.AdaBoostRegressor(model,n_estimators=400,random_state=7)
model.fit(x_train,y_train)
result=model.predict(x_test)

特征重要性

作为决策树模型训练过程的副产品，根据每个特征划分子表前后的信息熵减少量就标志了该特征的重要程度，此纪委该特征重要性指标，训练得到的模型对象提供了feature_importance_来存储每个特征的重要性
```
model.fit(x_train,y_train)
feature_importance=model.feature_importance_
```

自助聚合

每次从总样本矩阵中以有放回抽样的方式随机抽取部分样本构建决策树，这样新城多棵包含不同训练样本的决策树，以削弱某些强势样本对模型预测结果的影响，提高模型泛化能力

随机森林

在自助聚合的基础上，每次构建决策树模型时，不仅随机选择部分样本，而且还随机选择部分特征，这样的集合算法，不仅规避了强势样本对预测结果的影响，而且也削弱了强势特征的影响，提高模型的泛化能力

coding实现

import sklearn.ensemble as se

# 构建随机森林模型，max_depth：决策树最大深度
# n_estimators：构建的决策树数量
# min_sample_split：子表中最小样本数，若小于这个数字，则不再向下拆分
model=se.RandomForestRegressor(max_depth=10,n_estimators=1000,
                               min_samples_split=2)

5.分类模型

逻辑分类

通过输入的样本数据，基于多元线性回归模型求出线性预测方程：

$y=w_0+w_1x+w_2x$

但是，通过线性回归方程返回的是连续值，不可以直接用于业务模型，所以需要一种方式将连续的预测值变成离散值（只有两个类别，通常是1,0）

逻辑函数（sigmoid）： $y=\frac{1}{1+e^{-x}}$ ，（一个十分经典的激活函数 activation function），该逻辑函数，当x>0时，y>0.5；当x<0时,y<0.5，可以实现将连续的输入值转化为(0,1)区间上的值，选择概率大的类别作为分类预测结果，是线性函数非线性化的一种方式
coding实现：

import sklearn.linear_model import LogisticRegression

# 构建逻辑回归器
# solver：逻辑函数中指数的函数关系（liblinear为线性函数关系）
# C：正则强度，C越大，拟合效果越小，范性越好
model=LogisticRegression(solver='liblinear',C=正则强度)
model.fit(x_train,y_train)
result=model.predict(x_test)

朴素贝叶斯分类

朴素贝叶斯分类是一种依据概率理论实现的分类方式
贝叶斯定理（公式）： $P (A ∣ B) = P (B ∣ A) P (A) P (B)$
$P (A, B) = P (A) P (B ∣ A) = P (B) P (A ∣ B)$
例子：假设一个学校里有60%男生和4 0%女生.女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子.一个人在远处随机看到了一个穿裤子的学生.那么这个学生是女生的概率是多少?
```
P(女) = 0.4
P(裤子|女) = 0.5
P(裤子) = 0.6 + 0.2 = 0.8
P(女|裤子) = P(裤子|女) * P(女) / P(裤子) = 0.5 * 0.4 / 0.8 = 0.25
```

coding实现：

from sklearn import naive_bayes

model=naive_bayes.GaussianNB()
model.fit(x_train,y_train)
result=model.predict(x_test)

6.数据集划分

对于分类问题，训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据，而应该在其每一个类别的样本中抽取特定百分比作为训练数据，sklearn模块提供了数据集划分的相关方法，使用不同数据集或训练集，达到提高分类可信度

from sklearn.model_selection import train_test_split

训练输入，测试输入，训练输出，测试输出=train_test_split(数据集，输出集，test_size=测试集占比,random_state=随机种子)

交叉验证

由于数据集的划分有不确定性，**若随机划分的样本正好处于某类特殊样本，则得到的训练模型所预测的结果可信度降低，**所以需要进行多次交叉验证，把样本空间中的所有样本均分成n份，使用不同的训练集训练模型，对不同的测试集进行测试时输出指标得分

from sklearn.model_selection import cross_val_score

指标值数组=cross_val_score(模型，输入集，输出集，cv=折叠数，scoring=指标名)

交叉验证精度指标：

1.精确度（accuracy）：分类正确的样本 / 总样本数

2.查准率（precision_weighted）：针对每一个类别，预测正确的样本数 / 预测出来的样本数

3.召回率（recall_weighted）：针对每一个类别，预测正确的样本数 / 实际存在的样本数

4.f1得分（f1_weighted）：2x查准率 x 召回率 / （查准率 + 召回率）

交叉验证

由于数据集的划分有不确定性，**若随机划分的样本正好处于某类特殊样本，则得到的训练模型所预测的结果可信度降低，**所以需要进行多次交叉验证，把样本空间中的所有样本均分成n份，使用不同的训练集训练模型，对不同的测试集进行测试时输出指标得分

from sklearn.model_selection import cross_val_score

指标值数组=cross_val_score(模型，输入集，输出集，cv=折叠数，scoring=指标名)

交叉验证精度指标：

1.精确度（accuracy）：分类正确的样本 / 总样本数

2.查准率（precision_weighted）：针对每一个类别，预测正确的样本数 / 预测出来的样本数

3.召回率（recall_weighted）：针对每一个类别，预测正确的样本数 / 实际存在的样本数

4.f1得分（f1_weighted）：2x查准率 x 召回率 / （查准率 + 召回率）
在交叉验证过程中，针对每一次交叉验证，**计算所有类别的查准率、召回率或者f1得分，然后取各类别响应指标值的平均值，作为这一次交叉验证的评估指标，**然后再将所有交叉验证的评估指标以数组的形式返回给调用者

你可能感兴趣的:(小白的机器学习（Mechine Learning）笔记)

复杂场景检测老翻车？陌讯算法实测提升 40% 2501_92453489 算法视觉计算机视觉视觉检测
在工业质检、安防监控等计算机视觉落地场景中，工程师常面临棘手问题：传统算法在光照突变、目标遮挡等复杂环境下，漏检率高达20%以上，泛化能力不足成为项目落地的最大阻碍。而陌讯AI视觉算法通过架构创新，正在重新定义复杂场景下的检测精度标准。技术解析：从单模态到多模态的跨越传统目标检测模型多依赖单一RGB图像输入，在特征提取阶段容易受环境干扰。以经典的FasterR-CNN为例，其区域提议网络（RPN）
为什么说永远也不要考验人性孤_b0d8
很多著名的实验都告诉我们一个道理，人性经受不住考验。在《ThePush》这档真人秀中，达伦布朗选择了四名没有犯罪前科，没有情绪问题的正常人当小白鼠，作为试验对象，看能不能在72小时把他们变成一个杀人犯。结局很让人震惊，四个实验对象，三个人都成为了“杀人犯，”仅仅只是72个小时，就能让一个正常人变成杀人犯，让人不寒而栗。在实验开始的时候，通过一个小小的测试，达伦布朗选择了4名顺从度高的人，并告知他们
与谁相约妖精欣儿
看到这周的主题是《见面》，我瞬间愣住，脑子思绪万千，在这诺大的城市，有什么人是许久不见，甚是想念的？回想这些年，每天除了工作就是家庭与孩子，唯一的娱乐项目就是看小说，即使与人聊天，也脱离不开工作、家庭、孩子，偶尔加点女性话题点缀。在孩童时代，羡慕大人们可以不用上学做作业，可以想去哪就去哪里，可以去很多城市见识不同的风景，而自己长大成人后，才知道,才知道成人了，每天需要考虑家里的油盐酱醋茶是否还有，
人生中的第一篇博客——梦开始的地方爱和冰阔落经验分享笔记
文章目录前言`一、自我介绍二、编程目标1.扎实掌握C语言2.深度挖掘C++三、编程学习时间的花费四、梦寐以求的大厂offer前言`写一篇博客记录自己从一直知道CSDN这个软件到自己真正开始用它写一篇博客来开启记录记录学习生活的风景提示：以下是本篇文章正文内容，下面案例可供参考一、自我介绍大家好！我是一名大一网络工程专业的小萌新，踏入编程世界的时间不长，目前只能算是刚入门的水平。虽然现在还只是“小小
查看环境配置井底蛙蛙呱呱呱
忘了转自哪里了。。。系统#uname-a#查看内核/操作系统/CPU信息#head-n1/etc/issue#查看操作系统版本#cat/proc/cpuinfo#查看CPU信息#hostname#查看计算机名#lspci-tv#列出所有PCI设备#lsusb-tv#列出所有USB设备#lsmod#列出加载的内核模块#env#查看环境变量资源#free-m#查看内存使用量和交换区使用量#df-h#查
cf1925B&C
B.https://codeforces.com/contest/1925/problem/B题目背景：将x划分为n个数，使x个数字之间有最大的gcd。数据范围：1#defineiosccios::sync_with_stdio(false),cin.tie(0),cout.tie(0)#defineendl'\n'#defineme(a,x)memset(a,x,sizeofa)#definea
lesson17：Python函数之递归、匿名函数与变量作用域
目录引言一、递归函数：用自身解构复杂问题1.递归的基本结构2.递归的典型应用场景3.递归的优缺点与优化二、匿名函数：用lambda实现“一句话函数”1.lambda与普通函数的区别2.lambda的典型应用3.lambda的局限性三、变量作用域：理解LEGB规则1、LEGB规则的深度解析（1）Local（局部作用域）（2）Enclosing（嵌套作用域）（3）Global（全局作用域）（4）Bui
新手发小红书笔记怎么赚钱?新手小红书赚钱攻略详解日常购物技巧呀
小红书作为一个社交分享平台，用户在这里可以搜集到各种各样的干货，帮助他们解决生活中的问题。如果有这方面经验的用户，可以在小红书上面注册账号，分享一些干货，运气好的话也可以进行变现赚钱，那么如何做小红书赚钱？大家好，我是高省APP联合创始人万方导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能赚钱有收益的平台，
英超直播：纽卡斯尔联队十年前五名，球迷们难忘的时刻体育日记本
在过去的十年里，纽卡斯尔联队创造了许多特别而难忘的时刻，但是在这十年里，我们对俱乐部最美好的回忆是什么？过去的十年在卡通军心中引发了一场情绪的过山车。纽卡斯尔联队成功跻身前五，并在同一个十年经历了两次降级。从在圣詹姆斯公园听到欧罗巴联赛的圣歌，到在冠军路上迎战普利茅斯阿盖尔，一点都不好玩。尽管如此，在所有的低潮时刻，这十年确实包含了一些令人难忘的时刻，纽卡斯尔联队的球迷可以在未来几年与年轻一代分享
初二尘埃不确定
回娘家，不知道是中国人的习俗，还是北方人的习俗。和爸妈弟弟吃罢中午饭，开车两个小时回到了老婆娘家，中途去县城三姨家坐了一会儿。后山就是比城市里冷的多，气温很低，下了点雪，风不大。家里来了很多亲戚，晚辈给长辈拜年，到处跑，到了哪里那里就特别热闹。
精彩纷呈宋王朝（第三部，第十三章，第九节）司马吹风
第十三章奸臣的黑暗年代第九节清余毒秦桧弄权，赵构其实洞若观火、心如明镜，只不过，赵构的底线是，相权决不能威胁皇权，而秦桧也深谙个中深浅，始终不敢踩红线，因此赵构对秦桧的种种弄权行为，采取睁一只眼闭一只眼的态度。秦桧弄权，无非从两个方面着手，一是提拔自己亲信，二是打击自己政敌。秦桧推荐提拔亲信，赵构为照顾秦桧脸面，几乎一概予以批准；秦桧打击政敌，无外乎打着政敌诽谤朝廷，怨望君主等旗号，赵构不得不批准
lesson11：Python的字典及方法你的电影很有趣 windows python
目录前言一、字典的定义与核心价值创建方式：二、核心特性：键的规则与无序性演变1、键的不可变性与唯一性2、无序性与Python版本差异三、常用操作与方法全解析四、与列表/元组的对比：数据结构选型指南五、高级应用技巧六、避坑指南：常见错误与最佳实践总结前言在Python的“数据结构工具箱”中，字典（Dictionary）无疑是最灵活、最强大的工具之一。无论是存储用户信息、解析JSON数据，还是实现缓存
无题唐春元ok
北方的雪美了冬天南方的夜暖了骄阳我在南方守着一寸夕阳思念家乡，多了惆怅雪是我来到这个世界第一眼遇见的光芒。就在今天我哇哇落地家乡也美美的下了一场雪只是不知南方当时的融融暖意。图片发自App图片发自App
你在羡慕别人的时候，别人也在羡慕你小火慢炖
昨天听闺蜜诉说自己的委屈，突然发现我们都在羡慕着别人拥有的东西，却不知道这世界上还有很多人在羡慕我们。闺蜜跟自己家人吵架，生气跑出门，在外面待了三个小时。她哭着说，为什么家人总是不理解他？她觉得自己的生活有点悲惨。其实在我看来，她有房有车，有疼爱自己的老公，还有一个可爱的孩子。生活已经很幸福了，不过当然，再幸福的生活也免不了琐碎的事情，磕磕绊绊。这些都是非常正常的，但是大多数人都会存在在这样一个循
雪落无声，你的动静打扰了我们 VickyLi_文丽
早上起来，外面路上铺满了白色的雪花，来到学校白茫茫一片，孩子们很高兴。在第二节课后阳光活动，由于天气原因，没法进行跑操，所以有的班依然在上课。我在二班上课，隔壁的三班机几个男生大声喊叫，大声吵闹。我作为班主任赶紧回班看看发生了什么事情？原来，我们班孩子在没有老师的情况下，跃跃欲试，要出去玩雪。本身，喜欢玩耍是孩子的天性，如果是平时，出去玩也没事情。可是偌大的走廊上，另外的班在上课，只有我们班在吵闹
C语言实现扫雷游戏：从经典玩法到代码构建
文章目录C语言实现扫雷游戏：从经典玩法到代码构建一、游戏简介：经典玩法回顾二、扫雷游戏的设计与实现2.1整体设计思路与技术选型核心技术栈多文件分工2.2棋盘设计：核心数据结构棋盘尺寸与扩展设计双棋盘机制2.3核心功能实现1.棋盘初始化与打印2.随机布置地雷3.地雷排查与数字计算2.4游戏流程控制4.排查逻辑完整实现三、功能扩展：提升游戏体验四、总结C语言实现扫雷游戏：从经典玩法到代码构建扫雷作为一
感恩疫情期间，依然可以看见阳光 Tina与你同行
女儿佳琳一路小跑着来到我的工作室，边跑边说，快把手机给我：“我一定要把这美丽的一幕拍下来。”原来是撒落在客厅里的阳光。她要在阳光驻足的时候把它留住。过了一会，她拿来这张照片给我看。她趴在被照亮的沙发一角，小脸紧贴着深蓝色的沙发面，放松得裹在暖阳里，露出灿烂的笑容。看着好温暖。感谢女儿让我留意到温暖的阳光，还有任何情况下都可以嘴角上扬的微笑。疫情基本不出门，享受不到户外的阳光。可是，太阳就在那里。它
【1107】说写让人生更精彩杜香开花2008
课堂践行说写共121天，每天学生只需5-10分钟就可以说写一篇文章。但是收获却很大，坚持下来的学生都有了自己人生的第一本文集。新学期开学我将是一名四年级语文教师，从2021年12月接触喜悦说写，立即在班级践行，我每天会在群里发一个主题，说明“说写”要求，比如内容、字数等，第一个学期我教五年级二班，共践行说写55天，学生每人每天一篇说写，到过完春节新学期即将开学时。我发出说写文集整理的具体要求，比如
蒲公英仰望记（136）我的人间四月天白露霜花
你是爱，是暖，是希望。你是人间的四月天。____题记爸妈的爱从我呱呱坠地的那一刻起，就如四月的阳光和煦地走进我的心灵，照亮我的人生。老公的爱从我们相识的那一刻起，就如四月的春风款款走进我的心灵，温暖我的日子。朋友的爱从我们相交的那一刻起，就如四月的春雨淅淅沥沥走进我的心灵，湿润我的心田。小时候体弱的我总是多得到爸妈一些疼爱，每次下地爸妈都分一些轻的给我，从不白眼我干不过姐姐妹妹。大学报到正赶上爸爸
keil5中添加stc单片机芯片包（附加C51文件夹的添加）彳亍独䓷单片机嵌入式硬件
用到这个软件双击打开软件打开keil查看注意（若添加成功下面就可以忽略了）：C51文件夹其实存放的是STC公司的芯片库(以下附上C51文件夹的添加方式)：KeilProductDownloads（点击进入官网）双击安装包（一般情况下一直点击next就好），检查是否成功安装
sshpass原理详解及自动化运维实践
什么是SSHpass？SSHpass是一个用于非交互式SSH密码验证的工具，它能够通过命令行直接提供SSH密码，从而绕过交互式密码输入提示。这在自动化脚本和批处理操作中尤为有用。工作原理SSHpass的工作原理可以概括为以下几个关键点：密码传递机制：SSHpass通过命令行参数、环境变量或文件等方式接收密码伪终端模拟：它模拟一个伪终端（pseudo-terminal）来与SSH客户端交互自动响应：
深度学习超参数优化（HPO）终极指南：从入门到前沿
摘要：在深度学习的实践中，模型性能的好坏不仅取决于算法和数据，更在一半程度上取决于超参数的精妙设置。本文是一篇关于超参数优化（HyperparameterOptimization,HPO）的综合性指南，旨在带领读者从最基础的概念出发，系统性地梳理从经典到前沿的各类优化方法，并最终落地于实用策略和现代工具。无论您是初学者还是资深从业者，都能从中获得宝贵的见解。第一部分：夯实基础——HPO的核心概念1
Conda 核心命令快速查阅表拉拉拉拉拉拉拉马 conda
本表旨在提供一个简洁、高效的Conda命令参考，专注于最常用功能的快速查找。1.环境管理(EnvironmentManagement)功能(Function)命令(Command)示例(Example)创建新环境condacreate-n[packages...]condacreate-nmyenvpython=3.9pandas激活环境condaactivatecondaactivatemyen
Apple设备双重认证-获取验证码 fb69e982796d
方式1.在新设备上登录appleid和密码登录，在其他信任的设备上会出现登录通知，轻点”允许“以接受验证码，在这台新设备上输入这个验证码登录即可方式2.若身边无可信任设备，点按登录屏幕上的”没有收到验证码吗“，选择将验证码发送到受信任的电话号码，apple将通过短信或者电话向您提供验证码。新设备输入此验证码以完成登录。方式3.从受信任设备上的“设置”获取验证码。如果无法在受信任设备上自动收到验证码
使用 Git 结合 GitHub 管理代码 - Autodl（笔记）
核心目标：在AutoDL服务器上方便地获取、修改和同步代码。利用GitHub作为中央代码仓库，实现版本控制、备份和协作。保持本地开发环境（如果有的话）与AutoDL服务器环境的代码同步。全流程步骤：阶段一：准备工作(在本地和GitHub上)拥有GitHub账户:如果没有，先去GitHub官网注册一个账户。创建GitHub仓库(Repository):登录GitHub。点击右上角的"+"号，选择"N
【嘟嘟嘀嘀】20180223学习力践行D136 嘟嘟嘀嘀
今天年初八，我们从老家开车回来广东，一路都有交通事故，所以一路都有塞车，总共开了8个来小时，时间比较长，宝宝在车上总体也算好，就是堵车的时候他也比较烦躁，会哭闹一下，烦躁时我们会念念手指谣，听听音乐，他的心情就会好些。回来家里，睡前也看了《蹦》、《语言启蒙》红本。
复盘，温故而知新 yang40
———————今日复盘———————回顾本周的学习写作，请谈谈你的收获和反思【我的技能】本周学习，对之前已经学习一次的写作技巧，又在此复习一遍，如何开头，如何结尾，有了新体验和新想法。【我要发问】本周所学内容中，你有哪些不会的呢？如何系统的输出干货，如何让自己不断积累，找到适合自己的速度和方法，坚持的动力是什么？【我的闪光点】本周你做的好的地方？继续早起，并且开始自由写作，对自由写作有新的认识，和
六项精进打卡11天王尚涛
每日打卡模板姓名：王尚涛公司：为福投资控股集团【日精进打卡第11天】【知～学习】《六项精进》纲要读1遍，共17遍《大学》读1遍共11遍《论语》第12-24页【经典名句分享】付出不亚于任何人的努力；要谦虚不要骄傲；每天都要反省；活着，就要感谢；积善行，思利他；不要有感性的烦恼；若无相欠，怎会相见；人不知而不愠，不亦君子乎；命由我作，福自己求；小人闲居为不善。言不及之而言谓之躁，言及之而不言谓之隐，未
【PTA数据结构 | C语言版】将表达式树转换成中缀表达式
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，读入两个操作数和一个操作符，建立表达式树，输出中缀表达式。输入格式：输入给出2个整数和一个字符，依次为表达式的第1、2个操作数，和操作符。输出格式：在一行中输出中缀表达式，其中左右子表达式各用一对圆括号()括起，两对括号中间输出操作符。表达式中没有任何空格。输入样例：12+输出样例：(1)+(2)代码#include#incl
2024必入的现象级流量卡推荐！电信卡移动联通卡推荐~移动联通电信流量卡电话卡手机卡全面评测！优惠攻略官
拯救每一个想办流量卡的姐妹作为一个长期和各种流量卡打交道的人，我深知大家在选择流量卡时的疑虑和困扰。市面上的流量卡五花八门，让人眼花缭乱，那么，哪些才是真正靠谱的流量卡呢?✨在我看来，一个靠谱的流量卡应该具备以下几点：运营商授权:这是最基本的一点，正规流量卡都是有运营商授权的，大家在购买的时候一定要注意查看价格合理:正规的手机套餐价格都比较合理，不会出现4.9、这样的小数价格。功能齐全:靠谱的流量
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

小白的机器学习（Mechine Learning）笔记

小白的机器学习（Mechine Learning）笔记

文章目录

一.数据的处理

相关库的使用

1.均值移除（标准化）

2.范围缩放

3.归一化

4.二值化

5.独热编码

6.标签编码

二.模型

1.线性回归

2.多项式回归

3.岭回归与Lasso回归

Lasso回归

岭回归

4.决策树

工程优化

集合算法

正向激励

特征重要性

自助聚合

随机森林

5.分类模型

逻辑分类

朴素贝叶斯分类

6.数据集划分

交叉验证

交叉验证

你可能感兴趣的:(小白的机器学习（Mechine Learning）笔记)