li123chen

python大战机器学习（读书笔记）

第一章线性模型

逻辑回归与线性回归

理论

回归分析：回归分析的本质是函数估计的问题（包括参数估计和非参数估计），依据因变量的联系或离散分为回归或者分类，是一种有监督学习方法。
广义线性模型：拟合的是关于y的可导函数，如逻辑回归，拟合的就是y的ln函数。
线性回归求解的两个表示：用最小化均方误差和基于高斯分布的极大似然估计求解线性回归，其结果是一样的（在线性回归中假设Y|X服从高斯分布，而逻辑回归服从伯努利分布）。线性回归是一种特征线性加和就能得到最终结果的模型。
逻辑回归：因为普通线性模型的因变量是连续的，所以想法是将其转化为离散的，直观想法是阶跃函数，而阶跃函数不可导，所以选取对数概率函数 $\vec { x } ) = \frac { 1 } { 1 + e ^ { - z } } \quad , z = \vec { w } \cdot \vec { x } + b$ 。逻辑回归是伯努利分布的极大似然估计。
逻辑回归的参数估计：1、极大似然估计；2、交叉熵损失函数最小。
选取sigmod函数的原因：符合利用指数分布族求广义线性模型中推导出来的结果，
使用梯度下降法要进行特征归一化。两个好处：提升收敛速度，提升模型精度。
最小二乘的求解，当 $\overrightarrow { \boldsymbol { x } } ^ { T } \overrightarrow { \boldsymbol { x } }$ 的逆不存在时，解析解无法求解，此时，加入正则化项。
熵：描述是一种自信息量（对 A事件中随机变量进行编码的最小字节数）
KL散度：计算两个分布之间的不同，但不具备对称性。（采用B的编码来表示A所需要的额外字节数）
交叉熵：KL散度=交叉熵-熵（使用B的编码来表示A所需的平均字节数），用来表示学习模型的分布于训练数据分别的不同。也是似然函数的极大化。

线性判别分析（LDA）

理论

先找到两个分类的均值点，再进行投影。
类内散度矩阵：两个分类的协方差矩阵之和，
类间散度矩阵：两分类之差也它的外积。
import matplotlib.pyplot as plt
plt.figure():创建一个画板，在不同的画板上面绘制不同的图片，参数，figsize facecolor
plt.

第二章决策树

决策树：是一种贪心算法，也是一种基于条件概率分布的进行判断的方法。
三个步骤：特征选择、决策树生成、决策树剪枝
决策树构建：将加入正则化项的极大似然函数作为损失函数

特征选择

以局部最优特征选择后分隔的纯度最高为标准，一般的判断方法有基尼指数、熵（基于分类）和方差（基于回归）。

信息量：一种衡量信息大小的单位（类似秒）

要求：随着概率的增加而减小；两个独立的信息的信息量是和的关系。符号的原因是保证信息量要为正的，底数是2是为了保持和信息论一致。

信息熵

信息量是一个具体事件发生带来的信息，信息熵是结果出来之前对可能产生的信息量的期望。
熵的意义是混乱程度，期望是均值的大小，所以信息熵是每个事件的信息量与所有信息量均值的偏离程度。

条件熵

在给定条件X下，Y的条件概率分布 的熵对X的数学期望。即已知X的条件下随机变量Y的不确定性。

信息增益

信息熵-条件熵

信息增益比

信息增益对种类多的特征有偏向，因此选择信息增益比。以信息增益比上特征的熵（不是信息熵），刻画的其实是对数据集的辨认能力，因为种类越多特征的信息熵越大。

决策树生成

二者的区别：ID3利用信息增益，C4.5利用信息增益比。还有一些编程实现上的区别。
二者的缺点：只有生成没有剪枝。

决策树的剪枝

通过极小化损失函数来实现。即将叶结点的熵进行累加，然后加以正则化项。

分类和回归树（CART)

分为两步：决策树生成；决策树剪枝
回归生成树利用平方误差最小化，分类生成树利用基尼指数最小化策略。是一颗二叉树。

CART剪枝

分为两步：从底部不断剪枝，获得一系列决策树；使用交叉验证法来选择最好的那颗。

连续值和缺失值（均用在C4.5中）

连续值的处理：将M个连续值按照间隔分为M-1个划分点，将离散点作为划分特征进行处理。
缺失值的处理：将增益进行修正。

第三章贝叶斯分类器

利用先验概率，通过贝叶斯公式，计算出后验概率，选择后验概率最大的类别。
主要特点：属性可以离散，可以连续；效率比较稳定；对噪声和缺失数据不太敏感；数据不相关时，分类效果好，数据相关时，分类效果不低于决策树。

先验概率

根据以往的经验或数据分析得到的概率。

后验概率

根据本次实验得到的信息修正后的概率。（由果求因）
后验概率是一种条件概率，它限制了目标条件为隐变量取值，而其中的条件为观测结果。
计算的是在已知事件B发生的情况下，事件A发生的概率，二者是有先后关系的，即A在前，B在后。

条件概率

由因求果,事件A与B可能不存在关系。

概率与统计

概率：已知模型和参数，推测结果
统计：已知结果，推测模型和参数

最大似然估计

存在一个唯一确定的参数，等同于经验风险最小化。

最大后验估计

参数服从一个分布。等同于结构风险最小化，在贝叶斯中，结构就是指先验概率，以硬币和奥卡姆剃刀为例，在结构中，越简略的模型越可能发生。而硬币则是大部分硬币是0.5，给出了限制。

朴素贝叶斯

参数估计是极大似然估计
做决策是极大后验概率估计

第四章 k近邻法

利用训练数据集对特征向量空间进行划分，并且作为其分类的模型。
KNN三要素：K值的选择，距离度量和分类决策规则（取均值的决策规则）
K值减小：相当于模型复杂，容易过拟合。
K值加大：减小了估计误差

K值的选择

常用于交叉验证法选择误差最小的。

距离度量

KNN要求一定要做归一化处理，且将类别特征转化为数值特征。

分类决策规则

经验风险最小化

K近邻算法

不存在显式的训练过程，只是将训练数据保存在内存中，当遇到测试数据时再进行训练。

KD树

为加快训练的速度，采用KD树。
以每一个特征作为一个轴，以特征中值作为轴中心，进行划分，不断切分，形成样本空间的一个划分。当将所有特征划分完毕后，继续划分，直到两个子空间中不再有样本存在时，划分停止。此时得到KD树。

第五章数据降维

降维的目的

减少冗余信息所造成的误差，提高模型精度。得到降维后的坐标数据

降维的手段

通过映射方法将高维数据映射到低维数据

维度灾难

高维情况下造成的数据稀疏以及距离难以计算

降维效果估计

通过降维前后交叉验证

降维坐标轴的选择

基于降维之后的样本重构时，尽量与原始样本相近。

低维空间维数d的选取

1、交叉验证选择
2、设置特征值阈值

PCA的两个原则

1、最近重构性：重构后与原来样本距离最下
2、最大可分性：投影后样本尽量分开
事实证明，二者等价。

PCA的奥义

目的：把数据从N维降到K维
手段：选取K个正交基，使得投影之后的数据，两两之间协方差为0，方差最大。

SVD

和PCA一样是求协方差矩阵的特征值和特征向量。

流形学习降维

假设数据嵌套在一个欧式空间构成的流形上，其共性是需要构造流形的局部邻域结构，然后利用这些结构将样本点全部映射到低维空间上。

多维缩放降维（MDS)

要求原始样本间的距离在低维空间仍然保持。

等度量映射降维（ISOMAP）

第六章聚类和EM算法

聚类的作用：探索数据间隐含的关系，寻找数据的分布规律。将数据聚集到不同的簇上，做数据的预处理。

聚类的有效性指标（性能度量）

外部指标：聚类结果与某个模型进行比较
内部指标：不参考外部模型

距离度量

有序属性：常用的闵氏距离，p=1时为曼哈顿距离，p=2时为欧式距离。
无序属性：VDM（刻画的是属性取值在各簇频率分布上的差异）

原型聚类（极为常用）

是指聚类结构能够通过一组原型刻画，原型是指样本空间中具有代表性的点。
常用方法有两类：K均值聚类和高斯混合聚类

高斯混合聚类

采用概率模型进行

密度聚类

聚类结构通过样本分布的紧密程度来确定。

层次聚类

在不同层上对数据集进行划分，形成树状的聚类结构。

EM算法

是一种迭代算法，用于含有隐变量的概率模型参数估计。

第七章支持向量机（最大间隔分类器）

核心：求最大最小点。即寻找一个分割面，样本点离分割面的最小距离是所有分割面中最大的。
$\arg \max _ { w , b } \left\{ \frac { 1 } { \| w \| } \min _ { n } \left[ y _ { i } \left( w ^ { T } x _ { i } + b \right) \right] \right\}$
将上式进行变形，可以写做
$\arg \max _ { w , b , \| w \| = 1 } \operatorname { margin }$
$\text { subject to } y _ { i } \left( w ^ { T } x _ { i } + b \right) \geq \operatorname { margin } , \forall i$
之所以构造出后续的形式，是为了转换为凸二次规划问题。

对偶问题的引入

更好地求解，也方便引入核函数，来解决非线性问题。

软间隔最大化

为每一个样本添加一个松弛变量。
最终形式与硬间隔一样，只是a的范围得到了限制。

核函数

将两向量映射成特征空间中两个向量的内积。
当选择的核是正定核时，仍是凸二次规划。
衡量两个向量的相似程度

SVM优缺点

对缺失点敏感，计算复杂度较高，因此多适应于小样本。超参数较多，只能用穷举法来计算，计算量较大。
只需少样本即可计算。可以解决非线性问题，高维，避免局部极小值，提高泛化性能。

第八章人工神经网络

神经网络理论上可以表示很复杂的函数、空间分布，但是真实的神经网络能否训练出完美合适的分隔位置还需要看网络初始值，样本容量和分布。
BP：误差逆传播
标准BP算法：多次迭代
累积BP算法：输入所有训练集以后再进行迭代
超参数：神经网络层数、每层的神经元个数
参数：阈值和权值

反向传播算法

每一个门单元在计算时只考虑：1、这个门的输出值。2、其输出值关于输入值的局部梯度。
链式法则：将这些计算出来的局部梯度从后往前进行相乘，即得到输出对输入的总梯度。
反向传播是门单元之间通过梯度信号相互通信，只要让输入沿着总梯度方向进行变化，无论自身输出值怎么变化，整个网络的输出值都是按照总梯度来变化的。
专用的门：sigmod函数，在神经网络中，有专用的门函数。
在实现的过程中，也是分段来实现，每次仅计算一个门的输出和局部梯度。可以在前向传播时记录中间变量，这样在反向传播时会节省计算资源。
矩阵反向传播的计算：1、利用链式求导法则；2、将变量视为标量来计算；3、使用维数相容来调整转置和前后顺序。

缺点

隐含层神经元个数需要测试，缺乏理论支持。
BP神经网络容易过拟合，实施两种策略。
早停策略：分为训练集和测试集，当训练集误差减小，测试集误差上升时，停止训练，返回误差最小的神经网络。
正则化：修改损失函数，添加正则化项。

第九章半监督学习

有标签数据远远小于无标签数据的数量，无标签数据和有标签数据一样，都是对同一分布独立重复采样得来的。
半监督学习：如何自动利用无标签数据提升学习性能的算法。

生成式方法

主要在于生成式模型的假设，不同的生成模型产生不同的方法。
优点：方法简单，易于实现。
缺点：需要生成式模型必须和真实的数据分布相吻合。

图半监督学习

顶点表示样本，边表示样本点相似程度。
标记传播方法：将未获得标签的样本通过标记传播的方法打上标签。

第十章集成学习

原来：弱可学习和强可学习是等价的，在发现弱可学习的前提下，可以通过方法来提升为强可学习。
用来提高泛化能力。
1、产生一组个体学习器；2、利用某种策略，将个体学习器进行结合。

个体学习器

有一定的准确性，且学习器之间要保证差异。

boosting 与 bagging

boosting（提升方法）：学习器之间有强依赖关系，必须通过串行生成。
bagging（自举汇聚法）:学习器之间弱依赖关系，可同时生成。

boost

多是通过改变训练集的权重，针对不同的训练集分布学习一系列分类器，然后将分类器进行加权结合。

adaboost（自适应增强）

权值调整：将分类错误的样本权重增大
分类器组合：将分类误差错误率较少的分类器权重增大，错误率较大的权重减小。
模型：加法模型
损失函数：指数函数
学习算法：前向分布算法

samme(adaboost的多分类方法）

提升树

以分类树或回归树为基分类器的提升方法。
仍表示为加法模型，基分类器为决策树模型，损失函数为平方损失函数（回归问题）或指数损失函数（分类问题）。
对每一层的残差进行计算，可以理解为增大了分类错误样本的权重。

GBDT

为何说GBDT是回归树，因为回归树才可以把叶结点相加。
GBDT分类方法：1、当损失函数是指数函数时，退化为adaboost；2、当损失函数是对数似然损失函数时，此时用预测概率值与真实概率的差作为损失来进行拟合。
其正则化的三种方法：1、即减小学习步长；2、采用不放回的子采样方式；3、对回归树进行剪枝。

XGBoost

核心：1、分裂特征的选择；2、叶子结点权重的确定
分裂特征的选择：可以用枚举法，XGboost采用了其他高效的方法
权重的确定：通过泰勒展开式二项来最小化结构损失函数。
能够自定义损失函数，只要一阶导数和二阶导数存在。
支持并行化（在分裂特征选择时）：同层级节点之间可以并行；节点内选择最佳分裂点、候选分裂点计算增益时可以并行。
针对稀疏数据的处理：
gi和hi各有N个需要计算（N为样本个数），但是每棵之间都有联系，这也是其能并行计算，且速度很快的原因。
通过确定树的结构来确定树的参数。
是通过对损失函数的近似求解析解

第十一章数据预处理

去除唯一属性、缺失值处理、属性编码、数据标准化正则化、特征选择、主成分分析

去除唯一属性

如id等属性，将其去除。

缺失值处理

直接使用含有缺失值的特征

如c4.5，有着直接处理缺失值特征的手段

删除含有缺失值的特征

当某一特征的属性大量缺失时，将此特征删除

将缺失值进行补全

均值插补

当特征属性可以量化时，采取均值插补；当特征属性不可量化时，采用众树插补。

用同类均值插补

将样本分类（层次聚类法），然后用同类均值插补

建模预测

将缺失的属性作为预测目标来预测

高维映射

将属性映射到高维空间，采用one-hot编码，将缺失值定为1.

多重插补

首先估计出待插补的值，然后加入噪声，形成不同的数据集，然后根据某种指标，从数据集上选择最合适的插补值。

压缩感知及矩阵补全

压缩感知：从部分信号中恢复原信号。

特征编码

特征二元化

将特征属性按照某一阈值进行分割，进行二元化，得到伯努利分布的特征属性。

独热编码

当属性是不可测量时，且不能被看成有序属性时，采用one-hot编码。
优点：能够处理非数值属性，编码后的属性是稀疏的。

数据正则化、标准化

标准化

将样本的属性缩放到某个特定的范围内。
数据标准化的两个原因：1、某些算法要求属性具有零均值和单位方差；2、样本不同属性具有不同的数量级时，消除数量级的影响。造成的影响（大数量级的属性将占有主要影响地位、梯度下降时迭代收敛速度减慢、所有依赖数据样本距离的算法将大受影响）。
min-max标准化：属性值被缩放到0-1之间。
z-score标准化：标准化后，均值为0，方差为1。

正则化

将样本的某个范数缩放到1，这样在使用二次型或核方法计算两个样本的相似性时，会很有作用。

特征选择

特征选择的原因：１、降低维数灾难；２、去除不相关的特征会降低学习任务的难度。
特征选择和降维技术是处理高维数据的两大手段。
特征选择的三类方法：过滤式(filter)、包裹式（wrapper)、嵌入式（embedding)

过滤式

先对数据集进行特征选择、再训练学习器。特征选择过程与后续学习效果无关。
方差选择法：计算各个特征的方差，选择大于阈值的方差加入特征集。
相关系数法：各个特征对目标值的相关系数及相关系数的P值。
卡方检验：考察自变量对因变量的相关性
互信息法：
Relief,一种根据样本间差异性进行过滤的方法。

包裹式

把最终要使用的学习器的性能作为特征子集的评价标准。缺点是要多次计算学习器，计算开销较大。

嵌入式和正则化

学习器训练过程中自动加入了特征选择。

稀疏表示和字典学习

字典学习：学习一个字典，通过该字典将样本转化为合适的稀疏表达方式。
稀疏编码：获取样本的稀疏表达（稀疏的好处：１、当矩阵高度稀疏时，问题很大可能转化为线性问题；２、节省空间）
通过映射获得稀疏矩阵，对稀疏矩阵的要求。（１、矩阵要足够稀疏；２、能够最大还原原始矩阵的信息）
Lasso求解：迭代优化求解。每次固定其中的一个变量，进行迭代优化计算。

基于模型的特征选择

在普通线性模型中，可以通过模型的系数来选择特征，然而在含有线性特征时，在出现噪声后，会受到很大的影响。（L1正则化与此同理）。
L2正则化会让系数选择的更为平均，如在L1正则化中出现的问题，L2会使其更为平均。且使用L2正则化之后，系数会更为稳定，较少受到噪声的影响。
基于树模型的特征选择：准确率高，鲁棒性好，易于应用。

第十二章模型评估选择与验证

离线评估：准确率、精确率-召回率
在线评估：用户生命周期价值、用户点击率、用户流失率

损失函数和风险函数

损失函数：单个样本的损失函数
风险函数：实际的风险（由于真实样本概率未知，因此不可求得）
经验风险函数：训练集在模型上的最小风险函数
结构风险函数：在经验风险的基础上加以惩罚项
极大似然估计就是经验风险最小化的例子：它以负对数作为损失函数。
最大后验概率估计是结构风险最小化的例子

模型评估方法

性能度量

ＰＲ曲线与ＲＯＣ曲线刻画的都是阈值对于分类器性能的影响。
测试准确率：测试数据集上的准确率
混淆矩阵：查准率、查全率
不同的问题中，判别标准也不同
P-R曲线：PR图可以很好地用来比较两个分类器的优劣。
平衡点：查准率等于查全率的点，通常认为较远时更为优异。
多类混淆矩阵：方法1：先计算ＰＲ再平均；方法2：先平均，再计算ＰＲ。
ＲＯＣ曲线：真正例率、假正例率

第十四章　kaggle 牛刀小试

基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
双均线量化策略实战指南：基于 iTick 外汇API、股票API报价源的 Python 实现算法pythonai开发
在量化交易领域，iTick报价API凭借其强大的多市场覆盖能力，已成为专业交易员的首选数据解决方案。其外汇API支持全球主要货币对（如EURUSD、GBPUSD）的毫秒级行情推送，包含Bid/Ask深度报价和实时波动率数据；股票API则覆盖A股、港股及美股市场，提供Level-2逐笔成交和十档盘口信息。通过统一的RESTful接口，开发者可轻松获取标准化的OHLCV数据，实现外汇、股票等多资产策略
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
蓝桥杯pythonB组备赛暴力执码蓝桥杯职场和发展
P1003[NOIP2011提高组]铺地毯题目描述为了准备一个独特的颁奖典礼，组织者在会场的一片矩形区域（可看做是平面直角坐标系的第一象限）铺上一些矩形地毯。一共有n张地毯，编号从1到n。现在将这些地毯按照编号从小到大的顺序平行于坐标轴先后铺设，后铺的地毯覆盖在前面已经铺好的地毯之上。地毯铺设完成后，组织者想知道覆盖地面某个点的最上面的那张地毯的编号。注意：在矩形地毯边界和四个顶点上的点也算被地毯
解决 Python 中 `cv2` 模块部分初始化导致的 `AttributeError` Leuanghing python 开发语言
解决Python中cv2模块部分初始化导致的AttributeError在Python开发中，尤其是使用OpenCV库进行图像处理时，可能会遇到一些令人困惑的错误。今天，我们就来探讨一个常见的错误：AttributeError:partiallyinitializedmodule'cv2'hasnoattribute'gapi_wip_gst_GStreamerPipeline'，并提供一个有效的
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

python大战机器学习（读书笔记）

第一章 线性模型

逻辑回归与线性回归

理论

线性判别分析（LDA）

理论

第二章 决策树

特征选择

信息量：一种衡量信息大小的单位（类似秒）

信息熵

条件熵

信息增益

信息增益比

决策树生成

决策树的剪枝

分类和回归树（CART)

CART剪枝

连续值和缺失值（均用在C4.5中）

第三章 贝叶斯分类器

先验概率

后验概率

条件概率

概率与统计

最大似然估计

最大后验估计

朴素贝叶斯

第四章 k近邻法

K值的选择

距离度量

分类决策规则

K近邻算法

KD树

第五章 数据降维

降维的目的

降维的手段

维度灾难

降维效果估计

降维坐标轴的选择

低维空间维数d的选取

PCA的两个原则

PCA的奥义

SVD

流形学习降维

多维缩放降维（MDS)

等度量映射降维（ISOMAP）

第六章 聚类和EM算法

聚类的有效性指标（性能度量）

距离度量

原型聚类（极为常用）

高斯混合聚类

密度聚类

层次聚类

EM算法

第七章 支持向量机（最大间隔分类器）

对偶问题的引入

软间隔最大化

核函数

SVM优缺点

第八章 人工神经网络

反向传播算法

缺点

第九章 半监督学习

生成式方法

图半监督学习

第十章 集成学习

个体学习器

boosting 与 bagging

boost

adaboost（自适应增强）

samme(adaboost的多分类方法）

提升树

GBDT

XGBoost

第十一章 数据预处理

去除唯一属性

缺失值处理

直接使用含有缺失值的特征

删除含有缺失值的特征

将缺失值进行补全

均值插补

第一章线性模型

第二章决策树

第三章贝叶斯分类器

第五章数据降维

第六章聚类和EM算法

第七章支持向量机（最大间隔分类器）

第八章人工神经网络

第九章半监督学习

第十章集成学习

第十一章数据预处理

第十二章模型评估选择与验证

第十四章　kaggle 牛刀小试