QQQiZZZ

MLAPP————第一章简介

个人说明：

本人是机器学习方向的小白一个，虽然多次暗下决心想要认真看完例如PRML，MLAPP这两本书，却都坚持不下去，往往都是看完前几章就顿感力不从心，每次遇到问题解决不了就会搁置。至今在机器学习方面都是零零散散的学，西瓜书，李航的统计学习方法，也都并没有看完。所以主要想通过此博客来勉励促进自己，希望自己能够一步一个脚印坚持走下去，不想半途而废。当然如果该博客能够给他人带来哪怕一丝丝的帮助，那么也算是意外收获。

文中必然存在很多错误的地方，毕竟博主水平比较次，所以希望如有大牛发现，能给出点评。博主在看书时可能会遇到很多的问题，也会在上面呈现，对于这些问题，如若有人能给出指点，将会不胜感谢。此外如有同时看此书志同道合之人，欢迎交流。

最后希望自己能够在机器学习这条路上坚持的走下去，不要因为一时的挫折而气馁！

第一章介绍

1.1 什么是机器学习

我们当前处于一个大数据的背景下（big data），机器学习是能够自动处理大量数据的方法。我们定义机器学习为从数据中自动检测模式的一系列方法，利用学习到的模式对新的数据进行预测。Murphy的这本书是从概率论的角度对机器学习进行深入的分析。

1.11 机器学习的分类

机器学习总共分为三类：监督学习（supervised learning），无监督学习（unsupervised learning）和强化学习（reinforcement learning），该书主要介绍监督学习和无监督学习。

监督学习主要是从训练数据 $\mathcal D = \{(\mathbf x_i,y_i)\}_{i=1}^N$ 中学习输入 $\large \mathbf x$ 到输出y的映射关系，也称之为预测（predictive）。 $\large \mathbf x$ 我们一般称之为属性。当输出y是连续量是，此时问题称之为回归（regression），当输出y是离散量时，此时问题称之为分类（classification）。当我们的标记空间 $\large \mathcal Y$ 是有一些自然的顺序的，比如成绩A-F，此时归为传统的分类问题就不合适，因为没有利用A>B>C>D>E>F的特性，该类问题称为有序回归（ordinal regression）或有序分类（ordinal classification），这是一个介于回归和分类中间的一个问题。

无监督学习主要是从训练数据 $\mathcal D = \{\mathbf x_i\}_{i=1}^N$ 中发现一些有趣的模式。有时也叫做知识发现。在这里要注意的是，无监督学习的数据是没有标签的。比较常见典型的无监督学习问题是聚类。即给你一些离散的点，然后通过学习对这些点进行分类。

第三种学习则是强化学习，该学习方法是对你的行为进行奖赏或者惩罚，通过自我学习，争取获得更多的奖赏而不是惩罚。

1.2 监督学习的一些例子

下面会给出监督学习的一些常见的例子

1.2.1 分类

在分类的问题中，对于输入 $\mathbf x$ ,输出 $y\in\{1,\cdots,C\}$ ，当C = 2，我们一般称为二元分类，C > 2那么就称为多元分类。当然还有多输出的模型。比如对于人来说，高矮，胖瘦，就会有两个输出。在该书中，不加特殊说明就认为是单输出的模型。

1.2.1.1 例子

如上图（a）,我们有一堆训练数据分成两类，左边是1即yes，右边的是0即no。这些数据有三个特征，分别是颜色，形状还有尺寸，如图(b)。那么根据以上的训练数据，如果给出下面的下个测试样例，蓝色的新月，黄色的圆环，蓝色的箭头，它们应该被分到哪一类。那么需要从训练数据中寻找一些模式，这个东西看着有点像公务员考试233。可以看到蓝色的全部被划分到了yes，那么我们有理由将蓝色的新月划分到yes。对于蓝色的箭头，但是我们又发现箭头都在no，那么很难抉择。黄色的圆环，也是很难选。当然这些都是给了一些直观上在做分类的感觉。

1.2.1.2 为什么需要进行概率预测

很好理解的一点就是，很多时候，没有办法进行直接对结果进行判决，例如上面黄色的圆环，很难说它属于哪一类，但是通过概率我们可以得到它属于每一类的概率 $p(y|\mathbf x,\mathcal D)$ ，如果有C类的话，这是一个长度为C的向量。这个式子表示在训练数据为 $\mathcal D$ ，输入特征为 $\mathbf x$ 的情况下，y的概率分布。对于分类问题，就是y=1，y=2...的概率。对于上面的问题，C等于2，我们只要选择y=0和y=1中概率大的那个作为最后的预测结果。

所以对于给定的概率输出，选择概率最大的标签作为最终的估计标签：

$\hat y = {\hat f}(\mathbf x) = argmax_{c=1}^Cp(y=c|\mathbf x,\mathcal D)$ ，这就是最大后验概率估计（MAP，maximum a posteriori）。

1.2.1.3 现实当中的一些例子

接下来分类的一些显示生活当中的例子

文件的分类和电子垃圾邮件的过滤

很多时候我们需要对文件进行分类，尤其比如说垃圾邮件的分类，用过邮箱的都知道，你会有个垃圾邮箱的一个选项，有些邮件发送过来的时候就会分到这个类别里面去。那么这其实就是一个二分类的问题。对于一个邮件，系统要能够自动的判断这个邮件是否是垃圾邮件。对于这样一个问题，我们的特征是什么，即输入是什么，就是单词，所有的邮件都是通过一个词库表示的。假设该词库有100个单词，那么这封邮件就可以由一个100维的向量 $\mathbf x$ 表示，如果第i个单词在该封邮件出现，那么 $\mathbf x_i = 1$ ，否则为0。假设我们的训练集有1000封邮件，那么输入的特征就可以用一个1000*100的矩阵构成。如下图所示

红线将数据分成四类，不同的类别之间有着明显的差异，相同类别之间有很强的相似性。为什么我们能够通过这样的表达方式去进行垃圾邮件分类，很大是因为在很多的垃圾邮件中，都会很大概率上包含比如打折，便宜等一些词，所以仅通过单词就能较好的进行分类。

花瓣的分类

这一块主要给出了花的一些特征，花萼和花瓣的长度和宽度四个特征，去分辨一个花是setosa, versicolor 和 virginica 这三种花中的哪一个。这里提出了一个机器学习的难点，就是特征提取，现在有一些是通过人工提取，书中说了后面会提到如何通过一些算法提取。

根据这张图，我们发现只通过花瓣的长度和宽度，其实是能够相对较好的把这三种花给分辨出来，尤其是红色花，明显就是花瓣很小（长宽都小）就是该种花。所以很多时候，拿到数据，如果能够画图的话（维度较低），那么可以先通过把数据画出来，直观感受一下，再去思考去选用什么样的机器学习算法。

图像分类和手写识别

图像分类是现在很热门的方向，之前有过很多识别图片中是否有猫有狗，识别是否有汽车，有交通标志等。最典型的一个例子就是很多机器学习书中都会常用到的手写识别。这个技术现在基本上已经相当成熟了。问题就是识别手写的数字0-9。该问题中，输入就是一个28*28的灰度图片，每一个像素点的取值是0：255。当前比较流行的应该是通过深度学习的方法去做。

人脸的检测和识别

人脸识别是一个现在也经常会碰到的一个问题，人脸识别一般分为两个步骤，一个是人脸的检测和定位，说白了就是把你的脸给抠出来，否则在很多背景的影响下是很难去做的。在抠出了脸之后再去识别这个脸到底是谁的。

1.2.2 回归

回归问题就是对于给定的训练数据，去找一个函数f( $\mathbf x$ )，输入一个 $\mathbf x$ ，输出一个y。

比如给如上的数据点，左边是用了一个一次函数去拟合，效果比较差，当然这也能预测，比如我给出一个x=30，这在原来的数据上是没有的，根据这个模型，y可能是13左右。右边是用了一个二次的函数去拟合，效果明显就好了很多。当然选什么样的函数去拟合，肯定是有根据的，该书后面会给出一些阐述。回归问题的应用其实还是比较多的，比如房价的预测，股市的预测，温度的预测等等一系列的问题都可以看成是回归的问题。

1.3 无监督学习

现在我们来考虑无监督的学习，无监督学习主要就是是一种直接从数据本身学习的一个过程，给出的是我们输入特征的概率分布，在监督学习中我们是学习 $p(y_i|\mathbf x_i,\mathbf \theta)$ 而在无监督学习中，我们想要获得的是 $p(\mathbf x_i|\mathbf \theta)$ ，是数据本身的概率分布。一般来说，无监督学习的概率密度函数是多变量的，而监督学习则是单变量的。无监督学习跟我们人的学习方式更为接近。小时候你妈妈不会看见一只狗就跟你说这是狗，而是其实在她告诉你之前你就能很明显分辨出狗和猫是不一样的，那么当她告诉你某一狗是狗，那么你就明白原来那些长这样的叫狗。所以人在学习时，自己会对看到的世界进行预处理，比如类比等等，而这些与无监督学习时非常接近的。

1.3.1 发现集群

这就是一个聚类问题，首先我们先看如下的图

先看左图，左图表示的是很多人的身高和体重的训练数据，我们要做的就是将数据分类，在无监督的学习中，我们并不知道要将数据分成几类，所以首先我们要去选择K，将数据分成K类。 $K^* = argmax_K p(K|\mathcal D)$ 。在确定了K之后，我们接下来就是确定每一个样本点属于哪一类，如上图，比方说K确定后为2，那么假设 $\mathbf x_i$ 的类别为，那么 $z_i\in\{0,1\}$ ，那么 $z_i^* = argmax_kp(z_i = k|\mathbf x_i,\mathcal D)$ 。

1.3.2 发现潜在的因素

现实中有很多的数据，看上去维度很高，但是实际上各维度之间具有比较强的相关性，对于这样的数据，我们可以通过降维的手段进行压缩。比如下图：

左边图显示数据是三维的，但是实际上我们发现其实数据几乎是在一个平面上的，这样原来由（x,y,z）表示的数据，在某组基下就可以用（m,n）来进行表示，这样就实现了降维。降维有很多好处，首先可以减少数据的储存空间，其次可以提高算法的效率，另外如果能将高位的数据压缩到三维一下，那么可以实现可视化，能够从更加直观的感受上去观察数据的分布。比如说文中关于人脸的例子，这是图像，数据上就是矩阵，我们对该矩阵进行奇异值分解，分别取前三个较大的奇异值，那么所看到的图像与原来的图像有很大的相似度，这就说明主要这三个维度就可以很好的刻画人的脸的大致形状。

主成分分析法（PCA，principle components analysis）是最常用的一个降维的方法。具体什么是主成分分析法，书籍后面会提到。

1.3.3 发现图的结构

这里就是我们会有一些变量，那么这些变量之间可能会有一些关联，那么这就涉及到图的概念，我们的目的就是从数据中，将这个图的结构给学习出来。 $\hat G = argmax p(G|\mathcal D)$ 。对于图结构的学习，主要就是两个方面的目的，一就是希望获得一些知识，知道哪些是相关的，另外一个方面则是为了实现更好的联合概率密度估计器，这一块我个人认为是与后面的图模型联系在一起，因为联合概率密度函数可以通过图模型表示。

1.3.4 矩阵填充

有的时候我们会丢失掉一些数据，或者说一些数据我们获得不了。那么这个时候我们要根据已有的数据对空缺的矩阵数据进行填充。接下来将会给出一些例子。

1.3.4.1 图像填充

如图所示，左边是一个被噪声污染了的，同时中间空了一块的图像。对于该图像的处理，首先需要对图像进行去噪，然后通过去噪之后的那些点，计算中间全黑的点的联合概率密度分布，然后通过MAP去得到每一个像素点的值，最终就可以恢复成（b）所展示的样子。

1.3.4.2 协同过滤

很典型的一个例子就是经常听到的关于电影的评价。因为每个人只是看了一部分的电影，所以如果把观众作为行，电影作为列，那么就会有一些数据是空缺的。那么如何得到观众关于没有看过电影的评价（可以作为电影推荐系统），就是一个矩阵填充问题。这个问题可以通过协同过滤的方法去求解。一般来说可以从两个方面去看待。一是找一个跟你的电影口味很接近的人，如果他喜欢看电影A，你没看过，那么你很大程度也会喜欢看A。二则是找跟你看过的电影很接近的电影，比如你喜欢看哈利波特，但是没有看过魔戒，但是这两个电影都是魔幻类电影，很接近，那么你很大程度上也会喜欢看魔戒。这就是协同过滤的基本思想。

1.3.4.3 购物篮分析

购物篮问题中，假设你做了N次购物，购买的物品总集合为 $\mathbf E$ ，那么如果在第i次购物时你买了物品j，那么 $x_{ij}$ 就为1。所以这样就构成了一个完全填充的 $\mathbf X$ 矩阵。那么如果你又进行了一次购物，那么我们知道你购买了一部分商品，剩下的商品我们可以预测你可能还会购买其他的商品。这一点很容易理解，因为购物很多时候就是有相关联的，有些关联是我们很容易得到的，比如买了面包的人，往往也会买黄油。不过之前很多书上举了这个例子，就是国外男人在买纸尿布的时候会买啤酒。这就是从数据分析上得到的。从我们直观上其实不太好理解。

文中最后还说了解决这样的问题在数据挖掘中，使用 frequent itemset mining，在本书中我们使用计算联合概率分布的方法。该书提到，在数据挖掘方向上呢，总是喜欢强调解释性的模型（更能让人理解的模型），但是在机器学习方面更强调的是精确的模型。

1.4 机器学习的一些基本概念

接下来会简单的介绍关于机器学习的一些基本的概念。

1.4.1 参数模型 vs 非参数模型

如果模型的参数不会随着数据量的增加而增加，那么就是参数模型（parametric model），如果模型的参数会随着数据量的增加而增加，那么称之为非参数模型(nonparametric model)。非参数模型相比而言更加的灵活，能够表现更加广泛的模型，但是随着数据量的增加，非参数模型的计算量会非常的大，所以两者各有优缺点。

1.4.2 一个简单的非参的分类器：K邻近

一个关于非参的简单的分类器就是K邻近（K nearest neighbor（KNN））分类器。先上个图，看图说话

图（a）是训练数据，什么是K邻近算法呢，简单点说就是对于一个新的数据点 $\mathbf x$ ，我们找K个离它最近的点，然后找出这K个点中，哪一个类别的数目最多，那么这个点 $\mathbf x$ 就属于哪一类。用公式来看呢，就是

$p(y = c|\mathbf x,\mathcal D,K) = \frac{1}{K}\sum_{i\in N_K(\mathbf x,\mathcal D)}indices (y_i = c)$

indices() = 1如果，否则为0。图（d)给出了根据该训练数据得到最终的划分。

1.4.3 维度诅咒

KNN分类器，是一个非常好用的，简单的，性能也很好的分类器。但是这个分类器存在一个严重的问题，在输入数据的维度很高的时候，这个算法就会呈现很差的性能。假设我们现在数据的输入的维度是D = 10, 训练的数据均匀的分布在一个边长为1超正方体当中。那么如果我们想获得10%的数据，那么就是要获得0.1的体积。假设边长为e， $e^{10} = 0.1$ ，e = 0.8，在每一个维度上要拓展0.8的长度，即使是1%的数据，也要拓展0.63。这个算法看起来就不再那么紧。就是说我即使想要获得很少的数据，但是我在每天边上仍要扩展很长的距离。这样的点也就不是正真意义上的邻近。实际上你所找的那些邻近点，可能已经离你很远了。

1.4.4 分类和回归的参数模型

对于高维的问题呢，我们往往对于数据的分布做一些假设，这在参数模型上很容易看到。我个人的理解就是我们要对数据的分布做一些假设这样就能去压缩维度，比如我就假设是线性模型，那么无论你的输入维度多高，你的数据就是线性的，利用这个结构，维度的增加对算法的影响就是很微弱了。

1.4.5 线性回归

常见的最广泛的一个回归模型就是线性回归模型。一般可以写成如下的形式： $y(\mathbf x) = \mathbf w^T\mathbf x + \epsilon = \sum_{j=0}^{D}w_jx_j+\epsilon$ ，其中。 $\epsilon\sim\mathcal N(0,\sigma^2)$ ，是一个残差项。对于该模型来说，参数就是 $\mathbf \theta = \{\mathbf w,\sigma^2\}$ 。那么从概率的角度来看， $p(y|\mathbf x,\mathbf \theta) = \mathcal N(y|\mathbf w^T\mathbf x,\sigma^2)$ 。这是基于 $\mathbf \theta$ 的条件概率密度函数。如果参数得到了，那么y的分布就知道了。

对于这样的回归问题， $\mathbf x$ 可以用非线性的函数 $\phi(\mathbf x)$ 去代替。我们假设x是标量。那么 $\phi(\mathbf x)$ 可以是[ $1,x,x^2,\cdots,x^d$ ],下图分别给出了d等于14以及20的拟合情况。

这个也称作多项式回归（polynomial regression）。当然还有很多其他的非线性函数，该书的后面会提到。

1.4.6 逻辑回归

对于线性回归我们做两点改变，第一点就是 $p(y|\mathbf x,\mathbf w) = Ber(y|\mu(\mathbf x))$ ，这个式子表明y是服从均值为 $\mu(\mathbf x)$ 的伯努利分布，而不是高斯分布了。第二点就是这里的 $\mu(\mathbf x)$ 发生了改变，不再是 $\mathbf w^T\mathbf x$ 而是sigm( $\mathbf w^T\mathbf x$ )。sigm就是sigmoid函数。如果我们设置一个阈值，就可以作出最终的预测。比如 $\hat{y}(x) = 1\Leftrightarrow p(y=1|\mathbf x)>0.5$ 。下图给出sigmoid函数的样子，以及拟合的示例。

逻辑回归的训练样本其实在数据上很多时候不是线性可分的，所以即使针对训练数据也做不到0误差。在图（b）中找不到一条与y轴平行的线将数据0和1完全的分开。

1.4.7 过拟合

过拟合简单来说就是对训练数据的过度拟合，把训练数据自身带有的一些特殊性给带了进去，或者是噪声。就拿简单的线性回归来说，我们如果用多项式拟合，如1.4.5的（b）图，很明显，针对训练数据，这样训练出来的误差为0，但是明显这个模型完全不适用于其他的数据，这就是过拟合的典型。所以说不是越复杂的模型就越好，而是与数据越接近的模型才是最好的。过拟合典型的表现就是针对训练数据低偏差高方差。

1.4.8 模型选择

模型的选择是很重要的，就拿KNN来说，当K = 1时，那么经过划分后，每一个训练样本都是在正确的标签下，误差为0，但是很明显这不是最好的分类器，这明显过拟合了，但是如果加大K，那么如下图

K=5时明显划分的更加合理，但是这时候有一些训练样本在此划分下，就是错误的，很明显在蓝色的区域有几个绿色的叉，这就是训练样本中的点，这些点应该是蓝点。所以我们不能用训练样本来评判误差。这时候就提到了模型的泛化误差（generalization error）和测试集（test set）。泛化误差是通过训练集合得到的。这才是我们真正需要关注的。如下图：

、

根据图（a），我们发现在训练误差很小的时候K=1，但是测试误差很大，这个时候是处于过拟合状态。K在10到100之间的取值都是含可以接受的。当K很大时，训练误差和测试误差都很大，这是处于欠拟合的状态。

但是在实际当中我们并没有测试数据，我们只是给了一堆训练数据，让你给出模型。这时候我们需要将训练数据分为两个部分：训练集和验证集，训练集用来进行训练，验证集用来进行模型的选择。一般来说80%作为训练用，20%作为验证集。但是当数据量很少的时候，这又出现问题，如果验证集数据少了，那么这个验证结果是否可靠。如果训练集少了，那么这个训练集能否表征整个数据集的特征。这是个矛盾。这时候我们采用交叉验证法。把数据分为K类，如图（b）所示，每一次用其中的K-1类进行训练，剩下的那一类作为验证集进行测试。总共跑K次，取平均误差，进行模型的选择。

1.4.9 没有免费午餐理论（NFL，no free lunch theorem）

该理论就是说没有最好的模型，在有些假设下，这个模型是好的，但是在其他的假设下那个模型又会更好。所以我们要根据现实意义以及数据的特殊性，制定相应的算法。关于这一点，在周志华的西瓜书中给出了概率意义上的特殊情况的证明，有兴趣的可以去看一下。

从 0 到万粉的 AI 公众号博主教程 hikktn 从0到万粉的AI公众号博主教程公众号
《从0到万粉的AI公众号博主教程》专栏简介作为一名深耕品牌领域二十余载的资深专家，我深刻感受到当下商业环境的剧变。去年，我开始探索AI技术在内容创作中的应用，短短4个月内，我的公众号突破万粉，这让我意识到AI时代带来的巨大机遇。在与众多职场人士交流的过程中，我发现很多人都面临着相似的困境：想要利用AI进行个人品牌升级，但不知如何入门？拥有专业积累，但难以转化为个人IP？尝试做自媒体，但始终无法突破
android发送自定义广播 Android洋芋 android
简介在Android中，自定义广播（CustomBroadcasts）主要用于应用程序内部或不同应用程序之间的通信。它们是Android四大组件之一——BroadcastReceiver——的主要功能之一。自定义广播在以下场景中尤其有用：组件间通信：应用程序的不同部分（如不同的Activity、Service或BroadcastReceiver）之间可以使用自定义广播来传递信息。例如，当一个Act
VideoView视频组件 Android洋芋 Android控件音视频
简介VideoView在Android中是一个用户界面组件，它允许开发者在Android设备的屏幕上播放视频文件。它是AndroidSDK的一部分，位于android.widget包中。VideoView提供了一种简单的方法来嵌入和控制视频播放，包括设置视频源、开始、暂停、seek（跳转到视频的特定位置）以及显示视频的控件等基本功能。开发人员可以轻松地将VideoView添加到布局文件中，并通过J
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
逐行讲解大模型解码超参数大全（temperature、top-k、top-p等所有参数） Gaffey大杂烩大模型机器学习人工智能
目录简介宏观概览解码策略实现逻辑常见的解码超参数temperature温度系数top_ktop_prepetition_penalty重复惩罚不常见的解码超参数min_ptypical解码ϵ采样η采样Classifier-FreeGuidance(CFG)序列偏置干预HammingDiversity编码器重复惩罚n-gram重复惩罚编码器n-gram重复惩罚bad_token惩罚最小长度限制最小新
npm详解：掌握 Node.js 包管理的艺术 Lv_Jin_Gang npm
在现代软件开发领域，包管理和依赖处理是任何项目不可或缺的一部分。对于基于Node.js的应用程序而言，NPM（NodePackageManager）不仅是安装和管理第三方库的标准工具，也是发布、共享和重用代码片段的核心平台。本文将深入探讨NPM的各个方面，从基础概念到高级用法，旨在为你提供一个全面而深入的理解。一、NPM简介与安装1.1NPM的诞生与重要性NPM伴随着Node.js的诞生而出现，它
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
【Docker】搭建实用的内网穿透工具 - FRP UPToZ 群晖Docker docker 容器运维
前言本教程基于群晖的NAS设备DS423+的docker功能进行搭建FRP的客户端，DSM版本为7.2.1-69057Update5。采用香港机Debian12系统的服务器来安装FRP的服务端作为演示。服务器购买地址：https://www.crash.work/aff/AQXGDNKY简介FRP（FastReverseProxy）是一个高性能的反向代理应用，它可以帮助您将内网服务通过反向代理暴露
使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
.gitlab-ci.yml 配置文件详解程序媛夏天 Git gitlab ci/cd .gitlab-ci.yml
个人主页：不爱吃糖的程序媛‍♂️作者简介：前端领域新星创作者、CSDN内容合伙人，专注于前端各领域技术，成长的路上共同学习共同进步，一起加油呀！✨系列专栏：前端面试宝典、JavaScript进阶、vue实战资料领取：前端进阶资料以及文中源码可以在公众号“不爱吃糖的程序媛”领取git工具文档说明：https://docs.gitlab.com/ee/ci/yaml/gitlab_ci_yaml.ht
05.列表标签龙哥带你学编程 #html css
一、列表简介列表是网页中最常用的一种数据排列方式。有序列表：有先后顺序之分无序列表：无先后顺序之分定义列表：带有特殊含义的列表二、有序列表1、语法格式有序列表中的各个列表项是有顺序的…列表项列表项注意：ol和li是配合一起使用的，不可以单独使用；ol的子标签只能是li标签，不能是其他标签。2、基本特征有序列表是由有顺序的列表项组成的有序列表一般采用数字或字母作为顺序，默认采用数字顺序是块元素独占一
WebGL开发：BabylonJS从入门到精通（下卷）莲华君前端权威教程合集 WebGL系统化学习 webgl
全书卷目：WebGL开发：BabylonJS从入门到精通（上卷）WebGL开发：BabylonJS从入门到精通（下卷）目录第一部分：基础篇——构建3D世界的基石第一章：BabylonJS概述与环境搭建什么是BabylonJS：WebGL宇宙的创世引擎BabylonJS的历史与优势：开源利剑的进化史安装与配置开发环境：3D工匠的工坊搭建术使用BabylonJSPlayground与本地开发环境浏览器
渗透测试-越权测试、sql注入夜晚打字声笔记
越权访问简介（BrokenAccessControl，简称BAC）：web应用程序中常见漏洞，存在范围广、危害大，被OWASP列为web应用十大安全隐患第二名。该漏洞是指应用在检查授权时存在纰漏，使得攻击者在获得低权限用户账户后，利用一些方式绕过权限检查，访问或者操作其他用户或者更高权限。越权漏洞的成因主要是因为开发人员在对数据进行增、删、改、查询时对客户端请求的数据过分相信而遗漏了权限的判定越权
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估贫苦游商学习服务器网络计算机体系结构 ISA 指令集量化评估
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估概论计算机体系结构简介计算机的分类并行体系结构指令集体系结构（ISA）分类存储器寻址寻址模式操作数大小指令ISA的编码程序的优化计算机体系结构量化评估存储器体系结构概论计算机体系结构与计算机组成原理之间的联系非常紧密，其研究范畴基本一致，计算机体系结构与计算机组成原理两者是相辅相成的。但是，计算机体系结构
学习111 麋鹿叔叔学习
项目名称项目简介主要功能技术原理GitHub地址browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新Python工具库GitHubEkoFellouAI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理支持所有平台，提供统一便
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
通过 Kibana 操作 Elasticsearch：从入门到实践格子先生Lab elasticsearch 大数据搜索引擎
引言Kibana是Elasticsearch的可视化工具，提供了一个用户友好的界面来管理和操作Elasticsearch中的数据。通过Kibana，你可以轻松地执行数据搜索、创建可视化图表、构建仪表盘等操作。本文将带你从零开始学习如何通过Kibana操作Elasticsearch，掌握其基本功能和进阶操作。1.Kibana简介1.1什么是Kibana？Kibana是一个开源的数据可视化工具，专为E
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
Maven简介 z迦在线 maven java
Maven简介Maven是Apache软件基金会的一个开源项目,是一个优秀的项目构建工具,它用来帮助开发者管理项目中的jar,以及jar之间的依赖关系、完成项目的编译（.java--->.class）、测试、打包（源代码--->.jar文件）和发布等工作。Maven是如何管理项目中的jar文件的？Maven简化了Java项目中的JAR文件管理，主要通过以下几个关键点：POM文件：Maven使用po
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
推荐开源项目：FastAPI Best Architecture — 极致的后端架构设计蓬玮剑
推荐开源项目：FastAPIBestArchitecture—极致的后端架构设计项目地址:https://gitcode.com/gh_mirrors/fa/fastapi_best_architecture项目简介在寻找一款基于FastAPI构建的强大且灵活的后端解决方案吗？那么，你已经找到了——FastAPIBestArchitecture。这是一个遵循前端与后端分离原则的中间件层解决方案，采
一、MyBatis简介：MyBatis历史、MyBatis特性、和其它持久化层技术对比、Mybatis下载依赖包流程智能硬件控制器信息分析传感器
@[toc]一、MyBatis简介1.1MyBatis历史MyBatis最初是Apache的一个开源项目iBatis,2010年6月这个项目由ApacheSoftwareFoundation迁移到了GoogleCode。随着开发团队转投GoogleCode旗下，iBatis3.x正式更名为MyBatis。代码于2013年11月迁移到Github。iBatis一词来源于“internet”和“aba
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
OSI七层模型 _洛_神网络协议
OSI七层模型传输过程当你在微信上发送一句“你吃了吗”时，这条消息会经历一个从你的手机到接收者手机的复杂旅程。这个过程涉及到网络通信中的七层模型，即OSI（开放系统互连）模型。每一层都有特定的功能，并且在这个过程中，信息会被逐步封装成适合网络传输的形式。等到达目的地后，再一层层解开，最终呈现给接收者。一、OSI七层模型简介：物理层-负责定义物理连接的电气、机械、过程和功能特性，如电压水平、电缆规格
dubbo服务META-INF.dubbo文件夹作用 zhglhy dubbo java apache
META-INF.dubbo文件夹是ApacheDubbo框架中的一个重要目录，通常用于存放Dubbo的SPI（ServiceProviderInterface）扩展配置文件。Dubbo是一个高性能的JavaRPC框架，支持分布式服务治理，而SPI机制是Dubbo实现可扩展性的核心设计之一。1.SPI机制简介SPI是Java提供的一种服务发现机制，允许框架在运行时动态加载实现类。Dubbo对其进行
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

MLAPP————第一章 简介