好想告诉你2014

python数据分析新手入门课程学习——（六）机器学习与建模（来源：慕课网）

机器学习根据是否有标注可以分为以下三类。监督学习（有标注的机器学习过程，标注相当于告诉模型在什么样的数据特征下应该输出什么样的结果，机器学习的任务就是提炼出输入与标注间的关系，并进行预测。）根据标注是离散值还是连续值。监督学习又可以分为“分类”（离散值）和“回归”。非监督学习（无标注）。半监督学习（部分有标注，部分无标注其中有标注的数据可以作用于无标注的数据，规范与引导聚类的方向;同时无标注的数据也可以作用于有标注的数据，时刻获得模型对数据整体情况的影响和反馈）。

数据集分为三部分：训练集，测试集，验证集这三个集的比例一般可以取6：2：2

训练集：一个模型的参数是由训练集决定的训练集的数量（应该是数据集整体的增多来实现，而不应该提升训练集在整个数据集的比例来增长数据量）越多，模型相对于整个数据集就会越准确。

验证集：通过训练集训练出多个模型后，为了能找到效果最佳的模型，使用各个参数对验证集数据进行预测，并记录模型的准确率等评价指标，选出效果最佳的模型所对应的参数，作为模型的最终参数。

测试集：通过训练集和验证集得出最优模型后，使用测试集进行模型的预测，用来衡量模型的性能和分类能力即可把测试集当成从来不存在的数据集，当已经确定模型的参数后，使用测试集进行模型的泛化能力评价。

如果一个模型在训练集和验证集表现良好，测试集表现不好，那么该模型的泛化能力就比较差，也叫过拟合现象。

一份儿数据集切分成训练集，测试集，验证集的方法，可以叫做交叉验证。有的时候我们会忽略验证集，而通过不断重复，尝试来达到验证的目的。这样一份儿数据就可以只分为训练集和测试集（一般是4：1，也就是8：2）。这些切分一般是随机的，为了全面衡量模型的质量，我们有时也会采取ķ折叠交叉验证。

一、分类

罗吉斯特映射和人工神经网络大多数既可以做分类也可以做回归，他们的作用主要是以回归为主。（在回归章节中详述）

1.KNN

（1)铺垫

上节我们学习了将属性转化为数值类型，如果属性都成了数值，那么每个属性都可以看作个维度，每个对象都是空间中的一个坐标，那么数据表中的对象与对象之间就会有它的距离。距离常用公式如下：

欧式距离：两个点的直线距离。

曼哈顿距离：各个维度的维度长度差的绝对值进行累加。（在城市中，衡量两个点的到达距离用这个）

闵科夫斯基距离：有个参数p。p=1,曼哈顿距离；p=2,欧式距离。所以，前两个距离都是它的特例。

我们直观地看下，

如果空间中有很多点，那么怎么去找随机指定的一个点附近的k个点呢？法一：遍历每个点，从小到大排序。（效率特别低）。所以就有了KD树。通过树形的结构，可以达到快速寻找最近点的目的。

工作原理：空间中有16个点，KD树是如何划分的呢？首先，通过一个维度上，把所有的点分成两部分，两部分数量尽可能保持一致。然后，拿其中的一部分再进行另外一个维度上的切分，又切成两部分，以此类推，直到不能切分为止。其他几部分同样如此。

这个空间里就会分成许多大小不一的格子,每个格子都通过这里的线建立一个树形索引，如果把这些线当成中间节点，而把点当成叶子节点的话，我们会得到这样一个图。

算法思想：一个数据集都会有它的标注，如果说找到一个点，它k个对应的邻居，一种标注大于另外一种标注，那么我们就认为这个点更倾向于与多数点是一致的。如：黑点，我们找到它最近的5个邻居，这样我们可以判别它与深色点是同一个类型（因为深色点多）。

2.朴素贝叶斯

（1）概率相关知识

联合概率：A和B同时发生的概率。

联合概率与条件概率的关系：

例如：

接下来，我们通过例子说明下朴素贝叶斯的基本思想，F1和F2这两个特征进行离散化如下：

如果此时账户状态如下：

怎么通过这些条件判断这个账户状态是不是虚假的呢？将其转化为条件下， C=0或1的概率分别是多少。三个条件相互独立的情况下，可拆成如下形式：

因为他们都除以同一个值，这个相同的值就可以不计算，只要比较分子大小就可以。

根据前面条件，可得它是真实账户的概率是0.0623，虚假账户的概率是0.00198。所以我们倾向于它是真实账户。

朴素贝叶斯存在的问题：计算概率时，其中一个值为0，整个条件概率就为零。解决方法：都加1。

生成模型和判别模型都是监督学习中的模型，朴素贝叶斯是生成模型（对数据的要求更高，速度也快），KNN是判别模型（速度较生成模型慢些，但是对数据的容忍程度更大，使用范围更广）。

3.决策树

决策树就是模仿我们做决策的过程，一步步按照特征进行判断。决策树的叶子都是标注节点（见或不见），而中间节点都是特征（如：年龄、收入、帅）。

构造决策树要考虑的问题：这些特征的顺序如何摆放，为什么一个特征要先判断，这里就需要些评价手段和方法。在此之前，我们先看下一个常见的数据集（一个人根据天气情况来决定自己是否要出去打球）。

方法如下：

（1）信息增益：熵变化的大小，就可以认为X这个特征对他影响的大小。X影响越大，熵增益就越大，则先进行这个属性的切分。如：去打球9次，不去有5次，计算出标注的信息熵；找到个切分计算其熵增益。Outlook熵增益最大，所以第一次切分选它。

（2）信息增益率：这样定义是因为考虑到熵的值可能会很小，同一信息增益变化的大小就会引起不同的反应。这个指标考虑到熵本身所带来的影响。

（3）Gini系数（不纯度），形成的决策树也叫CART。如果不纯度最低，就可以考虑把这个切分先进行决策。

决策树中需要注意的问题：

（1）连续值切分：我们刚看到的决策树是个离散的决策树，遇到离散决策树的解决方案和之前探索性数据分析用的方法一样。即将连续值进行从小到大排序，然后对每个间隔进行一次切分，计算切分后的各个因子，取该因子性能最好的连续值切分作为它的切分。

（2）规则用尽：如上例中有四个特征，可能四个特征都用完了，但是所剩的集合还没切分干净，这样我们可以采用投票的方式（哪个样本多，投哪个）；当然我们也可以接着使用特征进行切分（一个特征用多次），最终得到无杂质的叶子节点。

（3）过拟合（训练可以训练到百分之百，但真实用的时候性能较差）：如果一个特征可以切分多次的话，我们最终总可以得到个百分之百的切分方案。为防止过拟合，我们可以进行剪枝。前剪枝：构造决策树之前就规定每个叶子节点最多有多少个样本或者规定了决策树的最大深度。后剪枝：我们想尽一切办法构造出决策树，然后我们对样本值悬殊的枝叶进行修剪。

如：样本收入一般的情况下，帅不帅达到非常悬殊的比例（100：1），那么就说明样本当中不帅的样本少，那么就没必要做这个决策了。

4.支持向量机

如果把一条数据的每个属性都当作个维度的话，那么一条数据所代表的对象就是一个空间中的点。接下来。我们用二维空间来说明下支持向量机。如果我们用简单分类器（即一条线）将这两个标注的数据分开，分法有无数种。但只要一种可以将样本充分分开的情况下，最大限度的将两个标注的样本进行区分。也就是说，在两个标注的样本中，分别找到离这条线最近的点，它们离这条线的距离是一样的，并且他们离这条线的距离和最大。这样的切分就是区分度最大的切分。此时，离这条线最近的两个标注中的样本就是支持向量。

数学角度分析：

多维空间中的维度可用向量x表示,w是参数。多维空间中的面也叫超平面。这个面就是分界面。因为他将两种样本都区分开来，所以一定会有一种标志的样本将值代入一定大于0，另一种都小于0。考虑到多数情况下，样本点不会落到这条直线上，而与这条直线有一定的距离，所以我们可以假设距离如下。

y代表标注，并把两式子等效成一个式子，即最下面的式子。

回顾三维空间下，点到面的距离：ABC就等效于参数w，D就是偏置D,（x,y,z）就是带求的三维点。高维空间中，此式子依然成立。在支持向量中分子是可以取到等号的（实际上等于1），我们目的是求使这个间隔最大的切分，所以我们求两组距离超平面的和的最大值，等价于其右边的式子。根据样本的约束和这里得到的目标函数，我们就可以用拉格朗日乘数法进行求解。得到下式。它通过一个式子就把所有的标注都考虑进去了，然后我们求它的最大值，就可以解出w和其他参数ab等等。需要注意的是，这里的参数a一定是大于0的。

上述是理想情况下的假设与计算。实际情况会复杂很多。通常情况下，正负标注不是线性可分的。

所以我们就有两种思路来解决这些问题。

（1）容忍一部分的错误归类。虽然无法控制最大值，但我们可以在这些最大值中选择个最小的结果。

（2）扩维。我们可以在生成个第三维。映射到三维就会得到左下角结果。可以通过一个三维超平面将他区分开。

扩维时，我们怎么知道该怎么扩维，扩到几维？实际上，由于标注不确定性比较大，我们并不知道如何扩维，所以我们只能把所有可能扩到的维度都考虑到。例如：二维空间的扩维（用多项式扩维法）；三维空间扩维一共会有19种情况，不好处理。

所以我们要再想想办法。先回顾下判别式。左边的形式要进行扩维，相当于对向量进行转换，对向量某一维上转换。

还记得前面的最优化表达式，在满足条件时，可以转换成下式。

转换后有内积的操作，扩维后也得有内积的操作：

如何简化内积这一过程？如：有两个向量二维向量pq，他们进行扩维后再进行内积如下：

如果我们先不进行扩维，先计算它的内积，再进行如下的函数映射（也就是核函数）。我们可以看到此式与上式相比，仅仅是某些尺度上有些变化，但这对我们接下来要做的变换来说，省去了在高维上进行内积的过程，也不用担心维度灾难了。

整理下思路：我们最初扩维思路是先映射到高维空间，再计算（会产生维度灾难）；后来转变思路，先在低维上进行计算，然后再进行扩维，而扩维的方式是使用了一种转化函数来进行的。

常用的核函数如下：

（1）线性可分的情况下用线性核函数，其实线性核函数与不用核函数是一样的，只是把这种线性变换也叫核函数罢了。

（2）多项式核函数：一旦确定了d，扩充到几维就确定了。（2维扩充到5维，3维扩充到19维）

（3）这个函数可以将空间映射到无限维，如果我们喜欢，我们可以进行百分之百的切分，但这样会带来过拟合的现象。

以下是个二维空间实际的例子：相对于决策树，SVM的边界更加平滑。

SVM的问题： (1) 最下面的点对切分影响较大，避免影响使用松弛变量，得到更宽的分类间隔，很有可能减少过拟合；（2）第二个边界更有可能靠近白色点的部分，所以要根据实际运用场景定最后方案的；（3）多分类问题：有几个分类就建几个SVM，一个样本过来，我们把每个分类都过一遍，成功分类并离超平面最远的那个作为正确分类，如：有八个分类，我们把每个分类都和其他分类都做个SVM；另外一个思路就是分类的两两之间分别建立SVM，取出分类次数最多的作为我们的分类。

5.集成方法

分类器是算法，算法就会有其复杂度，一般有多项式复杂度、阶乘复杂度、指数级复杂度（如下所示）。所有算法的复杂度都会随规模扩大而扩大，越往右扩大的越急剧，很有可能数据扩大一倍，就会耗尽所有的资源，甚至得不到解。所以我们更应该设计出多项式复杂度的算法。模型的集成方法就可以理解成将几个弱可学习的分类器集合成一个强可学习分类器的过程。

集成学习用到的方法分为两大类：

（1）袋装法：用训练集同时训练出几个独立的模型，而在预测和判断时，我们分别让被训练出的几个子模型去判断，对于分类问题，让他们去投票，投票选出的最多的结果就是判断的结果。同样，这样的思想也可以用在回归问题中，回归时这里取的就不是投票的结果了，而是各个参数。最典型的应用就是随机森林。

随机森林里有很多个决策树，他们都是相互独立的，最终的分类器要看每个树的结果，然后让他们投票，选择票数最多的结果作为最终的判别结果。随机森林里的随机，我们可认为是随机样本的随机，也可以认为是特征的随机，也可以认为是特征和样本两方面的随机。决策树带来的好处如图。

使用和训练时，有几个需要注意的因素：

1）树的数量（越多，考虑到的样本的局部情况也就越多，同时也越容易过拟合。树的数量跟样本数量、特征数量都有关系。这个需要不断尝试进行确定）；

2）每棵树用到的特征数（如果假定树有n棵，那么每棵树选择多少个特征合适这是个问题。特征比较少的时候，一般是少于50个特征的时候，我们可以选择采用全部的特征进行训练，每棵树都采用全部的特征，树与树之间的差异性通过训练集的差异性进行体现；特征比较多的时候，达到几百个或上千个，那么每棵树可以随机地选择少于全部特征数量的特征进行训练，与此同时我们可以通过增加树的数量和并行计算的能力来平衡特征减少带来的损失；

3）树的训练集该怎么选？一般每棵树的训练集都是模型训练集整体的一个子集，这个子集怎么产生，数量怎么定也是个问题。这里介绍种选择子集的方法。我们可以把选择子集的数量定为和输入模型的训练数量是一致的，只是我们对他进行有放回的采样，采样过后大概会有某些样本被采样到两次或更多，某些样本根本就没被采样到，某些样本在某棵树被采样到，在其他树没被采样到，这样就通过样本构成了差异性；当然我们也可以不放回，每棵树都采样全量样本，若要体现树的差异性就必须通过缩减特征的规模来使树的特征有差异，试想每棵树我们都使用全量的测试集，同样也使用全样的特征，那么每棵树产生的结果都一样，这样浪费资源得不到想要的结果。

（2）提升法：如果我们把子模型串联起来，一个模型以另一个模型的结果为基础进行训练和预测，然后多个模型级联，最终将训练模型的结果进行加权求和得到判别结果。子模型对样本的差别的影响，更大程度上取决于最终的权值而不是它的顺序。

提升法的一个例子如下图。

二、回归

回归分析中类似分类分析里，自变量叫特征，因变量叫标注，只是这个标注是连续值而不是离散值。如果多个变量间的关系，我们用线性关系去考量，那就是线性回归；如果多个变量间用多项式关系考量，那就是多项式回归；类似地，我们有多种回归方法。

如图，同一系列样本，我们可以用线性回归来拟合；二次函数拟合；那么如何判断哪个拟合效果更好呢？回归要考虑模型的复杂度和准确度两方面，当然最重要的是它对未知数据预测的准确性。所以我们可以像分类数据一样，将回归的数据也进行区分，用验证集的误差大小去评判回归效果最终的好坏。

极端的情况我们可以用非常高阶的函数对他进行拟合（如：n个点用n+1阶多项式进行拟合），一定可以在训练集上把它的误差将为0，但这种拟合面对未知数据大概率情况下效果是不会太好的，效果又可能还不如线性回归。

如果我们隐约感觉一个变量和几个变量间是正相关或负相关关系，我们不妨先试试线性回归。用它做个粗略估计，如果效果比较好，我们就可以不用研究其他模型了。我们也可以把线性回归结果当作个标准衡量其他回归的性能。

1.线性回归

最小二乘法是我们最早接触的解决线性回归的方法。重新梳理下线性回归的过程。通过w与X的线性变换。我们可以得到左下角的式子，目标是让这个值与Y的差尽可能小。所以就有了最小二乘法。右下角的式子就是根据最小二乘法确定参数的方法，其上面的式子是用矩阵知识求解最小二乘的方法。这两个式子等效。

最小二乘法本质上是在求下式的值。满足这个条件的w就是我们最终要确定的w。

既然核心的算法是个最优化的过程，是一个求函数最小值的取值，而且我们也可以证明此函数连续可导。我们很容易想到个方法，就是对函数进行求导，然后求他们各个极值，如果值域不是负无穷的，那么极小值中定会有个最小值。（极其耗费资源，计算机这样计算不现实）计算机进行数值计算，求它的最小值时，使用的方法是梯度下降法。

梯度：指定了各个方向上导数的大小。梯度对每个参数增量都要可导，梯度指的方向是一个点上升最大的方向。

梯度下降法：函数上随便取个点，算出它的梯度，取它的反方向，再确定个步长。沿着方向走一步，到达另一个点，下次计算第二个点的梯度，再一步一步接近它的极小值。注意：步长过小，那么它到极小值的迭代次数就多，计算就慢；步长过大，它会绕着极小值不断跳跃，而不能达到最终的收敛效果。所以，选步长跟梯度本身有关。（梯度大，步长可大些）

我们要求下式的极小值或最小值

我们先找到它的极小值，就要对参数进行更新，而更新的极小值就如下：

如果一个函数是凸函数，凸函数（函数上的值小于连线上的值）满足下式，凸函数的极小值就是最小值。相应的优化过程也叫凸优化。按照这个方法可以计算出当它取到最小值时参数是多少。

有的时候直接求出的参数，（1）由于它有舍入误差、系统误差的影响或者是有少量的点被错误的标注。参数间的间距可能会非常大（如：有的参数可能会取到好几百，有的只有零点几）（2）还有可能函数不是凸函数，这样最终拟合取到的点并不是我们需要的点，也就是说他取到了一个我们不需要的极值，有可能离我们需要的极值非常远。

以上两者带来的结果可能有些特征的权值就会被放大，有些权值就被弱化，也有可能最终预测结果非常差，这个时候需要我们用另外个方法（正则化）来解决。正则化的目的：在所有参数中，倾向于选择系数更小的，这样就约束了一些极值的条件，可以有效防止过拟合，也可以更快速、更正确地找到最优点。

线性回归的一个正则化例子：（1）岭回归。其目标函数如下。有的参数比较大，有的参数比较小，加上一个参数的二范数倾向于选择参数比较小的值。（2）第二项换成了一范数（所有值取绝对值后再求和），Lasso为了照顾alpha的量级，一般要多乘个箭头所指的值（m为点的数量）。右图表示权值越大，越容易产生过拟合。

2.逻辑回归

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
新质农业-再生农业的应用橙蜂智农人工智能制造创业创新
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案，帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。橙蜂智农的智慧农业产品涵盖了多方面的功能，如智能化推荐、数据分析、远程监控和决策支持系统。用户可以通过应用获得个性化的作物种植建议、实时的生长状态监控以及精确的灌溉和施肥指导，提升农业生产效率。文
利用发电量和气象数据分析来判断光伏仿真系统的准确性鹧鸪云光伏与储能软件开发数据分析数据挖掘光伏发电大数据光伏新能源
随着光伏产业的迅速发展，光伏仿真系统通过集成气象数据分析、发电量分析、投融资分析及损耗估算等功能，为光伏项目的全生命周期管理提供了科学依据。光伏仿真系统集成了气象数据分析、发电量预测、投融资分析、损耗估算及光伏设计等功能。其中，气象数据分析是仿真系统的基石，通过整合权威的气象数据（如Meteonorm、Nasa等），模拟光伏电站所在区域的历史气象条件及未来气象预测。基于这些气象数据，发电量分析功能
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，