lavendelion

Coursera-吴恩达机器学习课程个人笔记-Week7

Week7 支持向量机,SVM

1.支持向量机(SVM,Support Vector Machine)的数学表达
- 1.1从逻辑回归过渡到SVM
- 1.2 SVM的损失函数
- 1.3 SVM的预测值
2. SVM的理解
3. SVM的推导
- 3.1 吴恩达课程的思路
- 3.2 更数学的SVM推导思路
4.核函数(kernels)
- 4.1定义
- 4.2地标的作用是什么？
- 4.3地标(Landmark)怎么选择？
- 4.4 核函数种类(拓展)
5.SVM的应用
- 5.1 SVM和核函数的结合
- 5.2 多分类SVM
- 5.3 SVR(Support Vector Regression)
- 5.4 SVM的一些注意点

1.支持向量机(SVM,Support Vector Machine)的数学表达

本章中的向量和矩阵不再加粗，请读者自行判断，如有疑问可以留言咨询。

1.1从逻辑回归过渡到SVM

从另一角度分析逻辑回归的sigmoid函数。对于二分类问题，我们希望的是
$如果y=1,那么h_θ (\textbf{x})→1，⟺\textbf{θ}^T \textbf{x}≫0$
$如果y=0,那么h_θ (\textbf{x})→0，⟺\textbf{θ}^T \textbf{x}≪0$
那么，对于一个样本(x,y)来说，逻辑回归的损失函数为：
$cost=-y\log h_θ(x)-(1-y)\log(1-h_θ(x))$
$=-y\log\frac{1}{ 1+e^{-\textbf{θ}^T \textbf{x}}}-(1-y)\log(1-\frac{1}{ 1+e^{-\textbf{θ}^T \textbf{x}}})$
SVM是当y=1时，将 $-\log \frac{1}{ 1+e^{-z}}$ 项替换为 $cost_1(z)$ ，其函数图像如上图左所示，由两条直线表示；同理当y=0时，用 $cost_0(z)$ 替代 $-\log (1-\frac{1}{ 1+e^{-z}})$ 项，如上图右所示。其中，cost(z)函数由于像门的合叶，因此也叫Hinge损失函数。
理论上，想要完全区分正负例，只需要 $θ^Tx>0$ 或 $θ^Tx<0$ 即可。但是SVM更加严格，为了表示出 $θ^Tx>>0$ ，所以 $cost_1(z)$ 是以(1,0)作为转折点，而不是(0,0)。 $cost_0(z)$ 同理。

1.2 SVM的损失函数

经过1.1的变化后，可以得到SVM的损失函数表达式如下：
$J(θ)=C\sum_{i=1}^m[y^{(i)}cost_1(θ^Tx^{(i)})+(1-y^{(i)})cost_0(θ^Tx^{(i)})]+\frac{1}{2}\sum_{j=1}^nθ_j^2$
其中，通常C=1/λ。作为对比，以下是逻辑回归的损失函数：
$J(θ)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}\log h(x^{(i)})+(1-y^{(i)})\log (1-h(x^{(i)}))]+\frac{λ}{2m}\sum_{j=1}^nθ_j^2$
通常人们用支持向量机的时候，会把1/m这一项删去，没有特殊的原因，也不会影响最优参数的结果。另外，会在正则项的系数上做一些变化，把原先的超参数λ融入到超参数C中，并从第二项移到第一项。虽然数学本质相同，但是表达了两个损失函数正则化的侧重点不同：逻辑回归的正则化侧重点在于第二项的正则项，而SVM的侧重点在于第一项。

1.3 SVM的预测值

和逻辑回归不同，SVM输出的不是预测值概率，而直接是类别，即：
$h_θ (x^{(i)})=\begin{cases} 1, if \quad θ^T x^{(i)}≥0\\ 0, if \quadθ^T x^{(i)}<0) \end{cases}$

2. SVM的理解

当C很大的时候会出现什么情况？(相当于正则项很小)
这时根据SVM的损失函数可知，为了尽量减小损失值，又由于C很大，因此会思考使得第一项尽量为0，只留下第二项。要使第一项为零，需要满足如下条件：
$\begin{cases} 当y=1时，cost_1 (θ^T x^{(i)})=0,即θ^T x^{(i)}≥1\\ 当y=0时，cost_0 (θ^T x^{(i)})=0,即θ^T x^{(i)}≤-1 \end{cases}$
此时，损失值的优化问题就转换为：
$\min\limits_θ \frac{1}{2} \sum_{j=1}^n θ_j^2，s.t.\begin{cases} 当y=1时，θ^T x^{(i)}≥1\\ 当y=0时，θ^T x^{(i)}≤-1 \end{cases}$
转化后的优化问题会在完全分割正负例的基础上(如上图的粉线、绿线和黑线)，找到上图黑线的分割线，使得正负例距离分割线最近的样本与分割线的距离最大，因此SVM也叫large margin classifier。图中，正负例距离分割线最近的样本与分割线的距离就称作间距(margin)。
切记，上述情况是在超参数C很大的时候得到的。
实际上，SVM的超参数通常设置的不会很大，也就使得SVM算法本身要比上述的large margin classifier更成熟。这体现在SVM对于离群样本等异常值的处理，比如下图：
当C选很大时，最终可能得到的是图中粉色的分割线。而SVM中选择合适的C数值时，最终可以得到黑色分割线。很明显，黑色分割线是更符合实际的。
因此，超参数C其实和逻辑回归的超参数λ类似，可以控制模型的泛化能力。但效果与λ正好相反。当C较大时，相当于λ较小，可能导致模型过拟合；当C较小时，相当于λ较大，可能导致模型欠拟合。

3. SVM的推导

为什么SVM算法能找出间距最大的决策边界？

3.1 吴恩达课程的思路

1).向量内积的几何说明
假设两个向量 $u ⃗, v ⃗$ 。
向量内积 $u ⃗ \cdot v ⃗ = p \cdot ∣ ∣ u ⃗ ∣ ∣$
其中，p是向量v ⃗投影到向量u ⃗上的长度，是个标量。注意，此处p是由正负的，如果两个向量夹角大于90°，则p是负值，如下图。
其实就是向量 $u ⃗$ 的范数，即长度，也是标量。
2). SVM的决策边界
如第2章中SVM的优化问题转换为：
$\min\limits_θ \frac{1}{2} \sum_{j=1}^n θ_j^2，s.t.\begin{cases} 当y=1时，θ^T x^{(i)}≥1\\ 当y=0时，θ^T x^{(i)}≤-1 \end{cases}$
假设 $θ=(θ_0,θ_1,θ_2)'$ ，令 $θ_0=0$ 方便理解且不影响后续推导的正确性。此时有：
$\min\limits_θ\frac{1}{2}\sum_{j=1}^nθ_j^2=\frac{1}{2}(\sqrt{θ_1^2+θ_2^2})^2=\frac{1}{2}||θ||^2等价于\min\limits_θ||θ||$
其中，限制条件s.t.又可以改写成：
$s.t.\begin{cases} 当y=1时，θ^T x^{(i)}≥1\\ 当y=0时，θ^T x^{(i)}≤-1 \end{cases}⟺ \begin{cases} p^{(i)}· ||θ||≥1\\ p^{(i)}· ||θ||≤-1 \end{cases}$

其中， $p^{(i)}$ 是样本 $x^{(i) }$ 投影到参数向量θ上的距离。此处需要注意，参数向量其实就是最终决策边界的法向向量，所以样本 $x^{(i) }$ 投影到参数向量θ上的距离 $p^{(i)}$ ，其实就是样本 $x^{(i) }$ 和决策边界的距离。
因为限制条件s.t.已经把决策边界控制在绝大部分正例在边界一侧，绝大部分负例在边界另一侧，因此对于负例来说， $p^{(i)}<0$ (如下图)。所以上述限制条件其实可以统一写成：
$p^{(i)}· ||θ||≥1$
综上所述，SVM想要使得||θ||最小，那么，根据限制条件可知，等价于使得 $p^{(i)}$ 最大，即样本点到决策边界的距离越大越好。因此，SVM算法能找出间距最大的决策边界。

3.2 更数学的SVM推导思路

1).支持向量机原理的引论
对于一般的直线：Ax+By+C=0，某点 $x_0,y_0)$ 到该直线的距离为：
$d=\frac{|Ax_0+By_0+C|}{\sqrt{A^2+B^2}}$
其实 $Ax_0+By_0+C|=±(Ax_0+By_0+C)$ ，正负只是说明该点实在直线的正半区还是负半区，无实际数值意义，所以正负可以去掉，所以有：
$d=\frac{Ax_0 }{\sqrt{A^2+B^2}}+\frac{By_0 }{\sqrt{A^2+B^2}}+\frac{C}{\sqrt{A^2+B^2}}$
上式可以看成向量的形式：
$d=\begin{bmatrix} \frac{A}{\sqrt{A^2+B^2}}\\ \frac{B}{\sqrt{A^2+B^2}} \end{bmatrix}(x_0\quad y_0)+\frac{C}{\sqrt{A^2+B^2}}$
令：
$⃗^T=\begin{bmatrix}A\\B\end{bmatrix},x=(x_0\quad x_1=y_0),b=\frac{C}{\sqrt{A^2+B^2}},||w||=\sqrt{A^2+B^2}$
$∴d=\frac{1}{||w ⃗ ||}w ⃗ ^T·x+b$
如果 $\frac{1}{||w ⃗ ||}w ⃗ ^T$ 是归一化后的向量， $x ⃗$ 是数据的特征组成的某样本点向量，那么 $d=\frac{1}{||w ⃗ ||}w ⃗ ^T·x ⃗ _1+b$ 表示的就是样本点 $x ⃗_1$ 到“直线 $0=\frac{1}{||w ⃗ ||}w ⃗ ^T·x+b$ ”的距离(正负表示正半区或负半区)。每个样本点都能求出一个距离值。所以我们需要找一条直线，使得最近的样本点距离该直线最远。即：
$(w^*,b^* )=\arg⁡\max\limits_{w,b} \min\limits_i⁡(\frac{1}{||w ⃗ ||} w ⃗^T·x ⃗_i+b)$
推广到多维空间，所求的就是一个分割超平面。

2).线性可分支持向量机
记样本点数据为：
$T={(x_1,y_1 ),(x_2,y_2 ),…,(x_N,y_N )}$
其中， $x_i∈R^n,y_i∈{+1,-1},i=1,2,…,N$ ；(若n>1则，x_i为向量)
称x_i为第i个实例， $y_i$ 为 $x_i$ 的类标记，当 $y_i=+1$ 时，称 $x_i$ 为正例；反之 $y_i=-1$ 时，称 $x_i$ 为负例。(为什么这边要用±1？因为后边方便推导。当然也能多分类，只是用2分类推导作示例。另外，可以调高数值来调高正例或负例的权值，比如用-1和50，则说明正例权值调高。在样本不平衡时比较有效)
给定线性可分的训练数据集，通过间隔最大化得到的分离超平面为：
$0=\frac{1}{||w^*||}w^*·Φ(x)+b^*$
相应的分类决策函数：(即正为1，负为-1)
$f(x)=sign(\frac{1}{||w^*||}w^*·Φ(x)+b^*)$
该决策函数称为线性可分支持向量机。
其中，Φ(x)是某个确定的特征空间转换函数，作用是将x映射到更高的维度，是已知量，即下文中的核函数。注意，下面推导里， $Φ(x^{ (i)})$ 都是个关于各种特征的向量。
该问题等价于求解相应的凸二次规划问题。
3).SVM目标函数的推导
根据题设有
令 $y(x)=w ⃗^T·Φ(x)+b$
$\begin{cases} y(x^{(i)})>0⇔y^{(i)}=+1\\ y(x^{(i)})<0⇔y^{(i)}=-1\\ \end{cases}⇔y^{(i)}y(x^{(i)})>0$
w ⃗,b等比例缩放(相当于y=2x+1→y=4x+2)，则t*y的值同样缩放，从而：
$\frac{y^{(i)}y(x^{(i)})}{ ||w||}=\frac{y^{(i)}·(w^T·Φ(x^{(i)})+b) }{ ||w||}>0$
其中，|(|w ⃗ |)|=√(w_1^2+w_22+⋯)，除以||w ⃗||是对w ⃗进行归一化，所以((w ⃗^T·Φ(x_i)+b))/(||w ⃗|| )项就代表样本点到超平面的距离。
所以目标函数就是求解使得距离超平面最近样本的间隔最大的分离超平面：
$\arg\max\limits_{w,b}{\frac{1}{ ||w||}\min\limits_i[y^{(i)}·(w^T·Φ(x^{(i)})+b)]}$
通过w ⃗,b等比例缩放，总能够使得min┬i⁡[(w ⃗^T·Φ(x((i)))+b)]=1，即样本点距离分割平面的最小距离为1。所以有如下不等式：
$i,|y^{(i)}|=|y^{(i)}·(w^T·Φ(x^{(i)})+b)|≥1$
由于上述不等式的等号是可取的(当选取距离分割平面最近的样本点时取得)，所以目标函数转变为：
$\arg\max\limits_{w,b} \frac{1}{||w ⃗||}\min\limits_i[y^{(i)}·(w ⃗^T·Φ(x^{(i)})+b)]⇒\arg\max\limits_{w,b}\frac{1}{||w ⃗||}$
$\frac{1}{||w ⃗||}$ 求最大值其实就是 $∣ ∣ w ⃗ ∣ ∣$ 求最小值。因为 $∣ ∣ w ⃗ ∣ ∣$ 有根号，所以再将 $∣ ∣ w ⃗ ∣ ∣$ 取平方加系数0.5，即可得到最后的目标函数：
$\arg\max\limits_{w,b}\frac{1}{ ||w||}⇒\arg\min\limits_{w,b}\frac{1}{2}||w||^2$
$s.t.(约束条件)：∀i,|y^{(i)}|=|y^{(i)}·(w^T·Φ(x_i)+b)|≥1$
仔细观察可以发现，两者的解释角度虽然不太一样，但是最终的结果是一致的。吴恩达的思路更容易理解，是从直观角度进行解释；而邹博的解释比较理论，是从数学角度进行解释。
4).SVM目标函数优化问题的求解(拓展)
有时间再加上。

4.核函数(kernels)

4.1定义

核函数是某个确定的特征空间转换函数，作用是将x映射到其他维度。
如上图，通过高斯核函数，就将二维平面的样本集，映射到高维空间，使得样本原来线性不可分，转换为了线性可分。
核函数举例：
给定一组训练实例x，利用x的各个特征和我们预先选定的地标(landmarks) $l^{(1)},l^{(2)},l^{(3)}$ 的相似度(similarity)作为新的特征 $f_1,f_2,f_3$ 。如下图所示：

$f_i=similarity(x,l^{(i)})=exp(\frac{-||x-l^{(i)}||^2 }{ 2σ^2})$
其中， $||x-l^{(i)}||^2=\sum_{j=1}^n(x_j-l_j^{(i)})^2$ ，是样本x中所有特征与地标 $l^{(i)}$ 之间的距离之和。此处 $k(x,l^{(i)})=similarity(x,l^{(i)})$ 就是高斯核函数，是核函数的一种。

4.2地标的作用是什么？

如果样本x与地标 $l^{(i)}$ 之间的距离近似于0，则新特征 $f_i→1$ ；反之，如果距离较远，则新特征 $f_i→0$ 。所以可以看出，新特征与地标的位置关系十分密切。
另外高斯核函数中的超参数σ控制了特征的泛性，σ越大，则特征的泛性越大，如下图。
通过设置地标，可以看到下图中，当θ=(-0.5,1,1,0)时，大概处于红色范围内的区域，预测值 $h_θ (x)=1$ 。而其他区域，预测值 $h_θ (x)=0$ 。所以，可以看出，地标基本上构建了一个非线性的决策边界。

4.3地标(Landmark)怎么选择？

通常是根据训练集的数据选择地标。如果训练集有m个样本，那么就选择m个地标，并且有 $l^{(i)}=x^{(i)}$ ,i=1,2,…,m。注意，新特征 $f=[f_0,f_1,…,f_m]$ 中，通常也包含 $f_0=1$ 这一特征。

4.4 核函数种类(拓展)

1).多项式核函数
$k(x,l)=(α·‖x-l‖^a+r)^b，α,a,b,r为常数$
2).高斯核函数RBF
$k(x,l)=exp⁡(\frac{-‖x-l‖^2}{2σ^2})，σ是超参数$
3).Sigmoid核函数
$k(x,l)=tanh⁡(γ·‖x-l‖^a+r)，γ,a,r为常数$
核函数的选择：
1).如果有先验知识，知道要用哪种核函数，那就用该核函数；
2).如果数据够多，可以用实验的方式，交叉验证，选择效果最好的核函数；
3).如果没有任何先验知识，那就使用高斯核函数。(因为高斯核可以说是把数据映射到无穷维的空间，所以区分度就很强。但是也要注意过拟合问题。)

理论上，核函数也可以用在逻辑回归等地方，但是由于数学表达式不同，其他算法用核函数的计算量会很大，而SVM的算法中，刚好可以对核函数的计算做一点点改善，而大大提高算法效率(具体方法查阅数学理论)。所以通常核函数这种方法是用在SVM中。
也不是所有函数都能用作核函数，通常核函数需要满足“Mercer‘s Theorem”,才可以使核函数在优化计算中大大加速且保证收敛，否则，不满足条件的函数加入SVM后效率非常低，甚至会发散。

5.SVM的应用

5.1 SVM和核函数的结合

1).给定样本集 ${x^{(i)}}$ ,使用核函数计算新特征样本集 ${f^{(i)}=k(x^{(i)},l^{(i)})}$ ；
注意，在使用高斯核函数前，必须做一下特征的缩放，因为特征值的范围通常非常不同。
2).将修改后的样本集代入SVM的损失函数进行优化计算：
$J(θ)=C\sum_{i=1}^m[y^{(i)}cost_1(θ^Tf^{(i)})+(1-y^{(i)})cost_0(θ^Tf^{(i)})]+\frac{1}{2}\sum_{j=1}^{n(n=m)}θ_j^2$
实际使用时，在计算∑_(j=1)^{(n(n=m))▒θ_j}2 =θ^T θ时，其实是计算了θ^T Mθ，M矩阵的选择是根据核函数而定的，这样做可以大大加快计算速度，原理这里不介绍了。所以，通常SVM的最优参数的求解是利用已有函数库来解决。
3). SVM主要调参超参数是两个，一个是C，一个是核函数的σ。
C较大时，相当于λ较小，可能会导致过拟合，高方差；
C较小时，相当于λ较大，可能会导致欠拟合，高偏差；
σ较大时，可能会导致欠拟合，高偏差；
σ较小时，可能会导致过拟合，高方差；

5.2 多分类SVM

类似于逻辑回归的one vs all方法。

5.3 SVR(Support Vector Regression)

SVM处理回归问题，即SVR。有时间再补充。

5.4 SVM的一些注意点

1).不使用任何核函数，也叫做使用“线性核函数”；
2).如果当n≫m时(eg:n=10000+,m=10~1000)，即特征数量远大于样本数量，会使用逻辑回归或者不使用核函数的SVM，因为特征数量太大，核函数的使用会明显影响算法效率；
3).如果n较小，且m适中(eg:n=1~1000, m=10~10000)，使用高斯核函数的SVM；
4).如果m≫n(eg:n=1~1000,m=50000+)，要么增加样本特征，要么使用逻辑回归或者不使用核函数的SVM，不用核函数是因为算法效率会大大下降；
5). SVM是个凸优化过程，所以不用担心寻找到的是局部最优解。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方