薯饼__

《白话大数据与机器学习》

白话大数据与机器学习

- 第四章
- - 高斯距离曼哈顿距离
  - 同比和环比
  - 高斯分布（正态分布）
  - 泊松分布
  - 伯努利分布
- 第六章信息论
- - 信息量
  - 香农公式
  - 信息熵
  - 多维空间
- 第八章回归（分类算法）
- - 线性回归
  - 过拟合
  - 欠拟合
- 第九章聚类
- - 9.1 K-means 算法
  - 9.3 孤立点
  - 9.4 层次聚类
  - - 层次聚类的应用
  - 9.5 密度聚类
  - 9.6 聚类评估
  - - 9.6.1 聚类趋势
    - 9.6.2 簇数决定
    - 9.6.3 测定聚类质量（轮廓系数 Silhouette Coefficient）
- 第十章分类
- - 10.1 朴素贝叶斯
  - 10.2 决策树归纳
  - - 信息增益
    - 连续型变量
    - - 前剪枝
      - 后剪枝
  - 10.3 随机森林
  - 10.4 隐马尔可夫模型（*）
  - 10.5 支持向量机SVM
  - - 年龄和好坏
    - 超平面
    - N维空间中的距离
    - 核函数
    - SVM小结
  - 10.6 遗传算法（**）
- 第十一章关联分析
- - 11.1 经典的Apriori算法
  - 11.2 关联分析和相关性分析
  - 11.3 稀有模式和负模式
- 第十三章推荐算法
- - 13.2 user-base CF
  - 13.3 item-based CF
  - 13.4 优化问题
- 第十四章文本挖掘
- - 14.1 文本挖掘的领域
  - 14.2 文本分类
  - - (1)分词
    - (2)文本表示
    - (3) 分类标记
    - 14.2.1 Rocchio算法
    - 14.2.2 朴素贝叶斯算法
    - 14.2.3 K-近邻算法（KNN)
    - 14.2.4 支持向量机的SVM算法
- 第十五章人工神经网络(^)
- - 常见的神经网络
  - - BP神经网络
    - - 结构和原理
      - 训练过程
    - 玻尔兹曼机（*）
    - 卷积神经网络

该笔记只摘取重要部分进行记录，像有些章节讲述平均值，加权平均这些就没有记录，括号里面写*是属于略读而过的;标注 * * 的是完全没有读过埋坑;
标注^的是其中有部分内容有着比较详细的过程来不及做笔记的。

第四章

高斯距离曼哈顿距离

高斯距离是各个维度平方和开方
曼哈顿距离是对于不同维度分别做差之后简单加和

同比和环比

同比：与相邻的同一时期相比，比如比去年同比增长多少多少
环比：直接和上一个报告期的相比，比如相比上个月的报告增长多少多少

高斯分布（正态分布）

u比较大，整个图像的中轴往右边挪动得比较多；
u比较小，整个往左边挪动得比较多；
σ比较大，方差比较大，整个坡比较平缓；
σ比较小，方差比较小，整个坡比较陡。

泊松分布

泊松分布适合描述单位时间内随机事件发生的次数。
1.事件是小概率事件；
2.事件的每次发生都是独立的不会相互影响
3.事件的概率都是稳定的

只要记住这个公式的使用方法就可以了：
发生一件事情A的发生率是λ（总的发生了λ次），A的子事件B发生的次数是k
此时计算发生k次的概率就可以使用泊松分布来计算

伯努利分布

其实就是0-1分布，最简单的二项分布

第六章信息论

信息量

如果每件事件发生的概率是不相等的，那么不能简单地使用事件的个数来衡量单个事件发生的信息量，比如 $log_2 m$ 。此时使用另外一种表达方式，如
$H（X_i）= -log_2 P$
其中 P 是事件发生的概率，这种情况下，P越小（也就是事件的可能性越小），这个信息的信息量越大，比如中国乒乓球对战巴西乒乓球队或者巴西足球对战中国足球队，两个场景中前者获胜（暂且称之为事件A）的概率会比较大，这种事情发生就是没有悬念的。那A事件的信息量就是比较小的。

香农公式

$C = B*log_2 (1+S/N)$
S/N 是信噪比，信噪比越高信号越好。S是信号功率，N是噪声功率。

信息熵

$\sum_{i=1}^{n} p(x_i) log_2 p(x_i)$
其中i = 1 ~ n
在书中总结了一个结论，当且仅当每个事件发生的概率相等时，该场景的信息熵最大。

多维空间

信息冗余有利于提高数据运算；两个正交的维度上的数值不相互影响，比如
{姓名，姓，名，出生年龄} 中姓和名是互相独立的，是正交的，而姓名是依赖于姓和名这两个维度的，称姓名和姓或者名是不正交的。
向量的设计应该采用维度正交的原则。

第八章回归（分类算法）

线性回归

y = ax+b+e
高中物理测小车的运动速度从而来得到重力加速度的实验，得到结论 v = gt.
在实验中其实是一个不太准确的函数 v = gt+e. 其中e是一个不确定的值，也就是这个值在任何实验点带入的情况下它都是取到不同的值，但是它依然有意义，反映了这个曲线的拟合程度。
通过调整g的值使得e（残差）尽可能小。

过拟合

危害：描述复杂；失去泛化能力；

原因：样本太少；把噪声也训练进模型中。

欠拟合

原因：参数过少；拟合不当（不正确）

第九章聚类

9.1 K-means 算法

直接上算法原理：
1.从n个向量对象中选取k个作为初始聚类簇中心
2.根据在步骤1中设置的k个向量（中心对象向量），计算每个对象到这k个中心对象各自的距离
3.对于步骤2中的计算，任何一个向量都与这k个向量有一个距离，距离这个向量最近的中心对象向量就是该向量的中心
4.重新计算每个类簇的中心对象向量位置
5.重复3 4 步骤，知道类簇中向量归类变化极少为止，比如只有少于1%的向量还在类簇之间的归类漂移，此时分类基本完成，结束算法。

k-means需要事先指定类簇的数量；需要实现给定初始的类中心（但个人认为后半句不必要，因为是随机选取）。

9.3 孤立点

谈到聚类算法就要讲到孤立点，产生孤立点的原因可能是：1.数据清洗不当；2.孤立点通常有一些和群体里个体差异极大的样本组成。
在银行的信用卡诈骗识别中，通过对大量的信用卡用户信息和消费行为进行向量化建模和聚类，发现聚类中远离大量样本的点——这些点可能就是银行信用卡诈骗的导致的消费行为。

9.4 层次聚类

自顶向下不断细分种群，这期间可以使用简单的k-means；当然这种做法耗时不建议，接下来介绍一种 AgglomerativeClustering 的算法(scikit-learn)
1.初始化：树根是训练样本向量（没太懂），树叶就是每个单独的样本
2.自底向上：设计几个观察点，散布在整个训练样本中，自下而上进行类簇的合并，合并遵循一定的规则

这些规则有：
1.ward策略：让所有类簇的方差最小化（类内的，方差之和）
2.maximum策略：全连接策略，将类簇之间的距离最大值最小画
3.average linkage策略：将簇之间的距离的平均值最小化

使用这些策略事，只需要如下即可，

from sklearn.cluster import AgglomerativeClustering
# X 是数据集
cls = AgglomerativeClustering(linkage = 'ward' , n_clusters = n_clusters).fix(X)

层次聚类的应用

对于一个人爱听的歌曲进行层次化的聚类，对每首歌的各个信息维度进行向量建模，比如{‘音域’，‘调式’，‘节拍’，‘速度’，‘配乐乐器’}，对上述信息进行量化，可以尝试挖掘这个用户喜欢的歌曲的大类别，以及其下的小类别，或者研究歌曲流行风格进化细化的趋势等。

9.5 密度聚类

算法原理：
1.任意选一个没有类别的核心对象作为种子，然后找到所有这个核心对象密度可达的所有样本组成的集合，作为一个聚类簇
2.接着继续选择另外一个没有类别的核心对象去寻找密度可达的样本集合，直到所有的对象都有类别

from sklearn.cluster import DBSCAN
cls = DBSCAN(eps = 2000, min_samples = 1).fix(X)

eps：设置一个阈值，向外扩展的时候发现这个阈值距离范围内找不到向量，就认为这个类簇已经查找完毕。
min_samples : 告诉算法一个簇最小应该拥有多少个向量，如果这个值设置为3，则算法会认为所有小于3个向量的聚类作为噪声点，将在结果中丢弃。

使用DBSCAN算法可能遇到几种特殊情况，这里只描述一点，某些样本可能到两个核心对象的距离都小于 $\epsilon$ ,
但是这两个核心不是密度直达，又不属于同一个聚类簇，那么一般按照先来后到，先进行聚类簇会标记和这个样本为它的类别。也就是说DBSCAN不是完全稳定的算法。

9.6 聚类评估

（1）估计聚类的趋势。这与其说是聚类的评判指标，不如说是能否进行聚类的条件，该数据集最好拥有非随机结构（分布不均匀的情况）。
（2）确定数据集中的簇数。人为地确定聚类簇的数量，需要考量人为动作是否合理。
（3）测量聚类的质量。使用量化的方法来测量聚类的质量。

9.6.1 聚类趋势

如果样本空间本身是随机的，那么使用聚类肯定是有问题的，在这里我们使用霍普金斯统计量。

算法原理：
1.从所有样本向量中随机找到n个向量，称为p向量，每个向量分别是 $p_1,p_2,p_3.....,p_n$ ，对每一对向量都在样本空间中寻找一个距离其最近的向量，然后求距离（欧式距离），使用 $x_1,x_2,x_3....x_n$ 来表示这个距离。
2.在所有样本容量中，随机寻找n个向量，称为q向量，同样的记为 $q_1,q_2....q_n$ ，然后在样本空间中找到一个最近的向量，使用 $y_1,y_2,y_3.....y_n$ 来表示这些距离。
3.秋初霍普金斯统计量 H

$\frac{\sum_{i=1}^{n} y_i}{\sum_{i=1}^{n} x_i+\sum_{i=1}^{n} y_i}$

如果样本空间是一个均匀的，没有聚类趋势的空间，那么H应该是0.5左右，反之，如果是有聚类趋势的空间，那么H应该趋近于1 。

9.6.2 簇数决定

肘方法：尝试把样本空间划分为1个类，2个类，3个类…n个类。每个类都有若干个向量，计算这些向量的空间中心点（也就是重心），然后计算每个类簇中每个向量和重心的距离的和。然后把m个类簇各自的距离和相加得到一个函数var(n),n 就是类簇数（最后是从横轴得到应该分成多少个类簇的）。
上面这个函数var(n)使用ML中的term即是SSE $\sum_{i=1}^{m} w_i (y_i - \hat{y_i})^2$
当然这里的 $w_i$ 统一使用1，因为边与边之间默认没有权重。放个网图

从两种极端情况来考量这个SSE：平方和最大的情况下应该是分成一个类，也就是不分类的时候，所有的向量到重心的距离都非常大，这样的距离和也是最大的。然后尝试划分为2个类，3个类，4个类…随着分类的增多，第m次划分时，每个向量到自己簇的重心的距离，就会比上一次（m-1次）临近的机会更大，那么这个距离SSE总体上就会缩小。极限情况就是最后分成n个类，n是整个空间向量的数量，每个向量一个类。SSE就等于0，每个向量距离自己的距离都是0。

整条曲线中斜率会逐步下降，一开始是快速下降的，下降过程中有一个拐点，让人感觉从陡变成平滑，那这个点就是要找的点。此时分为m个类簇，再分为更多的类簇，此时没有前面每次的“收获”那么大，此时的m被认为是最合适的类簇数目，曲线类似于人的手肘，称为肘方法。注意课本的距离使用的是曼哈顿距离，也就是说不止可以用SSE，只要一种合适的即可（SSE实际上是一种欧式距离）

9.6.3 测定聚类质量（轮廓系数 Silhouette Coefficient）

其实前面两种不是经常听到的，因为它们偏向于对聚类的可用性进行考量，而测定质量才是对更加微小的效果进行测量。

有内在方法和外在方法，重点考量内在方法，Bcubed精度和Bcubed召回率。内在方法使用轮廓系数（Silhouette Coefficient）注意这里的系数英文名，很多时候在论文中都可以看到这个字眼。

轮廓系数算法原理:
对于有n个向量的样本空间，假设它被分成k个类簇， $C_1,C_2,C_3......C_k$ 。对于任何一个样本空间中的向量v来说，可以求一个从v到本类簇中其他各点距离的平均值 $a (v)$ , 然后还可以求一个v到其他所有各类簇的最小平均距离（从每个类簇挑出一个距离v最近的向量，计算距离），求这些距离的平均值，得到 $b (v)$ ，此时计算轮廓系数为
$\frac{ b(v) - a(v) }{max[a(v),b(v)]}$
这个数的结果在 -1到1之间。 a(v)表示的是类簇内部的紧凑性，越小越紧凑。b(v)表示该类簇和其他类簇之间的分离程度。如果函数值接近1，即a(v)比较小而 b(v) 比较大，说明 v 的类簇相当紧凑，而且远离其他簇，如果为负数，说明b < a,v距离其他的类簇比距离自己所在的类簇还要近，说明这是一个失败的聚类。
为了类簇划分更加合理，可以计算所有簇中所有对象的轮廓系数的平均值，这种做法可能计算量较大，提供两种思路剪枝求近似解：
① 如果轮廓系数是负数可以直接淘汰，进行下一次聚类；
② 对数据进行抽样之后再进行轮廓系数的计算。

在多个正数方案中选择尽可能靠近1的聚类方法即可。

第十章分类

分类算法是机器学习的一个重点，也可以称为“有监督学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类的参数，使其到达所要求的性能的过程。

分类和回归有一定的相似之处：因变量是定量型的归纳学习称为回归，或者称为连续变量预测；因变量是定性型的归纳学习的归纳学习称为分类，或者称为离散变量预测。

10.1 朴素贝叶斯

贝叶斯决策理论方法是统计模型决策的一个基本方法，基本的思想如下：
（1）已知类条件概率密度参数表达式和先验概率
（2）利用贝叶斯公式转换成后验概率
（3）根据后验概率的大小进行决策分类

设 $D_1,D_2,......,D_n$ 为样本空间的一个划分，如果以 $P(D_i)$ 表示 $D_i$ 发生的概率，而且每个P（D）大于0。对于任何一个事件 $x, P (x) > 0$ ，则有 $P(D_j|x) =\frac{P(x|D_j)P(D_j)}{\sum_{i=1} ^{n}P(x|D_i)P(D_i)}$

在一个样本空间里有很多事件发生， $D_i$ 就是指不同的事件划分，并且 $D_i$ 可以把整个空间划分完毕，在每个 $D_i$ 事件发生的同时都记录着事件x的发生；等式的右边分母就是 $D_i$ 发生时发生x发生的概率加和 $D_i$ 。所以分母这一项其实就是在整个样本空间里，x发生的概率。 $P(D_j|x)$ 这一项是指x发生的情况下， $D_j$ 发生的概率。右侧的分母和左侧相乘得到在全样本空间中，在x发生的情况下又发生 $D_j$ 的情况的概率。右侧分子部分的含义是 $D_j$ 发生的概率乘以 $D_j$ 发生的情况下又发生 $x$ 的概率。
所以贝叶斯公式也可以写成
$P(D_j|x)P(x) = P(x|D_j)P(D_j)$
也就是说在全样本空间中，发生x的概率乘以在发生x的情况下发生D_j的概率，等于，发生 $D_j$ 的概率乘以在发生 $D_j$ 的情况下发生x的概率。

也可以简写为 $P (A ∣ B) P (B) = P (B ∣ A) P (A)$
这个公式也成为朴素贝叶斯公式，naive bayesian.
$P (A)$ 叫做A事件的先验概率，在一般情况下，认为A发生的概率；
$P (B ∣ A)$ 叫做似然度，在A假设条件成立的情况下发生B的概率；
$P (A ∣ B)$ 叫做后验概率，在B发生的情况下发生A的概率，也就是要计算的概率；
$P (B)$ 叫做标准化常量，和A的先验概率定义类似，在一般情况下，B的发生概率。
注意对比一下代码，不同于聚类的代码的是，我们在fix的过程需要有Y，这也是有监督算法和之前无监督算法的根本区别

from sklearn.naive_bayes import GaussianNB
clf = GaussianNB().fix(X,Y)

sklearn中有几种贝叶斯分类的变种模型，其中以上代码使用了高斯朴素贝叶斯
（1）高斯朴素贝叶斯
（2）多项式朴素贝叶斯
（3）伯努利朴素贝叶斯

（1）利用了高斯概率密度公式唉进行分类拟合的；
（2）多用于高维度向量分类，最常用的场景是文章分类；
（3）伯努利朴素贝叶斯一般是针对布尔类型特征值的向量做分类的过程。
（本身伯努利就是一种0-1分布）

10.2 决策树归纳

信息增益

还记得我们在之间讲过信息熵 $-\sum_{i=1}^{m} p_i log_2 p_i$
这是一个加和结果，m的数量就是分类（决策）的种类，就是分支的个数。从熵的定义来看，如果熵越大说明信息混乱程度比较大，做切割时比较复杂，要切割若干次才能完成。
那对于决策树算法来说，目的就是消除信息混杂，哪种切分的方法能使得信息混乱消除程度最大，说明这种方法的效果就会更好。
假设用某个字段A来划分，在这种划分规则下，熵为 $info_A = - \sum_{j=1}^{v} p_j * info(A_j)$
info_A就是指要求的熵，v就是分支的个数， $p_j$ 表示这个分支的概率，也可以认为是一种权重， $info_A$ 就是在当前分组状态下的期望信息值。

连续型变量

设定一个阈值，将节点进行切分

前剪枝

提前终止树的构造

后剪枝

等树完全构造完了之后，再进行剪枝
（这部分内容书中没有过多的内容，详细的剪枝策略可以谷歌）

10.3 随机森林

在决策树中会遇到过拟合和欠拟合的问题，在随机森林算法中，在一棵树上不会追求极其精确的拟合，希望决策树的简洁和计算的快速

（1）随机挑选一个字段构造树的第一层
（2）随机挑选一个字段构造树的第二层
…
（）随机挑选构造n层
（）按照以上的方式构造m棵决策树

原则：
1.树的层数一般比较浅；
2.每棵树的分类都不能保证分类精度很高；
3.一个样本进行分类时同时对这m棵决策树做分类概率判断；

由于决策树的数量多了，那此时一定能得到比较好的决策划分。

10.4 隐马尔可夫模型（*）

这块内容基本看了一遍，但是对于HMM书中更多的是讲了一个例子，没有讲太难的理论，因此没有过分总结
隐含状态，转换概率，可见状态链，隐含状态链；
维特比算法
前向算法

10.5 支持向量机SVM

年龄和好坏

假设客户的好坏只和年龄有关，那么可以在某个年龄的分水岭切一刀，左右分别是好客户和坏客户

关键点
1.切入点在SVM中称为超平面：一位是一个点，二维是一条线，三维是一个面
2.过拟合：容易导致一刀切，分割边界有一些错误分类的点
3.不纯度：在降低不纯度的同时，需要考虑降低不纯度而做出的训练成本

超平面

在平面直角坐标系中，如果有一条直线，方程 Ax+By+C = 0,那么点（x0,y0）到达该直线的距离如下 $d=\frac{|Ax_0+By_0+C|}{\sqrt{ A^2+B^2}}$ 如果数轴（也就是一维）上也需要类似的，”x-27.5>0“对应好的客户，”x-27.5<0“代表不好的客户；
如果是二维的平面，如上式所示，”Ax+By+C > 0“就是好的客户，”Ax+By+C<0“就是不好的客户；
如果是三维空间上，那就是 AX+BY+CZ+D>0…
如果是四维空间，那就是AX+BY+CZ+Dα+E>0…
一般的，超平面写成 $g (v) = w v + b$ v 是样本向量，b是常数。
在二维空间中v=(x,y),wt = AX+BY;三维v=(x,y,z),wt = AX+BY+CZ;也就是说， $g(x) = w^T x + b$ 或者 $\bm{wx} + b$

N维空间中的距离

$d=\frac{|Ax_0+By_0+C|}{\sqrt{ A^2+B^2}}$
由这个式子可以归纳得出距离公式可以写成 $\frac{|g(v)|}{||\bm{w}||}$
||w|| 是范数，是超平面方程的各维度系数的平方和再开方，范数有欧几里德范数和绝对值范数，具体wiki一下。

核函数

核函数的作用就是把在当前维度下线性不可分的问题映射到高维度上去，构造分类函数，核函数有线性核函数，多项式核函数，径向基核函数，高斯核函数等等。
这里映射到高维度有点抽象，研究二维空间上的向量分类问题，经过核函数映射，最后得到的超平面变成了二维空间上的曲线，同时也是三维空间上的一次方程；三维空间上的向量分类问题，经过核函数映射，最后得到的超平面变成了三维空间上的曲面，同时也是思维空间上的一次方程，实际上这在数学上只是一个变量代换关系，不用深究。

SVM小结

SVM解决问题的方法可以总结为：
1.把所有的样本和对应的分类标记交给算法进行训练；
2.如果发现线性可分，直接找出超平面；
3.如果线性不可分，映射到n+1维空间，找出超平面
4.最后得到超平面的表达式，也就是分类函数

10.6 遗传算法（**）

第十一章关联分析

啤酒和尿布案例
支持度和置信度
支持度：就是百分比
置信度：就是条件概率，有向的；购买了啤酒里面购买了香烟的占比不等于购买了香烟里面购买了啤酒的占比。

11.1 经典的Apriori算法

1.设置一个最小支持度作为阈值门限值进行扫描，对同时过滤最小支持度和最小置信度这两个操作来说，最小支持度的查找更为简单一点。
2.查找满足条件的2项模式，根据已经过滤出的单品，组合一下看候选的2项模式有哪些。（本算法中假设只使用了支持度来过滤）
3.如果要寻找3项模式，那么需要在1项和2项满足模式中取出来进行组合，满足阈值即可。

求出所有的频繁模式
在所有的2项模式中找出置信度符合条件的，正向一次，反向一次。

11.2 关联分析和相关性分析

提升度 $\frac{P(B|A)}{P(B)}$
其实就是贝叶斯公式（一直贝叶斯一直爽）

11.3 稀有模式和负模式

设置一个小的多的数字作为过滤条件。如果X和Y都是频繁出现的，但是很少或者不会一起出现，那么就说X和Y是负相关的。或者说X和Y组成的模式的支持度远远小于X的支持度和Y的支持度，那么就说X和Y是负强相关的。

第十三章推荐算法

生活中的推荐系统就不举例子了，随处都是

13.2 user-base CF

余弦值cos的求解可以简单wiki一下，高一或者初中都有学过

用户001 {8,7,8,5,8}
用户002 {10,7,2,4,null}
这几个字段分别表示白酒红酒女装（雾）男装运动鞋，就是用户在这些领域上的喜好
这里计算一下用户1和用户2的相似度，将上述两个向量带入余弦值的求解公式中即可，结果等于0.89，接近于1，说明用户1和用户2的相似度还是很高的。

这种就是朴素的基于用户的协同过滤算法思路

13.3 item-based CF

基于商品的协同过滤算法。整个算法的核心就是，有很多人喜欢商品A，同时他们喜欢商品B，因此A和B应该是比较类似的商品。
公式 $\frac{N(A∩B)}{\sqrt{N(A)·N(B)}}$
为了方便可以构造一个临接矩阵存所有商品两两之间的cos值（只是这里的cos值和刚才的定义已经不一样了，但是为了方便我们还是称之为cos）

如何应用这个算法呢？要对一个用户做推荐的时候，先把这个用户的历史购买记录列出来，每件商品都有对应的相似度比较高的商品，选出来之后top排序一下，推荐给用户即可

13.4 优化问题

规模和效率 可以进一步筛选缩小数据规模，减少运算量（指item-base CF
覆盖率 意思就是我们希望生成一个种类比较多的推荐列表，而不是我买了一把乒乓球拍之后，淘宝的猜你喜欢底下，全是各种各样品牌的乒乓球

解决覆盖率问题只要将数据归一化即可。

第十四章文本挖掘

14.1 文本挖掘的领域

搜索和信息检索，搜索引擎和关键字搜索
文本挖掘，使用聚类，对词汇，片段，段落或者文件进行分组和归类
文本分类，对词汇，片段，段落或者文件进行分类
web挖掘，在互联网上进行数据和文本挖掘，并特别关注网络的规模和相互联系
信息抽取，从非结构化文本中识别与提取有关的事实和关系；从非结构化或者半结构化文本中提取出结构化数据的过程
自然语言处理NLP，将语言作为一种有意义的，有规则的符号系统，在底层解析和理解语言的任务；目前的技术主要从语法和语义的角度发现语言最本质的结构和所表达的意义
概念提取，把单词和短语按照语义分成意义相似的组

14.2 文本分类

(1)分词

由于文本本身是半结构化或者非结构化，没办法直接做向量标记，所以第一步总是分词。SLM（基于统计语言模型）—— NLPIR汉语分词系统——ICTCLAS2013
召回率 检索出的相关文档数和文档库中所有相关文档数的比率，衡量了检索系统的查全率
精度检索出的相关文档数与检索出的文档综述的比率，衡量了系统的查准率
放一张wiki的图，不止是在文本挖掘，ML中也常用到这两个衡量指标

(2)文本表示

$w_1,w_2,w_3.......w_n)$ 其中w_i是第i个特征项的权重，一般选词作为特征项，权重用词频表示，词频分为相对词频和绝对词频。
词频TF 是一个词语出现的次数除以该文件的总词数。文件频率 $I D F$ ,是有多少份文件出现过“汽车”这个词(假设100)，然后除以所有的文件（假设1k）。
最后的 $T F - I D F$ 就等于 $log_{10} 1000/100 * TF$ , 其中 $log_{10} 1000/100$ 就是逆文件频率。 TF-IDF分数和词频以及逆向文件频率成正比。

也就是说，如果一个词在一篇文章中出现的频率TF比较高，并且在其他文章很少出现，那这个词汇具有很高的类别区分能力，适合用来分类。TF-IDF越高说明这个词具有更高的类别区分能力。

(3) 分类标记

前面得到的分词和分词权重要和分类的标签产生一个映射关系，可以基于概率来实现，可以基于向量空间的回归来实现。

14.2.1 Rocchio算法

给每一个文档的类别都做一个标准向量（原型向量），然后用待分类的文档的向量和这个标准向量比一下余弦相似度，相似度越高可能属于该分类。反之则不然。

文章1：（‘坦克，0.05’，‘侵略，0.03’，‘反击，0.01’，‘战争，0.03’，‘爆发，0.01’，‘动员，0.01’，…）
类似这样的向量就是原型向量，这样的维数可以是几万的。
然后计算新文章和老文章（有娱乐，经济，体育，军事类）进行计算余弦相似度，那么结果显而易见应该是归类到了军事中。
Rocchio有一种改进的版本，不仅有正样本，还有负样本，在计算相似度得出推荐结果的时候，还可以加入一种权衡——也尽量选和负样本尽可能不相同的类别。

比较致命的两个缺陷：
1.一个类别的文档仅仅聚集在一个质心的周围，实际文章却往往不是如此
2.训练数据是绝对正确的，没有任何定量衡量样本是否含有噪声的机制，错误的分类数据会影响质心的位置

14.2.2 朴素贝叶斯算法

朴素贝叶斯关注的是文档属于某个类别的概率，文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数来粗略估计。
前两步依然是分词和向量化
朴素贝叶斯公式 $P(D_j|x) = \frac{P(x|D_j)P(D_j)}{\sum_{i=1}^{n}P(x|D_i)P(D_i)}$

x,y,z代表类别比如军事娱乐经济；D表示某个词的词频；但是需要强调的是，后文的 $P(x|D_j)$ 是对这个文本所有词一起做计算。

这里解释一下第四部怎么算词向量的似然 $P(D_j|x) = P(D_1|x) P(D_2|x)..........P(D_1000|x)$
完了之后底下这个式子就是我们的终极目标，也就是第五步在干的事情，
$P(x|D_j) = \frac{P(D_j|x)P(x)}{P(D_j)}$
$P(D_j)$ 设置为1,对于已经拿到的待分类样本，所有词频发生的概率就已经是1了
$P (x)$ 很好理解，就是训练集中这一类的样本个数，比如军事类的训练集有100，总共有300篇文章，那就是0.333333。

14.2.3 K-近邻算法（KNN)

注意KNN和K-means没有一毛钱关系

插一段wiki关于KNN的解释

在模式识别领域中，最近邻居法（KNN算法，又译K-近邻算法）是一种用于分类和回归的非参数统计方法[1]。在这两种情况下，输入包含特征空间（Feature Space）中的k个最接近的训练样本。

在k-NN分类中，输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的，k个最近邻居（k为正整数，通常较小）中最常见的分类决定了赋予该对象的类别。若k = 1，则该对象的类别直接由最近的一个节点赋予。
在k-NN回归中，输出是该对象的属性值。该值是其k个最近邻居的值的平均值。
最近邻居法采用向量空间模型来分类，概念为相同类别的案例，彼此的相似度高，而可以借由计算与已知类别案例之相似度，来评估未知类别案例可能的分类。

K-NN是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。k-近邻算法是所有的机器学习算法中最简单的之一。

无论是分类还是回归，衡量邻居的权重都非常有用，使较近邻居的权重比较远邻居的权重大。例如，一种常见的加权方案是给每个邻居权重赋值为1/ d，其中d是到邻居的距离。

邻居都取自一组已经正确分类（在回归的情况下，指属性值正确）的对象。虽然没要求明确的训练步骤，但这也可以当作是此算法的一个训练样本集。

k-近邻算法的缺点是对数据的局部结构非常敏感。本算法与K-平均算法（另一流行的机器学习技术）没有任何关系，请勿与之混淆。

其中最核心的一句话就是
在k-NN分类中，输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的，k个最近邻居（k为正整数，通常较小）中最常见的分类决定了赋予该对象的类别。若k = 1，则该对象的类别直接由最近的一个节点赋予。
在k-NN回归中，输出是该对象的属性值。该值是其k个最近邻居的值的平均值。
它的缺点也是十分致命的，效率极其低，需要把带分类样本和训练数据全部做一次对比，然后top一下相似度最高的，而且这种算法没有所谓的训练过程，有了数据即可进行分类。

14.2.4 支持向量机的SVM算法

还记得我们的
$g (v) = w v + b$
只不过此时由于是整个文本，所以v的维数为非常多。

总体来说SVM分类器的文本分类效果最好，可以认为是最好的分类器之一，它有很多优点，通用性比较好，分类精度高，分类速度快，分类速度和训练样本个数无关；查准率和查全率都好过KNN以及朴素贝叶斯方法。

训练速度很大程度受到训练集规模的影响（因为v的维数多），计算开销比较大，针对SVM，有很多改进方法，chunking,Osuna,SMO,交互SVM等等。

径向基核函数和线性核函数比较常用的两个核。文章分类一般使用线性核函数，这种函数的计算效率极高，对文章的分类的准确性也非常高。

第十五章人工神经网络(^)

神经网络有以下几个非常优秀的特点：
1.大规模并行分布式结构
2.神经网络的学习能力以及由此而来的泛化能力

单个细胞人工神经网络一般用来处理手写识别、垃圾邮件分类、金融欺诈行为，网络注册用户是否真实等等。

神经网络和SVM的思路的不同之处在于，在线性不可分的时候，SVM会映射到高维空间去划分超平面，而神经网络是增加输入的变量、网络层次、输出层。

常见的神经网络

感知机网络 单细胞的神经网络就是感知机最简单的形式
BP神经网络，按误差逆传播的多层前馈网络（Back Propagation）
自组织特征映射神经网络，SOM
Hopfield网络
玻尔兹曼机网络
卷积神经网络 CNN

这里重点介绍几种比较重要的

BP神经网络

误差逆传播算法训练的多层前馈网络，构建的思路比较简单。

如图所示是两层的，只有隐含层和输出层是参与计算和权值调整的节点层。

结构和原理

激活函数logistic函数 $\frac{1}{1+e^{-(w^T v+b)}}$
实际上是两个函数 $\frac{1}{1+e^{-t}}$ 和函数 $t = w^T v + b$ 的复合函数。
其中外层函数也可以写成 $\frac{1}{1+e^{-mt}}$
其中m是可以调整的参数，m越大越陡。分类边界就更加果断。

训练过程

训练其实就是为了得到每个树突上的权值，分为三个部分：
（1）误差计算
（2）反向传播
（3）权值修正
这部分推导公式比较多，有空再补上，埋个坑，本质就是求出一个关于误差的函数，然后求这个函数的极值，求极值用到的方法是步长试探方法，也就是梯度下降方法。

玻尔兹曼机（*）

卷积神经网络

一般来说，卷积神经网络包括两层
第一层是特征提取层，每个神经网络的输入和前一层的局部接受域相连，并提取该局部特征。
第二层为特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核销的sigmoid函数作为卷积神经网络的激活函数，使得特征映射具有位移不变性。

权值共享降低网络的复杂性
由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这个特色也是卷积神经网络独有的。两次特征提取结构减小了特征分辨率，关于CNN的详细计算过程参考吴恩达的慕课视频。

卷积
基于卷积的图像识别
1.设计卷积层
2.设计采样层（池化层）

你可能感兴趣的:(笔记,机器学习,数据挖掘,神经网络)

侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
WHAM 人体3d重建部署笔记 AI算法网奇深度学习宝典 3d 笔记
目录依赖项：mmpose的依赖项：demo脚本WHAM:ReconstructingWorld-groundedHumanswithAccurate3DMotion2024依赖项：pipinstallmmposemmpose的依赖项：mmcv>=2.0.0,=3.0.0,=0.4.0,<1.0.0demo脚本Youcantrywithoneexamplarvideo:pythondemo.py--
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
【自学笔记】Linux基础知识点总览-持续更新 Long_poem 笔记 linux 运维
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置总结Linux基础知识点总览目录Linux简介文件和目录结构常用命令文件操作目录操作权限管理文本处理Shell脚本基础进程管理用户和组管理网络配置Linux简介Linux是一个基于Uni
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
c++算法赛万能模板个人笔记适用蓝桥杯，天梯赛，acm等赛事 a东方青个人笔记 c++算法笔记
算法笔记-更新与2025-3-22点赞收藏+关注持续更新算法基础二分整数二分//在一个单调区间里面去找答案boolcheck(intx){/*...*/}//检查x是否满足某种性质//区间[l,r]被划分成[l,mid]和[mid+1,r]时使用：intbsearch_1(intl,intr){while(l>1;if(check(mid))r=mid;//check()判断mid是否满足性质el
【Azure 架构师学习笔记】- Azure Networking(1) -- Service Endpoint 和 Private Endpoint 發糞塗牆 Azure 架构师学习笔记 Azure 网络安全 azure Network
本文属于【Azure架构师学习笔记】系列。本文属于【AzureNetworking】系列。前言最近公司的安全部门在审计云环境安全性时经常提到serviceendpoint（SE）和priavateendpoint（PE）的术语，为此做了一些研究储备。云计算的本质就是网络，默认情况下资源间及外部都是通过公网也就是互联网访问。为了安全，Azure引入了SE和PE等服务。云环境网络流动主要有两个：inb
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
计算机基础：编码02，有符号数编码，原码水饺编程 MFC学习笔记 Win32学习笔记 c++windows mfc c语言
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码（二）MFC专栏导航上一篇：计算机基础：编码01，无符号数编码回到目录下一篇：计算机基础：编码03，根据十进制数，求其原码本节前言上一节，我是讲解
「Kubernetes Objects」- Service（学习笔记） @20210227 k4nzdroid
Service，服务，用于暴露Pod以供访问。官方文档及手册KubernetesAPIv1.18/Servicev1coreService?Pod会被创建，并且还会消失，这由ReplicaSets控制。每个Pod都有自己的IP地址，但是这些IP地址不能视为可靠的。那么，如果前端的一部分Pod依赖于后端的Pod，那前端的这些Pod如何找出并追踪后端的Pod？ServiceService是一个抽象，定
k8s学习笔记（3）--- kubernetes核心技术概念梦谜 k8s基础知识 k8基本核心概念
kubernetes核心技术概念1.容器（Container）2.API对象3.集群（Cluster）4.Master5.Node6.Pod7.复制控制器（ReplicationController，RC）8.副本集（ReplicaSet，RS）9.部署(Deployment)10.服务（Service）11.任务（Job）12.定时任务（CronJob）13.后台支撑服务集（DaemonSet）
关于Go那些懒得看又不得不知道的东西 Hock2024 golang 开发语言后端
写在前面当开始学习go，亦或是cpp、还是java向go进行转职，这部分内容都是比较重要的。go的编译环境，模块管理以及一些基本的语法我认为还是很有必要去学习的，因此重新学习了这个部分并且写下下面的学习笔记！如果有写错或者不全面的地方，还希望大家及时纠正和指导。连接环境首先，作为一个后端er，能使用linux系统是必备的技能，这里我建议可以使用Xshell连接云服务器的方案来完成。云服务器建议使用
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
Eagle_Wood-滤波方式学习笔记 OverflowSummer 嵌入式泛用知识学习笔记人工智能算法嵌入式硬件笔记学习
//1.移动平均滤波器（信号处理）#defineWINDOW_SIZE5floatmoving_average(float*buffer,floatnew_sample){ staticfloatsum=0; staticintindex=0; staticfloatsamples[WINDOW_SIZE]={0}; sum-=samples[index]; samples[ind
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
2025.03.22【读书笔记】| fastq-multx：高效barcode拆分数据解决工具穆易青读书笔记数据处理读书笔记 linux 运维服务器
文章目录1.工具介绍为什么需要`fastq-multx`？`fastq-multx`的特点2.安装方式通过源代码编译安装使用包管理器安装3.使用命令基本命令高级参数设置结语1.工具介绍在生物信息学的世界里，工具的选择至关重要。今天，我们要介绍的这个工具，就是fastq-multx，一个用于高效barcode去复用和demultiplex的解决方案。fastq-multx是一个专门设计用于处理高通量
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring