晴晴_Amanda

CAS-KG——机器学习基础

说明：CAS是国科大的简称，KG是知识图谱的缩写，这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。

课程目标

了解以知识图谱为代表的大数据知识工程的基本问题和方法
掌握基于知识图谱的语义计算关键技术
具备建立小型知识图谱并据此进行数据分析应用的能力

教学安排
详情请见博客：CAS-KG——课程安排

文章目录

1. 机器学习基础理论与概念
2. 神经网络与是深度学习基础
- 感知机 Perception
- 前馈神经网络
3. NLP中的深度学习
4. 语义组合模型
- （1）卷积神经网络
- - 一维卷积、二维卷积、卷积层、滤波器
  - 子采样层
  - CNN的应用
  - 其他各种（奇怪的）卷积模型
- （2）循环神经网络
- - 简单循环网络
  - 长短时记忆神经网络：LSTM
  - 门限循环单元：GRU
  - 应用
- （3）Seq2Seq :Sequence to Sequence Learning
- （4）Transformer相关
- - 自注意力（Self-Attention）模型
  - Transformer: attention is all your need
5. “词”表示模型
- 5.1 神经语言模型
- 5.2 词向量2.0（word2vec）
- 5.3 词向量3.0（ELMo、BERT）
6. 总结

1. 机器学习基础理论与概念

机器学习是什么

机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；
机器学习是人工智能的一个分支,其目的在于使得机器可以根据数据进行自动学习,通过算法使得机器能从大量历史数据中学习规律从而对新的样本做决策；
它目前是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。
机器学习主要是研究如何使计算机从给定的数据中学习规律，即从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。目前，主流的机器学习算法是基于统计的方法，也叫统计机器学习。

规则思维 VS. 统计思维

机器学习 ≈ 构建一个预测函数

机器学习基本流程

对于一个预测任务, 输入特征（向量）为 , 输出标签（one-hot向量）为。根据模型假设选择函数集合,通过学习算法和训练数据集合，从中学习到函数 $f^*(x)$ 。这样，对于新的输入数据（预测对象）,就可以使用函数 $f^*(x)$ 进行预测（计算）。

机器学习方法分类

根据人们需要对机器提供什么样子的标签，机器学习可以分为：

监督学习：从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。
无监督学习：训练集没有人为标注的结果。常见的无监督学习算法有聚类。
半监督学习：介于监督学习与无监督学习之间，部分数据有人为标注，部分数据没有。
增强学习/强化学习：强调如何基于环境而行动，以取得最大化的预期利益。它并不需要出现正确的输入/输出对。强化学习更加专注于规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。

基本机器学习问题类型

分类（Classification）：是离散的类别标记（符号），就是分类问题。损失函数有一般用 0-1 损失函数或负对数似然函数等。在分类问题中，通过学习得到的决策函数 (, ) 也叫分类器。
回归（Regression）：是连续值（实数或连续整数）， () 的输出也是连续值。这种类型的问题就是回归问题。对于所有已知或未知的 (, )，使得(, )和尽可能地一致。损失函数通常定义为平方误差。
聚类（Clustering）：只有原始数据，没有确定的目标()，它基于数据的内部结构寻找观察样本的自然族群（即集群）。聚类的特点是训练数据没有标注，通常使用数据可视化等方式评价结果。

如下图所示，分类要学习到边界的决策函数，回归要学习到一条拟合的曲线，而聚类样本组织成簇。

一个例子：图像分类

如上图所示，给定一个图片，首先要将其编码成机器可以处理的形式，可以用一个 $32 * 32 * 3$ 的RGB形式的矩阵来描述，然后通过一个分类函数，可以得到一个可以表征分类分数的十个数字。机器学习的目标就是学习到代这个函数的参数集合。

机器学习方法示例

训练数据： $(x_i,y_i), 1 \le i \le m$
模型：
- 线性方法： $y=f(x)=w^Tx+b$
- 非线性方法：神经网络
策略：
- 损失函数： $L (y, f (x))$
- 经验风险最小化： $Q(\theta ) = \frac{1}{m}\sum\limits_{i = 1}^m {L({y_i},f({x_i},\theta ))}$
- 正则化： $||\theta||^2$
优化目标函数： $Q(\theta )+\lambda||\theta||^2$

机器学习三要素

模型：首先要考虑的问题是学习什么样的模型。在监督学习中，模型就是所要学习的条件概率函数或决策函数。模型的假设空间包含所有可能的条件概率函数或决策函数。决策函数表示的模型为非概率模型，条件概率的模型为概率模型。
策略：有了模型的假设空间，接着需要考虑是按上面准则学习或者选择最优模型，统计学习的目标在于从假设空间中选取最优模型。
算法：根据学习策略，从假设空间中选择最优的模型的计算方法。往往这个时候就将问题转化为最优化问题。通常问题的解析解不存在，需要用数值计算的方法求解，如何保证找到全局最优解就是个重要问题。

方法=模型+策略+算法

机器学习：模型

狭义地讲，机器学习是给定一些训练样本 $(x_i,y_i), 1 \le i\le N$ （其中， $x_i$ 是输入， $y_i$ 是需要预测的目标），让计算机自动寻找一个决策函数 $f (\cdot)$ 来建立 $x$ 和 $y$ 之间的映射关系。

$\widehat y = f({x_i},\theta )$

为决策函数的参数，为参数化模型可能的搜索空间。
如何度量函数及其参数的“好坏”？→ 损失函数
如何获取“最好” 的函数参数？→ 学习算法

机器学习：损失函数

在机器学习算法中，一般定义一个损失函数 (, (, )) ，在所有的训练样本上来评价决策函数的好坏（风险）。简单来说，损失函数就是度量真实样本与预测样本之间的差距。
风险函数 ( ) 是在已知的训练样本（经验数据）上计算得来的，因此被称之为经验风险。参数的求解其实就是寻求一组参数，使得经验风险函数达到最小值，就是我们常
说的经验风险最小化原则（Empirical Risk Minimization）

机器学习：典型损失函数

0-1 损失函数
均方差损失函数
交叉熵损失函数（ NLP 中应用最多）

机器学习：其他常用损失函数
详见：https://zhuanlan.zhihu.com/p/77686118

风险最小化准则

期望风险
期望风险未知，通过经验风险近似
- 训练数据： $D=\{x^{(n)},y^{(n)}\},i \in [1,N]$
- 经验风险最小化： $Q(\theta ) = \frac{1}{m}\sum\limits_{i = 1}^m {L({y_i},f({x_i},\theta ))}$
机器学习问题转化成为一个最优化问题

过拟合(overfitting)与欠拟合(underfitting)

过拟合：经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。

结构风险最小化原则

为了解决过拟合问题，一般在经验风险最小化的原则上加参数的正则化（Regularization），也叫结构风险最小化原则（Structure Risk Minimization）。
- 用来控制正则化的强度，正则化项也可以使用其它函数，比如 1 范数

学习：优化

在机器学习问题中，我们需要学习到（找到）参数，使得风险函数最小化。
当前，通常都使用梯度下降法进行参数学习：

其中为第次迭代时的参数值. 为搜索步长, 在机器学习中也叫作学习率（learning rate）。

学习率：不大不小刚刚好

学习率自适应方法

https://ruder.io/optimizing-gradient-descent/
http://xudongyang.coding.me/gradient-descent-variants/

梯度下降法

梯度下降是求得所有样本上的风险函数最小值，叫做批量梯度下降法
- 若样本个数很大，输入的维数也很大时，那么批量梯度下降法每次迭代要处理所有的样本，效率会较低
一种改进的方法即随机梯度下降法。随机梯度下降法（Stochastic Gradient Descent，SGD）也叫增量梯度下降，每个样本都进行更新
小批量梯度下降法（Mini-Batch Gradient Descent）是批量梯度下降和随机梯度下降的折中. 每次迭代时，随机选取一小部分训练样本来计算梯度并更新参数，这样既可以兼顾随机梯度下降法的优点，也可以提高训练效率

线性分类

线性分类是机器学习中最常见并且应用广泛的一种分类器。

逻辑回归：Logistic Regression

定义目标类别 = 1 的后验概率为：
- (·) 为 logistic 函数
- 和为增广的输入向量和权重向量。
- = 0 的后验概率为：
logistic函数经常用来将一个实数空间的数映射到 (0,1) 区间，记为 ()： $\sigma (x) = \frac{1}{{1 + {e^{ - x}}}}$
- 其导数为： $\sigma '(x) = \sigma (x)(1 - \sigma (x))$
- 当输入为 K 维向量 $x = [x_1, ··· , x_K]^T$ 时，其导数为： $\sigma '(x) = diag(\sigma (x) \odot (1 - \sigma (x)))$
给定 N 个样本 $x^{(i)},y^{(i)}),1≤i≤N$ ，我们使用交叉熵损失函数，模型在训练集的风险函为：
采用梯度下降法， J(w) 关于 w的梯度为：
可以初始化 w0=0，然后用梯度下降法进行更新，

推导示例：logistic regression

编程实践

NLP应用：文本情感分类

评价方法

常见的评价标准有正确率、准确率、召回率和值等。
给定测试集 = (1, 1) , … , (, )，对于所有的 ∈{ 1,··· , } ， ${\widehat y_i}$ 为对应的模型预测结果。
正确率（Accuracy）：[ $∣ \cdot ∣$ 为指示函数]
与正确率相对应的就是错误率：
正确率是平均的整体性能。
在很多情况下需要对每个类都进行性能估计，这就需要计算准确率和召回率
- 准确率（Precision），是识别出的个体总数中正确识别的个体总数的比例。对于
  类 c 来说：
- 召回率（Recall，R），也叫查全率，是测试集中存在的个体总数中正确识别的个
  体总数的比例：
- F值：
多类情况通常使用宏平均和微平均进行评价
- 宏平均：先对每一个类统计指标值，然后在对所有类求算术平均值。
- 微平均：对数据集中的每一个实例不分类别进行统计，然后计算相应指标。

开发集

在梯度下降训练的过程中，由于过拟合的原因，在训练样本上收敛的参数，并不一定在测试集上最优。
通常需要使用一个验证集（也叫开发集） 来测试每一次迭代的参数在验证集上是否最优。如果在验证集上的错误率不再下降，就停止迭代。
如果没有验证集，可以从训练集中抽取部分数据作为验证集，也可以通过交叉验证进行（内部）模型选择。

一般来说，开发集是在模型内部进行调优，测试集是在模型外部进行调优的。

多类分类

对于多类分类问题（假设类别数为 ( > 2)），一般有两种多类转两类的转换方式：

（one-vs-rest/one-vs-all）把多类分类问题转换为个两类分类问题，构建个一对多的分类器。每个两类分类问题都是把某一类和其他类用一个超平面分开。
（one-vs-one）把多类分类问题转换为 ( − 1)/2 个两类分类问题，构建( − 1)/2 个两两分类器。每个两类分类问题都是把类中某两类用一个超平面分开。

Softmax分类

Softmax 回归是 Logistic 回归的多类推广
我们定义目标类别 = 的后验概率为：
Softmax函数
- 它能将一个含任意实数的维向量 “压缩”到另一个 K 维实向量（）中，使得每一个元素的范围都在 (0,1)之间，并且所有元素的和为1

其他机器学习方法/模型/任务

机器学习工具包：WEKA简介

作为一个大众化的数据挖掘工作平台， WEKA集成了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化等等。通过其接口，可在其基础上实现自己的数据挖掘算法。

总结：机器学习三要素

2. 神经网络与是深度学习基础

传统机器学习

人工特征工程+分类器

在大数据下的机器学习中，人是不可能将这些特征去完备的提取出来的。

鉴于上面所说，有没有什么自动的方法可以让机器学到这些特征呢？这就引入深度学习

深度学习：自动学习多尺度的特征表示

深度学习和表示学习

规则思维：人去定制一些规则，编码到程序中
传统的机器学习，人定义一些特征，是机器学到特征和输出之间的映射。
表示学习：强调特征的一些表示和变换；
深度学习：当表示和变换很深的时候，其实就是深度学习。

深度学习离不开感知器啊

感知机 Perception

定义

感知器是对生物神经细胞的简单数学模拟,是最简单的人工神经网络, 只有一个神经元。感知器也可以看出是线性分类器的一个经典学习算法。
细胞体(Soma)中的神经细胞膜上有各种受体和离子通道,胞膜的受体可与相应的化学物质神经递质结合,引起离子通透性及膜内外电位差发生改变,产生相应的生理活动:兴奋或抑制。细胞突起是由细胞体延伸出来的细长部分,又可分为树突和轴突。
- 树突(Dendrite)可以接受刺激并将兴奋传入细胞体。每个神经元可以有一或多个树突。
- 轴突 (Axons) 可以把兴奋从胞体传送到另一个神经元或其他组织。每个神经元只有一个轴突。
抑制与兴奋
- 神经细胞的状态取决于从其它的神经细胞收到的输入信号量,及突触的强度(抑制或加强)。当信号量总和超过了某个阈值时,细胞体就会兴奋,产生电脉冲。电脉冲沿着轴突并通过突触传递到其它神经元。

感知机几何解释

其实就是学习到一个超平面或者分界线

这里比较重要的就是两个参数：, b
如何学习呢？

感知机参数学习

定义一个损失函数，均方差损失函数，根据训练数据（x，y），计算w，b的导数，根据梯度下降法来更新参数。

直接这么做有一个问题，这是一个线性分类器，对于非线性问题无法解释，那么这就提出了异或问题

那么实现这个呢？

非线性的隐藏层

由上图可知，参数都已知了，下面来具体计算一下：

Non-linear Neurons

=∙+
=()

其中 f 是一个非线性的激活函数。用的比较多的就是 Sigmoid 函数，如下：

Sigmoid

Sigmoid 可以把所有数值变幻成 $0\sim1$ 之间的数值，有一个优点是：导数很好计算……

训练

当然，Sigmoid 有很多缺点，所以提出了其他激活函数；

Other Activation Functions

() = max(0, ) ，rectifier 函数被认为有生物上的解释性。神经科学家发现神经元具有单侧抑制、宽兴奋边界、稀疏激活性等特性。采用 rectifier 函数的单元也叫作正线性单元(rectified linear unit, ReLU)。

https://www.jiqizhixin.com/articles/2017-11-02-26

激活函数的性质

激活函数在神经元中非常重要，是实现非线性变换的核心操作.
为了增强网络能力（表示效果和计算效率），激活函数需要具备以下几点性质：
➢ 连续并可导（允许少数点上不可导）的非线性函数. 可导的激活函数可以直接利用数值优化的方法来学习网络参数.
➢ 激活函数及其导函数要尽可能的简单，有利于提高网络计算效率.
➢ 激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性.

人工神经网络

人工神经网络主要由大量的神经元以及它们之间的连接构成。因此主要考虑以下三方面：

➢ 神经元的激活规则
• 主要是指神经元输入到输出之间的映射关系，一般为非线性函数。

➢ 网络的拓扑结构
• 不同神经元之间的连接关系。

➢ 学习算法
• 通过训练数据来学习神经网络的参数。

典型网络结构

人工神经网络由神经元模型构成，这种由许多神经元组成的信息处理网络具有并行分布结构。

详见：http://www.asimovinstitute.org/neural-network-zoo/

前馈神经网络

组合多个神经元构建一个网络，一种比较直接的拓扑结构是前馈网络.

前馈神经网络（Feedforward Neural Network，FNN）是最早发明的简单人工神经网络.
前馈神经网络也经常称为多层感知器（Multi-Layer Perceptron，MLP）.

前馈计算

训练：梯度下降法

反向传播算法

通过上图可知，第 $l$ 层的误差项可以通过第 $l + 1$ 层的误差项计算得到，这其实就是误差的反向传播。

反向传播的含义是：第 $l$ 层的误差项是 所有与该层相连接的第 $l + 1$ 层的误差的权重和再乘以这个神经元激活函数的梯度 得到。

基于BP算法的前馈神经网络训练过程

前馈计算每一层的净输入 $z^{(l)})$ 和激活值 $a^{(l)})$ ，直到最后一层；
反向传播计算每一层的误差项 $(\delta ^{(l)})$ ；
计算每一层参数的偏导数，并更新参数

常用的深度学习工具包

深度学习的三个步骤

自动梯度计算

数值微分（Numerical Differentiation）
符号微分（Symbolic Differentiation）
自动微分（Automatic Differentiation， AD）

复合函数(; , ) = 1 / (−( + )) + 1 的计算图

静态计算图和动态计算图

静态计算图是在编译时构建计算图，计算图构建好之后在程序运行时不能改变。
- Theano和Tensorflow
动态计算图是在程序运行时动态构建，更便于处理复杂数据结构，也更便于调试
- Chainer, PyTorch, 飞桨（PaddlePaddle）等
两种构建方式各有优缺点。静态计算图在构建时可以进行优化，并行能力强，但灵活性比较差低。动态计算图则不容易优化，当不同输入的网络结构不一致时，难以并行计算，但是灵活性比较高。

总结：深度学习的发展历史

http://www.andreykurenkov.com/writing/a-brief-history-of-neural-nets-and-deep-learning/

3. NLP中的深度学习

自然语言处理

组合语义原则

一个复杂对象的意义是由其各组成部分的意义以及它们的组合规则来决定

词的分布表示

语义组合模型

4. 语义组合模型

（1）卷积神经网络

CNN

Convolutional Neural Network是一种前馈神经网络。卷积神经网络是受生物学上感受野(Receptive Field) 的机制而提出的。一个神经元的感受野是指特定区域，只有这个区域内的刺激才能够激活该神经元.
- 局部链接
- 权值共享
- 采样
具有平移、缩放和扭曲不变性

全连接 vs. 卷积

CNN是局部链接的。

一维卷积、二维卷积、卷积层、滤波器

一维卷积

信号 x，信号长度 n
滤波器 f，滤波器长度 m

举个例子：

卷积类型

窄卷积
➢ 信号两端 不补 0
➢ 输出信号长度为 n-m+1
宽卷积
➢ 信号两端 补更多的 0
➢ 输出信号长度为 n+m-1
等长卷积
➢ 信号两端 补 0
➢ 输出信号长度为 n

滤波器步长

Stride=2

二维卷积

信号 x，信号长度 M*N
滤波器 f，滤波器长度 m*n
在图像中，卷积意味着区域内像素的加权平均

卷积类型

窄卷积
➢ 信号四周不补 0
➢ 输出信号长度为 M-m+1*N-n+1
宽卷积
➢ 信号四周补 0
➢ 输出信号长度为 M+m-1 *N+n-1
等长卷积
➢ 信号四周补 0
➢ 输出信号长度为 M*N

举个例子：

两维卷积实例

下面来比较一下全连接前馈神经网络和卷积神经网络。

全连接前馈神经网络

卷积神经网络

局部链接：第 l 层的每一个神经元都只和第 l − 1 层的一个局部窗口内的神经元相连，构成一个局部连接网络。
权值共享：在卷积层里，我们只需要 m + 1 个

二维卷积层

前面说的都是一个卷积核的情况，那么下面

两个filters

特征映射 Feature Map

为了增强卷积层的表示能力，我们可以使用K 个不同的滤波器来得到K 组输出。每一组输出都共享一个滤波器。如果我们把滤波器看成一个特征提取器，每一组输出都可以看成是输入图像经过一个特征抽取后得到的特征。因此，在卷积神经网络中每一组输出也叫作一组特征映射（Feature Map）。

子采样层

子采样层示例

CNN的应用

CNN在图像处理中的应用

LeNet-5 虽然提出时间比较早，但是是一个非常成功的神经网络模型。基于 LeNet-5 的手写数字识别系统在 90 年代被美国很多银行使用，用来识别支票上面的手写数字。LeNet-5共有 7 层。
AlexNet
ResNet
 2015 ILSVRC winner
 152层
 错误率：3.57%

CNN在自然语言处理中的应用

文本分类：情感分类
CNN-句子建模框架

paper: http://arxiv.org/pdf/1510.03820v4.pdf
code: https://github.com/dennybritz/cnn-text-classification-tf

其他各种（奇怪的）卷积模型

前馈神经网络的不足

连接存在层与层之间，每层的节点之间是无连接的。
输入和输出的维数都是固定的，不能任意改变。无法处理变长的序列数据。
假设每次输入都是独立的，也就是说每次网络的输出只依赖于当前的输入。

CNN就属于前馈神经网络。然而，却有一些缺点。对于以下各种处理任务来说，不足以。所以提出了循环神经网络。

各种处理任务

（2）循环神经网络

循环神经网络可以接收变长输入，并且可以考虑时序关系。

循环神经网络（ Recurrent Neural Network， RNN），也叫递归神经网络。这里为了区别与另外一种递归神经网络（ Recursive Neural Network），我们称为循环神经网络
- 前馈神经网络的输入和输出的维数都是固定的，不能任意改变。无法处理变长的序列数据。
- 假设每次输入都是独立的，也就是说每次网络的输出只依赖于当前的输入。
循环神经网络通过使用带自反馈的神经元，能够处理任意长度的序列。循环神经网络比前馈神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、图像处理、语言模型以及自然语言生成等任务上。

更形式化的描述如下：

给定一个输入序列 $x^{(1:n)}=(x^{(1)},x^{(2)},...,x^{(t)},...,x^{(n)})$ ，循环神经网络通过下面公式更新带反馈边的隐藏层的活性值 ，即抽象表示：

循环神经网络的示例：

简单循环网络

假设时刻 t 时，输入为 xt ，隐层状态（隐层神经元活性）为 ht 。 ht 不仅和当前时刻的输入相关，也和上一个时刻的隐层状态相关。
一般我们使用如下函数：

这里，是非线性函数，通常为 sigmod函数或 tanh 函数。

简单循环神经网络的前向计算

训练：梯度计算

循环神经网络的参数训练可以通过随时间进行反向传播（Backpropagation Through Time，BPTT）算法。

梯度

假设循环神经网络在每个时刻 t 都有一个监督信息，损失为。则整个序列的损失为 $\sum\limits_{t = 1}^T {{J_t}}$ 。
损失关于 U 的梯度为：

其中，是关于 U 和 −1 的函数，而 −1 又是关于 U 和 −2 的函数。
因此，总的梯度为

长期依赖问题/梯度消失问题

长短时记忆神经网络：LSTM

长短时记忆神经网络（Long Short-Term Memory Neural Network，LSTM）是循环神经网络的一个变体，可以**有效地解决简
LSTM 模型的关键是引入了一组记忆单元（Memory Units），允许网络可以学习何时遗忘历史信息，何时用新信息更新记忆单元。在时刻 t 时，记忆单元 $c_t$ 记录了到当前时刻为止的所有历史信息，并受三个“门”控制：输入门 $i_t$ , 遗忘门 $f_t$ 和输出门 $o_t$ 。三个门的元素的值在 $[0, 1]$ 之间。
在时刻 t 时 LSTM 的更新方式如下：

这里， $x_t$ 是当前时刻的输入， $σ$ 是 logistic 函数， $V_i$ ， $V_f$ ， $V_o$ 是对角矩阵。遗忘门 $f_t$ 控制每一个内存单元需要遗忘多少信息，输入门 $i_t$ 控制每一个内存单元加入多少新的信息，输出门 $o_t$ 控制每一个内存单元输出多少信息。

LSTM 图解

如下图所示，上面是简单的RNN，下面是LSTM

那么简单的RNN：隐藏状态仅与 $x_t$ 和 $x_{t-1}$ 相关；中间经过 $t a n h$ 这一操作。
LSTM里面有三个门控信息，计算过程更为复杂。
核心：记忆（细胞状态），核心是比普通RNN多了一个 $c_t$ 。另外一个重要的是门控信息。通过点乘计算当前应该保留多少值。
输入门：输入门决定了当前时刻网络的输入 $x_t$ 有多少保存到单元状态 $c_t$
遗忘门：遗忘门决定了上一时刻的单元状态 $c_{t-1}$ 有多少保留到当前的时刻 $c_t$
输出门：输出门来控制单元状态 $c_t$ 有多少输出到 LSTM 的当前输出值 $h_t$

LSTM 的变种

门限循环单元：GRU

门限循环单元（Gated Recurrent Unit，GRU）是一种比 LSTM 更加简化的版本。在 LSTM 中，输入门和遗忘门是互补关系，因为同时用两个门比较冗余。GRU 将输入门与和遗忘门合并成一个门：更新门（Update Gate），同时还合并了记忆单元和神经元活性。GRU 模型中有两个门：更新门 $z$ 和重置门 $r$ 。
- 更新门 $z$ 用来控制当前的状态需要遗忘多少历史信息和接受多少新信息。
- 重置门 $r$ 用来控制候选状态中有多少信息是从历史信息中得到。
GRU 模型的更新方式如下：
- 这里选择 tanh 函数也是因为其导数有更大的值域

编程

BasicRNNCell
BasicLSTMCell
GRUCell
rnn

深层循环神经网络

循环神经网络的深度是一个有一定争议的话题。
一方面来说，如果我们把循环网络按时间展开，不同时刻的状态之间存在非线性连接，循环网络已经是一个非常深的网络了。
从另一方面来说，这个网络是非常浅的。任意两个相邻时刻的隐藏状态（ $h_{t-1}$ → $h_t$ ），隐藏状态到输出（ $h_{t-1}$ → $y_t$ ），以及输入到隐藏状态之间（ $x_{t}$ → $h_t$ ）之间的转换只有一个非线性函数。

堆叠(Stack)循环神经网络

双向循环神经网络

应用

应用：序列到类别

输入为序列，输出为类别。比如在文本分类中，输入数据为单词的序列，输出为该文本的类别。

应用：同步序列到序列

输入和输出同步，即每一时刻都有输入和输出。比如在序列标注问题，每个时刻的输入都需要有一个输出。输入序列和输出序列的长度相同。

应用：异步序列到序列

输入和输出不需要有严格的对应关系。比如在机器翻译中，输入为源语言的单词序列，输出为目标语言的单词序列。输入和输出序列并不需要保持相同的长度。

基于RNN的语言模型

（3）Seq2Seq :Sequence to Sequence Learning

Seq2Seq: train-time

Seq2Seq: test-time

Beam Search（解码过程）

RNN-based Seq2Seq

存在的问题

例如在机器翻译中：

Seq2Seq with Attention

阅读理解中的Attention机制

自动摘要中的Attention机制

Seq2Seq Learning：Beyond RNN

Conv Seq2Seq, Gehring, et al, 2017
Att is all you need, Vaswani, et al, 2017

（4）Transformer相关

自注意力（Self-Attention）模型

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列。
- 只建模了输入信息的局部依赖关系。
如何建立非局部（Non-local）的依赖关系
- 全连接？

自注意力示例

QKV模式（Query-Key-Value）

Q：Attention的时候基于什么东西去关注
K：关注某个事物的时候，与谁进行计算
V：关注完以后，提取什么样的信息
K 和 V 可以取相同或者不同的值

自注意力模型

输入序列为 $[x_1,..,x_N] \in R^{d_1 * N}$
首先生成三个向量序列
计算 $h_i$

attention 的 3 种方式

Transformer: attention is all your need

建议参考项目：https://github.com/jadore801120/attention-is-all-you-need-pytorch

Transformer : Scaled Dot-Product Attention
Transformer : Multi-Head（多头） Attention
Transformer : Position-wise Feed-Forward Networks
Transformer : Positional Encoding

5. “词”表示模型

5.1 神经语言模型

实际上，C是上下文表示，quick 是目标
那么可以用一个神经网络把上下文表示计算出来，然后利用另一个神经网络把这个目标预测出来。
最早的神经语言模型：Neural Network Language Model [Y.Bengio et al. 2003]
- 给定一个词，这个词的表示是固定的，通常的方式就是one-hot的形式，比如10000维，只有一个值为1；这个高维向量不变的，怎么转换成一个低维(比如100维)向量呢？
- 实际上是乘以一个10000*100 的矩阵，我们认为这个100维向量是词向量；实际上是原始的词表示乘以一个转换矩阵，变成了这个词的词向量。
- 这个转换矩阵是神经网络的参数，是可以调整的；词的原始表示是不变化的。
- 上图中间的长向量是我们的语义组合的方式拼接而成，然后利用这个语义组合做目标词的分类。

词表示

词表示是语言模型的副产品。在语言模型中，输入端我们需要把符号转换成一个向量的形式，输出端需要把隐藏状态转换成一个类标的形式。这两个部分其实都是词表示；对应输入部分的词向量我们称为主词向量，输出部分的词向量我们称为副词向量。
通过语言模型学习到的词向量比随即初始化要好得多。
- 词是语言处理中最基本的语言单元
- 词以及词间关系的表示和建模是NLP任务中重要的基础工作
词是语言处理中最方便处理的语言单元
目标：语义相似的词表示相近
➢ 如何判定词语语义相似？
➢ 如何数值化表示词？
➢ 如何刻画数值表示的相近？

词表示学习

分布式假设：上下文相似的词 → 词义相似
- 语义可以统计获得
- 相似度可以度量

因此词表示学习中两个最重要的问题就是：

上下文的表示：文档、词、n元词组
相似度的衡量：向量的内积（余弦）

词表示方法

基于预测的方式
- 给定上下文对目标词进行预测
基于计数的方式
- 统计词-上下文共现情况，对共现矩阵进行分解

基于预测的方法：word2vec
基于计数的方法：GloVe

可以对每个词定义两套词向量，一个是 $p_i$ ：是第 $i$ 个词所对应的输入层词向量； $q_j$ ：是第 $j$ 个词所对应的输出层词向量
模型改进
技术改进

5.2 词向量2.0（word2vec）

词向量2.0的若干（实验）结论

word2vec：计算换存储；GloVe：存储换计算
没有最好，只有适合
➢ 适合任务，用（任务的）领域内语料训练
确定合适领域的语料之后，语料越大越好
大语料，使用简单模型（CBOW）
小语料，使用复杂模型（Skip-gram）
使用任务相关的开发集，而非词向量的开发集
词的主向量/副向量（主-副表示组合关系，主-主/副-副表示聚合关系）

词表示学习扩展

词表示学习扩展
➢ 多粒度：中文字词联合学习
➢ 多语言：跨语言词表示学习
➢ 异构：词、社交网络、知识图谱联合表示表示
词的构词法（内部结构）
➢ 江西省 vs. 四川省
➢ 星期六（星期+六）、皮鞋（皮+鞋）、教育（教+育）

…………

5.3 词向量3.0（ELMo、BERT）

预训练语言模型

非监督学习
两阶段学习

ELMo: Embeddings from Language Models

GPT: Generative Pre-Training

双向？？？？

BERT的输入表示

预训练任务: Masked Language Model

预训练任务: Next Sentence Prediction

比较：ELmo、ULMFiT、GPT、BERT

6. 总结

看一下 ZEN：融合 N-gram 的中文编码表示

你可能感兴趣的:(知识图谱与语义计算,自然语言处理,神经网络,知识图谱)

自动化测试：灵活书写XPATH定位路径 ZJ_star_1220 python html css 前端 python
进行UI自动化测试过程中XPATH定位是使用最多的定位方法，但是有时候直接复制出来的XPATH路径会比较长，所以就需要掌握一些更高级的方法，通过询问AI，最终得到了以下方法，感觉很有用，所以记录下来一、基础定位语法绝对路径与相对路径绝对路径：以/开头，从根节点逐层定位（如/html/body/div/input），路径长且易受页面结构调整影响相对路径：以//开头，直接定位目标元素（如//input
两会聚焦科技金融创新，赛逸展2025成重要实践平台赛逸展张胜科技金融
在今年两会的热烈讨论中，科技金融创新成为核心议题之一，引发各界高度关注。国家对于科技金融的重视达到新高度，一系列旨在推动科技创新与金融深度融合的政策呼之欲出，力求为硬科技企业的成长注入强劲动力。会议期间，中国人民银行行长潘功胜透露，人民银行正携手证监会、科技部等部门，全力筹备在债券市场推出“科技板”。这一举措旨在通过创新金融工具，为科技型企业开辟更为便捷的融资渠道。通过完善发行交易制度，创新风险分
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
泛目录程序：站群策略在SEO优化中的优势与应用奥顺互联_老张站群 php 数据库缓存搜索引擎
泛目录程序案例：站群策略在SEO优化中的优势与应用引言在当今竞争激烈的互联网环境中，搜索引擎优化（SEO）已成为企业提升在线可见性和流量的关键策略。泛目录和站群作为SEO优化中的两种重要策略，近年来备受关注。本文将通过具体案例，深入探讨这两种策略在SEO优化中的优势与应用。一、泛目录的定义与优势1.1泛目录的定义泛目录是指通过创建大量内容相关、结构相似的目录页面，覆盖广泛的搜索关键词，从而提升网站
数据输入输出的概念及在C语言中的实现小宋同学在不断学习旧版C语言学习 c语言开发语言
前言概括1所谓输入输出是以计算机为主体而言的2本章介绍的是向标准输出设备显示器输出数据的语句3在C语言中，所有的数据输入、输出都是由库函数完成的，因此都是函数语句4在使用C语言库函数时，要用编译命令#include将有关“头文件”包括到源文件中，使用标准输入输出库函数时要用到“stdio.h”文件，因此源文件开头由以下预编译指令#include或者#include"stdio.h"stdio是st
程序化广告行业（11/89）：洗牌期与成熟期的变革及行业生态解析 lilye66 程序化广告 kafka flink 时序数据库
程序化广告行业（11/89）：洗牌期与成熟期的变革及行业生态解析大家好！一直以来，我都在钻研程序化广告行业，在学习过程中积累了不少干货，特别想和大家分享，一起学习进步。这篇文章接着上一篇，深入剖析程序化广告行业在洗牌期和成熟期的发展变化，以及整个行业生态的构成。一、洗牌期的行业变革2017-2018年，程序化广告行业进入洗牌期，这是行业发展过程中自我调整、去伪存真的关键阶段。在前期的燥热发展中，行
Java面向对象编程进阶：深入理解static、单例模式与继承 shy2005_5_31 Java全栈开发学习 java 单例模式开发语言
在面向对象编程（OOP）中，掌握高级特性是提升代码质量和设计能力的关键。本文基于Java语言，深入探讨static关键字、单例设计模式、继承等核心概念，并结合实际应用场景与深度思考，帮助读者构建系统化的知识体系。一、static关键字：共享与效率的基石1.静态变量vs实例变量静态变量：用static修饰，属于类，内存中仅一份，被所有对象共享。应用场景：全局计数器、配置参数。publicclassU
PyWavelets（pywt）安装与使用指南贾雁冰
PyWavelets（pywt）安装与使用指南项目地址:https://gitcode.com/gh_mirrors/pyw/pywtPyWavelets是一个用于离散小波变换（DiscreteWaveletTransform,DWT）和连续小波变换（ContinuousWaveletTransform,CWT）的Python库。该库广泛应用于信号处理、图像分析以及数据压缩等领域。以下是基于提供的
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
C语言数据结构——变长数组（柔性数组） Iawfy22 数据结构 c语言柔性数组
前言这是一位即将大二的大学生（卷狗）在暑假预习数据结构时的一些学习笔记，供大家参考学习。水平有限，如有错误，还望多多指正。本文主要介绍了如何手动实现一个变长数组，以及实现其部分功能（如删除、查找、添加、排序等）变长数组介绍变长数组又可以叫柔性数组，与一般数组不同，它是一个动态的数组，具体表现为可以根据数组里面元素个数的多少而自动的进行扩容，以便达到变长（柔性）的特点。预备知识为了实现自动边长扩容这
2024年Flutter从入门到精通全网最全学习路线指南高级技术工程师 flutter flutter flutter中文网 flutter中文官方文档
随着移动开发技术的快速发展，Flutter作为Google推出的跨平台开发框架，以其高效的热重载、统一的UI开发体验和卓越的性能表现，正逐渐成为众多开发者青睐的首选工具。为了帮助广大编程爱好者及职业开发者在2024年更好地掌握Flutter技术，本文将为您呈现一套全面且深度的Flutter学习路线图。flutter中文网flutterflutter中文官方文档第一阶段：基础入门与环境配置了解Flu
王道数据结构第三章（二）- 栈和队列的应用 int型码农数据结构算法
王道数据结构第三章（二）栈和队列的应用一、栈在括号匹配中的应用1.括号匹配2.实现2.前、中、后缀表达式二、栈在表达式求值中的应用1.后缀表达式（重要）1.1中缀转后缀1.2后缀表达式的计算1.2.1手算1.2.2机算2.前缀表达式2.1中缀转前缀2.2前缀表达式的计算3.中缀表达式3.1中缀转后缀的机算（用栈实现）3.2中缀表达式的计算三、栈在递归中的应用1.阶乘2.斐波那契数列四、队列的应用总
2025年Python后端开发指南：从基础到云原生实践 ctrl_cv工程师￥云原生 django flask pycharm
在2025年，Python后端开发已全面进入云原生与智能化时代。开发者不仅需要掌握传统后端技术栈，还需融合容器化、AI辅助编程等新兴技术。本文基于行业最新趋势与最佳实践，系统梳理Python后端开发的核心要点与进阶方向，涵盖开发环境、架构设计、性能优化等关键领域。一、开发环境与工具链1.环境配置标准化Python版本：推荐Python3.12+，支持模式匹配（PatternMatching）和更优
Vue3 + TypeScript 实战经验：2025年高效开发指南 ctrl_cv工程师￥ typescript javascript 前端
在2024年的前端工程化浪潮中，Vue3与TypeScript已成为企业级应用的黄金组合。本文将基于多个真实项目经验，从工程规范、类型安全、性能优化三个维度，分享实战技巧与避坑指南。一、工程配置：构建坚如磐石的基础1.脚手架选择与优化1.1推荐方案：使用Vite+create-vue初始化项目（2024年默认模板已集成TypeScript）关键配置：//vite.config.tsexportde
ollama官方安装包哈拉少12 人工智能
一、官方安装包基本信息最新版本‌Windows版：v0.6.0.0（国内镜像版，大小999.8M）‌Linux版：v0.6.0（官方版，大小1.59G）‌macOS版：支持通过官网直接下载（版本号与Windows/Linux同步）‌支持平台‌桌面端：Windows（Win7及以上）、Linux（x86_64/ARM64）、macOS‌容器化部署：支持Docker（需配合DockerDesktop）
手动部署？NONONO，动态上传热部署才是王道！！架构文摘JGWZ 接口学习后端 spring
近期开发系统过程中遇到的一个需求，系统给定一个接口，用户可以自定义开发该接口的实现，并将实现打成jar包，上传到系统中。系统完成热部署，并切换该接口的实现。定义简单的接口这里以一个简单的计算器功能为例，接口定义比较简单，直接上代码。public interface Calculator { int calculate(int a, int b); int add(int a, int
C语言从入门到精通李鲶鱼 c++学习 python
主要内容1.基础知识C语言概述：介绍C语言的历史、特点和发展。数据类型：讲解基本数据类型、常量、变量及其存储类别。运算符与表达达：涵盖赋值、算术、关系、逻辑等运算符和表达式。输入输出函数：介绍字符、字符串和格式化的输入输出方法。2.核心技术控制语句：包括选择结构（if、switch）和循环结构（while、for）。数组与指针：详细讲解一维数组、二维数组、字符数组和指针的使用。函数：函数的定义、声
使用Python的 multiprocessing 模块实现多进程并行计算（上完整代码）小码小李开发语言 python 数据库
使用Python的multiprocessing模块实现多进程并行计算的较为详细复杂的示例代码，用于计算一个较大范围内数字的平方，并将结果汇总。以下是一个更具体、复杂且详尽的多进程并行计算代码示例，用于分析多个大型文本文件中单词出现的频率：importmultiprocessingimporttimeimportrefromcollectionsimportCounter#函数用于读取单个文件内容
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
Rust Web开发常用库 cci497 后端 rust 开发语言后端
本集合中所有库都是在开源项目中广泛使用且在2024年积极维护的库，排名靠前的库是当前使用比较广泛的，不全面但够用Rust异步运行时tokio：异步运行时async_std：与标准库兼容性较强的运行时monoio：字节开源smol：一个小型快速的运行时RustWeb框架&网络通信其他Web框架见https://juejin.cn/post/7406997325715554315axum：注重人体工程
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
第01课：什么是微服务？ Wei_Cui_csdn 从零开始掌握微服务软件测试微服务测试 DevOps
微服务的由来微服务的前身是PeterRodgers博士在2005年度云端运算博览会上提出的微Web服务(Micro-Web-Service)。微软的JuvalLöwy随后也提出了类似的想法，并提议将其作为微软下一阶段最主要的软件架构。2014年，MartinFowler与JamesLewis共同提出了微服务的概念，给出了微服务的具体定义：从本质上来说，微服务是一种架构模式。它是面向服务型架构（SO
北京工业大学计算机考研难度,北京工业大学考研好考吗？性价比怎么样？徐小疼北京工业大学计算机考研难度
学校介绍北京工业大学(北工大，BeijingUniversityofTechnology)，坐落于北京市，是一所以工为主，工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学，也是国家“211工程”建设高校、世界一流学科建设高校。目前学校拥有国家重点一级学科光学工程，国家重点二级学科材料学和结构工程，学校有7个学科跻身2019年QS世界大学排行榜前500，在QS发布的2019年中国大陆大学
LoRa无线技术解析 wmq163 物联网 lora
一、Lora技术基础与特点1、LoRa是一种低功耗广域网通信（LPWAN）技术中的一种，是Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输技术。比sigfox的FSK技术更加灵敏，传送距离更远，更节能。2、LoRa是物理层（PHY）协议，能被应用在几乎所有的网络技术中。3、LoRa模块主要在全球免费频段运行，频率范围从137MHz-1050MHz，常见的主要是433MHz、868M
【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务彬彬侠 PyTorch基础 log_softmax 多分类交叉熵损失分类 pytorch python 深度学习
torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失，可以提高数值稳定性并防止数值溢出。1.log_softmax的数学公式对于输入张量XXX，softmax计算如下：softmax(Xi)=eXi∑jeXj\text{softma
【PyTorch】torch.nn.functional.cross_entropy() 函数：分类任务的交叉熵损失函数彬彬侠 PyTorch基础 cross_entropy 交叉熵损失函数分类 pytorch python 深度学习
torch.nn.functional.cross_entropytorch.nn.functional.cross_entropy是PyTorch中用于分类任务的交叉熵损失函数，用于衡量预测概率分布与真实类别分布之间的差异，常用于多分类任务（multi-classclassification）。1.交叉熵损失的数学公式对于单个样本，交叉熵损失的计算公式为：L=−∑i=1Cyilog⁡(yi^)\
Spring Cloud 与微服务学习总结（14）—— 云原生时代，如何从 Java 开发者转型微服务？一杯甜酒 Spring Cloud与微服务 java 云原生 spring cloud 微服务微服务架构
前言根据维基百科定义，微服务不是整体应用程序中的一个层。相反，微服务是一个独立的业务功能，具有清晰的接口，并且可以通过内部组件实现分层架构。从战略角度来看，微服务架构基本上遵循“做一件事，就要做得好”的Unix哲学。为了应对传统单体架构的缺陷，微服务架构被企业广泛应用。然而，实践之前有很多问题都需要提前考虑清楚，比如Java背景的开发者是否更有优势？微服务、容器化、DevOps和CI/CD之间的关
《基于单片机的交通灯设计与实现（附论文+源代码）》 Blossom.118 单片机课程设计系列单片机嵌入式硬件单片机课程设计 51单片机工科软硬件技术 stm32 c++
1、项目背景交通灯控制系统是城市交通管理的重要组成部分，其作用是合理分配道路资源，缓解交通拥堵，保障行人和车辆的安全。传统的交通灯系统多为固定时长控制，而基于单片机的交通灯控制系统可以通过编程实现更灵活的控制逻辑，例如根据车流量调整信号时长，甚至实现智能交通管理。2、设计思想交通灯设计是以单片机AT89C51芯片作为核心原件，LED灯、八段数码管等构成交通灯显示系统，利用单片机的电源电路、时钟电路
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/