一剑何风情

国科大 - 自然语言处理（刘洋）- 期末复习

Content

文章目录

- - - 20201231
    - LM
    - 分词
    - - 最大匹配算法
      - 最短路径法（最少分词法）
    - 句法分析
    - - Chart Parsing
      - 9.4 CYK 分析算法
      - 9.5 概率上下文无关文法
      - 9.6 PCFG 的三个问题
      - 第一个问题：内向概率
        
        第一个问题：外向概率
        
        第二个问题：Viterbi 算法
        
        第三个问题：参数估计
      - 9.8 短语结构分析方法评估
      - 9.10 依存句法分析
      - 表示方法
        
        依存句法分析方法
        
        **决策式的 (确定性的) 分析方法 (deterministic parsing)**
        
        实现一个依存句法分析器
      - 9.11 依存句法分析器性能评价
      - 9.12 短语结构与依存结构的关系
    - MT
    - - 噪声信道模型
      - 对位模型
      - 基于短语的翻译模型
      - 短语翻译模型
      - 短语调序模型
      - 译文评估
    - 熵熵熵
    - CLS
    - HMM
    - - HMM：观测状态序列概率计算
    - 概念题知识点
    - 参考

20201231

题型（概念+计算，其中 60 送分，30 中等，10 分难题）

30 分：判断 10、选择 10、填空 10
70 分：7 道计算题（计算不会超出课件上的题目）
- HMM
- 线图分析法（点规则）、CYK（步骤 1. 汉语分词和词性标注；2. 构造识别矩阵；3. 执行分析过程）
- Shift-Reduce
- LM，n-gram，平滑（根据二元文法求句子概率，结合数据平滑方法）
- 分词算法（最大匹配法）
- 评价指标：分词、词性标注、句法分析
- 机器翻译：基于短语的翻译模型
- 分类：Naïve Beyes
- 依靠中心词将短语结构转换为依存结构

一个热心同学提供的期末考点列表（赞）。

LM

给定训练语料：

“John read Moby Dick”，
“Mary read a different book”,
“She read a book by Cher”

计算句子 “John read a book“ 的概率。

解：

注：为了保证一个词的句子的合理性，并利用某个词属于句首或句尾的信息，在进行参数估计时，会为每个句子加上和。分别代表 beginning of sentence、ending of sentence。

填充后，得到

John read Moby Dick
Mary read a different book
She read a book by Cher

目标：John read a book

计算：
$p(John|)=\frac{c(John)}{\sum_wc(w)}=\frac 1 3$

$p(read|John)=\frac{c(John\ read)}{\sum_wc(John\ w)}=\frac 1 1$

$p(a|read)=\frac{c(read\ a)}{\sum_wc(read\ w)}=\frac 2 3$

$p(book|a)=\frac{c(a\ book)}{\sum_wc(a\ w)}=\frac 1 2$

$p(|book)=\frac{c(book)}{\sum_wc(book\ w)}=\frac 1 2$

注： $w$ 表示任意一个词。

则
$p(\text{John read a book})=\frac1 3\cdot\frac1 1\cdot\frac2 3\cdot\frac1 2\cdot\frac1 2\approx0.06$

Add-one Smoothing（Laplace Smoothing）
$\mathrm{P}_{\text {Add }-1}\left(\mathrm{w}_{\mathrm{i}} | \mathrm{w}_{\mathrm{i}-1}\right)=\frac{\mathrm{c}\left(\mathrm{w}_{\mathrm{i}-1}, \mathrm{w}_{\mathrm{i}}\right)+1}{\mathrm{c}\left(\mathrm{w}_{\mathrm{i}}\right)+\mathrm{V}}$
其中，V 是语料库词表大小。

Add-K Smoothing（Laplace Smoothing）
$\mathrm{P}_{\text {Add }-1}\left(\mathrm{w}_{\mathrm{i}} | \mathrm{w}_{\mathrm{i}-1}\right)=\frac{\mathrm{c}\left(\mathrm{w}_{\mathrm{i}-1}, \mathrm{w}_{\mathrm{i}}\right)+k}{\mathrm{c}\left(\mathrm{w}_{\mathrm{i}}\right)+\mathrm{kV}}$
其中，V 是语料库词表大小。

分词

最大匹配算法

正向最大匹配算法（Forward MM, FMM）
逆向最大匹配算法（Backward MM, BMM）
双向最大匹配算法（Bi-directional MM）

$\frac{1+\beta^2}{F_\beta}=\frac{1}{P}+\frac{\beta^2}{R}$

最短路径法（最少分词法）

有词典切分。从产生的所有路径中，选择路径最短的词数最少的作为最终分词结果。

求最短路径：贪心法或简单扩展法。

句法分析

Chart Parsing

Chart Parsing：

维护三个栈：Agenda、Active、Closed
遍历词性，
1. 添加到 Agenda
2. 匹配规则（匹配成功则进 Active）
3. 匹配 Active
  1. 如果匹配上，划掉两个旧项（Agenda + Active），添弧（从 Agenda 移除都要添弧），合成新项移到 Closed，再从 Closed 移进 Agenda，继续匹配规则
  2. 如果匹配不上，划掉该项，添弧，

板书：

完整例题：

注意：不能出现弧相交的情况，否则为错解。

将上图中的边改为结点，将结点改为边，得到分析结果的直观图（主要是给人看，机器不需要）。

具体地说，首先看最外层弧 S，S 下有两个小组长，NP 和 VP，而 VP 下有两个小组长 VP 和 PP…

9.4 CYK 分析算法

Coke-Younger-Kasami （CYK）算法

对 Chomsky 文法进行范式化（CNF）：
自下而上的分析方法
构造 $(n+1)\times(n+1)$ 识别矩阵， $n$ 为输入句子长度。

板书：

例子。

转换为树：

Chart 线图分析法和 CYK 算法的比较：

共同点

都属于基于 CFG 规则的分析方法，需要高质量的规则，分析结果与规则质量密切相关;
缺点：都难以区分歧义结构。（也是基于 CFG 规则算法共有的缺点，因此需要引入概率，即 PCFG）

不同点

相比 CYK 算法，线图分析法的时间复杂度更高（但同为 $\mathcal O(n^3)$ ，其中 $n$ 为句长）。
CYK 算法必须对文法进行范式化处理；但 Chart parsing 算法不需要。

9.5 概率上下文无关文法

需要掌握的 3 点：

PCFG 定义和概率约束规则

什么是上下文无关

一颗（子）树的概率怎么算

基于 CFG 规则的分析方法有一个共同的缺点，即难以区分歧义结构。因此概率上下文无关文法（GCFG）引入了概率。新事物的产生会带来新的矛盾。引入概率后，发生了两个变化

通过概率选取歧义度低（即概率大）的结构；
计算复杂度增加。

GCFG 中的概率是上下文无关的，那和什么有关呢（既然是概率，就要归一），PCFG 规则如下，

即从某个具体左部出发的规则的概率要归一，如从 CD 出发的两条规则。

通过线图分析法、CYK 等算法构成树后，子树的概率计算方式如下，即通过概率连乘。

同时我们也注意到：NP 子树的计算与 PP 子树有关，但与其父节点（或祖先节点）无关，此即上下文无关性：子树的概率与子树管辖范围以外的词无关。

但要注意局部子树的概率计算的坑，如下图的 VP 子树，参与计算的不是 NP 节点的概率，而是 NP 子树概率本身。

对于给定的句子 $S$ ，假设可以得到两棵不同的句法分析树（即存在结构歧义），但 $P(tree_1) > P(tree_2)$ ，因此，可以得出结论：分析结果 $tree_1$ 正确的可能性大于 $tree_2$ 。PCFG 从概率的角度，一定程度上减缓了结构歧义的问题。

9.6 PCFG 的三个问题

1、给定句子的词性 $W=w_1w_2…w_n$ 和 PCFG G，如何快速计算 $p (W ∣ G)$ ？答：内向、外向算法。

2、给定句子的词性 $W=w_1w_2…w_n$ 和 PCFG G，如何快速地选择最佳句法结构树？答：Viterbi 算法。

3、给定句子的词性 $W=w_1w_2…w_n$ 和 PCFG G，如何调节 G 的参数，使得 $p (W ∣ G)$ 最大？答：EM 算法。

假设文法 G(S）的规则只有两种形式：

可以通过范式化处理，使 CFG 规则满足上述形式。这种假设的文法形式称为乔姆斯基范式（Chomsky normal form, CNF）。

第一个问题：内向概率

我们定义内向概率 $\alpha_{ij}(A)$ 是由非终止符 A 推导出的语句 W 中子字串 $w_i\cdots w_j$ 的概率，其计算有两种情况，

对于第二条公式的理解：因为 $A\to BC$ 的 BC 是不确定的，BC 不同则 $i j$ 的分界点 $k$ 也随之变化，因此这里求的是期望（准确说是各种情况下概率的总和）。

内向概率的计算（自底向上，或者说自外向内）的可视化理解如下：

第一个问题：外向概率

外向概率的计算如下式。要注意的是外向概率的计算使用到了内向概率，因此在计算外向概率前要首先计算内向概率（这一点与前向后向算法是不同的）。

第二个问题：Viterbi 算法

其实就是把内向概率所有路径的求和改为求最大路径。

第三个问题：参数估计

情况一：如果有大量已标注语法结构的训练语料，则可直接通过计算每个语法规则的使用次数，用最大似然估计方法计算 PCFG 规则的概率参数，即：
$\hat p(N^j\to \xi)=\frac{\#(N^j\to \xi)}{\sum_\gamma\#(N^j\to \gamma)}$
情况二：多数情况下，没有可利用的标注语料，只好借助 EM (Expectation Maximization）迭代算法估计 PCFG 的概率参数。

初始时随机地给参数赋值，得到语法 $G_0$ ，依据 $G_0$ 和训练语料，得到语法规则使用次数的期望值，以期望次数运用于最大似然估计，得到语法参数新的估计值，由此得到新的语法 $G_1$ ，由 $G_1$ 再次得到语法规则的使用次数的期望值，然后又可以重新估计语法参数。循环这个过程，语法参数将收敛于最大似然估计值。

内外向算法

给定 CFG G 和训练数据 $W=w_1\cdots w_n$ ，语法规则 $A\to BC$ 使用次数的期望值为：
$\begin{aligned} Count(A\to BC) &=\sum_{1\le i\le k\le j\le n}p(A_{ij},B_{ik},C_{(k+1)j}|w_1\cdots w_n, G)\\ &=\frac{1}{p\left(w_{1} \cdots w_{n} \mid G\right)} \sum_{1\le i\le k\le j\le n} p\left(A_{ij},B_{ik},C_{(k+1)j}, w_{1} \cdots w_{n} \mid G\right) \\ &=\frac{1}{p\left(w_{1} \cdots w_{n} \mid G\right)} \sum_{1\le i\le k\le j\le n} \beta_{i i}(A) p(A\to BC\ \alpha_{ik}(B)\alpha_{(k+1)j}(C) \end{aligned}$
公式理解：分母为 $w_1\cdots w_n$ 生成的所有合法句法树的概率之和。

在实际建模时，我们有宾州树库（PCTB），即属于情况一。

PCFG 的评价

优点：

可利用概率减少分析过程的搜索空间；
可利用概率对概率较小的子树剪枝，加快分析效率；
可以定量地比较两个语法的性能。

弱点：

分析树的概率计算条件非常苛刻，甚至不够合理。

9.8 短语结构分析方法评估

句法分析器性能评测

目前使用比较广泛的句法分析器评价指标 PARSEVAL测度，三个基本的评测指标：

精度（precision）：句法分析结果中正确的短语个数所占的比例，即分析结果中与标准分析树（答案）中的短语相匹配的个数占分析结果中所有短语个数的比例。

召回率（recall）：句法分析结果中正确的短语个数占标准分析树中全部短语个数的比例。

F-measure：
$F=\frac{(\beta^2+1)\times P \times R}{\beta^2\times P+R}\times 100\%$

例如：Sales executives were examining the figures with great care yesterday.

句子长度为 10，span 为 $0 - 10$ ，其中 11 为句点。（自己要会标跨度）

在标准答案树中，除了词性标注符号以外（即除了叶子节点和其直接父节点以外）的其他非终结符节点（短语）有：S-(0:11), NP-(0:2), VP-(2:9), VP-(3:9), NP-(4:6), PP-(6:9), NP-(7:9), NP-(9:10) 。

在系统输出的分析树中，除了词性标注符号以外的其他非终结符节点（短语）有：S-(0:11), NP-(0:2), VP-(2:10), VP-(3:10), NP-(4:10), NP-(4:6), PP-(6:10), NP-(7:10)。

注：蓝字表示结果一致。

只有 3 个短语与标准答案完全一样，因此，
$P=R=\frac{3}{8}\times100\%=37.5\%$
其他指标：

词性标注的准确率 (tagging accuracy)。在该句子的分析树中，11 个词中除了 great 被错误地标注以外，其他的词性标注均为正确的，因此，词性标注准确率为 10/11＝90.9%.

9.10 依存句法分析

现代依存语法 (dependency grammar) 理论的创立者是法国语言学家 L. Tesnière。

L. Tesnière 的理论认为：一切结构句法现象可以概括为

关联 (connexion)
组合 (jonction)
转位 (tanslation)

这三大核心。句法关联建立起词与词之间的从属关系，这种从属关系是由支配词和从属词联结而成。L. Tesnière 理论认为：动词是句子的中心，并支配其他成分，它本身不受其他任何成分的支配。

在依存语法理论中，“依存”就是指词与词之间支配与被支配的关系，这种关系不是对等的，而是有方向的。处于支配地位的成分称为支配者，而处于被支配地位的成分称为从属者。

依存语法的优势

依存分析树是天然词汇化的，每个节点天然就是一个词。
不过多强调句子中的固定词序，对自由语序的语言分析更有优势（你吃饭了吗？饭你吃了吗？）
受深层语义结构的驱动，词汇的依存本质是语义的；
形式化程度较短语结构语法浅，对句法结构的表述更为灵活。

表示方法

可以使用有向图：被支配者在箭头端，支配者在有向弧的发出端，我们通常说被支配者依存于支配者。

依存句法分析方法

依存句法分析 (dependency parsing) 的任务就是分析出句子中所有词汇之间的依存关系。

建立一个依存句法分析器一般需要完成以下三部分工作：

依存句法结构描述
分析算法设计与实现
文法规则或参数学习

目前依存句法结构描述一般采用有向图方法或依存树方法，所采用的句法分析算法可大致归为以下 4 类：

生成式的分析方法 (generative parsing)：采用联合概率模型，复杂度高，不易加入语言特征。但准确率高。
判别式的分析方法 (discriminative parsing)：把所有的情况都考察一边（生成树），挑出最佳结果（因此要设计特征和打分函数）。
决策式的 (确定性的) 分析方法 (deterministic parsing)【重点】
基于约束满足的分析方法 (constraint satisfaction parsing)

决策式的 (确定性的) 分析方法 (deterministic parsing)

基本思想：模仿人的认知过程，按照特定方向每次读入一个词。每读入一个词，都要根据当前状态做出决策 (比如判断是否与前一个词发生依存关系)。一旦决策做出，将不再改变。所做决策即“采取什么样的分析动作 (action)”。分析过程可以看作是一步一步地作用于输入句子之上的分析动作 (action) 的序列。

移进－归约算法

J. Nivre 等 (2003) 提出的自左向右、自底向上的分析算法。

当前分析状态的格局 (configuration) 是一个三元组：
$(S, I, A)$
S, I, A 分别表示栈顶词、未处理序列中的当前词 (Input) 和依存弧集合 (Arcs)。分析体系主要包含两种分析动作组合，

一种是采用标准移进－规约方式，使用 Left-Reduce、Right-Reduce 和 Shift 三种动作。
另一种是 Arc-eager 分析算法——4 种分析动作 (Actions)。【不要求掌握】

标准移进－规约

Shift，Left，Right。

注：共 $n = 5$ 个词，因此执行了 $2 n - 1 = 9$ 次操作，其中 $n = 5$ 次移栈（Shift），另外 $n - 1 = 4$ 次是加弧操作。其中 Left 是以左为首，Right 是以右为首。注：这里的相对位置是在栈中而言。存放 input 的是队列。

综上，对于给定 $n$ 个词的句子，**标准移进－规约（Shift-Reduce）**算法只需执行 $2 n - 1$ 次操作，即可完成依存分析。

方法评价

优点：
- 可以达到线性复杂度，
- 算法可以使用之前产生的所有句法结构作为特征。
弱点：
- 以局部最优的加和代替全局最优，导致错误传递；
- 不可处理非投射现象，准确率稍逊于全局最优算法。

额外话：Shift-Reduce 算法在执行上并不复杂，但真正困难的地方在于每一步选取哪个操作，这需要设计大量的特征。同时，因为这个算法是“一条路走到白”，为了降低风险，在实践中加入集束搜索（beam search）效果会更好。

出题：给句法树、动作体系，还原唯一的动作序列。

实现一个依存句法分析器

以由 Arc-eager 算法实现基于转换的 (transition-based) 句法分析器为例。

基本思路：在每一个状态 (configuration) 下根据当前状态提取特征, 然后通过分类决定下一步应该采的动作（action），执行分类器选择的最优动作，转换到下一个状态。

具体实现：

标注大量的依存关系句法树，建立训练集。每个句子都可以一对一地转换为动作序列；
确定特征集合，以构造动作分类器。

如何构建特征？

9.11 依存句法分析器性能评价

无标记依存正确率 (unlabeled attachment score, UA)：不看弧上的标记，所有词中找到其正确支配词的词所占的百分比，没有找到支配词的词 (即根结点) 也算在内。（找老大）

带标记依存正确率 (labeled attachment score, LA)：所有词中找到其正确支配词并且依存关系类型也标注正确的词所占的百分比，根结点也算在内。

依存正确率 (dependency accuracy, DA)：所有非根结点词中找到其正确支配词的词所占的百分比。

根正确率 (root accuracy, RA)：有两种定义方式：

一种是：正确根结点的个数与句子个数的比值；
另一种是：所有句子中找到正确根结点的句子所占的百分比。

注：对单根结点语言或句子来说，二者是等价的。

完全匹配率 (complete match, CM)：所有句子中无标记依存结构完全正确的句子所占的百分比。

例子。

解：
$UA=\frac{6}{7}\times100\%=85.71\%$

$LA=\frac{5}{7}\times100\%=71.43\%$

$DA=\frac{5}{6}\times100\%=83.33\%$

9.12 短语结构与依存结构的关系

短语结构可转换为依存结构

实现方法：

定义中心词抽取规则，产生中心词表;
根据中心词表，为句法树中每个节点选择中心子节点;
将非中心子节点的中心词依存到中心子节点的中心词上，得到相应的依存结构。

例1：给定如下短语结构树。

注：在短语结构树中，有两种标记，一是词性标注（如 DT、NN），二是句法标注（如 NP）。

句子：Vinken will join the board as a nonexecutive director Now 29.

根据中心词表（可自行设计，反正就是一些 PK 规则），自底向上，一颗子树的所有子节点 PK，赢的成为代表，作为中心词往上传递。如下图中 the 和 board PK，board 胜利，因此把 $(board,\ NN)$ 传递给 NP。

将非中心子节点的中心词依存到中心子节点的中心词上

例2：句子 “我喜欢这本书。” 的短语结构树如下：

MT

噪声信道模型

源语言句子： $S=s_1s_2\cdots s_m$

目标语言句子： $T=t_1t_2\cdots t_l$
$P(T|~S)=\frac{P(T)P(S|~T)}{P(S)}$

$T^*=\arg\max_T P(T)P(S|~T)$

因此，统计翻译中的三个关键问题：

估计语言模型概率 $p (T)$
估计反翻译概率 $p (S ∣ T)$ 。
高效搜索 $T$ 使得 $p(T)\cdot p(S | T)$ 最大

注：在这个任务中，似然函数也称为反翻译模型。

对位模型

我们引入一个隐变量 $A = A (S, T)$ ，称为对位模型（alignment model），其代表的目标语言句子中的词与源语言句子中的词之间的对应关系。如下是对位模型的一个 case，

对于 $S$ （长度为 $m$ ）和 $T$ （长度为 $l$ ），对位模型共有 $2^{l\times m}$ 种（指数级空间，因此如何找到合适的对位模型是一个挑战）。

注：

上式中 $a_1^m$ 的意思是 $a_{1:m}$ ，即 $a_1^m=a_1a_2\cdots a_m$
$a_i$ 可以等于 0，表示不参与对齐，如下图。

此时， $A = (1, 5, 6, 2, 0, 4) .$

基于短语的翻译模型

基于词的翻译模型的问题：

很难处理词义消岐问题
很难处理一对多、多对一和多对多的翻译问题

以短语为基本翻译单元！！

注：这里所说的短语指一个连续的词串 (n-gram)，不一定是语言学中定义的短语 (phrase)。

如：I would like to

短语划分模型

目标：将一个词序列如何划分为短语序列
方法：一般假设每一种短语划分方式都是等概率的

剩下的三个核心模型：

短语翻译模型
短语调序模型
目标语言模型

短语翻译模型

如何学习短语翻译规则（分两步）
1. 双语句对词语对齐
2. 短语翻译规则抽取（抽取 corpus 中所有的短语）
如何估计短语翻译概率

一、如何学习短语翻译规则。

首先，使用 IBM 1-5 做双语句对（Bilingual sentence pairs）词语对齐，

短语翻译规则抽取：根据对齐一致性，抽取合法短语（可以在 $\mathcal O(n^2)$ 时间内完成）。

什么是对齐一致性？即如下图中的红框，左右上下横冲不会撞到其他黑格。

二、如何估计短语翻译概率。

抽取完所有短语后，如何估计其概率？——相对频度（数数）。

短语翻译概率估计：4个翻译概率（最大似然）

正向、逆向短语翻译概率 $p (t ∣ s), p (s ∣ t)$
正向、逆向词汇化翻译概率 $p_{lex}(t|s),p_{lex}(s|t)$

计算例子（正向、逆向短语翻译概率）

短语调序模型

如何评估两个句子在语序上的差异（句子结构）？

两种常用方法：

距离跳转模型
分类模型

距离跳转模型

距离定义：
$d=\text{current}_{\text{begin}} -\text{last}_{\text{end}}-1$
即当前短语开始的位置 - 上一个短语结束的位置 - 1.

例子。

注：中文是源句子。

从左到右依次数目标句子的短语，
$\begin{aligned} +4&=7-2-1\\ -6&=5-10-1\\ -4&=3-6-1 \end{aligned}$
距离跳转模型是一种相对粗糙的方法，没有关注乱序的是哪些词。于是有接下来的分类模型的工作。

分类模型

分为三类：Monotone (M)、Swap (S)、Discontinuous (D)。

译文评估

BLEU：

其中， $w_n=1\Big/ N.$

$BP=\begin{cases} 1\quad &\text{if }c>r\\ \exp\Big((1-r)/c\Big)\quad &\text{if }c\le r.\\ \end{cases}$
其中 $c$ 是机器译文的词数（长度）， $r$ 是参考译文的词数。

参考链接：

https://blog.csdn.net/wwj_748/article/details/79686042
https://blog.csdn.net/qq_30232405/article/details/104219396

常用的评测指标

主观评测：

流畅度
充分性；
语义保持性。

客观评测

句子错误率：译文与参考答案不完全相同的句子为错误句子。错误句子占全部译文的比率。
单词错误率 (Multiple Word Error Rate on Multiple Reference, 记作 mWER)：分别计算译文与每个参考译文的编辑距离，以最短的为评分依据，进行归一化处理
与位置无关的单词错误率 (Position independent mWER, 记作 mPER )：不考虑单词在句子中的顺序
METEOR 评测方法
对候选译文与参考译文进行词对齐，计算词汇完全匹配、词干匹配、同义词匹配等各种情况的准确率 §、召回率 ® 和 F 平均值
BLEU 评价方法 [Papineni, 2002]：Bi-Lingual Evaluation Understudy, IBM

基本思想：将机器翻译产生的候选译文与人翻译的多个参考译文相比较，越接近，候选译文的正确率越高。

实现方法：统计同时出现在系统译文和参考译文中的 $n$ 元词的个数，最后把匹配到的 n 元词的数目除以系统译文的 $n$ 元词数目，得到评测结果。

BLEU 分值范围：0 ~ 1，分值越高表示译文质量越好，分值越小，译文质量越差。
NIST：对 BLEU 的改进。

基本思想：BLEU 评分公式中采用的 n 元语法同现概率的几何平均方法使评分值对于各种 n 元语法同现的比例具有相同的敏感性，但实际上，这种做法存在着潜在的矛盾，因为 n 值较大的统计单元出现的概率较低。因此，NIST 的研究人员提出了另外一种处理方法，就是用 n-gram 同现概率的算术平均值取代几何平均值。另外，如果一个 $n$ 元词在参考译文中出现的次数越少，表明它所包含的信息量越大，那么，它对于该 $n$ 元词就赋予更高的权重。

熵熵熵

相对熵（KL 距离），⽤于衡量两个概率分布的差距。当两个随机分布相同时，其相对熵为 0。当两个随机分布的差别增加时，其相对熵也增加。
$\begin{aligned} D(p~||~q) &=\sum p(x)\log\frac{p(x)}{q(x)}\\ &=\sum p(x)\log p(x)-\sum p(x)\log q(x)\\ &=-H(p(x)) \underbrace{-\sum p(x)\log q(x)}_{\text{CE}}\\ \end{aligned}$
交叉熵（Cross Entropy，CE），
$H(p,q)=-\sum p(x)\log q(x)$
困惑度，
$PPL(sent)=p(w_1w_2\cdots w_s)^{-\frac 1 S}=\sqrt[S]{\frac{1}{p(w_1w_2\cdots w_s)}} \quad \text{where }\text{s is the length of sentence tested.}$
互信息：互信息是关于两个随机变量互相依赖程度的一种度量。互信息也称信息增益（IG），即在引入 $y$ 后对 $x$ 的不确定性消除了多少，或者说引入 $y$ 后为分类系统带来多少信息。
$I(x,y)=H(x)-H(x|~y)=\sum\sum p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$

14 个样本中，9 个 P，5 个 N，我们可以使用熵度量这件事（类别属于 P 还是 N）的不确定性， $H_0=0.94 ~bit$ 。此时的熵叫先验熵。

先对天气这个特征进行讨论，

5 个天气为晴的样本，其中 2P 3N，此时的熵叫后验熵， $H_{11}=0.97~bit$

4 个天气为多云的样本，其中 4P 0N，此时的熵叫后验熵， $H_{12}=0~bit$

5 个天气为雨的样本，其中 3P 2N，此时的熵叫后验熵， $H_{13}=0.97~bit$

则 $H_1=5/14~H_{11}+4/14~H_{12}+5/14~H_{13}=0.69~bit$ ，此时的熵，是在知道天气这个特征后，对这件事（类别属于 P 还是 N）的不确定性的度量，称为条件熵。

我们在引入天气这个特征后，消除了多少不确定性呢？ $I_1=H_0-H_1=0.25~bit$ ，被消除的那部分不确定性叫互信息（AKA. 信息增益）。

依次可求其它特征的 $I_2、I_3...$

最后，可建立决策树，首先用哪个特征作为判断分支呢？互信息最大的那个特征！因为引入它消除了最多的不确定性。

CLS

HMM

HMM：观测状态序列概率计算

前向概率

不妨以“0.0382”为例，计算
$(0.32\times 0.4+0.18\times 0.3+0.09\times 0.1)\times 0.2=0.0382$
…

根据表 8，可知观测状态序列“⼲燥、潮湿、⼲燥”的前向概率为（相加）

$t = 3$ ，初始化没什么好说的。

$t = 2$ ，以“0.65”为例，计算
$KaTeX parse error: Expected '}', got '_' at position 31: …4}_{\text{trans_̲prob}}\times \u…$
注意：计算 $t = 2$ 时，emit_prob 计算的是 $t = 3$ 时刻的 dry（而非 wet）。

…

根据表 10，可知观测状态序列“⼲燥、潮湿、⼲燥”的后向概率为（可看做 $t = 0$ ）

当 $t = 2$ ，先计算晴天。
$\begin{aligned} &\max\{0.32\times 0.4\times 0.2;\ 0.18\times 0.3\times 0.2;\ 0.09\times 0.1\times 0.2 \}\\ \\ =&\max\{0.0256;\ 0.0108;\ 0.0018\} =0.0256 \end{aligned}$
注：0.0256 后面的 1 表示该结点最优前继结点为 node 1（即晴天）.

接着确定 $t = 2$ 时的阴天，接着确定 $t = 2$ 时的雨天。

当 $t = 3$ ，
$0.064\times 0.3\times 0.2=0.00384$
…

根据表 11，可知观测状态序列“⼲燥、潮湿、潮湿”对应的最优隐状态序列为“晴天、阴天、⾬天”，其概率为0.0134。（三条路径搜索）

概念题知识点

编辑距离：最少操作次数（插入、删除、替换、交换）

连词歧义：我和她的朋友。

问答式检索应用 ——Watson（沃森），DeepQA 问答系统是 Watson 实现的核心

命名实体识别：识别出待处理文本中七类命名实体（人名、机构名、地名、时间、日期、货币和百分比）

概括地说就是：专有名词和数字类名词。

命名实体消歧：确定上下文语境中的一个实体指称项所指向的真实世界实体。（e.g. Michael Jordan）

实体链接：给定实体指称项和它所在的文本，将其链接到给定知识库中的相应实体上。

关系抽取：自动识别由一对概念和联系这对概念的关系构成的相关三元组。

如：比尔盖茨是微软的 CEO。 → CEO( 比尔盖茨, 微软)

事件抽取：抽取事件及相关信息（事件触发词、事件元素）

语料库 (corpus) 是存放语言材料的仓库 ( 语言数据库)

基于语料库进行语言学研究，被称为语料库语言学

词汇知识库的四种语义关系：同义关系，反义关系，上下位关系，部分关系

对汉字而言四元语法效果会好一些

语言模型参数估计的两个重要点：训练语料，最大似然估计（MLE）

数据平滑方法：加一法，减值法 / 折扣法 (古德图灵估计)，删除差值法

词是自然语言中能够独立运用的最小单位，是自然语言处理的基本单位。

自动词法分析就是利用计算机对自然语言的形态（morphology）进行分析，任务包括：

判断词的结构和类别；
词的形态还原（e.g. ate $\to$ eat）；
分词等。注：大部分基于词的分词方式采用的是生成式模型，而基于字的分词方式采用判别式模型。

词性或称词类（Part of Speech, POS）是词汇最重要的特性，是连接词汇到句法的桥梁。

不同语言的词法分析

曲折语（如，英语、德语、俄语等）：用词的形态变化表示语法关系，一个形态成分可以表示若干种不同的语法意义，词根和词干与语词的附加成分结合紧密。
词法分析任务为：形态还原（无需分词，比如英语中的空格是词与词之间天然的间隔）。
分析语（也称孤立语，如：汉语）：词法分析的任务为：分词。
黏着语（如：日语等）：词法分析的任务为：分词＋形态还原。

词性标注

词性（part of speech, POS）标注（tagging）的主要任务是：消除词性兼类歧义。在任何一种自然语言中，词性兼类问题都普遍存在。比如说：每次他都会在会上制造点新闻。

标注集的确定原则（标注集的规范）

不同语言中，词性划分基本上已经约定俗成。自然语言处理中对词性标记要求相对细致。

一般原则

标准性: 普遍使用和认可的分类标准和符号集；
兼容性: 与已有资源标记尽量一致，或可转换；
可扩展性：扩充或修改。

UPenn Treebank 的词性标注集确定原则

可恢复性：从标注语料能恢复原词汇或借助于句法信息能区分不同词类；
一致性：功能相同的词应该属于同一类；
不明确性：为了避免标注者在不明确的条件下任意决定标注类型，允许标注者给出多个标记（限于一些特殊情况）。

句法分析

任务：句法分析（syntactic parsing）的任务就是识别句子的句法结构（syntactic structure）。

句法分析本质是一个为句子的结构建模的过程，这里的结构是指句法结构。既然是为句子的句法结构建模，那么最主要的困难就是结构歧义。

句法分析类型：

短语结构分析（Phrase parsing）
- 完全句法分析（Full parsing）
- 局部句法分析（Partial parsing）
依存句法分析（Dependency parsing）

短语结构分析

目标：实现高正确率、高鲁棒性（robustness）、高速度的自动句法分析过程。

困难：

自然语言中存在大量的复杂的结构歧义（structural ambiguity）。
英语中的结构歧义随介词短语组合个数的增加而不断加深的，这个组合个数我们称之为卡特兰数（Catalan number）。

基本方法和开源的句法分析器：

基于 CFG 规则的分析方法：
- 线图分析法（chart parsing）：见 9.3 节
- CYK 算法：见 9.4 节
- Earley（厄尔利）算法
- LR 算法 / Tomita 算法……
  - Top-down: Depth-first/ Breadth-first
  - Bottom-up
基于 PCFG 的分析方法（引入概率）

依存句法分析

1970 年计算语言学家 J. Robinson 在论文《依存结构和转换规则》中提出了依存语法的 4 条公理：

一个句子只有一个独立的成分；
句子的其他成分都从属于某一成分；
任何一成分都不能依存于两个或多个成分；
如果成分 A 直接从属于成分 B，而成分 C 在句子中位于 A 和 B 之间，那么，成分 C 或者从属于 A，或者从属于 B，或者从属于 A 和 B 之间的某一成分。

这 4 条公理相当于对依存图和依存树的形式约束为：

单一父结点 (single headed)
连通 (connective)
无环 (acyclic)
可投射 (projective)

由此来保证句子的依存分析结果是一棵有“根 (root) ”的树结构。

基本翻译方法

直接转换法
基于规则的翻译方法
- 优点：可以较好地保持原文的结构
- 缺点：规则。。
基于中间语言的翻译方法
- 优点：中间语言的设计可以不考虑具体的翻译语言对，因此，该方法尤其适合多语言之间的互译。
- 弱点：如何定义和设计中间语言的表达方式，以及如何维护并不是一件容易的事情，中间语言在语义表达的准确性、完整性等很多方面，都面临若干困难。
基于语料库的翻译方法
- 基于事例的翻译方法
  - 优点：不要求源语言句子必须符合语法规定，翻译机制一般不需要对源语言句子做深入分析。
  - 弱点：句子之间的相似性？第一次出现的句子？当事例库过大，检索效率？
- 统计翻译方法（SMT）
- 神经网络机器翻译（NMT）

文本自动摘要：利用计算机按照某类应用自动地将文本（或文本集合）转换生成简短摘要的一种信息压缩技术。

要求：信息量足、覆盖面广、冗余度低和可读性高。

摘要方法：抽取式摘要、压缩式摘要、理解式摘要

文本摘要中消除冗余句子的方法是 CSIS, MMR

语义网络是一种由概念和关系构成的图结构的知识表示模型。强调的是认知模型。

语义网是为将互联网建设为以语义互联的海量分布式数据库的技术框架，强调的是标准化和体系化，是对互联网数据进行知识化的工程规范。

知识图谱可以看做是语义网技术框架在大规模知识库构建方面的一个工程实现，是一类使用语义网技术标准实现语义网络认知模型的知识工程产品集合。

知识图谱：不仅包含了具体的实例知识数据，更包括了对知识数据的描述和定义，这部分对数据进行描述和定义的“元”数据被称为知识体系（Schema）或者本体（Ontology）。

知识建模就是知识体系构建

知识体系：对概念的分类、概念属性的描述以及概念之间相互关系的定义。
完全自动构建知识体系还难以达到，目前主要依赖人机协同。

本体 (Ontology) 通过对于概念 (Concept)、术语 (Terminology) 及其相互关系 (Relation, Property) 的规范化 (Conceptualization) 描述，勾画出某一领域的基本知识体系和描述语言

语义网络

语义网络通过由概念和语义关系组成的有向图来表达知识、描述语义。

语义网络各概念之间的关系（边表示关系），主要由 IS-A,PART-OF, IS, HAVE, BEFORE,LOCATED-ON 等谓词表示。

在语义网络中，

内涵是指词本身的意义，是对词代表的概念描述；
外延是指词所指代的物体。

问题：如何在语义网络中表示和区分词的内涵和外延？—— 词义消歧。

话题链 (topic chain)：一组以名词回指（同物不同名）、**代词回指（如其）和零形回指（省略但存在）**形式的话题连接起来的小句或句子。

回指：一个词或短语在语篇中用于（回）指代同一语篇中的另一个词或短语的概念。

语言模型的自适应方法有：

基于缓存的语言模型（在文本中刚刚出现过的一些词在后边的句子中再次出现的可能性往往较大）；
基于混合方法的语言模型（由于大规模训练语料本身是异源的，来自不同领域的语料无论在主题方面，还是在风格方面，, 或者两者都有一定的差异，而测试语料一般是同源的，因此，为了获得最佳性能，语言模型必须适应各种不同类型的语料对其性能的影响）；
基于最大熵的语言模型（通过结合不同信息源的信息构建一个语言模型。每个信息源提供一组关于模型参数的约束条件，在所有满足约束的模型中，选择熵最大的模型）

实现 CRFs 需要解决三个问题：特征选取，参数训练，解码

参考

*　https://blog.csdn.net/yuanninesuns/article/details/110481479

你可能感兴趣的:(UCAS)

EF Academy海外国际学校助力激发学生个人潜能视记闻言大数据
（4月16日，上海）2023-2024英国和美国大学本科申请季落下帷幕，从目前的录取结果来看，国际申请者间的竞争日趋激烈。根据UCAS（英国大学和学院招生服务中心）发布的2023-2024学年英国留学本科申请数据显示，截至2024年1月31日，共有115730名国际学生提交英国大学本科入学申请，比去年总体增长0.7%；而今年录取的留学生为52110名，与去年同期相比下降2.3%。从美本的放榜情况来
【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务（OCR等）上的效果呆呆的猫多模态 ocr 多模态
论文：Vary:ScalinguptheVisionVocabularyforLargeVision-LanguageModels代码：https://github.com/Ucas-HaoranWei/Vary出处：旷视时间：2023.12一、背景当前流行的大型视觉-语言模型LargeVision-LanguageModels(LVLMs)一般都使用共享的visionvocabulary，这个词
scrapy框架的学习使用、XPath的基本用法、爬取新闻数据当像鸟飞向你的山数据爬取 scrapy 学习 python
文章目录声明scrapy基础安装scrapyscrapy原理scrapy应用示例一爬取新闻基础信息1新建项目2创建爬虫3君子协议4爬虫文件解释5分析网站5.1提取数据5.2spider/ucas.py5.3如果遇到反爬5.5运行爬虫6爬取多页7保存数据附录参考声明文章所涉及的内容仅为学习交流所用。scrapy基础scrapy是框架类似于一个工具采用异步框架实现高效率的网络采集最强大的数据采集框架安
UCAS-AOD遥感旋转目标检测数据集——基于YOLOv8obb，map50已达96.7% MatpyMaster CV计算机视觉 YOLO 计算机视觉目标检测目标跟踪
1.UCAS-AOD简介1.1数据说明遥感图像，又名高分辨率遥感图像。遥感图像的分类依据是根据成像的介质不同来进行分类的。UCAS-AOD(Zhuetal.，2015)用于飞机和汽车的检测，包含飞机与汽车2类样本以及一定数量的反例样本（背景），总共包含2420幅图像和14596个实例。论文中特别提到了目标检测的方向健壮性，所以在数据集标注过程中作者对数据进行了一定程度的筛选，使得图像中的物体方向分
UCAS - AI学院 - 自然语言处理专项课 - 第12讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
文本分类与聚类文本分类文本——领域信息分类传统机器学习方法文本表示向量空间模型——BoW模型词的权重词频TF布尔变量逆文档频率IDFTF-IDF特征选择文档频率：根据训练语料中的文档频率，对所有特征进行排序词频：根据训练语料中特征的频率，对所有特征进行排序基于无监督思想，特征选择缺乏类别信息的指导相关概率估计（文档数）P(cj)≈(Aij+Cij)/NallP(c_j)\approx(A_{ij}
UCAS - AI学院 - 自然语言处理专项课 - 第14讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
人机对话概述图灵测试是通过人机对话的形式实现人机对话：让计算机能够理解和运用人类社会的自然语言，实现人机之间的自然语言通信人机对话涉及语音识别、语音合成、自然语言处理、知识工程和情感认知等研究领域，是典型的交叉研究方向任务型对话系统以完成特定任务（TaskCompletion）为主要目的的人机交互系统对话理解根据历史对话记录对用户当前输入的对话内容进行语义分析，识别出对话任务的领域和用户意图，并抽
UCAS - AI学院 - 自然语言处理专项课 - 第5讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第5讲-课程笔记语言模型传统语言模型n元文法参数估计数据平滑方法语言模型自适应应用神经语言模型背景前馈神经网络语言模型循环神经网络语言模型自我注意力机制语言模型应用文本表示模型背景向量空间模型表示学习模型词语的表示学习短语的表示学习句子的表示学习文档的表示学习动态的表示学习语言模型传统语言模型n元文法统计方法于语料库语言学的应用发现语言使用的普遍规律通过机器
UCAS - AI学院 - 自然语言处理专项课 - 第8讲 - 课程笔记支锦铭 UCAS-课程笔记自然语言处理人工智能
UCAS-AI学院-自然语言处理专项课-第8讲-课程笔记句法分析·短语结构分析概述线图分析法CYK分析法基于PCFG的分析法句法分析性能评估局部句法分析句法分析·依存句法分析概述依存关系分析方法依存关系分析性能评估短语结构与依存关系基于深度学习的句法分析英汉句法结构特点对比句法分析·短语结构分析概述完全句法分析：获得句子完整的句法分析树目标：实现高准确率、高鲁棒性、快速句子结构自动分析过程困难：结
UCAS - AI学院 - 自然语言处理专项课 - 第4讲 - 课程笔记支锦铭 UCAS-课程笔记自然语言处理人工智能
UCAS-AI学院-自然语言处理专项课-第4讲-课程笔记语料库与语言知识库语料库基本概念语料库技术的发展语料库类型典型语料库介绍问题与现状语言知识库WordNet知网HowNet概念层次网络知识图谱语料库与语言知识库语料库基本概念语言数据库：大规模语言数据（模型参数标准、评测标准）NLP知识库（词汇语义库、词法句法规则库、常识库）语料库：用于存放语言数据的文件语料库语言学：研究自然语言文本的彩集、
【UCAS自然语言处理作业二】训练FFN, RNN, Attention机制的语言模型，并计算测试集上的PPL 长命百岁️ 自然语言处理 PyTorch 深度学习自然语言处理 rnn 语言模型
文章目录前言前馈神经网络数据组织Dataset网络结构训练超参设置RNN数据组织&Dataset网络结构训练超参设置注意力网络数据组织&Dataset网络结构Attention部分完整模型训练部分超参设置结果与分析训练集Loss测试集PPL前言本次实验主要针对前馈神经网络，RNN，以及基于注意力机制的网络学习语言建模任务，并在测试集上计算不同语言模型的PPLPPL计算：我们采用teacherfor
嘉应大学黄林鑫计算机学院,林鑫-中国科学院大学-UCAS DING FNM 嘉应大学黄林鑫计算机学院
发表论文(1)ImprovingtheCombustionPerformanceofaHybridHelicalRocketEngineusingaNovelFuelGrainwithaNestedStructure,Jove-JournalofVisualizedExperiments,2021,通讯作者(2)Characterizingcombustionofahybridrocketusin
Endnote的使用-参考文献插入 xiaoxianyu
声明：一下内容非原创，来自对ucas张冬荣老师资源检索课程课件整理。大家对Endnote最大的期待就是在论文写作时能够帮助插入参考文献，那么这个功能是怎么来实现的呢？了解Endnote在word里的工具条我们论文写作是在Word里，成功安装Endnote之后，在Word上方的工具栏会自动出现Endnote选项，点击它会出现下面的工具条：在Endnote里插入参考文献把光标移动到要插入参考文献的地方
UCAS - AI学院 - 自然语言处理专项课 - 第13讲 - 课程笔记支锦铭 UCAS-课程笔记自然语言处理人工智能
信息抽取概述互联网和社交媒体快速发展文本信息资源极大丰富信息过载问题日益显现高效准确的信息获取手段成为必需（文本）信息抽取技术应运而生非结构化文本数据占据约80%信息抽取从非结构化、半结构化的自然语言文本中抽取实体、实体属性、实体间的关系以及事件等事实信息，并形成结构化数据输出的一种文本数据挖掘技术信息抽取vs信息检索信息检索：查询——文档——检索相关结果信息抽取：文档——相关信息抽取和整理（关系
UCAS - AI学院 - 自然语言处理专项课 - 第11讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第11讲-课程笔记机器翻译概论统计机器翻译神经机器翻译系统融合译文质量评估语音翻译机器翻译概论机器翻译：用计算机把一种语言（源语言）翻译成另一种语言（目标语言）的技术困难歧义和未知现象文化差异和世界知识常识解不唯一，标准认为制定基本方法基本转换法直接进行单词、短语、句子的置换，并适当进行次序调整基于规则的翻译方法翻译机制与语法分开，用规则描述语法词法分析——
UCAS - AI学院 - 自然语言处理专项课 - 第7讲 - 课程笔记支锦铭 UCAS-课程笔记自然语言处理人工智能
UCAS-AI学院-自然语言处理专项课-第7讲-课程笔记形态分析、汉语分词与词性标注概述英语形态分析汉语自动分词概要性能评价方法未登录词识别现状和未来词性标注形态分析、汉语分词与词性标注概述词：自然语言中能够独立运用的最小单位，NLP的基本单位不同语言在词法层面需要完成不同的分析任务曲折语：词的形态变化表示语法关系——形态分析、形态还原分析语：词语切分黏着语：词语切分+形态还原词性（词类，Part
UCAS - AI学院 - 自然语言处理专项课 - 第9讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第9讲-课程笔记语义分析概述语义理论简介格语法语义网络词义消歧语义角色标注分布式语义表示语义分析概述语义计算的任务：解释句子或篇章各部分的含义困难大量的歧义（指代、同义/多义、辖域、隐喻）不同人的理解理论方法、模型尚不成熟挑战语义的基本单元语义表示的方法和标准语言产生和演化的神经基础是什么人脑的语言认知机理语义理论简介词的指称作为意义指代事物——对应意义问题
UCAS - AI学院 - 自然语言处理专项课 - 第10讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第10讲-课程笔记篇章分析概述篇章表示理论篇章关系分析篇章分析应用篇章分析概述NLP处理单位字——编码、输入法词、短语——形态分析、汉语分词、词性标注、词义消歧、NER句子——句法分析、语块分析、语义角色标注篇章——机器翻译、篇章推理、问答系统、自动摘要、情感分类现有有关篇章的分析任务都是基于句子的，因此性能很差篇章表示理论词汇链：一组由类似含义的相同词汇连
UCAS - AI学院 - 自然语言处理专项课 - 第2讲 - 课程笔记支锦铭 UCAS-课程笔记计算机视觉人工智能
UCAS-AI学院-自然语言处理专项课-第2讲-课程笔记数学基础概率论基础信息论基础熵（Entropy）联合熵（JointEntropy）条件熵（ConditionalEntropy）熵率（EntropyRate）相对熵（RelativeEntropy）交叉熵（CrossEntropy）困惑度（Perplexity）互信息（MutualInformation）噪声信道模型（NoisyChannel
UCAS - AI学院 - 自然语言处理专项课 - 第1讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第1讲-课程笔记绪论基本信息问题的提出基本概念学科的产生与发展研究内容问题与挑战基本方法与技术现状绪论基本信息50学时，3学分宗成庆、张家俊作业：方法实践+技术报告（小组或单人）问题的提出人物、事件关系分析意义重大大量复杂数据人工难以应对让计算机自动或者半自动理解自然语言文本自然语言处理：让计算机实现海量语言文本的自动处理、挖掘河有效利用，满足不同用户的各种
UCAS - AI学院 - 自然语言处理专项课 - 第3讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第3讲-课程笔记形式语言与自动机形式语言有限自动机与正则文法下推自动机与CFGFA在NLP中的应用英语单词拼写检查有限自动机用于英语单词形态分析形式语言与自动机形式语言语言：一个抽象的数学系统按照一定规律构成的句子和符号串的有限或无限集合语言描述的三种途径穷举法：只适合句子数目有限的语言语法描述：生成语言中“合格”的句子自动机：对输入的句子进行检验以区别是否
UCAS - AI学院 - 自然语言处理专项课 - 第6讲 - 课程笔记支锦铭 UCAS-课程笔记人工智能自然语言处理
UCAS-AI学院-自然语言处理专项课-第6讲-课程笔记隐马尔可夫模型与条件随机场马尔可夫模型隐马尔可夫模型隐马尔可夫模型的应用条件随机场及其应用隐马尔可夫模型与条件随机场马尔可夫模型马尔可夫模型描述：如果一个系统有NNN个状态SiS_iSi，随着时间的推移，该系统从某一个状态转移到另一个状态。如果ttt时刻的状态变量为qtq_tqt，则ttt时刻状态值为SjS_jSj的概率取决于前面所有时刻的状
【UCAS自然语言处理作业一】利用BeautifulSoup爬取中英文数据，计算熵，验证齐夫定律长命百岁️ 人工智能自然语言处理 beautifulsoup
文章目录前言中文数据爬取爬取界面爬取代码数据清洗数据分析实验结果英文数据爬取爬取界面动态爬取数据清洗数据分析实验结果结论前言本文分别针对中文，英文语料进行爬虫，并在两种语言上计算其对应的熵，验证齐夫定律github:ShiyuNee/python-spider(github.com)中文数据爬取本实验对四大名著的内容进行爬取，并针对四大名著的内容展开中文文本分析，统计熵，验证齐夫定律爬取网站:ht
刘剑计算机科学与技术,刘剑-中国科学院大学-UCAS 一念前尘刘剑计算机科学与技术
发表论文(1)Explainingsoftwarefailuresbycascadefaultlocalization,ACMTransactionsonDesignAutomationofElectronicSystems,2015,通讯作者(2)Asynergisticanalysismethodforexplainingfailedregressiontests,The37thInterna
出乎意料的发现，中国留学生最多英国名校你知道吗？吃苹果不吐皮
近日，英国大学招生服务中心UCAS公布了2019年英国大学最新申请数据。在过去一年中，申请英国留学的中国学生增长30%！申请人数甚至超过了英国本土的北爱尔兰！外媒普遍认为，过去几年中美愈发紧张的关系，让中国学生开始倾向于美国以外的留学目的地。而拥有古老精英教育传统的英国，成为了中国学生的首选。在这些深受中国学生喜爱的英国大学中，有一所大学的中国学生人数在全欧洲的所有大学中，位列第一。他就是素有“中
PCL——点云特征描述与提取 kkmd66 PCL PCL
法向量估计/**@Description:法向量估计(运⾏耗时2min)。：https://www.cnblogs.com/liyao7758258/p/6479255.html*@Author:HCQ*@Company(School):UCAS*@Date:2020-10-1916:33:43*@LastEditors:PleasesetLastEditors*@LastEditTime:202
小样本目标检测：ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection 学术菜鸟小晨目标检测目标检测人工智能计算机视觉
论文作者：ZhimengXin,TianxuWu,ShimingChen,YixiongZou,LingShao,XingeYou作者单位：HuazhongUniversityofScienceandTechnology;UCAS-TerminusAILab论文链接：http://arxiv.org/abs/2309.08196v1内容简介：1）方向：小样本目标检测2）应用：目标检测3）背景：现有
有英国留学意向的小伙伴是不是已经着手准备UCAS系统申请了？ pinkslr
英国的大学申请系统UCAS，网友把它归纳“英国的高考招生办”，因为英国学生不能直接通过大学提交申请，必须通过UCAS。英国的大学申请会比最后的A-Level考试（普通教育高级程度证书TheGeneralCertificateofEducationAdvancedLevel，简称GCEA-Level）要早半年左右，根据不同的课程选择，申请递交的截止日期也是不同的，牛津剑桥及医学课程的deadline
脚本之抢课脚本一只荣脚本脚本
//==UserScript==//@nameNewUserscript//@namespacehttp://tampermonkey.net///@version0.1//@descriptiontrytotakeovertheworld!//@authorYou//@matchhttp://jwxk.ucas.ac.cn/courseManage//@grantnone//==/UserScr
英国伦艺UAL伦敦时装学院本科服装设计与技术：男装BA (Hons) Fashion Design Technology: Menswear作品集与申请指南 ELEVENTEN
BA(Hons)FashionDesignTechnology:Menswear伦敦时装学院本科服装设计与技术：男装学院LondonCollegeofFashion开始日期2019年9月课程长度3年UCAS代码W293课程介绍这个男装课程将为学生提供一个品牌男装设计职业或建立自己的业务，并为男装大师的机会做好准备。文学士（荣誉）时装设计技术：男装为当代男装的设计和实现提供创意方法。技术技能包括创新
英国本土IGCSE、ALevel取消！后续应对措施出炉！阅读冯
VA国际艺术教育上周，英国开始了对英格兰地区的第三次封锁，而封锁期间，原定于2021年夏季举行的GCSE和A-level考试被取消（本土）。针对这项决定，UCAS在1月5日宣布了2021年申请截止时间将延后两周：艺术留学UCAS（英国大学招生系统）近日宣布将2021年的申请截止时间延后两周从2021年1月15日延长到1月29日18:00英国艺术留学图源截取自UCAS官网而UCAS申请的延期也将会导
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C