潘小榭

chapter2:正则表达式、文本标准化和编辑距离

Speech and Language Processing: An introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. Chapter 2

前言： 早期的自然语言处理工具ELIZA采用的方法是pattern matching. 而对于文本模式(text pattern)的描述，有一个很重要的工具：正则表达式(regular expression).

对文本处理任务的统称，就是文本标准化(text normalization)。其中有：

tokenizing: 分词？
lemmatization: 词形还原。 确定表面不一样的词是否是同一个词根，针对时态比较复杂的语言非常必要。
stemming:词干提取。 针对前缀后缀，一种简单的lemmatization
sentence segmantation: 句子分割. 用时态或者标点符号

最后提到编辑距离(edit distance):一种算法，在自然语言处理和语音识别中都很常用。

正则表达式 regular expression

用斜线(slashes)来分隔正则表达式，斜线不是正则表达式的一部分。
正则表达式的区分大小写的，可以用方括号(square braces)来解决这个问题。

对所有的数字(digits)可以用/[1234567890]/,但对于所有的字母这样就不太方便了，可用连字符(dash)(-)来表示一个范围(range).

脱字符(caret)(^)

用脱字符表示否定，或者仅仅表示它自身。放在方括号的第一个位置时才有效。

用问号?表示前一个字符是可选的。

问号除了表示可选外，还有贪婪和非贪婪的区别。/.* ?/ 和 /.* /

用 * 表示前一个字符的零个或多个；用 + 表示前一个字符的一个或多个
举个栗子：

baa!(至少两个a)

baaa!

baaaaaa!

用 /baaa*/ 或 /baa+/ 可匹配上面这种形式。

单位数的价格可用 /[0-9]/，一个整数（字符串）的正则表达式：/[0-9][0-9]* / 或者 /[0-9]+/

通配符(wildcard) /./

/./表示匹配任何字符，那么和星号一起使用，就可以表示任何字符串了。/.* /

锚号(anchor)是一种把正则表达式锚在字符串中的特定位置，最普通的锚号是脱字符^和美元符$.
- 脱字符 ^ 与行的开始相匹配。/^ The/　表示单词只出现在一行的开始，这样脱字符就有三种用法了。
- 美元符 $ 表示一行的结尾./^ The dog\\.\$/表示这一行只有The dog. 其中点号前面必须加反斜杠，因为我们要让它表示点号，而不是通配符。
还有两个锚号： \b表示词界， \B表示非词界

非数字、下划线或字母，可以看做词界。

Disjunction,Grouping, and Precedence 析取，组合和优先关系

析取算符(Disjunction operator)(|),正则表达式 /cat|dog/ 表示字符串是dog或者cat,对于后缀guppy和guppies,可以写作 /gupp(y|ies)/
圆括号算符“()”.我们知道 * 只能表示前一个字符的重复，但如果要重复一个字符串呢，那就得用括号了。比如 /(column [0-9]+_*)*/ 就表示column后面跟一个数字和任意数目空格的重复～
运算符的优先级

正式因为 * 的优先级高于序列，所以 /the* / 表示与theeeee匹配，而不是与thethe匹配。

还有正则表达式的匹配是贪心的(greedy).比如 /[a-z]* / 可以匹配零个或多个字母，所以结果是尽可能长的符号串。

怎么让它不贪心呢（non-greedy）？可以这么写 /[a-z]* ?/ 或 /[a-z]+?/会匹配尽可能少的符号串。

一个简单的栗子

要用正则表达式找到the

/the/

并不能找到the位于句子开头的情况The

/[tT]he/

当the嵌入在其他单词之间时theology，也是不对的

/\b[tT]he\b/

加入词界后也不包括the_或者the25了，但如果我们也想找到这种情况中的the呢？那就说明，在the两侧不能出现字母。

/[\^a-zA-Z][tT]he[\^a-zA-Z]/

这样仍然有问题，这意味着前面必须有个非字母符。所以应该这样：

/(^|[\^a-zA-Z])[tT]he[\^a-zA-Z]/

正则表达式中的替换(substitution)、存储器(capture group)和ELIZA

s/regexp1/regexp2/ 表示用第二个正则表达式替换第一个的内容

s/colour/color/
s/([0-9]+)/<\1>/ 其中 \1表示参照第一个模式中的内容，也就是括号的内容，然后加上<>后对它进行替换。实际上就是找到这样的，加上<>
/the (.* )er they were, the \1er they will be/

可以匹配 The bigger they were, the bigger they will be 但不能匹配 bigger they were, the faster they will be.

括号中用于存储的模式叫做 capture group，而用于存储的数字存储器叫做 寄存器(register).

这样一来圆括号就有了两种含义了，可以用来优先级的运算符，也可以用来capture group. 所以必须加以区别，用 ?: 来表示 non-capturing group. (?: pattern )

举个栗子:

/(?:some|a few) (people|cats) like some \1/

可以用来匹配 some cats like some people，而不能匹配 some people like some a few. 因为\1 表示的是(people|cats)这个括号中的内容。

ELIZA：

这可真是“人工”智能啊。。。hahha

Lookahead assertions

最后，有时候我们需要预测未来look ahead：在文本中向前看，看看有些模式是否匹配，但不会推进匹配游标(match cursor)，以便我们可以处理模式。不推进匹配游标是什么意思？

lookahead assertions 使用(?=pattern)和(?!pattern).
The operator (?= pattern) is true if pattern occurs, but is zero-width.

负向预测：

/(ˆ?!Volcano)[A-Za-z]+/ 表示

这个不太理解，到regex.com上试了下：

Words and Corpora

在我们对word进行处理时，我们需要确定怎么样才算一个word.

语料库：

written texts from different genres (newspaper, fiction, non-fiction,
academic, etc.), Brown University in 1963–64 (Kučera and Francis,1967).
telephone conversations between strangers，(Godfrey et al., 1992).

disfluencies, fragment, filled pauses

举个栗子：

I do uh main- mainly business data processing

对于语句中出现的不流利的地方 (disfluencies). main- 称为片段 (fragment), 像uh和um这样的称为 fillers or filled pauses

我们在处理文本的时候是否需要保留这些不流利的地方呢，这取决于我们的应用。

Disfluencies like uh or um are actually helpful in speech recognition in predicting the upcoming word, because they may signal that the speaker is restarting the clause or idea, and so for speech recognition they are treated as regular words. Because people use different disfluencies they can also be a cue to speaker identification.

capitalized tokens or uncapitalized tokens

they 和 They 是否需要当做同一个单词处理。我们知道在 part-of-speech or named-entity tagging 中首字母大写是很有用的特征，这需要保留下来。

lemma and wordform

一句话中的WORD可以用两种不同的标准来区分。一种是Lemma，一种是wordform。 wordform就是词的形状，而lemma则是词意。比如 am is are ，都是一个lemma，但是3个wordform。在阿拉伯语中，需要将lemmatization，可能因为他们同一个词意，能用的词太多了吧，我记得看哪个视频的时候说过骆驼，有四十多种。。。对于英语的话，wordform就够了。

word type and word token

倘若以wordform的形式来界定一个词，那么一句话中WORD的数目还可以用两种不同的标准来区分。Type是相同的词都算一个，Token是每个词出现几次都算。所以 “no no no …. it is not possible” 这样的一句话，Type 有5个，Token 有7个。

其中 Tokens N 和 types |V| 有这样的关系：

| V | = k N β

β 取决于语料库的大小(size)和类型(genre).当语料库至少有上图中的大小时， β 的值的大小为0.67到0.75之间。

Roughly then we can say that the vocabulary size for a text goes up significantly faster than the square root of its length in words.

另外一种是以lemmas来界定一个词，而不是wordform.

文本标准化 Text Normalization

在进行自然语言处理之前，都需要对文本进行标准化处理。
- Segmenting/tokenizing words from running text 分词
- Normalizing word formats 单词格式归一化
- Segmenting sentences in running text. 句子分割

Unix tools for crude tokenization and normalization

介绍了一个Linux命令 tr 可用来统计词频

但这个统计非常简单粗暴，去掉了所有的标点符号和数字

Word Tokenization and Normalization

介绍了标点符号在很多地方的用途:

Ph.D,m.p.h… 时间(09/04/18)..等等
email, urls
clitic contractions by apostrophes. 用’号表示的缩写 what’re,we’re

根据应用不同，tokenize也会不同，比如New York通常也会标记为一个词。在 name entity detection 中Tokenization会很有用。

tokenize standard: Penn Treebank tokenization standard 由Linguistic Data Consortium(LDC)发布。

case folding: everything is mapped to lower case. 在语音识别和信息检索中会比较常用。

但是在sentiment anal-
ysis and other text classification tasks, information extraction, and machine transla-
tion 中大小写是很有用的，因此通常不会使用case folding.

下一章中的有限状态自动机 finite state automata 就是用基于正则表达式判别算法编译而成的。

中文词分割：maximum matching/MaxMatch 最大匹配算法

一种贪心算法，需要一个字典(dictionary/wordlist)进行匹配.

伪代码：

代码参考：http://www.cnblogs.com/by-dream/p/6429615.html

#include 
#include 
using namespace std;

//宏，计算数组个数
#define GET_ARRAY_LEN(array, len){len=sizeof(array)/sizeof(array[0]);}

string dict[] = {"计算","计算语言学","课程","有","意思"};

//是否为词表中的词或词表中的前缀
bool inDict(string str)
{
    bool res = false;
    int i;
    int len = 0;

    GET_ARRAY_LEN(dict, len);

    for (i=0; iif (str == dict[i].substr(0, str.length()))
        {
            res = true;
        }

    }
    return res;
}

int main()
{
    string sentence = "计算语言学课程有意思";
    string word = "-";
    int wordlen = word.length(); // 1

    int i;
    string s1 = "";

    for (i=0; (unsigned)istring tmp = s1 + sentence.substr(i, wordlen); //每次增加一个词

        if (inDict(tmp))
        {
            s1 = s1 + sentence.substr(i, wordlen);
        }
        else  // 如果不在词表中，先打印出之前的结果，然后从下一个词开始
        {
            cout << "分词结果：" << s1 << endl;
            s1 = sentence.substr(i, wordlen);
        }
    }
    cout << "分词结果：" << s1 << endl;
}

如果词表足够大的话，就可以对更多的句子进行分词了。

我们用一个指标来量化分词器的准确率，称为 word error rate.

怎么计算word error rate:通过计算最小编辑距离

We compare our output segmentation with a perfect hand-segmented (‘gold’) sentence, seeing how many words differ. The word error rate is then the normalized minimum edit distance in words between our output and the gold: the number of word insertions插入, deletions删除, and substitutions替换 divided by the length of the gold sentence in words.

作者还提到最准确的中文分词算法是通过监督学习训练的统计 sequence models, 在chapter 10中会讲到。

Lemmatization and Stemming 词形还原和词干提取

Lemmatization： 词形还原，am, is，are有共同的词元(Lemma)：be

举例说明：

He is reading detective stories. –> He
be read detective story.

那么lemmatization是怎么实现的呢？

The most sophisticated methods for lemmatization
involve complete morphological parsing(形态解析) of the word.
morphological parsing会在chapter3中讲到。

Morphology is the study of the way words are built up from smaller meaning-bearing units called morphemes(语素).

语素包括两类：

stems：词干
affixes: 词缀

关于词形还原的工具：blog，词形还原工具对比

Python: NLTK
Python: Pattern
Python: TextBlob
Tree Tagger

The Porter Stemmer

通常我们用finite-state transducers 来处理 morphological parser,但我们有时候也会使用简单粗暴的去掉词缀的方法 stemming. 这里作者就介绍了一种这样的算法 Poster algorithm.

算法的原理主要是基于一些规则 cascade.

Sentence Segmentation 句子分割

主要是用标点符号啦～
比较unambiguous的标点符号有：Question marks and exclamation points

而Periods就比较ambiguous了。

具体的句子分割算法垢面chapter会讲到

Minimum Edit DIstance 最小编辑距离

用来表示两个句子之间的相似性。

deletion 删除： cost 1
insertion 插入： cost 1
substitution 替换： cost 2

The Minimum Edit Distance Algorithm

一种动态规划的算法。

dynamic programming,Bellman, R. (1957). Dynamic Programming. Princeton University Press. that apply a table-driven method to solve problems by combining solutions to sub-problems.

source string X[1…i…n]
target string Y[1…j…m]

用D(i,j)来定义X中前i个字符到Y中前j个字符的编辑距离，那么X到Y的编辑距离就是D(n,m)

计算D[i,j],也就是递推有三种方式：

定义cost:

初始情况：
- D(i,0) = i，也就是 source substring of length i but an empty target string
- D(o,j) = j，也就是 With a target
substring of length j but an empty source

那么伪代码：

# 创建矩阵[n+1,m+1]
D = np.zeros(n+1, m+1)

# 1. Initialization:
D[0,0] = 0
for each row i for i to n:
  D[i,0] = D[i-1] + 1
for each column j from 1 to m:
  D[0,j] = D[0,i-1] + 1

# 2. Recurrence:
for each row i  from 1 to n:
  for each column j from 1 to m:
    D[i,j] = min(D[i-1,j]+1, D[i-1,j]+1, D[i−1, j−1]+2)

# 3. Termination:
return D[n,m]

我们知道了最小编辑距离是多少，但是我们还想知道最小编辑距离对应的两个字符串对齐方式 alignment.据说alignment在语音识别和机器翻译中很有用～最小编辑距离和viterbi算法、前向算法很相似。

最小编辑距离：递推一步有三种选择方式，然后取最小值。每一步中三种方式的权重weight也是有意义的。
Viterbi算法：递推一步有N个路径，然后取max，可以看做最小编辑距离的拓展，权重在这里就是概率。
前向算法：递推每一步有N个路径，然后取sum.

其中最小编辑距离和Viterbi算法有 backtrace.

同样的，在前向递推的过程中填表：

填表的过程就是从D(0,0)开始，每进入一个 boldfaced cell(除了第0行和第0列)都有三种选择，然后选择最小的。

计算 alignment path，分为两步骤：
- 在算法计算的过程中，存储后指针backpointer
- backtrace：从最后一行最后一列的cell开始，沿着指针，每一步都是最小的。

总结：

介绍了各种正则表达式
- 用 - 表示range
- 脱字符 ^ 的三种用法：自身，方括号中的否定，与行开头匹配
- 问号 ? 表示前一个字符是可选的
- - 表示前一个字符零个或多个， + 表示前一个字符一个或多个
- . 表示通配符，匹配任意一个字符，/.* /匹配任意长度字符，且贪心的
- 锚号 ^ 和 $ 匹配行开头和结尾
- 锚号 \b和\B 词界和非词界
析取，组合和优先关系
主要是析取算符|和圆括号()的用法，以及运算符优先级
替换和寄存器 s/regexp1/regexp2/ \1
基于正则表达式的分词和文本标准化
用于词干提取stemming的简单粗暴的算法 Porter algorithm
用于描述字符串相似度的算法，最小编辑距离

leetcode上有个编辑距离的题目：https://leetcode.com/problems/edit-distance/description/

#include 
#include 
using namespace std;


class Solution {
public:
    int minDistance(string word1, string word2) {
        int n = word1.length();
        int m = word2.length();
        int a[n+1][m+1];

        a[0][0] = 0;
        for (int i=1; i<=n; i++){
            a[i][0] = a[i-1][0] + 1;
        }

        for (int j=1; j<=m; j++){
            a[0][j] = a[0][j-1] + 1;
        }

        for (int i=1; i<=n; i++){
            for (int j=1; j<=m; j++){
                if (word1[i-1] != word2[j-1]){
                    int tmp = min(a[i-1][j-1] + 1, a[i-1][j] + 1);
                    a[i][j] = min(tmp, a[i][j-1] + 1);                   
                }
                else {
                    a[i][j] = a[i-1][j-1];
                }

            }
        }

        return a[n][m];
    }
};

免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
《昇思 25 天学习打卡营第 25 天 | 基于 MindSpore 实现 BERT 对话情绪识别》 Sam9029 Mindscope模型学习深度学习
《昇思25天学习打卡营第25天|基于MindSpore实现BERT对话情绪识别》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp签名：Sam9029环境配置确保安装了正确版本的MindSpore和MindNLP库。!pipuninstallmindspore-y!pipinstall-ihttps://pypi.mirror
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Linux如何查看端口 lanhuazui10 linux操作系统 linux
方法一：lsof-i:端口号用于查看某一端口的占用情况，比如查看9092端口使用情况，lsof-i:9095可以看到9095端口已经被nginx占用方法二：netstat-tunlp|grep端口号，用于查看指定的端口号的进程情况，如查看5050端口的情况，netstat-tunlp|grep5050-t(tcp)仅显示tcp相关选项-u(udp)仅显示udp相关选项-n拒绝显示别名，能显示数字的
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
【笔记与idea】——ACL2017论文报告会胖胖的飞象深度学习人工智能笔记 idea
这篇是2017年我有幸参加了中文信息学会组织的ACL2017论文报告会记的笔记，当时还是研一新生，对NLP感兴趣，偶然通过老师知晓了这次报告会，所以想去现场听听大牛们的idea、和大牛们交流（然而由于当时没有入门，啥也不懂，交流失败。。。）但是总的来说，非常感谢组织这次报告会的老师们，尽管没能和大牛们有效的交流，但是这次报告会相当于在最短的时间内读懂了数十篇精彩论文的核心内容，对我后面的学习起到了
如何利用AI技术来提升用户的个性化体验和社区参与度？ Itfuture03 AI前沿技术人工智能
要利用AI技术提升用户的个性化体验和社区参与度，可以采取以下几种策略：个性化推荐系统：通过AI算法分析用户的行为和偏好，提供定制化的服务和内容推荐，如智能推荐活动、健康管理等，让居民感受到社区的温暖和关怀。智能助手与聊天机器人：引入AI驱动的虚拟助手，提供实时帮助、个性化建议和交互式对话，改善客户体验。自然语言处理（NLP）：实现具有AI能力的NLP，创建对用户友好的应用程序，简化用户体验，如客服
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南快撑死的鱼 Python算法精解 python 人工智能开发语言
使用Python和Jieba库进行中文情感分析：从文本预处理到模型训练的完整指南情感分析（SentimentAnalysis）是自然语言处理（NLP）领域中的一个重要分支，旨在从文本中识别出情绪、态度或意见等主观信息。在中文文本处理中，由于语言特性不同于英语，如何高效、准确地分词和提取关键词成为情感分析的关键步骤之一。在这篇文章中，我们将深入探讨如何使用Python和Jieba库进行中文情感分析，
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
第3篇：LangChain的架构总览与设计理念 Gemini技术窝 langchain 架构大数据人工智能 AIGC nlp
LangChain库是一个专为自然语言处理（NLP）设计的强大工具包，致力于简化复杂语言模型链的构建和执行。在本文中，我们将深入解析LangChain库的架构，详细列出其核心组件、设计理念及其在不同场景中的应用，并讨论其优缺点。文章目录1.LangChain库简介2.核心组件2.1数据输入模块作用2.2数据预处理模块作用2.3数据增强模块作用2.4数据加载与批处理模块作用2.5模型训练模块作用2.
读李中莹先生论“阿Q精神" 猫咪06
这阵子重读《重塑心灵》，对“阿Q精神"一段很有感慨，在我们从小的信念里，阿Q的精神胜利法是被贬低的，是对无能力改变自己的境遇时，似手只能采用自我安慰的人的讽刺。李中莹先生在他的书中结合对话者的认可，定义阿Q精神“只求精神胜利，罔顾真实情况"，他就针对这两句话，解析阿Q精神，并进行了肯定‘，。首先“精神胜利"指的是自己内心有成功的感觉，这很符合NLP!如果所有人都认为你成功，而你自己没有成功的喜悦，
书单用户5521
提高思维（13本）：影响力逻辑思维（理查德·尼斯贝特）离经叛道:不按常理出牌的人如何改变世界（只看最后一章总结即可）改变:问题形成和解决的原则语言的魔力:谈笑间转变信念之NLP技巧（意识到语言顺序的重要性）改变心理学的40项研究对伪心理学说不你的误区:如何摆脱负面思维掌控你的生活战胜拖拉你的灯亮着吗?别做正常的傻瓜学会提问:批判性思维指南不确定世界的理性选择小说（5本）：霍乱时期的爱情那些回不去的
【Python】解决AttributeError: ‘NoneType‘ object has no attribute ‘xxxx‘ 云天徽上 Pandas python 开发语言 pandas 机器学习 numpy
【Python】解决AttributeError:'NoneType'objecthasnoattribute'xxxx'报错欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是云天徽上，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其
【自然语言处理】自然语言处理NLP概述及应用 @我们的天空人工智能技术 nlp 人工智能深度学习 python 机器学习自然语言处理 scikit-learn
自然语言处理（NaturalLanguageProcessing，简称NLP）是一门集计算机科学、人工智能以及语言学于一体的交叉学科，致力于让计算机能够理解、解析、生成和处理人类的自然语言。它是人工智能领域的一个关键分支，旨在缩小人与机器之间的交流障碍，使得机器能够更有效地识别并响应人类的自然语言指令或内容。自然语言处理NLP概述基本任务：文本分类：将文本划分为预定义的类别，如情感分析、主题分类等
OPENAI中RAG实现原理以及示例代码用PYTHON来实现 dzend aigc python 开发语言 ai
OPENAI中RAG实现原理以及示例代码用PYTHON来实现1.引言在当今人工智能领域，自然语言处理（NLP）是一个非常重要的研究方向。近年来，OPENAI发布了许多创新的NLP模型，其中之一就是RAG（Retrieval-AugmentedGeneration）模型。RAG模型结合了检索和生成两种方法，可以用于生成与给定问题相关的高质量文本。本文将介绍RAG模型的实现原理，并提供使用Python
开源AI图像识别：支持扫描文件批量识别快速对接数据库存储思通数科x 人工智能计算机视觉图像处理 OCR 文本识别
随着数字化转型的不断深入，图像识别技术在各行各业中的应用越来越广泛。文件封识别作为图像识别技术的一个分支，能够有效地提高文件处理的自动化程度和准确性。本文将探讨文件封识别技术的原理、应用场景以及如何将识别后的内容批量对应数据库字段进行存储。开源项目介绍(可本地部署，支持国产化)思通数科研发了一款多模态AI能力引擎，专注于提供自然语言处理（NLP）、情感分析、实体识别、图像识别与分类、OCR识别和语
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那