小小鸟要高飞

moses(mosesdecoder)数据预处理&BPE分词&moses用法总结

mosesdecoder&BPE数据预处理

- moses数据预处理
- BPE分词
- moses用法总结

moses数据预处理

源码链接：

https://github.com/moses-smt/mosesdecoder

做机器翻译的小伙伴应该会moses很熟悉，这是一个很强大的数据预处理工具，虽然已经用了很多年了，但现在依然非常流行。

很多人做数据预处理都会用到BPE算法，bpe算法太强大，30000个子词几乎可以表示词典中所有的单词。但是如果我们要用词级别的翻译，那词典太大了，在机器翻译中词典受限的情况下，很多词就会变为未登录词。为了让词典尽可能的能囊括更多的单词，必须对双语语料进行预处理操作。

中文的预处理好做很多，除了分词，可做的就不多了，相比之下，英文的预处理就变得繁琐了很多，比如在bpe的子词词典中，我们可以看到American’s 和american’s同时存在于词典，并且英文的标点符号和单词之间是没空格分隔的，所以如果直接对英文按照空格进行分词，cat和cat.就可能占据词典中两个词的位置，这些都是不合理的，会浪费词典的位置。所以对英文的处理是及其有必要的。

mosesdecoder作为统计机器翻译工具，常用的预处理方法如下：

normalize：对标点符号进行规范化。

perl dir_name/mosesdecoder/scripts/tokenizer/normalize-punctuation.perl -l en < data/train.en > data/train.norm.en

其中-l en是选择语言，de类似

tokenisation：分词

perl dir_name/mosesdecoder/scripts/tokenizer/tokenizer.perl -a -l en < data/train.norm.en > data/train.norm.tok.en

de类似

cleaning：长句和空语句可引起训练过程中的问题，因此将其删除，同时删除明显不对齐的句子。–将句子长度控制在1-80。

perl path/to/mosesdecoder/scripts/training/clean-corpus-n.perl data/train.norm.tok en de data/train.norm.tok.clean 1 80

这样会同时将双语语料进行操作，生成两个处理后的文件train.norm.tok.clean.en和train.norm.tok.clean.de。

truecasing：Truecase不同于lowercase，lowercase相当于把数据中所有的字母小写，而truecase则会学习训练数据，判断句子中的名字、地点等需要大写的内容并将其保留，其余则小写，提升翻译时候的准确性，这有助于减少数据稀疏性问题。

需要训练一个truecase模型。注意：只能使用训练集训练truecase模型。

perl path/to/mosesdecoder/scripts/recaser/train-truecaser.perl -corpus data/train.norm.tok.clean.en -model path/to/truecase-model.en

应用apply：将训练得到的英语truecase模型应用到训练集、校验集和测试集的英文上。

perl dir_name/mosesdecoder/scripts/recaser/truecase.perl -model path/to/truecase-model.en < data/train.norm.tok.clean.en > data/train.norm.tok.clean.tc.en

同样德语也需要训练一个truecase模型。

BPE分词

如果想按子词来分词，则要用到BPE算法，在使用BPE算法之前最好先使用moses做数据预处理，然后将moses处理好的数据输入到BPE算法中。

项目链接：

https://github.com/glample/fastBPE

BPE分词一般有以下四个步骤：

learnbpe nCodes input1 [input2]           从1到2个文件中学习 BPE codes 
applybpe output input codes [vocab]       应用 BPE codes 对输入文件做分词
getvocab input1 [input2]                  从1到2个文件中抽取词汇
applybpe_stream codes [vocab]           apply BPE codes to stdin and outputs to stdout

Learn codes

./fast learnbpe 40000 train.de train.en > codes

从train.de 、train.en两个文件中学习BPE codes并输出到codes文件中，40000为BPE codes的个数（取排名前40000的子词）。

对于使用子词作为基本单位进行训练的神经机器翻译模型，训练的第一步就是根据语料生成bpe的codes资源，以英文为例，该资源会将训练语料以字符为单位进行拆分，按照字符对进行组合，并对所有组合的结果根据出现的频率进行排序，出现频次越高的排名越靠前，排在第一位的是出现频率最高的子词。如图所示：a n为出现频率最高的子词，出现了22968671次，e s< /w>出现了21090192次，其中 < /w> 表示这个s是作为单词结尾的字符。训练过程结束，会生成codes文件。BPE codes的个数为40000，所以codes文件中总共有40000行。codes文件内容如下：

2. Apply codes to train

./fast applybpe train.de.40000 train.de codes
./fast applybpe train.en.40000 train.en codes

通过生成的codes文件，对train.de、train.en分词，生成train.de.40000、 train.en.40000文件。
train.en.40000文件内容如下：

3. Get train vocabulary

./fast getvocab train.de.40000 > vocab.de.40000
./fast getvocab train.en.40000 > vocab.en.40000
./fast getvocab train.de.40000 train.en.40000  > vocab.de-en.40000

从train.de.40000中抽取词汇并保存到vocab.de.40000中。
从train.en.40000中抽取词汇并保存到vocab.en.40000中。
从train.de.40000、train.en.40000中共同抽取词汇并保存到 vocab.de-en.40000中。
vocab.en.40000文件内容如下：

除了上面的方法，还有另外一个开源框架也可以做BPE处理，链接如下：

https://blog.csdn.net/Elenore1997/article/details/89483681

moses用法总结

官网链接：

http://www.statmt.org/moses/?n=Development.GetStarted

Tokenisation 分词工具：

    ~/mosesdecoder-master/scripts/tokenizer/tokenizer.perl

```
    命令：
```

    perl ./tokenizer.perl -no-escape -l zh <./test.zh >. /test.seq.zh

```
    说明：zh表示中文
```
```
    输入文件：./test.zh
```
```
    输出文件：. /test.seq.zh
```

2.Truecasing 格式转换

   ~/mosesdecoder-master/scripts/recaser/train-truecaser.perl

```
    命令:
```

    ./ train-truecaser.perl –model ./truecase_model.SRC –corpus . /test.seq.zh

    模型保存文件: ./truecase_model.SRC

    分词后的文本的路径: . /test.seq.zh

    使用上一步生成的模型和分词的文本进行格式转换

    ~/mosesdecoder-master/scripts/recaser/truecase.perl

    ./truecase.perl --model ./truecase_model.SRC < . /test.seq.zh > . /test.seq.mx.zh

    说明：./truecase_model.SRC 以上训练的模型路径

    说明：. /test.seq.zh 以上分词后的文本

    说明：. /test.seq.mx.zh以上转换后的输出文本

3.Cleaning 处理语句长度+该命令可以一次性处理完双向的两个文件(1-100)

   ~/mosesdecoder-master/scripts/training/clean-corpus-n.perl

```
    命令:
```

    ./clean-corpus-n.perl . /test.seq.mx zh en . /test.seq.mx.clean 1 100

```
    说明:
```

    以上格式化的文本（源端+目标）的文件名（去除扩展名）:. /test.seq.mx

    文件的扩展名（源端+目标）:zh en

    输出端的文件（源端+目标）名称: . /test.seq.mx.clean

```
    句子的长度范围:1 100
```

4.语言模型训练

```
    mkdir ~/lm
```
```
    cd ~/lm
```

5.使用KenLM的构建N-gram的语言模型

```
    评估并生成模型
```
```
   ~/mosesdecoder/bin/lmplz
```
```
    命令：
```

    ./lmplz –o 3 <. /test.seq.mx.clean > . /test.seq.mx.clean.arpa

    处理后的输出文本:. /test.seq.mx.clean

    语言模型生成的文件: . /test.seq.mx.clean.arpa

6.二进制化语言模型文件

```
    ~/mosesdecoder/bin/build_binary
```
```
    命令：
```

    ./ build_binary . /test.seq.mx.clean.arpa . /test.seq.mx.clean. blm

```
    说明：
```

    上一步生成的语言模型:. /test.seq.mx.clean.arpa

    转化为二进制的模型文件: . /test.seq.mx.clean. blm

7.查询测试

```
   ~ /mosesdecoder/bin/query
```
```
    命令:
```

    echo “is this an DeST sentence?” | ./query . /test.seq.mx.clean. blm

```
    说明:
```
```
    对应的脚本: ./query
```

    以上生成的二进制语言模型. /test.seq.mx.clean. blm

8.翻译系统训练

    ~/mosesdecoder-master/scripts/training/

```
    运行的脚本:train-model.perl
```
```
    完成九个步骤
```

9.脚本的参数设置

    可以选择使用mgiza++替换giza++来加速训练速度

```
    mkdir ~/working
```
```
    cd ~/working
```

    命令:

nohup nice~/mosesdecoder/scripts/training/train-model.perl        \

-root-dir train         \ #指明生成目录

-corpus~/corpus/news-commentary-v8.fr-en.clean \  #指明clean语料库文件名（但不包括语言的extension）

-f fr -e en    \  #指明SRC和 DEST 语言，即语料库文件对应的后缀。 Fr->en的情况下。

-alignment grow-diag-final-and   \  #指明单词对齐的启发方法

-reorderingmsd-bidirectional-fe \   #指明specifies which reordering models totrain using a comma-separated list of config-strings

-lm0:3:$HOME/lm/news-commentary-v8.fr-en.blm.en:8                          \ #语言模型， factory：order：filename

-external-bin-dir~/mosesdecoder/tools \              #指明word alignment tools的可执行文件路径

-mgiza      \    #从默认的giza++切换成mgiza++

-cores N   \     #指明训练过程可以使用的多核数量。加快训练过程。

>& training.out &    #log输出

经过训练之后，moses.ini会在 ~/working/train/models下面生成。

10.Tuning ：模型调整

    生成的moses.ini通过有以下两个问题

    加载速度比较慢， 可以用二进制化来解决

    moses采用的权值不是最优的

    因此需要对模型进行调整，这也是整个过程中最慢的一步。tuning需要一些跟训练数据无关的并行数据

11.准备tuning数据

```
    下载相应的数据
```
```
    命令：
```
```
    cd ~/corpus
```

    wget http:www.statmt.org/wmt12/dev.tgz

```
    tar xvzf dev.tgz
```

    根据SRC&DEST 选择相应的数据包，然后对数据进行分词和格式统一化，例如选择de->en， 找到并选择对应的文件newtest2011.de &newtest2011.en

12.执行tokenize-----(目标语和源语言都要进行)-----分词

    ~/mosesdecoder-master/scripts/tokenizer/ tokenizer.perl

```
    命令:
```

    ./tokenizer.perl -l zh <. /3.sq.zh > ./3.dv.zh

    说明:

    为刚才以上下载的数据通过分词、格式统一化后的文本: . /3.sq.zh

输出的文本: ./3.dv.zh

13.执行格式化统一（源端与目标端）

```
    truecase.perl
```
```
    命令：
```

    ./truecase.perl --model ./truecase_model.SRC <./3.dv.zh >./3.dv._zh

```
    说明：
```

    第二步生成的语言模型: ./truecase_model.SRC

    上一步分词后的文本文件: ./3.dv.zh

    格式化后的文本文件: ./3.dv._zh

14.进行调整（源端与目标端）

```
    进入目录:cd ~/working
```
```
    脚本: mert-moses.pl
```

   ~/mosesdecoder-master/scripts/training/ mert-moses.pl

    命令：

nohup nice ./mert-moses.pl \  

./ 3.dv._zh ./3.dv._en \

~/mosesdecoder/bin/mosestrain/model/moses.ini --mertdir ~/mosesdecoder/bin/ \

&> mert.out &

```
    说明:
```

    分别为第13步格式化后的文本文件: ./ 3.dv._zh    ./3.dv._en

15.二进制化加速（源端与目标端）

    对phrase-tableand lexicalised reordering models进行二进制化，加速模型文件的加载

```
    脚本: processPhraseTableMin
```

    路径: ~/mosesdecoder/processPhraseTableMin

    创建文件夹: mkdir~/working/binarised-model

```
    进入文件中:cd ~/working
```

    ~/mosesdecoder/bin/processPhraseTableMin \

    -in train/model/phrase-table.gz -nscores 4 \

    -out binarised-model/phrase-table

```
    说明:
```

    第九步中第四个时生成的训练文件:train/model/phrase-table.gz -nscores 4

    刚创建的文件夹用来存储二进制化后的文件:binarised-model/phrase-table

~/mosesdecoder/bin/processLexicalTableMin \

-intrain/model/reordering-table.wbe-msd-bidirectional-fe.gz \

-out binarised-model/reordering-table

```
说明:跟以上一样的
```

16.然后将mert-work/moses.ini 文件拷贝到binarised-model 文件夹，并phrase & reordering tables 修改指向二进制的文件：:

    Change PhraseDictionaryMemory to PhraseDictionaryCompact

    Set the path of the PhraseDictionary feature to point to $HOME/working/binarised-model/phrase-table.minphr

    Set the path of the LexicalReordering feature to point to $HOME/working/binarised-model/reordering-table

17.https://blog.csdn.net/chrissata/article/details/65632744

18.使用GIZA++进行词对齐

    下载:  git clone https://github.com/moses-smt/giza-pp.git

```
    进入文件中:cd giza-pp
```
```
    编辑:make
```

    编译完会在GIZA++-v2/和mkcls-v2/目录下生成以下可执行文件：

    plain2snt.out、snt2cooc.out、GIZA++、mkcls

    将这四个程序移动到工作目录workspace（自己创建的工作文件夹中）下：

```
    文本单词编号：
```

    命令: ./plain2snt.out zh.txt en.txt

    说明：zh.txt和en.txt分别为分词后的标准的平行语料、必须放在workspace目录下

得到en.vcb、zh.vcb、en_zh.snt、zh_en.snt四个文件

```
说明:
```

en.vcb / zh.vcb：字典文件，id : token : count

格式为:

2 海洋 1

3 是 6

4 一个 2

5 非常 2

6 复杂 4

7 的 12

8 事物 1

9 。 7

10 人类 1

...

en_zh.snt / zh_en.snt：编号表示句对，第一行表示句对出现次数

1

2 3 4 5 6 7 8 9

2 3 4 5 6 7 8 9 10 11 12 13



1

10 7 11 12 3 13 14 5 6 7 15 9

14 15 4 5 6 7 8 9 10 16 17 18 19 13

说明:第一行表示句对出现的次数

    第二行为源端/目标端词语的id

    第三行为目标端/源端词语的id

19.生成共现文件

    命令：（中文-à英文为例）

    ./snt2cooc.out zh.vcb en.vcb zh_en.snt > zh_en.cooc

    说明: zh.vcb 和en.vcb分别为以上生成的字典

    说明:zh_en.snt为以上生成的中文编号

    说明：zh_en.cooc为生成的英文编号

    zh_en.cooc / en_zh.cooc

0 33

0 34

0 35

0 36

0 37

0 38

0 39

0 40

20.生成词类

```
    命令：
```

    ./mkcls –pzh.txt –Vzh.vcb.classes opt

    ./mkcls -pen.txt -Ven.vcb.classes opt

    说明：

zh.txt和en.txt为中英文平行语料

zh.vcb.classes和en.vcb.classes分别为中英文输出

注意：文件的名称跟前面的参数连接在一起不能有空

***** 1 runs. (algorithm:TA)***** ;KategProblem:cats: 100 words: 68 start-costs: MEAN: 262.907 (262.907-262.907) SIGMA:0 end-costs: MEAN: 190.591 (190.591-190.591) SIGMA:0 start-pp: MEAN: 3.52623 (3.52623-3.52623) SIGMA:0 end-pp: MEAN: 1.95873 (1.95873-1.95873) SIGMA:0 iterations: MEAN: 50117 (50117-50117) SIGMA:0 time: MEAN: 1.468 (1.468-1.468) SIGMA:0

    参数说明：

-c 词类数目

-n 优化次数，默认是1，越大越好

-p 输入文件

-V 输出文件

opt 优化输出

    en.vcb.classes / zh.vcb.classes：单词所属类别编号

,       26

.       28

:       64

And     29

I       13

If      52

It      49

a       34

about   22

...

    en.vcb.classes.cats / zh.vcb.classes.cats：类别所拥有的一组单词

0:$,

1:

2:science,

3:seem,

4:things,

5:some,

6:start,

7:task,

...

21.GIZA++

    先在当前目录新建两个输出文件夹z2e、e2z，否则下面的程序会出错，没有输出。

```
    命令：
```

    $ ./GIZA++ -S zh.vcb -T en.vcb -C zh_en.snt -CoocurrenceFile zh_en.cooc -o z2e -OutputPath z2e

    $ ./GIZA++ -S en.vcb -T zh.vcb -C en_zh.snt -CoocurrenceFile en_zh.cooc -o e2z -OutputPath e2z

```
    说明：
```
```
    z2e.perp 困惑度
```

    z2e.A3.final：i j l m p(i/j, l, m)：i代表源语言Token位置；j代表目标语言Token位置；l代表源语言句子长度；m代表目标语言句子长度；p(i/j, l, m)代表在一对长度为l和m的句子中，位置i的源单词移动到位置j的概率.

0 2 100 8 0.0491948

0 6 100 8 0.950805

    z2e.d3.final：类似于z2e.a3.final文件，只是交换了i 和 j 的位置

2 0 100 8 0.0491948

6 0 100 8 0.950805

z2e.n3.final：source_id p0 p1 p2 … pn；源语言Token的Fertility分别为0,1,…,n时的概率表，比如p0是Fertility为0时的概率。

2 1.22234e-05 0.781188 0.218799 0 0 0 0 0 0 0

3 0.723068 0.223864 0 0.053068 0 0 0 0 0 0

z2e.t3.final：s_id t_id p(t_id/s_id)； IBM Model 3训练后的翻译表；p(t_id/s_id)表示源语言Token翻译为目标语言Token的概率

0 3 0.196945

0 7 0.74039

0 33 0.0626657

z2e.A3.final 单向对齐文件，数字代表Token所在句子位置（1为起点）

# Sentence pair (1) source length 8 target length 11 alignment score : 8.99868e-08 It can be a very complicated thing , the ocean . NULL ({ 8 }) 海洋 ({ 1 }) 是 ({ 4 }) 一个 ({ 9 }) 非常 ({ 3 6 7 }) 复杂 ({ 2 5 }) 的 ({ }) 事物 ({ 10 }) 。 ({ 11 }) # Sentence pair (2) source length 12 target length 14 alignment score : 9.55938e-12 And it can be a very complicated thing , what human health is . NULL ({ 9 }) 人类 ({ 2 11 }) 的 ({ }) 健康 ({ 12 }) 也 ({ }) 是 ({ 5 }) 一 ({ }) 件 ({ 13 }) 非常 ({ 4 7 8 }) 复杂 ({ 3 6 }) 的 ({ }) 事情 ({ 1 10 }) 。 ({ 14 }) ...

z2e.d4.final：IBM Model 4 翻译表

# Translation tables for Model 4 .

# Table for head of cept.

F: 20 E: 26

SUM: 0.125337 9 0.125337

F: 20 E: 15

SUM: 0.0387214 -2 0.0387214

F: 20 E: 24

SUM: 0.0387214 21 0.0387214

 ...

z2e.D4.final：IBM Model 4的Distortion表

26 20 9 1

15 20 -2 1

24 20 21 1

2 20 -2 1

40 20 -4 1

22 20 -3 0.0841064

22 20 9 0.915894

32 20 28 1

21 20 24 1

29 2 -3 0.472234

29 2 1 0.527766

5 2 1 0.475592

 ...

z2e.gizacfg：GIZA++配置文件，超参数

adbackoff 0

c zh_en.snt

compactadtable 1

compactalignmentformat 0

z2e.Decoder.config：用于ISI Rewrite Decoder解码器

22.词对齐对称化

    下载python脚本: https://github.com/Lynten/smt

    或者在working目录下: git clone https://github.com/Lynten/smt.git

    上面的得到的*.A3.final文件是单向对齐的，我们这里需要对称化，对称化方法有很多，我们这里使用最流行的“grow-diag-final-and”方法

    命令(以下脚本在smt中)—运行在working文件夹下:

    python align_sym.py e2z.A3.final z2e.A3.final > aligned.grow-diag-final-and

```
    说明：
```

    在e2z目录下生成的文件: e2z.A3.final

    在z2e目录下生成的文件: z2e.A3.final

23.Bleu值打分

    ~/mosesdecoder-master/scripts/generic/ multi-bleu.perl

```
    命令：
```

    perl  ./multi-bleu.perl -lc  ./ref.en <    ./mbt.en > ./mbt2.score

```
    ./ref.en <   参考文件
```

    ./mbt.en >  文件预处理文件（去除等））

    ./mbt2.score具体的结果（获取）结果只有一行

24.TER值

```
   ~/tercom-0.7.25
```

    java -jar ./tercom.7.25.jar -r referencefile -h testfile > resultfile

    Referencefile（参考文路径）（表示：原始数据 结果1）

    testfile  （翻译预处理后的测试文件路径）（表示：结果2）

    resultfile  （结果文件）（获取：）   （倒数第4行的数据）

25.训练

    ~/mosesdecoder-master/scripts/training

```
    train-model.perl
```
```
    运行培训脚本：
```

    train-model.perl -root-dir。--corpus corpus / euro --f de  -  en

    在corpus目录中存在两个文件分别为：euro.de和euro.en的平行语料文件。de表示德语、en表示英语

26.小写

```
    lowercase.perl
```

27.清理语料库

```
    clean-corpus-n.perl
```

你可能感兴趣的:(自然语言处理,神经机器翻译,统计机器翻译,自然语言处理)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
开启你的思维成长之路希思维
图片发自App很多时候我们都羡慕别人家的孩子思维敏捷，记忆超强，脑回路清晰等，认为那些都是天生的能力，而自己要达到那样的境界几乎不可能，殊不知每个人都有一个强大的小宇宙，就看你是否找到了开启你思维小宇宙的方法。我们每个人的大脑都具有无限潜能，大部分人只开发出10-20%，还有很多潜力深埋于冰山底，而如何找到自己思维的动力呢?首先就是要了解我们神奇的大脑，从大脑神经元素，到神经回路的形成，知晓大脑思
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
（缓解抑郁症状）中原焦点团队杨小杰坚持分享第226天2021-4-1 yxjlady
缓解抑郁症状1、不要总待在室内，抑郁严重的人，通常都不想出门2、抑郁性都有诱因或一个导火索，人不能战胜所有东西，要有取舍3、社交，抑郁症的人总是自己脑中不断的自言自语，自我否定等，出去社交就被迫被别的东西点拨了，深度抑郁没法走出自己的世界，思维走不出自己的怪圈4、锻炼让自己轻微出汗最佳，身心是一体时，身体有活力，精神很难不健康5、冥想冥想和社交一样，可以改变你的神经可塑性，一个沉溺在自己世界里的抑
【诗歌】虾皮汤·想念九月咖胖糖
虾皮坠入开水的柔情焦灼了自己艰苦的曾经舀起一口黄昏的思念记忆的支离拨动了自己淡然的神经童年的下水道子依然囚禁着天空木梯子拐角的蜘蛛网又织着谁的苍老那碗热气腾腾的虾皮汤是否在某个瞬间微漾着你的鹤发童颜图片发自App
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
新媒体运营小白，有哪些书籍可以推荐？ y耳朵
为了转行运营，我曾花了3个月的时间，看了不下百本书，可以说市面上大部分跟运营有关的书籍，我都看过了，因此关于书的推荐也有一些自己的小见解。看书不一定要多，但一定要****精，我根据豆瓣评分、推荐热度和自己的转行经历，挑出了13本值得运营小白看的书，收藏好这份书单，不需要你浪费时间去找书了。先看下统计好的书单：整理不易，看完记得点个赞哦！感谢你的支持。入门篇：1.《运营之光》（豆瓣评分：8.0)推荐
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
向着明亮那方12.7 向着明亮那方的我们
【水晶泥的妙用】在地上捡到一滩水晶泥，本想扔进垃圾桶，发现水晶泥上附着了些许蓝色钢笔墨水。我脑洞大开，水晶泥可不可以用来处理钢笔墨渍呢？正好垃圾桶那面瓷砖墙上有蓝色钢笔水痕迹，我用水晶泥沾了沾墨迹，很轻易地把墨色粘了下来，好干净。【长跑报名】我让同学们自愿报名参加冬季长跑比赛，课间将名字报给班长。班长把名字统计在本子上，把本子拿来给我看：“老师，我晚上回去给你做张电子表，发给你。”看来班长又学了新
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
跟着黑马学mysql（5）小杜不吃糖 mysql 数据库
17.DQL-聚合函数DQL-聚合函数介绍将一列数据作为一个整体，进行纵向计算。常见聚合函数函数功能count统计数量max最大值min最小值avg平均值sum求和语法SELECT聚合函数(字段列表)FROM表名;注意：所有的null值不参与聚合函数的运算18.DQL-分组查询语法SELECT字段列表FROM表名[WHERE条件]GROUPBY分组字段名[HAVING分组后的过滤条件];where
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/