tianliang0123

GIZA++运行情况记录和结果对比

这篇文章主要详细记录了GIZA++的运行报告，所使用的语言模型为CMU-Cam_Toolkit-v2，解码器使用的是isi-rewrite-decoder-r1.0.0a，使用的操作系统是Ubuntu9.10 ，gcc 的版本是G++4.4.1.都是比较新的运行环境，有需要的学习者可以参考。有不明白的可以留言。其中文中参考的论文为刘洋老师的《利用现有软件构建统计机器翻译系统》。

-----------------------------------------------

GIZA++运行情况记录和结果对比

田亮澳门大学

2009-12-15——2009-12-22

----------------------------------------------

本次总结主要是对运行过程中的步骤及其出现的情况进行记录，并对运行中出现的可执行文件的功能进行说明与讲解。目的就是总结出一份详细的运行报告，以便其他试图运行该软件的研究者能够顺利调试。文章的结构是在正文的部分给出运行成功的过程，而在文中的附录部分给出各种异常的情况和各种可执行文件的解释，最后给出相关的论文。

文章的总体结构图如下（这里省略）：

1．工具的准备

安装linux系统，这里我使用的是Ubuntu 9.10，gcc版本是4.4.1。
双语语料库。这里使用1000句中英文对照翻译的句子。
CMU-Cambridge Statistical Language Modeling Toolkit v2。语言模型工具，用于生成语言模型，以便解码器调用。
GIZA++。这里使用最新版本“giza-pp-v1.0.3.tar”，里面包含其辅助工具“mkcls”，用于生成word class
汉语和英语的分词工具。汉语使用ICTCAL,英语使用EGYPT自带的一个工具：tokenizeE.perl.tmpl

2．处理语料库

1.下载中英文语料库

从网上下载的1500句（http://www.nlp.org.cn/中文自然语言开放平台）是有问题的，主要是有部分中文语句占据了两行，导致对齐效果不好，所以事先更正了一下。这里为了和语言模型使用的句子相区别，使用了前1000句，作为对齐语料库，而把英文的1500句作为语言模型。

其中源语言1500句——1500.txt的输入形式为：

For this reason it is often convenient to overlay the geochemical map with a geological map transparency.

由于这个缘故，最好用透明的地质图蒙在地球化学图上。

Trains and tunnels are overlaid with the multicoloured names and slogans of youths.

青年人在车辆上和隧道中涂满了各种颜色的姓名和口号。

….

2.分离语料库

接下来，我们要做的就是对其进行分离，也就是说，把这个文档分别分成中文和英文，并把它们命名为：chinese和english。在linux中可以使用如下的命令把它分离：

tianliang@ubuntu:~$grep '[aeiou]' 1500.txt > english

分离后，会有四句含有中文，然后将english中含有中文句手工删除。

tianliang@ubuntu:~$grep -v '[aeiou]' 1500.txt > chinese

然后将chinese中含有全角标点的英文句手工删除。

选择分离后的语言文件：english和chinese中的前1000句作为接下来的输入文件。并把分离后的1500句重命名为english1500。

分离后的语言english和chinese的格式如下：

english

For this reason it is often convenient to overlay the geochemical map with a geological map transparency.

Trains and tunnels are overlaid with the multicolored names and slogans of youths.

…

chinese

由于这个缘故，最好用透明的地质图蒙在地球化学图上。

青年人在车辆上和隧道中涂满了各种颜色的姓名和口号。

…

3.添加语言模型的识别标志

由于这次使用的解码器isi-rewrite-decoder采用XML文件格式作为输入文件，而它把<s>和</s>作为语句的区别的标志，为了能够让解码器识别语句，这里需要事先对语言模型的语句做些处理，即要对“english1500”添加<s>和</s>标记。使用如下的步骤即可：

（1）运行命令：

tianliang@ubuntu:~$cp english1500 english.tag

生成了english1500的一个复本english.tag。当然可以使用图形化的操作直接复制一份即可。做这步的目的是保留源文件，以免出现异常情况后，源文件损坏。

（2）用vi打开english.tag，使用如下两个命令：

:%s#^#<s> #

:%s#$# </s>#

注意<s>之后以及</s>之前各有一个空格。这样就给每个句子的头和尾加上了标记。保存（ wq！）并退出vi。

最终生成的加标记的文件的形式为：

<s> For this reason it is often convenient to overlay the geochemical map with a geological map transparency. </s>

<s> Trains and tunnels are overlaid with the multicolored names and slogans of youths. </s>

….

3．安装软件

1. 下载软件

分别下载所需的软件

语言模型工具：CMU-Cambridge Statistical Language Modeling Toolkit v2

下载地址：http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html

解码器：isi-rewrite-decoder-r1.0.0a.tar.gz

下载地址：http://www.isi.edu/natural-language/software/decoder/

http://download.csdn.net/detail/tianliang0123/3712116

翻译模型工具：Giza-pp-v1.0.3.tar（里面包含GIZA++-v2和mkcls-v2）

下载地址：http://code.google.com/p/giza-pp/

分词工具包：EGYPT（这里仅使用它自带的英语分词功能）

下载地址：http://www.clsp.jhu.edu/ws99/projects/mt/toolkit/

这里介绍一个统计机器翻译的专门网站http://www.statmt.org/，从这里你可以了解到相关的统计机器的论文和会议情况，还可以下载所需要的各种有关的语料库和工具。

2. 编译安装软件

首先，建立一个文件夹用来放置本次调试的软件包：/home/tianliang/research

然后，把解压后的软件包复制到该目录下即可。这里解压可以使用图形化的操作方式，直接右键解压，或者使用命令行，如解压EGYPT包：# tar –xzvf EGYPT.tar.gz 。

最后，从终端进入该目录，然后输入命令“make”编译即可。

详细过程如下：

（1）把三个解压后的文件包放置在research目录下，使用如下的命令，以及查询目录下的软件包情况：

tianliang@ubuntu:~$mkdir research

tianliang@ubuntu:~$cd research

tianliang@ubuntu:~/research$ls

CMU-Cam_Toolkit_v2 giza-pp isi-rewrite-decoder-r1.0.0a

（2）安装CMU-Cam_Tookit_v2

安装这个软件前，要事先更改一下代码，方法就是进入该包的src目录下，找到Makefile，将里面的“#BYTESWAP_FLAG=-DSLM_SWAP_BYTES”中的“#”去掉。

tianliang@ubuntu:~/research$cd CMU-Cam_Toolkit_v2

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2$cd src

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2/src$make install

gcc -O -DSLM_SWAP_BYTES -c -o bo_ng_prob.o bo_ng_prob.c

gcc -O -DSLM_SWAP_BYTES -c -o calc_mem_req.o calc_mem_req.c

gcc -O -DSLM_SWAP_BYTES -c -o compute_back_off.o compute_back_off.c

gcc -O -DSLM_SWAP_BYTES -c -o compute_discount.o compute_discount.c

gcc -O -DSLM_SWAP_BYTES -c -o compute_unigram.o compute_unigram.c

gcc -O -DSLM_SWAP_BYTES -c -o get_ngram.o get_ngram.c

gcc -O -DSLM_SWAP_BYTES -c -o increment_context.o increment_context.c

gcc -O -DSLM_SWAP_BYTES -c -o lookup_index_of.o lookup_index_of.c

gcc -O -DSLM_SWAP_BYTES -c -o short_indices.o short_indices.c

gcc -O -DSLM_SWAP_BYTES -c -o two_byte_alphas.o two_byte_alphas.c

gcc -O -DSLM_SWAP_BYTES -c -o write_lms.o write_lms.c

gcc -O -DSLM_SWAP_BYTES -c -o num_of_types.o num_of_types.c

gcc -O -DSLM_SWAP_BYTES -c -o guess_mem.o guess_mem.c

gcc -O -DSLM_SWAP_BYTES -c -o counts.o counts.c

gcc -O -DSLM_SWAP_BYTES -c -o arpa_bo_ng_prob.o arpa_bo_ng_prob.c

gcc -O -DSLM_SWAP_BYTES -c -o calc_prob_of.o calc_prob_of.c

gcc -O -DSLM_SWAP_BYTES -c -o decode_bo_case.o decode_bo_case.c

gcc -O -DSLM_SWAP_BYTES -c -o gen_fb_list.o gen_fb_list.c

gcc -O -DSLM_SWAP_BYTES -c -o load_lm.o load_lm.c

load_lm.c: In function ‘load_arpa_lm’:

load_lm.c:350: warning: ignoring return value of ‘fgets’, declared with attribute warn_unused_result

gcc -O -DSLM_SWAP_BYTES -c -o parse_comline.o parse_comline.c

gcc -O -DSLM_SWAP_BYTES -c -o perplexity.o perplexity.c

gcc -O -DSLM_SWAP_BYTES -c -o stats.o stats.c

gcc -O -DSLM_SWAP_BYTES -c -o validate.o validate.c

gcc -O -DSLM_SWAP_BYTES -c -o pc_libs/pc_comline.o pc_libs/pc_comline.c

gcc -O -DSLM_SWAP_BYTES -c -o pc_libs/pc_message.o pc_libs/pc_message.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/parse_line.o rr_libs/parse_line.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/quit.o rr_libs/quit.c

rr_libs/quit.c: In function ‘quit’:

rr_libs/quit.c:30: warning: incompatible implicit declaration of built-in function ‘exit’

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rd_wlist_arry.o rr_libs/rd_wlist_arry.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/read_voc.o rr_libs/read_voc.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/read_wlist_si.o rr_libs/read_wlist_si.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_calloc.o rr_libs/rr_calloc.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_feof.o rr_libs/rr_feof.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_fexists.o rr_libs/rr_fexists.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_filesize.o rr_libs/rr_filesize.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_fopen.o rr_libs/rr_fopen.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_fread.o rr_libs/rr_fread.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_fseek.o rr_libs/rr_fseek.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_fwrite.o rr_libs/rr_fwrite.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_iopen.o rr_libs/rr_iopen.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_malloc.o rr_libs/rr_malloc.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/rr_oopen.o rr_libs/rr_oopen.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/salloc.o rr_libs/salloc.c

gcc -O -DSLM_SWAP_BYTES -c -o rr_libs/sih.o rr_libs/sih.c

rr_libs/sih.c: In function ‘sih_val_read_from_file’:

rr_libs/sih.c:255: warning: comparison between pointer and integer

rm -f SLM2.a

ar r SLM2.a bo_ng_prob.o calc_mem_req.o compute_back_off.o compute_discount.o compute_unigram.o get_ngram.o increment_context.o lookup_index_of.o short_indices.o two_byte_alphas.o write_lms.o num_of_types.o guess_mem.o counts.o arpa_bo_ng_prob.o bo_ng_prob.o calc_prob_of.o decode_bo_case.o gen_fb_list.o load_lm.o lookup_index_of.o parse_comline.o perplexity.o short_indices.o stats.o two_byte_alphas.o validate.o num_of_types.o counts.o load_lm.o write_lms.o short_indices.o two_byte_alphas.o num_of_types.o stats.o counts.o get_ngram.o pc_libs/pc_comline.o pc_libs/pc_message.o rr_libs/parse_line.o rr_libs/quit.o rr_libs/rd_wlist_arry.o rr_libs/read_voc.o rr_libs/read_wlist_si.o rr_libs/rr_calloc.o rr_libs/rr_feof.o rr_libs/rr_fexists.o rr_libs/rr_filesize.o rr_libs/rr_fopen.o rr_libs/rr_fread.o rr_libs/rr_fseek.o rr_libs/rr_fwrite.o rr_libs/rr_iopen.o rr_libs/rr_malloc.o rr_libs/rr_oopen.o rr_libs/salloc.o rr_libs/rr_malloc.o rr_libs/rr_oopen.o rr_libs/salloc.o rr_libs/sih.o

ar: creating SLM2.a

if [ `uname` = SunOS -o `uname` = Linux ] ; then ranlib SLM2.a ; fi

gcc -O -DSLM_SWAP_BYTES -o idngram2lm idngram2lm.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o evallm evallm.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o text2wngram text2wngram.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o text2idngram text2idngram.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o binlm2arpa binlm2arpa.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o ngram2mgram ngram2mgram.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o idngram2stats idngram2stats.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o wfreq2vocab wfreq2vocab.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o text2wfreq text2wfreq.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o wngram2idngram wngram2idngram.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o mergeidngram mergeidngram.c SLM2.a -lm

gcc -O -DSLM_SWAP_BYTES -o interpolate interpolate.c SLM2.a -lm

for i in idngram2lm evallm text2wngram text2idngram binlm2arpa ngram2mgram idngram2stats wfreq2vocab text2wfreq wngram2idngram mergeidngram interpolate; do /

./install-sh $i ../bin; /

done

./install-sh SLM2.a ../lib

然后进入giza-pp目录，安装mkcls和GIZA++

（3）安装mkcls-v2

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2/src$cd ..

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2$cd ..

tianliang@ubuntu:~/research$cd giza-pp

tianliang@ubuntu:~/research/giza-pp$cd mkcls-v2

tianliang@ubuntu:~/research/giza-pp/mkcls-v2$make

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c HCOptimization.cpp -o HCOptimization.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c IterOptimization.cpp -IterOptimization.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c RRTOptimization.cpp -o RRTOptimization.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c SAOptimization.cpp -o SAOptimization.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c Optimization.cpp -o Optimization.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c KategProblemKBC.cpp -o KategProblemKBC.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c KategProblem.cpp -o KategProblem.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -c general.cpp -o general.o

g++ -Wall -W -DNDEBUG -O3 -Wno-deprecated -o mkcls GDAOptimization.o HCOptimization.o Problem.o IterOptimization.o ProblemTest.o RRTOptimization.o MYOptimization.o SAOptimization.o TAOptimization.o Optimization.o KategProblemTest.o KategProblemKBC.o KategProblemWBC.o KategProblem.o StatVar.o general.o mkcls.o

（4）安装GIZA++-v2

首先进入该目录下的Makefile文件夹中，把“-DBINARY_SEARCH_FOR_TTABLE”删除。

tianliang@ubuntu:~/research/giza-pp/mkcls-v2$cd ..

tianliang@ubuntu:~/research/giza-pp$cd GIZA++-v2

tianliang@ubuntu:~/research/giza-pp/GIZA++-v2$make

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c Parameter.cpp -o optimized/Parameter.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c Perplexity.cpp -o optimized/Perplexity.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c model2.cpp -o optimized/model2.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c getSentence.cpp -o optimized/getSentence.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c ATables.cpp -o optimized/ATables.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c main.cpp -o optimized/main.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c model2to3.cpp -o optimized/model2to3.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c alignment.cpp -o optimized/alignment.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c MoveSwapMatrix.cpp -o optimized/MoveSwapMatrix.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c transpair_model5.cpp -o optimized/transpair_model5.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c utility.cpp -o optimized/utility.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c reports.cpp -o optimized/reports.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c model3_viterbi_with_tricks.cpp -o optimized/model3_viterbi_with_tricks.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c model345-peg.cpp -o optimized/model345-peg.o

g++   -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE  -c HMMTables.cpp -o optimized/HMMTables.o

g++  -Wall -W -Wno-deprecated -O3 -DNDEBUG -DWORDINDEX_WITH_4_BYTE -DBINARY_SEARCH_FOR_TTABLE optimized/Parameter.o optimized/myassert.o optimized/Perplexity.o optimized/model1.o optimized/model2.o optimized/model3.o optimized/getSentence.o optimized/TTables.o optimized/ATables.o optimized/AlignTables.o optimized/main.o optimized/NTables.o optimized/model2to3.o optimized/collCounts.o optimized/alignment.o optimized/vocab.o optimized/MoveSwapMatrix.o optimized/transpair_model3.o optimized/transpair_model5.o optimized/transpair_model4.o optimized/utility.o optimized/parse.o optimized/reports.o optimized/model3_viterbi.o optimized/model3_viterbi_with_tricks.o optimized/Dictionary.o optimized/model345-peg.o optimized/hmm.o optimized/HMMTables.o optimized/ForwardBackward.o -static -o GIZA++

g++ -O3 -Wno-deprecated -W -Wall plain2snt.cpp -o plain2snt.out

  事实上，在这个系统下运行编译并不是这么顺利，由于都是最新的版本，GIZA++和mkcls根本就不能运行，我们可以做的就是更换操作系统或者安装旧版本的软件，不过这些方法我都没有使用，我采用更改软件的源代码或者下载所需的软件的方法，使其正确运行。具体的情况，可以参考附录部分。

其他的软件不需要安装，需要的时候我们会稍加处理的使用。

4．构建语言模型

构建语言模型所用的语料库可以由任何英文句子组成。你甚至可以找一本电子版英文小说作为语料库。这里使用那个1500句英文文档“english1500”添加标记后的english.tag来构建语言模型。分别输入如下的命令：

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2/bin$./text2wfreq <english.tag> english.wfreq

text2wfreq : Reading text from standard input...

text2wfreq : Done.

这里将会生成一个叫english.wfreq 的文件，里面的内容是english文件中所有单词的列表和该单词出现的次数。其中文件的格式如下：

states 2

injections 1

uninteresting 1

halves 1

...

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2/bin$./wfreq2vocab <english.wfreq> english.vocab

wfreq2vocab : Will generate a vocabulary containing the most

frequent 20000 words. Reading wfreq stream from stdin...

wfreq2vocab : Done.

这里将会生成文中出现的最常用的20000个单词的词汇表文件。文件的格式如下：

APO

Aaron

About

Adam

Administrative

….

更换root身份，进入bin目录，输入命令：

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2/bin$ su

Password:

root@ubuntu:/home/tianliang/research/CMU-Cam_Toolkit_v2/bin# ./text2idngram -vocab english.vocab -buffer 5 <english.tag> english.idngram

Vocab : english.vocab

N-gram buffer size : 5

Hash table size : 200000

Temp directory : /usr/tmp/

Max open files : 20

FOF size : 10

n : 3

Initialising hash table...

Reading vocabulary...

Allocating memory for the n-gram buffer...

Reading text into the n-gram buffer...

20,000 n-grams processed for each ".", 1,000,000 for each line.

Sorting n-grams...

Writing sorted n-grams to temporary file /usr/tmp/text2idngram.temp.ubuntu.2923.1

Merging temporary files...

2-grams occurring: N times > N times Sug. -spec_num value

0 15067 15227

1 13259 1808 1836

2 1005 803 821

3 338 465 479

4 141 324 337

5 76 248 260

6 67 181 192

7 33 148 159

8 25 123 134

9 17 106 117

10 13 93 103

3-grams occurring: N times > N times Sug. -spec_num value

0 19835 20043

1 18977 858 876

2 548 310 323

3 131 179 190

4 57 122 133

5 35 87 97

6 18 69 79

7 15 54 64

8 10 44 54

9 6 38 48

10 4 34 44

text2idngram : Done.

这里将会生成一个“ english.idngram”文件，其中记录着文本中所有出现的n元模型，以及其出现的次数。

（一般情况下我们不能打开该文件，因为我们使用这种命令运行生成的文件是二进制的形式，里面全部都是0，1的形式。所以这里不在给出文件的格式。）

成功编译这个文件后，可以继续以root的身份继续运行其他的程序，这里我选择使用管理员的身份“tianliang”来运行其他的过程。

要想运行最终得到想要的语言模型，我们首先要做些准备，那就是添加一个语言格式。这里很简单，只需新建一个文件命名为english.ccs，里面输入如下的内容后保存即可:

<s>

</s>

tianliang@ubuntu:~/research/CMU-Cam_Toolkit_v2/bin$./idngram2lm -idngram english.idngram -vocab english.vocab -context english.ccs -binary english.binlm

n : 3

Input file : english.idngram (binary format)

Output files :

Binary format : english.binlm

Vocabulary file : english.vocab

Context cues file : english.ccs

Cutoffs :

2-gram : 0 3-gram : 0

Vocabulary type : Open - type 1

Minimum unigram count : 0

Zeroton fraction : 1

Counts will be stored in two bytes.

Count table size : 65535

Discounting method : Good-Turing

Discounting ranges :

1-gram : 1 2-gram : 7 3-gram : 7

Memory allocation for tree structure :

Allocate 100 MB of memory, shared equally between all n-gram tables.

Back-off weight storage :

Back-off weights will be stored in four bytes.

Reading vocabulary.

read_wlist_into_siht: a list of 4857 words was read from "english.vocab".

read_wlist_into_array: a list of 4857 words was read from "english.vocab".

Context cue word : <s> id = 43

Context cue word : </s> id = 42

Allocated space for 5000000 2-grams.

Allocated space for 12500000 3-grams.

Allocated 50000000 bytes to table for 2-grams.

Allocated 50000000 bytes to table for 3-grams.

Processing id n-gram file.

20,000 n-grams processed for each ".", 1,000,000 for each line.

Calculating discounted counts.

Warning : 1-gram : Discounting range is 1; setting P(zeroton)=P(singleton).

Discounted value : 1.00

Warning : 2-gram : Some discount values are out of range;

lowering discounting range to 6.

Warning : 2-gram : Some discount values are out of range;

lowering discounting range to 5.

Warning : 2-gram : Some discount values are out of range;

lowering discounting range to 4.

Unigrams's discount mass is 0.000144609 (n1/N = 0.1529)

1 zerotons, P(zeroton) = 0.000144609 P(singleton) = 4.82029e-05

P(zeroton) was reduced to 0.0000482029 (1.000 of P(singleton))

Unigram was renormalized to absorb a mass of 9.64059e-05

prob[UNK] = 4.82076e-05

Incrementing contexts...

Calculating back-off weights...

Writing out language model...

Binary 3-gram language model will be written to english.binlm

idngram2lm : Done.

接下来我们可以进行简单的语言模型的计算。比如说，我们可以利用刚才生成的可执行命令：evallm来进行一句话的perplexity。比如我们要计算“”的perplexity，首先我们在./bin目录下新建一个文件命名为“english.text”，然后在命令行中输入命令即可执行计算，过程如下：

tianliang@ubuntu:/home/tianliang/research/CMU-Cam_Toolkit_v21/bin# ./evallm -binary english.binlm

Reading in language model from file english.binlm

Done.

evallm :perplexity -text english.text

Computing perplexity of the language model with respect

to the text english.text

Perplexity = 37.52, Entropy = 5.23 bits

Computation based on 18 words.

Number of 3-grams hit = 16 (88.89%)

Number of 2-grams hit = 1 (5.56%)

Number of 1-grams hit = 1 (5.56%)

0 OOVs (0.00%) and 0 context cues were removed from the calculation.

5．构建翻译模型

翻译模型的构建是利用mkcls和GIZA++来完成的，我们首先要利用mkcls来进行单词聚类，然后利用GIZA++来进行单词的统计和中英词语的对齐。首先来进行单词的归类;

1.进入mkcls-v2目录下，把1000句的英文和中文对照语料库拷贝到该目录下。使用如下的命令，分别输出中文和英文的分类后的文件：

mkcls [-cnum] -nnumm –planguage–Vlanguage.vcb.classes opt

-c:表示把生成的文件分成多少类。这里我们把输出的.vcb.classes文件中的单词进行归成80个类。
-n:表示训练迭代的次数,一般迭代次数越多输出的结果越好，默认值是1。
-p:要聚类的文本,一行一句(已分词)
-V:输出信息
opt:优化运行

程序的运行结果将生成两个文件:language.vcb.classes和language.vcb.classes.cats

注：这里的cats是categories的缩写。

(1)在mkcls-v2目录下进行汉语单词的归类。

tianliang@ubuntu:~/research$cd giza-pp

tianliang@ubuntu:~/research/giza-pp$cd mkcls-v2

tianliang~/research/giza-pp/mkcls-v2$./mkcls -c80 -n10 -pchinese -Vchinese.vcb.classes opt

***** 10 runs. (algorithm:TA)*****

;KategProblem:cats: 80 words: 4533

start-costs: MEAN: 143716 (143465-144630) SIGMA:333.132

end-costs: MEAN: 123877 (123766-124181) SIGMA:119.003

start-pp: MEAN: 408.642 (402.046-433.035) SIGMA:8.85202

end-pp: MEAN: 115.403 (114.584-117.654) SIGMA:0.880529

iterations: MEAN: 105580 (102618-108697) SIGMA:2001.06

time: MEAN: 3.94505 (3.83224-4.05625) SIGMA:0.0745121

这里将生成两个文件：chinese.vcb.classes和chinese.vcb.classes.cats，两个文件的格式如下：

chinese.vcb.classes：

! 22

" 18

( 75

…

1824年 8

1837年 18

1889年 81

…

一举一动 62

一些 78

一会 41

…

chinese.vcb.classes.cats

2:OACB,为,买,从,内普丘,冒充,后肢,听到,国会,在,填充,处于,容许,对,彼此,扮演,把,抚摸,护照,按照,时不时,时而,替,本来,沿着,看看,看见,综合,表明,驶抵,

…

5:x,”,伦敦,住,做到,像,克,凡夫俗子,分离,劝告,包裹,化,回来,妙语,定下,射线,小径,尔,庆典,库存,底,开辟,忍,拍摄,文,来,架次,歉意,母亲,气味,治标,法令,源,火鸡,灯,熬,画笔,疚,痛,瘫痪,盘桓,目,眼,站住,签,繁荣,羽,良药,芝加哥,花园,行囊,行李,观赏,赶走,身份,身手,过度,进步,适用,通行,那天,

…

80：...

...

这个文件总共有80个类（categories），刚才提到的-c80也就是这个意思。实际上仔细观察文件的内容可以看到，单词的排列也是有点规则的，先是标点，然后是英文，最后才是汉语的单词。当然这里前提是我已经提前对汉语进行了分词。

(2)在mkcls-v2目录下进行英语的归类。

tianliang@~/research/giza-pp/mkcls-v2$./mkcls -c80 -n10 -penglish -Venglish.vcb.classes opt

***** 10 runs. (algorithm:TA)*****

;KategProblem:cats: 80 words: 3787

start-costs: MEAN: 135707 (135556-136084) SIGMA:152.356

end-costs: MEAN: 115873 (115693-116045) SIGMA:132.413

start-pp: MEAN: 294.859 (291.883-302.333) SIGMA:3.01245

end-pp: MEAN: 78.6815 (77.7415-79.5838) SIGMA:0.69391

iterations: MEAN: 91183.9 (88015-99855) SIGMA:3249.42

time: MEAN: 3.44782 (3.32821-3.78424) SIGMA:0.126858

这里将生成两个文件：english.vcb.classes和english.vcb.classes.cats，两个文件的格式如下：

english.vcb.classes

! 47

" 41

% 37

…

10 32

11 68

115 76

…

A 80

APO 12

Aaron 50

About 80

…

english.vcb.classes.cats

2:After,Again,All,Along,Although,Among,And,Are,As,Because,Bernard,Between,Briefly,But,By,Clearly,Clifton...Water,Were,Western,When,Whenever,While,Wine,With,Would,Yet,Your,“,

…

5:',1950,52,Corps,named,newly,

英语的归类是按照字母的顺序进行的。

注意：这里文件生成的速度相对来讲较慢，这要视我们所选择的语言文件的大小决定，这里仅仅是1000句的中英文对照语料库，还不是特别的大，基本上，如果电脑还可以的话，都能在一分钟内运行完毕。

2. 进入GIZA++-v2目录下，把1000句的英文和中文对照语料库拷贝到该目录下。使用如下的命令，生成相应的文件：
./plain2snt.outlanguage1 language2

其中“plain2snt.out”是编译GIZA++自动生成的一个可执行文件，其作用是统计单词数以及单词格式的转换。

tianliang@ubuntu:~/research/giza-pp/GIZA++-v2$./plain2snt.out chinese english

chinese -> chinese

english -> english

成功运行后将会生成以下四个文件：

chinese.vcb :统计中文单词数。格式是：“单词编号单词单词出现次数”。如下所示：

2由于 22

3这个 39

4缘故 1

5， 965

chinese_english.snt :统计汉英句子。格式是：

句子出现次数
汉语句子
英语句子

形式如下：

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 13 17 18

english.vcb :统计英文单词数。格式是：“单词编号单词单词出现次数”。如下所示：

2 For 12

3 this 61

4 reason 5

5 it 84

english_chinese.snt :统计英汉句子。格式是：

句子出现次数

英语句子

汉语句子

形式如下：

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 13 17 18

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

由于接下来的词语的对齐将会产生很多的文件，为了便于查找和访问，这里我们可以在GIZA++-v2目录下建立一个test子目录。这里只须把刚才生成的四个文件和mkcls生成的四个类文件，再加上编译后的可执行文件GIZA++一同拷贝到该子目录下即可编译运行.这样生成后的文件全都在这个目录下，我们可以便于以后的运用。

进入test目录，然后使用下面的词语对齐命令：

./GIZA++ -S chinese.vcb -T english.vcb -C chinese_english.snt (-O c2e)
-S:源语言单词表
-T:目标语言单词表
-C:源语言—〉目标语言句子对
-O:输出文件夹
运行结束后,输出很多文件到c2e/文件夹中,主要是产生的对齐文件。由于我们已经事先建立了一个test目录，所以我们就不必使用“-O c2e”参数了。

tianliang@ubuntu:~/research/giza-pp/GIZA++-v2$cd test

tianliang@ubuntu:~/research/giza-pp/GIZA++-v2/test$./GIZA++ -S english.vcb -T chinese.vcb -C english_chinese.snt

Parameter 's' changed from '' to 'english.vcb'

Parameter 't' changed from '' to 'chinese.vcb'

Parameter 'c' changed from '' to 'english_chinese.snt'

general parameters:

-------------------

ml = 101 (maximum sentence length)

No. of iterations:

-------------------

hmmiterations = 5 (mh)

model1iterations = 5 (number of iterations for Model 1)

model2iterations = 0 (number of iterations for Model 2)

model3iterations = 5 (number of iterations for Model 3)

model4iterations = 5 (number of iterations for Model 4)

model5iterations = 0 (number of iterations for Model 5)

model6iterations = 0 (number of iterations for Model 6)

parameter for various heuristics in GIZA++ for efficient training:

------------------------------------------------------------------

countincreasecutoff = 1e-06 (Counts increment cutoff threshold)

countincreasecutoffal = 1e-05 (Counts increment cutoff threshold for alignments in training of fertility models)

mincountincrease = 1e-07 (minimal count increase)

peggedcutoff = 0.03 (relative cutoff probability for alignment-centers in pegging)

probcutoff = 1e-07 (Probability cutoff threshold for lexicon probabilities)

probsmooth = 1e-07 (probability smoothing (floor) value )

parameters for describing the type and amount of output:

-----------------------------------------------------------

compactalignmentformat = 0 (0: detailled alignment format, 1: compact alignment format )

hmmdumpfrequency = 0 (dump frequency of HMM)

l = 2009-12-22.210058.tianliang.log (log file name)

log = 0 (0: no logfile; 1: logfile)

model1dumpfrequency = 0 (dump frequency of Model 1)

model2dumpfrequency = 0 (dump frequency of Model 2)

model345dumpfrequency = 0 (dump frequency of Model 3/4/5)

nbestalignments = 0 (for printing the n best alignments)

nodumps = 0 (1: do not write any files)

o = 2009-12-22.210058.tianliang (output file prefix)

onlyaldumps = 0 (1: do not write any files)

outputpath = (output path)

transferdumpfrequency = 0 (output: dump of transfer from Model 2 to 3)

verbose = 0 (0: not verbose; 1: verbose)

verbosesentence = -10 (number of sentence for which a lot of information should be printed (negative: no output))

parameters describing input files:

----------------------------------

c = english_chinese.snt (training corpus file name)

d = (dictionary file name)

s = english.vcb (source vocabulary file name)

t = chinese.vcb (target vocabulary file name)

tc = (test corpus file name)

smoothing parameters:

---------------------

emalsmooth = 0.2 (f-b-trn: smoothing factor for HMM alignment model (can be ignored by -emSmoothHMM))

model23smoothfactor = 0 (smoothing parameter for IBM-2/3 (interpolation with constant))

model4smoothfactor = 0.2 (smooting parameter for alignment probabilities in Model 4)

model5smoothfactor = 0.1 (smooting parameter for distortion probabilities in Model 5 (linear interpolation with constant))

nsmooth = 64 (smoothing for fertility parameters (good value: 64): weight for wordlength-dependent fertility parameters)

nsmoothgeneral = 0 (smoothing for fertility parameters (default: 0): weight for word-independent fertility parameters)

parameters modifying the models:

--------------------------------

compactadtable = 1 (1: only 3-dimensional alignment table for IBM-2 and IBM-3)

deficientdistortionforemptyword = 0 (0: IBM-3/IBM-4 as described in (Brown et al. 1993); 1: distortion model of empty word is deficient; 2: distoriton model of empty word is deficient (differently); setting this parameter also helps to avoid that during IBM-3 and IBM-4 training too many words are aligned with the empty word)

depm4 = 76 (d_{=1}: &1:l, &2:m, &4:F, &8:E, d_{>1}&16:l, &32:m, &64:F, &128:E)

depm5 = 68 (d_{=1}: &1:l, &2:m, &4:F, &8:E, d_{>1}&16:l, &32:m, &64:F, &128:E)

emalignmentdependencies = 2 (lextrain: dependencies in the HMM alignment model. &1: sentence length; &2: previous class; &4: previous position; &8: French position; &16: French class)

emprobforempty = 0.4 (f-b-trn: probability for empty word)

parameters modifying the EM-algorithm:

--------------------------------------

m5p0 = -1 (fixed value for parameter p_0 in IBM-5 (if negative then it is determined in training))

manlexfactor1 = 0 ()

manlexfactor2 = 0 ()

manlexmaxmultiplicity = 20 ()

maxfertility = 10 (maximal fertility for fertility models)

p0 = -1 (fixed value for parameter p_0 in IBM-3/4 (if negative then it is determined in training))

pegging = 0 (0: no pegging; 1: do pegging)

general parameters:

-------------------

ml = 101 (maximum sentence length)

No. of iterations:

-------------------

hmmiterations = 5 (mh)

model1iterations = 5 (number of iterations for Model 1)

model2iterations = 0 (number of iterations for Model 2)

model3iterations = 5 (number of iterations for Model 3)

model4iterations = 5 (number of iterations for Model 4)

model5iterations = 0 (number of iterations for Model 5)

model6iterations = 0 (number of iterations for Model 6)

parameter for various heuristics in GIZA++ for efficient training:

------------------------------------------------------------------

countincreasecutoff = 1e-06 (Counts increment cutoff threshold)

countincreasecutoffal = 1e-05 (Counts increment cutoff threshold for alignments in training of fertility models)

mincountincrease = 1e-07 (minimal count increase)

peggedcutoff = 0.03 (relative cutoff probability for alignment-centers in pegging)

probcutoff = 1e-07 (Probability cutoff threshold for lexicon probabilities)

probsmooth = 1e-07 (probability smoothing (floor) value )

parameters for describing the type and amount of output:

-----------------------------------------------------------

compactalignmentformat = 0 (0: detailled alignment format, 1: compact alignment format )

hmmdumpfrequency = 0 (dump frequency of HMM)

l = 2009-12-22.210058.tianliang.log (log file name)

log = 0 (0: no logfile; 1: logfile)

model1dumpfrequency = 0 (dump frequency of Model 1)

model2dumpfrequency = 0 (dump frequency of Model 2)

model345dumpfrequency = 0 (dump frequency of Model 3/4/5)

nbestalignments = 0 (for printing the n best alignments)

nodumps = 0 (1: do not write any files)

o = 2009-12-22.210058.tianliang (output file prefix)

onlyaldumps = 0 (1: do not write any files)

outputpath = (output path)

transferdumpfrequency = 0 (output: dump of transfer from Model 2 to 3)

verbose = 0 (0: not verbose; 1: verbose)

verbosesentence = -10 (number of sentence for which a lot of information should be printed (negative: no output))

parameters describing input files:

----------------------------------

c = english_chinese.snt (training corpus file name)

d = (dictionary file name)

s = english.vcb (source vocabulary file name)

t = chinese.vcb (target vocabulary file name)

tc = (test corpus file name)

smoothing parameters:

---------------------

emalsmooth = 0.2 (f-b-trn: smoothing factor for HMM alignment model (can be ignored by -emSmoothHMM))

model23smoothfactor = 0 (smoothing parameter for IBM-2/3 (interpolation with constant))

model4smoothfactor = 0.2 (smooting parameter for alignment probabilities in Model 4)

model5smoothfactor = 0.1 (smooting parameter for distortion probabilities in Model 5 (linear interpolation with constant))

nsmooth = 64 (smoothing for fertility parameters (good value: 64): weight for wordlength-dependent fertility parameters)

nsmoothgeneral = 0 (smoothing for fertility parameters (default: 0): weight for word-independent fertility parameters)

parameters modifying the models:

--------------------------------

compactadtable = 1 (1: only 3-dimensional alignment table for IBM-2 and IBM-3)

depm4 = 76 (d_{=1}: &1:l, &2:m, &4:F, &8:E, d_{>1}&16:l, &32:m, &64:F, &128:E)

depm5 = 68 (d_{=1}: &1:l, &2:m, &4:F, &8:E, d_{>1}&16:l, &32:m, &64:F, &128:E)

emalignmentdependencies = 2 (lextrain: dependencies in the HMM alignment model. &1: sentence length; &2: previous class; &4: previous position; &8: French position; &16: French class)

emprobforempty = 0.4 (f-b-trn: probability for empty word)

parameters modifying the EM-algorithm:

--------------------------------------

m5p0 = -1 (fixed value for parameter p_0 in IBM-5 (if negative then it is determined in training))

manlexfactor1 = 0 ()

manlexfactor2 = 0 ()

manlexmaxmultiplicity = 20 ()

maxfertility = 10 (maximal fertility for fertility models)

p0 = -1 (fixed value for parameter p_0 in IBM-3/4 (if negative then it is determined in training))

pegging = 0 (0: no pegging; 1: do pegging)

reading vocabulary files

Reading vocabulary file from:english.vcb

Reading vocabulary file from:chinese.vcb

Source vocabulary list has 3788 unique tokens

Target vocabulary list has 4534 unique tokens

Calculating vocabulary frequencies from corpus english_chinese.snt

Reading more sentence pairs into memory ...

Corpus fits in memory, corpus has: 1000 sentence pairs.

Train total # sentence pairs (weighted): 1000

Size of source portion of the training corpus: 14014 tokens

Size of the target portion of the training corpus: 14693 tokens

In source portion of the training corpus, only 3787 unique tokens appeared

In target portion of the training corpus, only 4532 unique tokens appeared

lambda for PP calculation in IBM-1,IBM-2,HMM:= 14693/(15014-1000)== 1.04845

==========================================================

Model1 Training Started at: Tue Dec 22 21:00:58 2009

-----------

Model1: Iteration 1

Model1: (1) TRAIN CROSS-ENTROPY 12.4032 PERPLEXITY 5416.78

Model1: (1) VITERBI TRAIN CROSS-ENTROPY 16.3995 PERPLEXITY 86445.7

Model 1 Iteration: 1 took: 0 seconds

-----------

Model1: Iteration 2

Model1: (2) TRAIN CROSS-ENTROPY 5.67807 PERPLEXITY 51.2

Model1: (2) VITERBI TRAIN CROSS-ENTROPY 8.10303 PERPLEXITY 274.951

Model 1 Iteration: 2 took: 0 seconds

-----------

Model1: Iteration 3

Model1: (3) TRAIN CROSS-ENTROPY 5.28748 PERPLEXITY 39.0563

Model1: (3) VITERBI TRAIN CROSS-ENTROPY 7.44039 PERPLEXITY 173.693

Model 1 Iteration: 3 took: 0 seconds

-----------

Model1: Iteration 4

Model1: (4) TRAIN CROSS-ENTROPY 5.12503 PERPLEXITY 34.8969

Model1: (4) VITERBI TRAIN CROSS-ENTROPY 7.06572 PERPLEXITY 133.966

Model 1 Iteration: 4 took: 0 seconds

-----------

Model1: Iteration 5

Model1: (5) TRAIN CROSS-ENTROPY 5.0467 PERPLEXITY 33.0529

Model1: (5) VITERBI TRAIN CROSS-ENTROPY 6.84159 PERPLEXITY 114.69

Model 1 Iteration: 5 took: 0 seconds

Entire Model1 Training took: 0 seconds

NOTE: I am doing iterations with the HMM model!

Read classes: #words: 3787 #classes: 81

Read classes: #words: 4533 #classes: 81

==========================================================

Hmm Training Started at: Tue Dec 22 21:00:58 2009

-----------

Hmm: Iteration 1

A/D table contains 18310 parameters.

Hmm: (1) TRAIN CROSS-ENTROPY 5.00283 PERPLEXITY 32.0629

Hmm: (1) VITERBI TRAIN CROSS-ENTROPY 6.69706 PERPLEXITY 103.757

Hmm Iteration: 1 took: 0 seconds

-----------

Hmm: Iteration 2

A/D table contains 18310 parameters.

Hmm: (2) TRAIN CROSS-ENTROPY 4.9798 PERPLEXITY 31.5551

Hmm: (2) VITERBI TRAIN CROSS-ENTROPY 5.95189 PERPLEXITY 61.9011

Hmm Iteration: 2 took: 0 seconds

-----------

Hmm: Iteration 3

A/D table contains 18310 parameters.

Hmm: (3) TRAIN CROSS-ENTROPY 4.63323 PERPLEXITY 24.8165

Hmm: (3) VITERBI TRAIN CROSS-ENTROPY 5.22902 PERPLEXITY 37.5053

Hmm Iteration: 3 took: 1 seconds

-----------

Hmm: Iteration 4

A/D table contains 18310 parameters.

Hmm: (4) TRAIN CROSS-ENTROPY 4.25292 PERPLEXITY 19.0659

Hmm: (4) VITERBI TRAIN CROSS-ENTROPY 4.65021 PERPLEXITY 25.1103

Hmm Iteration: 4 took: 0 seconds

-----------

Hmm: Iteration 5

A/D table contains 18310 parameters.

Hmm: (5) TRAIN CROSS-ENTROPY 3.94249 PERPLEXITY 15.3748

Hmm: (5) VITERBI TRAIN CROSS-ENTROPY 4.23564 PERPLEXITY 18.8388

Hmm Iteration: 5 took: 0 seconds

Entire Hmm Training took: 1 seconds

==========================================================

Read classes: #words: 3787 #classes: 81

Read classes: #words: 4533 #classes: 81

Read classes: #words: 3787 #classes: 81

Read classes: #words: 4533 #classes: 81

==========================================================

Starting H3333344444: Viterbi Training

H3333344444 Training Started at: Tue Dec 22 21:00:59 2009

---------------------

THTo3: Iteration 1

#centers(pre/hillclimbed/real): 1 1 1 #al: 338.455 #alsophisticatedcountcollection: 0 #hcsteps: 0

#peggingImprovements: 0

A/D table contains 18310 parameters.

A/D table contains 19646 parameters.

NTable contains 37880 parameter.

p0_count is 12011.1 and p1 is 1340.96; p0 is 0.899569 p1: 0.100431

THTo3: TRAIN CROSS-ENTROPY 3.63184 PERPLEXITY 12.3964

THTo3: (1) TRAIN VITERBI CROSS-ENTROPY 3.74642 PERPLEXITY 13.421

THTo3 Viterbi Iteration : 1 took: 0 seconds

---------------------

Model3: Iteration 2

#centers(pre/hillclimbed/real): 1 1 1 #al: 338.214 #alsophisticatedcountcollection: 0 #hcsteps: 1.884

#peggingImprovements: 0

A/D table contains 18310 parameters.

A/D table contains 19612 parameters.

NTable contains 37880 parameter.

p0_count is 11492.8 and p1 is 1600.12; p0 is 0.877787 p1: 0.122213

Model3: TRAIN CROSS-ENTROPY 4.81531 PERPLEXITY 28.1548

Model3: (2) TRAIN VITERBI CROSS-ENTROPY 4.90601 PERPLEXITY 29.9818

Model3 Viterbi Iteration : 2 took: 1 seconds

---------------------

Model3: Iteration 3

#centers(pre/hillclimbed/real): 1 1 1 #al: 338.47 #alsophisticatedcountcollection: 0 #hcsteps: 1.939

#peggingImprovements: 0

A/D table contains 18310 parameters.

A/D table contains 19612 parameters.

NTable contains 37880 parameter.

p0_count is 11369 and p1 is 1662.02; p0 is 0.872456 p1: 0.127544

Model3: TRAIN CROSS-ENTROPY 4.69194 PERPLEXITY 25.8473

Model3: (3) TRAIN VITERBI CROSS-ENTROPY 4.76687 PERPLEXITY 27.2251

Model3 Viterbi Iteration : 3 took: 0 seconds

---------------------

Model3: Iteration 4

#centers(pre/hillclimbed/real): 1 1 1 #al: 338.913 #alsophisticatedcountcollection: 0 #hcsteps: 1.974

#peggingImprovements: 0

A/D table contains 18310 parameters.

A/D table contains 19458 parameters.

NTable contains 37880 parameter.

p0_count is 11342.3 and p1 is 1675.34; p0 is 0.871303 p1: 0.128697

Model3: TRAIN CROSS-ENTROPY 4.6338 PERPLEXITY 24.8263

Model3: (4) TRAIN VITERBI CROSS-ENTROPY 4.7028 PERPLEXITY 26.0425

Model3 Viterbi Iteration : 4 took: 0 seconds

---------------------

Model3: Iteration 5

#centers(pre/hillclimbed/real): 1 1 1 #al: 339.198 #alsophisticatedcountcollection: 0 #hcsteps: 2.014

#peggingImprovements: 0

A/D table contains 18310 parameters.

A/D table contains 19317 parameters.

NTable contains 37880 parameter.

p0_count is 11341.2 and p1 is 1675.89; p0 is 0.871255 p1: 0.128745

Model3: TRAIN CROSS-ENTROPY 4.59112 PERPLEXITY 24.1027

Model3: (5) TRAIN VITERBI CROSS-ENTROPY 4.65553 PERPLEXITY 25.2032

Model3 Viterbi Iteration : 5 took: 0 seconds

---------------------

T3To4: Iteration 6

#centers(pre/hillclimbed/real): 1 1 1 #al: 339.466 #alsophisticatedcountcollection: 17.663 #hcsteps: 1.992

#peggingImprovements: 0

D4 table contains 1081381 parameters.

A/D table contains 18310 parameters.

A/D table contains 19215 parameters.

NTable contains 37880 parameter.

p0_count is 11345.3 and p1 is 1673.87; p0 is 0.87143 p1: 0.12857

T3To4: TRAIN CROSS-ENTROPY 4.55514 PERPLEXITY 23.5091

T3To4: (6) TRAIN VITERBI CROSS-ENTROPY 4.6155 PERPLEXITY 24.5134

T3To4 Viterbi Iteration : 6 took: 0 seconds

---------------------

Model4: Iteration 7

#centers(pre/hillclimbed/real): 1 1 1 #al: 339.667 #alsophisticatedcountcollection: 11.1 #hcsteps: 1.861

#peggingImprovements: 0

D4 table contains 1081381 parameters.

A/D table contains 18310 parameters.

A/D table contains 18626 parameters.

NTable contains 37880 parameter.

p0_count is 11365.5 and p1 is 1663.76; p0 is 0.872306 p1: 0.127694

Model4: TRAIN CROSS-ENTROPY 3.81553 PERPLEXITY 14.0796

Model4: (7) TRAIN VITERBI CROSS-ENTROPY 3.85087 PERPLEXITY 14.4287

Model4 Viterbi Iteration : 7 took: 1 seconds

---------------------

Model4: Iteration 8

#centers(pre/hillclimbed/real): 1 1 1 #al: 339.814 #alsophisticatedcountcollection: 8.38 #hcsteps: 1.763

#peggingImprovements: 0

D4 table contains 1081381 parameters.

A/D table contains 18310 parameters.

A/D table contains 18312 parameters.

NTable contains 37880 parameter.

p0_count is 11401.9 and p1 is 1645.53; p0 is 0.873881 p1: 0.126119

Model4: TRAIN CROSS-ENTROPY 3.71244 PERPLEXITY 13.1086

Model4: (8) TRAIN VITERBI CROSS-ENTROPY 3.74074 PERPLEXITY 13.3683

Model4 Viterbi Iteration : 8 took: 0 seconds

---------------------

Model4: Iteration 9

#centers(pre/hillclimbed/real): 1 1 1 #al: 339.954 #alsophisticatedcountcollection: 7.256 #hcsteps: 1.717

#peggingImprovements: 0

D4 table contains 1081381 parameters.

A/D table contains 18310 parameters.

A/D table contains 18114 parameters.

NTable contains 37880 parameter.

p0_count is 11431.4 and p1 is 1630.8; p0 is 0.875151 p1: 0.124849

Model4: TRAIN CROSS-ENTROPY 3.66637 PERPLEXITY 12.6966

Model4: (9) TRAIN VITERBI CROSS-ENTROPY 3.69192 PERPLEXITY 12.9234

Model4 Viterbi Iteration : 9 took: 1 seconds

---------------------

Model4: Iteration 10

#centers(pre/hillclimbed/real): 1 1 1 #al: 340.049 #alsophisticatedcountcollection: 6.616 #hcsteps: 1.698

#peggingImprovements: 0

D4 table contains 1081381 parameters.

A/D table contains 18310 parameters.

A/D table contains 18046 parameters.

NTable contains 37880 parameter.

p0_count is 11453.8 and p1 is 1619.61; p0 is 0.876114 p1: 0.123886

Model4: TRAIN CROSS-ENTROPY 3.64139 PERPLEXITY 12.4787

Model4: (10) TRAIN VITERBI CROSS-ENTROPY 3.66511 PERPLEXITY 12.6855

Dumping alignment table (a) to file:2009-12-22.210058.tianliang.a3.final

Dumping distortion table (d) to file:2009-12-22.210058.tianliang.d3.final

Dumping nTable to: 2009-12-22.210058.tianliang.n3.final

Model4 Viterbi Iteration : 10 took: 1 seconds

H3333344444 Training Finished at: Tue Dec 22 21:01:03 2009

Entire Viterbi H3333344444 Training took: 4 seconds

==========================================================

writing Final tables to Disk

Dumping the t table inverse to file: 2009-12-22.210058.tianliang.ti.final

Dumping the t table inverse to file: 2009-12-22.210058.tianliang.actual.ti.final

Writing PERPLEXITY report to: 2009-12-22.210058.tianliang.perp

Writing source vocabulary list to : 2009-12-22.210058.tianliang.trn.src.vcb

Writing source vocabulary list to : 2009-12-22.210058.tianliang.trn.trg.vcb

Writing source vocabulary list to : 2009-12-22.210058.tianliang.tst.src.vcb

Writing source vocabulary list to : 2009-12-22.210058.tianliang.tst.trg.vcb

writing decoder configuration file to 2009-12-22.210058.tianliang.Decoder.config

Entire Training took: 5 seconds

Program Finished at: Tue Dec 22 21:01:03 2009

运行结束后将会生成许多文件，这里简单的给出部分运行的结果的形式：

对齐文件~.A3.final

# Sentence pair (1) source length 18 target length 17 alignment score : 2.64625e-21

由于这个缘故，最好用透明的地质图蒙在地球化学图上。

NULL ({ 4 9 }) For ({ }) this ({ }) reason ({ }) it ({ }) is ({ }) often ({ }) convenient ({ 5 6 7 8 10 }) to ({ }) overlay ({ 11 }) the ({ }) geochemical ({ 12 13 14 15 }) map ({ 16 }) with ({ }) a ({ }) geological ({ }) map ({ }) transparency ({ 1 2 3 }) . ({ 17 })

解码器调用模板～.Decoder.config

这是个很重要的文件，在接下来的解码器将会使用这个文件，其中这里还有一个FZeroWords，这个文件将会调用绝大部分文件，详细的内容如下：

TTable = 110-01-18.093912.tianliang.t3.final # translation table

InverseTTable = 110-01-18.093912.tianliang.ti.final# inverse translation table

NTable = 110-01-18.093912.tianliang.n3.final# fertility table

D3Table = 110-01-18.093912.tianliang.d3.final# distortion table for model 3

D4Table = 110-01-18.093912.tianliang.D4.final# distortion table for model 4

PZero = 110-01-18.093912.tianliang.p0_3.final# contains p0 for the model

Source.vcb = english.vcb# maps from words to word IDs

Target.vcb = chinese.vcb# maps from words to word IDs

Source.classes = english.vcb.classes

Target.classes = chinese.vcb.classes

FZeroWords = 2009-12-22.210058.tianliang.fe0_3.final# file with (English) zero fertility words

6．构建解码器

1.编写配置文件和输入文件

进入解码器isi-rewrite-decoder-r1.0.0a目录下的linux子目录，分别新建文件“decoder.cfg”“input.xml”,内容如下：

decoder.cfg

LanguageModelFile=/home/tianliang/research/CMU-Cam_Toolkit_v2/bin/English.binlm

TranslationModelConfigFile=/home/tianliang/research/giza-pp/GIZA++-v2/test/2009-12 22.210058.Decoder.config

PrintAlignment=true

PrintProbabilities=true

input.xml

<?xml version="1.0" encoding="utf-8"?>

<doc>

<s id="1">中国孩子都十分活泼。</s>

<s id="2">美国和中国。 </s>

<s id="3">由于这个缘故，最好用透明的地质图蒙在地球化学图上。 </s>

</doc>

2.复制文件

把/home/tianliang/research/giza-pp/GIZA++-v2/test/中的文件全部复制到~/isi-rewrite-decoder-r1.0.0a/linux中

3.生成FZeroWords

将/home/tianliang/research/isi-rewrite-decoder-r1.0.0a/linux中的”2009-12-22.210058.tianliang.trn.src.vcb”和”2009-12-22.210058.tianliang.n3.final”复制到/home/tianliang/research/isi-rewrite-decoder-r1.0.0a/util中，然后执行如下的命令;

ianliang@ubuntu:~/research/giza-pp$ cd ..

tianliang@ubuntu:~/research$ cd isi-rewrite-decoder-r1.0.0a

tianliang@ubuntu:~/research/isi-rewrite-decoder-r1.0.0a$ cd util

tianliang@ubuntu:~/research/isi-rewrite-decoder-r1.0.0a/util$ ./rewrite.mkZeroFert.perl 2009-12-22.210058.tianliang.trn.src.vcb 2009-12-22.210058.tianliang.n3.final

of 0.97179

the 0.970341

to 0.964017

, 0.877812

a 0.775534

and 0.730173

然后在/home/tianliang/research/isi-rewrite-decoder-r1.0.0a/linux下新建一个新文件命名为“2009-12-22.210058.tianliang.fe0_3.final”,把刚才运行出现的单词每行一个单词存入文档。

这个文档中的单词就是繁殖概率（fertility）为零的单词，也就是说这几个单词没有对应的中文翻译。格式如下所示：

the

and

注意：文件中的输入为每行一个单词，即使每行又多输入其他的单词，在运行的时候，也会忽略。

3. 设定环境变量

还是在linux目录下，输入命令：

[tianliang@localhost isi-rewrite-decoder-r1.0.0a]$cd linux

[tianliang@localhost linux]$export LD_LIBRARY_PATH=/home/tianliang/research/isi-rewrite-decoder-r1.0.0a/linux

7．运行结果

输入命令：

tianliang@ubuntu:~/research/isi-rewrite-decoder-r1.0.0a/linux$ ./decoder.linux.public --config decoder.cfg input.xml

++ ++++++++++++++++++++++++++++++++++++

| ISI ReWrite Decoder, Release 1.0.0a |

| Written by Ulrich Germann and Daniel Marcu. |

++ +++++++++++++++++++++++++++++++++++

starting decoder, please be patient ...

Warning: No Decoding Algorithm was specified. Will use default (greedy1).

Using Fast Greedy Decoding (by Daniel Marcu and Ulrich Germann)

Loading Translation Model ... NTable ... DTable (Model 4) ... Source Vocabulary ... Target

Vocabulary ... TTable ... inverse TTable ... FZeroWords ... 0 seconds.

Alignment | [t0] 中国 < China [s0 > t0]

Alignment | [t1] 孩子 < kids [s2 > t1, t2]

Alignment | [t2] 都 < kids [s2 > t1, t2]

Alignment | [t3] 十分 < changeable [s3 > t3]

Alignment | [t4] 活泼 < 活泼 [s1 > t4]

Alignment | [t5] 。 < . [s4 > t5]

中国孩子都十分活泼。

China活泼 kids changeable .

Alignment | [t0] 美国 < America [s0 > t0]

Alignment | [t1] 和 < and [s1 > t1]

Alignment | [t2] 中国 < China [s2 > t2]

Alignment | [t3] 。 < . [s3 > t3]

美国和中国。

America and China .

Alignment | [t0] 由于 < As [s0 > t0]

Alignment | [t1] 这个 < transparency [s1 > t1, t2]

Alignment | [t2] 缘故 < transparency [s1 > t1, t2]

Alignment | [t3] , < [s2 > t3]

Alignment | [t4] 最 < convenient [s3 > t4, t5, t6, t7, t9]

Alignment | [t5] 好 < convenient [s3 > t4, t5, t6, t7, t9]

Alignment | [t6] 用 < convenient [s3 > t4, t5, t6, t7, t9]

Alignment | [t7] 透明 < convenient [s3 > t4, t5, t6, t7, t9]

Alignment | [t8] 的 < NULL [s0 > t8]

Alignment | [t9] 地质图 < convenient [s3 > t4, t5, t6, t7, t9]

Alignment | [t10] 蒙 < overlay [s5 > t10]

Alignment | [t11] 在 < the [s6 > t11]

Alignment | [t12] 地球 < geochemical [s7 > t12, t13, t14]

Alignment | [t13] 化学 < geochemical [s7 > t12, t13, t14]

Alignment | [t14] 图 < geochemical [s7 > t12, t13, t14]

Alignment | [t15] 上 < upon [s8 > t15]

Alignment | [t16] 。 < . [s9 > t16]

由于这个缘故 ,最好用透明的地质图蒙在地球化学图上。

As transparency convenient to overlay the geochemical upon .

`Pure' translation time (includes time spent on logging): 0.32 seconds.

Time spent on output (without logging): 0.00 seconds。

Total time: 0.32 seconds.

这里的三个句子，前两个句子没有在原文中出现过，最后一个句子是语料库中的训练语句。我们可以看到，如果原文中出现过的单词或者词组，译文的质量能够好些，如果没有出现过，那么翻译的时候会直接把对应的汉文直接翻译过来，比如例句中的“活泼”，这两个词训练语料库中没有，翻译的时候就找不着对应的英文单词，于是翻译的出来的就是原汉语单词“活泼”。当然如果我们提高训练语料库的数量，效果会得到改善。

说明：文中并没有给出分词的具体步骤，其原因就是不同的分词方法得到的翻译效果不一样，最主要的是在最后解码的过程中，在输入文件“input.xml”中不同的分词组合将会得到不同的翻译，有些人为的分词甚至不会给出翻译结果，而仅仅是给出中文的重新的排列而已。比如要是采用汉语分词工具ICTCAL，其分词后所有的语句将会自动带上各个词语的词性，如果你在输入文件“input.xml”中不带上这些词性，就不会得到预期的结果。如果我们采用LDC Chinese Segmenter进行分词，那么分词后就不需要带词性，只要按照分词的结果输入到输入文件“input.xml”中就能够得到翻译的结果。不过这里可以给出一个分词的一种常用perl命令：

$ perl tokenize.perl.tmpl <inputfile> outputfile

个人主页：http://nlp2ct.com/tianliang/index.php

你可能感兴趣的:(ubuntu,table,search,Parameters,alignment,Training)

Bjarne Stroustrup's FAQ win32asn c++standards library microsoft features templates
BjarneStroustrup'sFAQModifiedFebruary5,2008Thesearequestionsthatpeopleaskmeoften.Ifyouhavebetterquestionsorcommentsontheanswers,[email protected]'tspendallofm
switch 二分查找 01292520 C++学习记录 c++
template//在有序向量区间[lo,hi)内查找元素estaticRankbinSearch(T*A,Tconst&e,Ranklo,Rankhi){while(lo>1;//以中点为轴点//使用一个临时变量来存储比较结果，方便在switch中使用intcomparisonResult=(e
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
oracle基础知识之表的集合运算数字天下 oracle 数据库
一个查询就是一个集合：查询的结果集一条记录就是一个元素。集合运算是用来把两个或多个查询的结果集做并、交、查的集合运算，包含集合运算的查询称为复合查询。*Select基本语法如下：SELECTcolumn_1,column_2,…FROMtable_nameWHEREsearch_conditionORDERBYcolumn_1,column_2;2.常用集合运算方式的应用（1）联合运算：联合运算实
OpenCV旋转估计（2）用于自动检测波浪校正类型的函数autoDetectWaveCorrectKind() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::autoDetectWaveCorrectKind是OpenCV中用于自动检测波浪校正类型的函数，它根据输入的旋转矩阵集合来决定使用哪种波浪校正模式。波浪校正（WaveCorrection）是图像拼接过程中的一部分，主要用于纠正由于相机在拍
使用fastapi部署stable diffusion模型明晚十点睡代码 fastapi stable diffusion pytorch python 人工智能深度学习计算机视觉
使用vscode运行stablediffusion模型，每次加载模型都需要10+分钟，为算法及prompt调试带来了极大麻烦。使用jupyter解决自然是一个比较好的方案，但如果jupyter由于种种原因不能使用时，fastapi无疑成为了一个很好的选择。参考github链接：https://github.com/jarvislabsai/fastapi-sd-templatefromfastap
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数据操作与事务：确保数据一致性的关键 qcidyu 软件开发数据库规则
title:数据操作与事务：确保数据一致性的关键date:2025/2/11updated:2025/2/11author:cmdragonexcerpt:在现代数据管理中，事务处理是确保数据完整性和一致性的重要机制。本文将深入探讨事务的ACID特性、锁机制及其种类（行级锁与表级锁）以及事务隔离级别（READUNCOMMITTED、READCOMMITTED、REPEATABLEREAD、SERI
本地源代码运行bun install时报错星火燎猿 C#疑难杂症处理方案 Bun Bun.js
最近使用Ubuntu系统运行Bun的时候报，Failedtospawnscriptinstallduetoerroros.linux.errno.generic.E.PERMPERM的错误，查看官方文档也没有这个错误描述，最终找到解决方案进行分享。报错问题如下：errorloadingcurrentdirectoryInstalling[2637/2230]error:failedtospawnl
table点击行事件，且点击行高亮爱吃玉米的兔子 vue.js javascript elementui
consttableData=[{id:1,date:"2025-03-20",name:"Tom",},{id:2,date:"2025-03-21",name:"Hom",},{id:3,date:"2025-03-22",name:"Rem",},];constselectedRow=ref(null);//储存选中的行//点击行操作事件constrowChange=(row)=>{sele
“轻松一键生成 AI 图像：Stable Diffusion Online 带来革命性视觉创意体验！“ ai小精灵人工智能 stable diffusion 文心一言 AI作画 chatgpt
StableDiffusionOnline正在为AI图像生成领域树立新标准，将复杂的功能与便捷直观的用户体验相结合。历史上，StableDiffusion的部署步骤带来了重大挑战，特别是对于技术新手而言。然而，StableDiffusionOnline消除了这些障碍，提供了一个既适合新手也适合资深专业人士的酷炫界面。什么是StableDiffusionOnline？StableDiffusionO
Starrocks 命令 Alter table DISTRIBUTED 重分布数据的实现鸿乃江边鸟大数据 StarRocks starrocks 大数据
背景在前文Starrocks写入报错primarykeymemoryusageexceedsthelimit中，可以通过ALTERTABLExxxxDISTRIBUTEDBYHASH(xx)BUCKETS50;来改变数据的分布状态,具体的执行过程是怎么样的呢？分析首先对应的g4文件中为alterTableStatement，这里最终的调用是AlterJobExecutor.visitAlterTa
android MutableLiveData setValue 响应速速 postValue 快 mmsx Android 常用开发技术 android livedata
MutableLiveData是LiveData的一个可变版本，常用于在ViewModel中保存和管理UI相关的数据。MutableLiveData提供了两种主要的方法来更新其值：setValue和postValue。关于这两者的响应速度，通常认为setValue比postValue更快。下面详细解释这两者的区别以及影响响应速度的因素。一、setValuevspostValue1.setValue
Ubuntu Qt: no service found for - “org.qt-project.qt.mediaplayer“ wkm956 qt 开发语言 ubuntu
1、前言在一次项目过程中，因项目需求，需要将windows开发的Qt项目迁移到ubuntu系统中，且在某个功能项中需要播放音频，在windows系统中能够正常运行，但在ubuntu系统中却显示defaultServiceProvider::requestService():noservicefoundfor-"org.qt-project.qt.mediaplayer"错误，在网上查找资料后解决问
ubuntu高并发内核参数调优 - （压测客户端调优） sj1163739403 Linux系统 ubuntu
业务上要求集群提供10w+并发，10w+并发听上去不是很难，但10w并发持续1小时呢在业务上线之前还需要我们自己对业务进行压测，俗称benchmark。压测的服务器也是需要进行性能调优的，以下列出调优前后的参数对比，更直观的分析和感受参数对程序的影响压测前内核参数自检#!/bin/bash#脚本名称:check_benchmark_server_kernel_params.sh#描述:查询压测服务
Ubuntu 22.05编译OpenWrt 23.05实战诺依阁 ubuntu 数据库 linux
本篇文章原文地址:https://blog.nuoyis.net/posts/9990.html哔哩哔哩视频教程:https://www.bilibili.com/video/BV1rnsCe1ErV博主基本插件版本推荐编译配置:16核心20G内存150G硬盘用于存储数据包以及编译包等前情提要1.需要准备能访问到外网域名的加速器(自己斟酌)2.准备一个安装好的ubuntu虚拟机(或者直接使用海外服
从0到1，在Ubuntu 20.04 下编译 openWRT 姓张名江叫大江软路由 ubuntu linux openwrt
从0到1，在Ubuntu20.04下编译openWRT/LELD/老毛子固件（跳过八大坑，你就是赢家！）0.申明1.Virtualbox下载与安装2.Linux系统下载与安装2.1Ubuntu下载2.2在Virtualbox中安装Ubuntu3.固件编译4.老毛子固件编译5.后话0.申明本教程所用的软件及代码均是免费开源的，请大家自觉遵守相关的开源协议。在此向开源软件及开源代码的作者们致敬。因本人
Ubuntu下编译OpenWrt的详细教程艾丽丝的爱情 ubuntu linux 运维编程
OpenWrt是一个基于Linux的嵌入式操作系统，常用于路由器等网络设备。本文将为您提供在Ubuntu操作系统下编译OpenWrt的完整教程。步骤1：安装必要的软件包首先，我们需要安装一些必要的软件包来支持OpenWrt的编译过程。在终端中运行以下命令来安装这些软件包：sudoaptupdatesudoaptinstallbuild-essentiallibncurses5-devzlib1g-
基于Ubuntu22.04操作系统部署k8s1.28集群 Gold Steps. kubernetes linux 容器 ubuntu 云计算
IP地址主机名角色192.168.200.16mastermaster192.168.200.17k8s-node1worker192.168.200.18k8s-node2worker基础环境准备tips：以下操作三个节点都要完成修改host文件&&关闭防火墙&&配置时间与时区&&关闭Swap&&开启IPv4转发（三个节点）root@cfc:~#systemctlstopufwroot@cfc:
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
Ubuntu执行apt-get install xxx报错怎么办？
在Ubuntu系统中，使用apt-getinstall命令安装软件包时，可能会遇到各种报错。本文将详细介绍Ubuntu执行apt-getinstallxxx报错的解决方法，帮助您快速定位并解决问题。️常见报错及解决方法1.更新源和软件包问题：软件包信息过时，导致无法找到或安装最新的软件包。解决方法：首先确保系统源和软件包是最新的，执行以下命令更新：sudoaptupdatesudoaptupgra
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
C++协程入门教程 ox0080 #北漂+滴滴出行 C++协程 VIP 激励 c++开发语言
一、环境搭建（Docker+双编译系统）1.全能Docker环境配置FROMubuntu:22.04#基础工具链RUNapt-getupdate&&DEBIAN_FRONTEND=noninteractiveapt-getinstall-y\build-essentialcmakebazelgitg++-12libcppcoro-dev\openssh-serverrsyslogcurlgnupg
LORA的魔法棒：在Stable Diffusion中挥洒注意力机制的优化咒语 ?? DTcode7 AI生产力 AI AIGC stable diffusion AI生产力前沿
LORA的魔法棒：在StableDiffusion中挥洒注意力机制的优化咒语??欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：DTcode7的博客首页。一个做过前端开发的产品经理，经历过睿智产品的折磨导致脱发之后，励志要翻身农奴把歌唱，一边打入敌人内部一边持续提升自己，为我们广大开发同胞
Debian/Ubuntu清理硬盘空间
在Debian/Ubuntu系统上清理硬盘空间的步骤在Debian或Ubuntu系统中，随着使用时间的增加，系统可能会逐渐积累大量的临时文件、软件包缓存、日志文件等，这些都可能导致硬盘空间的消耗。为了保持系统的高效运行，定期清理硬盘空间是必要的。下面将详细说明如何通过多种方式清理系统硬盘空间。1.删除不需要的软件包系统中安装的某些软件包在不再需要时，应该及时卸载，以释放空间。使用以下命令卸载不再需
Docker入门篇:安装与加速 slamml Docker docker 容器运维
今天接着上一篇文章来写，本来计划以paopaorobot/dvo为例带入docker的基本操作，然后中间插播一下docker的安装和加速，但是发现写的有点罗嗦，刚写完安装与加速就挺大篇幅了，所以决定将docker基本操作放到下一篇介绍，对不住～对不住～。docker安装在这里，针对Windows、Ubuntu平台介绍docker的安装。Windows平台（本机win7）前提要求机器是64bit的，
Mybatis 使用＜update＞中＜set＞标签的简明例子成功人chen某 mybatis java 前端
注：xxx为某某某的意思updatexxxSQL1,SQL2,whereSQL3如果成立，不成立则最终SQL语句为updatexxxsetSQL1whereSQL3;会自动去掉SQL1，尾部的逗号，并加上set如果均成立则最终SQL语句为updatexxxsetSQL1,SQL2whereSQL3;实际例子UPDATEtable_nameSETcolumn1=value1,column2=valu
98-二叉树-验证二叉搜索树 Hello_Git javascript
树|深度优先搜索|二叉搜索树|二叉树一、二叉搜索树（BST）的性质首先，了解二叉搜索树（BinarySearchTree,BST）的定义和性质是解决这类问题的基础。BST的定义左子树：节点的左子树只包含小于当前节点的数。右子树：节点的右子树只包含大于当前节点的数。递归性质：左子树和右子树本身也必须是二叉搜索树。简单来说，BST具有以下特点：中序遍历BST可以得到一个递增的有序序列。每个节点的值都大
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(