yaoqiang2011

MOSES系统训练中间过程和意义详解

关于Moses训练的那些事

前面已经将moses从编译到训练测试的整体流程过了一遍，想必大家对这个工具有了一个大致的理解。这里再详细说一些东西，可能能帮助大家对moses有更深的认识。

也许你在训练过程中会遇到一定的问题，事实上，训练总共分为7个steps（步骤），有些情况下（尤其是语料非常大的时候，这个本人非常有体会，昨天训练了700万句平行语料数据，结果...）执行到某些步骤的时候会停下来，这样后续步骤无法从该步骤获得数据，整个过程就停止了。也就是说：你训练到了一半！！！这是很蛋疼的一个问题，因为从头训练意味着要大量的时间，而且你还是不能保证整个步骤是流畅的，所以本节的内容可能对你帮助很大。你可以通过它了解到如何分步进行训练，也可以在训练中断时判断目前训练进度以及下一步改进型训练的哪一个小步骤了。

1 训练过程中产生的文件和内容

言归正传，首先给大家介绍一下使用moses训练后的目录以及目录下的文件，在调用moses训练命令之后，如果训练全程都很顺利，那么在你的train文件夹下，会有四个文件夹Corpus、giza.zh-en、giza.en-zh、model，其目录下文件如下所示，在后续第2节会介绍每个文件夹中哪些文件分别是训练那个阶段获得的：

上述各目录结构内容截图如下所示：

l Train文件夹下：

l Train/corpus文件夹下：

l Train/giza.en-zh文件夹下：

l Train/giza.zh-en文件夹下：

l Train/model文件夹下：

下面我们看看以上后4个文件夹下的东西的内部结构是什么样的：

Ø 首先我们看看corpus下的内容：

Ø 上面是corpus下的英文部分，中文部分的文件也是类似的：

Ø 下面我们看看giza.en-zh下的文件：

相应的giza.zh-en文件夹下是反过来相对应的对齐信息，这里就不一一截图列举了。

下面我们看看非常重要的部分，train/model文件夹下内容的内部结构(这里不一一详细说明，后续章节会提到这里文件内容中每个变量具体指代的含义)：

aligned.grow-diag-final-and文件记录的是词和短语的对齐信息，如下

extract.inv.sorted.gz如下

extract.o.sorted.gz

extract.sorted.gz

lex.e2f

lex.f2e

moses.ini

phrase-table.gz

reordering-table.wbe-msd-bidirectional-fe.gz

2 训练过程及中间步骤

整个训练的命令如之前所述，总结下来，最基本的格式是

train-model.perl --root-dir . --f zh --e en --corpus corpus/data >& LOG

其中有一些可配置参数，这个在之后会提到。这是一条总体的训练命令，也就是说敲下这条命令之后，如果中途不出问题，训练完成之后我们就可以完整的得到上述所说的四个文件夹及全部文件。事实上，moses的训练是可以分作9个步骤的，你可以通过--first-step和--last-step任意选择你需要的训练步骤，9个步骤分别如下所示（右侧为某次训练时所花费时间）：

1）Prepare data（45分钟）

2）Run GIZA++（16小时）

3）Align words（2.5小时）

4）Get lexical translation table（30分钟）

5）Extract phrases（10分钟）

6）Score phrases（1.25小时）

7）Build reordering model（1小时）

8）Build generation models

9）Create configuration file（1秒）

如果我们需要从第4步开始，则使用train-model.perl [...] --first-step 4 即可以满足我们的需求。

如果你的电脑是多核的，你可以试着加上--parallel参数，这将加快你的训练过程。

上述9个步骤中，起始步骤必须是7之前。下面我将详述以上9个步骤。

2.1 第一步：prepare data

在进行第二步之前，我们的平行语料库需要先被转换成一种适用于GIZA + +工具包的格式。这一步之后会有两个词汇文件被生成，这两个文件中定量地记录了我们的平行语料库中标点和词汇词组的个数。如下所示：

==> corpus/en.vcb <==

1 UNK 0

2 the 1085527

3 . 714984

4 , 659491

5 of 488315

6 to 481484

7 and 352900

8 in 330156

9 is 278405

10 that 262619

==> corpus/zh.vcb <==

1 UNK 0

2 我 1578046

3 他的 614454

4 你们 631793

GIZA++在处理的时候还需要我们将词划分到词类里（ words to be placed into word classes）。这是通过调用mkcls程序来自动完成的。词类只在GIZA++ IBM重新排序模型中用到。词类文件格式如下所示：

> head corpus/en.vcb.classes

! 14

" 14

# 30

% 31

& 10

' 14

( 10

) 14

+ 31

, 11

2.2 第二步：运行GIZA++

GIZA++是IBM模型的一个免费实现工具。他的输入需要如第一步建立的词对齐样式。

运行GIZA++这一步是整个训练过程中最耗时的一步。它同时也需要大量的内存（如果你要训练大的平行语料，我建议你在64位系统上进行，否则3.5G的内存限制很有可能让你这一步失败，我个人训练的服务器内存是12GB的）。

GIZA++能处理获得IBM模型4的转换表，但我们只对词对齐文件感兴趣，如下所示(这是moses官网训练的德语和英语对齐的一个示例，中文和英文的对齐方式可以看我上一节列举的对应文件的截图)：

> zcat giza.de-en/de-en.A3.final.gz | head -9

# Sentence pair (1) source length 4 target length 3 alignment score : 0.00643931

wiederaufnahme der sitzungsperiode

NULL ({ }) resumption ({ 1 }) of ({ }) the ({ 2 }) session ({ 3 })

# Sentence pair (2) source length 17 target length 18 alignment score : 1.74092e-26

ich erklaere die am donnerstag , den 28. maerz 1996 unterbrochene sitzungsperiode

des europaeischen parlaments fuer wiederaufgenommen .

NULL ({ 7 }) i ({ 1 }) declare ({ 2 }) resumed ({ }) the ({ 3 }) session ({ 12 })

of ({ 13 }) the ({ }) european ({ 14 }) parliament ({ 15 })

adjourned ({ 11 16 17 }) on ({ }) thursday ({ 4 5 }) , ({ 6 }) 28 ({ 8 })

march ({ 9 }) 1996 ({ 10 }) . ({ 18 })

# Sentence pair (3) source length 1 target length 1 alignment score : 0.012128

begruessung

NULL ({ }) welcome ({ 1 })

这里的例子来源于moses官网，德语和英语平行语料训练的结果，在这个文件中，一些统计信息和德语句子后，对应的英语句子是词对词与德语词对齐的，例如：第一个词resumption({1})与德国第一个字wiederaufnahme对齐。

注意每个英语单词可能是对齐的多个德语词，但每个德语词只能和一个英语单词对齐。在逆GIZA++训练过程中这个限制是相反的，即一个英语词对应多个德语词，如下：

> zcat giza.en-de/en-de.A3.final.gz | head -9

# Sentence pair (1) source length 3 target length 4 alignment score : 0.000985823

resumption of the session

NULL ({ }) wiederaufnahme ({ 1 2 }) der ({ 3 }) sitzungsperiode ({ 4 })

# Sentence pair (2) source length 18 target length 17 alignment score : 6.04498e-19

i declare resumed the session of the european parliament adjourned on thursday ,

28 march 1996 .

NULL ({ }) ich ({ 1 }) erklaere ({ 2 10 }) die ({ 4 }) am ({ 11 })

donnerstag ({ 12 }) , ({ 13 }) den ({ }) 28. ({ 14 }) maerz ({ 15 })

1996 ({ 16 }) unterbrochene ({ 3 }) sitzungsperiode ({ 5 }) des ({ 6 7 })

europaeischen ({ 8 }) parlaments ({ 9 }) fuer ({ }) wiederaufgenommen ({ })

. ({ 17 })

# Sentence pair (3) source length 1 target length 1 alignment score : 0.706027

welcome

NULL ({ }) begruessung ({ 1 })

2.3 第三步：Align Words

词对齐的过程建立基于两个GIZA++对齐步骤，可以使用一系列的探索法。其中默认的探索法是grow-diag-final（生长-诊断-结束），该过程由两个对齐的词开始，逐步添加新的对齐词直至完成句子的对齐。

其余的对齐探索方法如下所示:

Ø intersection

Ø grow (only add block-neighboring points)

Ø grow-diag (without final step)

Ø union

Ø srctotgt (only consider word-to-word alignments from the source-target GIZA++ alignment file)

Ø tgttosrc (only consider word-to-word alignments from the target-source GIZA++ alignment file)

这些方法之间可以通过--alignment参数进行选择和切换.

默认的grow-diag-final探索法的对齐过程伪代码如下所示：

GROW-DIAG-FINAL(e2f,f2e):

neighboring = ((-1,0),(0,-1),(1,0),(0,1),(-1,-1),(-1,1),(1,-1),(1,1))

alignment = intersect(e2f,f2e);

GROW-DIAG(); FINAL(e2f); FINAL(f2e);

GROW-DIAG():

iterate until no new points added

for english word e = 0 ... en

for foreign word f = 0 ... fn

if ( e aligned with f )

for each neighboring point ( e-new, f-new ):

if ( ( e-new not aligned or f-new not aligned ) and

( e-new, f-new ) in union( e2f, f2e ) )

add alignment point ( e-new, f-new )

FINAL(a):

for english word e-new = 0 ... en

for foreign word f-new = 0 ... fn

if ( ( e-new not aligned or f-new not aligned ) and

( e-new, f-new ) in alignment a )

add alignment point ( e-new, f-new )

下面的图是对齐的例子：

在上图的对齐基础上，加上了一些新的对齐词组并调整，如下图：

但是上图中两个动词的对齐方式混淆了，resumed和unterbrochene对齐， adjourned 和wiederaufgenommen对齐，但事实上，实际的对齐结果是相反的。

我们来看一看，词语对齐之后的结果文件，也许对本节的认识会深一些：

==> model/aligned.de <==

wiederaufnahme der sitzungsperiode

ich erklaere die am donnerstag , den 28. maerz 1996 unterbrochene sitzungsperiode

des europaeischen parlaments fuer wiederaufgenommen .

begruessung

==> model/aligned.en <==

resumption of the session

i declare resumed the session of the european parliament adjourned on

thursday , 28 march 1996 .

welcome

==> model/aligned.grow-diag-final <==

0-0 0-1 1-2 2-3

0-0 1-1 2-3 3-10 3-11 4-11 5-12 7-13 8-14 9-15 10-2 11-4 12-5 12-6 13-7

14-8 15-9 16-9 17-16

0-0

2.4 第四步：Get Lexical Translation Table（获得词汇翻译概率表）

基于上一步得到的对齐词汇表，很容易估计得到一个最大似然词汇翻译表。我们估计的W(E|F)以及逆W(F|E)字翻译表。下面为europa这个德语单词翻译成英文的最佳翻译结果：

> grep ' europa ' model/lex.f2n | sort -nrk 3 | head

europe europa 0.8874152

european europa 0.0542998

union europa 0.0047325

it europa 0.0039230

we europa 0.0021795

eu europa 0.0019304

europeans europa 0.0016190

euro-mediterranean europa 0.0011209

europa europa 0.0010586

continent europa 0.0008718

2.5 第五步：Extract Phrases（抽取短语）

在这一步中，所有的短语被扔进了一个大的文件中，文件从前那往后读的部分内容如下所示：

> head model/extract

wiederaufnahme ||| resumption ||| 0-0

wiederaufnahme der ||| resumption of the ||| 0-0 1-1 1-2

wiederaufnahme der sitzungsperiode ||| resumption of the session ||| 0-0 1-1 1-2 2-3

der ||| of the ||| 0-0 0-1

der sitzungsperiode ||| of the session ||| 0-0 0-1 1-2

sitzungsperiode ||| session ||| 0-0

ich ||| i ||| 0-0

ich erklaere ||| i declare ||| 0-0 1-1

erklaere ||| declare ||| 0-0

sitzungsperiode ||| session ||| 0-0

可以从上面看到，每一行的格式都是固定的：德语，英语，词对齐时候的点标记。点标记是一对一对的。哦，对了，还有一个逆的extract.inv也产生了，里面的内容和上述文件刚好是相反的。

2.6 第六步：Score Phrases（短语概率打分）

随后，从存储的短语翻译对中我们可以得到一张翻译表。需要有这个步骤而不是直接用翻译表替代短语翻译表，是因为较大的翻译模型中，短语翻译表在内存中存不下。幸运的是，我们不必在内存中存储整个短语翻译表，我们可以将其构建在磁盘上。

估计的短语翻译概率φ(E|F)我们的步骤如下：首先，提取文件排序。这将确保一个外国短语的所有英语短语翻译文件是在彼此旁边的。因此，我们可以处理文件中某一个词的时候，对其翻译做收集和计数，并计算φ(E|F)，其中F为外国短语（源语言短语）.估计φ(F|E)时，倒排文件要进行排序，φ(F|E)计算时，一个英语短语估测一次。

在得到短语翻译概率分布φ(F|E)和φ(E|F)之后，有一些其他的短语翻译打分结果可以计算，例如词汇权重，单词惩罚，短语惩罚等。目前我们在计算的时候，词汇权重是正向反向翻译概率的叠加，再加上五分之一分的短语惩罚。下面是其中文件的示例：

in europa ||| in europe ||| 0.829007 0.207955 0.801493 0.492402 2.718

europas ||| in europe ||| 0.0251019 0.066211 0.0342506 0.0079563 2.718

in der europaeischen union ||| in europe ||| 0.018451 0.00100126 0.0319584 0.0196869 2.718

in europa , ||| in europe ||| 0.011371 0.207955 0.207843 0.492402 2.718

europaeischen ||| in europe ||| 0.00686548 0.0754338 0.000863791 0.046128 2.718

im europaeischen ||| in europe ||| 0.00579275 0.00914601 0.0241287 0.0162482 2.718

fuer europa ||| in europe ||| 0.00493456 0.0132369 0.0372168 0.0511473 2.718

in europa zu ||| in europe ||| 0.00429092 0.207955 0.714286 0.492402 2.718

an europa ||| in europe ||| 0.00386183 0.0114416 0.352941 0.118441 2.718

der europaeischen ||| in europe ||| 0.00343274 0.00141532 0.00099583 0.000512159 2.718

在现在的moses翻译系统中，我们计算了五种不同的翻译概率，分别是：

1.inverse phrase translation probability反向短语概率φ(f|e)

2.inverse lexical weighting反向词汇权重lex(f|e)

3.direct phrase translation probability正向短语翻译概率φ(e|f)

4.direct lexical weighting正向词汇权重lex(e|f)

5.phrase penalty短语惩罚度(always exp(1)=2.718)

默认的情况下我们会使用到上述5中概率，但是也许你只想使用上述概率中的一部分，这样的话，可以通过以下的参数来作调整：

· NoLex -- do not use lexical scores (removes score 2 and 4)

· OnlyDirect -- do not use the inverse scores (removes score 1 and 2)

· NoPhraseCount -- do not use the phrase count feature (removes score 5)

这在训练的时候，在调用train-model.perl后添加-score-options调用上述参数可以做到：

train-model.perl [... other settings ...] -score-options '--NoLex'

K8S部署DevOps自动化运维平台元气满满的热码式运维 kubernetes devops
持续集成（CI）持续集成强调开发人员提交了新代码之后，立刻自动的进行构建、（单元）测试。根据测试结果，我们可以确定新代码和原有代码能否正确地集成在一起。持续集成过程中很重视自动化测试验证结果，对可能出现的一些问题进行预警，以保障最终合并的代码没有问题。常见的持续集成工具：Jenkins：Jenkins是用Java语言编写的，是目前使用最多和最受欢迎的持续集成工具，使用Jenkins，可以自动监测到
二、机器学习模型评估与选择没见过西瓜嘛机器学习学习笔记机器学习人工智能数据分析
机器学习模型评估与选择学习笔记一、核心概念1.1经验误差与过拟合误差相关定义错误率与精度：分类错误样本数占样本总数比例为错误率E=a/mE=a/mE=a/m，精度=1-错误率。训练误差与泛化误差：学习器在训练集上误差为训练误差（经验误差），在新样本上误差为泛化误差，泛化误差越小越好。过拟合与欠拟合过拟合：学习器把训练样本学得“太好”，将训练样本特点当作所有样本一般性质，导致泛化性能下降。欠拟合：学
AI语言模型竞争加剧：新秀崛起格局生变 XianxinMao 人工智能语言模型自然语言处理
标题：AI语言模型竞争加剧：新秀崛起格局生变文章信息摘要：AI语言模型领域呈现加速发展和分化态势。在LMSYS排行榜上，Claude3Opus超越GPT-4Turbo，DBRX超越Mixtral成为最佳开源模型，显示领先位置更替频繁。开源与闭源模型形成差异化发展路径：开源模型注重效率和架构创新，闭源API模型专注高端性能。模型训练成本呈现类摩尔定律式下降，每年降低75%。MoE架构在计算效率和性能
深度学习——模型过拟合和欠拟合的原因及解决方法发呆小天才O.o 深度学习深度学习人工智能
一、定义1.过拟合（Overfitting）过拟合是指模型在训练数据上表现非常好，但在测试数据或新的数据上表现很差的现象。模型过度地学习了训练数据中的细节和噪声，以至于它无法很好地泛化到未见过的数据。例如，在一个图像分类任务中，过拟合的模型可能对训练集中的每一张图像的特定细节（如某张猫图片背景中的一个小污点）都学习得过于精细，以至于在测试集中，只要图像背景稍有不同，就无法正确分类。2.欠拟合（Un
【架构】高可用：热备和冷备以及双活 LeonNo11 架构架构
热备与冷备技术培训文档1.引言作为一名架构师，了解并掌握热备和冷备技术至关重要。本培训文档旨在为您提供关于热备和冷备技术的全面培训，帮助您更好地理解和应用这些技术。2.背景与需求（Why）2.1热备与冷备的定义热备：指在实时数据备份过程中，备份数据库与主数据库同时运行，备份数据库与主数据库实时同步，一旦主数据库发生故障，备份数据库可以立即接管，确保业务的连续性。冷备：指在非实时数据备份过程中，备份
使用anyNA函数判断data.table中是否存在缺失值独行侠WU R语言
在R语言中，data.table是一种强大的数据处理工具，常用于处理大型数据集。在数据分析和清洗过程中，经常需要检查数据是否存在缺失值。本文将介绍如何使用anyNA函数来判断data.table中是否存在缺失值，并提供相应的源代码示例。首先，我们需要确保已经安装并加载了data.table包。可以使用以下代码进行安装和加载：#安装data.table包install.packages("data.
Python从0到100（四十）：Web开发简介-从前端到后端（文末免费送书）是Dream呀 python 前端开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
实战案例—encrypt靶场（AES固定key篇）爬虫使者爬虫的道德修养 javascript 前端安全密码学矩阵爬虫后端
看前须知本文内容需要有一定前端编程基础。在前端开发中，数据的安全性始终是一个重要的议题，特别是在处理用户敏感信息时，如姓名、电话、密码等。为了确保这些数据在传输过程中的安全性，前端加密技术显得尤为重要。其中，AES（AdvancedEncryptionStandard，高级加密标准）加密以其高效和安全性，成为前端加密的常用手段。本文将通过案例演示如何破解前端使用AES加密数据。一、AES加密简介A
【路径规划】基于D*算法的移动机器人路径规划（Matlab代码实现）荔枝科研社算法 matlab 人工智能
欢迎来到本博客❤️❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。目录1概述2A*算法‍3运行结果4参考文献‍5Matlab代码实现1概述智能导航是移动机器人的关键技术，在移动机器人的应用研究中具有重要地位1。导航主要由构建地图、定位和路径规划三部分构成。.地图构建是指移动机器人根据自身传感器感知周围的环境信息,建立其工作环境模型的过程;定位是指
【TVM 教程】线性和递归核
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen下面介绍如何在TVM中进行递归计算（神经网络中的典型模式）。from__future__importabsolute_import,print_functionimporttvmimporttvm.testing
如何使用Flask编写一个网站 Tech Synapse flask python 后端
使用Flask编写一个网站是一个相对简单且有趣的过程。Flask是一个用Python编写的轻量级Web应用框架。它易于上手，同时也非常强大，适合构建从简单的博客到复杂的Web应用的各种项目。以下是一个使用Flask编写简单网站的指南，包括代码示例。一、如何使用Flask编写一个网站（一）安装Flask首先，我们需要确保我们的Python环境中安装了Flask。我们可以使用pip（Python的包管
pytorch单机多卡训练_数据并行DataParallel Major Tom _ pytorch 人工智能 python
1.单机多卡概述单卡多级的模型训练，即并行训练，可分为数据并行和模型并行两种.数据并行是指，多张GPUs使用相同的模型副本，但采用不同batch的数据进行训练.模型并行是指，多张GPUs使用同一batch的数据，分别训练模型的不同部分.2.DataParallel源码2.1需要传入的参数module(Module):被并行运算的模型device_ids=None:CUDAdevicesoutput
mysql梳理2 mysql
mysql逻辑架构最上层不是Mysql独有的，比如连接处理，授权认证，安全等等第二层核心服务功能，包括查询解析，分析，优化，缓存以及所有内置函数，存储过程，触发器，视图等都在这层实现第三层存储引擎，存储引擎API包含几十个底层函数。优化与执行：每个连接都会在mysql服务端产生一个线程（内部通过线程池管理线程），比如一个select语句进入，mysql首先会在查询缓存中查找是否缓存了这个selec
恢复搭建STANDBY-RAC细节满满 two_rain oracle 数据库 oracle
书接上回深夜一声惊雷.客户炸了群，2套数据库都由原来的RAC切换到了备库（单点），考虑业务的高可用性，因此计划恢复原来的RAC环境。首先将搭建STANDBY-RAC，然后再做一次Failover切换将STANDBY-RAC切换为主环境。切换过程：ORACLE-主备备-Failover，此次单独简述STANDBY-RAC的搭建过程。下载搭建文档：OracleRAC部署STANDBYRAC
运用python进行多任务学习过程中，手动调整权重时，如何选择项目并确定合适的权重值？大懒猫软件 python 学习 pytorch 重构
在手动调整多任务学习中不同任务的损失权重时，确定合适的权重值是一个需要细致考虑的问题。以下是一些基于最新研究和实践的方法和策略：第一部分：手动调整权重确定合适的权重值1.基于任务的重要性方法：根据任务的重要性手动分配权重。例如，如果一个任务对最终性能的影响更大，可以给予更高的权重。示例：在文本纠错任务中，检测错别字的任务可能比纠正错别字的任务更重要，因此可以给予检测任务更高的权重。2.基于损失值的
MVVM 框架结构 csdn_Damon
MVVM框架结构MVC是经典的分层结构，Model层和View层不直接通信Controller层调用网络请求，当消息响应后，将返回的结果变为model化的数据源DataSource然后Controller层将DataSource传递给ViewView拿到数据后会根据DataSource进行处理，展示界面这是经典的数据请求到展示的过程。iOS中，最常使用的是UITablview和UICollecti
编程语言中的常见Bug及解决方案编程语言bug
在编程过程中，不同语言有其独特的特性和挑战，这也导致了各种常见Bug的出现。本文将总结几种主流编程语言中的常见Bug，包括JavaScript、Python、C/C++、Java和Go，并提供相应的解决方案和案例。一、JavaScript中小数相加精度不准确的Bug在JavaScript中，进行小数相加时，由于浮点数的精度问题，可能会导致结果不准确。例如：letadd1=0.1+0.2;conso
iPaaS丨企业应用及数据集成的重要性和挑战谷云科技RestCloud iPaaS 混合集成平台数字化转型应用集成数据集成
在激烈的市场竞争中，企业服务总线和数据总线扮演着企业神经网络的角色，它们将不同的业务部门、系统以及数据紧密相连，保障信息流通无阻，实现资源的高效分配。这样的集成不仅提高了企业的运营效率，还增强了企业的适应性和创新力，使企业能够在竞争中保持领先。然而，企业在集成过程中面临着不少挑战，集成工具的选择便是其中之一。开发人员在整合不同系统时，需要面对数据格式、数据量、通信协议和架构差异等问题，选择合适的集
AI Agent的部署与运维：从开发环境到生产环境人工智能机器学习
在前面的文章中，我们讨论了AIAgent的各个模块实现。今天，我想聊聊如何把这个系统部署到生产环境。说实话，这个过程比想象的要复杂得多，因为AIAgent系统有很多特殊的运维需求。从一次部署事故说起还记得第一次部署AIAgent到生产环境时的场景：我：系统测试都通过了，可以部署了运维：好的，按常规Python应用部署（部署完成后）用户：为什么响应这么慢？监控：API费用飙升...我：...（这才发
【产品经理修炼之道】-HRP（四）：成本管理系统 xiaoli8748_软件开发产品经理产品经理
前面聊了下HRP的全面预算管理、财务管理的内容，今天接着聊HRP系列，浅谈下医院在成本核算管理信息化的内容。在介绍本篇医院成本管理之前，我们先简单了解下医院在成本管理相关的概念。什么是医院的成本？医院的成本包含哪些内容？医疗成本指医院在医疗过程中发生的支出，包括医疗支出、药品支出、其他支出与财政专项支出。其中医疗支出指医院在开展医疗业务活动中的基本工资、补助工资、其他工资、职工福利费、社会保障费、
Python 数据清洗与处理常用方法全解析请为小H留灯 python 大数据 jupyter pandas
在数据处理与分析过程中，缺失值、重复值、异常值等问题是常见的挑战。本文总结了多种数据清洗与处理方法：缺失值处理包括删除缺失值、固定值填充、前后向填充以及删除缺失率高的列；重复值处理通过删除或标记重复项解决数据冗余问题；异常值处理采用替换或标记方法控制数据质量；数据类型转换确保数据格式符合分析需求，例如转换为整数或日期类型；文本清洗包括去空格、字符替换及转换大小写等操作。此外，还介绍了数据分组统计、
PDF2WORD万能方法，如何控制Adobe dc pro，自动实现PDF转word 朴拙Python交易猿 adobe pdf word
如何用JavaScript控制AdobeDCPro来自动实现PDF转Word。首先，我需要考虑AdobeDCPro是否有公开的API或者扩展接口。我记得AdobeAcrobatProDC支持JavaScript，但主要是用于表单处理和文档操作，比如AcrobatJavaScript。不过，自动导出为Word可能需要更底层的控制。接下来，用户可能需要通过脚本来自动化这个过程。如果AdobeAcrob
docker-mirror: 简化Docker镜像管理的利器 ivwdcwso 运维 docker 容器运维镜像云原生
在当今容器化技术迅速发展的环境中,高效管理Docker镜像已成为DevOps工程师的一项关键技能。本文将为您介绍一个强大而简洁的工具-docker-mirror,它能够显著简化镜像拉取和私有仓库管理的流程。背景介绍docker-mirror是一个开源工具,旨在帮助用户轻松地拉取镜像并将其转存到私有镜像仓库中。这大大减少了重复的运维工作,提高了效率。在使用过程中,我们收到了许多用户的积极反馈和优化建
“随机森林”及“混合随机森林和多目标粒子群优化”（RF_MOPSO），以预测目标作为学习方法并分别找到多特征过程的最佳参数（Matlab代码实现）科研_研学社随机森林学习方法 matlab
欢迎来到本博客❤️❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。目录1概述2.1算例12.2算例23参考文献‍4Matlab代码实现1概述多目标优化问题普遍涉及到工程设计、生产制造、信息处理等应用领域。粒子群优化算法具有快速收敛、简单易行、并行搜索等特点，特别适合处理多目标优化问题。本文对多目标粒子群优化算法进行系统性的研究，结合随机森林的优势
【路径规划】基于D*算法的移动机器人路径规划（Matlab代码实现）梦想科研社_研学算法 matlab 人工智能
欢迎来到本博客❤️❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。目录1概述2A*算法‍3运行结果4参考文献‍5Matlab代码实现1概述智能导航是移动机器人的关键技术，在移动机器人的应用研究中具有重要地位1。导航主要由构建地图、定位和路径规划三部分构成。.地图构建是指移动机器人根据自身传感器感知周围的环境信息,建立其工作环境模型的过程;定位是指
基于OpenCV的答题卡识别系统（附全部源码） Dong__ZW opencv 人工智能计算机视觉
本项目基于Python和OpenCV图像处理库，在Windows平台下开发了一个答题卡识别系统。系统运用精巧的计算机视觉算法，实现了批量识别答题卡并将信息导出至Excel表格的功能。这一解决方案使得答题卡的判卷过程变得轻便、高效且准确。首先，我们以Python语言作为开发基础，结合OpenCV图像处理库，为系统提供了强大的图像处理和分析能力。这使得我们能够在图像中准确地定位答题卡，检测填涂区域，以
使用Python计算考试成绩的平均分嘻嘻爱编码 Python从入门到放弃 python java 前端
在教育领域，计算考试成绩的平均分是一项常见且重要的任务。Python作为一种强大的编程语言，可以简化这一过程。本文将介绍如何使用Python来计算一组考试成绩的平均分。准备成绩数据首先，我们需要一个包含学生成绩的列表。在这个例子中，我们将使用一个简单的列表来存储成绩数据。scores=[88,92,79,93,85]计算平均分接下来，我们将使用Python的内置函数sum()和len()来计算平均
基于 PyTorch 的深度学习模型开发实战一ge科研小菜鸡人工智能深度学习
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言深度学习已广泛应用于图像识别、自然语言处理、自动驾驶等领域，凭借其强大的特征学习能力，成为人工智能的核心技术之一。PyTorch作为当前流行的深度学习框架，提供了灵活的张量操作和动态计算图，便于模型的快速开发和调试。本教程将通过一个完整的深度学习模型开发流程，从数据预处理、模型构建、训练与优化、评估以及部署，帮助读者深入理解深度学习的关键技术
ERROR 1872 (HY000): Replica failed to initialize applier metadata structure from the repository 元气满满的热码式数据库 mysql
ERROR1872(HY000):Replicafailedtoinitializeappliermetadatastructurefromtherepository是MySQL数据库中的一个错误。它表示在复制过程中，从存储库初始化应用程序元数据结构时出现了问题。这个错误通常发生在MySQL复制设置中，其中一个从服务器（replica）试图从主服务器（master）获取复制数据时遇到问题。复制是一
Java将base64字符串保存为图片/图片转base64字符串摘星喵Pro java 编程技巧 web java jvm 开发语言
Base64是一组相似的二进制到文本（binary-to-text）的编码规则，使得二进制数据在解释成radix-64的表现形式后能够用ASCII字符串的格式表示出来。Base64这个词出自一种MIME数据传输编码。Base64编码普遍应用于需要通过被设计为处理文本数据的媒介上储存和传输二进制数据而需要编码该二进制数据的场景。这样是为了保证数据的完整并且不用在传输过程中修改这些数据。Base64也
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

MOSES系统训练中间过程和意义详解

你可能感兴趣的:(机器学习,机器翻译,moses,训练过程)