Percent_bigdata

百分点认知智能实验室：如何打造工业级的机器翻译

编者按
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，不同于目前的主流机器翻译，大多是基于神经机器翻译，实现单纯的机器翻译，打造兼具稳定、易用、高效并符合用户需求的工业级翻译产品，要解决很多难题，比如：文档内缩略语如何翻译？小语种低资源翻译问题如何解决？语料如何处理？
在本篇文章中，百分点认知智能实验室基于多年的经验积累，分享了百分点科技在工业级机器翻译领域的技术研究和实践成果。

随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。但各大领域的翻译需求越来越多，翻译要求也越来越高。

翻译文档越来越多
据统计，美海军“温森斯”(CG—49)导弹巡洋舰维护手册达23.5吨，仅空军F-16战斗机技术资料约750000页；F-18战斗机的技术资料有500000多页，重达1428.84kg。每天，美军官方和著名的咨询公司每天新发布的装备科技信息相关材料就超过100万页。而这些文档涉及的语种，包括最常用的英文、俄文、日文以及德文、法文、意大利文、韩文等，文档格式包括扫描版/电子版PDF、Word、Excel、PPT等，以及各种格式的图片(包括但不限于png, jpg,bmp, tiff等)，甚至手写材料。
材料内容越来越专
各大领域的翻译任务包含大量的专有词汇、缩略语，覆盖航天、电子、船舶等各个业务，谷歌、百度等通用翻译引擎无法满足装备科技信息领域内的个性化需求。同时，业务方对翻译的效果质量要求越来越高，以更准确地了解最新的科技信息。
速度要求越来越高
海量资料的快速翻译需求，对翻译速度的要求越来越快，以更及时地获取信息，支持科学决策。翻译速度不仅和硬件、软件相关，更和模型算法直接相关。在实际中，需通过模型、算法和工程层面的优化，实现翻译速度能够满足技术参数要求。
数据安全和信息安全要求不断提升
不仅需要翻译系统能够在本地化部署、本地化运维，而且需要能在本地自动化加工语料，自动化模型训练、迭代、升级。从而满足整个系统的所有核心环节都能在本地完成，形成语料生产、语料加工、模型训练、模型部署、模型运维的闭环，而不需要相关敏感的业务数据离开本地环境；同时，针对用户自身的特定需求，可以更及时、自动地完成优化和升级，从而提高翻译的效果。
百分点智能翻译系统正是为了应对以上“多、专、快、高”的紧迫需求而产生的。
一、机器翻译发展及Transformer介绍
机器翻译发展
机器翻译技术在近几十年的发展中经历三个主要阶段，依次是基于规则的机器翻译、基于统计的机器翻译和神经机器翻译。基于规则的机器翻译需要人工书写翻译规则，代价过高，并且伴随翻译失败的可能；基于统计的机器翻译完全由数据驱动机器学习，但用短语拼接翻译的基本思想使长句翻译品质不佳，并且带有先验假设。目前主流的机器翻译方法为神经机器翻译，翻译的知识和参数由神经网络自动学习，避免了传统方法的人工干预模块带来的偏差，而且直接把整个句子转化为向量进行翻译，使得模型的特征表示能力更强。

图1.机器翻译的发展
神经机器翻译始于2013年提出的Encoder-Decoder框架，在发展的过程中，大部分模型由RNN结构组成，RNN的序列特性利于自然语言建模的同时也带来无法高效并行化的弊端。2015年Attention概念的提出使得机器翻译的品质大幅度提升，2017年谷歌在此基础上提出的Transformer模型成为当今神经机器翻译模型的基石。

图2.神经机器翻译的发展
2. Transformer结构
Transformer的本质是一个带有自注意力机制的Encoder-Decoder结构，具体结构如图所示。从整体上看，左半部分为Encoder编码器，右半部分为Decoder解码器。编码器读取源语言句子并编码成固定长度的向量，然后解码器将向量解码并生成对应的目标语言翻译。

图3.Transformer整体结构
编码端和解码端分别由6层结构相同的EncoderLayer和结构相同的Decoder Layer堆叠而成。Encoder和Decoder之间的连接方式为：Inputs经过各层Encoder Layer作用后的输出序列作为Encoder的最终结果，分别输入各层Decoder Layer。

图4.Transformer编码端解码端整体结构
具体每个EncoderLayer由2个sub-layers组成，依次为编码器多头自注意力（图左Encoder中的self-attention）、前馈网络（Feed Forward）；每个DecoderLayer由3个sub-layers组成，依次为解码器多头自注意力（图右Decoder中的self-attention）、编码器解码器多头自注意力（Encoder-DecoderAttention）和前馈网络（Feed Forward）。

图5.单层EncoderLayer-Decoder Layer结构
下面将详细介绍各个子结构。
2.1 多头自注意力机制
Transformer的核心在于多头自注意力机制，分为点积注意力计算和多头注意力两大步骤。
（1）点积注意力
点积注意力函数有3个输入：Q（请求（query））、K（主键（key））、V（数值（value））。出现在编码器或解码器中不同的注意力计算时，Q,K,V的表示也有所不同：
在编码器自注意力中，Q=K=V，均是编码端各个位置的表示，来自编码器前一层的输出，使得编码器中的每个位置都可以关注编码器上一层的所有位置；
在解码器中的第一个sublayer自注意力中，Q=K=V，均是解码端各个位置的表示，使得解码器中的每个位置可以关注解码器中直到并包括该位置的所有位置；
在解码器中的第二个sublayer编码器-解码器注意力中，Q来自解码器的上一个sublayer，是解码端各个位置的表示，K=V，来自编码器的最终输出，是编码端各个位置的表示，使得解码器中的每个位置能关注到输入序列中的所有位置。

图6.Transformer的三种自注意力
点积注意力具体计算公式如下：

第一步，对和的转置进行点乘操作。此为利用点积的方式计算相关性系数，表示一个序列上任意两个位置的相关性。
第二步，通过系数

进行放缩操作，防止过大的输入进入Softmax函数的饱和区造成梯度过小等问题。
第三步，与掩码矩阵相加，从而对句子序列中Padding的位置屏蔽，以及解码器自注意力中需额外对目标语言序列未来位置的信息进行屏蔽。
第四步，使用Softmax函数对相关性矩阵在行的维度上进行归一化操作，结果对应中的不同位置上向量的注意力权重。
第五步，和进行矩阵乘法，即对Value加权求和。
（2）多头注意力

图7.点乘注意力
2.2 前馈神经网络
该网络独立且相同的应用于每个编码层及解码层的最后一个子层，包含两个线性变换，中间有一个ReLU激活函数。
2.3 残差正则化
为防止梯度消失或者梯度爆炸并加快模型收敛，在每个子层均使用残差链接和层归一化操作：( + ())
2.4 位置编码
为捕捉句子序列的位置顺序信息，将编码端输入的InputEmbedding、解码端输入的OutputEmbedding均与位置编码的对应位置嵌入相加。

其中为位置，为维度。
以上是对Transformer结构的介绍。
2.5 创新点总结
Transformer的创新点在于提出的自注意力机制。
第一，不采用RNN和CNN的结构，具有并行运算的能力，体现在编码器的所有词向量以矩阵的形式并行进行注意力计算，改进了此前RNN最被人诟病的训练慢的缺点。
第二，在计算复杂度方面，Self-Attention层将所有位置连接到恒定数量的顺序操作，而循环层需要O(n) 顺序操作。对于每层复杂度，当序列长度n 小于表示维度d 时，自注意力层比循环层快。
表1.不同图层类型最大路径长度、复杂度、最少顺序操作数对比表

其中，n为序列的长度，d为表示的维度，k为卷积的核的大小，r为受限self-attention中邻域大小.
第三，多头自注意力机制使得Transformer可以学习到丰富的上下文信息。由于自注意力的计算直接将句子中任意两个单词的关系通过同一种操作（Query和Key的相关度）处理，将信息传递的距离拉近为1，所以可以更好的捕获远距离依赖的特征，如：同一个句子中单词之间的句法特征，包含指代关系的语义特征等。同时，多头机制将模型分为多个头，分别在不同的表示子空间学习，使得模型在各个子空间关注不同方面的信息，有的头可以捕捉句法信息，有头可以捕捉词法信息，最后综合得到更丰富全面的信息。

图8.捕捉语法信息

图9.捕捉语义信息
另一方面，Transformer可以增加到非常深的深度，使得表层的词法信息随着模型的逐步加深组合为更加抽象的语义信息。Transformer充分发掘DNN模型的特性，为模型准确率带来提升，这也是其性能优越的原因之一。
二、百分点科技智能翻译实践

产品逻辑架构

图10.产品逻辑架构图
下面详细阐述各个逻辑层及其子层。
1.1 语料仓库
该层包括语料收集、语料清洗、质量评测、语料入库四个子层次。其中：
语料收集：机器翻译模型的效果同训练语料数量成正相关。为了充分发掘自有数据的价值，并灵活应对未来的个性化挑战，我们必须持续收集各类语料库。百分点科技在国内外多语言舆情分析、文本分析、机器翻译的项目中，积累了大量的多语言语料，为机器翻译的效果奠定了坚实的数据基础。
语料清洗：语料清洗是举足轻重的关键步骤，它决定着一个好的模型训练难易程度，也是决定特定领域模型效果好坏的又一重大因素。语料质量越高模型翻译效果越好。对收集来的语料要经过诸如长度失衡处理、杂质识别去除、语种识别、标点符号对齐等步骤处理。
质量评测：为使模型效果更专业、更符合特定领域场景。我们需要质量评测来选取高质量语料作为模型训练数据。对于清洗好的语料要进行质量评测，便于优化调整语料清洗步骤，通常这些评测手段包括：词法分析、句法分析、SMT校验以及人工校验等。
语料入库：为适应特定领域语言规律的发现、规则的制订与挖掘、语言知识的发现等深层次研究，需要质量评估合格的语料录入到数据库中，便于后续对语料进行智能检索、版本管理、多维分类、质量评级等多种操作。
1.2 模型工程
模型工程是翻译系统的核心处理功能。包括主流语言翻译模型的构建、训练及针对特定问题的优化。
主流语言翻译：为满足各大领域对非结构化文档数据的高质量翻译要求，我们构建先进的深度神经网络Transformer结构作为翻译模型，并通过回译等方式提升翻译效果。模型效果的提升，也是翻译产品专业化的保证。
小语种翻译：在各类翻译场景中，也存在对小语种的需求，对此我们的解决方式是：无监督学习方法、跨语言学习翻译等。
特定问题优化：为适应特定领域场景，我们需要针对性优化翻译模型效果。对这些特定问题归类，解决方式如：实体校正、术语干预、数词量词校正、漏译补全等。
速度优化：为更广范围地获取最新态势，及时响应特定领域场景翻译需求，我们需要对模型翻译进行速度优化。优化包括如：减少浮点数精度，模型压缩等。
1.3 服务架构
在应用服务部署的方式上，我们采用Nginx+ Tornado + RabbitMQ，简单快速部署模型。在对外访问接口的方式上，我们采用RESTAPI提供高效、标准的服务调用方式。接口按照协议类型来看，可以包括但不限于HTTP。
1.4 功能应用
功能应用即客户终端，这里将客户终端划分为翻译终端和管理终端。翻译终端为用户（游客、注册用户）提供文本及文档翻译服务；管理终端为注册用户提供词库管理、句库管理、任务管理、工具箱、权限管理等相应服务。
2. 语料搜集及处理
2.1 语料搜集及产生来源
训练语料是模型的基础，此外翻译模型效果还依赖于语料的质量和分布，因此我们在语料收集阶段在保证语料规模的同时平衡经济、政治、科技、生活、文化等各大领域的比例，使训练语料尽可能覆盖实际使用中的语言场景。
语料收集渠道包括：
在业务中积累的双语数据；
公开供研究使用的数据集；
网络爬取，新闻、字幕、例句等；
语料商城购买；
双语书籍的计算机辅助和人工对齐等。
除了获取全世界互联网上开放的语料库资源，开发团队设计一种从电子文档中的单边语料构建领域平行语料的模型与工具，可较为高效地构建高质量的行业领域平行语料支撑模型训练。百分点认知智能实验室团队提出通过给译文分类的方式学习语义相似性：给定一对双语文本输入，设计一个可以返回表示各种自然语言关系（包括相似性和相关性）的编码模型。利用这种方式，模型训练时间大大减少，同时还能保证双语语义相似度分类的性能。由此，实现快速的双语文本自动对齐，构建十亿级平行语料。
2.2 语料对齐和管理
在语料库建设过程中，需要充分利用自然语言处理以及相关技术开发语料库自动加工工具，提高语料库对齐建设效率，提升平行语料质量，提高语料库规模。
百分点智能翻译系统，可以对语料进行全流程科学管理，从而支撑模型的本地化、个性化训练和升级，及时提高翻译效果。
语料库自动加工工具系统涵盖从语料的OCR、转换、清洗、对齐、校对、标签、管理、检索、分析、训练等多个子系统。
2.3 语料处理
神经机器翻译需要大量的训练语料，这些语料来源范围广，格式种类多，所以数据处理的第一步是将不同来源不同格式的数据统一处理，合并多源数据。
与统计机器翻译一样，神经机器翻译也需要对输入和输出的句子进行分词，目的是得到翻译的最基本单元。但是，这里所说的单词并不是语言学上的单词，更多的是指面向机器翻译任务的最小翻译片段。
自然语言的表达非常丰富，因此需要很多的单词才能表达不同的语义。但是，神经机器翻译系统对大词表的处理效率很低，比如，输出层在大规模词表上进行预测会有明显的速度下降，甚至无法进行计算。因此，在神经机器翻译中会使用受限的词表，比如包含30000-50000个单词的词表。另一方面，翻译新的句子时，受限词表会带来大量的未登录词(Outof Vocabulary Word，OOV Word)，系统无法对其进行翻译。产生未登录词一方面的原因是词表大小受限，另一方面的原因在于分词的颗粒度过大。对于后者，一种解决方法是进一步对“单词”进行切分，以得到更小的单元，这样可以大大缓解单词颗粒度过大造成的数据稀疏问题。这个过程通常被称作子词切分(Sub-wordSegmentation)。以BPE为代表的子词切分方法已经成为了当今神经机器翻译所使用的标准方法，翻译效果显著超越基于传统分词的系统。
此外，机器翻译依赖高质量的训练数据。在神经机器翻译时代，模型对训练数据很敏感。由于神经机器翻译的模型较为复杂，因此数据中的噪声会对翻译系统产生较大的影响。特别是在实际应用中，数据的来源繁杂，质量参差不齐。因此，往往需要对原始的训练集进行标准化(Normalization)和数据清洗(DadaCleaning)，从而获得高质量的双语数据用于模型训练。
以上这些内容统称为数据处理。下图展示了百分点智能翻译系统数据处理流程，主要步骤包括分词、标准化、数据过滤和子词切分。

图11.机器翻译数据处理流程
3. 模型训练
Transformer的训练流程：首先对模型进行初始化，然后在编码器输入包含结束符的源语言单词序列。解码端每个位置单词的预测都要依赖已经生成的序列。在解码端输入包含起始符号的目标语序列，通过起始符号预测目标语的第一个单词，用真实的目标语的第一个单词去预测第二个单词，以此类推，然后用真实的目标语序列和预测的结果比较，计算它的损失。Transformer使用了交叉熵损失(CrossEntropy Loss)函数，损失越小说明模型的预测越接近真实输出。然后利用反向传播来调整模型中的参数。由于Transformer将任意时刻输入信息之间的距离拉近为1，摒弃了RNN中每一个时刻的计算都要基于前一时刻的计算这种具有时序性的训练方式，因此Transformer中训练的不同位置可以并行化训练，大大提高了训练效率。
需要注意的是，Transformer包含很多工程方面的技巧。首先，在训练优化器方面，需要注意以下几点：Transformer使用Adam优化器优化参数；Transformer在学习率中同样应用了学习率预热(Warm_up)策略。
另外，Transformer为了提高模型训练的效率和性能，还进行了以下几方面的操作：
小批量训练(Mini-batchTraining):每次使用一定数量的样本进行训练，即每次从样本中选择一小部分数据进行训练。这种方法的收敛较快，同时易于提高设备的利用率。每一个批次中的句子并不是随机选择的，模型通常会根据句子长度进行排序，选取长度相近的句子组成一个批次。这样做可以减少padding数量，提高训练效率。
Dropout：由于Transformer模型网络结构较为复杂，会导致过度拟合训练数据，从而对未见数据的预测结果变差。这种现象也被称作过拟合(OverFitting)。为了避免这种现象，Transformer加入了Dropout操作。Transformer中这四个地方用到了Dropout：词嵌入和位置编码、残差连接、注意力操作和前馈神经网络。
标签平滑(LabelSmoothing)：在计算损失的过程中，需要用预测概率去拟合真实概率。在分类任务中，往往使用One-hot向量代表真实概率，即真实答案位置那一维对应的概率为1，其余维为0，而拟合这种概率分布会造成两个问题：
无法保证模型的泛化能力，容易造成过拟合；
概率值0和1鼓励所属类别和其他类别之间的差距尽可能加大，会造成模型过于相信预测的类别。
因此Transformer里引入标签平滑来缓解这种现象，简单的说就是给正确答案以外的类别分配一定的概率，而不是采用非0即1的概率。这样，可以学习一个比较平滑的概率分布，从而提升泛化能力。
4. 翻译效果
4.1 低资源翻译优化
机器翻译依赖于大量高质量的平行语料，然而对于小语种，存在数据量小，平行语料难以搜集问题。针对数据稀疏问题，百分点科技使用了回译来进行语料扩充，进而提高翻译效果。以日中模型为例，通过回译方法，将原有的3308万平行语料扩充到6700万语料左右，然后再训练。通过此种方式，中日方向bleu较通过英文作为中间语言方式提升了10.4，日中方向bleu提升了12.5，对比结果如下表。
表2.两个方向BLEU和公司A对比表

4.2 术语翻译优化
翻译过程中，越来越多的笔译工作者选择调用和参考机器翻译结果，并在机翻译文的基础上进行编辑修改。这种新型翻译模式就是MTPE（机器翻译+译后编辑），能够有效提升翻译效率。不过，常有译员被机翻译文里不准确的术语翻译“拖了后腿”。每当发现机翻译文与给定术语、常用译法或专有名词不一致时，译员都要花费大量时间手动查找替换，十分麻烦。
术语干预功能可以提高公司名称、品牌名称、行业缩写等术语机翻结果的准确度，减轻译者手动填充术语的负担。机器翻译+术语干预的翻译新模式有效确保了译文表达的一致性，大大提升了译员和审校的工作效率和翻译质量。
百分点智能翻译系统对文档内缩略语动态提取，然后以缩略语+全称形式翻译出来，效果如下图：

图12.百分点智能翻译系统缩略语翻译示例图
4.3 百分点翻译效果
表3.百分点智能翻译系统评测BLEU得分表

翻译特色
百分点智能翻译系统经过迭代打磨，积累了以下6大特色：
支持涵盖中文、英文、俄文、法文、西班牙文、阿拉伯文、德文、日文、韩文等多语种互译。
具有文档翻译、文本翻译、文档转换、图表提取等四大功能。
混合语言翻译。支持混合语种文档的自动识别和翻译，即上传混合语种文档，翻译为指定语言的译文。
术语干预翻译。系统支持词库、句库、缩略语库干预神经机器翻译结果。
缩略语自动识别。支持对文档中缩略语的自动识别、提取匹配和智能翻译，即文档中某一处出现了缩略语的简写以及对应的全文，在其他仅出现缩略语的地方也能给出缩略语对应全文的译文。
支持本地化和saas部署。

三、结束语
机器翻译算法发展非常快，随着全球信息交流的加快，要求翻译形态更趋于多元化，人们对于翻译效果要求越来越高。百分点科技将在机器翻译效果优化上持续发力，尝试融合语音、图像的多模态翻译、元学习、迁移学习等方法，追踪前沿技术，践行用认知智能技术服务社会发展的使命。

参考资料
[1]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neuralnetworks[C]//Advances in neural information processing systems. 2014.
[2]Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translationby jointly learning to align and translate. CoRR, abs/1409.0473, 2014.
[3]Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representationsusing RNN encoder-decoder for statistical machine translation[J]. arXiv, 2014.
[4]Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, WolfgangMacherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’sneural machine translation system: Bridging the gap between human and machinetranslation. arXiv preprint arXiv:1609.08144, 2016.
[5]Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin.Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2,2017.
[6]Ashish Vaswani, Noam Shazeer, Niki Parmar,Jakob Uszkoreit, Llion Jones, Aidan N Gomez, L ukasz Kaiser, and IlliaPolosukhin. Attention is all you need. In Advances in neural informationprocessing systems, pages 5998–6008, 2017.
[7]肖桐, 朱靖波. 机器翻译统计建模与深度学习方法.
[8]Vaswani A , Shazeer N , Parmar N , et al.Attention Is All You Need[J]. arXiv, 2017.

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

百分点认知智能实验室：如何打造工业级的机器翻译

你可能感兴趣的:(机器翻译,大数据,机器学习,深度学习,数据挖掘)