飞桨PaddlePaddle

一文读懂最强中文NLP预训练模型ERNIE

，基于飞桨开源的持续学习的语义理解框架ERNIE 2.0，及基于此框架的ERNIE 2.0预训练模型，在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。本文带你进一步深入了解ERNIE的技术细节。

一：ERNIE 简介

1.1 简介

Google 最近提出的 BERT 模型，通过随机屏蔽15%的字或者word，利用 Transformer 的多层 self-attention 双向建模能力，在各项nlp 下游任务中(如 sentence pair classification task，singe sentence classification task，question answering task) 都取得了很好的成绩。但是，BERT 模型主要是聚焦在针对字或者英文word粒度的完形填空学习上面，没有充分利用训练数据当中词法结构，语法结构，以及语义信息去学习建模。比如 “我要买苹果手机”，BERT 模型将 “我”，“要”， “买”，“苹”， “果”，“手”， “机” 每个字都统一对待，随机mask，丢失了“苹果手机” 是一个很火的名词这一信息，这个是词法信息的缺失。同时我 + 买 + 名词是一个非常明显的购物意图的句式，BERT 没有对此类语法结构进行专门的建模，如果预训练的语料中只有“我要买苹果手机”，“我要买华为手机”，哪一天出现了一个新的手机牌子比如栗子手机，而这个手机牌子在预训练的语料当中并不存在，没有基于词法结构以及句法结构的建模，对于这种新出来的词是很难给出一个很好的向量表示的，而ERNIE 通过对训练数据中的词法结构，语法结构，语义信息进行统一建模，极大地增强了通用语义表示能力，在多项任务中均取得了大幅度超越BERT的效果!!

1.2 下载地址（这么好用的模型赶紧下载起来吧！）

ERNIE 的Fine-tuning代码和英文预训练模型已通过飞桨开源

Github 地址：

https://github.com/PaddlePaddle/ERNIE

二：ERNIE 详解

2.1 ERNIE 结构

2.1.1 ERNIE 初探

2.1.1 ERNIE 结构详解

Figure 2:ERNIE 的encoder 结构详解

相比transformer，ERNIE 基本上是 transformer 的encoder 部分，并且encoder 在结构上是全部一样的，但是并不共享权重，具体区别如下:

Transformer: 6 encoder layers, 512 hidden units, 8 attention heads
ERNIE Base: 12 encoder layers, 768 hidden units, 12 attention heads
ERNIE Large: 24 encoder layers,1024 hidden units, 16 attention heads

从输入上来看第一个输入是一个特殊的CLS， CLS 表示分类任务就像 transformer 的一般的encoder， ERINE 将一序列的words 输入到encoder 中。每层使用self-attention， feed-word network，然后把结果传入到下一个encoder。

2.1.2 ERNIE encoder 说明

encoder

encoder 由两层构成, 首先流入self-attention layer，self-attention layer 输出流入 feed-forward 神经网络。至于self-attention的结构，我们在这里不再展开，有兴趣的同学可以进入以下链接仔细阅读http://jalammar.github.io/illustrated-transformer/，来进一步了解self-attention的结构!!

Figure 3: encoder 结构详解

embedding

最下层的encoder的输入是embedding的向量, 其他的encoder的输入，便是更下层的encoder的输出，一般设置输入的vectors 的维度为512，同学们也可以自己设置。

Figure 4: encoder 结构详解

2.2 : ERNIE 1.0 介绍

相比于BERT， ERNIE 1.0 改进了两种 masking 策略，一种是基于phrase (在这里是短语比如 a series of, written等)的masking策略，另外一种是基于 entity(在这里是人名、位置、组织、产品等名词，比如Apple, J.K. Rowling)的masking 策略。在ERNIE 当中，将由多个字组成的phrase 或者entity 当成一个统一单元，相比于bert 基于字的mask，这个单元当中的所有字在训练的时候，统一被mask。对比直接将知识类的query 映射成向量然后直接加起来，ERNIE 通过统一mask的方式可以潜在地学习到知识的依赖以及更长的语义依赖来让模型更具泛化性。

Figure 5: ERNIE 1.0 不同的mask 策略说明

2.3: ERNIE 2.0 介绍

传统的pre-training 模型主要基于文本中words 和 sentences 之间的共现进行学习。事实上，训练文本数据中的词法结构、语法结构、语义信息也同样是很重要的。在命名实体识别中人名、机构名、组织名等名词包含概念信息对应了词法结构，句子之间的顺序对应了语法结构，文章中的语义相关性对应了语义信息。为了去发现训练数据中这些有价值的信息，在ERNIE 2.0 中，提出了一个预训练框架，可以在大型数据集合中进行增量训练。

Figure 6: ERNIE 2.0 框架

2.3.1 ERNIE 2.0 结构

ERNIE 2.0 中有一个很重要的概念便是连续学习(Continual Learning)，连续学习的目的是在一个模型中顺序训练多个不同的任务，以便在学习下个任务当中可以记住前一个学习任务学习到的结果。通过使用连续学习，可以不断积累新的知识，模型在新任务当中可以用历史任务学习到参数进行初始化，一般来说比直接开始新任务的学习会获得更好的效果。

a: 预训练连续学习

ERNIE 的预训练连续学习分为两步，首先，连续用大量的数据与先验知识连续构建不同的预训练任务。其次，不断的用预训练任务更新ERNIE 模型。

对于第一步，ERNIE 2.0 分别构建了词法级别，语法级别，语义级别的预训练任务。所有的这些任务，都是基于无标注或者弱标注的数据。需要注意的是，在连续训练之前，首先用一个简单的任务来初始化模型，在后面更新模型的时候，用前一个任务训练好的参数来作为下一个任务模型初始化的参数。这样不管什么时候，一个新的任务加进来的时候，都用上一个模型的参数初始化保证了模型不会忘记之前学习到的知识。通过这种方式，在连续学习的过程中，ERNIE 2.0 框架可以不断更新并记住以前学习到的知识可以使得模型在新任务上获得更好的表现。我们在下面的e, f, g 中会具体介绍ERNIE 2.0 构建哪些预训练任务，并且这些预训练任务起了什么作用。

在图7中，介绍了ERNIE2.0连续学习的架构。这个架构包含了一系列共享文本encoding layers 来 encode 上下文信息。这些encoder layers 的参数可以被所有的预训练任务更新。有两种类型的 loss function，一种是sequence level 的loss，一种是word level的loss。在ERNIE 2.0 预训练中，一个或多个sentence level的loss function可以和多个token level的loss functions 结合来共同更新模型。

Figure 7: ERINE 2.0 连续学习流程

b: encoder

ERNIE 2.0 用了我们前文提到的transformer 结构encoder，结构基本一致，但是权重并不共享。

c: task embedding.

ERNIE 2.0 用了不同的task id 来标示预训练任务，task id 从1 到N 对应下面的e, f ,g中提到的预训练任务。对应的token segment position 以及task embedding 被用来作为模型的输入。

Figure 8: ERNIE 2.0 连续学习详解

e: 构建词法级别的预训练任务，来获取训练数据中的词法信息

1: knowledge masking task，即 ERNIE 1.0 中的entity mask 以及 phrase entity mask 来获取phrase 以及entity的先验知识，相较于 sub-word masking, 该策略可以更好的捕捉输入样本局部和全局的语义信息。

2: Capitalization Prediction Task，大写的词比如Apple相比于其他词通常在句子当中有特定的含义，所以在ERNIE 2.0 加入一个任务来判断一个词是否大写。

3: Token-Document Relation Prediction Task，类似于tf-idf，预测一个词在文中的A 段落出现，是否会在文中的B 段落出现。如果一个词在文章当中的许多部分出现一般就说明这个词经常被用到或者和这个文章的主题相关。通过识别这个文中关键的的词, 这个任务可以增强模型去获取文章的关键词语的能力。

f: 构建语法级别的预训练任务，来获取训练数据中的语法信息

1: Sentence Reordering Task，在训练当中，将paragraph 随机分成1 到m 段，将所有的组合随机shuffle。我们让pre-trained 的模型来识别所有的这些segments正确的顺序。这便是一个k 分类任务

通常来说，这些sentence 重排序任务能够让pre-trained 模型学习到document 中不同sentence 的关系。

2: Sentence Distance Task，构建一个三分类任务来判别句子的距离，0表示两个句子是同一个文章中相邻的句子，1表示两个句子是在同一个文章，但是不相邻，2表示两个句子是不同的文章。通过构建这样一个三分类任务去判断句对 (sentence pairs) 位置关系 (包含邻近句子、文档内非邻近句子、非同文档内句子 3 种类别)，更好的建模语义相关性。

g:构建语义级别的预训练任务，来获取训练数据中的语义任务

1: Discourse Relation Task，除了上面的distance task，ERNIE通过判断句对 (sentence pairs) 间的修辞关系 (semantic & rhetorical relation)，更好的学习句间语义。

2: IR Relevance Task，在这里主要是利用baidu 的日志来获取这个关系，将query 作为第一个sentence，title 作为第二个 sentence。0 表示强关系， 1 表示弱关系，2表示无关系，通过类似google-distance 的关系来衡量两个query之间的语义相关性，更好的建模句对相关性。

三: 代码梳理

3.1 : 预训练脚本

set -eux	
export FLAGS_eager_delete_tensor_gb=0	
export FLAGS_sync_nccl_allreduce=1

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7

python ./pretrain_launch.py  \   

          --nproc_per_node 8 \    

         --selected_gpus 0,1,2,3,4,5,6,7 \    

         --node_ips $(hostname -i) \    

         --node_id 0 \.

/train.py  --use_cuda True \                

         --is_distributed False\                

         --use_fast_executor True \                

         --weight_sharing True \                

         --in_tokens true \                

         --batch_size 8192 \                

         --vocab_path ./config/vocab.txt \               

         --train_filelist ./data/train_filelist \               

         --valid_filelist ./data/valid_filelist \                

         --validation_steps 100 \               

         --num_train_steps 1000000 \                

         --checkpoints ./checkpoints \               

         --save_steps 10000 \                

         --ernie_config_path ./config/ernie_config.json \               

         --learning_rate 1e-4 \              

         --use_fp16 false \                

         --weight_decay 0.01 \               

         --max_seq_len 512 \                

         --skip_steps 10

脚本初始化代码 pretrain_launch.py

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function

from __future__ import unicode_literals

from __future__ import absolute_import

from __future__ import division



import sys

import subprocess

import os

import six

import copy

import argparse

import time

import logging



from utils.args import ArgumentGroup, print_arguments,     prepare_logger

from pretrain_args import parser as worker_parser



# yapf: disable

parser = argparse.ArgumentParser(__doc__)

multip_g = ArgumentGroup(parser, "multiprocessing",

    "start paddle training using multi-processing mode.")

multip_g.add_arg("node_ips", str, None,

    "paddle trainer ips")

multip_g.add_arg("node_id", int, 0,

    "the trainer id of the node for multi-node distributed training.")

multip_g.add_arg("print_config", bool, True,

    "print the config of multi-processing mode.")

multip_g.add_arg("current_node_ip", str, None,

    "the ip of current node.")

multip_g.add_arg("split_log_path", str, "./log",

    "log path for each trainer.")

multip_g.add_arg("log_prefix", str, "",

    "the prefix name of job log.")

multip_g.add_arg("nproc_per_node", int, 8,

    "the number of process to use on each node.")

multip_g.add_arg("selected_gpus", str, "0,1,2,3,4,5,6,7",

    "the gpus selected to use.")

 multip_g.add_arg("training_script", str, None, "the program/script to be lauched "

    "in parallel followed by all the arguments",     positional_arg=True)

multip_g.add_arg("training_script_args", str, None,

    "training script args", positional_arg=True, nargs=argparse.REMAINDER)

# yapf: enable





log = logging.getLogger()



def start_procs(args):

procs = []

log_fns = []



default_env = os.environ.copy()



node_id = args.node_id

node_ips = [x.strip() for x in args.node_ips.split(',')]

current_ip = args.current_node_ip

if args.current_node_ip is None:

    assert len(node_ips) == 1

    current_ip = node_ips[0]

    log.info(current_ip)



num_nodes = len(node_ips)

selected_gpus = [x.strip() for x in args.selected_gpus.split(',')]

selected_gpu_num = len(selected_gpus)



all_trainer_endpoints = ""

for ip in node_ips:

    for i in range(args.nproc_per_node):

        if all_trainer_endpoints != "":

            all_trainer_endpoints += ","

        all_trainer_endpoints += "%s:617%d" % (ip, i)



nranks = num_nodes * args.nproc_per_node

gpus_per_proc = args.nproc_per_node % selected_gpu_num

if gpus_per_proc == 0:

    gpus_per_proc =  selected_gpu_num // args.nproc_per_node

else:

    gpus_per_proc =  selected_gpu_num // args.nproc_per_node + 1



log.info(gpus_per_proc)

selected_gpus_per_proc = [selected_gpus[i:i + gpus_per_proc] for i in range(0, len(selected_gpus), gpus_per_proc)]



if args.print_config:

    log.info("all_trainer_endpoints: %s"

          ", node_id: %s"

          ", current_ip: %s"

          ", num_nodes: %s"

          ", node_ips: %s"

          ", gpus_per_proc: %s"

          ", selected_gpus_per_proc: %s"

          ", nranks: %s" % (

            all_trainer_endpoints,

            node_id,

            current_ip,

            num_nodes,

            node_ips,

            gpus_per_proc,

            selected_gpus_per_proc,

            nranks))



current_env = copy.copy(default_env)

procs = []

cmds = []

log_fns = []

for i in range(0, args.nproc_per_node):

    trainer_id = node_id * args.nproc_per_node + i

    current_env.update({

        "FLAGS_selected_gpus": "%s" % ",".join([str(s) for s in selected_gpus_per_proc[i]]),

        "PADDLE_TRAINER_ID" : "%d" % trainer_id,

        "PADDLE_CURRENT_ENDPOINT": "%s:617%d" % (current_ip, i),

        "PADDLE_TRAINERS_NUM": "%d" % nranks,

        "PADDLE_TRAINER_ENDPOINTS": all_trainer_endpoints,

        "PADDLE_NODES_NUM": "%d" % num_nodes

    })



    try:

        idx = args.training_script_args.index('--is_distributed')

        args.training_script_args[idx + 1] = 'true'

    except ValueError:

        args.training_script_args += ['--is_distributed', 'true']



    cmd = [sys.executable, "-u",

           args.training_script] + args.training_script_args

    cmds.append(cmd)



    if args.split_log_path:

        fn = open("%s/%sjob.log.%d" % (args.split_log_path, args.log_prefix, trainer_id), "a")

        log_fns.append(fn)

        process = subprocess.Popen(cmd, env=current_env, stdout=fn, stderr=fn)

    else:

        process = subprocess.Popen(cmd, env=current_env)

    log.info('subprocess launched')

    procs.append(process)



try:

    for i in range(len(procs)):

        proc = procs[i]

        proc.wait()

        if len(log_fns) > 0:

            log_fns[i].close()

        if proc.returncode != 0:    

            raise subprocess.CalledProcessError(returncode=procs[i].returncode,

                                                cmd=cmds[i])

        else:

            log.info("proc %d finsh" % i)

except KeyboardInterrupt as e:

    for p in procs:

        log.info('killing %s' % p)

        p.terminate()





def main(args):

    if args.print_config:

        print_arguments(args)

    start_procs(args)





if __name__ == "__main__":

    prepare_logger(log)

    lanch_args = parser.parse_args()

    pretraining_args = worker_parser.parse_args(

            lanch_args.training_script_args)



    init_path = pretraining_args.init_checkpoint

    if init_path and not pretraining_args.use_fp16:

        os.system('rename .master "" ' + init_path + '/*.master')

    main(lanch_args)

训练代码 train.py

#   Copyright (c) 2019 PaddlePaddle Authors. All Rights Reserved.

#

# Licensed under the Apache License, Version 2.0 (the "License");

# you may not use this file except in compliance with the License.

# You may obtain a copy of the License at

#

#     http://www.apache.org/licenses/LICENSE-2.0

#

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

"""ERNIE pretraining."""

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function

from __future__ import unicode_literals

from __future__ import absolute_import



import os

import time

import multiprocessing

import logging



import numpy as np

import paddle.fluid as fluid



from reader.pretraining import ErnieDataReader

from model.ernie_v1 import ErnieModel, ErnieConfig

from optimization import optimization

from utils.args import print_arguments, check_cuda, prepare_logger

from utils.init import init_checkpoint, init_pretraining_params



from pretrain_args import parser



log = logging.getLogger()

args = parser.parse_args()



# yapf: enable.





def create_model(pyreader_name, ernie_config):

    pyreader = fluid.layers.py_reader(

        capacity=70,

        shapes=[[-1, args.max_seq_len, 1], [-1, args.max_seq_len, 1],

                [-1, args.max_seq_len, 1], [-1, args.max_seq_len, 1], [-1, 1],

                [-1, 1], [-1, 1]],

        dtypes=[

            'int64', 'int64', 'int64', 'float32', 'int64', 'int64', 'int64'

        ],

        lod_levels=[0, 0, 0, 0, 0, 0, 0],

        name=pyreader_name,

        use_double_buffer=True)



    (src_ids, pos_ids, sent_ids, input_mask, mask_label, mask_pos,

     labels) = fluid.layers.read_file(pyreader)



    ernie = ErnieModel(

        src_ids=src_ids,

        position_ids=pos_ids,

        sentence_ids=sent_ids,

        input_mask=input_mask,

        config=ernie_config,

        weight_sharing=args.weight_sharing,

        use_fp16=args.use_fp16)



    next_sent_acc, mask_lm_loss, total_loss = ernie.get_pretraining_output(

        mask_label, mask_pos, labels)



    return pyreader, next_sent_acc, mask_lm_loss, total_loss



def predict_wrapper(args,

                exe,

                ernie_config,

                test_prog=None,

                pyreader=None,

                fetch_list=None):

    # Context to do validation.

    filelist = args.test_filelist if args.do_test else args.valid_filelist

    data_reader = ErnieDataReader(

        filelist,

        vocab_path=args.vocab_path,

        batch_size=args.batch_size,

        voc_size=ernie_config['vocab_size'],

        shuffle_files=False,

        epoch=1,

        max_seq_len=args.max_seq_len,

        is_test=True)



    if args.do_test:

        assert args.init_checkpoint is not None, "[FATAL] Please use --init_checkpoint '/path/to/checkpoints' \

                                                  to specify you pretrained model checkpoints"



        init_pretraining_params(exe, args.init_checkpoint, test_prog)



    def predict(exe=exe, pyreader=pyreader):



        pyreader.decorate_tensor_provider(data_reader.data_generator())

        pyreader.start()



        cost = 0

        lm_cost = 0

        acc = 0

        steps = 0

        time_begin = time.time()

        while True:

            try:

                each_next_acc, each_mask_lm_cost, each_total_cost = exe.run(

                    fetch_list=fetch_list, program=test_prog)

                acc += each_next_acc

                lm_cost += each_mask_lm_cost

                cost += each_total_cost

                steps += 1

                if args.do_test and steps % args.skip_steps == 0:

                    log.info("[test_set] steps: %d" % steps)



            except fluid.core.EOFException:

                pyreader.reset()

                break



        used_time = time.time() - time_begin

        return cost, lm_cost, acc, steps, (args.skip_steps / used_time)



    return predict




def test(args):

    ernie_config = ErnieConfig(args.ernie_config_path)

    ernie_config.print_config()



    test_prog = fluid.Program()

    test_startup = fluid.Program()

    with fluid.program_guard(test_prog, test_startup):

        with fluid.unique_name.guard():

            test_pyreader, next_sent_acc, mask_lm_loss, total_loss = create_model(

                pyreader_name='test_reader', ernie_config=ernie_config)



    test_prog = test_prog.clone(for_test=True)



    place = fluid.CUDAPlace(0) if args.use_cuda == True else fluid.CPUPlace()

    exe = fluid.Executor(place)

    exe.run(test_startup)



    predict = predict_wrapper(

        args,

        exe,

        ernie_config,

        test_prog=test_prog,

        pyreader=test_pyreader,

        fetch_list=[next_sent_acc.name, mask_lm_loss.name, total_loss.name])



    log.info("test begin")

    loss, lm_loss, acc, steps, speed = predict()

    log.info(

        "[test_set] loss: %f, global ppl: %f, next_sent_acc: %f, speed: %f steps/s"

        % (np.mean(np.array(loss) / steps),

           np.exp(np.mean(np.array(lm_loss) / steps)),

           np.mean(np.array(acc) / steps), speed))




def train(args):

    log.info("pretraining start")

    ernie_config = ErnieConfig(args.ernie_config_path)

    ernie_config.print_config()



    train_program = fluid.Program()

    startup_prog = fluid.Program()

    with fluid.program_guard(train_program, startup_prog):

        with fluid.unique_name.guard():

            train_pyreader, next_sent_acc, mask_lm_loss, total_loss = create_model(

                pyreader_name='train_reader', ernie_config=ernie_config)

            scheduled_lr, _ = optimization(

                loss=total_loss,

                warmup_steps=args.warmup_steps,

                num_train_steps=args.num_train_steps,

                learning_rate=args.learning_rate,

                train_program=train_program,

                startup_prog=startup_prog,

                weight_decay=args.weight_decay,

                scheduler=args.lr_scheduler,

                use_fp16=args.use_fp16,

                use_dynamic_loss_scaling=args.use_dynamic_loss_scaling,

                init_loss_scaling=args.init_loss_scaling,

                incr_every_n_steps=args.incr_every_n_steps,

                decr_every_n_nan_or_inf=args.decr_every_n_nan_or_inf,

                incr_ratio=args.incr_ratio,

                decr_ratio=args.decr_ratio)





    test_prog = fluid.Program()
  
        with fluid.program_guard(test_prog, startup_prog):

        with fluid.unique_name.guard():

            test_pyreader, next_sent_acc, mask_lm_loss, total_loss = create_model(

                pyreader_name='test_reader', ernie_config=ernie_config)



    test_prog = test_prog.clone(for_test=True)



    if len(fluid.cuda_places()) == 0:

        raise RuntimeError('not cuda device cound, check ur env setting')



    if args.use_cuda:

        place = fluid.cuda_places()[0]

        dev_count = fluid.core.get_cuda_device_count()

    else:

        place = fluid.CPUPlace()

        dev_count = int(os.environ.get('CPU_NUM', multiprocessing.cpu_count()))



    log.info("Device count %d" % dev_count)

    log.info("theoretical memory usage: ")

    log.info(fluid.contrib.memory_usage(

        program=train_program, batch_size=args.batch_size // args.max_seq_len))



    nccl2_num_trainers = 1

    nccl2_trainer_id = 0

    log.info("args.is_distributed: %s" % args.is_distributed)

    if args.is_distributed:

        worker_endpoints_env = os.getenv("PADDLE_TRAINER_ENDPOINTS")

        worker_endpoints = worker_endpoints_env.split(",")

        trainers_num = len(worker_endpoints)

        current_endpoint = os.getenv("PADDLE_CURRENT_ENDPOINT")

        trainer_id = worker_endpoints.index(current_endpoint)

        if trainer_id == 0:

            log.info("train_id == 0, sleep 60s")

            time.sleep(60)

        log.info("worker_endpoints:{} trainers_num:{} current_endpoint:{} \

              trainer_id:{}".format(worker_endpoints, trainers_num,

                                    current_endpoint, trainer_id))



        # prepare nccl2 env.

        config = fluid.DistributeTranspilerConfig()

        config.mode = "nccl2"

        t = fluid.DistributeTranspiler(config=config)

        t.transpile(

            trainer_id,

            trainers=worker_endpoints_env,

            current_endpoint=current_endpoint,

            program=train_program,

            startup_program=startup_prog)

        nccl2_num_trainers = trainers_num

        nccl2_trainer_id = trainer_id



    exe = fluid.Executor(place)

    exe.run(startup_prog)



    if args.init_checkpoint and args.init_checkpoint != "":

        init_checkpoint(exe, args.init_checkpoint, train_program, args.use_fp16)



    data_reader = ErnieDataReader(

        filelist=args.train_filelist,

        batch_size=args.batch_size,

        vocab_path=args.vocab_path,

        voc_size=ernie_config['vocab_size'],

        epoch=args.epoch,

        max_seq_len=args.max_seq_len,

        generate_neg_sample=args.generate_neg_sample)



    exec_strategy = fluid.ExecutionStrategy()

    if args.use_fast_executor:

        exec_strategy.use_experimental_executor = True

    exec_strategy.num_threads = dev_count

    exec_strategy.num_iteration_per_drop_scope = min(10, args.skip_steps)



    build_strategy = fluid.BuildStrategy()

    build_strategy.remove_unnecessary_lock = False



    train_exe = fluid.ParallelExecutor(

        use_cuda=args.use_cuda,

        loss_name=total_loss.name,

        build_strategy=build_strategy,

        exec_strategy=exec_strategy,

        main_program=train_program,

        num_trainers=nccl2_num_trainers,

        trainer_id=nccl2_trainer_id)



    if args.valid_filelist and args.valid_filelist != "":

        predict = predict_wrapper(

            args,

            exe,

            ernie_config,

            test_prog=test_prog,

            pyreader=test_pyreader,

            fetch_list=[

                next_sent_acc.name, mask_lm_loss.name, total_loss.name

            ])



    train_pyreader.decorate_tensor_provider(data_reader.data_generator())

    train_pyreader.start()

    steps = 0

    cost = []

    lm_cost = []

    acc = []

    time_begin = time.time()

    while steps < args.num_train_steps:

        try:

            steps += nccl2_num_trainers

            skip_steps = args.skip_steps * nccl2_num_trainers



            if nccl2_trainer_id != 0:

                train_exe.run(fetch_list=[])

                continue



            if steps % skip_steps != 0:

                train_exe.run(fetch_list=[])

            else:

                each_next_acc, each_mask_lm_cost, each_total_cost, np_lr = train_exe.run(

                    fetch_list=[

                        next_sent_acc.name, mask_lm_loss.name, total_loss.name,

                        scheduled_lr.name

                    ])

                acc.extend(each_next_acc)

                lm_cost.extend(each_mask_lm_cost)

                cost.extend(each_total_cost)



                log.info("feed_queue size %d" % train_pyreader.queue.size())

                time_end = time.time()

                used_time = time_end - time_begin

                epoch, current_file_index, total_file, current_file, mask_type = data_reader.get_progress(

                )

                log.info("current learning_rate:%f" % np_lr[0])

                log.info(

                    "epoch: %d, progress: %d/%d, step: %d, loss: %f, "

                    "ppl: %f, next_sent_acc: %f, speed: %f steps/s, file: %s, mask_type: %s"

                    % (epoch, current_file_index, total_file, steps,

                       np.mean(np.array(cost)),

                       np.mean(np.exp(np.array(lm_cost))),

                       np.mean(np.array(acc)), skip_steps / used_time,

                       current_file, mask_type))

                cost = []

                lm_cost = []

                acc = []

                time_begin = time.time()



            if steps % args.save_steps == 0:

                save_path = os.path.join(args.checkpoints, "step_" + str(steps))

                fluid.io.save_persistables(exe, save_path, train_program)



            if args.valid_filelist and steps % args.validation_steps == 0:

                vali_cost, vali_lm_cost, vali_acc, vali_steps, vali_speed = predict(

                )

                log.info("[validation_set] epoch: %d, step: %d, "

                      "loss: %f, global ppl: %f, batch-averged ppl: %f, "

                      "next_sent_acc: %f, speed: %f steps/s" %

                      (epoch, steps, np.mean(np.array(vali_cost) / vali_steps),

                       np.exp(np.mean(np.array(vali_lm_cost) / vali_steps)),

                       np.mean(np.exp(np.array(vali_lm_cost) / vali_steps)),

                       np.mean(np.array(vali_acc) / vali_steps), vali_speed))



        except fluid.core.EOFException:

            train_pyreader.reset()

            break




if __name__ == '__main__':

    prepare_logger(log)

    print_arguments(args)

    check_cuda(args.use_cuda)

    if args.do_test:

        test(args)

    else:

        train(args)

2: 获取输入句子/词经过 ERNIE 编码后的 Embedding 表示

可以通过 ernie_encoder.py 抽取出输入句子的 Embedding 表示和句子中每个 token 的 Embedding 表示，数据格式和 Fine-tuning 任务一节中介绍的各种类型 Fine-tuning 任务的训练数据格式一致；以获取 LCQMC dev 数据集中的句子 Embedding 和 token embedding 为例，示例脚本如下:

export FLAGS_sync_nccl_allreduce=1

export CUDA_VISIBLE_DEVICES=0



python -u ernie_encoder.py \

               --use_cuda true \

               --batch_size 32 \

               --output_dir "./test" \

               --init_pretraining_params ${MODEL_PATH}/params \

               --data_set ${TASK_DATA_PATH}/lcqmc/dev.tsv \

               --vocab_path ${MODEL_PATH}/vocab.txt \

               --max_seq_len 128 \

               --ernie_config_path ${MODEL_PATH}/ernie_config.json

ernie_encoder.py 代码如下:

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function



import os

import argparse

import numpy as np

import multiprocessing



import paddle.fluid as fluid



import reader.task_reader as task_reader

from model.ernie import ErnieConfig, ErnieModel

from utils.args import ArgumentGroup, print_arguments

from utils.init import init_pretraining_params



# yapf: disable

parser = argparse.ArgumentParser(__doc__)

model_g = ArgumentGroup(parser, "model", "model configuration and paths.")

model_g.add_arg("ernie_config_path",         str,  None, "Path to the json file for ernie model config.")

model_g.add_arg("init_pretraining_params",   str,  None,

            "Init pre-training params which preforms fine-tuning from. If the "

             "arg 'init_checkpoint' has been set, this argument wouldn't be valid.")

 model_g.add_arg("output_dir",                str,  "embeddings", "path to save embeddings extracted by ernie_encoder.")



 data_g = ArgumentGroup(parser, "data", "Data paths, vocab paths and data processing options")

 data_g.add_arg("data_set",            str,  None,  "Path to data for calculating ernie_embeddings.")

 data_g.add_arg("vocab_path",          str,  None,  "Vocabulary path.")

data_g.add_arg("max_seq_len",         int,  512,   "Number of words of the longest seqence.")

data_g.add_arg("batch_size",          int,  32,    "Total examples' number in batch for training.")

data_g.add_arg("do_lower_case",       bool, True,

           "Whether to lower case the input text. Should be True for uncased models and False for cased models.")



run_type_g = ArgumentGroup(parser, "run_type", "running type options.")

run_type_g.add_arg("use_cuda",                     bool,   True,  "If set, use GPU for training.")

# yapf: enable





def create_model(args, pyreader_name, ernie_config):

    pyreader = fluid.layers.py_reader(

        capacity=50,

        shapes=[[-1, args.max_seq_len, 1], [-1, args.max_seq_len, 1],
 
                [-1, args.max_seq_len, 1], [-1, args.max_seq_len, 1],

                [-1, args.max_seq_len, 1], [-1, 1]],

        dtypes=['int64', 'int64', 'int64', 'int64', 'float', 'int64'],

        lod_levels=[0, 0, 0, 0, 0, 0],

        name=pyreader_name,

        use_double_buffer=True)



    (src_ids, sent_ids, pos_ids, task_ids, input_mask,

     seq_lens) = fluid.layers.read_file(pyreader)



    ernie = ErnieModel(

        src_ids=src_ids,

        position_ids=pos_ids,

        sentence_ids=sent_ids,

        task_ids=task_ids,

        input_mask=input_mask,

        config=ernie_config)



    enc_out = ernie.get_sequence_output()

    unpad_enc_out = fluid.layers.sequence_unpad(enc_out, length=seq_lens)

    cls_feats = ernie.get_pooled_output()



    # set persistable = True to avoid memory opimizing

    enc_out.persistable = True

    unpad_enc_out.persistable = True

    cls_feats.persistable = True



    graph_vars = {

        "cls_embeddings": cls_feats,

        "top_layer_embeddings": unpad_enc_out,

    }



    return pyreader, graph_vars





def main(args):

    args = parser.parse_args()

    ernie_config = ErnieConfig(args.ernie_config_path)

    ernie_config.print_config()



    if args.use_cuda:

        place = fluid.CUDAPlace(int(os.getenv('FLAGS_selected_gpus', '0')))

        dev_count = fluid.core.get_cuda_device_count()

    else:

        place = fluid.CPUPlace()

        dev_count = int(os.environ.get('CPU_NUM', multiprocessing.cpu_count()))



    exe = fluid.Executor(place)



    reader = task_reader.ExtractEmbeddingReader(

        vocab_path=args.vocab_path,

        max_seq_len=args.max_seq_len,

        do_lower_case=args.do_lower_case)



    startup_prog = fluid.Program()



    data_generator = reader.data_generator(

        input_file=args.data_set,

        batch_size=args.batch_size,

        epoch=1,

        shuffle=False)



    total_examples = reader.get_num_examples(args.data_set)



    print("Device count: %d" % dev_count)

    print("Total num examples: %d" % total_examples)



    infer_program = fluid.Program()



    with fluid.program_guard(infer_program, startup_prog):

        with fluid.unique_name.guard():

            pyreader, graph_vars = create_model(

                args, pyreader_name='reader', ernie_config=ernie_config)



    infer_program = infer_program.clone(for_test=True)



    exe.run(startup_prog)



    if args.init_pretraining_params:

        init_pretraining_params(

            exe, args.init_pretraining_params, main_program=startup_prog)

    else:

        raise ValueError(

            "WARNING: args 'init_pretraining_params' must be specified")



    exec_strategy = fluid.ExecutionStrategy()

    exec_strategy.num_threads = dev_count



    pyreader.decorate_tensor_provider(data_generator)

    pyreader.start()



    total_cls_emb = []

    total_top_layer_emb = []

    total_labels = []

    while True:

        try:

            cls_emb, unpad_top_layer_emb = exe.run(

                program=infer_program,
   
                fetch_list=[

                    graph_vars["cls_embeddings"].name,

                    graph_vars["top_layer_embeddings"].name

                ],

                return_numpy=False)

            # batch_size * embedding_size

            total_cls_emb.append(np.array(cls_emb))

            total_top_layer_emb.append(np.array(unpad_top_layer_emb))

        except fluid.core.EOFException:

            break



    total_cls_emb = np.concatenate(total_cls_emb)

    total_top_layer_emb = np.concatenate(total_top_layer_emb)



    with open(os.path.join(args.output_dir, "cls_emb.npy"),

              "wb") as cls_emb_file:

        np.save(cls_emb_file, total_cls_emb)

    with open(os.path.join(args.output_dir, "top_layer_emb.npy"),

              "wb") as top_layer_emb_file:

        np.save(top_layer_emb_file, total_top_layer_emb)





if __name__ == '__main__':

    args = parser.parse_args()

    print_arguments(args)


   main(args)

3:利用 Fine-tuning 得到的模型对新数据进行批量预测

我们以分类任务为例，给出了分类任务进行批量预测的脚本, 使用示例如下:

python -u predict_classifier.py \

   --use_cuda true \

   --batch_size 32 \

   --vocab_path ${MODEL_PATH}/vocab.txt \

   --init_checkpoint "./checkpoints/step_100" \

   --do_lower_case true \

   --max_seq_len 128 \

   --ernie_config_path ${MODEL_PATH}/ernie_config.json \

   --do_predict true \

   --predict_set ${TASK_DATA_PATH}/lcqmc/test.tsv \

   --num_labels 2

predict_classifier.py 代码如下：

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function



import os

import time

import argparse

import numpy as np

import multiprocessing



# NOTE(paddle-dev): All of these flags should be

# set before `import paddle`. Otherwise, it would

# not take any effect.

os.environ['FLAGS_eager_delete_tensor_gb'] = '0'  # enable gc



import paddle.fluid as fluid



from reader.task_reader import ClassifyReader

from model.ernie import ErnieConfig

from finetune.classifier import create_model



from utils.args import ArgumentGroup, print_arguments

from utils.init import init_pretraining_params

from finetune_args import parser



# yapf: disable

parser = argparse.ArgumentParser(__doc__)

model_g = ArgumentGroup(parser, "model", "options to init, resume and save model.")

model_g.add_arg("ernie_config_path",            str,  None,  "Path to the json file for ernie model config.")

model_g.add_arg("init_checkpoint",              str,  None,  "Init checkpoint to resume training from.")

model_g.add_arg("save_inference_model_path",    str,  "inference_model",  "If set, save the inference model to this path.")

model_g.add_arg("use_fp16",                     bool, False, "Whether to resume parameters from fp16 checkpoint.")

model_g.add_arg("num_labels",                   int,  2,     "num labels for classify")

model_g.add_arg("ernie_version",                str,  "1.0", "ernie_version")



data_g = ArgumentGroup(parser, "data", "Data paths, vocab paths and data processing options.")

data_g.add_arg("predict_set",         str,  None,  "Predict set file")

data_g.add_arg("vocab_path",          str,  None,  "Vocabulary path.")

data_g.add_arg("label_map_config",    str,  None,  "Label_map_config json file.")

data_g.add_arg("max_seq_len",         int,  128,   "Number of words of the longest seqence.")

data_g.add_arg("batch_size",          int,  32,    "Total examples' number in batch for training. see also --in_tokens.")

data_g.add_arg("do_lower_case",       bool, True,

           "Whether to lower case the input text. Should be True for uncased models and False for cased models.")



run_type_g = ArgumentGroup(parser, "run_type", "running type options.")

run_type_g.add_arg("use_cuda",          bool,   True,  "If set, use GPU for training.")

run_type_g.add_arg("do_prediction",     bool,   True,  "Whether to do prediction on test set.")



args = parser.parse_args()

# yapf: enable.



def main(args):

    ernie_config = ErnieConfig(args.ernie_config_path)

    ernie_config.print_config()



    reader = ClassifyReader(

        vocab_path=args.vocab_path,

        label_map_config=args.label_map_config,

        max_seq_len=args.max_seq_len,

        do_lower_case=args.do_lower_case,

        in_tokens=False,

        is_inference=True)



    predict_prog = fluid.Program()

    predict_startup = fluid.Program()

    with fluid.program_guard(predict_prog, predict_startup):

        with fluid.unique_name.guard():

            predict_pyreader, probs, feed_target_names = create_model(

                args,

                pyreader_name='predict_reader',

                ernie_config=ernie_config,

                is_classify=True,

                is_prediction=True,

                ernie_version=args.ernie_version)



    predict_prog = predict_prog.clone(for_test=True)



    if args.use_cuda:

        place = fluid.CUDAPlace(0)

        dev_count = fluid.core.get_cuda_device_count()

    else:

        place = fluid.CPUPlace()

        dev_count = int(os.environ.get('CPU_NUM', multiprocessing.cpu_count()))



    place = fluid.CUDAPlace(0) if args.use_cuda == True else fluid.CPUPlace()

    exe = fluid.Executor(place)

    exe.run(predict_startup)



    if args.init_checkpoint:

        init_pretraining_params(exe, args.init_checkpoint, predict_prog)

    else:

        raise ValueError("args 'init_checkpoint' should be set for prediction!")



    assert args.save_inference_model_path, "args save_inference_model_path should be set for prediction"

    _, ckpt_dir = os.path.split(args.init_checkpoint.rstrip('/'))

    dir_name = ckpt_dir + '_inference_model'

    model_path = os.path.join(args.save_inference_model_path, dir_name)

    print("save inference model to %s" % model_path)

    fluid.io.save_inference_model(

        model_path,

        feed_target_names, [probs],

        exe,

        main_program=predict_prog)



    print("load inference model from %s" % model_path)

    infer_program, feed_target_names, probs = fluid.io.load_inference_model(

            model_path, exe)



    src_ids = feed_target_names[0]

    sent_ids = feed_target_names[1]

    pos_ids = feed_target_names[2]

    input_mask = feed_target_names[3]

    if args.ernie_version == "2.0":

        task_ids = feed_target_names[4]



    predict_data_generator = reader.data_generator(

        input_file=args.predict_set,

        batch_size=args.batch_size,

        epoch=1,

        shuffle=False)



    print("-------------- prediction results --------------")

    np.set_printoptions(precision=4, suppress=True)

    index = 0

    for sample in predict_data_generator():

        src_ids_data = sample[0]

        sent_ids_data = sample[1]

        pos_ids_data = sample[2]

        task_ids_data = sample[3]

        input_mask_data = sample[4]

        if args.ernie_version == "1.0":

            output = exe.run(

                infer_program,

                feed={src_ids: src_ids_data,

                      sent_ids: sent_ids_data,

                      pos_ids: pos_ids_data,

                      input_mask: input_mask_data},
  
                fetch_list=probs)

        elif args.ernie_version == "2.0":

            output = exe.run(

                infer_program,

                feed={src_ids: src_ids_data,

                      sent_ids: sent_ids_data,

                      pos_ids: pos_ids_data,

                      task_ids: task_ids_data,

                      input_mask: input_mask_data},

                fetch_list=probs)

        else:

            raise ValueError("ernie_version must be 1.0 or 2.0")



        for single_result in output[0]:

            print("example_index:{}\t{}".format(index, single_result))

            index += 1



if __name__ == '__main__':

    print_arguments(args)

    main(args)

四：总结

本次，我们介绍了

ERNIE的基本结构
ERNIE的训练流程
预训练任务，获取输入句子/词经过 ERNIE编码后的 Embedding 表示，以及批量预测的代码

希望经过本文的介绍，希望能够让大家对ERNIE有一个全面的了解。

官网地址: https://www.paddlepaddle.org.cn

项目地址: https://github.com/PaddlePaddle/ERNIE

想要了解更多ERNIE模型细节和代码细节，可以点击 阅读原文 阅读

你可能感兴趣的:(一文读懂最强中文NLP预训练模型ERNIE)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象