人工智能小a

一文读懂BERT模型（程序篇）

Google Bert模型精讲

环境与安装

环境要求

Google Bert模型下载地址：https://github.com/google-research/bert
环境要求：TensorFlow 1.11.0和、Python2 和或Python3（TensorFlow 1.12.0、python3.6实测可运行）

项目部署

首先，在github上下载相关文件，包括：bert程序的压缩包、预训练模型（根据实际需求下载相应的预训练模型，本文使用模型：uncased_L-12_H-768_A-12）、相关数据集（根据实际需求下载对应任务的数据集，本文以MRPC任务即：判断两句话是否表达一个意思？作为讲解示例）。

下载完成全部所需的数据，将其放置在相应的项目文件夹中，本文构建项目文件夹目录如下：

--BERT
	--bert-master
	--GLUE
		--BERT_BASE_DIR
			--uncased_L-12_H-768_A-12
		--glue_data
			--MRPC
		--output

项目运行

项目部署完成后，我们开始运行run_classifier.py程序，运行参数设置如下：

python run_classifier.py/
	--task_name=MRPC
	--do_train=true
	--do_eval=true
	--data_dir=../GLUE/glue_data/MRPC
	--vocab_file=../GLUE/BERT_BASE_DIR/uncased_L-12_H-768_A-12/vocab.txt
	--bert_config_file=../GLUE/BERT_BASE_DIR/uncased_L-12_H-768_A-12/bert_config.json
	--init_checkpoint=../GLUE/BERT_BASE_DIR/uncased_L-12_H-768_A-12/bert_model.ckpt
	--max_seq_length=128
	--train_batch_size=32
	--learning_rate=2e-5
	--num_train_epochs=3.0
	--output_dir=../GLUE/output

等程序跑完后，我们可以看到：eval_accuracy、eval_loss、global_step、loss等相关信息。
接下来开始正式地对模型的核心程序讲解。

核心程序讲解

数据处理模块

首先读取训练所需要的train.tsv文件，存取train_examples参数中

//main()
train_examples = processor.get_train_examples(FLAGS.data_dir)
//get_train_examples()
def get_train_examples(self, data_dir):
  """See base class."""
  return self._create_examples(
      self._read_tsv(os.path.join(data_dir, "train.tsv")), "train")
//_create_examples()
def _create_examples(self, lines, set_type):
  """Creates examples for the training and dev sets."""
  examples = []
  for (i, line) in enumerate(lines):
    if i == 0:
      continue
    guid = "%s-%s" % (set_type, i)
    text_a = tokenization.convert_to_unicode(line[3]) //读入第一句话，tokenization.convert_to_unicode使文本转化为utf-8编码;
    //Eg:text_a:'Amrozi accused his brother, whom he called "the witness", of deliberately distorting his evidence.'
    text_b = tokenization.convert_to_unicode(line[4]) //读入第二句话
    //Eg:text_b:'Referring to him as only "the witness", Amrozi accused his brother of deliberately distorting his evidence.'
    if set_type == "test":
      label = "0" //如果是模型预测，则对应的标签标“0”
    else:
      label = tokenization.convert_to_unicode(line[0]) //如果是模型训练，则读入该示例所对应的标签
    examples.append(
        InputExample(guid=guid, text_a=text_a, text_b=text_b, label=label)) //将读取数据转化为bert模型输入格式存入examples列表
  //Eg:example:(guid:'train1'，text_a，text_b，label=1)
  return examples

获取到训练数据后，计算训练总共需要迭代多少次

//train_batch_size = 32
//num_train_epochs = 3.0
num_train_steps = int(
        len(train_examples) / FLAGS.train_batch_size * FLAGS.num_train_epochs)
num_warmup_steps = int(num_train_steps * FLAGS.warmup_proportion)

对读入的原始数据进行预处理（重点）

//main()函数中数据预处理模块
file_based_convert_examples_to_features(
        train_examples, label_list, FLAGS.max_seq_length, tokenizer, train_file)

在file_based_convert_examples_to_features()函数中，将读取到的数据依次进行预处理操作，将处理后的词向量信息保存成定义的InputFeatures类型的数据

//file_based_convert_examples_to_features()
  for (ex_index, example) in enumerate(examples):
    if ex_index % 10000 == 0:
      tf.logging.info("Writing example %d of %d" % (ex_index, len(examples)))

    feature = convert_single_example(ex_index, example, label_list,
                                     max_seq_length, tokenizer)

通过convert_single_example()函数，对输入数据进行分词、映射成词向量、加入相关信息等

def convert_single_example(ex_index, example, label_list, max_seq_length,
                           tokenizer):
  """Converts a single `InputExample` into a single `InputFeatures`."""
  
  if isinstance(example, PaddingInputExample):
    return InputFeatures(
        input_ids=[0] * max_seq_length,
        input_mask=[0] * max_seq_length,
        segment_ids=[0] * max_seq_length,
        label_id=0,
        is_real_example=False)

  label_map = {}
  for (i, label) in enumerate(label_list):
    label_map[label] = i //将标签映射成数值；Eg:label_map:{'0':0，'1':1}

  tokens_a = tokenizer.tokenize(example.text_a) //对text_a分词
  //Eg:tokens_a：['am', '##ro', '##zi', 'accused', 'his', 'brother', ',', 'whom', 'he', 'called', '"', 'the', 'witness', '"', ',', 'of', 'deliberately', 'di', '##stor', '##ting', 'his', 'evidence', '.']
  tokens_b = None
  if example.text_b:
    tokens_b = tokenizer.tokenize(example.text_b) //如果存在第二句话，则对text_b分词
    //Eg：['referring', 'to', 'him', 'as', 'only', '"', 'the', 'witness', '"', ',', 'am', '##ro', '##zi', 'accused', 'his', 'brother', 'of', 'deliberately', 'di', '##stor', '##ting', 'his', 'evidence', '.']

  if tokens_b:
    //如果tokens_b存在，修改“tokens_a”和“tokens_b”，使总长度小于指定长度，由于有[CLS], [SEP], [SEP]标签，最大限度即：max_seq_length-3
    _truncate_seq_pair(tokens_a, tokens_b, max_seq_length - 3)
  else:
    //反之，最大限度即：max_seq_length-2
    if len(tokens_a) > max_seq_length - 2:
      tokens_a = tokens_a[0:(max_seq_length - 2)]

  tokens = [] //[CLS] tokens_a [SEP] tokens_b
  segment_ids = [] //标记是第一句话还是第二句话，0：第一句；1：第二句
  tokens.append("[CLS]") //添加句首标签[CLS]
  segment_ids.append(0) //为[CLS]添加标签0
  for token in tokens_a:
    tokens.append(token) //将tokens_a加入tokens中
    segment_ids.append(0) //添加标签0，标识是第一句话
  tokens.append("[SEP]") //添加两句话中间的连接符[SEP]
  segment_ids.append(0) //为[SEP]添加标签0

  if tokens_b:
    for token in tokens_b:
      tokens.append(token) //将tokens_b加入tokens中
      segment_ids.append(1) //添加标签1，标识是第二句话
    tokens.append("[SEP]") //在句子后添加标签[SEP]
    segment_ids.append(1) //为[SEP]添加标签1
  //Eg: tokens：['[CLS]', 'am', '##ro', '##zi', 'accused', 'his', 'brother', ',', 'whom', 'he', 'called', '"', 'the', 'witness', '"', ',', 'of', 'deliberately', 'di', '##stor', '##ting', 'his', 'evidence', '.', '[SEP]', 'referring', 'to', 'him', 'as', 'only', '"', 'the', 'witness', '"', ',', 'am', '##ro', '##zi', 'accused', 'his', 'brother', 'of', 'deliberately', 'di', '##stor', '##ting', 'his', 'evidence', '.', '[SEP]']
  //Eg：segment_ids：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
  input_ids = tokenizer.convert_tokens_to_ids(tokens) //将tokens中的的单词应射程对应的id
  //Eg：input_ids：[101, 2572, 3217, 5831, 5496, 2010, 2567, 1010, 3183, 2002, 2170, 1000, 1996, 7409, 1000, 1010, 1997, 9969, 4487, 23809, 3436, 2010, 3350, 1012, 102, 7727, 2000, 2032, 2004, 2069, 1000, 1996, 7409, 1000, 1010, 2572, 3217, 5831, 5496, 2010, 2567, 1997, 9969, 4487, 23809, 3436, 2010, 3350, 1012, 102]
  
  //加入mask编码，mask为1表示该词向量具有实际的意义，mask为0表示该词向量不具备实际意义，是为了统一长度补充的无意义0
  input_mask = [1] * len(input_ids) //在mask列表中添加输入序列实际长度的1
  
  //添加0补齐序列长度
  while len(input_ids) < max_seq_length: //规范序列长度，长度不够则补0
    input_ids.append(0)
    input_mask.append(0)
    segment_ids.append(0)
  //Eg：input_ids：[101, 2572, 3217, 5831, 5496, 2010, 2567, 1010, 3183, 2002, 2170, 1000, 1996, 7409, 1000, 1010, 1997, 9969, 4487, 23809, 3436, 2010, 3350, 1012, 102, 7727, 2000, 2032, 2004, 2069, 1000, 1996, 7409, 1000, 1010, 2572, 3217, 5831, 5496, 2010, 2567, 1997, 9969, 4487, 23809, 3436, 2010, 3350, 1012, 102, 0, 0 ...]
  //Eg：input_mask：[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0 ...]
  //Eg：segment_ids：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0 ...]
  
  //判断input_ids、input_mask、segment_ids是否都等于最大序列长度
  assert len(input_ids) == max_seq_length
  assert len(input_mask) == max_seq_length
  assert len(segment_ids) == max_seq_length

  //获取标签对应的数值
  label_id = label_map[example.label]
  //Eg：label_id：1

  //打印输出相关信息
  if ex_index < 5:
    tf.logging.info("*** Example ***")
    tf.logging.info("guid: %s" % (example.guid))
    tf.logging.info("tokens: %s" % " ".join(
        [tokenization.printable_text(x) for x in tokens]))
    tf.logging.info("input_ids: %s" % " ".join([str(x) for x in input_ids]))
    tf.logging.info("input_mask: %s" % " ".join([str(x) for x in input_mask]))
    tf.logging.info("segment_ids: %s" % " ".join([str(x) for x in segment_ids]))
    tf.logging.info("label: %s (id = %d)" % (example.label, label_id))

  //将以所有特征向量存入InputFeatures类的实例对象feature
  feature = InputFeatures(
      input_ids=input_ids,
      input_mask=input_mask, 
      segment_ids=segment_ids, 
      label_id=label_id,
      is_real_example=True)
  return feature

需要注意的是在convert_single_example()函数中的几个特殊列表及字符：

input_ids：存放将输入序列经过分词、映射、添加特殊字符[CLS]、[SEP]之后的词向量序列（格式：[CLS，text_a，SEP，text_b，SEP]）
input_mask：存放标记对应词向量是否具有实际意义的标签0或1，0表示无实际意义，1表示具有实际意义（格式：[1,1…,0…]）
segment_ids：存放标记对应词向量属于哪一句话的标签0或1，0表示属于第一句话，1表示属于第二句话（格式：[0,0,…,1…]）
label_id：存放标签对应的数值，训练时存入读取到的实际标签，预测时存入标签0（格式：0或1）
[CLS]：标识一个任务句子的起始，添加在输入序列的起始位置
[SEP]：句子分隔符，添加在两个句子之间及句子末尾

模型构建

将预处理完的数据输入模型训练

model = modeling.BertModel(
      config=bert_config,
      is_training=is_training,
      input_ids=input_ids,  //词向量序列维度(batch_size,每一句话的最大长度)；Eg：(8,128)
      input_mask=input_mask, //词向量序列维度(batch_size,每一句话的最大长度)；Eg：(8,128)
      token_type_ids=segment_ids, //词向量序列维度(batch_size,每一句话的最大长度)；Eg：(8,128)
      use_one_hot_embeddings=use_one_hot_embeddings)
//modeling/BertModel()
config = copy.deepcopy(config)
    if not is_training:
      config.hidden_dropout_prob = 0.0
      config.attention_probs_dropout_prob = 0.0

    input_shape = get_shape_list(input_ids, expected_rank=2)
    batch_size = input_shape[0] //读取batch_size值；Eg：8
    seq_length = input_shape[1] //读取最大序列长度；Eg：128

    if input_mask is None: //如果未进行mask编码，则默认mask编码为1
      input_mask = tf.ones(shape=[batch_size, seq_length], dtype=tf.int32)

    if token_type_ids is None: //若未进行句子分类编码，则默认只有一句话
      token_type_ids = tf.zeros(shape=[batch_size, seq_length], dtype=tf.int32)

Embeddings层

BERT模型通过Embeddings层将输入序列映射成定义维度的词向量序列，添加type_id及位置编码等信息。

Embeddings层的程序实现如下：

with tf.variable_scope(scope, default_name="bert"): //构建bert模型
  with tf.variable_scope("embeddings"): //构建embedding层
    # Perform embedding lookup on the word ids.
    (self.embedding_output, self.embedding_table) = embedding_lookup(
        input_ids=input_ids, //输入序列向量
        vocab_size=config.vocab_size, //预训练模型语料库
        embedding_size=config.hidden_size, //指定将词映射成词向量的维度
        initializer_range=config.initializer_range, //初始化取值范围
        word_embedding_name="word_embeddings",
        use_one_hot_embeddings=use_one_hot_embeddings) 

    //加入位置编码等信息
    self.embedding_output = embedding_postprocessor(
        input_tensor=self.embedding_output, //前一步embedding输出词向量序列（batch_size，seq_length，embedding_size）
        use_token_type=True, //是否使用type_ids标识哪一句话
        token_type_ids=token_type_ids, //输入type_ids
        token_type_vocab_size=config.type_vocab_size,
        token_type_embedding_name="token_type_embeddings",
        use_position_embeddings=True, //是否添加位置信息
        position_embedding_name="position_embeddings",
        initializer_range=config.initializer_range,
        max_position_embeddings=config.max_position_embeddings, //定义位置信息最大长度
        dropout_prob=config.hidden_dropout_prob)

先讲解Embeddings层中的embedding_lookup()函数，其作用是将词转换成词向量
输入值：(batch_size，seq_length)，例如（8，128）即8个样本，一个样本有128个词
输出值：(batch_size，seq_length，embedding_size)，例如（8，128，768）即8个样本，一个样本有128个词，一个词映射成768维的向量

def embedding_lookup(input_ids,
                     vocab_size,
                     embedding_size=128,
                     initializer_range=0.02,
                     word_embedding_name="word_embeddings",
                     use_one_hot_embeddings=False):
  //return shape [batch_size, seq_length, embedding_size]；Eg：[8，128，768]
  
  if input_ids.shape.ndims == 2: //输入是2维，输出是3维，先加1维向量方便后续处理
    input_ids = tf.expand_dims(input_ids, axis=[-1])

  //获取语料表
  embedding_table = tf.get_variable(
      name=word_embedding_name,
      shape=[vocab_size, embedding_size], //[语料表大小，映射词向量维度]
      initializer=create_initializer(initializer_range))

  flat_input_ids = tf.reshape(input_ids, [-1]) //计算总共需要到语料表中查询的词的个数；batch_size*最大序列长度；Eg：8*128=1024
  
  if use_one_hot_embeddings:
    one_hot_input_ids = tf.one_hot(flat_input_ids, depth=vocab_size)
    output = tf.matmul(one_hot_input_ids, embedding_table)
  else:
    output = tf.gather(embedding_table, flat_input_ids) //查询到相应词的词向量，返回（flat_input_ids，定义词向量的维度）；Eg：（1024，768）即：总共1024个词，一个词的维度是768维
  input_shape = get_shape_list(input_ids)
  output = tf.reshape(output,
                      input_shape[0:-1] + [input_shape[-1] * embedding_size]) //构建返回结果（batch_size,共有多少个词，词映射的词向量维度）；Eg：(8，128，768)即：8个样本，一个样本中有128个词，每个词映射成768维向量
  return (output, embedding_table)

其次是Embeddings层中的embedding_postprocessor()函数，其作用是在输入序列中加入type_ids和位置编码信息，输入值和输出值一样，都是(batch_size，seq_length，embedding_size)

def embedding_postprocessor(input_tensor,
                            use_token_type=False,
                            token_type_ids=None,
                            token_type_vocab_size=16,
                            token_type_embedding_name="token_type_embeddings",
                            use_position_embeddings=True,
                            position_embedding_name="position_embeddings",
                            initializer_range=0.02,
                            max_position_embeddings=512,
                            dropout_prob=0.1):
  input_shape = get_shape_list(input_tensor, expected_rank=3) //输入上一层embedding构建的词向量序列；Eg：(8,128,768)
  batch_size = input_shape[0] //batch_size；Eg：8
  seq_length = input_shape[1] //一个样本中词向量的个数；Eg：128
  width = input_shape[2] //一个词向量的维度；Eg：768

  output = input_tensor //初始化输出；Eg：(8,128,768)
  
  if use_token_type:
    if token_type_ids is None: //判断type_ids是否存在，若存在则将其转换成对应的词向量
      raise ValueError("`token_type_ids` must be specified if"
                       "`use_token_type`
    //获取语料表
    token_type_table = tf.get_variable(
        name=token_type_embedding_name,
        shape=[token_type_vocab_size, width],
        initializer=create_initializer(initializer_range)) //[2,词向量维度],只有两种可能性（0，1），0：第一句，1：第二句；Eg：(2,768)
 
    flat_token_type_ids = tf.reshape(token_type_ids, [-1]) //计算需要查找的个数；batch_size*seq_length；Eg：8*128=1024
    one_hot_ids = tf.one_hot(flat_token_type_ids, depth=token_type_vocab_size) //one_hot_ids（总共词的个数，2），2：只有0,1
    token_type_embeddings = tf.matmul(one_hot_ids, token_type_table) //进行矩阵相乘，获取所有词位置编码的词向量，（总共词的个数，词向量的维度）；Eg：(1024,768)
    token_type_embeddings = tf.reshape(token_type_embeddings,
                                       [batch_size, seq_length, width]) //实现和之前输出相同的格式，（batch_size,词向量个数，词向量维度）；Eg：(8,128,768)
    output += token_type_embeddings //输入词向量加上type_ids的词向量编码，此时的词向量既有输入词语的词向量信息，也有type_ids的词向量信息

  if use_position_embeddings: //添加词向量位置编码信息
    assert_op = tf.assert_less_equal(seq_length, max_position_embeddings) //位置编码向量，维度（seq_length，max_position_embeddings）即（输入序列长度，定义的最大位置个数）；Eg：(128,512)
    with tf.control_dependencies([assert_op]):
      full_position_embeddings = tf.get_variable(
          name=position_embedding_name,
          shape=[max_position_embeddings, width],
          initializer=create_initializer(initializer_range)) //（512,词向量的维度），定义512个位置信息，将位置信息编码成词向量相同的维度；Eg：(512,768)
     
      position_embeddings = tf.slice(full_position_embeddings, [0, 0],
                                     [seq_length, -1]) //根据词向量个数，截取实际的位置编码个数；Eg：(128,768)
      num_dims = len(output.shape.as_list())
      
      position_broadcast_shape = []
      for _ in range(num_dims - 2):
        position_broadcast_shape.append(1)
      position_broadcast_shape.extend([seq_length, width])
      position_embeddings = tf.reshape(position_embeddings,
                                       position_broadcast_shape) //将位置编码信息映射添加一个维度，转换成和词向量编码信息相同维度的向量，因为位置编码与不同句无关，所以添加的以为向量用1表示，即(1，seq_length，embedding_size)；Eg：(1,128,768)
      output += position_embeddings //加入位置信息编码信息
  output = layer_norm_and_dropout(output, dropout_prob) //加入位置编码及type_ids的词向量序列
  return output

Embeddings层主要有以下三个作用：

将出入的id序列映射成为指定维度的词向量序列
加入type_ids的映射向量，将type_id（标识某个词是属于哪一句话）信息加入输入词向量序列中
加入位置编码信息，将每个词的位置信息转换成对应维度的向量加入到输出词向量序列中

通过Embeddings，将输出包含有输入信息、type_ids信息和位置编码信息的多维张量，张量维度是（batch_size，seq_length，embedding_size）

Encoder层

 with tf.variable_scope("encoder"):
   //给mask添加一个维度，将二维的mask转换为三维的mask，添加的维度用来表示每一个词需要与其它词进行Attention计算的个数标识
   attention_mask = create_attention_mask_from_input_mask(
       input_ids, input_mask) 
   //`sequence_output` shape = [batch_size, seq_length, hidden_size].
   
   //输入Transformer模型进行训练
   self.all_encoder_layers = transformer_model(
       input_tensor=self.embedding_output, //Embeddings层输出词向量
       attention_mask=attention_mask, //mask标记
       hidden_size=config.hidden_size, //向量的维度；Eg：768
       num_hidden_layers=config.num_hidden_layers, //模型中神经元的个数
       num_attention_heads=config.num_attention_heads,//Transformer模型中多头机制头的数量
       intermediate_size=config.intermediate_size, //全连接层神经元的个数
       intermediate_act_fn=get_activation(config.hidden_act),
       hidden_dropout_prob=config.hidden_dropout_prob,
       attention_probs_dropout_prob=config.attention_probs_dropout_prob,
       initializer_range=config.initializer_range,
       do_return_all_layers=True)

  self.sequence_output = self.all_encoder_layers[-1]

Transformer模块

def transformer_model(input_tensor,
                      attention_mask=None,
                      hidden_size=768,
                      num_hidden_layers=12,
                      num_attention_heads=12, #多头机制头的数量
                      intermediate_size=3072,
                      intermediate_act_fn=gelu,
                      hidden_dropout_prob=0.1,
                      attention_probs_dropout_prob=0.1,
                      initializer_range=0.02,
                      do_return_all_layers=False):
 
  if hidden_size % num_attention_heads != 0: //判断定义的向量维度是否能整除头的数量
    raise ValueError(
        "The hidden size (%d) is not a multiple of the number of attention "
        "heads (%d)" % (hidden_size, num_attention_heads))

  attention_head_size = int(hidden_size / num_attention_heads) //计算每个头需要多少维度的向量特征
  input_shape = get_shape_list(input_tensor, expected_rank=3) //输入模型向量（batch_size，句子的长度，词向量的维度）
  batch_size = input_shape[0] //总共有多少个样本
  seq_length = input_shape[1] //一个样本中句子的长度
  input_width = input_shape[2] //一个词对应的向量维度

  if input_width != hidden_size: //判断输入输出的词向量维度是否一样，使残差链接能够正确相加
    raise ValueError("The width of the input tensor (%d) != hidden size (%d)" %
                     (input_width, hidden_size))

  prev_output = reshape_to_matrix(input_tensor) //将输入张量维度从3维降维2维，(batch_size，seq_length，embedding_size)->(batch_size*seq_length，embedding_size)；Eg:(8,128,768)->(1024,768)

//进行Attention计算
  all_layer_outputs = []
  for layer_idx in range(num_hidden_layers): //attention机制，模型共有12层，遍历每一层
    with tf.variable_scope("layer_%d" % layer_idx):
      layer_input = prev_output //每一层的输出作为下一层的输入

      with tf.variable_scope("attention"):
        attention_heads = []
        with tf.variable_scope("self"):
          attention_head = attention_layer(
              from_tensor=layer_input, //self-Attention中from_tensor和to_tensor相等，都是模型的输入向量
              to_tensor=layer_input,
              attention_mask=attention_mask, //标记哪些词具有实际意义，需要进行attention操作
              num_attention_heads=num_attention_heads,//attention机制有多少个头
              size_per_head=attention_head_size, //每个头有多少维度的向量特征
              attention_probs_dropout_prob=attention_probs_dropout_prob,
              initializer_range=initializer_range,
              do_return_2d_tensor=True,
              batch_size=batch_size,
              from_seq_length=seq_length,
              to_seq_length=seq_length) 
          attention_heads.append(attention_head)

        attention_output = None
        if len(attention_heads) == 1:
          attention_output = attention_heads[0]
        else:
          attention_output = tf.concat(attention_heads, axis=-1)
         
        //添加全连接层：with `layer_input`.
        with tf.variable_scope("output"):
          attention_output = tf.layers.dense(
              attention_output,
              hidden_size,
              kernel_initializer=create_initializer(initializer_range))
          attention_output = dropout(attention_output, hidden_dropout_prob)
          attention_output = layer_norm(attention_output + layer_input) //进行残差连接

      // The activation is only applied to the "intermediate" hidden layer.
      with tf.variable_scope("intermediate"):
        intermediate_output = tf.layers.dense(
            attention_output,
            intermediate_size,
            activation=intermediate_act_fn,
            kernel_initializer=create_initializer(initializer_range))

      ///将经过全连接层，特征维度转换成3072的特征向量降维到768维，Down-project back to `hidden_size` then add the residual.
      with tf.variable_scope("output"):
        layer_output = tf.layers.dense(
            intermediate_output,
            hidden_size,
            kernel_initializer=create_initializer(initializer_range))
        layer_output = dropout(layer_output, hidden_dropout_prob)
        layer_output = layer_norm(layer_output + attention_output)
        prev_output = layer_output
        all_layer_outputs.append(layer_output)
  //判断是否需要返回所有结果
  if do_return_all_layers:
    final_outputs = []
    for layer_output in all_layer_outputs:
      final_output = reshape_from_matrix(layer_output, input_shape)
      final_outputs.append(final_output)
    return final_outputs
  else:
    final_output = reshape_from_matrix(prev_output, input_shape)
    return final_output

Self-Atention计算
Self-Attention计算中引入了三个特殊矩阵计算特征向量，即：Query、Key、Value，其中Query向量代表是后续将要区查询计算的向量，Key向量表示后续将要被查询计算的向量，Value向量表示当前的实际特征。

Self-Attention计算的程序实现如下：

def attention_layer(from_tensor,
                    to_tensor,
                    attention_mask=None,
                    num_attention_heads=1,
                    size_per_head=512,
                    query_act=None, #Q矩阵
                    key_act=None, #K矩阵
                    value_act=None, #V矩阵
                    attention_probs_dropout_prob=0.0,
                    initializer_range=0.02,
                    do_return_2d_tensor=False,
                    batch_size=None,
                    from_seq_length=None,
                    to_seq_length=None):
  
  def transpose_for_scores(input_tensor, batch_size, num_attention_heads,
                           seq_length, width):
    output_tensor = tf.reshape(
        input_tensor, [batch_size, seq_length, num_attention_heads, width])

    output_tensor = tf.transpose(output_tensor, [0, 2, 1, 3])
    return output_tensor

  from_shape = get_shape_list(from_tensor, expected_rank=[2, 3]) //（batch_size*seq_length，embedding_size）；Eg：(1024,768)
  to_shape = get_shape_list(to_tensor, expected_rank=[2, 3])//（batch_size*seq_length，embedding_size）；Eg：(1024,768)

  if len(from_shape) != len(to_shape): //判断from_shape和to_shape是否维度相同
    raise ValueError(
        "The rank of `from_tensor` must match the rank of `to_tensor`.")

  if len(from_shape) == 3:
    batch_size = from_shape[0]
    from_seq_length = from_shape[1]
    to_seq_length = to_shape[1]
  elif len(from_shape) == 2: //判断计算需要参数是否都存在
    if (batch_size is None or from_seq_length is None or to_seq_length is None):
      raise ValueError(
          "When passing in rank 2 tensors to attention_layer, the values "
          "for `batch_size`, `from_seq_length`, and `to_seq_length` "
          "must all be specified.")

  // Scalar dimensions referenced here:
  // B = batch size (number of sequences) ；Eg：8
  // F = `from_tensor` sequence length；Eg：128
  // T = `to_tensor` sequence length；Eg：128
  // N = `num_attention_heads`；attention机制中头的数量；Eg：12
  // H = `size_per_head`；一个头有多少维的特征向量；Eg：64

  from_tensor_2d = reshape_to_matrix(from_tensor) //转换成2维向量；Eg：(1024，768)
  to_tensor_2d = reshape_to_matrix(to_tensor) //转换成2维向量；Eg：(1024，768)

  //构建查询矩阵Q：`query_layer` = [B*F, N*H]；Eg：[8*128,12*64]:[1024,768]
  query_layer = tf.layers.dense(
      from_tensor_2d,
      num_attention_heads * size_per_head,
      activation=query_act,
      name="query",
      kernel_initializer=create_initializer(initializer_range)) 

  //构建备查矩阵K： `key_layer` = [B*T, N*H]；Eg：[8*128,12*64]:[1024,768]
  key_layer = tf.layers.dense(
      to_tensor_2d,
      num_attention_heads * size_per_head,
      activation=key_act,
      name="key",
      kernel_initializer=create_initializer(initializer_range)) 

  //构建实际特征矩阵V（与K矩阵完全一样）：`value_layer` = [B*T, N*H]；Eg：[8*128,12*64]
  value_layer = tf.layers.dense(
      to_tensor_2d,
      num_attention_heads * size_per_head,
      activation=value_act,
      name="value",
      kernel_initializer=create_initializer(initializer_range)) 

  // `query_layer` = [B, N, F, H]；变换维度，每句话只和自己做attention计算；Eg：[8,12,128,64]
  query_layer = transpose_for_scores(query_layer, batch_size,
                                     num_attention_heads, from_seq_length,
                                     size_per_head)

  //`key_layer` = [B, N, T, H]；Eg：[8,12,128,64]；变换维度和Q矩阵做内积
  key_layer = transpose_for_scores(key_layer, batch_size, num_attention_heads,
                                   to_seq_length, size_per_head)

  //`attention_scores` = [B, N, F, T]
  attention_scores = tf.matmul(query_layer, key_layer, transpose_b=True) //矩阵Q和矩阵K做内积
  attention_scores = tf.multiply(attention_scores,
                                 1.0 / math.sqrt(float(size_per_head))) //做softmax消除维度对结果的影响

  if attention_mask is not None: //引入mask机制，考虑实际句子长度
    //`attention_mask` = [B, 1, F, T]；Eg：[8,1,128,128]
    attention_mask = tf.expand_dims(attention_mask, axis=[1])
    
    adder = (1.0 - tf.cast(attention_mask, tf.float32)) * -10000.0 //mask标记为1的转换结果为0，标记为0的转换结果为无穷小，后续softmax计算中0转换成1，无穷小转换成0
    
    attention_scores += adder //内积值加上mask标记

  // Q和K做内积的概率值矩阵：`attention_probs` = [B, N, F, T]；Eg：[8,12,128,128]
  attention_probs = tf.nn.softmax(attention_scores) //softmax机制将q,k内积转换为概率值
  
  attention_probs = dropout(attention_probs, attention_probs_dropout_prob)

  //#将V矩阵转换成和概率值矩阵相同的维度以计算
  //`value_layer` = [B, T, N, H]
  value_layer = tf.reshape(
      value_layer,
      [batch_size, to_seq_length, num_attention_heads, size_per_head]) 
  // `value_layer` = [B, N, T, H]
  value_layer = tf.transpose(value_layer, [0, 2, 1, 3])

  //V矩阵和概率值矩阵进行矩阵乘法运算，计算出最终特征向量
  // `context_layer` = [B, N, F, H]
  context_layer = tf.matmul(attention_probs, value_layer) 
  //`context_layer` = [B, F, N, H]
  context_layer = tf.transpose(context_layer, [0, 2, 1, 3])

  //构建返回矩阵
  if do_return_2d_tensor:
    //`context_layer` = [B*F, N*H]
    context_layer = tf.reshape(
        context_layer,
        [batch_size * from_seq_length, num_attention_heads * size_per_head]) //将矩阵运算结果转换成输入矩阵维度相同的结果
  else:
    // `context_layer` = [B, F, N*H]
    context_layer = tf.reshape(
        context_layer,
        [batch_size, from_seq_length, num_attention_heads * size_per_head])
        
  return context_layer

模型输出

  //只返回[CLS]的特征向量
  def get_pooled_output(self):
    return self.pooled_output
  //返回序列中所有词的特征向量
  def get_sequence_output(self):
    return self.sequence_output

模型下游任务

def create_model(bert_config, is_training, input_ids, input_mask, segment_ids,
                 labels, num_labels, use_one_hot_embeddings): 
  """Creates a classification model."""
  model = modeling.BertModel(
      config=bert_config,
      is_training=is_training,
      input_ids=input_ids, //转换为编码的输入序列
      input_mask=input_mask, //标记词是否有实际意义
      token_type_ids=segment_ids, //标记词是属于哪一句话
      use_one_hot_embeddings=use_one_hot_embeddings)
      
  output_layer = model.get_pooled_output() //获取[CLS]返回的特征向量

  hidden_size = output_layer.shape[-1].value //获取特征向量的维度；Eg：768

  //创建分类概率矩阵，维度（标签个数，向量维度）；Eg：(2,768)
  output_weights = tf.get_variable(
      "output_weights", [num_labels, hidden_size],
      initializer=tf.truncated_normal_initializer(stddev=0.02))
  
  //构建偏置矩阵
  output_bias = tf.get_variable(
      "output_bias", [num_labels], initializer=tf.zeros_initializer())

  with tf.variable_scope("loss"):
    if is_training:
      output_layer = tf.nn.dropout(output_layer, keep_prob=0.9)

    logits = tf.matmul(output_layer, output_weights, transpose_b=True) //输出特征矩阵乘分类权重矩阵
    logits = tf.nn.bias_add(logits, output_bias) //加上偏置矩阵
    probabilities = tf.nn.softmax(logits, axis=-1) //计算概率值
    log_probs = tf.nn.log_softmax(logits, axis=-1) //分类器计算的概率分布

    one_hot_labels = tf.one_hot(labels, depth=num_labels, dtype=tf.float32) //实际标签的one_hot向量

    per_example_loss = -tf.reduce_sum(one_hot_labels * log_probs, axis=-1) //计算模型损失函数
    loss = tf.reduce_mean(per_example_loss)
    
    return (loss, per_example_loss, logits, probabilities)

总结

至此，我们讲完了BERT模型中的核心程序，包括：

对输入数据进行预处理将输入序列进行分词，映射成对应编码的数值序列input_ids，构建用来标识对应词属于那一句话的序列segment_ids及标识对应词是否具有实际意义的序列input_mask
Embedding层，将预处理后的输入序列映射成词向量序列，添加type_ids及位置编码等信息
Transformer层，通过self-Attention计算出实际特征向量，不断优化模型的权重参数

根据实际项目的需求，我们可以通过对数据处理模块及下游任务进行调整，使用BERT模型来实现多标签文本分类、QA问答和机器翻译等自然语言处理任务。

你可能感兴趣的:(NLP,bert,自然语言处理)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
go语言安装快速入门吉祥鸟hu
[TOC]go语言是什么Go是一个开源的编程语言，它能让构造简单、可靠且高效的软件变得容易。Go是从2007年末由RobertGriesemer,RobPike,KenThompson主持开发，后来还加入了IanLanceTaylor,RussCox等人，并最终于2009年11月开源，在2012年早些时候发布了Go1稳定版本。现在Go的开发已经是完全开放的，并且拥有一个活跃的社区如何安装环境笔者这
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
甘超波：NLP婚姻中如何与老人相处甘超波
哈喽，大家好我是甘超波，是一名NLP爱好者，每天一篇原创文章或视频，分享我的实战经验和案例，希望给你些启发和帮助看一下，在家庭中子女与老人观念不一致时案例1：在教育孩子方面，老人习惯用老一套教育方式教育孙子，子女受不了老人这种习惯，从而发生口舌之争？2：在生活习惯方面，老人喜欢吃剩菜剩饭，子女受不了老人这种习惯，从而发生口舌之争？.....这样的事情，我相信你或多或少都听过和看过，甚至了深有感悟。
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
ROS yaml参数文件的使用 Sun Shiteng ROS
举个例子，若在params.yaml文件中定义如下参数LidarImageFusion:points_src:"/hilbert_h/deskew/cloud_info"image_src:"/usb_cam0/image_raw"camera_info_src:"/home/hdj/fusion_slam/Color_SLAM_ws/src/hilbert_h/config/firefly_8s
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l