保持一份率性

谷歌BERT预训练源码解析（三）：训练过程

前言

本部分介绍BERT训练过程，BERT模型训练过程是在自己的TPU上进行的，这部分我没做过研究所以不做深入探讨。BERT针对两个任务同时训练。1.下一句预测。2.遮蔽词识别
下面介绍BERT的预训练模型run_pretraining.py是怎么训练的。

源码解析

主函数

训练过程主要用了estimator调度器。这个调度器支持自定义训练过程，将训练集传入之后自动训练。详情见注释

def main(_):
  tf.logging.set_verbosity(tf.logging.INFO)

  if not FLAGS.do_train and not FLAGS.do_eval:
    raise ValueError("At least one of `do_train` or `do_eval` must be True.")

  bert_config = modeling.BertConfig.from_json_file(FLAGS.bert_config_file)

  tf.gfile.MakeDirs(FLAGS.output_dir)

  input_files = []
  for input_pattern in FLAGS.input_file.split(","):
    input_files.extend(tf.gfile.Glob(input_pattern))

  tf.logging.info("*** Input Files ***")
  for input_file in input_files:
    tf.logging.info("  %s" % input_file)

  tpu_cluster_resolver = None
  if FLAGS.use_tpu and FLAGS.tpu_name:
    tpu_cluster_resolver = tf.contrib.cluster_resolver.TPUClusterResolver(
        FLAGS.tpu_name, zone=FLAGS.tpu_zone, project=FLAGS.gcp_project)

  is_per_host = tf.contrib.tpu.InputPipelineConfig.PER_HOST_V2
  run_config = tf.contrib.tpu.RunConfig(        #训练参数
      cluster=tpu_cluster_resolver,
      master=FLAGS.master,
      model_dir=FLAGS.output_dir,
      save_checkpoints_steps=FLAGS.save_checkpoints_steps,
      tpu_config=tf.contrib.tpu.TPUConfig(
          iterations_per_loop=FLAGS.iterations_per_loop,
          num_shards=FLAGS.num_tpu_cores,
          per_host_input_for_training=is_per_host))

  model_fn = model_fn_builder(       #自定义模型，用于estimator训练
      bert_config=bert_config,
      init_checkpoint=FLAGS.init_checkpoint,
      learning_rate=FLAGS.learning_rate,
      num_train_steps=FLAGS.num_train_steps,
      num_warmup_steps=FLAGS.num_warmup_steps,
      use_tpu=FLAGS.use_tpu,
      use_one_hot_embeddings=FLAGS.use_tpu)

  # If TPU is not available, this will fall back to normal Estimator on CPU
  # or GPU.
  estimator = tf.contrib.tpu.TPUEstimator(    #创建TPUEstimator
      use_tpu=FLAGS.use_tpu,
      model_fn=model_fn,
      config=run_config,
      train_batch_size=FLAGS.train_batch_size,
      eval_batch_size=FLAGS.eval_batch_size)

  if FLAGS.do_train:     #训练过程
    tf.logging.info("***** Running training *****")
    tf.logging.info("  Batch size = %d", FLAGS.train_batch_size)
    train_input_fn = input_fn_builder(     #创建输入训练集
        input_files=input_files,
        max_seq_length=FLAGS.max_seq_length,
        max_predictions_per_seq=FLAGS.max_predictions_per_seq,
        is_training=True)
    estimator.train(input_fn=train_input_fn, max_steps=FLAGS.num_train_steps)

  if FLAGS.do_eval:    #验证过程
    tf.logging.info("***** Running evaluation *****")
    tf.logging.info("  Batch size = %d", FLAGS.eval_batch_size)

    eval_input_fn = input_fn_builder(    #创建验证集
        input_files=input_files,
        max_seq_length=FLAGS.max_seq_length,
        max_predictions_per_seq=FLAGS.max_predictions_per_seq,
        is_training=False)

    result = estimator.evaluate(
        input_fn=eval_input_fn, steps=FLAGS.max_eval_steps)

    output_eval_file = os.path.join(FLAGS.output_dir, "eval_results.txt")
    with tf.gfile.GFile(output_eval_file, "w") as writer:
      tf.logging.info("***** Eval results *****")
      for key in sorted(result.keys()):
        tf.logging.info("  %s = %s", key, str(result[key]))
        writer.write("%s = %s\n" % (key, str(result[key])))

自定义模型

首先获取数据内容，传入到上一篇定义的模型中。对下一句预测任务取出模型的[CLS]结果。对遮蔽词预测任务取出模型的最后结果。然后分别计算loss值，最后将loss值相加。详情见注释

def model_fn_builder(bert_config, init_checkpoint, learning_rate,
                    num_train_steps, num_warmup_steps, use_tpu,
                    use_one_hot_embeddings):
 """Returns `model_fn` closure for TPUEstimator."""

 def model_fn(features, labels, mode, params):  # pylint: disable=unused-argument
   """The `model_fn` for TPUEstimator."""

   tf.logging.info("*** Features ***")
   for name in sorted(features.keys()):
     tf.logging.info("  name = %s, shape = %s" % (name, features[name].shape))
   #获取数据内容
   input_ids = features["input_ids"]
   input_mask = features["input_mask"]
   segment_ids = features["segment_ids"]
   masked_lm_positions = features["masked_lm_positions"]
   masked_lm_ids = features["masked_lm_ids"]
   masked_lm_weights = features["masked_lm_weights"]
   next_sentence_labels = features["next_sentence_labels"]

   is_training = (mode == tf.estimator.ModeKeys.TRAIN)
  传入到Bert模型中。
   model = modeling.BertModel(
       config=bert_config,
       is_training=is_training,
       input_ids=input_ids,
       input_mask=input_mask,
       token_type_ids=segment_ids,
       use_one_hot_embeddings=use_one_hot_embeddings)
   #遮蔽预测的batch_loss,平均loss，预测概率矩阵
   (masked_lm_loss,
    masked_lm_example_loss, masked_lm_log_probs) = get_masked_lm_output(
        bert_config, model.get_sequence_output(), model.get_embedding_table(),
        masked_lm_positions, masked_lm_ids, masked_lm_weights)
  #下一句预测的batch_loss,平均loss，预测概率矩阵
   (next_sentence_loss, next_sentence_example_loss,
    next_sentence_log_probs) = get_next_sentence_output(
        bert_config, model.get_pooled_output(), next_sentence_labels)
  #loss相加
   total_loss = masked_lm_loss + next_sentence_loss
  #获取所有变量
   tvars = tf.trainable_variables()

   initialized_variable_names = {}
   scaffold_fn = None
   #如果有之前保存的模型
   if init_checkpoint:
     (assignment_map, initialized_variable_names
     ) = modeling.get_assignment_map_from_checkpoint(tvars, init_checkpoint)
     if use_tpu:

       def tpu_scaffold():
         tf.train.init_from_checkpoint(init_checkpoint, assignment_map)
         return tf.train.Scaffold()

       scaffold_fn = tpu_scaffold
     else:
       tf.train.init_from_checkpoint(init_checkpoint, assignment_map)

   tf.logging.info("**** Trainable Variables ****")
   #如果有之前保存的模型
   for var in tvars:
     init_string = ""
     if var.name in initialized_variable_names:
       init_string = ", *INIT_FROM_CKPT*"
     tf.logging.info("  name = %s, shape = %s%s", var.name, var.shape,
                     init_string)
 
   output_spec = None
   if mode == tf.estimator.ModeKeys.TRAIN:
     train_op = optimization.create_optimizer(    #自定义好的优化器
         total_loss, learning_rate, num_train_steps, num_warmup_steps, use_tpu)

     output_spec = tf.contrib.tpu.TPUEstimatorSpec(  #Estimator要求返回一个EstimatorSpec对象
         mode=mode,
         loss=total_loss,
         train_op=train_op,
         scaffold_fn=scaffold_fn)
    #验证过程
   elif mode == tf.estimator.ModeKeys.EVAL:

     def metric_fn(masked_lm_example_loss, masked_lm_log_probs, masked_lm_ids,
                   masked_lm_weights, next_sentence_example_loss,
                   next_sentence_log_probs, next_sentence_labels):
       """Computes the loss and accuracy of the model."""
       masked_lm_log_probs = tf.reshape(masked_lm_log_probs,
                                        [-1, masked_lm_log_probs.shape[-1]])   #概率矩阵转成[batch_size*max_pred_pre_seq,vocab_size]
       masked_lm_predictions = tf.argmax(
           masked_lm_log_probs, axis=-1, output_type=tf.int32)  #取最大值位置为输出
       masked_lm_example_loss = tf.reshape(masked_lm_example_loss, [-1])  #每句loss列表 [batch_size*max_pred_per_seq]
       masked_lm_ids = tf.reshape(masked_lm_ids, [-1])
       masked_lm_weights = tf.reshape(masked_lm_weights, [-1])
       masked_lm_accuracy = tf.metrics.accuracy(   #计算准确率
           labels=masked_lm_ids,
           predictions=masked_lm_predictions,
           weights=masked_lm_weights)
       masked_lm_mean_loss = tf.metrics.mean(  #计算平均loss
           values=masked_lm_example_loss, weights=masked_lm_weights)

       next_sentence_log_probs = tf.reshape(
           next_sentence_log_probs, [-1, next_sentence_log_probs.shape[-1]])
       next_sentence_predictions = tf.argmax(   #获取最大位置为输出
           next_sentence_log_probs, axis=-1, output_type=tf.int32)
       next_sentence_labels = tf.reshape(next_sentence_labels, [-1])
       next_sentence_accuracy = tf.metrics.accuracy(   #计算准确率
           labels=next_sentence_labels, predictions=next_sentence_predictions)
       next_sentence_mean_loss = tf.metrics.mean(   计算平均loss
           values=next_sentence_example_loss)

       return {
           "masked_lm_accuracy": masked_lm_accuracy,
           "masked_lm_loss": masked_lm_mean_loss,
           "next_sentence_accuracy": next_sentence_accuracy,
           "next_sentence_loss": next_sentence_mean_loss,
       }

     eval_metrics = (metric_fn, [
         masked_lm_example_loss, masked_lm_log_probs, masked_lm_ids,
         masked_lm_weights, next_sentence_example_loss,
         next_sentence_log_probs, next_sentence_labels
     ])
     output_spec = tf.contrib.tpu.TPUEstimatorSpec( #Estimator要求返回一个EstimatorSpec对象
         mode=mode,
         loss=total_loss,
         eval_metrics=eval_metrics,
         scaffold_fn=scaffold_fn)
   else:
     raise ValueError("Only TRAIN and EVAL modes are supported: %s" % (mode))

   return output_spec

 return model_fn

遮蔽词预测

输入BERT模型的最后一层encoder，输出遮蔽词预测任务的loss和概率矩阵。详情见注释

def get_masked_lm_output(bert_config, input_tensor, output_weights, positions,
                         label_ids, label_weights):
                         #这里的input_tensor是模型中传回的最后一层结果 [batch_size,seq_length,hidden_size]。
                         #output_weights是词向量表 [vocab_size,embedding_size]
  """Get loss and log probs for the masked LM."""
  #获取positions位置的所有encoder（即要预测的那些位置的encoder）
  input_tensor = gather_indexes(input_tensor, positions)   #[batch_size*max_pred_pre_seq,hidden_size]

  with tf.variable_scope("cls/predictions"):
    # We apply one more non-linear transformation before the output layer.
    # This matrix is not used after pre-training.
    with tf.variable_scope("transform"):
      input_tensor = tf.layers.dense(    #传入一个全连接层 输出shape [batch_size*max_pred_pre_seq,hidden_size]
          input_tensor,
          units=bert_config.hidden_size,
          activation=modeling.get_activation(bert_config.hidden_act),
          kernel_initializer=modeling.create_initializer(
              bert_config.initializer_range))
      input_tensor = modeling.layer_norm(input_tensor) 

    # The output weights are the same as the input embeddings, but there is
    # an output-only bias for each token.
    output_bias = tf.get_variable(
        "output_bias",
        shape=[bert_config.vocab_size],
        initializer=tf.zeros_initializer())
    logits = tf.matmul(input_tensor, output_weights, transpose_b=True)  #[batch_size*max_pred_pre_seq,vocab_size]
    logits = tf.nn.bias_add(logits, output_bias)  #加bias
    log_probs = tf.nn.log_softmax(logits, axis=-1)   #[batch_size*max_pred_pre_seq,vocab_size]

    label_ids = tf.reshape(label_ids, [-1])    #[batch_size*max_pred_per_seq]
    label_weights = tf.reshape(label_weights, [-1])

    one_hot_labels = tf.one_hot(        #[batch_size*max_pred_per_seq,vocab_size]
        label_ids, depth=bert_config.vocab_size, dtype=tf.float32)   #label id转one hot

    # The `positions` tensor might be zero-padded (if the sequence is too
    # short to have the maximum number of predictions). The `label_weights`
    # tensor has a value of 1.0 for every real prediction and 0.0 for the
    # padding predictions.
    per_example_loss = -tf.reduce_sum(log_probs * one_hot_labels, axis=[-1])  #[batch_size*max_pred_per_seq] 
    numerator = tf.reduce_sum(label_weights * per_example_loss) #[1] 一个batch的loss
    denominator = tf.reduce_sum(label_weights) + 1e-5
    loss = numerator / denominator    #平均loss

  return (loss, per_example_loss, log_probs)

下一句预测

输入BERT模型CLS的encoder，输出下一句预测任务的loss和概率矩阵,详情见注释

def get_next_sentence_output(bert_config, input_tensor, labels):
#input_tensor shape  [batch_size,hidden_size]
  """Get loss and log probs for the next sentence prediction."""

  # Simple binary classification. Note that 0 is "next sentence" and 1 is
  # "random sentence". This weight matrix is not used after pre-training.
  with tf.variable_scope("cls/seq_relationship"):
    output_weights = tf.get_variable(
        "output_weights",
        shape=[2, bert_config.hidden_size],
        initializer=modeling.create_initializer(bert_config.initializer_range))
    output_bias = tf.get_variable(
        "output_bias", shape=[2], initializer=tf.zeros_initializer())   #[batch_size,hidden_size]
 
    logits = tf.matmul(input_tensor, output_weights, transpose_b=True)  #[batch_size,2]
    logits = tf.nn.bias_add(logits, output_bias)   #[batch_size,2]
    log_probs = tf.nn.log_softmax(logits, axis=-1)
    labels = tf.reshape(labels, [-1])
    one_hot_labels = tf.one_hot(labels, depth=2, dtype=tf.float32)   #[batch_size,2]
    per_example_loss = -tf.reduce_sum(one_hot_labels * log_probs, axis=-1)  #[batch_size]
    loss = tf.reduce_mean(per_example_loss)    #[1]
    return (loss, per_example_loss, log_probs)

规范化数据集

Estimator要求模型的输入为特定格式(from_tensor_slices)，所以要对数据进行类封装

def input_fn_builder(input_files,
                  max_seq_length,
                  max_predictions_per_seq,
                  is_training,
                  num_cpu_threads=4):
"""Creates an `input_fn` closure to be passed to TPUEstimator."""

def input_fn(params):
 """The actual input function."""
 batch_size = params["batch_size"]

 name_to_features = {
     "input_ids":
         tf.FixedLenFeature([max_seq_length], tf.int64),
     "input_mask":
         tf.FixedLenFeature([max_seq_length], tf.int64),
     "segment_ids":
         tf.FixedLenFeature([max_seq_length], tf.int64),
     "masked_lm_positions":
         tf.FixedLenFeature([max_predictions_per_seq], tf.int64),
     "masked_lm_ids":
         tf.FixedLenFeature([max_predictions_per_seq], tf.int64),
     "masked_lm_weights":
         tf.FixedLenFeature([max_predictions_per_seq], tf.float32),
     "next_sentence_labels":
         tf.FixedLenFeature([1], tf.int64),
 }

 # For training, we want a lot of parallel reading and shuffling.
 # For eval, we want no shuffling and parallel reading doesn't matter.
 if is_training:
   d = tf.data.Dataset.from_tensor_slices(tf.constant(input_files))
   d = d.repeat()    #重复
   d = d.shuffle(buffer_size=len(input_files))    #打乱

   # `cycle_length` is the number of parallel files that get read.
   cycle_length = min(num_cpu_threads, len(input_files))

   # `sloppy` mode means that the interleaving is not exact. This adds
   # even more randomness to the training pipeline.
   d = d.apply(
       tf.contrib.data.parallel_interleave(  #生成嵌套数据集，并且输出其元素隔行交错
           tf.data.TFRecordDataset, 
           sloppy=is_training,
           cycle_length=cycle_length))
   d = d.shuffle(buffer_size=100)
 else:
   d = tf.data.TFRecordDataset(input_files)
   # Since we evaluate for a fixed number of steps we don't want to encounter
   # out-of-range exceptions.
   d = d.repeat()

 # We must `drop_remainder` on training because the TPU requires fixed
 # size dimensions. For eval, we assume we are evaluating on the CPU or GPU
 # and we *don't* want to drop the remainder, otherwise we wont cover
 # every sample.
 d = d.apply(
     tf.contrib.data.map_and_batch(   #结构转换
         lambda record: _decode_record(record, name_to_features),
         batch_size=batch_size,
         num_parallel_batches=num_cpu_threads,
         drop_remainder=True))
 return d

return input_fn

分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
在美国，现在有超过10万台atm机允许你用借记卡购买比特币麦田财经
在美国，通过普通自动取款机购买比特币已经成为现实。这一进展预示着Genmega和LibertyX之间最近的合作关系。通过这种合作，人们可以用借记卡从多台atm机上购买比特币。通过ATM机使用借记卡购买比特币“金融时报”2018年10月15日(星期一)发布的一份新闻稿显示，该国所有的Genmega自动取款机现在基本上都是比特币自动取款机。在合作的基础上，Genmega自动取款机现在将提供Freety
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
敏捷史话（六）：也许这个人能拯救你的代码 —— Robert C. Martin 敏捷初级运动员
本文摘自敏捷开发。RobertC.Martin（罗伯特·C·马丁），作为世界级软件开发大师、设计模式和敏捷开发先驱、C++Report杂志前主编，也是敏捷联盟（AgileAlliance）的第一任主席，我们尊称他为“Bob大叔（UncleBob）”。如今，年逾六十的Bob大叔过着典型的“斜杠”生活，他不仅是优秀的程序员、畅销书作家、演讲家，以及视频制作者，还是一名柔术爱好者。多年学习柔术的经历，带
[学习] Hilbert变换：从数学原理到物理意义的深度解析与仿真实验（完整实验代码）极客不孤独学习概率论信号处理 python 数学建模
Hilbert变换：从数学原理到物理意义的深度解析与仿真实验文章目录Hilbert变换：从数学原理到物理意义的深度解析与仿真实验一、数学原理二、作用与物理意义1.构造解析信号2.相位移动特性3.应用场景三、仿真实验实验1：正弦信号的Hilbert变换实验2：调幅信号的Hilbert变换四、结论Hilbert变换是信号处理领域中一项经典而强大的工具，广泛应用于瞬时频率分析、调制解调、相位提取等场景。
高效对接全球车企：知行之桥满足科伯舒特Kromberg & Schubert EDI核心需求
科博舒特(Kromberg&Schubert,K&S)是德国顶尖的汽车线束系统供应商，服务于全球各大知名车企。作为其供应商，满足K&S严苛的EDI要求是实现高效合作、进入其全球供应链的关键环节。知行之桥EDI系统专为应对此类挑战设计，本文将详细解析K&S的核心EDI需求，并展示知行之桥如何提供稳定、高效、自动化的对接方案，助力供应商轻松达标。Kromberg&SchubertEDI项目目标与K&S
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理深度学习机器学习微调 SFT
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（如GPT、BERT）基础上，利用标注数据集对模型进
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
HW prefetcher之CDP(Content-Directed Data Prefetching) Chip Design xPU Chip Design CPU GEM5
CDP是Content-DirectedDataPrefetching的缩写，它基于RobertCooksey和StephanJourdan提出的"Stateless,Content-DirectedDataPrefetchingMechanism"论文实现。是一种内容导向的数据预取机制，CDP通过分析内存中的数据内容来识别可能的指针，当识别到指针时，它会预取指针指向的内存地址。CDP使用VPN表
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
bert中 [CLS] 和 [SEP] 表示什么意思？
[CLS]和[SEP]是BERT中的两个特殊标记符号，在BERT的输入文本中起到特殊的作用。[CLS]是"classification"的缩写，在文本分类任务中，它通常表示句子或文档的开头。在BERT中，[CLS]对应着输入文本中第一个词的词向量，输出层中的第一个神经元通常会被用来预测文本的类别。[SEP]是"separator"的缩写，它通常表示句子或文档的结尾。在BERT中，[SEP]对应着输
新型BERT勒索软件肆虐：多线程攻击同时针对Windows、Linux及ESXi系统
趋势科技安全分析师发现，一个代号为BERT（内部追踪名WaterPombero）的新型勒索软件组织正在亚洲、欧洲和美国展开多线程攻击。该组织主要针对医疗保健、科技和会展服务行业，其活动范围显示其正成为勒索软件生态中的新兴威胁力量。攻击技术分析在Windows系统中，BERT通过PowerShell加载器（start.ps1）实施攻击，该脚本会执行以下操作：禁用WindowsDefender防火墙和
Ntfs!LfsReadRestart函数和Ntfs!_LFCB-＞LogHeadBuffer的关系 sitelist nt4源代码分析 LfsReadRestart LogHeadBuffer RESTART_PAGE_HE RT_PAGE_HEADER
Ntfs!LfsReadRestart函数和Ntfs!_LFCB->LogHeadBuffer的关系第0部分：////RememberthislogfileintheLfcb.//ThisLfcb->FileObject=LogFile;SetFlag(ThisLfcb->Flags,(LFCB_READ_FIRST_RESTART|LFCB_READ_SECOND_RESTART));if(Lf
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
量子计算的数学地基：解码希尔伯特空间的魔法牧之112 量子计算
在科技圈，“量子计算”早已不是陌生的名词。从谷歌的“量子霸权”实验到IBM的量子云服务，从药物研发的分子模拟到密码学的革命性突破，量子计算正以颠覆式的姿态重塑着人类对计算的认知。但在这些令人惊叹的应用背后，藏着一个关键的数学基石——希尔伯特空间（HilbertSpace）。它像一片隐形的“量子舞台”，支撑着量子比特的叠加、纠缠与计算，是理解量子计算本质绕不开的概念。一、从“普通空间”到“量子空间”
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
python transformers库笔记（BertForTokenClassification类）夏末蝉未鸣01 自然语言处理 python transformer 自然语言处理
BertForTokenClassification类BertForTokenclassification类是HuggingFacetransformers库中专门为基于BERT的序列标注任务（如命名实体识别NER、词性标注POS）设计的模型类。它在BERT的基础上添加了一个线性分类层，用于对每个token进行分类。1、特点任务类型：专为Token-level分类设计，即对输入序列中的每一个tok
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
SEO优化技巧深度解析：从算法逻辑到实战策略的全链路突破 boyedu 网站建设网站建设网站运营网站架构
第一章搜索引擎算法逻辑：SEO优化的底层密码1.1算法进化史：从关键词匹配到意图理解搜索引擎算法经历了从简单关键词匹配到复杂语义理解的跨越式发展。早期算法以PageRank为核心，通过分析网页间链接关系评估权威性。随着Hummingbird算法的推出，搜索引擎开始解析自然语言，BERT算法进一步实现上下文语义理解。当前算法已形成多维度评估体系，涵盖内容质量、用户体验、权威性建设等层面。以Googl
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
03每日简报20250705 Alvin_YD 每日简报人工智能娱乐社交电子媒体传媒
每日简报新闻简报：AI行业信任危机浮现标题：知名科技作者AlbertoRomero发文《我对AI行业正在失去所有信任》来源：TheAlgorithmicBridge（算法之桥）核心内容：作者立场：长期支持AI技术的作者AlbertoRomero公开表达对行业信任的崩塌，称"作为一个支持者，我本不愿有这种感受"。行业痛点：未具体说明的行业乱象导致公众信任度下降暗示AI发展过程中存在伦理或透明度问题传
模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p