h1021456873

bert服务化&bert模型部署&文本相似度

本文提供另一个 html 版本。

Bert 是 Google 在 2018 年 10 月提出的一种新的语言模型，全称为 Bidirectional Encoder Representations from Transformers（Bert）。和近年来的一些语言模型譬如 ELMo 不同，BERT 通过在所有层联合调节左右两个上下文来预训练深层双向表示，此外还通过组装长句作为输入增强了对长程语义的理解。Bert 可以被微调以广泛用于各类任务，仅需额外添加一个输出层，无需进行针对任务的模型结构调整，就在文本分类，语义理解等一些任务上取得了 state-of-the-art 的成绩。

Bert 的两种用法

Bert 的论文中对预训练好的 Bert 模型设计了两种应用于具体领域任务的用法，一种是 fine-tune（微调） 方法，一种是 feature extract（特征抽取） 方法。

fine tune（微调）方法指的是加载预训练好的 Bert 模型，其实就是一堆网络权重的值，把具体领域任务的数据集喂给该模型，在网络上继续反向传播训练，不断调整原有模型的权重，获得一个适用于新的特定任务的模型。这很好理解，就相当于利用 Bert 模型帮我们初始化了一个网络的初始权重，是一种常见的迁移学习手段。

feature extract（特征抽取）方法指的是调用预训练好的 Bert 模型，对新任务的句子做句子编码，将任意长度的句子编码成定长的向量。编码后，作为你自己设计的某种模型（例如 LSTM、SVM 等都由你自己定）的输入，等于说将 Bert 作为一个句子特征编码器，这种方法没有反向传播过程发生，至于如果后续把定长句子向量输入到 LSTM 种继续反向传播训练，那就不关 Bert 的事了。这也是一种常见的语言模型用法，同类的类似 ELMo。

两种方式的适用场景

两种方法各有优劣。首先。fine tune 的使用是具有一定限制的。预训练模型的模型结构是为预训练任务设计的，所以显然的，如果我们要在预训练模型的基础上进行再次的反向传播，那么我们做的具体领域任务对网络的设计要求必然得和预训练任务是一致的。那么 Bert 预训练过程究竟在做什么任务呢？Bert 一共设计了两个任务。

任务一：屏蔽语言模型（Masked LM）

该任务类似于高中生做的英语完形填空，将语料中句子的部分单词进行遮盖，使用 [MASK] 作为屏蔽符号，然后预测被遮盖词是什么。例如对于原始句子 my dog is hairy ，屏蔽后 my dog is [MASK]。该任务中，隐层最后一层的 [MASK] 标记对应的向量会被喂给一个对应词汇表的 softmax 层，进行单词分类预测。当然具体实现还有很多问题，比如 [MASK] 会在训练集的上下文里出现，而测试集里永远没有，参见论文，此处不做详细介绍。

任务二：相邻句子判断（Next Sentence Prediction）

语料中的句子都是有序邻接的，我们使用 [SEP] 作为句子的分隔符号，[CLS] 作为句子的分类符号，现在对语料中的部分句子进行打乱并拼接，形成如下这样的训练样本：

Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]
Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

输入网络后，针对隐层最后一层 [CLS] 符号的词嵌入做 softmax 二分类，做一个预测两个句子是否是相邻的二分类任务。

可以看出，这两种任务都在训练过程中学习输入标记符号的 embedding，再基于最后一层的 embedding 仅添加一个输出层即可完成任务。该过程还可能引入一些特殊词汇符号，通过学习特殊符号譬如 [CLS] 的 embedding 来完成具体任务。

fine tune

所以，如果我们要来 fine-tune 做任务，也是这个思路：首先对原有模型做适当构造，一般仅需加一输出层完成任务。Bert 的论文对于若干种常见任务做了模型构造的示例，如下：

图 a 和 b 是序列级别的任务，c 和 d 是词级别的任务。a 做句子对分类任务，b 做单句分类任务，构造非常简单，将图中红色箭头指的 [CLS] 对应的隐层输出接一个 softmax 输出层。c 做的是阅读理解问题，d 做的是命名实体识别（NER），模型构造也类似，取图中箭头指出的部分词对应的隐层输出分别接一个分类输出层完成任务。

类似以上这些任务的设计，可以将预训练模型 fine-tuning 到各类任务上，但也不是总是适用的，有些 NLP 任务并不适合被 Transformer encoder 架构表示，而是需要适合特定任务的模型架构。因此基于特征的方法就有用武之地了。

feature extract

基于特征的方法和 ELMo 这类动生成态语境向量的模型是相同的使用方法：将输入序列的一层或多层的隐层状态拼接起来，作为序列的表示，然后作为下游任务模型的输入。这样带来的另一个好处是，可以把学习训练数据的表示这样一个复杂度很高的过程一次运行完成，然后基于序列的良好表示，进行大量低成本的模型实验。Bert 论文做了一些实验，对比了选取不同层数对模型性能的影响。

可以看出尽管基于 feature 的方法性能都不如全部层 fine tune 的方法，但拼接最后四个隐藏层的性能已经足够接近了。

如何 Coding？

Bert 官方提供了 tensorflow 版本的代码，可以 fine tune 和 feature extract。第三方还提供了 Pytorch 版本的代码。此外，第三方 bert-as-service 项目封装了 feature extract 的方法，能以 web 接口的形式提供句子编码服务。建议如果是 fine tune，可以采用官方项目的代码，如果是特征抽取，则可以使用 bert-as-service 项目。

以下分别介绍基于 Bert 官方代码做 fine tune，以及利用 bert-as-service 该项目做句子编码。

基于 Bert 官方代码 fine tune 做句子分类任务

下载预训练模型

预训练过程代价很高，Google 声称目前放出的 12 层的 Base 版模型是 4 块 Cloud TPU 训练四天完成的，而 24 层的 Large 版本的模型则是 16 块 TPU 训练的。由于内存不足问题，普通 GPU 例如 GTX 1080 Ti、Titan X 都不能做预训练。因此我们下载 Google 提供的预训练模型，提供了多语版本的和中文版本的模型。

中文版的模型是由维基百科语料训练而成的，并且与英文基于词的模型不同，中文是基于字做的。
下载后解压如下，这些文件待会儿都要用到：

$ tree chinese_L-12_H-768_A-12/
chinese_L-12_H-768_A-12/
├── bert_config.json                     <- 模型配置文件
├── bert_model.ckpt.data-00000-of-00001 
├── bert_model.ckpt.index
├── bert_model.ckpt.meta
└── vocab.txt                            <- 模型词汇表文件

0 directories, 5 files

硬件资源要求

Google 官方表示用给定的超参对 Bert-Base 进行 fine tune 至少需要 12GB RAM。结合源码和我的测试，大概情况如下：

train_batch_size=32, max_seq_len=128, memory=11615MB
train_batch_size=32, max_seq_len=64, memory=8460MB

如果想消耗更少的内存，可以减少 batch size，我目前没做更多测试。

代码纵览

下载官方的 tensorflow 版本的代码如下：

$ tree bert
bert
├── CONTRIBUTING.md
├── create_pretraining_data.py
├── extract_features.py               <- feature extract 做句子编码的例子
├── __init__.py
├── LICENSE
├── modeling.py
├── modeling_test.py
├── multilingual.md
├── optimization.py
├── optimization_test.py
├── predicting_movie_reviews_with_bert_on_tf_hub.ipynb
├── README.md
├── requirements.txt
├── run_classifier.py                 <- fine-tune 做句子分类的例子
├── run_classifier_with_tfhub.py
├── run_pretraining.py                <- 预训练脚本
├── run_squad.py                      <- fine-tune 做阅读理解的例子
├── sample_text.txt
├── tokenization.py                   <- 分词
└── tokenization_test.py

0 directories, 20 files

包含了预训练脚本以及调用预训练模型 fine-tune 做句子分类的脚本、fine-tune 做 SQuAD 任务的脚本，以及用于 feature extract 的脚本等。

run_classifier.py 是我们主要关注和修改的代码，这是一个句子分类的脚本，可以用来进行文本分类模型的训练（train）、评估（dev）、预测（predict）。文本分类包括单句分类，输入一个句子，给出一个类标；句子对分类，即输入两个句子，给出一个类标。run_classifier.py 将他们都封装成了同一个任务，将多个句子中间用 [SEP] 分隔符连接，因此统一成了单句分类任务。

领域分类任务

我们做一个公安领域的问题分类任务，假设数据集如下：

train.tsv

场景  问题
户政管理    我和男朋友分生的时候发现自己已经怀孕了，我想把孩子生下来，可孩子的户口怎么办
户政管理    改一下户主快不快的要几天？
出入境管理   你好,我想咨询一下:12月21日我们一家在曲靖办理了港澳通行证,当天就收到云南省公安厅出入境管理局发来的"已受理完成"的短信通知,可在12月27日我和我父亲又收到云南省公安厅出入境管理局发来的与21日相同的短信!所以想咨询一下办理港澳通行证的15个工作日是从21日还是27号开始计算时间啊?因已报团参加港澳游,所以特别急,请尽快回复,谢谢!请问我户口不在昆明，但我身份证是昆明的，是在昆明读大学的时候办的，我要办理港澳通行证，在昆明可以办理吗？还是必须要回户口所在地办理。
户政管理    想把户口迁到外省去，大概几天可以办好？
消防管理    如何预防吸烟引发的火灾?
道路交通    换领机动车登记证书，要带车一起去吗
道路交通    增加客运班线也要提出申请吗
治安管理    一般多久能把危险化学品处置方案备案管理下来
治安管理    周六能办理公章刻制备案吗？
禁毒管理    非法集资的立案金额
治安管理    娱乐场所备案申请要几天能办好
道路交通    校车标牌核发也需要到车管所吗？

我们将数据划分为 train.tsv、dev.tsv、test.tsv。

定义数据读取类

run_classifier.py 声明了 DataProcessor 基类作为任务的数据处理基类，并实现了 XNLI、MultiNLI、MRPC、CoLA 这几个任务数据集的读取方式作为样例。该类很简单，仅需子类实现实现父类定义的如下四个方法：

class DataProcessor(object):
  """Base class for data converters for sequence classification data sets."""

  def get_train_examples(self, data_dir):
    """Gets a collection of InputExamples for the train set."""
    raise NotImplementedError()

  def get_dev_examples(self, data_dir):
    """Gets a collection of InputExamples for the dev set."""
    raise NotImplementedError()

  def get_test_examples(self, data_dir):
    """Gets a collection of InputExamples for prediction."""
    raise NotImplementedError()

  def get_labels(self):
    """Gets the list of labels for this data set."""
    raise NotImplementedError()

参考写好的几个子类实现，我们首先继承 DataProcessor ，定义我们的领域分类任务的数据处理类 DomainCProcessor：

class DomainCProcessor(DataProcessor):
    """Processor for the DomainC corpus"""
    pass

实现 `get_train_examples`、`get_dev_examples`、`get_test_examples`

这三个函数，分别对应训练、开发、测试的数据集的读取，输入参数 data_dir 由脚本启动时的 data_dir 参数获得，这三个函数需要把数据集每一行数据读为一个 InputExample，所有行构成 list[InputExample]。InputExample 声明如下

class InputExample(object):
  """A single training/test example for simple sequence classification."""

  def __init__(self, guid, text_a, text_b=None, label=None):
    """Constructs a InputExample.

    Args:
      guid: Unique id for the example.
      text_a: string. The untokenized text of the first sequence. For single
        sequence tasks, only this sequence must be specified.
      text_b: (Optional) string. The untokenized text of the second sequence.
        Only must be specified for sequence pair tasks.
      label: (Optional) string. The label of the example. This should be
        specified for train and dev examples, but not for test examples.
    """
    self.guid = guid
    self.text_a = text_a
    self.text_b = text_b
    self.label = label

InputExample 仅由唯一id、句子a、句子b、类标，这四个属性构成，对于单句任务，句子 b 置 None。

所以我们要保证这三个函数 return 值是下面这样的形式即可：

return [
    InputExample('0', '想把户口迁到外省去，大概几天可以办好？', None, '户政管理'), 
    InputExample('1', '校车标牌核发也需要到车管所吗？', None, '道路交通'), 
    # ...
]

一个完整的实现如下：

class DomainCProcessor(DataProcessor):
  def get_train_examples(self, data_dir):
        return self._create_examples(
            self._read_tsv(os.path.join(data_dir, "train.tsv")), "train")

    def get_dev_examples(self, data_dir):
        return self._create_examples(
            self._read_tsv(os.path.join(data_dir, "dev.tsv")), "dev")

    def get_test_examples(self, data_dir):
        return self._create_examples(
            self._read_tsv(os.path.join(data_dir, "test.tsv")), "test")

    @classmethod
    def _read_tsv(cls, input_file, quotechar=None):
        """读取 tsv 的工具方法"""
        with tf.gfile.Open(input_file, "r") as f:
        reader = csv.reader(f, delimiter="\t", quotechar=quotechar)
        lines = []
        for line in reader:
            lines.append(line)
        return lines

    def _create_examples(self, lines, set_type):
        """创建 InputExample 对象的工具方法"""
        examples = []
        for (i, line) in enumerate(lines):
            if i == 0:
                continue
            guid = "%s-%s" % (set_type, i)
            text_a = tokenization.convert_to_unicode(line[1])
            if set_type == "test": # 对于测试集，去除真实标记
                label = "上网服务管理"
            else:
                label = tokenization.convert_to_unicode(line[0])
            examples.append(
                InputExample(guid=guid, text_a=text_a, text_b=None, label=label))
        return examples

    def get_labels(self):
        return ["上网服务管理", "出入境管理", "刑事案件管辖", "户政管理", "治安管理", "消防管理", "禁毒管理", "道路交通"]

训练

一旦定义好数据读取类，就可以训练模型了。启动命令如下：

BERT_BASE_DIR=/bert/chinese_L-12_H-768_A-12 
python run_classifier.py \
  --task_name=DomainC \
  --do_train=true \
  --do_eval=true \
  --do_predict=false \
  --data_dir='/bert/data/domainc' \
  --vocab_file=$BERT_BASE_DIR/vocab.txt \
  --bert_config_file=$BERT_BASE_DIR/bert_config.json \
  --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
  --max_seq_length=128 \
  --train_batch_size=32 \
  --learning_rate=2e-5 \
  --num_train_epochs=3.0 \
  --output_dir=/tmp/domainc_output/

参数中 do_train、do_eval 都是 true，因此会在 train.tsv 上训练，dev.tsv 上评估模型效果。至于 predict，我们下一节介绍。

其中的超参，官方表示如下设定在所有任务上都表现很好：

• Batch size: 16, 32
• Learning rate (Adam): 5e-5, 3e-5, 2e-5
• Number of epochs: 3, 4

训练完毕，可以看到输出评估结果如下：

INFO:tensorflow:***** Eval results *****
INFO:tensorflow:  eval_accuracy = 0.9213818
INFO:tensorflow:  eval_loss = 0.18872626
INFO:tensorflow:  global_step = 4721
INFO:tensorflow:  loss = 0.1886153

推断

run_classifier.py 主要设计为单次运行的目的，如果把 do_predict 参数设置成 True，倒也确实可以预测，但输入样本是基于文件的，并且不支持将模型持久化在内存里进行 serving，因此需要自己改一些代码，达到两个目的：

1.允许将模型加载到内存里。允许一次加载，多次预测。
2.允许读取非文件中的样本进行预测。譬如从标准输入流读取样本输入。

将模型加载到内存里

run_classifier.py 的 859 行加载了模型为 estimator 变量，但是遗憾的是 estimator 原生并不支持一次加载，多次预测。参见：https://guillaumegenthial.github.io/serving-tensorflow-estimator.html。

因此需要使用 estimator.export_saved_model() 方法把 estimator 重新导出成 tf.saved_model。

代码如下（参考了 https://github.com/bigboNed3/bert_serving）：

def serving_input_fn():
    label_ids = tf.placeholder(tf.int32, [None], name='label_ids')
    input_ids = tf.placeholder(tf.int32, [None, FLAGS.max_seq_length], name='input_ids')
    input_mask = tf.placeholder(tf.int32, [None, FLAGS.max_seq_length], name='input_mask')
    segment_ids = tf.placeholder(tf.int32, [None, FLAGS.max_seq_length], name='segment_ids')
    input_fn = tf.estimator.export.build_raw_serving_input_receiver_fn({
        'label_ids': label_ids,
        'input_ids': input_ids,
        'input_mask': input_mask,
        'segment_ids': segment_ids,
    })()
    return input_fn

estimator._export_to_tpu = False
estimator.export_savedmodel('/bert/my_model', serving_input_fn)

执行后，可以

$ ls /bert/my_model
1553914434

会有一个时间戳命名的模型目录，因此我们最终的模型目录为 /bert/my_model/1553914434。

这样之后我们就不需要第 859 行那个 estimator 对象了，可以自行从刚刚的模型目录加载模型：

predict_fn = tf.contrib.predictor.from_saved_model('/bert/my_model/1553914434')

从内存中读取样本数据并预测

基于上面的 predict_fn 变量，就可以直接进行预测了。下面是一个从标准输入流读取问题样本，并预测分类的样例代码：

while True:
    question = input("> ")
    predict_example = InputExample("id", question, None, '某固定伪标记')
    feature = convert_single_example(100, predict_example, label_list,
                                        FLAGS.max_seq_length, tokenizer)

    prediction = predict_fn({
        "input_ids":[feature.input_ids],
        "input_mask":[feature.input_mask],
        "segment_ids":[feature.segment_ids],
        "label_ids":[feature.label_id],
    })
    probabilities = prediction["probabilities"]
    label = label_list[probabilities.argmax()]
    print(label)

基于 bert-as-service 项目 feature extract

bert-as-service 是一个第三方项目，Github 地址: hanxiao/bert-as-service。可以对 Bert 实现 feature extract的用法，即将一个不定长的句子编码为一个定长的向量。该项目对 Bert 官方代码封装实现了 web 后端，以 web 接口的形式提供句子编码服务。

一些问题

这个项目做的不是很完善，譬如 bert-as-service 分为服务端和客户端。官方文档中服务端部署在 GPU 上、客户端则在 CPU 上。虽然官方没有直接提到，但是事实上服务端部署在 CPU 也可以。但其官方 docker 脚本并不能在 CPU 上运行，需要自行修改基容器。

其次，文档声称tensorflow>=1.10，python>=3.5即可运行，但事实上我在 windows 运行失败，大概是有 bug。

搭建服务端

搭建之前需要准备好上文下载预训练模型提到的 Bert 预训练模型。

安装并启动 bert-as-service。启动参数包括模型路径 PATH_MODEL、进程数 NUM_WORKER。安装方式有 pip 或 docker：

pip （CPU/GPU）

PATH_MODEL=/tmp/chinese_L-12_H-768_A-12
NUM_WORKER=4
pip install bert-serving-server
bert-serving-start -model_dir $PATH_MODEL -num_worker=$NUM_WORKER

docker
GPU

git clone https://github.com/hanxiao/bert-as-service.git
cd bert-as-service
docker build -t bert-as-service -f docker/Dockerfile .
PATH_MODEL=/tmp/chinese_L-12_H-768_A-12
NUM_WORKER=4
docker run --runtime nvidia --name bert-as-service  -dit -p 5555:5555 -p 5556:5556 -v $PATH_MODEL:/model -t bert-as-service $NUM_WORKER

CPU

git clone https://github.com/hanxiao/bert-as-service.git
cd bert-as-service
sed -i 's/tensorflow:1.12.0-gpu-py3/tensorflow:1.12.0-py3/g' docker/Dockerfile
docker build -t bert-as-service -f docker/Dockerfile .
PATH_MODEL=/tmp/chinese_L-12_H-768_A-12
NUM_WORKER=4
docker run --name bert-as-service -dit -p 5555:5555 -p 5556:5556 -v $PATH_MODEL:/model -t bert-as-service $NUM_WORKER

客户端调用

安装客户端库。

pip install bert-serving-client

安装完就可以在代码中调用了：

>>> from bert_serving.client import BertClient
>>> bc = BertClient(ip='192.168.11.42')
>>> bc.encode(['合同诈骗罪是怎样处罚的？', '孩子办户口的时间限制'])
array([[ 0.56223714, -0.28043476,  0.15880957, ..., -0.5312789 ,
        -0.05316753,  0.5204646 ],
       [ 0.3173091 , -0.39072016,  0.08520816, ..., -0.21686065,
        -0.25086305, -0.08226559]], dtype=float32)
>>>

如上，encode 函数接受句子 list，无论句子有多少，服务端会自动处理 batch。获得了句子的编码之后，就可以输入自己的模型做后续运算了。

你可能感兴趣的:(bert服务化&bert模型部署&文本相似度)

Java服务化架构转型实战：从“单体噩梦”到“微服务交响曲”，代码深度解析！墨夶 Java学习资料1 架构 java 微服务
**从0到1构建企业级服务化架构**1.服务拆分：从“大而全”到“小而美”1.1按业务领域拆分服务//SpringCloud微服务示例：订单服务@SpringBootApplication@EnableDiscoveryClient//服务注册发现publicclassOrderServiceApplication{publicstaticvoid
一文读懂 Sigmoid 与 Hard Sigmoid 激活函数：从原理到量化部署算法自动驾驶
在神经网络训练与部署中，激活函数扮演着关键角色，不仅影响模型训练过程，也直接决定了模型部署到实际设备后的性能表现。本文将介绍两种常用激活函数：Sigmoid和HardSigmoid，全面对比它们的原理、优缺点、应用场景，并提供实际代码示例，帮助你更好地理解与使用它们，尤其是在量化和嵌入式设备部署场景中。一、Sigmoid与HardSigmoid简介1.1Sigmoid激活函数介绍Sigmoid激活
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
SEO优化技巧深度解析：从算法逻辑到实战策略的全链路突破 boyedu 网站建设网站建设网站运营网站架构
第一章搜索引擎算法逻辑：SEO优化的底层密码1.1算法进化史：从关键词匹配到意图理解搜索引擎算法经历了从简单关键词匹配到复杂语义理解的跨越式发展。早期算法以PageRank为核心，通过分析网页间链接关系评估权威性。随着Hummingbird算法的推出，搜索引擎开始解析自然语言，BERT算法进一步实现上下文语义理解。当前算法已形成多维度评估体系，涵盖内容质量、用户体验、权威性建设等层面。以Googl
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
03每日简报20250705 Alvin_YD 每日简报人工智能娱乐社交电子媒体传媒
每日简报新闻简报：AI行业信任危机浮现标题：知名科技作者AlbertoRomero发文《我对AI行业正在失去所有信任》来源：TheAlgorithmicBridge（算法之桥）核心内容：作者立场：长期支持AI技术的作者AlbertoRomero公开表达对行业信任的崩塌，称"作为一个支持者，我本不愿有这种感受"。行业痛点：未具体说明的行业乱象导致公众信任度下降暗示AI发展过程中存在伦理或透明度问题传
模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
Python 库包 sentence-transformers 音程机器学习人工智能 python 开发语言
sentence-transformers是一个非常流行的Python库，专门用于将文本（句子、段落、文档）转换为高质量的语义向量（嵌入）。它基于Transformer架构（如BERT、RoBERTa、DistilBERT等）的预训练模型，并在大量语义相似性数据上进行了微调，能够捕捉句子之间的深层语义关系。什么是sentence-transformers？项目地址：https://www.sber
超详细yolov8/11-segment实例分割全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
因为yolo的检测/分割/姿态/旋转/分类模型的环境配置、训练、推理预测等命令非常类似，这里不再详细叙述，主要参考**【YOLOv8/11-detect目标检测全流程教程】**，下面有相关链接，这里主要针对数据标注、格式转换、模型部署等不同细节部分；【YOLOv8/11-detect目标检测全流程教程】超详细yolo8/11-detect目标检测全流程概述：配置环境、数据标注、训练、验证/预测、o
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
Ollama-python：调用大模型服务实现代码自动补全，提升编程开发效率！
Ollama是一个优秀的本地部署与管理大模型的框架。通过Ollama，我们可以在本地部署、定制自己的大模型服务。大模型部署在本地后，我们可以有哪些应用呢？本文介绍如何通过Ollama的pythonsdk，调用本地部署的大模型服务，对我们的代码进行自动补全，提升日常的编程开发效率。安装Ollama及其pythonsdk在https://ollama.com/download下载Ollama安装程序并
掌握Three.js材质：从基础到自定义着色器 AWS云计算 Three.js 材质着色器 ShaderMaterial
背景简介在Three.js中，材质是定义对象表面如何与光线交互并呈现给观察者的属性集。选择合适的材质对于创建真实感强的三维场景至关重要。本篇博客将探讨Three.js中不同类型的材质，以及如何利用它们来提升我们的三维模型质感。MeshLambertMaterial和MeshPhongMaterialMeshLambertMaterial是Three.js中用于创建具有柔和阴影的表面的一种材质。通过
大语言模型应用指南：谷歌 Gemini 简介 AI天才研究院 AI大模型企业级应用开发实战 AI人工智能与大数据计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：谷歌Gemini简介关键词：大语言模型，Gemini，谷歌，人工智能，应用指南1.背景介绍近年来，人工智能领域取得了突破性进展，尤其是大语言模型（LargeLanguageModels，LLMs）的出现，彻底改变了我们与信息交互的方式。从最初的聊天机器人到如今的代码生成、文本创作等领域，LLMs展现出惊人的能力。谷歌作为科技巨头，一直走在人工智能研究的前沿。继BERT、LaMD
文心4.5开源模型部署实践 skywalk8163 人工智能文心人工智能文心大模型开源大模型文心开源
文心4.5开源模型部署实践使用fastdeploy本地部署执行命令：python-mfastdeploy.entrypoints.openai.api_server\ --modelbaidu/ERNIE-4.5-21B-A3B-Paddle\ --port8180\ --metrics-port8181\ --engine-worker-queue-port8182\ --max-model-l
BERT（Bidirectional Encoder Representations from Transformers） jerwey bert 人工智能深度学习
BERT（BidirectionalEncoderRepresentationsfromTransformers）是由Google于2018年提出的一种基于Transformer架构的预训练语言模型，属于大型语言模型（LLM）的一种重要类型。其核心特点和技术定位如下：1.核心架构Encoder-Only结构：BERT仅使用Transformer的编码器（Encoder），通过多层堆叠捕捉文本的双向
大语言模型（LLM）按架构分类 jerwey 语言模型分类人工智能
大语言模型（LLM）按架构分类的深度解析1.仅编码器架构（Encoder-Only）原理双向注意力机制：通过Transformer编码器同时捕捉上下文所有位置的依赖关系#伪代码示例：BERT的MLM任务masked_input="The[MASK]satonthemat"output=encoder(masked_input)#预测[MASK]="cat"预训练任务：掩码语言建模（MLM）：随机遮
Day44
1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN到Transformer、多模态4.预训练策略：数据增强、自监督/监督训练、模型微调、多模态学习作业1.importtorchimporttorch.nnasnnimporttorch.optima
重构企业智能服务：大模型部署背后的战略与落地实践慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从“能用”到“可用”的时代跃迁过去一年中，大语言模型（LLMs）实现了从实验室“黑科技”到企业场景“生产力”的巨大跃迁。无论是通用问答、客户支持、文本生成、知识库问询，还是代码辅助、财报分析，大模型的边界已快速渗透到各行各业。然而，许多企业在试图将ChatGPT或DeepSeek等模型引入自己的业务系统时却发现：在线服务存在数据泄露风险；响
【大模型面试】大模型Prompt Engineer面试题及参考答案大模型知识 prompt 人工智能开发语言 python chatgpt 深度学习大模型
一、基础概念类1.什么是大模型？大模型通常指具有庞大参数规模的机器学习模型，尤其是在自然语言处理（NLP）和计算机视觉等领域。这些模型能够学习到大量数据中的复杂模式和特征，具备强大的泛化能力，可在多种任务上表现出色，如GPT系列、BERT等。2.大模型与传统机器学习模型的区别是什么？传统机器学习模型参数规模相对较小，往往针对特定任务进行设计和训练，需要较多人工特征工程。而大模型参数数量庞大，通过在
mlflow案例
以下内容主要是翻译mlflow官方文档的一个教程。4.教程和示例4.1训练、服务和评估线性回归模型地址：Tutorial—MLflow2.4.1documentation本教程展示了如何使用MLflow端到端执行以下操作：（1）训练线性回归模型（2）将训练模型的代码打包为可重复使用和可复制的模型格式（3）将模型部署到一个简单的HTTP服务器中，使您能够对预测进行评分本教程使用的数据集将根据葡萄酒的
pythonflow_MLflow系列1：MLflow入门教程（Python） weixin_39872334 pythonflow
这篇教程展示了如何：训练一个线性回归模型将训练代码打包成一个可复用可复现的模型格式将模型部署成一个简单的HTTP服务用于进行预测这篇教程使用的数据来自UCI的红酒质量数据集，主要用于根据红酒的PH值，酸度，残糖量等指标来评估红酒的质量。我们会用到什么？安装MLflow和scikit-learn，推荐两种安装方式：安装MLflow及其依赖：pipinstallmlflow[extras]分别安装ML
CentOS系统高效部署fastGPT全攻略挑战者666888 linux 常用工具软件 centos python linux
文章目录一、引言二、环境准备系统要求;基础依赖安装Python环境配置三、fastGPT部署流程源码获取与验证依赖库安装模型文件部署四、系统配置优化服务端口配置;安全加固措施;资源限制调整五、服务启动与管理直接启动方式系统服务化部署;日志监控方案六、验证与测试健康检查端点测试API功能测试用例压力测试方案一、引言fastGPT是一款高效、灵活的大语言模型应用框架，凭借其出色的推理速度和良好的扩展性
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio