supeerzdj

LLM（大语言模型）解码时是怎么生成文本的？

Part1配置及参数

transformers==4.28.1

源码地址：transformers/configuration_utils.py at v4.28.1 · huggingface/transformers (github.com)

文档地址：Generation (huggingface.co)

对于生成任务而言：text-decoder, text-to-text, speech-to-text, and vision-to-text models，有以下几种生成的方法：

greedy decoding by calling [~generation.GenerationMixin.greedy_search] if num_beams=1 and do_sample=False
contrastive search by calling [~generation.GenerationMixin.contrastive_search] if penalty_alpha>0. and top_k>1
multinomial sampling by calling [~generation.GenerationMixin.sample] if num_beams=1 and do_sample=True
beam-search decoding by calling [~generation.GenerationMixin.beam_search] if num_beams>1 and do_sample=False
beam-search multinomial sampling by calling [~generation.GenerationMixin.beam_sample] if num_beams>1 and do_sample=True
diverse beam-search decoding by calling [~generation.GenerationMixin.group_beam_search], if num_beams>1 and num_beam_groups>1
constrained beam-search decoding by calling [~generation.GenerationMixin.constrained_beam_search], if constraints!=None or force_words_ids!=None

具体有以下参数可供选择：

（1）控制输出长度的参数

max_length (int, optional, defaults to 20) - 生成的tokens的最大长度。对应于输入提示的长度+max_new_tokens。如果还设置了max_new_tokens，则其作用被max_new_tokens覆盖。
max_new_tokens (int, optional) - 要生成的最大数量的tokens，忽略提示中的tokens数量。
min_length (int, optional, defaults to 0) - 要生成的序列的最小长度。对应于输入提示的长度+min_new_tokens。如果还设置了min_new_tokens，它的作用将被 min_new_tokens覆盖。
min_new_tokens (int, optional) - 要生成的最小数量的tokens，忽略提示中的tokens数量。
early_stopping (bool or str, optional, defaults to False) - 控制基于beam-based的停止条件，比如beam-search。是否在至少生成 num_beams 个句子后停止 beam search，默认是False。
max_time(float, optional) - 你允许计算运行的最大时间，以秒为单位。在分配的时间过后，生成仍然会完成当前的传递。

（2）控制输出策略的参数

do_sample (bool, optional, defaults to False) - 是否使用采样，否则使用贪婪解码。
num_beams (int, optional, defaults to 1) - 集束搜索的集束数量。1意味着没有集束搜索。
num_beam_groups (int, optional, defaults to 1) - 将num_beam分成的组数，以确保不同组的beams的多样性。https://arxiv.org/pdf/1610.02424.pdf
penalty_alpha (float, optional) - 平衡模型置信度和对比搜索解码中的退化惩罚的数值。
use_cache (bool, optional, defaults to True) - 模型是否应该使用过去最后的键/值注意力（如果适用于模型）来加速解码。

（3）控制模型输出Logits的参数

temperature（float, optional, defaults to 1.0） - 用于调节下一个标记概率的值。
top_k (int, optional, defaults to 50) - 为top-k过滤而保留的最高概率词汇标记的数量。
top_p (float, optional, defaults to 1.0) - 已知生成各个词的总概率是1（即默认是1.0）如果top_p小于1，则从高到低累加直到top_p，取这前N个词作为候选。
typical_p (float, optional, defaults to 1.0) - 局部典型性度量：在给定已生成的部分文本的情况下，预测下一个目标标记的条件概率与预测下一个随机标记的预期条件概率的相似程度。如果设置为float < 1，则保留概率加起来等于typical_p或更高的最小的本地典型tokens集以供生成。https://arxiv.org/pdf/2202.00666.pdf
epsilon_cutoff (float, optional, defaults to 0.0) - 如果设置为严格介于0和1之间的浮点数，只有条件概率大于epsilon_cutoff的标记才会被采样。在论文中，建议的值在3e-4到 9e-4之间，取决于模型的大小。https://arxiv.org/abs/2210.15191
eta_cutoff (float, optional, defaults to 0.0) - Eta采样是局部典型采样和ε采样的混合体。如果设置为严格介于0和1之间的浮点数，只有当一个token大于eta_cutoff或 sqrt(eta_cutoff) * exp(- entropy(softmax(next_token_logits)))时才会被考虑。后者直观地是预期的下一个令牌概率，以sqrt（eta_cutoff）为尺度。在论文中，建议值从3e-4到2e-3不等，取决于模型的大小。https://arxiv.org/abs/2210.15191
diversity_penalty (float, optional, defaults to 0.0) - 如果一个beam在某一特定时间产生一个与其他组的任何beam相同的标记，这个值将从beam的分数中减去。请注意，多样性惩罚只有在group-beam-search被启用时才有效。
repetition_penalty (float, optional, defaults to 1.0) - 重复处罚的参数。1.0意味着没有惩罚。https://arxiv.org/pdf/1909.05858.pdf
encoder_repetition_penalty (float, optional, defaults to 1.0) - encoder_repetition_penalty的参数。对不在原始输入中的序列进行指数式惩罚。 1.0意味着没有惩罚。
length_penalty (float, optional, defaults to 1.0) - 对长度的指数惩罚，用于beam-based的生成。它作为指数应用于序列的长度，反过来用于划分序列的分数。由于分数是序列的对数能性（即负数），length_penalty > 0.0会促进更长的序列，而length_penalty < 0.0会鼓励更短的序列。
no_repeat_ngram_size (int, optional, defaults to 0) - 如果设置为int > 0，所有该尺寸的 ngrams只能出现一次。
bad_words_ids(List[List[int]], optional) - 不允许生成的标记ID的列表。为了获得不应该出现在生成的文本中的词的标记ID，使用tokenizer(bad_words, add_prefix_space=True, add_special_tokens=False).input_ids。
force_words_ids(List[List[int]] or List[List[List[int]]], optional) - 必须生成的 token ids列表。如果给定的是List[List[int]]，这将被视为一个必须包含的简单单词列表，与bad_words_ids相反。如果给定的是List[List[List[int]]]，这将触发一个 disjunctive约束，即可以允许每个词的不同形式。https://github.com/huggingface/transformers/issues/14081
renormalize_logits (bool, optional, defaults to False) - 在应用所有的logits处理器或 warpers（包括自定义的）之后，是否重新规范化logits。强烈建议将这个标志设置为 "True"，因为搜索算法认为分数对数是正常化的，但一些对数处理器或翘曲器会破坏正常化。
constraints (List[Constraint], optional) - 自定义约束，可以添加到生成中，以确保输出将包含使用Constraint对象定义的某些标记，以最合理的方式。
forced_bos_token_id (int, optional, defaults to model.config.forced_bos_token_id) - 强制作为解码器_start_token_id之后第一个生成的令牌的id。对于像mBART这样的多语言模型，第一个生成的标记需要是目标语言的标记，这很有用。
forced_eos_token_id (Union[int, List[int]], optional, defaults to model.config.forced_eos_token_id) - 当达到max_length时，强制作为最后生成的令牌的id。可以选择使用一个列表来设置多个序列结束的标记。
remove_invalid_values (bool, optional, defaults to model.config.remove_invalid_values) - 是否删除模型可能的nan和inf输出以防止生成方法崩溃。注意，使用remove_invalid_values会减慢生成速度。
exponential_decay_length_penalty (tuple(int, float), optional) - 这个Tuple在生成一定数量的标记后，增加一个指数级增长的长度惩罚。该元组应包括： (start_index, decay_factor) 其中start_index表示惩罚开始的位置， decay_factor表示指数衰减的系数。
suppress_tokens (List[int], optional) - 在生成时将被抑制的tokens列表。 SupressTokens日志处理器将把它们的日志probs设置为-inf，这样它们就不会被采样了。
forced_decoder_ids (List[List[int]], optional) - 一对整数的列表，表示从生成索引到token索引的映射，在采样前会被强制执行。例如，[[1, 123]]意味着第二个生成的token将总是索引为token的令牌。

（4）定义generate输出变量的参数

num_return_sequences(int, optional, defaults to 1) - 批次中每个元素独立计算的返回序列的数量。
output_attentions (bool, optional, defaults to False) - 是否返回所有注意力层的注意力张量。更多细节请参见返回的张量下的注意力。
output_hidden_states (bool, optional, defaults to False) - 是否要返回所有层的隐藏状态。更多细节请参见返回张量下的hidden_states。
output_scores (bool, optional, defaults to False) - 是否返回预测的分数。更多细节请参见返回张量下的分数。
return_dict_in_generate (bool, optional, defaults to False) - 是否返回ModelOutput而不是普通元组。
synced_gpus (bool, optional, defaults to False) - 是否继续运行while循环直到max_length（ZeRO第三阶段需要）。

（5）可在生成时使用的特殊参数

pad_token_id (int, optional) - 填充token的ID。
bos_token_id (int, optional) - 序列开始标记的id。
eos_token_id (Union[int, List[int]], optional) - 序列结束标记的id。可以选择使用一个列表来设置多个序列结束标记。

（6）编码器-解码器模型独有的生成参数

encoder_no_repeat_ngram_size (int, optional, defaults to 0) - 如果设置为int > 0，所有出现在encoder_input_ids中的该大小的ngrams都不能出现在decoder_input_ids中。
decoder_start_token_id (int, optional) - 如果一个编码器-解码器模型以不同于bos的 token开始解码，则这就是该token的id。

Part2配置基本使用

1使用预训练模型定义的生成参数

我们可以这么使用、保存预训练模型已经定义好的参数：

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, GenerationConfig
model_name_or_path = "uer/gpt2-chinese-cluecorpussmall"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path)

generation_config = model.generation_config
generation_config_dict = generation_config.to_dict()
generation_config_dict["num_beams"] = 2
generation_config = GenerationConfig.from_dict(generation_config_dict)
print(generation_config)

generation_config.save_pretrained("./")
"""
{
  "_from_model_config": true,
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "num_beams": 2,
  "transformers_version": "4.28.1"
}
"""

需要注意的是，如果参数是默认的值得话，则不会显示出来。另外，GenerationConfig类里面有许多可用的方法，具体可以去看看源代码。

2一般使用方法

在定义好config之后，我们可以这么使用：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, GenerationConfig

tokenizer = AutoTokenizer.from_pretrained("t5-small")
model = AutoModelForSeq2SeqLM.from_pretrained("t5-small")

translation_generation_config = GenerationConfig(
    num_beams=4,
    early_stopping=True,
    decoder_start_token_id=0,
    eos_token_id=model.config.eos_token_id,
    pad_token=model.config.pad_token_id,
)

translation_generation_config.save_pretrained("t5-small", "translation_generation_config.json", push_to_hub=True)

# You could then use the named generation config file to parameterize generation
# 可以加载我们自己本地保存的generation_config
generation_config = GenerationConfig.from_pretrained("t5-small", "translation_generation_config.json")
inputs = tokenizer("translate English to French: Configuration files are easy to use!", return_tensors="pt")
outputs = model.generate(**inputs, generation_config=generation_config)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

Part3生成结果

使用transformers库的生成模型生成结果有三种方式，暂时不要在意参数：

3pipeline

指定为text-generation

from transformers import pipeline

generator = pipeline(
    'text-generation', 
    model="uer/gpt2-chinese-cluecorpussmall",
    )
text_inputs = ["昨天已经过去，"]
generator(text_inputs, max_length=100)

4TextGenerationPipeline

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline

tokenizer = AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")
model = AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")

text_generator = TextGenerationPipeline(model, tokenizer)
text_inputs = ["昨天已经过去，"]
text_generator(text_inputs, max_length=100)

5model.generate()

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch, os

tokenizer = AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")
model = AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")

device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = model.to(device)
texts = ["昨天已经过去，"]
#用batch输入的时候一定要设置padding
encoding = tokenizer(texts, return_tensors='pt', padding=True).to(device)

model.eval()
with torch.no_grad():
    generated_ids = model.generate(**encoding, max_length=100) 
 generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

for text in generated_texts:
  print(text)

我们捋一捋它们之间的关系：最基础的还是model.generate()，而TextGenerationPipeline在_forward里面调用了model.generate()，pipeline实际上是对TextGenerationPipeline的进一步封装：

    "text-generation": {
        "impl": TextGenerationPipeline,
        "tf": TFAutoModelForCausalLM if is_tf_available() else None,
        "pt": AutoModelForCausalLM if is_torch_available() else None,
        "default": {"model": {"pt": "gpt2", "tf": "gpt2"}},
    },

6流式打印

在介绍不同的生成方法之前，先介绍下流式打印。使用过ChatGPT的玩家都知道，在生成结果的时候，它是一部分一部分的返回生成的文本并展示的，transformers该版本也有这个功能，我们接下来看。

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

tokenizer = AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")
model = AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")
input_text = "昨天已经过去，"
inputs = tokenizer([input_text], return_tensors="pt", add_special_tokens=False)
streamer = TextStreamer(tokenizer)

# Despite returning the usual output, the streamer will also print the generated text to stdout.
_ = model.generate(**inputs, streamer=streamer, max_new_tokens=86)

如果想要一次性返回结果再打印，则是这样的：

from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

tokenizer = AutoTokenizer.from_pretrained("uer/gpt2-chinese-cluecorpussmall")
model = AutoModelForCausalLM.from_pretrained("uer/gpt2-chinese-cluecorpussmall")
input_text = "昨天已经过去，"
inputs = tokenizer([input_text], return_tensors="pt", add_special_tokens=False)
streamer = TextIteratorStreamer(tokenizer)

# Run the generation in a separate thread, so that we can fetch the generated text in a non-blocking way.
generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=100)
thread = Thread(target=model.generate, kwargs=generation_kwargs)
thread.start()
generated_text = ""
for new_text in streamer:
    generated_text += new_text
generated_text

Part4多种生成方式

接下来将以之前训练好的观点评论生成的GPT来生成不同的结果，我们每次都使用三种方式对比看看结果。

7Greedy Search

generate默认使用贪婪的搜索解码，所以你不需要传递任何参数来启用它。这意味着参数num_beams被设置为1，do_sample=False。

img

如图上所属，每次选择概率值最高的词。贪心搜索的主要缺点是它错过了隐藏在低概率词后面的高概率词，比如has=0.9不会被选择到。

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, pipeline

tokenizer = AutoTokenizer.from_pretrained("./gpt2-chinese")
model = AutoModelForCausalLM.from_pretrained("./gpt2-chinese")

from datasets import load_dataset
data_file = "./ChnSentiCorp_htl_all.csv"
dataset = load_dataset("csv", data_files=data_file)
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset = dataset["train"].train_test_split(0.2, seed=123)

import random
example = random.choice(dataset["train"])
text = example["review"]
input_text = text[:10]
print(input_text)

# greedy search
model.eval()
with torch.no_grad():
  encoding = tokenizer(input_text, 
              return_tensors='pt', 
              padding=False, 
              add_special_tokens=False,
              return_token_type_ids=False,
              return_attention_mask=False,)
  
  generated_ids = model.generate(**encoding, 
                    max_length=100, 
                    eos_token_id=0, 
                    pad_token_id=0, 
                    num_beams=1, 
                    do_sample=False) 
  generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
  print(generated_texts)


text_generator = TextGenerationPipeline(model, tokenizer)  
print(text_generator(input_text, 
           max_length=100, 
           eos_token_id=0, 
           num_beams=1, 
           do_sample=False,
           pad_token_id=0))


generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

generation_config = {
  "max_length": 100,
  "eos_token_id": 0,
  "pad_token_id": 0,
  "num_beams": 1, 
  "do_sample": False,
}
print(generator(input_text, **generation_config))

"""
虽然说是4星级，不过
['虽 然 说 是 4 星 级 ， 不 过 感 觉 和 3 星 没 什 么 两 样 ， 只 是 服 务 水 准 差 了 点 而 已']
[{'generated_text': '虽然说是4星级，不过 感 觉 和 3 星 没 什 么 两 样 ， 只 是 服 务 水 准 差 了 点 而 已'}]
[{'generated_text': '虽然说是4星级，不过 感 觉 和 3 星 没 什 么 两 样 ， 只 是 服 务 水 准 差 了 点 而 已'}]
"""

答案是一致的，和我们之前的推测一样，但需要注意的是model.gneerate()对单条预测的时候我们在tokenizer的时候设置padding为False了，如果设置为True，则得不到相同的结果。

8Contrastive search

对比搜索解码策略是在2022年的论文A Contrastive Framework for Neural Text Generation https://arxiv.org/abs/2202.06417中提出的。它展示了生成非重复但连贯的长输出的优越结果。要了解对比性搜索的工作原理，请查看这篇博文https://huggingface.co/blog/introducing-csearch。启用和控制对比性搜索行为的两个主要参数是punice_alpha和top_k：

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, pipeline

tokenizer = AutoTokenizer.from_pretrained("./gpt2-chinese")
model = AutoModelForCausalLM.from_pretrained("./gpt2-chinese")

from datasets import load_dataset
data_file = "./ChnSentiCorp_htl_all.csv"
dataset = load_dataset("csv", data_files=data_file)
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset = dataset["train"].train_test_split(0.2, seed=123)

import random
example = random.choice(dataset["train"])
# text = dataset["train"][0]
text = example["review"]
input_text = text[:10]
print(input_text)

# greedy search
model.eval()
with torch.no_grad():
  encoding = tokenizer(input_text, 
              return_tensors='pt', 
              padding=False, 
              add_special_tokens=False,
              return_token_type_ids=False,
              return_attention_mask=False,)
  
  generated_ids = model.generate(**encoding, 
                    max_length=100, 
                    eos_token_id=0, 
                    pad_token_id=0,
                    do_sample=False,
                    num_beams=1, 
                    penalty_alpha=0.6, 
                    top_k=4) 
  generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
  print(generated_texts)


text_generator = TextGenerationPipeline(model, tokenizer)  
print(text_generator(input_text, 
           max_length=100, 
           eos_token_id=0, 
           num_beams=1, 
           do_sample=False,
           pad_token_id=0,
           penalty_alpha=0.6, 
           top_k=4
           ))


generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

generation_config = {
  "max_length": 100,
  "eos_token_id": 0,
  "pad_token_id": 0,
  "num_beams": 1, 
  "do_sample": False,
  # "penalty_alpha":0.6, 
  # "top_k":4,
}
print(generator(input_text, **generation_config))

"""
['极 差 ！ 停 车 收 十 元 钱 ！ 穷 则 思 变 ！ 房 间 潮 湿 得 不 得 了 ， 晚 上 居 然 停 了 一 个 多 小 时 ， 上 网 一 会 有 信 号 一 会 没 有 。 电 视 遥 控 器 不 管 用 ， 打 电 话 给 客 房 中 心 ， 得 到 的 回 复 居 然 是 坏 的 房 间 在 维 修 ， 不 知 道']
[{'generated_text': '极差！停车收十元钱！ 穷 则 思 变 ！ 房 间 潮 湿 得 不 得 了 ， 晚 上 居 然 停 了 一 个 多 小 时 ， 上 网 一 会 有 信 号 一 会 没 有 。 电 视 遥 控 器 不 管 用 ， 打 电 话 给 客 房 中 心 ， 得 到 的 回 复 居 然 是 坏 的 房 间 在 维 修 ， 不 知 道'}]
[{'generated_text': '极差！停车收十元钱！ 穷 则 思 变 ！ 房 间 设 施 差 就 一 个 招 待 所 ， 最 多 三 星 级 ！'}]
"""

可以对比和贪婪解码看一下结果。

9Multinomial sampling

与总是选择概率最高的标记作为下一个标记的贪婪搜索相反，多项式抽样（也称为祖先抽样）根据模型给出的整个词汇的概率分布来随机选择下一个标记。每个概率不为零的符号都有机会被选中，从而减少了重复的风险。

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, pipeline

tokenizer = AutoTokenizer.from_pretrained("./gpt2-chinese")
model = AutoModelForCausalLM.from_pretrained("./gpt2-chinese")

from datasets import load_dataset
data_file = "./ChnSentiCorp_htl_all.csv"
dataset = load_dataset("csv", data_files=data_file)
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset = dataset["train"].train_test_split(0.2, seed=123)

import random
example = random.choice(dataset["train"])
# text = dataset["train"][0]
text = example["review"]
input_text = text[:10]
print(input_text)

# greedy search
model.eval()
with torch.no_grad():
  encoding = tokenizer(input_text, 
              return_tensors='pt', 
              padding=False, 
              add_special_tokens=False,
              return_token_type_ids=False,
              return_attention_mask=False,)
  
  generated_ids = model.generate(**encoding, 
                    max_length=100, 
                    eos_token_id=0, 
                    pad_token_id=0,
                    do_sample=True,
                    num_beams=1, 
                    ) 
  generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
  print(generated_texts)


text_generator = TextGenerationPipeline(model, tokenizer)  
print(text_generator(input_text, 
           max_length=100, 
           eos_token_id=0, 
           num_beams=1, 
           do_sample=True,
           pad_token_id=0,
           ))


generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

generation_config = {
  "max_length": 100,
  "eos_token_id": 0,
  "pad_token_id": 0,
  "num_beams": 1, 
  "do_sample": True,
}
print(generator(input_text, **generation_config))

"""
['房 间 ： 建 筑 风 格 比 较 独 特 ， 但 不 显 现 空 间 特 色 。 地 理 位 置 不 是 很 好 ， 离 九 华 山 比 较 远 ， 出 租 车 还 比 较 难 找 。 门 童 服 务 蛮 好 ， 门 口 迎 宾 也 很 热 情 。 房 间 设 施 ： 住 9 楼 标 房 ， 朝 西 ， 马 路 上 的 喧 嚣 比 较']
[{'generated_text': '房间：建筑风格比较独 特 ， 墙 壁 由 黑 色 为 主 ， 给 人 一 种 温 馨 的 感 觉 ， 房 间 内 少 点 什 么 装 饰 ， 总 体 还 算 可 以 。 交 通 ： 订 一 辆 出 租 车 ， 一 天 之 内 送 完 了 ， 一 天 后 再 打 车 ， 车 子 要 走 到 春 熙 路 ， 十 分 方 便'}]
[{'generated_text': '房间：建筑风格比较独 特 ， 比 较 特 别 的 是 窗 外 的 自 然 环 境 ， 很 漂 亮 ， 房 间 内 的 设 施 也 不 错 ， 有 独 立 的 阳 台 ， 所 谓 的 山 景 房 看 风 景 也 能 看 到 大 草 坪 和 远 处 的 大 海 。 服 务 ： 因 为 我 和 的 朋 友 预 定 的 是 山'}]
"""

10Beam-search decoding

与贪婪搜索不同的是，集束搜索解码在每个时间步骤中保留几个假设，并最终选择对整个序列具有最高概率的假设。这具有识别高概率序列的优势，这些序列从较低概率的初始标记开始，会被贪婪搜索所忽略。

要启用这种解码策略，需要指定num_beams（又称要跟踪的假说数量）大于1。集束搜索通过在每个时间步保留最可能的 num_beams 个词，并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。以 num_beams=2 为例:

img

最终得到：the dog has (0.4+0.9) > the nice woman (0.5+0.4)。

缺点：虽然结果比贪心搜索更流畅，但输出中仍然包含重复。

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, pipeline

tokenizer = AutoTokenizer.from_pretrained("./gpt2-chinese")
model = AutoModelForCausalLM.from_pretrained("./gpt2-chinese")

from datasets import load_dataset
data_file = "./ChnSentiCorp_htl_all.csv"
dataset = load_dataset("csv", data_files=data_file)
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset = dataset["train"].train_test_split(0.2, seed=123)

import random
example = random.choice(dataset["train"])
# text = dataset["train"][0]
text = example["review"]
input_text = text[:10]
print(input_text)

# greedy search
model.eval()
with torch.no_grad():
  encoding = tokenizer(input_text, 
              return_tensors='pt', 
              padding=False, 
              add_special_tokens=False,
              return_token_type_ids=False,
              return_attention_mask=False,)
  
  generated_ids = model.generate(**encoding, 
                    max_length=100, 
                    eos_token_id=0, 
                    pad_token_id=0,
                    do_sample=False,
                    num_beams=4, 
                    ) 
  generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
  print(generated_texts)


text_generator = TextGenerationPipeline(model, tokenizer)  
print(text_generator(input_text, 
           max_length=100, 
           eos_token_id=0, 
           num_beams=4, 
           do_sample=False,
           pad_token_id=0,
           ))


generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

generation_config = {
  "max_length": 100,
  "eos_token_id": 0,
  "pad_token_id": 0,
  "num_beams": 4, 
  "do_sample": False,
}
print(generator(input_text, **generation_config))

"""
酒店的整体服务意识相
['酒 店 的 整 体 服 务 意 识 相 当 好 ， 对 于 未 按 照 预 订 时 间 到 达 的 客 户 ， 还 能 够 保 留 预 订 ， 但 是 沟 通 技 巧 不 是 很 好 ， 还 有 对 于 未 按 预 订 时 间 到 达 的 客 户 ， 还 要 给 携 程 的 工 作 带 来 很 大 麻 烦 。']
[{'generated_text': '酒店的整体服务意识相 当 好 ， 对 于 未 按 照 预 订 时 间 到 达 的 客 户 ， 还 能 够 保 留 预 订 ， 但 是 沟 通 技 巧 不 是 很 好 ， 还 有 对 于 未 按 预 订 时 间 到 达 的 客 户 ， 还 要 给 携 程 的 工 作 带 来 很 大 麻 烦 。'}]
[{'generated_text': '酒店的整体服务意识相 当 好 ， 对 于 未 按 照 预 订 时 间 到 达 的 客 户 ， 还 能 够 保 留 预 订 ， 但 是 沟 通 技 巧 不 是 很 好 ， 还 有 对 于 未 按 预 订 时 间 到 达 的 客 户 ， 还 要 给 携 程 的 工 作 带 来 很 大 麻 烦 。'}]
"""

11Beam-search multinomial sampling

顾名思义，这种解码策略结合了集束搜索和多指标采样。你需要指定num_beams大于1，并设置do_sample=True来使用这种解码策略。

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, pipeline

tokenizer = AutoTokenizer.from_pretrained("./gpt2-chinese")
model = AutoModelForCausalLM.from_pretrained("./gpt2-chinese")

from datasets import load_dataset
data_file = "./ChnSentiCorp_htl_all.csv"
dataset = load_dataset("csv", data_files=data_file)
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset = dataset["train"].train_test_split(0.2, seed=123)

import random
example = random.choice(dataset["train"])
# text = dataset["train"][0]
text = example["review"]
input_text = text[:10]
print(input_text)

# greedy search
model.eval()
with torch.no_grad():
  encoding = tokenizer(input_text, 
              return_tensors='pt', 
              padding=False, 
              add_special_tokens=False,
              return_token_type_ids=False,
              return_attention_mask=False,)
  
  generated_ids = model.generate(**encoding, 
                    max_length=100, 
                    eos_token_id=0, 
                    pad_token_id=0,
                    do_sample=True,
                    num_beams=4, 
                    ) 
  generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
  print(generated_texts)


text_generator = TextGenerationPipeline(model, tokenizer)  
print(text_generator(input_text, 
           max_length=100, 
           eos_token_id=0, 
           num_beams=4, 
           do_sample=True,
           pad_token_id=0,
           ))


generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

generation_config = {
  "max_length": 100,
  "eos_token_id": 0,
  "pad_token_id": 0,
  "num_beams": 4, 
  "do_sample": True,
}
print(generator(input_text, **generation_config))

"""
['酒 店 在 肇 庆 闹 市 区 ， 但 交 通 非 常 方 便 ， 酒 店 服 务 员 态 度 非 常 好 ， 酒 店 硬 件 条 件 还 可 以 ， 就 是 房 间 隔 音 效 果 非 常 不 好 ， 隔 壁 的 电 视 声 音 、 走 廊 人 说 话 声 等 清 清 楚 楚 ， 住 在 一 楼 还 能 听 到 隔 壁 房 间 的 电']
[{'generated_text': '酒店在肇庆闹市区，但 交 通 非 常 方 便 ， 酒 店 服 务 态 度 很 好 ， 房 间 干 净 整 洁 ， 下 次 去 肇 庆 还 会 选 择 该 酒 店 。'}]
[{'generated_text': '酒店在肇庆闹市区，但 交 通 非 常 方 便 ， 酒 店 环 境 不 错 ， 房 间 比 较 干 净 ， 服 务 员 态 度 也 很 好 ， 总 的 来 说 是 一 家 不 错 的 酒 店 。'}]
"""

12Diverse beam search decoding

多样化集束搜索解码策略是对集束搜索策略的扩展，可以生成更多样化的集束序列供人们选择。要了解它的工作原理，请参考《多样化集束搜索》https://arxiv.org/pdf/1610.02424.pdf：从神经序列模型解码多样化的解决方案。这种方法有两个主要参数：num_beams和num_beam_groups。组的选择是为了确保它们与其他组相比有足够的区别，并在每个组内使用常规集束搜索。

from transformers import AutoTokenizer, AutoModelForCausalLM, TextGenerationPipeline, pipeline

tokenizer = AutoTokenizer.from_pretrained("./gpt2-chinese")
model = AutoModelForCausalLM.from_pretrained("./gpt2-chinese")

from datasets import load_dataset
data_file = "./ChnSentiCorp_htl_all.csv"
dataset = load_dataset("csv", data_files=data_file)
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset = dataset["train"].train_test_split(0.2, seed=123)

import random
example = random.choice(dataset["train"])
# text = dataset["train"][0]
text = example["review"]
input_text = text[:10]
print(input_text)

# greedy search
model.eval()
with torch.no_grad():
  encoding = tokenizer(input_text, 
              return_tensors='pt', 
              padding=False, 
              add_special_tokens=False,
              return_token_type_ids=False,
              return_attention_mask=False,)
  
  generated_ids = model.generate(**encoding, 
                    max_length=100, 
                    eos_token_id=0, 
                    pad_token_id=0,
                    do_sample=False,
                    num_beams=4, 
                    num_beam_groups=4,
                    ) 
  generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
  print(generated_texts)


text_generator = TextGenerationPipeline(model, tokenizer)  
print(text_generator(input_text, 
           max_length=100, 
           eos_token_id=0, 
           num_beams=4, 
           do_sample=False,
           pad_token_id=0,
           num_beam_groups=4,
           ))


generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

generation_config = {
  "max_length": 100,
  "eos_token_id": 0,
  "pad_token_id": 0,
  "num_beams": 4, 
  "do_sample": False,
  "num_beam_groups": 4,
}
print(generator(input_text, **generation_config))

"""
住过如此之多的如家酒
['住 过 如 此 之 多 的 如 家 酒 店 ， 这 一 家 是 最 差 的 ， 服 务 差 ， 房 间 老 旧 ， 而 且 价 格 还 不 低 。 下 次 不 会 再 住 了 。']
[{'generated_text': '住过如此之多的如家酒 店 ， 这 一 家 是 最 差 的 ， 服 务 差 ， 房 间 老 旧 ， 而 且 价 格 还 不 低 。 下 次 不 会 再 住 了 。'}]

[{'generated_text': '住过如此之多的如家酒 店 ， 这 一 家 是 最 差 的 ， 服 务 差 ， 房 间 老 旧 ， 而 且 价 格 还 不 低 。 下 次 不 会 再 住 了 。'}]
"""

Part5补充

13常用的一些参数：

no_repeat_ngram_size：限制任意 N-gram 不会出现两次。但是， n-gram 惩罚使用时必须谨慎，如一篇关于纽约这个城市的文章就不应使用 2-gram 惩罚，否则，城市名称在整个文本中将只出现一次！
num_return_sequences ：选择返回句子的数量，记得确保 num_return_sequences <= num_beams
top_p
top_k
temperature
repetition_penalty

14采样

img

采样意味着根据当前条件概率分布随机选择输出词，使用采样方法时文本生成本身不再是确定性的。对单词序列进行采样时的大问题: 模型通常会产生不连贯的乱码。可以设置top_k=0关闭采样。缓解这一问题的一个技巧是通过降低所谓的 softmax 的“温度”使分布更陡峭。而降低“温度”，本质上是增加高概率单词的似然并降低低概率单词的似然。

将温度应用到于我们的例子中后，结果如下图所示。

img

时刻单词的条件分布变得更加陡峭，几乎没有机会选择单词 “car” 了。虽然温度可以使分布的随机性降低，但极限条件下，当“温度”设置为 0 时，温度缩放采样就退化成贪心解码了，因此会遇到与贪心解码相同的问题。

15Top-K采样

在 Top-K 采样中，概率最大的 K 个词会被选出，然后这 K 个词的概率会被重新归一化，最后就在这重新被归一化概率后的 K 个词中采样。 GPT2 采用了这种采样方案，这也是它在故事生成这样的任务上取得成功的原因之一。

img

假设：top_k=6

输入：the， the的下一个词从概率最大的top6里面采样到car，the car的下一个词从概率最大的top6里面采样。可以看到后面一些奇怪的词就可以被忽略掉。

16Top-P采样

在 Top-p 中，采样不只是在最有可能的 K 个单词中进行，而是在累积概率超过概率 p 的最小单词集中进行。然后在这组词中重新分配概率质量。这样，词集的大小 (又名集合中的词数) 可以根据下一个词的概率分布动态增加和减少。好吧，说的很啰嗦，一图胜千言。

img

假设 p=0.92 ， Top-p 采样对单词概率进行降序排列并累加，然后选择概率和首次超过 p=0.92 的单词集作为采样池，可以看出，在单词比较不可预测时，它保留了更多的候选词。而当单词似乎更容易预测时，只保留了几个候选词。

一般而言，结合top_k和top_p会有不错的效果。

你可能感兴趣的:(语言模型,数据库,算法)

springboot-利用反射调用service层方法从Excel读取数据写入数据库报错：java.lang.NullPointerException，小坑一个正在努力中。。。 springboot java 数据库 spring boot
最近在做一个小项目，需要从读取Excel数据写入到数据库。利用的是easyExcel的read方法，通过实现了ReadListener接口的监听器去调用service层方法实现数据持久化操作。但业务表那么多，本身在读取过程中不需要做任何操作，只要数据从Excel读出来直接写到mysql就可以，因此不想给每个表都写一个监听器，通过泛型加反射的方式实现类的匹配和方法调用。我的方案是：1.前台选择Exc
【AI测试学习】AnythingLLM+Ollama+DeepSeek部署私人知识库艳Yansky AI测试 Python学习笔记人工智能 DeepSeek Ollama AnythingLLM
1.搭建DeepSeek大语言模型1.1Ollama大预言模型部署Ollama简化了大型语言模型的运行，让每个人都能在本地轻松体验AI的强大，打开浏览器-下载Ollama-输入命令-搞定，这是本地部署大语言模型的全新方式。这里我们借助Ollama大预言模型部署工具进行搭建官网如下：Ollama安装包也可百度网盘获取：安装完成后，桌面右下角会显示ollama图标1.2.安装DeepSeek复制oll
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
Nginx系列05（负载均衡、动静分离）浪九天 Nginx系列 nginx 运维开发持续部署
目录Nginx负载均衡Nginx动静分离Nginx负载均衡概念：负载均衡是一种将网络流量分摊到多个后端服务器（节点）上的技术，以提高系统的可用性、性能和可扩展性。通过负载均衡，Nginx可以根据一定的算法将客户端请求分发到不同的后端服务器，避免单个服务器因负载过高而出现性能瓶颈。原理：Nginx通过upstream模块定义一组后端服务器，然后在server块或location块中使用proxy_p
2024 开放原子开发者大会活动回顾｜瀚高 IvorySQL 开源数据库在国产软件的开源实践
12月20日-21日，2024开放原子开发者大会暨首届开源技术学术大会在武汉成功举办。大会汇聚开源领域一线开发者和知名学者共同探讨开源领域所面临的关键性挑战问题、研究方向和技术难题，推动跨学科的研究和应用，加速开源文化的广泛传播，推进开源生态可持续性繁荣发展。本次大会设置了多个分论坛，针对不同的技术方向与现阶段趋势热点进行分享和交流。其中，IvorySQL社区受邀在“开源低代码与大模型融合创新发展
如何设置AD域用户仅登录到指定的计算机？AD域管理软件 ad前端
一什么是AD域？简单理解：ActiveDirectory域内的directorydatabase（目录数据库）是被用来存储用户账户、计算机账户、打印机和共享文件夹等对象，而提供目录服务的组件就是ActiveDirectory（活动目录）域服务（ActiveDirectoryDomainService，ADDS），它负责目录数据库的存储、添加、删除、修改与查询等操作。一般适用于一个局域网内。在AD域
基于Python实现的【机器学习】小项目教程案例 xinxiyinhe 人工智能 github python 机器学习
以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset（含150个样本，4个特征，3个类别）目标：根据花瓣与萼片长度预测鸢尾花种类步骤：环境准备：安装scikit-learn、pandas、matplotlibpipinstallsciki
【C++笔试强训】如何成为算法糕手Day11 循环渐进Forward 笔试强训Day48 c++开发语言算法动态规划牛客
学习编程就得循环渐进，扎实基础，勿在浮沙筑高台循环渐进Forward-CSDN博客目录游游的水果大礼包思路代码实现：买卖股票的最好时机(二)思路：代码实现：倒置字符串思路：代码实现：游游的水果大礼包牛客网做题链接：游游的水果大礼包(nowcoder.com)思路面对这样一个问题——给定一定数量的苹果和桃子，以及两种不同价值组合方式的礼包（一号礼包和二号礼包），目标是最大化所能组成的礼包总价值。这个
中值滤波结合快速排序算法优化传感器数据预处理 Gui林排序算法算法
一、算法核心逻辑目标：在嵌入式系统中，通过快速排序的“部分排序”特性，优化中值滤波的计算效率。适用场景：实时传感器数据处理（如红外、超声波、加速度计等），窗口大小N=5（可根据需求调整）。优势：时间复杂度从O(N²)（冒泡排序）优化至O(N)（快速排序部分排序）。内存占用低，适合资源受限的嵌入式设备（如STM32）。二、完整代码与注释#include//定义滑动窗口大小（N=5）#defineWI
YashanDB安装部署数据库
本章节对YashanDB产品的安装部署过程提供指导和示例。安装数据库服务端Note：在环境配置和产品安装过程中，可能需要重启服务器，若服务器上有其他应用，请确保不会对其造成影响。本章节是YashanDB在新环境的安装指导，对已在运行YashanDB某个版本的环境，需进行升级而不是安装部署，具体操作请参考升级。请遵循如下操作顺序：正式执行安装程序前，请阅读安装前准备文档，了解产品对软硬件环境的要求，
钉钉宜搭智能车辆管理系统：AIoT技术驱动的全场景解决方案（价值体现版）阿三0812 人工智能
一、系统核心架构通过“智能硬件+AI中台+低代码平台”三层架构，构建覆盖车辆全生命周期的数字化管理系统：感知层：车载OBD、GPS定位器、NFC识别器等设备实时采集车辆位置、油耗、驾驶行为等20+类数据分析层：AI算法引擎处理亿级数据流，实现智能调度、风险预警、能效分析等核心功能应用层：钉钉宜搭低代码平台快速搭建审批流、数据看板等业务模块，支持多端协同二、核心功能解析1.公务车辆智能化管理智能硬件
YashanDB元数据和数据导入导出数据库
本章将对YashanDB内置导入导出工具imp和exp进行介绍及提供基础示例。exp工具是YashanDB的配套导出工具，提供元数据导出及CSV导出能力；imp为YashanDB的配套导入工具，提供元数据导入能力。用户可通过使用exp工具将YashanDB数据库中的表结构、索引、约束等所有数据生成一个元数据文件，该元数据文件可通过配套的导入工具imp导入至同构的YashanDB数据库中。或者通过e
YashanDB csv数据快速导入数据库
本章将对YashanDB内置数据导入工具yasldr进行介绍及提供基础示例。yasldr是YashanDB提供的客户端导入工具，可用于执行CSV格式的数据文件导入。导入前准备1.准备导入数据文件：以安装用户登录数据库所在服务器，在HOME路径下执行如下命令创建datafile文件：$vidatafile将如下内容写入datafile文件中：`1|load|1012|load|201`按Esc，输入
【2025版】最新渗透工程师手册：60个SQL注入Payload清单集合，从零基础到精通，收藏这篇就够了！_sql注入的payload 网络安全小宇哥 sql 数据库 web安全测试工具计算机网络安全网络
联合注入Payload报错注入Payloadextractvalue函数updatexml函数BigInt数据类型溢出floor函数堆叠注入Payload盲注Payload布尔盲注SQL联合注入Payload#查字段1'orderby1#1'orderby100##联合查询(假设字段为3)-1'unionselect1,2,3#//-1使页面报错，方便显示#查所有数据库名(假设回显为2)-1'un
深入详解人工智能机器学习：强化学习猿享天开人工智能基础知识学习人工智能机器学习强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL）是机器学习中的一个重要领域，其核心目标是通过与环境的交互学习如何采取行动以最大化累积奖励。与监督学习不同的是，强化学习不依赖于给定的输入输出对，而是通过试探和反馈不断改进决策策略。强化
自学c++之stl 拾萤 c++开发语言
stl六大组件，容器、算法、迭代器、仿函数、适配器、空间配置器容器各种数据结构，例如：vector、list、deque、set、mapvctor#include#include#includeusingnamespacestd;voidmyprint(intval){coutv;//相当于数组//插入数据v.push_back(10);v.push_back(20);//通过迭代器来访问数据//
低代码革命：基于DeepSeek微调模型实现前端代码自动生成与私有JS API调用的实战指南 Light60 低代码实战篇 AI应用低代码开发 DeepSeek 微调模型 JavaScript API 智能生成
摘要本文探讨如何微调DeepSeek平台的大语言模型，以实现前端代码的智能生成与自建JavaScriptAPI库的无缝调用。从模型训练、代码生成到API集成，提供全面的实战方法论，结合CodeBLEU评估指标与异步调用优化技巧，确保代码质量与执行效率。通过具体案例演示，帮助开发者突破低代码开发瓶颈，实现高效、安全的可视化开发。关键字：低代码开发、DeepSeek、微调模型、JavaScriptAP
饿了么算法工程师-AIGC岗内推飞300 AIGC 业界资讯
1、紧跟业界最新自然语言处理技术动态，深入研发并努力创新，特别是在LLM、多模态理解和LLMAgent领域。2、基于大型语言模型开展文本生成、自然语言理解以及智能对话系统的研发，提出新颖的算法/模型，并进行实际开发和应用。3、探索多模态数据的结合，包括图像、文本、语音等，以丰富智能系统的理解和交互能力。4、将自然语言处理技术与具体业务场景相结合，考虑业务的特殊性并适配业务需求。参与到具体的NLP相
2025年，值得关注的LLM大趋势 AI小白熊人工智能产品经理 python 开发语言学习 ai 大模型
随着人工智能技术不断进步，大语言模型正在改变各行各业的运作方式。从代码生成到语言学习应用，GenAI已经渗透到我们日常生活的方方面面。随着像上个月OpenAI的“12天”计划或谷歌的Veo2和Imagen3等新技术的发布，我们看到了快速的创新迭代。面对这些变化，2025年LLM的大趋势值得我们关注。LLM的新兴应用：不仅仅是聊天机器人回想起最初我们用ChatGPT来生成代码或修改文本时，可能没有意
机器学习：强化学习的epsilon贪心算法田乐蒙 Python ML 机器学习贪心算法人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。它与监督学习和无监督学习不同，强调试错探索（Exploration-Exploitation）以及基于奖励信号的学习。强化学习任务通常用马尔可夫决策过程来描述：机器处于环境EEE中，状态空间XXX，其中每个状态x∈Xx\inXx∈X是
MySql复习实战记录 kentrl mysql mysql实用记录
SQL的基本书写原则以分号;结尾SQL语句不区分大小写不区分小大小,但关键字大写,数据库名,表名,列名等小写触发器的名字要区分大小写----这条是必须的这一点与标准SQL的行为有所不同。官方大小写原则SQL关键字和函数名-------------不区分大小写–例如:SELECTNOW();或selectnow();存储程序的名字---------------------不区分大小写–必须:触发器的
19c startup ORA-00093 ORA-01078 pga_aggregate_limit 数据库急诊日记故障处理 oracle 数据库性能优化运维达梦 java python
1.问题描述19c数据库，启动数据库报错ORA-00093，ORA-01078，pga_aggregate_limit参数值设置相关。ORA-00093:pga_aggregate_limitmustbebetween100000Mand100000GORA-01078:failureinprocessingsystemparameters2.问题分析2.1PGA_AGGREGATE_LIMIT参
数据结构与算法：动态规划dp：子序列相关力扣题（上）：300. 最长递增子序列、674.最长连续递增序列 shanshandeisu 数据结构与算法 LeetCode 动态规划 leetcode 算法子序列力扣 dp 数据结构
300.最长递增子序列classSolution:deflengthOfLIS(self,nums:List[int])->int:length=len(nums)iflength==1:return1#dp[i]指的是以nums[i]为结尾的最长递增子序列的长度。dp=[1]*lengthmmax=1foriinrange(1,length):forjinrange(i):ifnums[i]>n
liunx安装mysql/jdk/redis/nginx应用奔波霸的伶俐虫 adb
数据库安装（1）将文件夹\综合管理系统\code下的mysql-5.7.42-linux-glibc2.12-x86_64.tar.gz上传到/home目录下解压压缩包：tar-xvfmysql-5.7.42-linux-glibc2.12-x86_64.tar.gz-C/usr/local（2）创建数据存放目录cd/usr/local/mysqlmkdirdata（3）创建mysql用户组和my
【星云 Orbit-F4 开发板】03a. 按键玩法一：独立按键定时中断扫描法智木芯语【星云 Orbit-F4 开发板】单片机嵌入式硬件 stm32
【星云Orbit-F4开发板】03b.按键玩法一：独立按键中断扫描法概述本教程基于STM32F407HAL库，实现模块化的定时中断按键扫描功能，采用去抖动算法与自锁机制确保稳定检测。代码分为按键模块、蜂鸣器模块、定时器模块及主程序，结构清晰，便于移植扩展。目录结构Project/├──Inc/│├──key.h//按键模块头文件│├──beep.h//蜂鸣器模块头文件│├──timer.h//定时
Visual Studio 2022开发C++程序实现带多组参数和标签的SQL Server数据库批量数据导出程序 weixin_30777913 c++数据库 sqlserver
设计一个基于多个带标签SQL模板作为配置文件和多组参数的C++代码程序，用VisualStudio2022开发，实现根据不同的输入参数，用Airflow进行调度，自动批量地将SQLServer数据库的数据导出为Excel文件到指定目录上，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。程序使用C++ODBCAPI访问数据库，使用OpenXMLSDK写入Excel文件
redis和mysqle辨析 C嘎嘎嵌入式开发 redis 数据库缓存
Redis和MySQL是两种非常流行的数据库系统，但它们在设计、数据模型、用途和性能方面有着根本的不同。数据存储模型MySQL是一个关系型数据库管理系统，使用表来组织数据，数据以行和列的形式存储。它支持复杂的查询语言，允许进行多表联合查询、事务处理、索引创建等。Redis是一个键值存储系统，数据以键值对的形式存储。它支持多种数据结构，如字符串、列表、集合、有序集合、散列。Redis的操作通常是基于
算法教程：岛的最大面积谏君之算法 redis 数据库
算法教程：岛的最大面积我们将首先讨论问题和解决方案，然后使用可视化工具（上一篇博客中进行了介绍）来更好地理解搜索过程。问题描述我们将要演练的具体问题是问题Leetcode：岛屿的最大面积。在Leetcode上找到的直接问题描述是：给你一个mxn二进制矩阵网格。岛屿是一组1（代表陆地），以4个方向（水平或垂直）连接。您可以假设网格的所有四个边缘都被水包围。岛屿的面积是岛屿中值为1的单元格数。返回网格
算法学习——TEB算法 .小墨迹算法学习算法学习 linux 开发语言 c++
TEB（TimedElasticBand）路径规划算法是一种基于优化的局部路径规划算法，广泛应用于移动机器人、自动驾驶等领域。它通过在机器人的运动轨迹上引入时间信息，结合动力学约束和环境约束，生成平滑且可行的路径。以下是对TEB算法的原理、实现方式、路线生成、约束条件设置以及参数调节的详细说明。1.TEB算法原理1.1核心思想TEB算法的核心思想是将机器人的运动轨迹表示为一个弹性带（Elastic
Mysql 主从集群同步延迟问题怎么解决涛粒子 mysql 数据库
网络与硬件资源优化网络环境优化：检查主从服务器之间的网络连接，确保网络稳定且带宽充足，降低网络延迟和丢包率。可以通过更换高性能网络设备、优化网络拓扑结构等方式来实现。硬件资源调整：监控主从数据库服务器的CPU、内存、磁盘I/O等资源使用情况。若资源紧张，可通过增加硬件配置（如升级CPU、增大内存、更换为SSD硬盘）来提升服务器处理事务的能力；或在业务低峰期执行数据操作，降低请求量。业务逻辑与事务优
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end