算法美食屋

Baichuan-13B 保姆级微调范例

干货预警：这可能是你能够找到的最容易懂的，最完整的，适用于各种NLP任务的Baichuan-13B-Chat的finetune教程~

Baichuan-13B是百川智能于2023年7月11日发布的开源中英双语LLM，各项指标经评测在开源LLM中同尺寸模型中位居前列。

Baichuan-13B包括Baichuan-13B-Base和Baichuan-13B-chat两个不同模型。前者仅仅是预训练模型，后者在前者基础上增加了SFT,RLHF等偏好对齐过程。

本范例微调的模型是Baichuan-13B-Chat，我们使用非常简单的，外卖评论数据集来实施微调，对一段外卖评论区分是好评还是差评。

可以发现，经过微调后的模型，相比直接 3-shot-prompt 可以取得明显更好的效果(0.89->0.90)。

虽然Baichuan-13B-Chat是一个百亿级的LLM，但由于我们使用非常节约显存的QLoRA微调算法，具备32G左右显存的GPU即可实施本过程。

值得注意的是，尽管我们以文本分类任务为例，实际上，任何NLP任务，例如，命名实体识别，翻译，聊天对话等等，都可以通过加上合适的上下文，转换成一个对话问题，并针对我们的使用场景，设计出合适的数据集来微调Baichuan-13B-Chat.

注，本教程是 ChatGLM2-6b保姆级微调范例的兄弟版本~

60分钟吃掉ChatGLM2-6b微调范例~

公众号算法美食屋后台回复关键词：torchkeras，获取本文notebook源码和waimai数据集。

waimai数据集简单评测对比：

〇，预训练模型

我们需要从 https://huggingface.co/baichuan-inc/Baichuan-13B-Chat 下载baichuan-13b-chat的模型。

国内可能速度会比较慢，总共有25个G左右，网速不太好的话，大概可能需要两到三个小时。

如果网络不稳定，也可以手动从这个页面一个一个下载全部文件然后放置到一个文件夹中例如 'baichuan-13b' 以便读取。

import warnings
warnings.filterwarnings('ignore')

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM,AutoConfig, AutoModel, BitsAndBytesConfig
from transformers.generation.utils import GenerationConfig
import torch.nn as nn


#使用QLoRA引入的 NF4量化数据类型以节约显存
model_name_or_path ='../baichuan-13b' #远程 'baichuan-inc/Baichuan-13B-Chat'

bnb_config=BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
            llm_int8_threshold=6.0,
            llm_int8_has_fp16_weight=False,
        )

tokenizer = AutoTokenizer.from_pretrained(
   model_name_or_path, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                quantization_config=bnb_config,
                trust_remote_code=True) 

model.generation_config = GenerationConfig.from_pretrained(model_name_or_path)

from IPython.display import clear_output 
messages = []
messages.append({"role": "user",
                 "content": "世界上第二高的山峰是哪座?"})
response = model.chat(tokenizer,messages=messages,stream=True)
for res in response:
    print(res)
    clear_output(wait=True)

下面我们设计一个3-shot-prompt方法，使用外卖数据集测试一下BaiChuan13b的文本分类能力。

prefix = """外卖评论文本分类任务:
下面是一些范例:

味道真不错 -> 好评
太辣了，吃不下都  -> 差评

请对下述评论进行分类。返回'好评'或者'差评'。
"""

def get_prompt(text):
    return prefix+text+' -> '

messages  = [{"role": "user", "content": get_prompt('味道不错，下次再来')}]
response = model.chat(tokenizer, messages)
print(response)

好评

messages = messages+[{"role": "assistant", "content": response}]
print(messages)

def get_message(prompt,response):
    return [{"role": "user", "content": f'{prompt} -> '},
            {"role": "assistant", "content": response}]

messages.extend(get_message('太贵了','差评'))
messages.extend(get_message('非常快，味道好','好评'))
messages.extend(get_message('这么咸，真的是醉了','差评'))

messages

def predict(text,temperature=0.01):
    model.generation_config.temperature=temperature
    response = model.chat(tokenizer, 
                          messages = messages+[{'role':'user','content':f'{text} -> '}])
    return response

我们拿外卖数据集来测试一下未经微调，预训练模型的效果。

import pandas as pd 
import numpy as np 
import datasets 
from tqdm import tqdm

#数据集加载
dftrain = pd.read_parquet('../data/dftrain.parquet')[['text','label','tag']]
dftest = pd.read_parquet('../data/dftest.parquet')[['text','label','tag']]
ds_train,ds_val = datasets.Dataset.from_pandas(dftrain).train_test_split(
    test_size=1000,seed=42).values()\

dftrain,dfval = ds_train.to_pandas(), ds_val.to_pandas()

dftest['pred'] = [predict(text) for text in tqdm(dftest['text'])]

一，准备数据

我们仿照百川模型的 model._build_chat_input 方法来进行token编码，同时把需要学习的内容添加label.

1，token编码

import torch 

#将messages编码成 token, 同时返回labels, 该函数适用于多轮对话数据
#注意baichuan-13b通过插入tokenizer.user_token_id和tokenizer.assistant_token_id 来区分用户和机器人会话内容

# reference@ model._build_chat_input?
def build_chat_input(messages, model=model,
                     tokenizer=tokenizer, 
                     max_new_tokens: int=0):
    max_new_tokens = max_new_tokens or model.generation_config.max_new_tokens
    max_input_tokens = model.config.model_max_length - max_new_tokens
    max_input_tokens = max(model.config.model_max_length // 2, max_input_tokens)
    
    total_input, round_input, total_label, round_label = [], [], [], []
    
    for i, message in enumerate(messages[::-1]):
        content_tokens = tokenizer.encode(message['content'])
        if message['role'] == 'user':
            round_input = [model.generation_config.user_token_id] + content_tokens + round_input
            round_label = [-100]+[-100 for _ in content_tokens]+ round_label
            
            if total_input and len(total_input) + len(round_input) > max_input_tokens:
                break
            else:
                total_input = round_input + total_input
                total_label = round_label + total_label
                if len(total_input) >= max_input_tokens:
                    break
                else:
                    round_input = []
                    round_label = []
                    
        elif message['role'] == 'assistant':
            round_input = [
                model.generation_config.assistant_token_id
            ] + content_tokens + [
                model.generation_config.eos_token_id
            ] + round_input

            round_label = [
                -100
            ] + content_tokens + [
                model.generation_config.eos_token_id
            ]+ round_label
        else:
            raise ValueError(f"message role not supported yet: {message['role']}")
            
    total_input = total_input[-max_input_tokens:]  # truncate left
    total_label = total_label[-max_input_tokens:]
    
    total_input.append(model.generation_config.assistant_token_id)
    total_label.append(-100)
    
    return total_input,total_label

2，做数据集

from torch.utils.data import Dataset,DataLoader 
class MyDataset(Dataset):
    def __init__(self,df,
                 prefix=prefix
                ):
        self.df = df 
        self.prefix=prefix
        
    def __len__(self):
        return len(self.df)
        
    def get_samples(self,index):
        samples = []
        d = dict(self.df.iloc[index])
        samples.append(d)
        return samples
    
    def get_messages(self,index):
        samples = self.get_samples(index)
        messages = []
        for i,d in enumerate(samples):
            if i==0:
                messages.append({'role':'user','content':self.prefix+d['text']+' -> '})
            else:
                messages.append({'role':'user','content':d['text']+' -> '})
            
            messages.append({'role':'assistant','content':d['tag']})
        return messages
        
    def __getitem__(self,index):
        messages = self.get_messages(index)
        input_ids, labels = build_chat_input(messages)
        return {'input_ids':input_ids,'labels':labels}

    def show_sample(self,index):
        samples = self.get_samples(index)
        print(samples)

ds_train = MyDataset(dftrain)
ds_val = MyDataset(dfval)

3，创建管道

def data_collator(examples: list):
    len_ids = [len(example["input_ids"]) for example in examples]
    longest = max(len_ids) #之后按照batch中最长的input_ids进行padding
    
    input_ids = []
    labels_list = []
    
    for length, example in sorted(zip(len_ids, examples), key=lambda x: -x[0]):
        ids = example["input_ids"]
        labs = example["labels"]
        
        ids = ids + [tokenizer.pad_token_id] * (longest - length)
        labs = labs + [-100] * (longest - length)
        
        input_ids.append(torch.LongTensor(ids))
        labels_list.append(torch.LongTensor(labs))
          
    input_ids = torch.stack(input_ids)
    labels = torch.stack(labels_list)
    return {
        "input_ids": input_ids,
        "labels": labels,
    }

import torch 
dl_train = torch.utils.data.DataLoader(ds_train,num_workers=2,batch_size=4,
                                       pin_memory=True,shuffle=True,
                                       collate_fn = data_collator)

dl_val = torch.utils.data.DataLoader(ds_val,num_workers=2,batch_size=4,
                                    pin_memory=True,shuffle=False,
                                     collate_fn = data_collator)

for batch in dl_train:
    break

二，定义模型

下面我们将使用QLoRA(实际上用的是量化的AdaLoRA）算法来微调Baichuan-13b模型。

from peft import get_peft_config, get_peft_model, TaskType
model.supports_gradient_checkpointing = True  #
model.gradient_checkpointing_enable()
model.enable_input_require_grads()

model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

import bitsandbytes as bnb 
def find_all_linear_names(model):
    """
    找出所有全连接层，为所有全连接添加adapter
    """
    cls = bnb.nn.Linear4bit
    lora_module_names = set()
    for name, module in model.named_modules():
        if isinstance(module, cls):
            names = name.split('.')
            lora_module_names.add(names[0] if len(names) == 1 else names[-1])

    if 'lm_head' in lora_module_names:  # needed for 16-bit
        lora_module_names.remove('lm_head')
    return list(lora_module_names)

from peft import prepare_model_for_kbit_training 
model = prepare_model_for_kbit_training(model)

lora_modules = find_all_linear_names(model)
print(lora_modules)

['down_proj', 'o_proj', 'up_proj', 'W_pack', 'gate_proj']

from peft import AdaLoraConfig
peft_config = AdaLoraConfig(
    task_type=TaskType.CAUSAL_LM, inference_mode=False,
    r=64,
    lora_alpha=16, lora_dropout=0.05,
    target_modules= lora_modules
)

peft_model = get_peft_model(model, peft_config)

peft_model.is_parallelizable = True
peft_model.model_parallel = True
peft_model.print_trainable_parameters()

三，训练模型

from torchkeras import KerasModel 
from accelerate import Accelerator 

class StepRunner:
    def __init__(self, net, loss_fn, accelerator=None, stage = "train", metrics_dict = None, 
                 optimizer = None, lr_scheduler = None
                 ):
        self.net,self.loss_fn,self.metrics_dict,self.stage = net,loss_fn,metrics_dict,stage
        self.optimizer,self.lr_scheduler = optimizer,lr_scheduler
        self.accelerator = accelerator if accelerator is not None else Accelerator() 
        if self.stage=='train':
            self.net.train() 
        else:
            self.net.eval()
    
    def __call__(self, batch):
        
        #loss
        with self.accelerator.autocast():
            loss = self.net.forward(**batch)[0]

        #backward()
        if self.optimizer is not None and self.stage=="train":
            self.accelerator.backward(loss)
            if self.accelerator.sync_gradients:
                self.accelerator.clip_grad_norm_(self.net.parameters(), 1.0)
            self.optimizer.step()
            if self.lr_scheduler is not None:
                self.lr_scheduler.step()
            self.optimizer.zero_grad()
            
        all_loss = self.accelerator.gather(loss).sum()
        
        #losses (or plain metrics that can be averaged)
        step_losses = {self.stage+"_loss":all_loss.item()}
        
        #metrics (stateful metrics)
        step_metrics = {}
        
        if self.stage=="train":
            if self.optimizer is not None:
                step_metrics['lr'] = self.optimizer.state_dict()['param_groups'][0]['lr']
            else:
                step_metrics['lr'] = 0.0
        return step_losses,step_metrics
    
KerasModel.StepRunner = StepRunner 

#仅仅保存QLora可训练参数
def save_ckpt(self, ckpt_path='checkpoint', accelerator = None):
    unwrap_net = accelerator.unwrap_model(self.net)
    unwrap_net.save_pretrained(ckpt_path)
    
def load_ckpt(self, ckpt_path='checkpoint'):
    import os
    self.net.load_state_dict(
        torch.load(os.path.join(ckpt_path,'adapter_model.bin')),strict =False)
    self.from_scratch = False
    
KerasModel.save_ckpt = save_ckpt 
KerasModel.load_ckpt = load_ckpt

optimizer = bnb.optim.adamw.AdamW(peft_model.parameters(),
                                  lr=6e-05,is_paged=True)  #'paged_adamw'
keras_model = KerasModel(peft_model,loss_fn =None,
        optimizer=optimizer) 
ckpt_path = 'baichuan13b_waimai'

# keras_model.load_ckpt(ckpt_path) #支持加载微调后的权重继续训练(断点续训)
keras_model.fit(train_data = dl_train,
                val_data = dl_val,
                epochs=100,patience=10,
                monitor='val_loss',mode='min',
                ckpt_path = ckpt_path
               )

四，保存模型

为减少GPU压力，此处可重启kernel释放显存

import warnings 
warnings.filterwarnings('ignore')

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM,AutoConfig, AutoModel, BitsAndBytesConfig
from transformers.generation.utils import GenerationConfig
import torch.nn as nn
model_name_or_path ='../baichuan-13b'
ckpt_path = 'baichuan13b_waimai'
tokenizer = AutoTokenizer.from_pretrained(
    model_name_or_path,
    trust_remote_code=True
)
model_old = AutoModelForCausalLM.from_pretrained(
    model_name_or_path,
    trust_remote_code=True,
    low_cpu_mem_usage=True,
    torch_dtype=torch.float16,
    device_map='auto'
)

from peft import PeftModel

#可能需要5分钟左右
peft_model = PeftModel.from_pretrained(model_old, ckpt_path)
model_new = peft_model.merge_and_unload()

from transformers.generation.utils import GenerationConfig
model_new.generation_config = GenerationConfig.from_pretrained(model_name_or_path)

from IPython.display import clear_output
messages = []
messages.append({"role": "user",
                 "content": "世界上第二高的山峰是什么？"})
response = model_new.chat(tokenizer,messages=messages,stream=True)
for res in response:
    print(res)
    clear_output(wait=True)

save_path = 'baichuan-13b-waimai'

tokenizer.save_pretrained(save_path)
model_new.save_pretrained(save_path)

!cp baichuan-13b/*.py  baichuan-13b-waimai

五，使用模型

为减少GPU压力，此处可再次重启kernel释放显存。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM,AutoConfig, BitsAndBytesConfig
from transformers.generation.utils import GenerationConfig
import torch.nn as nn

import warnings
warnings.filterwarnings('ignore')

model_name_or_path = 'baichuan-13b-waimai'

bnb_config=BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4",
            llm_int8_threshold=6.0,
            llm_int8_has_fp16_weight=False,
        )

tokenizer = AutoTokenizer.from_pretrained(
   model_name_or_path, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                quantization_config=bnb_config,
                trust_remote_code=True) 

model.generation_config = GenerationConfig.from_pretrained(model_name_or_path)

from IPython.display import clear_output
messages = []
messages.append({"role": "user",
                 "content": "世界上第二高的山峰是什么？"})
response = model.chat(tokenizer,messages=messages,stream=True)
for res in response:
    print(res)
    clear_output(wait=True)

乔戈里峰。世界第二高峰———乔戈里峰
海拔高度：8610米
坐标纬度：35°49′15′′n,76°21′24′′e
地理位置：喀喇昆仑山脉中巴边境上

我们测试一下微调后的效果。

import pandas as pd 
import numpy as np 
import datasets 
from tqdm import tqdm

prefix = """外卖评论文本分类任务:
下面是一些范例:

味道真不错 -> 好评
太辣了，吃不下都  -> 差评

请对下述评论进行分类。返回'好评'或者'差评'。
"""

def get_prompt(text):
    return prefix+text+' -> '

messages  = [{"role": "user", "content": get_prompt('味道不错，下次再来')}]
response = model.chat(tokenizer, messages)
print(response)

好评

messages = messages+[{"role": "assistant", "content": response}]
print(messages)

def get_message(prompt,response):
    return [{"role": "user", "content": f'{prompt} -> '},
            {"role": "assistant", "content": response}]

messages.extend(get_message('太贵了','差评'))
messages.extend(get_message('非常快，味道好','好评'))
messages.extend(get_message('这么咸，真的是醉了','差评'))

def predict(text,temperature=0.01):
    model.generation_config.temperature=temperature
    response = model.chat(tokenizer, 
                          messages = messages+[{'role':'user','content':f'{text} -> '}])
    return response

微调后的acc为0.9015，相比微调前的0.8925，约提升1个百分点。

以上。

公众号算法美食屋后台回复关键词：torchkeras，获取本文notebook源码和更多有趣范例~

中型项目中 MyBatis 的挑战与应对计算机毕设定制辅导-无忧学长 #MyBatis mybatis
一、引言在当今的Java企业级开发领域，MyBatis无疑是一款占据重要地位的持久层框架。它像是一座桥梁，优雅地连接着Java应用程序与数据库，让数据的交互变得高效且便捷。当我们聚焦于中型项目时，随着业务复杂度的提升以及数据量的增长，MyBatis在为我们带来便利的同时，也悄然面临着诸多挑战。这些挑战涵盖了从性能瓶颈到代码维护性，从数据库兼容性到事务管理等多个关键层面。深入探究这些问题并找寻有效的
中型项目下的 MySQL 挑战与应对计算机毕设定制辅导-无忧学长 #MySQL mysql 数据库
中型项目里MySQL面临的挑战数据量增长挑战在中型项目的发展进程中，业务不断拓展，数据量往往会呈现出持续增长的态势，这就给MySQL带来了不小的挑战。要知道，MySQL单表虽然理论上可以存储10亿级的数据，但当数据量达到亿级时，其性能，比如查询速度等方面，就会面临严峻的考验，处理效率会大打折扣，进而影响整个系统的运行效率。例如，在某些项目实例（一主一从）中，曾出现过告警情况，每天凌晨会报SLA报警
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
API对于程序员的多元用法：从基础到实战前端后端运维数据挖掘api
一、引言在当今数字化时代，应用程序编程接口（API）已成为程序员开发工作中不可或缺的一部分。API就像是不同软件系统之间沟通的桥梁，让程序员能够轻松地利用外部的功能和数据，极大地提升了开发效率和应用的功能性。无论是构建一个简单的网页应用，还是开发复杂的企业级软件，API都扮演着关键角色。接下来，我们将深入探讨API对于程序员的各种用法。二、API基础概念2.1什么是APIAPI是一组定义、协议和工
跻身全球高成长企业之列：涛思数据斩获“2024 胡润全球猎豹企业”殊荣 tdengine数据库
近日，胡润百富在广州南沙举办了“2024胡润全球猎豹企业大会”，正式发布《2024胡润全球猎豹企业榜》。这份榜单汇聚了全球成立于2000年之后、未来五年内最有可能达到十亿美元独角兽级估值的高成长企业。作为全球创业企业发展的风向标，“胡润全球猎豹企业榜”反映了各行业的创新力量和未来潜力。今年，全球共有928家企业上榜，中国以304家企业位居榜单第二，仅次于美国的359家。榜单显示，这些“猎豹企业”平
河北大学计算机科学与技术考研,计算机专业考研经验贴（重） gymsummer 河北大学计算机科学与技术考研
该楼层疑似违规已被系统折叠隐藏此楼查看此楼首先，欢迎各路学弟学妹报考河北大学计算机专业研究生。作为学院新培养方案的第一届15级研一新生，我有幸和大家分享下本专业考研历程。其他专业也可参考一下，多少还是有相似之处且在本帖后面会有开学需要注意的事项。欢迎转帖分享。我是大四10月份才开始准备的，没有来得及报辅导班，复习了将近三个月，每天六点起，晚上十点半回寝室。最后以299分通过初试。所以，为了比较轻松
Flex.1-Alpha - 可进行适当微调的新修改通量模型。吴脑的键客 AI作画人工智能 AIGC
“Flex.1以FLUX.1-schnell-training-adapter开始，目的是在FLUX.1-schnell上训练LoRA。最初的目标是训练一个可以在训练过程中激活的LoRA，以便对步长压缩模型进行微调。我将这个适配器并入了FLUX.1-schnell，并继续在FLUX.1-schnell模型生成的图像上训练它，以进一步分解压缩，同时不注入任何新数据，目的是制作一个独立的基础模型。这就
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
什么时候需要分表分库？ fajianchen IT架构系列 IT架构高性能分库分表
目录背景什么时候要分表分库？如何分表分库？系列文章背景对于一个日活用户在百万数量级的商城来说，每天产生的订单数量可能在百万级，特别在一些活动促销期间，甚至上千万。假设我们基于单表来实现，每天产生上百万的数据量，不到一个月的时间就要承受上亿的数据，这时单表的性能将会严重下降。因为MySQL在InnoDB存储引擎下创建的索引都是基于B+树实现的，所以查询时的I/O次数很大程度取决于树的高度，随着B+树
JavaWeb 开发入门：从基础到应用大梦百万秋知识学爆 java
JavaWeb是基于Java技术构建的Web应用开发体系。得益于Java的跨平台性和强大的生态系统，JavaWeb长期以来一直是企业级开发的首选方案之一。本篇博客将从JavaWeb的基本概念、核心技术到实际项目开发，带你全面了解如何利用JavaWeb构建一个动态网站。什么是JavaWeb？JavaWeb是使用Java技术开发Web应用程序的总称，通常包括动态网页、交互式功能和后端逻辑。它支持开发以
【漏洞预警】FortiOS 和 FortiProxy 身份认证绕过漏洞(CVE-2024-55591) 李火火安全阁漏洞预警 Fortinet
文章目录一、产品简介二、漏洞描述三、影响版本四、漏洞检测方法五、解决方案一、产品简介FortiOS是Fortinet公司核心的网络安全操作系统，广泛应用于FortiGate下一代防火墙，为用户提供防火墙、VPN、入侵防御、应用控制等多种安全功能。FortiProxy则是Fortinet提供的企业级安全代理产品，主要用于内容过滤、Web访问控制和数据安全防护等场景。下一代防火墙产品FortiGate
IDEA 报The selected directory is not a valid home for JDK 错误解决办法 padawan75 idea基础使用
选择jdk的安装目录时，报错提示：TheselecteddirectoryisnotavalidhomeforJDK这种情况是怎么回事呢？有三种情况会出现：jdk的最后一级安装目录需要使用jdk1.8.0_xxx这样的格式命名，别问为什么，这个是idea识别的问题安装好jdk后，直接更改目录名称成jdk1.8.0_xxx格式，这样也是不行的，依然会报错可能你安装的jdk只是安装了jre，而非jdk
HarmonyOS Next企业级设备认证解决方案：基于Device Certificate Kit的多层级身份验证 SameX-4869 harmonyos php 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。在企业数字化转型的浪潮中，大量设备接入企业网络，保障设备的合法性和安全性成为了至关重要的任务。基于华为鸿蒙HarmonyOSNext系统，利用Devi
新一代实时神器-Fluss初识及部署本旺大数据 Flink Fluss flink 大数据数据结构 etl
Fluss简介Fluss是一种为实时分析而构建的流式存储，可以用作Lakehouse架构的实时数据层。Fluss支持亚秒级延迟的流式读取和写入，并以列格式存储数据，从而提高查询性能并降低存储成本。它提供灵活的表类型，包括仅追加日志表和可更新的PrimaryKey表，以满足不同的实时分析和处理需求。在作者看来，其实Fluss目前的主要替换者是Kafka，它的出现也是为了替换kafka在实时数仓链路中
Java实战：Spring Boot实现多租户思路拥抱AI java spring boot 开发语言
引言在当今云计算与SaaS服务盛行的时代，多租户架构成为了很多企业级应用的基础设计之一。这种架构允许单一应用程序实例为多个组织（租户）提供服务，同时保持各租户数据和配置的隔离性。SpringBoot作为现代Java开发领域的翘楚框架，其简洁明快的风格与高度灵活性使它成为构建多租户应用的理想选择。本文将带领您走进SpringBoot的世界，详细探讨如何实现多租户架构。一、多租户架构概述多租户模型多租
使用Nginx反向代理将多个服务配置成二级域名访问博远~ Nginx nginx 运维
在一个服务器中运行多个服务时，直接通过IP和端口访问不仅不方便记忆，也不利于管理。通过Nginx反向代理，可以将不同的服务配置成二级域名进行访问，从而简化访问方式。以下是详细的步骤和配置示例。前提条件已安装并配置了Nginx。已有一个域名，并可以添加二级域名解析。各个服务已经在服务器上运行，并可以通过IP和端口访问。步骤1.安装Nginx如果还未安装Nginx，可以通过以下命令进行安装#Ubunt
HarmonyOS 开发实战 —— 模块化架构组件（使用系统路由表+注解+hvigor插件自动配置项目模块化） CTrup 鸿蒙开发 HarmonyOS 移动开发 harmonyos 架构 ui ArkUI 组件化插件化 hvigor
往期笔录记录：鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……@satis/oh-router简介@sati
HarmonyOS 开发实践——模块化架构组件（使用系统路由表+注解+hvigor插件自动配置项目模块化）我是你叶 HarmonyOS 鸿蒙开发移动开发 harmonyos 架构鸿蒙开发 ui Arkui 移动开发组件化
往期推文看点鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……@satis/oh-router简介@satis
C语言期末必练题目——part 2 Kylin524 C语言期末 c语言算法 c++
读程序基本输入输出及流程控制1.#includemain(){inta=1,b=3,c=5;if(c==a+b)printf("yes\n");elseprintf("no\n");}运行结果为：no详见教材p89选择结构详见教材p91关系符号详见附录Dp378符号的优先级==表示判断符号两边的值是否相等；=表示将符号右边的值赋给左边的变量本题考点是选择结构3种基本形式的第二种选择结构三种一般形式
一个产品从开发到上线需要几个步骤 yqcoder javascript 前端
一、需求分析与规划1.需求收集与客户、市场团队、用户等进行沟通，收集对产品的功能、性能、外观、用户体验等方面的需求。可以通过问卷调查、用户访谈、竞品分析等方式获取需求信息。2.需求分析对收集到的需求进行详细分析，明确需求的优先级、可行性和相互关系。分析过程中要考虑技术实现难度、成本、时间等因素，确保需求合理且可实现。3.产品规划根据需求分析结果，制定产品的整体规划，包括产品的定位、目标用户群体、功
【Spring】Spring DI(依赖注入)详解——注入参数的细节处理-null值的注入 AI人H哥会Java JAVA java 开发语言 spring 后端架构
引言在现代Java开发中，Spring框架已经成为了构建企业级应用的标准工具之一。Spring的核心特性之一就是依赖注入（DependencyInjection，DI），它通过将对象的依赖关系从代码中解耦出来，提升了代码的可维护性和可测试性。特别是在大型项目中，良好的依赖管理能够显著降低代码的复杂度，提高开发效率。依赖注入的基本概念依赖注入是一种设计模式，用于实现控制反转（InversionofC
天童教育：课外阅读图书推荐 t05777 其他
新学期开始了，现在正是孩子培养良好的阅读习惯的关键时期。让孩子感受阅读，爱上阅读，无疑会丰富孩子的日常生活，开阔孩子的视野，帮助孩子更好地生活。今天西安天童教育就和大家推荐几本适合孩子看的课外阅读书目，让阅读常伴孩子！《一年级的小豌豆和小蜜瓜》这是著名儿童文学作家商晓娜专门为一年级的孩子们写的入学故事书，故事围绕一年级女孩和男孩的生活展开，一共有31个小故事，全彩注音，适合孩子和家长们共读，了解校
CSS 布局的四大宗师：破解 BFC、IFC、GFC 和 FFC 的深层奥秘 dorabighead 前端八股总结 css 前端
CSS布局的四大宗师：破解BFC、IFC、GFC和FFC的深层奥秘在CSS的江湖中，布局问题犹如无形的桎梏，困扰着每一位前端开发者。有人为浮动塌陷而抓狂，有人被复杂的响应式布局逼得手足无措。而在布局的巅峰，有四位宗师——BFC、IFC、GFC和FFC，它们分别掌控着块级、行内、网格和弹性布局的精髓。掌握它们，不仅仅是技术的进步，更是开启布局新境界的钥匙。今天，我们不再止步于表面，而是深入到它们的核
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
芋道源码（无遮羞布版）Spring Boot 全景指南 m0_74825488 spring boot 后端 java
芋道源码（无遮羞布版）SpringBoot全景指南项目地址:https://gitcode.com/gh_mirrors/ru/ruoyi-spring-boot-all一、项目目录结构及介绍芋道源码（ruoyi-spring-boot-all）项目基于SpringBoot构建，旨在提供一个全面且易于定制的企业级应用框架。下面是其主要的目录结构及其简介：ruoyi-spring-boot-all/
【保姆级爬虫】微博关键词搜索并获取博文和评论内容（python+selenium+chorme） m0_74824076 爬虫 python selenium
微博爬虫记录写这个主要是为了防止自己忘记以及之后的组内工作交接，至于代码美不美观，写的好不好，统统不考虑，我只能说，能跑就不错了，上学压根没学过python好吧，基本上是crtl+c&ctrl+v丝滑小连招教会了我一点。写的很简单，认真看完就会用了文中筛选元素用到的一些筛选元素的正则匹配、beautifulsoup，css等相关方法我也不太懂，现学现用呗，还是那句话，能跑就行。配置简介：pytho
使用Python实现LLM的文本生成：风格迁移与内容控制二进制独立开发 GenAI与Python 非纯粹GenAI python 开发语言人工智能自然语言处理分布式语言模型 transformer
文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移4.内容控制4.1内容控制的基本原理4.2使用Python实现内容控制5.高级技巧与优化5.1多轮对话生成5.2生成参数优化6.应用场景与未来展望结论引言随着自然语言处理（NLP）技术的快速发
美食推荐系统协同过滤余弦函数推荐美食 Springboot Vue Element-UI前后端分离小盼江源码课题设计毕业设计美食 spring boot vue.js
个性化美食推荐系统协同过滤余弦函数推荐美食Echart数据统计SpringbootVueElement-UI前后端分离【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.推荐美食列表展示,使用协同过滤余弦函数根据用户的评论,收藏
【第一篇】SpringSecurity的入门筱白爱学习 java springsecurity
1.SpringSecurity概念 SpringSecurity是Spring采用AOP思想，基于servlet过滤器实现的安全框架。它提供了完善的认证机制和方法级的授权功能。是一款非常优秀的权限管理框架。 SpringSecurity是一个功能强大且高度可定制的身份验证和访问控制框架。它是用于保护基于Spring的应用程序的事实上的标准。 SpringSecurity是一个框架，致力于为
基于Keystone架构的DSP 方克明 TI-DSP 基于Keystone架构 DSP
一、keystone架构组成部分1）.全新的C66x定点/浮点内核：速度高达1.25GHz的高性能DSP内核，单个器件上可实现最高320GMAC和160GFLOP定点及浮点整合性能，整合多个DSP，节省板级空间，降低成本和电源需求。2）.可配置协处理器：用于减轻系统微处理器的特定处理任务。3）.层级存储器：重点讲述。4）.TeraNet交换结构：芯片内部总线矩阵。5）.多内核导航器（Multico
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要