Psycho_MrZhang

迁移学习(基础)

迁移学习理论

目标

迁移学习中的有关概念
掌握迁移学习的两种方式

概念

预训练模型
微调
微调脚本

预训练模型(Pretrained model)

一般情况下预训练模型都是大型模型, 具备复杂的网络结构, 众多的参数量, 以及足够大的数据集进行训练而产生的模型, 在NLP领域, 预训练模型往往是语言模型, 因为语言模型是无监督的, 可以获得大量的语料, 同时语言模型优势许多经典NLP任务的基础, 如:

机器翻译
文本生成
阅读理解

常见预训练模型包括

BEAR
GPT
roBERTa
Transformer-XL

微调(Fine-tuning)

根据给定的预训练模型, 改变它的部分参数或者为其新增部分输出结构后, 通过小部分训练集上训练, 来使整个模型更好的使用特定任务

微调脚本(Fine-tuning script)

实现微调过程的代码文件, 这些脚本文件中, 包含对预训练模型的调用, 对微调参数的选定以及对微调结构的更改, 同时因为微调是一个训练过程, 同样需要一些超参数的设定, 以及损失函数和优化器的选取等, 因此微调脚本往往也包含了整个迁移学习的过程

说明
一般情况下, 微调脚本应该由不同的任务类型开发者自己编写, 但是由于目前研究的NLP任务类型(分类, 提取, 生成)以及对应的微调输出结构是有限的, 有些微调方式已经在很多数据集上验证是有效的, 因此微调脚本也可以使用已经完成的规范化脚本

两种迁移方式

直接使用预训练模型, 进行相同任务的处理, 不需要调整参数或者模型结构, 这些模型开箱即用, 但是一般这种情况只适合简单的任务, 如 fasttext工具包中预训练的词向量模型, 很多预训练模型开发者为了达到开箱即用的效果, 将模型结构分哥哥部分保存为不同的预训练模型, 提供对应的加载方法来完成特定的目标
通过主流的迁移学习方式是发挥预训练模型特征抽象的能力, 然后通过微调的方式通过训练更新小部分参数以此来适应不同的任务, 这种迁移方式需要提供小部分的标注数据来进行监督学习

迁移方式的说明

直接用预训练模型的方式, 已经在fasttext的词向量迁移中学习, 接下来的迁移学习实践将主要讲解微调方式进行迁移学习

NLP中的标准数据集

GLUE数据集合

CoLA数据集
SST-2数据集
MRPC数据集
STS-B数据集
QQP数据集
MNLI数据集
SNLI数据集
QNLI数据集
RTE数据集
WNLI数据集

GLUE由纽约大学, 华盛顿大学和Google推出涵盖不同NLP任务, 成为衡量NLP研究发展的衡量标准

下载数据的脚本

''' Script for downloading all GLUE data.

Note: for legal reasons, we are unable to host MRPC.
You can either use the version hosted by the SentEval team, which is already tokenized, 
or you can download the original data from (https://download.microsoft.com/download/D/4/6/D46FF87A-F6B9-4252-AA8B-3604ED519838/MSRParaphraseCorpus.msi) and extract the data from it manually.
For Windows users, you can run the .msi file. For Mac and Linux users, consider an external library such as 'cabextract' (see below for an example).
You should then rename and place specific files in a folder (see below for an example).

mkdir MRPC
cabextract MSRParaphraseCorpus.msi -d MRPC
cat MRPC/_2DEC3DBE877E4DB192D17C0256E90F1D | tr -d $'\r' > MRPC/msr_paraphrase_train.txt
cat MRPC/_D7B391F9EAFF4B1B8BCE8F21B20B1B61 | tr -d $'\r' > MRPC/msr_paraphrase_test.txt
rm MRPC/_*
rm MSRParaphraseCorpus.msi

1/30/19: It looks like SentEval is no longer hosting their extracted and tokenized MRPC data, so you'll need to download the data from the original source for now.
2/11/19: It looks like SentEval actually *is* hosting the extracted data. Hooray!
'''

import os
import sys
import shutil
import argparse
import tempfile
import urllib.request
import zipfile

TASKS = ["CoLA", "SST", "MRPC", "QQP", "STS", "MNLI", "QNLI", "RTE", "WNLI", "diagnostic"]
TASK2PATH = {"CoLA":'https://dl.fbaipublicfiles.com/glue/data/CoLA.zip',
             "SST":'https://dl.fbaipublicfiles.com/glue/data/SST-2.zip',
             "QQP":'https://dl.fbaipublicfiles.com/glue/data/QQP-clean.zip',
             "STS":'https://dl.fbaipublicfiles.com/glue/data/STS-B.zip',
             "MNLI":'https://dl.fbaipublicfiles.com/glue/data/MNLI.zip',
             "QNLI":'https://dl.fbaipublicfiles.com/glue/data/QNLIv2.zip',
             "RTE":'https://dl.fbaipublicfiles.com/glue/data/RTE.zip',
             "WNLI":'https://dl.fbaipublicfiles.com/glue/data/WNLI.zip',
             "diagnostic":'https://dl.fbaipublicfiles.com/glue/data/AX.tsv'}

MRPC_TRAIN = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_train.txt'
MRPC_TEST = 'https://dl.fbaipublicfiles.com/senteval/senteval_data/msr_paraphrase_test.txt'

def download_and_extract(task, data_dir):
    print("Downloading and extracting %s..." % task)
    if task == "MNLI":
        print("\tNote (12/10/20): This script no longer downloads SNLI. You will need to manually download and format the data to use SNLI.")
    data_file = "%s.zip" % task
    urllib.request.urlretrieve(TASK2PATH[task], data_file)
    with zipfile.ZipFile(data_file) as zip_ref:
        zip_ref.extractall(data_dir)
    os.remove(data_file)
    print("\tCompleted!")

def format_mrpc(data_dir, path_to_data):
    print("Processing MRPC...")
    mrpc_dir = os.path.join(data_dir, "MRPC")
    if not os.path.isdir(mrpc_dir):
        os.mkdir(mrpc_dir)
    if path_to_data:
        mrpc_train_file = os.path.join(path_to_data, "msr_paraphrase_train.txt")
        mrpc_test_file = os.path.join(path_to_data, "msr_paraphrase_test.txt")
    else:
        try:
            mrpc_train_file = os.path.join(mrpc_dir, "msr_paraphrase_train.txt")
            mrpc_test_file = os.path.join(mrpc_dir, "msr_paraphrase_test.txt")
            URLLIB.urlretrieve(MRPC_TRAIN, mrpc_train_file)
            URLLIB.urlretrieve(MRPC_TEST, mrpc_test_file)
        except urllib.error.HTTPError:
            print("Error downloading MRPC")
            return
    assert os.path.isfile(mrpc_train_file), "Train data not found at %s" % mrpc_train_file
    assert os.path.isfile(mrpc_test_file), "Test data not found at %s" % mrpc_test_file

    with io.open(mrpc_test_file, encoding='utf-8') as data_fh, \
            io.open(os.path.join(mrpc_dir, "test.tsv"), 'w', encoding='utf-8') as test_fh:
        header = data_fh.readline()
        test_fh.write("index\t#1 ID\t#2 ID\t#1 String\t#2 String\n")
        for idx, row in enumerate(data_fh):
            label, id1, id2, s1, s2 = row.strip().split('\t')
            test_fh.write("%d\t%s\t%s\t%s\t%s\n" % (idx, id1, id2, s1, s2))

    try:
        URLLIB.urlretrieve(TASK2PATH["MRPC"], os.path.join(mrpc_dir, "dev_ids.tsv"))
    except KeyError or urllib.error.HTTPError:
        print("\tError downloading standard development IDs for MRPC. You will need to manually split your data.")
        return

    dev_ids = []
    with io.open(os.path.join(mrpc_dir, "dev_ids.tsv"), encoding='utf-8') as ids_fh:
        for row in ids_fh:
            dev_ids.append(row.strip().split('\t'))

    with io.open(mrpc_train_file, encoding='utf-8') as data_fh, \
         io.open(os.path.join(mrpc_dir, "train.tsv"), 'w', encoding='utf-8') as train_fh, \
         io.open(os.path.join(mrpc_dir, "dev.tsv"), 'w', encoding='utf-8') as dev_fh:
        header = data_fh.readline()
        train_fh.write(header)
        dev_fh.write(header)
        for row in data_fh:
            label, id1, id2, s1, s2 = row.strip().split('\t')
            if [id1, id2] in dev_ids:
                dev_fh.write("%s\t%s\t%s\t%s\t%s\n" % (label, id1, id2, s1, s2))
            else:
                train_fh.write("%s\t%s\t%s\t%s\t%s\n" % (label, id1, id2, s1, s2))
                
    print("\tCompleted!")
    
def download_diagnostic(data_dir):
    print("Downloading and extracting diagnostic...")
    if not os.path.isdir(os.path.join(data_dir, "diagnostic")):
        os.mkdir(os.path.join(data_dir, "diagnostic"))
    data_file = os.path.join(data_dir, "diagnostic", "diagnostic.tsv")
    urllib.request.urlretrieve(TASK2PATH["diagnostic"], data_file)
    print("\tCompleted!")
    return

def get_tasks(task_names):
    task_names = task_names.split(',')
    if "all" in task_names:
        tasks = TASKS
    else:
        tasks = []
        for task_name in task_names:
            assert task_name in TASKS, "Task %s not found!" % task_name
            tasks.append(task_name)
    return tasks

def main(arguments):
    parser = argparse.ArgumentParser()
    parser.add_argument('--data_dir', help='directory to save data to', type=str, default='glue_data')
    parser.add_argument('--tasks', help='tasks to download data for as a comma separated string',
                        type=str, default='all')
    parser.add_argument('--path_to_mrpc', help='path to directory containing extracted MRPC data, msr_paraphrase_train.txt and msr_paraphrase_text.txt',
                        type=str, default='')
    args = parser.parse_args(arguments)

    if not os.path.isdir(args.data_dir):
        os.mkdir(args.data_dir)
    tasks = get_tasks(args.tasks)

    for task in tasks:
        if task == 'MRPC':
            format_mrpc(args.data_dir, args.path_to_mrpc)
        elif task == 'diagnostic':
            download_diagnostic(args.data_dir)
        else:
            download_and_extract(task, args.data_dir)


if __name__ == '__main__':
    sys.exit(main(sys.argv[1:]))

QQP

dev.tsv: 验证集
test.tsv: 测试集
train.tsv: 训练集
original/

其中训练集(train.tsv)和测试集(test.tsv)都是带标签的数据, test.tsv是不带标签的

任务类型

句子对二分类任务
评估指标为 ACC/F1

MNLI数据集

dev_matched.tsv: 验证集
dev_mismatched.tsv: 验证集
original/
test_matched.tsv: 测试集
test_mismatched.tsv: 测试集
train.tsv: 训练集合

说明
matched: 代表与训练集一同采集的
mismatched: 代表与训练集分开采集的

任务类型

句子分类任务
评估指标为 ACC

QNCL/RTE/WNLI 数据集样式

dev.tsv: 验证集
test.tsv: 测试集
train.tsv: 训练集

NLP中常用的预训练模型

目标

了解当下NLP流行的预训练模型
掌握如何加载和使用预训练模型

流行的预训练模型

BERT
GPT
GPT-2
Transformer-XL
XLNet
XLM
RoBerta
DistiBERT
ALBERT
T5
XLM-RoBERTa

BEAR变体

名称	隐藏层	张量维度	注意力头	参数	说明
bert-base-uncased	12	768	12	110M	在小写英文文本上进行训练
bert-large-uncased	24	1024	16	340M	在小写英文文本上进行训练
bert-base-cased	24	1024	16	340M	在不区分大小写的英文文本上训练得到
bert-large-cased	24	1024	16	340M	在不区分大小写的英文文本上训练得到
bert-base-multilingual-uncased	12	768	12	110M	在小写的102种语言文本上进行训练得到
bert-large-multilingual-uncased	24	1024	16	340M	在不区分大小写的102种语言文本上进行训练而得到
bert-base-chinese	12	768	12	110M	在简体和繁体中文文本上进行训练而得到

GPT

名称	隐藏层	张量维度	注意力头	参数	说明
openai-gpt	12	768	12	110M	OpenAI在英文语料上进行训练得到

GPT2及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
gpt2	12	768	12	117M	OpenAI GPT-2英文语料上进行训练得到
gpt2-xl	48	1600	25	1558M	在大型的OpenAI GPT-2英文语料上进行训练得到

Transformer-XL

名称	隐藏层	张量维度	注意力头	参数	说明
transfo-xl-wt103	18	1024	16	257M	在wikitext-103英文语料进行训练得到

XLNet及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
xlnet-base-cased	12	768	12	110M	在英文文本上进行训练得到
xlnet-large-cased	24	1024	16	240M	在英文文本上进行训练得到

XLM

名称	隐藏层	张量维度	注意力头	参数	说明
xlm-mlm-en-2048	12	2048	12	110M	在英文文本上进行训练得到

RoBERTa及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
roberta-base	12	768	12	125M	在英文文本上进行训练得到
roberta-large	24	1024	16	355M	在英文文本上进行训练得到

DistilBERT及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
distilbert-base-uncased	6	768	12	66M	在英文文本上进行训练得到
distilbert-base-multilingual-cased	6	768	12	66M	基于bert-base-multilingual-uncased蒸馏(压缩)模型

ALBERT及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
albert-base-v1	12	768	12	110M	在英文文本上进行训练得到
albert-base-v2	12	768	12	110M	在英文文本上进行训练得到,比v1花费更多时间和数据量

T5及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
t5-small	6	512	8	60M	在c4语料上进行训练而得到
t5-base	12	768	12	220M	在c4语料上进行训练而得到
t5-large	24	1024	16	770M	在c4语料上进行训练而得到

XLM-RoBERTa及其变体

名称	隐藏层	张量维度	注意力头	参数	说明
xlm-roberta-base	12	768	12	125M	在2.5TB的100种语言文本上进行训练得到
xlm-roberta-large	24	1027	16	355M	在2.5TB的100种语言文本上进行训练得到

说明

所有的预训练模型及其变体都是以transformers为基础, 只是在模型结构如神经元连接方式, 编码器隐层数, 多头注意力头数发生改变, 这些改变是依据标注顺聚集上的表现而定的, 对于使用者需要在自己处理的目标数据上, 尽量遍历所有可用的模型达到最优效果即可

加载和使用预训练模型

目标

了解加载和使用预训练模型的工具
掌握加载和使用预训练模型的过程

工具

使用torch.hub进行模型的加载和使用
预训练模型使用huggingface

数据集准备事项

数据格式统一化

结构化字段对齐
- 示例：对话场景需统一字段为 [{"role":"user","content":...},{"role":"assistant","content":...}]，避免混合使用speaker/listener等不同标签
- 解决：通过正则表达式或模板引擎强制格式标准化
编码与符号规范
- 实际痛点：混合全角/半角符号（如用户输入"１２３" vs “123”）、特殊占位符（与\n混用）
- 方案：统一转换为UTF-8编码，使用unicodedata.normalize标准化字符

样本比例控制

类别平衡策略
- 分类任务：当存在长尾分布时（如欺诈检测正样本仅占1%），采用动态过采样（SMOTE）与困难样本挖掘结合
- 生成任务：对话数据中需控制正/负样本比例（如用户有效提问 vs 无意义输入建议7:3）
多任务数据配比
- 实际案例：客服系统需同时处理FAQ问答（60%）、工单分类（30%）、闲聊（10%），需按业务优先级分配比例
- 风险：任务间样本量差异过大（如9:1）易导致模型偏向主导任务

数据清洗重点

低质量数据过滤
- 检测指标：文本重复率（使用MinHash去重）、语句通顺度（基于语言模型困惑度过滤）
- 典型场景：爬取的网页数据中含广告文本（"点击这里>>>"类噪声）
领域适配性筛选
- 医疗领域：剔除含娱乐八卦的通用语料，保留专业文献/问诊记录
- 技巧：使用TF-IDF计算文本与目标领域的余弦相似度阈值过滤

数据增强技巧

语义保留型增强
- 同义词替换：使用专业词库（如UMLS医疗词表）避免通用词替换导致的语义偏移
- 句式改写：基于T5模型生成语法结构变化但语义一致的句子
对抗样本注入
- 实际应用：在客服场景中人工添加10%的模糊查询（如"那个东西怎么用？"）
- 效果验证：通过BadCase分析持续迭代增强策略

样本复杂度分布

文本长度分层
- 短文本（<50字）：适用于意图识别
- 长文本（>500字）：用于文档摘要任务
- 实践建议：按3:5:2比例混合短/中/长样本，提升模型鲁棒性
难度渐进训练
- 分阶段策略：
  阶段1：清晰明确的指令样本（“请翻译这句话：…”）
  阶段2：含干扰信息的复杂指令（“虽然可能不太对，但能否帮我翻译…”）

验证集构建原则

时间敏感性划分
- 金融领域：严格按时间划分（如用2023年数据训练，2024年Q1数据验证）
- 防止数据泄漏：确保验证集包含近期涌现的新术语/事件
领域覆盖度验证
- 医疗子领域验证集应包含：问诊对话（40%）、检查报告（30%）、学术论文（30%）
- 使用KL散度检测训练/验证集分布差异

工程化实践要点

数据版本控制
- 示例：使用DVC工具记录每次数据变更（如v1.2-新增对抗样本200条）
- 元数据记录：标注数据来源（人工标注/爬取/第三方购买）、清洗规则版本
低资源场景优化
- 当标注数据<1000条时：
  - 优先使用Prompt-based微调
  - 采用LoRA等参数高效微调方法
  - 使用RAG增强生成效果

典型错误案例：某电商客服系统直接使用通用语料微调，未过滤"请给五星好评"类诱导性文本，导致生成结果频繁出现违规话术。解决方案：构建领域敏感词库进行二次过滤，并加入合规性负样本。

通过以上多维度的数据质量控制，可使模型微调成功率提升40%以上（实际项目验证数据）。建议每轮迭代后使用LIME等可解释性工具分析数据影响。

加载和使用预训练模型的步骤

1. 确定需要加载的预训练模型并安装依赖包

确定可以使用哪些模型
以中文文本任务为例, bert-base-chinese

安装依赖的包

pip install tqdm boto3 requests regex sentencepiece scremoses

2. 加载预训练模型的映射器`tokenizer`

import torch

# 预训练模型来源, 几乎固定的写法
source = "huggingface/pytorch-transformers"
# 选定加载模型哪一个部分, 这里是映射器
part = "tokenizer"
# 加载的预训练模型的名字
model_name = "bert-base-chinese"
# 只要是上面提到的常用模型都可以通过`torch.hub`来加载使用
tokenizer = torch.hub.load(source, part, model_name)

3. 加载带/不带头(多头注意力)的预训练模型

加载预训练模型时我们可以选择带头和不带头的模型
这里的‘头’是指模型的任务输出层, 选择加载不带头的模型, 相当于使用模型对输入文本进行特征表示
选择加载带头的模型时, 有三种类型的‘头’可以选择
- modelWithLMHead(模型语言头)
- modelForSequenceClassification(分类模型头)
- modelForQuestionAnswering(问答模型头)
不同的头, 可以使预训练模型输出指定的张量维度, 比如使用’分类模型头’, 则输出尺寸为(1, 2)的张量, 用于进行分类任务判定结果

# 不带头的模型
part = 'model'
model = torch.hub.load(source, part, model_name)

# 加载带有语言模型头的预训练模型
part = 'modelWithLMHead'
lm_model = torch.hub.load(source, part, model_name)

# 加载带有分类模型头的预训练模型
part = 'modelForSequenceClassification'
classification_model = torch.hub.load(source, part, model_name)

# 加载带有问答模型头的预训练模型
part = 'modelForQuestionAnswering'
qa_model = torch.hub.load(source, part, model_name)

4. 使用模型获得输出

使用不带头的模型进行输出

import torch
input_text = "人生该如何起头"

# 使用tokenizer进行数值映射
indexed_tokens = tokenizer.encode(input_text)

# 打印映射后的结构
print("indexed_tokens: ", indexed_tokens)

# 将映射结构转化为张量输送给不带头的预训练模型
tokens_tensor = torch.tensor([indexed_tokens])

# 使用不带头的预训练模型获得效果, 直接利用模型进行输出, 不求导,不更新参数
with torch.no_grad():
   # 编码层的输出, 和隐藏层的输出
   encoded_layers, _ = model(tokens_tensor)  

print("不带头的模型输出结果: ", encoded_layers)
print("不带头的模型输出结果尺寸:", encoded_layers.shape)

"""
output: 
# tokenizer映射后, 101和102是起止符
# 中间的每个数据对应“人生该如何起头的每个字”
indexed_tokens:  [101, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 202]
不带头的模型输出结果:  tensor([[[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],]])

# 输出尺寸为 1*9*768, 就是每个字已经使用768维的向量进行了表示
# 我们可以基于此编码结构进行接下来的自定义操作, 如: 编写自己的微调网络进行最终的输出
不带头的模型输出结果的尺寸: torch.Size([1, 9, 768])
"""

使用带有语言模型头的模型进行输出

with torch.no_grad():
    lm_output = lm_model(tokens_tensor)

print("带语言模型头的模型输出结果：", lm_output)
print("带语言模型头的模型输出结果尺寸：", lm_output.shape)

"""output:
带语言模型头的模型输出结果: tensor([[[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000],]])

# 输出尺寸为 1*9*21128, 每个字使用了21128维的向量进行表示
# 和不带头的模型一样, 我们可以基于此编码结果进行接下来的自定义操作, 如编写自己的微调网络进行最终输出
带语言模型头的模型输出结果尺寸： torch.Size([1, 9, 21128])
"""

使用带有分类模型头的模型进行输出

with torch.no_grad():
    classification_output = classification_model(tokens_tensor)

print("带分类模型头的模型输出结果: ", classification_output)
print("带分类模型头的模型输出尺寸: ", classification_output[0].shape)

"""output:
带分类模型头的模型输出结果: (tensor([[-0.0649, -0.1593]]),)
# 输出尺寸为1*2, 可以直接用于文本二分类问题
带分类模型头的模型输出尺寸:  torch.Size([1, 2])
"""

使用带有问答模型头的模型进行输出

# 使用带有问答模型头的模型进行输出时, 需要输出入的形式为句子对
# 第一个句子是对客观事物的陈述, 第二个句子是针对第一个具体提出的问题
# 问答模型最终将得到两个张量, 每个张量中最大值对应索引的分别代表答案的在文本中的起始位置和终止位置
import torch

input_text1 = "我家小狗是黑色的"
input_text2 = "我家小狗是什么颜色的?"

# 映射两个句子
indexed_tokens = tokenizer.encode(input_text1, input_text2)

# 101 我家小狗是黑色的 102 我家小狗是什么颜色的 102
# 输出结果: [101, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 202, 102, 1997, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 102]

# 用0, 1来区分第一条和第二条句子
segments_ids = [0] * 11 + [1] * 14

# 转化张量形式
segments_tensors = torch.tensor([segments_ids])
tokens_tensor = torch.tensor([indexed_tokens])

# 使用带有问答模型头的预训练模型获得结果
with torch.no_grad():
    # token_type_ids 指定位置那些是陈述, 哪些是问题
    start_logits, end_logits = qa_model(tokens_tensor, token_type_ids=segments_tensors)
print("问答模型输出结果: ", start_logits, end_logits)
print("问答模型输出结果尺寸: ", start_logits.shape, end_logits.shape)

"""output:

# 输出为两个形状1*25的张量, 他们是两条句子合并长度的概率分布
# 第一个张量中最大值所在的索引代表答案出现的起始索引, 第二个张量中最大值所在的索引代表答案出现的终止索引
带问答模型头的模型输出结果: (tensor([[ 0.2574, -0.0293,  0.0000,  ...,  0.0000,  0.0000,  0.0000, 0.2426]]),
    tensor([[ 0.0000,  0.0000,  0.0000,  ...,  0.0000,  0.0000,  0.0000,  0.0000]]))
)

带问答模型头的模型输出结果尺寸:  torch.Size([1, 25]) torch.Size([1, 25])
"""

迁移学习实践

目标

了解并掌握指定任务类型的微调脚本使用方法
了解并掌握通过微调脚本微调后模型的使用方法
掌握通过微调方式进行迁移学习的两种类型实现过程

指定任务类型的微调脚本

huggingface研究机构向我们提供了针对GLUE数据集合任务类型的微调脚本, 这些微调脚本的核心都是微调模型的最后一个全连接层(对于大多数的fine-tuning对于原始模型的架构大都是不动的. 只是针对最后(1~2)或者少数的3层进行改变)
通过间的参数配置来指定GLUE中存在任务类型(如CoLA对应的文本二分类, MRPC对应句子对文本二分类, STS-B对应句子文本多分类), 以及指定需要微调的预训练模型

指定任务类型的微调脚本使用步骤(Torch)

1. 下载微调脚本文件

# 克隆huggingface的transformers文件
git clone https://github.com/huggingface/transformers.git

# 进行transformers安装
cd transformers && pip install . 

# 进入微调脚本所需要的路径并查看
cd examples && ls 

# 启动 run_glue.py 就是针对 GLUE 数据集合微调脚本

2. 配置微调脚本参数

# 定义DATA_DIR: 微调数据所在路径, 这里我们使用 glue_data 中的数据作为微调数据
export DATA_DIR="../../glue_data"
# 定义SAVE_DIR: 模型的保存路径, 我们将模型保存在当前目录的bert_finetuning_test文件中
export SAVE_DIR="./bert_finetuning_test"

# 使用python运行微调脚本
# --model_type: 选择需要微调的模型类型, 可以使用BERT, XLNET, XLM, roBERTa, DistilBERT, ALBERT, XLM-RoBERTa, XLM-MLM, XLM-MLM-U, XLM-MLM-U-S, XLM-MLM-17-1280, XLM-MLM-17-1280-S, XLM-MLM-100-1280, XLM-MLM-100-1280-S, RoBERTa-
# --model_name_or_path: 选择具体的模型或者变体, 这里是在英文语料上微调, 因此选择bert-base-uncased
# --task_name: 代表对应的任务类型, 比如MPRPC代表对句子的二分类任务
# --do_train: 使用微调脚本进行训练
# --do_eval: 使用微调脚本进行验证
# --data_dir: 微调数据所在路径, 将自动寻找该路径下的`train.tsv`, `dev.tsv`作为训练集和验证集
# --max_seq_length: 输入句子的最大长度, 超过则截断, 不足则补齐
# --learning_rate: 学习率
# --num_train_epochs: 训练轮数
# --output_dir $SAVE_DIR: 模型保存路径
# --overwrite_output_dir: 如果输出目录存在, 则覆盖该目录
python run_glue.py \
  --model_type BERT \
  --model_name_or_path bert-base-uncased \
  --task_name MRPC \
  --do_train \
  --do_eval \
  --data_dir $DATA_DIR \
  --max_seq_length 128 \
  --learning_rate 2e-5 \
  --num_train_epochs 3 \
  --output_dir $SAVE_DIR \
  --overwrite_output_dir

3. 运行并检验效果

sh run_glue.sh

4. 上传并使用模型

在https://huggingface.co/join创建一个账户
在服务器使用transformers-cli登陆
```
transformers-cli login 
```

使用transformers-cli上传模型并查看

# 上传模型
transformers-cli upload ./bert_finetuning_test/
# 查看上传结果
transformers-cli ls

使用pytorch.hub加载模型进行使用

import torch

source = "huggingface/pytorch-transformers"
part = 'tokenizer'

# 加载的预训练模型的名字, 使用自己模型的名字“username/model_name”
model_name = 'zjs/bert_finetuning_test'

tokenizer = torch.hub.load(source, part, model_name)
index = tokenizer.encode("我是谁", add_special_tokens=True)

指定任务类型的微调脚本使用步骤(Transformer)

在使用Transformers库上传和使用自己的模型时，可以遵循以下步骤。这些步骤包括模型的保存、上传到Hugging Face Model Hub以及从Model Hub加载模型。以下是详细的步骤指南：

1. 安装必要的库

首先，确保你已经安装了transformers和datasets库。如果还没有安装，可以使用以下命令进行安装：

pip install transformers datasets

2. 保存模型

假设你已经训练了一个模型，并且想要将其保存为Hugging Face格式。你可以使用以下代码来保存模型和配置文件：

from transformers import AutoModel, AutoTokenizer

# 假设你的模型和tokenizer已经准备好
model = AutoModel.from_pretrained("your_model_name")
tokenizer = AutoTokenizer.from_pretrained("your_tokenizer_name")

# 保存模型和tokenizer
model.save_pretrained("path/to/your/model")
tokenizer.save_pretrained("path/to/your/model")

3. 注册Hugging Face账号

如果你还没有Hugging Face账号，需要先注册一个。注册后，你会获得一个访问令牌（access token），用于上传模型。

4. 登录Hugging Face

使用Hugging Face CLI登录你的账户。首先，确保你已经安装了Hugging Face CLI：

pip install huggingface_hub

然后，使用以下命令登录：

huggingface-cli login

输入你的访问令牌（access token）完成登录。

5. 上传模型

使用transformers库中的push_to_hub方法将模型和tokenizer上传到Hugging Face Model Hub。你需要提供一个仓库名称（repository name），该名称将在Hugging Face上显示。

from transformers import AutoModel, AutoTokenizer

# 加载模型和tokenizer
model = AutoModel.from_pretrained("path/to/your/model")
tokenizer = AutoTokenizer.from_pretrained("path/to/your/model")

# 上传模型和tokenizer
model.push_to_hub("your-username/your-model-name")
tokenizer.push_to_hub("your-username/your-model-name")

6. 从Hugging Face Model Hub加载模型

一旦模型上传成功，你可以通过Hugging Face Model Hub加载模型。使用以下代码加载模型和tokenizer：

from transformers import AutoModel, AutoTokenizer

# 加载模型和tokenizer
model = AutoModel.from_pretrained("your-username/your-model-name")
tokenizer = AutoTokenizer.from_pretrained("your-username/your-model-name")

7. 使用模型

现在你可以在你的项目中使用这个模型了。例如，你可以使用它进行推理：

# 示例文本
text = "Hello, how are you?"

# 编码文本
inputs = tokenizer(text, return_tensors="pt")

# 获取模型输出
outputs = model(**inputs)

# 打印输出
print(outputs)

自定义单层全连接网络作为微调网络

根据实际经验, 自定义为微调网络参数总数应当大于0.5倍的训练数据量, 小于10倍的训练数据量, 这样有助于模型在合理的时间范围内收敛, 如果是分类任务样本数量应当保持在1:1

import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):
   """自定义微调网络"""

   def __init__(self, char_size=32, embedding_size=768):
      """
      :param char_size: 输入句子中的字符数量, 输入句子规范后的长度128
      :param embedding_size: 字嵌入的维度, 因为使用的bert中文模型嵌入维度是768, 因此这里也使用768
      """
      super(Net, self).__init__()
      self.char_size = char_size
      self.embedding_size = embedding_size
      # 因为是一个2分类, 所以输出为2
      self.fc1 = nn.Linear(char_size * embedding_size, 2)

   def forward(self, x):
      # 对输入张量形状进行变换, 以满足接下来层(nn.Linear)的输入要求
      x = x.view(-1, self.char_size * self.embedding_size)
      # 使用一个全连接层
      return self.fc1(x)


if __name__ == "__main__":
   # 随机初始化参数
   x = torch.randn(1, 32, 768)
   net = Net()
   nr = net(x)
   print(nr)
   """output:
   tensor([[-0.0000,  0.0000]], grad_fn=)
   """

构建训练与验证数据集批次生成器

import torch
import pandas as pd
from collections import Counter
from functools import reduce
from sklearn.utils import shuffle
from keras.api.preprocessing import sequence


source = "huggingface/pytorch-transformers"
model_name = "bert-base-chinese"

# 加载模型
model = torch.hub.load(source, "model", model_name)
# 加载字符映射
tokenizer = torch.hub.load(source, "tokenizer", model_name)
# 设定超参, 句子长度
cutlen = 32

def get_bert_encode(text):
   """
   :param text: 要进行编码的中文
   """
   # 首先进行字符映射对中文进行编码, 因为BERT编码后会添加101, 102的标志, 对于任务无意义, 去掉
   indexed_tokens = tokenizer.encode(text[:cutlen])[1:-1]
   # 使用sequence对句子进行长度规范, 长度超出了进行阶段, 长度不足进行补齐
   indexed_tokens = sequence.pad_sequences([indexed_tokens], cutlen)
   # 对结果进行封装
   tokens_tensor = torch.LongTensor(indexed_tokens)
   with torch.no_grad():
      encoded_output, _ = model(tokens_tensor)
   # 进行一次降维度后返回
   return encoded_output[0]


def data_loader(train_data_path, valid_data_path, batch_size=32):
   """从持久化文件中加载数据
   :param train_data_path: 训练数据路径
   :param valid_data_path: 验证数据路径
   :param batch_size: 批次大小
   """
   # 使用pd进行csv的读取, 并去除第一列的列名
   train_data = pd.read_csv(train_data_path, header=None, sep="\t").drop([0])
   valid_data = pd.read_csv(valid_data_path, header=None, sep="\t").drop([0])

   # 打印训练和验证集的正负样本数量
   print("训练正负样本数量: ", Counter(train_data[0].values))
   print("验证正负样本数量: ", Counter(valid_data[0].values))

   # 验证数据集中的数据总数至少可以满足一个批次
   if len(valid_data) < batch_size:
      raise Exception("Batch size or split not match!")

   def _loader_generator(data):
      """获得训练数据的批次生成器
      """
      t_data = shuffle(data.values.tolist())
      for batch in range(0, len(data), batch_size):
         batch_encoded = []
         batch_labels = []
         # 首先将数据使用shuffle打乱, 将一个batch_size大小的数据转换成列表形式, 并进行逐条遍历
         for item in t_data[batch: batch + batch_size]:
            # 使用bert中文模型进行编码
            batch_encoded.append(get_bert_encode(item[0]))
            batch_labels.append([int(item[1])])
         # 使用reduce高阶函数将列表中的数据转换成模型需要的张量形式
         # encoded的形状是(batch_size, 2*max_len, embedding_size)
         encoded = reduce(lambda x, y: torch.cat((x, y), dim=0), batch_encoded)
         labels = torch.tensor(reduce(lambda x, y: x+y, batch_labels))
         yield encoded, labels
    
   # 对训练集和验证集分别使用_loader_generator函数获得批次生成器
   return _loader_generator(train_data), _loader_generator(valid_data), len(train_data), len(valid_data)

构建训练与验证函数

import torch
import torch.optim as optim
from torch.optim import optimizer
import torch.nn as nn

from torch_test.data_loader import data_loader
from torch_test.net import Net

net = Net(32, 768)

def train(train_data_labels):
    """训练函数, 在这个过程中将更新模型参数, 并收集准确率和损失率
    :param train_data_labels: 训练数据和标签的生成器对象
    :return:
    """
    # 定义训练过程的初始损失和准确率累加数
    train_running_loss = 0.0
    train_running_acc = 0.0
    # 遍历循环训练数据和标签生成器, 每个批次更新一次模型参数
    for train_tensor, train_labels in train_data_labels:
        # 初始化该批次的优化器
        optimizer.zero_grad()
        # 使用微调网络获得输出
        train_outputs = net(train_tensor)
        # 得到该批次下的平均损失
        train_loss = criterion(train_outputs, train_labels)
        # 将该批次的平均损失驾到 train_running_loss中
        train_running_loss+= train_loss.item()
        # 损失反向传播
        train_loss.backward()
        # 优化器跟新模型参数
        optimizer.step()
        # 将该批次中正确的标签数量进行累加, 以便后续计算准确率
        train_running_acc += (train_outputs.argmax(1) == train_labels).sum().item()

    return train_running_loss, train_running_acc


def valid(valid_data_labels):
    """验证函数, 在这个过程中将验证模型在新数据集上的标签, 手机损失和准确率
    :param valid_data_labels: 验证数据和标签的生成器对象
    :return:
    """
    # 定义训练过程的初始损失和准确率累加数
    valid_running_loss = 0.0
    valid_running_acc = 0.0
    # 循环便利验证数据和标签生成器
    for valid_tensor, valid_labels in valid_data_labels:
        # 不自动更新梯度
        with torch.no_grad():
            # 使用微调网络获得输出
            valid_outputs = net(valid_tensor)
            # 得到该批次下的平均损失
            valid_loss = criterion(valid_outputs, valid_labels)
            # 将该批次的平均损失驾到 valid_running_loss中
            valid_running_loss+= valid_loss.item()
            # 将该批次中正确的标签数量进行累加, 以便后续计算准确率
            valid_running_acc += (valid_outputs.argmax(1) == valid_labels).sum().item()

    return valid_running_loss, valid_running_acc


if __name__ == '__main__':
    train_data_path = ".csv"
    valid_data_path = ".csv"
    # 定义交叉熵损失函数
    criterion = nn.CrossEntropyLoss()
    # 定义SGD优化方法, 随机梯度下降, 优化器优化的参数(net.parameters()), lr学习了0.001, momentum动量学习0.9
    optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
    # 定义训练轮数
    epochs = 4
    # 定义批次样本数量
    batch_size = 16
    # 进行指定轮次的训练
    for epoch in range(epochs):
        # 打印轮次
        print("Epoch: ", epoch + 1)
        # 通过数据加载器获得训练数据和验证数据生成器, 以及对应的样本数量
        train_data_labels, valid_data_labels, train_data_len, valid_data_len = data_loader(train_data_path, valid_data_path, batch_size)
        # 调用训练函数进行训练
        train_running_loss, train_running_acc = train(train_data_labels)
        # 调用验证函数进行验证
        valid_running_loss, valid_running_acc = valid(valid_data_labels)
        # 计算每一轮的平均损失, train_running_loss和valid_running_loss是每个批次的平均损失之和
        # 因此将她们乘以batch_size就得到了该轮的总损失, 除以样本数即该轮次的平均损失
        train_average_loss = train_running_loss * batch_size / train_data_len
        valid_average_loss = valid_running_loss * batch_size / valid_data_len

        # train_running_acc和valid_running_acc是每个批次的正确标签累加和, 因此只需要除以对应的样本总数就是该轮的准确率
        train_average_acc = train_running_acc / train_data_len
        valid_average_acc = valid_running_acc / valid_data_len
        # 打印该轮次下的训练损失和准确率以及验证损失和准确率
        print("Train Loss:", train_average_loss, "|", "Train Acc:", train_average_acc)
        print("Valid Loss:", valid_average_loss, "|", "Valid Acc:", valid_average_acc)
    
    print("Finished Training")
    
    # 保存路径
    MODEL_PATH = "./BERT_net.path"
    # 保存模型参数
    torch.save(net.state_dict(), MODEL_PATH)
    print("Finished Saving")

加载模型

if __name__ == "__main__":
   MODEL_PATH = "./BERT_net.path"
   net.load_state_dict(torch.load(MODEL_PATH))
   
   # text = "酒店设备一般, 套房里卧室的不能上网, 要到客厅去"
   text = "房间应该超过30平米, 是HK同级酒店中少有的大, 重装之后, 设备也不错"
   print("输入文本为: ", text)
   with torch.no_grad():
        output = net(get_bert_encode(text))
        # 从output中取出最大值对应的索引
        print("预测标签为: ", torch.argmax(output).item())

你可能感兴趣的:(FineTuning,迁移学习,人工智能,机器学习)

2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option