江上_酒

bert-textcnn实现多标签文本分类（基于keras+keras-bert构建）

基于keras+keras-bert构建bert-textcnn模型实现多标签文本分类

跑别人的代码，最痛苦的莫不在于环境有错误、代码含义不懂。自己从头到尾尝试了一遍，过程很艰难，为了方便同样在学习的朋友，在这里，我会在项目文件中提供详细的requirements，保证你能一次性跑成功。此外，每个部分我都会尽可能的添加详细的注释，使得读者能够知道每一步的意义和结果。

前言

什么是bert？

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT是2018年Google AI Language提出的一种预训练语言模型。BERT通过联合调节所有层的左右上下文来预训练来自未标记文本的深度双向表示。因此，预训练的 BERT 模型可以通过一个额外的输出层进行微调，从而为各种任务（例如问答和语言推理）创建最先进的模型，而无需对特定于任务的架构进行大量修改。BERT 在概念上很简单，在经验上很强大。它在 11 个自然语言处理任务上获得了新的 state-of-the-art 结果，是NLP发展的里程碑。
什么是textcnn？

Convolutional Neural Network for Sentence Classification

TextCNN是Yoon Kim在2014年将CNN网络应用于句子级的文本分类所提出的结构。如下图所示，TextCNN利用多个不同的kernel size来提取句子中的关键信息，不同的kernel size的结果进行拼接进行pooling操作，以更好的获取文本的局部特征。
本项目中，我首先利用BERT输出句子的嵌入表示，然后将嵌入表示结果输入构造好的多尺寸TextCNN中进行特征提取，并用作最后的分类。

数据介绍

项目数据用的是2020语言与智能技术竞赛：事件抽取任务，数据我会直接放在项目的[data]文件夹中。

数据的基本结构：文本对应标签与文本之间用空格隔开，多个标签之间用|隔开。

组织关系-裁员 雀巢裁员4000人：时代抛弃你时，连招呼都不会打！
组织关系-裁员 美国“未来为”子公司大幅度裁员，这是为什么呢？任正非正式回应
组织关系-裁员 这一全球巨头“凉凉”“捅刀”华为后裁员5000现市值缩水800亿
组织关系-裁员 被证实将再裁员1800人AT&T在为落后的经营模式买单
组织关系-裁员 又一网约车巨头倒下：三个月裁员835名员工，滴滴又该何去何从
组织关系-裁员 8月20日消息，据腾讯新闻《一线》报道，知情人士表示，为了控制成本支出，蔚来计划将美国分公司的人员规模除自动驾驶业务相关人员外，减少至200人左右。截至美国时间8月16日，蔚来位于美国硅谷的分公司已裁减100名员工。
司法行为-起诉|组织关系-裁员 最近，一位前便利蜂员工就因公司违规裁员，将便利蜂所在的公司虫极科技（北京）有限公司告上法庭。

数据集的基本信息

模型搭建

构建包含多个kernel size的TextCNN网络。

def textcnn(inputs):
    # 选用3、4、5三个卷积核进行特征提取，最后拼接后输出用于分类。
    kernel_size = [3, 4, 5]
    cnn_features = []
    for size in kernel_size:
        cnn = keras.layers.Conv1D(filters=256, kernel_size=size)(inputs)  # shape=[batch_size,maxlen-2,256]
        cnn = keras.layers.GlobalMaxPooling1D()(cnn)  # shape=[batch_size,256]
        cnn_features.append(cnn)
    # 对kernel_size=3、4、5时提取的特征进行拼接
    output = keras.layers.concatenate(cnn_features, axis=-1)  # [batch_size,256*3]
    # 返回textcnn提取的特征结果
    return output

构建bert_textcnn模型。

首先利用keras-bert加载预训练好的bert，这里用的bert是哈工大训练的chinese_bert_wwm_L-12_H-768_A-12。
取出bert的输出中的[cls]向量，[cls]可以直接用于分类，也可以与其它网络的输出拼接。
取出bert输出中关于输入句子的表示（word_embedding），bert在输入时在句子的头和尾分类添加了一个[CLS]、[SEP]，可以选择去除这两个标志。
将word_embedding输入构造好的多kernel size的TextCNN网络，获得经由TextCNN获得特征（cnn_features）。
将[cls]与cnn_features进行拼接后用于分类。
根据输入和输出封装模型，并进行必要参数的配置。
模型最后的结果如下所示（bert仅展示最后一层）：

详细代码如下：

def build_bert_textcnn_model(config_path, checkpoint_path, class_nums):
    """
    :param config_path: bert_config.json所在位置。
    :param checkpoint_path: bert_model.ckpt所在位置。
    :param class_nums: 最终模型的输出的维度（分类的类别）。
    :return:返回搭建好的模型。
    """
    # 加载预训练好的bert
    bert = load_trained_model_from_checkpoint(
        config_file=config_path,
        checkpoint_file=checkpoint_path,
        seq_len=None
    )

    # 取出[cls]，可以直接用于分类，也可以与其它网络的输出拼接。
    cls_features = keras.layers.Lambda(
        lambda x: x[:, 0],
        name='cls'
    )(bert.output)  # shape=[batch_size,768]

    # 去除第一个[cls]和最后一个[sep]，得到输入句子的embedding，用作textcnn的输入。
    word_embedding = keras.layers.Lambda(
        lambda x: x[:, 1:-1],
        name='word_embedding'
    )(bert.output)  # shape=[batch_size,maxlen-2,768]

    # 将句子的embedding，输入textcnn，得到经由textcnn提取的特征。
    cnn_features = textcnn(word_embedding)  # shape=[batch_size,cnn_output_dim]

    # 将cls特征与textcnn特征进行拼接。
    all_features = keras.layers.concatenate([cls_features, cnn_features], axis=-1)  # shape=[batch_size,cnn_output_dim+768]

    # 应用dropout缓解过拟合的现象，rate一般在0.2-0.5。
    all_features = keras.layers.Dropout(0.2)(all_features)  # shape=[batch_size,cnn_output_dim+768]

    # 降维
    dense = keras.layers.Dense(units=256, activation='relu')(all_features)  # shape=[batch_size,256]

    # 输出结果
    output = keras.layers.Dense(
        units=class_nums,
        activation='sigmoid'
    )(dense)  # shape=[batch_size,class_nums]

    # 根据输入和输出构建构建模型
    model = keras.models.Model(bert.input, output, name='bert-textcnn')

    model.compile(
        loss='binary_crossentropy',
        optimizer=keras.optimizers.Adam(config.learning_rate),
        metrics=['accuracy']
    )
    return model

模型训练

模型的训练大致有以下4步：

加载训练集、测试集的数据。
对训练集的文本、标签；测试集的文本、标签分别进行编码。
初始化模型，将训练集、测试集的编码结果送入模型开始训练。
绘制训练过程中的训练与验证的loss与acc图像（可选）。

加载训练集

# 用以加载数据
def load_data(txt_file_path):
    text_list = []
    label_list = []
    with open(txt_file_path, 'r', encoding='utf-8') as f:
        for line in f.readlines():
            line = line.strip().split()
            label_list.append(line[0].split('|'))
            text_list.append(line[1])
    return text_list, label_list

对文本编码

对文本编码需要弄清楚，输入给bert的是什么，bert的输入需要token_id与segment_id，是tokenizer操作后的返回值。

# 加载bert字典，构造分词器。
token_dict = load_vocabulary(config.bert_dict_path)
tokenizer = Tokenizer(token_dict)
# 对文本编码
def encoding_text(content_list):
    token_ids = []
    segment_ids = []
    for line in tqdm(content_list):
    	# max_len是用于保证所有的输入长度一致，长度不足时会补0，长度超过时会截断。
        token_id, segment_id = tokenizer.encode(first=line, max_len=config.max_len) 
        token_ids.append(token_id)
        segment_ids.append(segment_id)
    # 输入给模型的数据不能是list，这里需要做一下转换编程array。
    encoding_res = [np.array(token_ids), np.array(segment_ids)]
    return encoding_res

主函数

if __name__ == "__main__":
    # 读取训练集与测试集
    train_content_x, train_label_y = load_data(config.train_dataset_path)
    test_content_x, test_label_y = load_data(config.test_dataset_path)

    # 打乱训练集的数据
    index = [i for i in range(len(train_content_x))]
    random.shuffle(index)  # 打乱索引表
    # 按打乱后的索引，重新组织训练集
    train_content_x = [train_content_x[i] for i in index]
    train_label_y = [train_label_y[i] for i in index]

    # 对训练集与测试集的文本编码
    train_x = encoding_text(train_content_x)
    test_x = encoding_text(test_content_x)

    # 对标签集编码（调用sklearn的多标签编码器）
    mlb = MultiLabelBinarizer()
    mlb.fit(train_label_y)
    # 保存此时的mlb，后面在预测时评估时需要加载标签集。
    pickle.dump(mlb, open('./data/mlb.pkl', 'wb'))
    # 分别对训练集和测试集的标签进行编码，并转换为array。
    train_y = np.array(mlb.transform(train_label_y))
    test_y = np.array(mlb.transform(test_label_y))
	# 初始化模型，并输出模型的结果
    model = build_bert_textcnn_model(config.bert_config_path, config.bert_checkpoint_path, len(mlb.classes_))
    model.summary()
    # 开始模型的训练，并保存训练的历史数据（loss、accuracy）用以最后绘图
    history = model.fit(train_x, train_y, validation_data=(test_x, test_y), batch_size=config.batch_size, epochs=config.epochs)
    # 保存模型为h5
    model.save("./model/bert_textcnn.h5")

    # 训练过程可视化
    # 绘制训练loss和验证loss的对比图
    plt.subplot(2, 1, 1)
    epochs = len(history.history['loss'])
    plt.plot(range(epochs), history.history['loss'], label='loss')
    plt.plot(range(epochs), history.history['val_loss'], label='val_loss')
    plt.legend()
    # 绘制训练acc和验证acc的对比图
    plt.subplot(2, 1, 2)
    epochs = len(history.history['accuracy'])
    plt.plot(range(epochs), history.history['accuracy'], label='acc')
    plt.plot(range(epochs), history.history['val_accuracy'], label='val_acc')
    plt.legend()
    # 保存loss与acc对比图
    plt.savefig("./model/bert-textcnn-loss-acc.png")

模型评估

模型评估大致有以下几步：

加载评估集（测试集）。
对评估集中数据逐条预测保存预测结果。
计算accuracy，调用classification_report输出各个标签的详细评估结果，调用hamming_loss输出汉明损失。

详细代码及注释如下：

# 加载bert字典，构造分词器。
token_dict = load_vocabulary(config.bert_dict_path)
tokenizer = Tokenizer(token_dict)

# 加载训练好的模型
model = load_model('./model/bert_textcnn.h5', custom_objects=get_custom_objects())
mlb = pickle.load(open('./data/mlb.pkl', 'rb'))


def load_data(txt_file_path):
    text_list = []
    label_list = []
    with open(txt_file_path, 'r', encoding='utf-8') as f:
        for line in f.readlines():
            line = line.strip().split()
            label_list.append(line[0].split('|'))
            text_list.append(line[1])
    return text_list, label_list


def predict_single_text(text):
    # 编码后得出句子给bert的输入
    token_id, segment_id = tokenizer.encode(first=text, max_len=config.max_len)
    # 得到预测结果
    prediction = model.predict([[token_id], [segment_id]])[0]
	# 这里以阈值0.5进行标签的筛选，取出值大于0.5标签的索引
    indices = [i for i in range(len(prediction)) if prediction[i] > 0.5]
    # 将索引转换为最终的标签集
    lables = [mlb.classes_.tolist()[i] for i in indices]
    # 输出最后结果的编码，用以评估
    one_hot = np.where(prediction > 0.5, 1, 0)
    return one_hot, lables


def evaluate():
    test_x, test_y = load_data(config.test_dataset_path)
    true_y_list = mlb.transform(test_y)

    pred_y_list = []
    pred_labels = []
    for text in tqdm(test_x):
        pred_y, label = predict_single_text(text)
        pred_y_list.append(pred_y)
        pred_labels.append(label)

    # 计算accuracy，一条数据的所有标签全部预测正确则1，否则为0。
    test_len = len(test_y)
    correct_count = 0
    for i in range(test_len):
        if test_y[i] == pred_labels[i]:
            correct_count += 1
    accuracy = correct_count / test_len

    print(classification_report(true_y_list, pred_y_list, target_names=mlb.classes_.tolist(), digits=4))
    print("accuracy:{}".format(accuracy))
    print("hamming_loss:{}".format(hamming_loss(true_y_list, pred_y_list)))


if __name__ == "__main__":
    evaluate()

评估结果下所示：

label	precision	recall	f1-score	support
交往-会见	1.0000	1.0000	1.0000	12
交往-感谢	1.0000	0.8750	0.9333	8
交往-探班	1.0000	0.9000	0.9474	10
交往-点赞	0.8889	0.7273	0.8000	11
交往-道歉	0.8182	0.9474	0.8780	19
产品行为-上映	0.9697	0.9143	0.9412	35
产品行为-下架	1.0000	1.0000	1.0000	24
产品行为-发布	0.9481	0.9733	0.9605	150
产品行为-召回	1.0000	1.0000	1.0000	36
产品行为-获奖	1.0000	0.9375	0.9677	16
人生-产子/女	0.8667	0.8667	0.8667	15
人生-出轨	1.0000	0.5000	0.6667	4
人生-分手	1.0000	0.9333	0.9655	15
人生-失联	1.0000	0.9286	0.9630	14
人生-婚礼	1.0000	0.6667	0.8000	6
人生-庆生	1.0000	0.8750	0.9333	16
人生-怀孕	1.0000	0.5000	0.6667	8
人生-死亡	0.9510	0.9151	0.9327	106
人生-求婚	1.0000	1.0000	1.0000	9
人生-离婚	0.9394	0.9394	0.9394	33
人生-结婚	0.9655	0.6512	0.7778	43
人生-订婚	1.0000	0.7778	0.8750	9
司法行为-举报	1.0000	1.0000	1.0000	12
司法行为-入狱	0.9000	1.0000	0.9474	18
司法行为-开庭	0.9231	0.8571	0.8889	14
司法行为-拘捕	0.9770	0.9659	0.9714	88
司法行为-立案	1.0000	1.0000	1.0000	9
司法行为-约谈	0.9697	1.0000	0.9846	32
司法行为-罚款	1.0000	0.8966	0.9455	29
司法行为-起诉	0.8750	1.0000	0.9333	21
灾害/意外-地震	1.0000	1.0000	1.0000	14
灾害/意外-坍/垮塌	1.0000	0.8000	0.8889	10
灾害/意外-坠机	1.0000	1.0000	1.0000	13
灾害/意外-洪灾	1.0000	0.7143	0.8333	7
灾害/意外-爆炸	1.0000	1.0000	1.0000	9
灾害/意外-袭击	0.8000	0.7500	0.7742	16
灾害/意外-起火	0.9643	1.0000	0.9818	27
灾害/意外-车祸	0.9394	0.8857	0.9118	35
竞赛行为-夺冠	0.8214	0.8214	0.8214	56
竞赛行为-晋级	0.8421	0.9697	0.9014	33
竞赛行为-禁赛	0.8824	0.9375	0.9091	16
竞赛行为-胜负	0.9722	0.9859	0.9790	213
竞赛行为-退役	0.9167	1.0000	0.9565	11
竞赛行为-退赛	0.8333	0.8333	0.8333	18
组织关系-停职	0.8462	1.0000	0.9167	11
组织关系-加盟	0.9231	0.8780	0.9000	41
组织关系-裁员	0.9474	0.9474	0.9474	19
组织关系-解散	0.9000	0.9000	0.9000	10
组织关系-解约	0.8000	0.8000	0.8000	5
组织关系-解雇	1.0000	0.3077	0.4706	13
组织关系-辞/离职	0.9221	1.0000	0.9595	71
组织关系-退出	0.8333	0.9091	0.8696	22
组织行为-开幕	0.9394	0.9688	0.9538	32
组织行为-游行	1.0000	0.8889	0.9412	9
组织行为-罢工	1.0000	0.8750	0.9333	8
组织行为-闭幕	1.0000	0.7778	0.8750	9
财经/交易-上市	1.0000	0.8571	0.9231	7
财经/交易-出售/收购	1.0000	0.9167	0.9565	24
财经/交易-加息	1.0000	0.3333	0.5000	3
财经/交易-涨价	0.8000	0.8000	0.8000	5
财经/交易-涨停	1.0000	1.0000	1.0000	27
财经/交易-融资	1.0000	1.0000	1.0000	14
财经/交易-跌停	0.9333	1.0000	0.9655	14
财经/交易-降价	1.0000	0.6667	0.8000	9

   micro avg     0.9450    0.9234    0.9341      1657
   macro avg     0.9509    0.8780    0.9029      1657
weighted avg     0.9476    0.9234    0.9309      1657
 samples avg     0.9302    0.9347    0.9265      1657

accuracy:0.8344459279038718
hamming_loss:0.002218342405258293

模型预测

模型预测其实就是将evaluate中的部分操作单独出来，具体的代码如下所示

# 加载bert字典，构造分词器。
token_dict = load_vocabulary(config.bert_dict_path)
tokenizer = Tokenizer(token_dict)

# 加载训练好的模型
model = load_model('./model/bert_textcnn.h5', custom_objects=get_custom_objects())
mlb = pickle.load(open('./data/mlb.pkl', 'rb'))


# 预测单个句子的标签
def predict_single_text(text):
    token_id, segment_id = tokenizer.encode(first=text, max_len=config.max_len)
    prediction = model.predict([[token_id], [segment_id]])[0]

    indices = [i for i in range(len(prediction)) if prediction[i] > 0.5]
    lables = [mlb.classes_.tolist()[i] for i in indices]
    return "|".join(lables)


if __name__ == "__main__":
    text = "美的置业：贵阳项目挡墙垮塌致8人遇难已责令全面停工"
    result = predict_single_text(text)
    print(result)

项目结构、下载、使用方法

项目结构

BERT-TEXTCNN-MULTI-LABEL-TEXT-CLASSFICATION
│  bert_textcnn_model.py # 构建模型的文件
│  config.py # 项目的相关配置及参数文件
│  model_evaluate.py # 用于模型评估的文件
│  model_predict.py # 用于模型预测的文件
│  model_train.py # 用于模型训练的文件
│  requirements.txt # 项目所需的环境依赖(python3.6下直接运行安装本文件里的所有依赖可以稳定运行)
│     
├─chinese_bert_wwm_L-12_H-768_A-12 # 预训练的bert模型，使用时需要自行去下载后复制到项目中。
│      bert_config.json
│      bert_model.ckpt.data-00000-of-00001
│      bert_model.ckpt.index
│      bert_model.ckpt.meta
│      vocab.txt
│      
├─data # 数据集
│      mlb.pkl # 训练时生成（项目中已移除）
│      multi-classification-test.txt
│      multi-classification-train.txt
│      
├─model # 此文件夹需自行新建
│      bert-textcnn-loss-acc.png # 训练时的loss-acc图像（运行model_train.py可得）
│      bert_textcnn.h5 # 训练得到的模型（运行model_train.py可得）
│      model.png # 模型结构图（运行bert_textcnn_model.py可得）
└─

项目下载地址

bert-textcnn-for-multi-label-text-classfication

UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
Vue动态组件完全指南：原理、使用场景与最佳实践北辰alk 前端 vue vue.js javascript 前端
文章目录一、什么是动态组件？核心特性：二、基本使用方式1.基础语法2.组件注册方式3.动态组件生命周期三、六大典型应用场景1.标签页切换系统2.多步骤表单流程3.动态仪表盘4.权限驱动视图5.插件系统集成6.服务端驱动界面四、高级使用技巧1.状态保持方案2.动态Props传递3.异步组件加载4.过渡动画支持五、性能优化策略1.缓存策略对比2.代码分割配置3.内存管理示例六、常见问题解决方案1.组件
【MyBatis-Plus 分页插件】深入分析和实战解析 Yan.love mybatis java 后端
分页是Web应用开发中的高频需求，而在MyBatis的生态中，MyBatis-Plus分页插件PaginationInnerInterceptor和MyBatis的PageHelper是两种常见的实现方案。本文将通过工作机制、使用方法和细节剖析，带你循序渐进地掌握这两种方式，并为你的项目选择提供指导。一、什么是分页？分页的核心目标是减少数据传输量和前端渲染压力。通过限制每次查询的结果数量，分页能够
DeepSeek使用手册【清华北大浙大完整版】 2501_91178945 pdf
DeepSeek资料链接：https://pan.quark.cn/s/ab1ba18715bd自从清华大学出品的《DeepSeek从入门到精通》学习手册火了之后，北大浙大也支棱了起来，纷纷加码DeepSeek，持续发布高质量DeepSeek学习资料，从基础到实操，覆盖超多应用场景，手把手教你如何将DeepSeek结合到自己的工作和生活当中。完整版资料已整理在开头，大家自行领取即可～
鸿蒙（HarmonyOS NEXT）开发实战：串行通信开发指导我很英俊小名男男 OpenHarmony 鸿蒙开发 HarmonyOS harmonyos 华为开发语言前端鸿蒙移动开发鸿蒙系统
鸿蒙开发往期必看：HarmonyOSNEXT应用开发性能实践总结一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）
Fastjson反序列化漏洞分析：挖掘思维与研究方法恩师小迪 json 安全网络
致谢首先，感谢我的小迪老师的指导与启发，让我有机会深入学习这个经典漏洞案例理解前辈们的安全研究思路。引言当分析一个广泛使用的库时，我们应该思考：为什么一个JSON解析库需要这么多特殊功能？大多数JSON库只做一件事：把JSON字符串转成对象，或者反过来。但Fastjson不同，它实现了更多功能。作为学习者，我们需要理解那些发现Fastjson漏洞的前辈们的研究方法。下面我们一起分析这个经典漏洞的发
Go语言实战，HTTP和gRPC多服务启动与关闭的最佳实践 zhuyasen go 后端 http rpc
在Go开发中，构建健壮的应用程序不仅需要关注核心业务逻辑，还要考虑服务的优雅启动与关闭。特别是在微服务架构中，如何优雅地启动和停止多个服务成为了系统设计中的一个重要议题。今天我们来深入探讨一款基于Go语言开发的app库，该库利用errgroup实现了服务的并发启动，并能在系统关闭时优雅地释放各项资源。一、设计原理解析在一个复杂的系统中，通常会有多个服务并行运行，如HTTP服务、gRPC服务等。如何
机器人技能列表极梦网络无忧杂谈机器人
一、机器人制作基础入门（一）机器人概述1.机器人的定义与分类2.机器人的发展历程与现状3.机器人在各领域的应用案例（二）必备工具与材料4.常用电子工具介绍（万用表、电烙铁等）5.机械加工工具（螺丝刀、钳子、扳手等）6.电子元件（电阻、电容、二极管等）7.结构材料（塑料、金属、木材等）二、电子电路基础（一）电路原理与设计8.电路基本概念（电流、电压、电阻等）9.欧姆定律与基尔霍夫定律10.简单电路设
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
C++内存管理秘籍：深入解析与实战代码示例黑猫Teng 编程学习 c++java 开发语言
C++内存管理秘籍：深入解析与实战代码示例一、内存管理的基本概念二、内存泄漏与野指针三、智能指针：现代C++的内存管理利器四、实战代码示例示例1：传统动态内存管理示例2：使用`std::unique_ptr`示例3：使用`std::shared_ptr`五、总结在C++编程的世界里，内存管理是一项既基础又核心的技能。它直接关系到程序的性能、稳定性和可维护性。不同于一些高级语言自动管理内存的特性，C
每天一道算法题【蓝桥杯】【下降路径最小和】桦0 题解算法蓝桥杯 c++leetcode
思路使用dp表来解决问题为了方便填写dp表，多初始化一圈格子状态转移方程dp[i][j]=min(dp[i-1][j-1],min(dp[i-1][j],dp[i-1][j+1]))+matrix[i-1][j-1];每个元素等于上一行元素最小的那个加上本格元素最后遍历最后一行dp表找最小值for(intj=1;jusingnamespacestd;classSolution{public:int
从零开始学习PPT全攻略破碎的天堂鸟学习教程学习 PPT
学习制作PPT是一个循序渐进的过程，从基础操作到设计思维再到实战技巧，逐步提升能力。以下是分阶段的学习路径建议：一、基础阶段：快速掌握工具操作软件选择微软PowerPoint（最主流，功能全面）WPS演示（国产免费，模板丰富）GoogleSlides（在线协作方便）Canva（设计小白友好，适合快速出图）核心功能速成快捷键：Ctrl+S（保存）、Ctrl+Z（撤销）、Ctrl+C/V（复制粘贴）、
RAG技术的PDF智能问答系统 AI Echoes 深度学习
关键要点系统基于RAG（检索增强生成）技术，允许用户上传PDF并进行智能问答。使用Ollama的deepseek-r1模型和FAISS向量数据库，支持普通对话和基于PDF的问答模式。提供简洁的Web界面，支持文件拖拽上传和多轮对话。研究表明，系统适合处理PDF内容查询，但性能可能因PDF复杂性而异。系统概述这个PDF智能问答系统是一个基于RAG技术的工具，旨在帮助用户通过上传PDF文件进行智能交互
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
XMI（XML Metadata Interchange）和XML之间的关系 huaqianzkh 架构理解与实践 xml
XMI（XMLMetadataInterchange）和XML之间的关系可以从以下几个方面进行阐述：一、定义与背景XML：XML（eXtensibleMarkupLanguage）是一种标记语言，被设计用来传输和存储数据。它是一种自描述的语言，即标签（tags）是由用户定义的，因此XML文档的结构和内容可以由创建者自行决定。XMI：XMI（XMLMetadataInterchange）是由OMG（
CORS解决跨域as been blocked by CORS policy: Response to preflight request doesn‘t pass access control ch humannoid python java 开发语言
CORS解决跨域asbeenblockedbyCORSpolicy:Responsetopreflightrequestdoesn’tpassaccesscontrolcheck:No‘Access-Control-Allow-Origin’headerispresentontherequestedresource.解决跨域的方法：1、JSONP通过script标签的src属性进行跨域请求，如果服
CSS3：深度解析与实战应用详解智能编织者 css3 css 前端
CSS3：深度解析与实战应用详解1.选择器增强2.盒模型扩展3.渐变和背景4.转换和动画总结CSS3是CSS（层叠样式表）的最新版本，它引入了许多新的特性和功能，使得网页的样式设计更加灵活、丰富和具有动态效果。在本文中，我们将深入解析CSS3的一些关键特性和实战应用，并通过代码样例展示其强大之处。1.选择器增强CSS3增加了许多新的选择器，如属性选择器、伪类选择器等，使得我们能够更精确地选择页面元
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
C#知识总结托塔1 c#开发语言
目录一、C#基础语法知识入门1.输入输出操作2.变量类型与常量2.1基础类型2.2常量3.转义字符4.类型转换4.1隐式转换规则4.2显式转换API5.运算符运算符分类与优先级6.流程控制6.1条件分支6.2循环6.3控制关键字7.异常处理二、C#基础语法知识基础1.枚举、数组、结构体vs类对比1.1枚举（Enum）1.2数组（一维/二维/交错）2.值类型vs引用类型3.字符串操作3.1核心方法3
Spring Boot实战：MySQL与Redis数据一致性深度解析与代码实战黑猫Teng spring boot mysql redis
SpringBoot实战：MySQL与Redis数据一致性深度解析与代码实战一、数据一致性问题概述二、常见解决方案三、选择合适的解决方案四、总结在SpringBoot开发中，MySQL作为关系型数据库，提供了强大的数据存储和查询能力；而Redis作为内存数据库，以其高速读写性能成为缓存层的首选。然而，当这两者共同服务于一个系统时，如何确保它们之间的数据一致性，成为了一个不可忽视的问题。本文将深入探
[Java实战]性能优化qps从1万到3万曼岛_ 国密实战 java 性能优化开发语言
一、问题背景事情起因是项目上springboot项目提供的tps达不到客户要求，除了增加服务器提高tps之外，作为团队的技术总监，架构师，技术扛把子，本着我不入地狱谁入地狱的原则，决心从代码上优化，让客户享受到飞一般的感觉。虽然大多数编程工作在写下第一行代码时已经完成，但本着谦虚使人进步，骄傲使人落后的原则还是一步一个脚印的把问题慢慢展开，慢慢分析。以下内容是抽丝剥茧的心路历程，请君欣赏。二、TP
链接·分享·直达：盘盘社区重新定义资源获取 qq_30722355 影视分享资源论坛夸克分享影视论坛
《资源猎人的影视天堂：盘盘社区-海量影视资源一站式分享》盘盘社区https://www.panpan.su/-你的专属影视资源宝库！亲爱的影视爱好者们，在这个信息爆炸的时代，找到优质的影视资源已经成为一种艺术。盘盘社区应运而生，致力于为你提供最全面、最便捷的影视资源分享平台！我们的优势：1.资源全面覆盖-最新热门电影-国内外经典电视剧-动漫新番&经典动画-独家资源首发2.多网盘支持-阿里网盘-夸克
数据目录：数字化转型的导航引擎与核心基建领码科技数据目录数字化转型元数据管理数据治理智能分析
摘要：数据目录作为企业数据资产的“结构化地图”，通过系统化梳理元数据、建立多维度分类体系，成为数字化转型的底层支撑。其核心价值在于提升数据可见性、可用性与协作效率，助力企业实现从数据孤岛到智能决策的跨越。本文从定义、分类、构建逻辑切入，结合华为等企业实践，剖析数据目录如何驱动数据治理、加速业务创新，并为不同阶段的数字化转型提供可落地的实施路径。关键字：数据目录、数字化转型、元数据管理、数据治理、智
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
SQL Server数据库基于SQL性能优化王小工数据库数据库 sql 性能优化
以下是SQLServer数据库SQL性能优化的实战策略，综合高频优化场景与核心技巧：一、索引优化‌1.合理创建索引‌对WHERE、JOIN、ORDERBY常用字段创建索引，优先选择选择性高的列（如唯一性高的字段）‌。使用聚集索引（ClusteredIndex）优化范围查询和排序操作，非聚集索引（Non-clusteredIndex）用于单列或组合列查询‌。避免在频繁更新的列上创建过多索引，以平衡读
202年充电计划——自学手册网络安全（黑客技术）网安康sir web安全安全网络 python linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
Gone 从 v1 到 v2 的更新分析 dapeng-大鹏 Gone框架介绍 gone 依赖注入后端框架
项目地址：https://github.com/gone-io/gone原文地址：https://github.com/gone-io/gone/blob/main/docs/gone-v1-to-v2-analysis.md文章目录1.概念简化与术语变更2.接口重新设计2.1组件定义的简化2.2组件加载方式的统一2.3生命周期方法的优化3.依赖注入逻辑重写3.1注入标签的简化3.2依赖注入查找流
[免费送Claude账号密码]ChatGPT的平替——Claude赠送2个免费Claude账号密码卡密！（内附Claude注册教程） NBA首席形象大使阿坤日常小功能实现人工智能 chatgpt claude gpt-3
一、账号说明1.账号格式：登录邮箱—密码—验证邮箱2.登录方式：访问Claude官网，选择登录，输入登录邮箱、密码不多叭叭，上账号！账号1：登录邮箱:[email protected]—登录密码:c934dfqcwuz8g—验证邮箱:[email protected]账号2：登录邮箱:[email protected]—登录密码:jx68
kubernetes-helm详细介绍及使用冷漠程序员小哥哥 kubernetes kubernetes kuberctl docker
致读者完整入门示例请参考：Helm完整入门实战Helm本指南介绍了使用Helm来管理Kubernetes集群上的软件包的基础知识。在这之前，假定您已经安装了Helm客户端。如果您仅对运行一些快速命令感兴趣，则不妨从快速入门指南开始。本章包含了Helm命令的详细说明，并解释如何使用Helm。三大概念Chart代表着Helm包。它包含在Kubernetes集群内部运行应用程序，工具或服务所需的所有资源
[论文解读] 多机器人系统动态任务分配综述「已注销」算法
https://www.emerald.com/insight/content/doi/10.1108/IR-04-2020-0073/full/html多机器人/多智能体动态环境任务分配决策动态任务调度策略该文章主要是想对目前stateoftheart多机器人动态任务调度策略做一个全面的评价，注意定语挺多的，里面的方法也较多为近几年的智能调度那些算法。衡量方法主要考虑到了应用场景、限制、目标方程
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户