飞桨PaddlePaddle

【文本分类】基于DNN/CNN的情感分类

导语

PaddlePaddle提供了丰富的运算单元，帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里，我们针对常见的机器学习任务，提供了不同的神经网络模型供大家学习和使用。本周推文目录如下：

周一：【点击率预估】

Wide&deep 点击率预估模型

周二：【文本分类】

基于DNN/CNN的情感分类

周三：【文本分类】

基于双层序列的文本分类模型

周四：【排序学习】

基于Pairwise和Listwise的排序学习

周五：【结构化语义模型】

深度结构化语义模型

文本分类是自然语言处理领域最基础的任务之一，深度学习方法能够免除复杂的特征工程，直接使用原始文本作为输入，数据驱动地最优化分类准确率。

在文本分类任务中，我们以情感分类任务为例，提供了基于DNN的非序列文本分类模型，以及基于CNN的序列模型供大家学习和使用（基于LSTM的模型见PaddleBook中情感分类一课http://www.paddlepaddle.org/docs/develop/book/06.understand_sentiment/index.cn.html)。

基于DNN/CNN的情感分类

以下是本例目录包含的文件以及对应说明:

├── images # 文档中的图片

│ ├── cnn_net.png

│ └── dnn_net.png

├── index.html # 文档

├── infer.py # 预测脚本

├── network_conf.py # 本例中涉及的各种网络结构均定义在此文件中，若进一步修改模型结构，请查看此文件

├── reader.py # 读取数据接口，若使用自定义格式的数据，请查看此文件

├── README.md # 文档

├── run.sh # 训练任务运行脚本，直接运行此脚本，将以默认参数开始训练任务

├── train.py # 训练脚本

└── utils.py # 定义通用的函数，例如：打印日志、解析命令行参数、构建字典、加载字典等

|1. 简介

文本分类任务根据给定一条文本的内容，判断该文本所属的类别，是自然语言处理领域的一项重要的基础任务。PaddleBook 中的情感分类一课，正是一个典型的文本分类任务，任务流程如下：

收集电影评论网站的用户评论数据。
清洗，标记。
模型设计。
模型学习效果评估。

训练好的分类器能够自动判断新出现的用户评论的情感是正面还是负面，在舆情监控、营销策划、产品品牌价值评估等任务中，能够起到重要作用。以上过程也是我们去完成一个新的文本分类任务需要遵循的常规流程。可以看到，深度学习方法的巨大优势体现在：免除复杂的特征的设计，只需要对原始文本进行基础的清理、标注即可。

PaddleBook 中的情感分类介绍了一个较为复杂的栈式双向 LSTM 模型，循环神经网络在一些需要理解语言语义的复杂任务中有着明显的优势，但计算量大，通常对调参技巧也有着更高的要求。在对计算时间有一定限制的任务中，也会考虑其它模型。除了计算时间的考量，更重要的一点：模型选择往往是机器学习任务成功的基础。机器学习任务的目标始终是提高泛化能力，也就是对未知的新的样本预测的能力：

简单模型拟合能力不足，无法精确拟合训练样本，更加无法期待模型能够准确地预测没有出现在训练样本集中的未知样本，这就是欠拟合问题。
然而，过于复杂的模型轻松“记忆”了训练样本集中的每一个样本，但对于没有出现在训练样本集中的未知样本却毫无识别能力，这就是过拟合问题。

"No Free Lunch (NFL)" 是机器学习任务基本原则之一：没有任何一种模型是天生优于其他模型的。模型的设计和选择建立在了解不同模型特性的基础之上，但同时也是一个多次实验评估的过程。在本例中，我们继续向大家介绍几种最常用的文本分类模型，它们的能力和复杂程度不同，帮助大家对比学习这些模型学习效果之间的差异，针对不同的场景选择使用。

|2. 模型详解

network_conf.py 中包括以下模型：

fc_net： DNN 模型，是一个非序列模型。使用基本的全连接结构。
convolution_net：浅层 CNN 模型，是一个基础的序列模型，能够处理变长的序列输入，提取一个局部区域之内的特征。

我们以情感分类任务为例，简单说明序列模型和非序列模型之间的差异。情感分类是一项常见的文本分类任务，模型自动判断文本中表现出的情感是正向还是负向。以句子 "The apple is not bad" 为例，"not bad" 是决定这个句子情感的关键：

对于 DNN 模型来说，只知道句子中有一个 "not" 和一个 "bad"，两者之间的顺序关系在输入网络时已丢失，网络不再有机会学习序列之间的顺序信息。
CNN 模型接受文本序列作为输入，保留了 "not bad" 之间的顺序信息。

两者各自的一些特点简单总结如下：

DNN 的计算量可以远低于 CNN / RNN 模型，在对响应时间有要求的任务中具有优势。
DNN 刻画的往往是频繁词特征，潜在会受到分词错误的影响，但对一些依赖关键词特征也能做的不错的任务：如 Spam 短信检测，依然是一个有效的模型。
在大多数需要一定语义理解（例如，借助上下文消除语义中的歧义）的文本分类任务上，以 CNN / RNN 为代表的序列模型的效果往往好于 DNN 模型。

A.DNN 模型

DNN 模型结构入下图所示：

图1. 本例中的 DNN 文本分类模型

在 PaddlePaddle 实现该 DNN 结构的代码见 network_conf.py 中的 fc_net 函数，模型主要分为如下几个部分：

词向量层：为了更好地表示不同词之间语义上的关系，首先将词语转化为固定维度的向量。训练完成后，词与词语义上的相似程度可以用它们的词向量之间的距离来表示，语义上越相似，距离越近。关于词向量的更多信息请参考PaddleBook中的词向量一节(https://github.com/PaddlePaddle/book/tree/develop/04.word2vec)。
最大池化层：最大池化在时间序列上进行，池化过程消除了不同语料样本在单词数量多少上的差异，并提炼出词向量中每一下标位置上的最大值。经过池化后，词向量层输出的向量序列被转化为一条固定维度的向量。例如，假设最大池化前向量的序列为[[2,3,5],[7,3,6],[1,4,0]]，则最大池化的结果为：[7,4,6]。
全连接隐层：经过最大池化后的向量被送入两个连续的隐层，隐层之间为全连接结构。
输出层：输出层的神经元数量和样本的类别数一致，例如在二分类问题中，输出层会有2个神经元。通过Softmax激活函数，输出结果是一个归一化的概率分布，和为1，因此第i个神经元的输出就可以认为是样本属于第i类的预测概率。

该 DNN 模型默认对输入的语料进行二分类（class_dim=2），embedding（词向量）维度默认为28（emd_dim=28），两个隐层均使用Tanh激活函数（act=paddle.activation.Tanh()）。需要注意的是，该模型的输入数据为整数序列，而不是原始的单词序列。事实上，为了处理方便，我们一般会事先将单词根据词频顺序进行 id 化，即将词语转化成在字典中的序号。

B.CNN 模型

CNN 模型结构如下图所示：

图2. 本例中的 CNN 文本分类模型

通过 PaddlePaddle 实现该 CNN 结构的代码见 network_conf.py 中的 convolution_net 函数，模型主要分为如下几个部分：

词向量层：与 DNN 中词向量层的作用一样，将词语转化为固定维度的向量，利用向量之间的距离来表示词之间的语义相关程度。如图2所示，将得到的词向量定义为行向量，再将语料中所有的单词产生的行向量拼接在一起组成矩阵。假设词向量维度为5，句子 “The cat sat on the read mat” 含 7 个词语，那么得到的矩阵维度为 7*5。关于词向量的更多信息请参考 PaddleBook 中的词向量一节。
卷积层：文本分类中的卷积在时间序列上进行，即卷积核的宽度和词向量层产出的矩阵一致，卷积沿着矩阵的高度方向进行。卷积后得到的结果被称为“特征图”（feature map）。假设卷积核的高度为 h，矩阵的高度为 N，卷积的步长为 1，则得到的特征图为一个高度为 N+1−h 的向量。可以同时使用多个不同高度的卷积核，得到多个特征图。
最大池化层: 对卷积得到的各个特征图分别进行最大池化操作。由于特征图本身已经是向量，因此这里的最大池化实际上就是简单地选出各个向量中的最大元素。各个最大元素又被拼接在一起，组成新的向量，显然，该向量的维度等于特征图的数量，也就是卷积核的数量。举例来说，假设我们使用了四个不同的卷积核，卷积产生的特征图分别为：[2,3,5]、[8,2,1]、[5,7,7,6] 和 [4,5,1,8]，由于卷积核的高度不同，因此产生的特征图尺寸也有所差异。分别在这四个特征图上进行最大池化，结果为：[5]、[8]、[7]和[8]，最后将池化结果拼接在一起，得到[5,8,7,8]。
全连接与输出层：将最大池化的结果通过全连接层输出，与 DNN 模型一样，最后输出层的神经元个数与样本的类别数量一致，且输出之和为 1。

CNN 网络的输入数据类型和 DNN 一致。PaddlePaddle 中已经封装好的带有池化的文本序列卷积模块：paddle.networks.sequence_conv_pool，可直接调用。该模块的 context_len 参数用于指定卷积核在同一时间覆盖的文本长度，即图 2 中的卷积核的高度。hidden_size 用于指定该类型的卷积核的数量。本例代码默认使用了 128 个大小为 3 的卷积核和 128 个大小为 4 的卷积核，这些卷积的结果经过最大池化和结果拼接后产生一个 256 维的向量，向量经过一个全连接层输出最终的预测结果。

|3. 使用 PaddlePaddle 内置数据运行

A.如何训练

在终端中执行 sh run.sh 以下命令，将以 PaddlePaddle 内置的情感分类数据集：paddle.dataset.imdb 直接运行本例，会看到如下输入：

Pass 0, Batch 0, Cost 0.696031, {'__auc_evaluator_0__': 0.47360000014305115, 'classification_error_evaluator': 0.5}

Pass 0, Batch 100, Cost 0.544438, {'__auc_evaluator_0__': 0.839249312877655, 'classification_error_evaluator': 0.30000001192092896}

Pass 0, Batch 200, Cost 0.406581, {'__auc_evaluator_0__': 0.9030032753944397, 'classification_error_evaluator': 0.2199999988079071}

Test at Pass 0, {'__auc_evaluator_0__': 0.9289745092391968, 'classification_error_evaluator': 0.14927999675273895}

日志每隔 100 个 batch 输出一次，输出信息包括：（1）Pass 序号；（2）Batch 序号；（3）依次输出当前 Batch 上评估指标的评估结果。评估指标在配置网络拓扑结构时指定，在上面的输出中，输出了训练样本集之的 AUC 以及错误率指标。

B.如何预测

训练结束后模型默认存储在当前工作目录下，在终端中执行 python infer.py ，预测脚本会加载训练好的模型进行预测。

默认加载使用 paddle.data.imdb.train 训练一个 Pass 产出的 DNN 模型对 paddle.dataset.imdb.test 进行测试，会看到如下输出：

positive 0.9275 0.0725 previous reviewer gave a much better of the films plot details than i could what i recall mostly is that it was just so beautiful in every sense emotionally visually just br if you like movies that are wonderful to look at and also have emotional content to which that beauty is relevant i think you will be glad to have seen this extraordinary and unusual work of br on a scale of 1 to 10 id give it about an the only reason i shy away from 9 is that it is a mood piece if you are in the mood for a really artistic very romantic film then its a 10 i definitely think its a mustsee but none of us can be in that mood all the time so overall

negative 0.0300 0.9700 i love scifi and am willing to put up with a lot scifi are usually and i tried to like this i really did but it is to good tv scifi as 5 is to star trek the original silly cheap cardboard sets stilted dialogues cg that doesnt match the background and painfully onedimensional characters cannot be overcome with a scifi setting im sure there are those of you out there who think 5 is good scifi tv its not its clichéd and while us viewers might like emotion and character development scifi is a genre that does not take itself seriously star trek it may treat important issues yet not as a serious philosophy its really difficult to care about the characters here as they are not simply just missing a of life their actions and reactions are wooden and predictable often painful to watch the makers of earth know its rubbish as they have to always say gene earth otherwise people would not continue watching must be turning in their as this dull cheap poorly edited watching it without breaks really brings this home of a show into space spoiler so kill off a main character and then bring him back as another actor all over again

输出日志每一行是对一条样本预测的结果，以 \t 分隔，共 3 列，分别是：（1）预测类别标签；（2）样本分别属于每一类的概率，内部以空格分隔；（3）输入文本。

|4. 使用自定义数据训练和预测

A.如何训练

(1)数据组织

假设有如下格式的训练数据：每一行为一条样本，以 \t 分隔，第一列是类别标签，第二列是输入文本的内容，文本内容中的词语以空格分隔。以下是两条示例数据：

positive PaddlePaddle is good

negative What a terrible weather

(2)编写数据读取接口

自定义数据读取接口只需编写一个 Python 生成器实现从原始输入文本中解析一条训练样本的逻辑。以下代码片段实现了读取原始数据返回类型为： paddle.data_type.integer_value_sequence（词语在字典的序号）和 paddle.data_type.integer_value（类别标签）的 2 个输入给网络中定义的 2 个 data_layer 的功能。

def train_reader(data_dir, word_dict, label_dict):

def reader():

UNK_ID = word_dict[""]

word_col = 0

lbl_col = 1

for file_name in os.listdir(data_dir):

with open(os.path.join(data_dir, file_name), "r") as f:

for line in f:

line_split = line.strip().split("\t")

word_ids = [

word_dict.get(w, UNK_ID)

for w in line_split[word_col].split()

]

yield word_ids, label_dict[line_split[lbl_col]]

return reader

以上代码片段详见本例目录下的 reader.py 脚本，reader.py 同时提供了读取测试数据的全部代码。

接下来，只需要将数据读取函数 train_reader 作为参数传递给 train.py 脚本中的 paddle.batch 接口即可使用自定义数据接口读取数据，调用方式如下：

train_reader = paddle.batch(

paddle.reader.shuffle(

reader.train_reader(train_data_dir, word_dict, lbl_dict),

buf_size=1000),

batch_size=batch_size)

(3)修改命令行参数

如果将数据组织成示例数据的同样的格式，只需在 run.sh 脚本中修改 train.py 启动参数，指定 train_data_dir 参数，可以直接运行本例，无需修改数据读取接口 reader.py。

执行 python train.py --help 可以获取 train.py 脚本各项启动参数的详细说明，主要参数如下：

nn_type：选择要使用的模型，目前支持两种：“dnn” 或者 “cnn”。

train_data_dir：指定训练数据所在的文件夹，使用自定义数据训练，必须指定此参数，否则使用paddle.dataset.imdb训练，同时忽略test_data_dir，word_dict，和 label_dict 参数。

test_data_dir：指定测试数据所在的文件夹，若不指定将不进行测试。

word_dict：字典文件所在的路径，若不指定，将从训练数据根据词频统计，自动建立字典。

label_dict：类别标签字典，用于将字符串类型的类别标签，映射为整数类型的序号。

batch_size：指定多少条样本后进行一次神经网络的前向运行及反向更新。

num_passes：指定训练多少个轮次。

B.如何预测

(1)修改 infer.py 中以下变量，指定使用的模型、指定测试数据。

model_path = "dnn_params_pass_00000.tar.gz"

# 指定模型所在的路径

nn_type = "dnn" # 指定测试使用的模型

test_dir = "./data/test"

# 指定测试文件所在的目录

word_dict = "./data/dict/word_dict.txt"

# 指定字典所在的路径

label_dict = "./data/dict/label_dict.txt"

# 指定类别标签字典的路径

(2)在终端中执行 python infer.py。

end

*值班小Paddle：wangp

*欢迎在留言区分享您的观点

*为了方便大家问题的跟进解决，我们采用Github Issue来采集信息和追踪进度。大家遇到问题请搜索Github Issue，问题未解决请优先在Github Issue上提问，有助于问题的积累和沉淀

点击“阅读原文”，访问Github Issue。

你可能感兴趣的:(【文本分类】基于DNN/CNN的情感分类)

数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
CSS 创建智慧浩海 CSS css 前端
当读到一个样式表时，浏览器会根据它来格式化HTML文档。如何插入样式表插入样式表的方法有三种:外部样式表(Externalstylesheet)内部样式表(Internalstylesheet)内联样式(Inlinestyle)外部样式表当样式需要应用于很多页面时，外部样式表将是理想的选择。在使用外部样式表的情况下，你可以通过改变一个文件来改变整个站点的外观。每个页面使用标签链接到样式表。标签在（
TDengine 支持的所有运算符 TDengine （老段） SQL 手册 tdengine 大数据时序数据库数据库物联网 sql iotdb
简介TDengine在表达式中可以支持各种运算符，JSON运算是比较特殊的一种运算符算术运算符#运算符支持的类型说明1+,-数值类型表达正数和负数，一元运算符2+,-数值类型表示加法和减法，二元运算符3*,/数值类型表示乘法和除法，二元运算符4%数值类型表示取余运算，二元运算符位运算符#运算符支持的类型说明1&数值类型按位与，二元运算符2|数值类型按位或，二元运算符JSON运算符->运算符可以对J
加州CA 65测试（Proposition 65）的深度解读南京速跃检测技术服务有限公司学习方法创业创新
以下是关于加州CA65测试（Proposition65）的深度解读，结合法规核心、测试范围及合规影响进行结构化分析：一、法规背景与核心要求1.法规起源-名称：《1986年加州安全饮用水和有毒物质执行法》（SafeDrinkingWaterandToxicEnforcementAct），简称CA65或Prop65。-目的：保护加州居民免受致癌、致畸或生殖毒性化学物质的暴露风险，要求企业提供清晰警告标
Linux:进程间通信——信号 muke_r 1024程序员节
信号是UNIX和Linux系统响应某些条件而产生的一个事件，接收到该信号的进程会相应地采取一些行动。信号是软中断，通常信号是由一个错误产生的。但它们还可以作为进程间通信或修改行为的一种方式，明确地由一个进程发送给另一个进程目录一、信号种类1.常见的信号2.不可靠信号和可靠信号注意二、信号捕捉三、进程休眠号四、信号集和信号阻塞五、附带数据信息的信号处理一、信号种类在终端输入kill-l命令可以看到l
VisionPro实战之传感器识别视觉王小 VisionPro实战 visionpro 机器视觉 c#
目录1.案例要求2.实现思路1.先进行图片格式转换，不然可能格式不匹配2.进行模板匹配，仔细观察之后发现可以从左侧凹陷的地方入手，再进行定位3.找出四条线段4.进行距离的测量5.编写脚本或者使用CogCreateGraphicLabelTool工具输出数据3.具体操作1.我们先创建一个CogImageConvertTool工具，进行图片转码操作。2.创建一个模板匹配工具CogPMAlignTool
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
MyBatis StatementHandler是如何创建 Statement 对象的？如何执行 SQL 语句？冰糖心书房 Mybatis 源码系列 2025 Java面试系列 mybatis sql 数据库
在MyBatis中，StatementHandler负责创建Statement对象并执行SQL语句。以下是其具体流程：1.StatementHandler.prepare()方法：创建JDBCStatement对象StatementHandler.prepare(Connectionconnection,IntegertransactionTimeout)方法是核心方法，负责基于MappedSta
深入理解 Java 内存模型（JMM）：原理、可见性与并发控制全栈探索者chen java java 开发语言缓存程序人生数据库 JMM 内存
深入理解Java内存模型（JMM）：原理、可见性与并发控制1.引言在多线程编程中，内存可见性、指令重排序和线程同步是开发者必须理解的核心概念。Java内存模型（JMM，JavaMemoryModel）定义了一组规则，确保Java程序在并发环境下的线程安全性和一致性。本文将深入剖析JMM的原理，并通过代码示例展示如何正确控制并发。2.什么是Java内存模型（JMM）？Java内存模型（JMM）是Ja
Java 并发编程实战：深入理解线程池的核心原理与最佳实践全栈探索者chen java java 服务器开发语言性能优化缓存 node.js 数据库
Java并发编程实战：深入理解线程池的核心原理与最佳实践1.为什么需要线程池？在Java并发编程中，直接创建和管理线程的成本较高，频繁创建线程会带来性能开销和资源浪费。线程池（ThreadPool）的作用：降低线程创建和销毁的开销，提高系统响应速度。提高系统吞吐量，充分利用CPU资源。避免资源耗尽，限制最大线程数，防止OOM（内存溢出）。支持任务排队，确保任务按照一定规则执行。2.线程池的核心组成
2025最新docker教程（四）嘿rasa 2025最新教程系列 docker eureka 容器
Docker客户端docker客户端非常简单,我们可以直接输入docker命令来查看到Docker客户端的所有命令选项。runoob@runoob:~#docker可以通过命令dockercommand--help更深入的了解指定的Docker命令使用方法。例如我们要查看dockerstats指令的具体使用方法：runoob@runoob:~#dockerstats--help容器使用获取镜像如果
STM32F1基于HAL库的学习记录实用使用教程分享(五、PWM驱动舵机、呼吸灯) 藤樂. STM32学习 stm32 学习数据库
往期内容STM32F1基于HAL库的学习记录实用使用教程分享(一、GPIO_Output)STM32F1基于HAL库的学习记录实用使用教程分享(二、GPIO_Input按键)STM32F1基于HAL库的学习记录实用使用教程分享(三、外部中断按键)STM32F1基于HAL库的学习记录实用使用教程分享(四、OLEDIIC驱动软件IIC硬件IIC)文章目录往期内容前言一、PWMPWM如何控制LED亮度？
linux——线程這～悸ベ雨落憂殇 Linux linux java android
线程概念什么是线程？在一个程序里的一个执行流叫做线程。一切进程至少有一个线程线程在进程内部运行，本质是在进程地址空间内运行在Linux系统中，在CPU眼中，看到的PCB都要比传统的进程更加轻量化我们都知道在每一个进程都有属于自己的PCB，里面装满了描述进程的各种字段…，而线程呢，是在进程中产生的，所以会共享共一个进程地址空间，如上图所示。线程的优点创建一个新线程的代价要比创建一个新进程小与进程之间
webAPP开发三：实现数据的交互显示 lvzekun-IT 前端基础前端学习
开发中遇到的错误:代码逻辑错误，将初始化函数放在了初始化对象之前，造成了“.html()”无法识别，表示未定义、http://read.t.imooc.io/参考代码下载地址。开发截图：代码结构：html{width:100%;height:100%;overflow-x:hidden;}body{text-align:left;width:100%;background:#e9dfc7;}.m-
为什么要制定执行标准？德为先科技标准执行标准业界资讯大数据
一、确保工作质量和效率1、明确工作要求：清晰界定各项工作的具体内容、流程和质量标准，员工能明确努力方向，减少工作中的不确定性和盲目性，从而提高工作质量和效率。2、规范操作流程：统一工作方法和步骤，避免因个人操作差异导致的质量波动或效率低下，有助于实现标准化作业，便于进行质量控制和管理。二、保障产品或服务的一致性1、满足客户期望：无论何时何地，客户都能享受到质量稳定、标准统一的产品或服务，有助于树立
制定执行标准的意义有哪些？德为先科技执行标准标准大数据业界资讯
1、规范行为和流程：为组织内的各项工作提供明确的准则和规范，使员工的行为和工作流程标准化、规范化，减少随意性和不确定性，确保工作的一致性和连贯性。2、提高管理效率：管理者依据执行标准进行管理，能够更清晰地了解工作进展和质量情况，便于发现问题、解决问题，从而提高管理的效率和效果，降低管理成本。3、保障产品和服务质量：明确产品或服务应达到的质量水平，有助于在生产和服务过程中进行严格的质量控制，确保向客
自动化测试 —— Pytest fixture及conftest详解程序员曦曦软件测试 pytest 功能测试软件测试自动化测试程序人生职场和发展
前言fixture是在测试函数运行前后，由pytest执行的外壳函数。fixture中的代码可以定制，满足多变的测试需求，包括定义传入测试中的数据集、配置测试前系统的初始状态、为批量测试提供数据源等等。fixture是pytest的精髓所在，类似unittest中setup/teardown，但是比它们要强大、灵活很多，它的优势是可以跨文件共享。一、Pytestfixture1.pytestfix
OpenSSH详解：构建安全远程管理的核心技术 ScilogyHunter 常见软件库安全 OpenSSH
OpenSSH详解：构建安全远程管理的核心技术引言在数字化时代，远程管理服务器和数据传输的安全性至关重要。OpenSSH（OpenSecureShell）作为SSH协议的开源实现，通过加密通信、身份验证和数据完整性保护，彻底解决了传统工具（如Telnet、FTP）的明文传输风险。本文将从核心原理、配置实践到高级功能，全面解析OpenSSH的技术细节与应用场景。一、OpenSSH的核心架构与工作原理
火语言 RPA 的独特优势：为何它能脱颖而出？ IDFaucet rpa
（一）低门槛上手：技术小白的福音与其他一些需要深厚编程基础才能操作的自动化工具不同，火语言RPA的语法设计极其亲民。它采用类似于自然语言的表达方式，通过简单的指令组合，就能实现复杂的自动化流程。例如，“打开Excel文件‘销售数据.xlsx’，选中A1到C10单元格区域，计算平均值并将结果填入D1单元格”，这样一段简单的描述，通过火语言稍加整理就能转化为可执行的自动化脚本。这意味着，即使你从未接触
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
关于vue+element ui 中的导航菜单问题空心闲人前端程序员
关于vue+elementui中的导航菜单问题最近公司要开发一个vue项目，自己搭框架的时候用到了element，目标是实现一个顶部菜单以及侧边菜单栏。直接上代码。importcommonHeaderfrom"@/components/header"importleftContentfrom"@/components/leftContent"exportdefault{name:'layout',
交换机救命命令手册：华为 & 思科平台最全运维指令速查表 IT程序媛-桃子数通华为认证服务器运维
引言：这是一份救命的交换机运维秘籍在交换机配置与故障排查过程中，不论你是初入网络世界的小白，还是年资数年的资深工程师，总会遇到那些“关键时刻靠得住的命令”。这篇文章，我将整理一份覆盖华为+思科双平台的实战命令手册，从最基础的设备状态查看，到VLAN、STP、防环、LACP、QOS、抓包、限速、安全加固等操作，通通囊括。关键时刻，拿来即用，就是这篇的全部意义。01️⃣基础生存命令：先活下来再说场景华
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
数据安全新纪元——多方安全计算与MySQL结合的隐私预算管理深度解析墨夶数据库学习资料1 安全 mysql android
在当今数字化时代，数据已成为企业最宝贵的资产之一。然而，随着数据泄露事件频发，如何确保数据的安全性和隐私性成为了亟待解决的问题。传统的加密技术虽然能在一定程度上保护静态数据，但在动态数据分析过程中却显得力不从心。为了解决这一难题，隐私计算作为一种新兴的技术应运而生，它允许在不解密原始数据的前提下进行有效的计算和分析。本文将深入探讨如何利用多方安全计算（MPC）与关系型数据库MySQL相结合的方式实
27寸显示屏，字体看着比较小，如何调大？＞? Gin387 学习
win+i打开设置点击辅助功能，然后选择文本大小，我的27寸，2k显示屏，然后字体设置的是110%的大小看着是比较舒服的。注意点：1.有些设置可能是需要重启之后才可以，更改的，比如我发的上一博客，（关于如何去掉桌面图标下面的文字的黑色背影的方法）这个就是需要重启之后才可以设置的东西。
python中rmdir和rmtree的用法 Gin387 python
shutil.rmtree()是Python中shutil模块提供的一个函数，用于递归删除整个目录树（包括子目录和所有文件）。os.rmdir()（只能删除空目录）不同，shutil.rmtree()可以强制删除非空目录importshutil#删除指定目录及其所有内容shutil.rmtree('path/to/directory')
Linux：动静态库嶔某 Linux linux 运维服务器
✨✨所属专栏：Linux✨✨✨✨作者主页：嶔某✨✨什么是库库是写好的现有的，成熟的可以复用的代码。现实中每个程序都需要依赖很多基础的底层库。世界上有很多大佬为了实现某一个功能，写了很多很NB的代码。他们把代码封装成一个库，这样我们不必写出像他们一样厉害的代码，只需要使用它们分享的库，也能使用对应的功能了。本质上来说库是一种可执行代码的二进制形式，可以被操作系统载入内存执行。静态库.a[Linux/
Linux：编辑器Vim和Makefile 嶔某 Linux linux 编辑器 vim
✨✨所属专栏：Linux✨✨✨✨作者主页：嶔某✨✨vim的三种常用模式分别是命令模式（commandmode）、插入模式（Insertmode）和底行模式（lastlinemode）各模式的功能区分如下：正常/普通/命令模式(Normalmode)控制屏幕光标的移动，字符、字或行的删除，移动复制某区段及进入Insertmode下，或者到lastlinemode。插入模式(Insertmode)只有
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(