隔壁的NLP小哥

NLP——文本分类模型（一）

NLP——文本分类模型（一）

1、引入

最为自然语言处理中最为基础的任务，文本分类一直受到了很多的关注，本文主要关注在深度学习在文本分类中的应用。通过textCNN，DCNN，RCNN，HAN四种经典的文本分类模型来描述深度学习在文本分类模型中的应用。

2、textCNN模型

2.1 textCNN的引入

目前，大多数的深度学习都是从CNN神经网络模型开始的，我们知道，CNN模型被更多的应用在了图像领域之中，原因在于相比于文本数据，图像数据更加的整齐，一张图片可以很容易的就被抽象成一个矩阵的形式，矩阵中的每一个元素可以看做是一个像素点，定义一个或者多个CNN的卷积核，可以很容易的在矩阵上进行滑动，进而通过池化操作，最终可以抽取的图片中的特征。而文本数据和图片数据不同，首先，在文本数据中，我们无法去规范一个词的大小，因为其可能有单个字，也有可能由多个字所组成，在上一层，我们也无法去确定一个句子中词的个数。由于这种数据的不规整性，我们在应用CNN这种模型的时候需要一些额外的设计。一般来讲，当我们面对的是文本数据的时候，我们对于这种数据的处理方式一般包括以下两种：

填充/缩减处理：这种处理的方式最为的简单，其基本的思想是硬性的将数据规范成统一的形式，然后在进行下面的任务。
序列化的处理方式：我们之前提到过，图像数据可以自然的抽象成一个矩阵的形式，矩阵内部是不存在顺序的信息的，但是文本数据不同，每个词之间是有前后的衔接性的，换句话说，当前词的出现是会受到前面出现的词的影响的。基于这种序列化的方式，我们可以对文本进行处理，然后利用LSTM，RNN，GRU的序列模型来完成后面的任务。

2.2 textCNN模型介绍

这里假设各位读者对于CNN模型已经有了基本的了解，所有这里就不对CNN模型在进行赘述了。整个TextCNN模型的基本组成包括初始的Embedding层，卷积层，池化层和输出层。整体如下图所示：

2.2.1 Embedding层

Embedding层作为所有NLP任务的基础，如何对于文本中的词汇进行Embedding可能会决定模型后续的效果，一般来讲，模型的Embedding包括两种种方法。

第一种是采用词袋模型和读热编码，这种方式指的是将文本整理成词表的形式，每一个词的向量的维度为V，V为词典的大小，在根据词汇在词表中的位置，将对应的位置标记为1，其他位置标记为0，形成一个01向量。进一步，可以采用TF-IDF等频率统计算法来确定每一个词的TF-IDF的值，将01向量变成0TF-IDF的形式。

第二种方式是采用训练的的方式，为每一个词生成一个稠密的向量表示，生成的算法包括ELMO，GLOVE，Word2Vector，Bert等算法，一般思想都是基于语言模型来为每一个词生成一个词向量。

相对而言，预训练的方式采用的更多，因为预训练的模型中考虑了模型的语义信息，也就是可以为后面的层提供更多的特征信息。

在得到每一个词的词向量之后，我们就可以根据词向量来组成一个表示句子或者文本的矩阵，矩阵中的行是一个词的词向量。这里需要注意的是，由于句子或者文本中的词的数量不同，那么组成的表示句子或者文本的矩阵的行数是不同的，一般可以采用截断或者填充的方式进行进一步的处理成规范的数据。最终的用公式表示拼接的过程为：

$X=[X_1:X_2,.....,X_n]$

文本中包括n个词汇，每一个词汇的向量表示为 $X_i$ ，最终形成的矩阵用X来表示。

2.2.2 卷积层

在获得句子或者文本矩阵之后，我们下一步的操作就是一个卷积操作，一般来讲，我们在处理图片数据的时候，因为图片可以抽象成一个二维的矩阵，所以我们将卷积核定义成一个二维的，但是对于文本数据而言，其表示矩阵是由一个一个词的词向量拼接而成，如果采用的二维的卷积核，在矩阵上滑动会涉及到的是每一个词的一部分信息，这些被抽取到的信息显然不能作为一个句子或者文本的特征。也就是说这种二维的卷积的实际意义并不大，所以这里我们选择的是一维的卷积方式。逐个的在每个词上进行特征抽取，进而表示成文本的特征矩阵。在论文中定义了三个区域，第一个每个区域的长度为4,3,2，这里可以理解成语言模型的n-gram过程。然后在每个区域上定义两个卷积核，每个卷积核的维度为4。经过卷积核的滑动之后，生成了如上图的第二个部分的文本特征矩阵。三个区域，每一个区域生成两个文本特征矩阵。该部分如下图所示：

用公式表示上述每一个卷积过程为：
$C_i=f(W·X_{i:i+h-1}+b)$

2.2.3 池化操作

在获得卷积结果之后，下一步就是池化操作，池化操作本事的目标就是放大视野，提取泛化特征，提高模型的泛化能力。论文中采用的是一维的池化核，对卷积结果中的每一行进行最大池化操作，每一个提取出一个池化特征。然后将各个池化结果进行拼接，形成池化结果。如下图所示：

用公式表示池化过程为：

$C_i^*=max\{C_i\}$

2.2.4 输出层

通过上面池化的结果，我们可以得到关于文本或者句子的特征向量，通过softmax的操作，我们就可以对文本进行分类操作。其最终的计算结果如下图所示：

用公式表示为：

$y=softmax(W·[C_i^1:C_i^2:,..,:C_i^k]+b)$

2.3 总结

作为一个经典的文本分类模型，TextCNN的分类机制比较简单，便于理解。并且通过不同特征区域的划分，再做卷积的方式，一定程度上考虑到了语义信息。

3、参考

文本分类算法TextCNN原理详解

你可能感兴趣的:(NLP学习)

qwenvl 代码中的attention pool 注意力池如何理解，attention pool注意力池是什么？ OpenSani AI 大模型计算机视觉语言模型 qwenvl LLM
qwenvl中的attentionpool如何理解，其实这就是一个概念的问题看qwenvl的huggingface的代码的时候，发现代码里有一个Resampler以及attn_pool，这和之前理解的连接池线程池表示资源复用的意思不太一样，查了一下：注意这里的pool和线程池连接池里面的pool不一样:深度学习中的池化：池化在深度学习中主要指通过滑动窗口对特征图进行下采样，提取最重要的特征，减少计
SerializeJava-反序列化图形化工具首席CEO 网络安全 web安全 Java
公众号：泷羽Sec-Ceo声明！所提供的工具资料仅供学习之用。这些资料旨在帮助用户增进知识、提升技能，并促进个人成长与学习。用户在使用这些资料时，应严格遵守相关法律法规，不得将其用于任何非法、欺诈、侵权或其他不当用途。本人和团队不对用户因使用这些资料而产生的任何后果负责，包括但不限于因操作不当、误解资料内容或违反法律法规而导致的损失或损害。用户应自行承担使用这些资料的风险，并在使用前进行充分的了解
【AI Agent系列】【MetaGPT多智能体学习】1. 再理解 AI Agent - 经典案例和热门框架综述同学小张大模型人工智能学习 gpt 笔记 MetaGPT agi 智能体
本系列文章跟随《MetaGPT多智能体课程》（https://github.com/datawhalechina/hugging-multi-agent），深入理解并实践多智能体系统的开发。本文为该课程的第二章（智能体综述及多智能体框架介绍)笔记）。文章目录0.温故而知新-再看AIAgent是什么1.一个AIAgent实例介绍-BabyAGI2.多智能体框架比较3.警告？0.温故而知新-再看AIA
SCALA学习手册.pdf(JasonSwartz) zxfxghfd scala 学习 pdf
书:python33com(<----web)Scala概述：“Scala是‘可扩展语言’（SCAlableLanguage）的缩写，于2003年创建，为JVM平台上的函数式编程以及面向对象编程提供一个高性能开发环境。”值与变量：“值（val）是不可变、有类型的存储单元；变量（var）是可变、有类型的存储单元。”数据类型与转换：“Scala支持多种数据类型，包括Byte、Short、Int、Lon
计算机视觉与深度学习：使用深度学习训练基于视觉的车辆检测器（MATLAB源码-Faster R-CNN） ZhShy23 javascript 深度学习
在人工智能领域，计算机视觉是一个重要且充满活力的研究方向。它使计算机能够理解和分析图像和视频数据，从而做出有意义的决策。其中，目标检测是计算机视觉中的一项关键技术，它旨在识别并定位图像中的多个目标对象。车辆检测作为目标检测的一个重要应用，在自动驾驶、智能交通系统等领域有着广泛的应用前景。本文将介绍如何使用MATLAB和深度学习技术，特别是FasterR-CNN模型，来训练一个车辆检测器。文章目录一
GAN在图像增强中的应用实战指南码字仙子
本文还有配套的精品资源，点击获取简介：图像增强技术通过算法改善图像质量，GAN作为一种生成对抗网络，在此领域具有重要应用。通过生成器和判别器的对抗性训练，GAN可以生成逼真图像、修复低质量图像、扩增数据集并进行风格迁移。本项目将介绍如何使用Python及其相关库实现GAN图像增强，包括模型的构建、训练和评估。通过项目案例学习，你可以掌握GAN在图像增强中的实际应用，提高图像处理和深度学习的技能。1
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
python3.9安装numpy+mky_windows下python 3.9 Numpy scipy和matlabplot的安装教程详解 Madmoiselle.may
学习python过程中想使用python的matlabplot绘图功能，遇到了一大批问题，然后一路过关斩将，最终安装成功，实为不易，发帖留念。1首先打开cmdwin+r2pip安装pip3install--usernumpyscipymatplotlib–user选项可以设置只安装在当前的用户下，而不是写入到系统目录。默认情况使用国外线路，国外太慢，我们使用清华的镜像就可以:pip3install
MySQL学习笔记11：limit 分页查询 AsajuHuishi MySQL mysql 数据库
简介本系列（MySQL学习笔记）是我基于B站上SQL播放量第一的MySQL基础+高级篇-数据库-sql-尚硅谷视频所做的笔记，方便大家学习和掌握MySQL。说明1.这个系列基本包含了视频中老师讲课的所有内容，包括知识点、案例、部分测试题。2.所需的配套资料（来自B站评论区）@黎曼的猜想：配套资料下载–>公众号公众号DragonWell回复：mysql注意：是公众号！！是公众号！！是公众号，点那个搜
黑客常备十大编程语言，每一个都不容易学，但每一个又很有用一秋的编程笔记 Python 编程计算机科技数据库 sql 爬虫 python 自动化编程语言
文章目录1、C语言2、Python3、SQL4、Javascript5、PHP6、C++编程7、JAVA8、Ruby9、Perl10、BashPython学习资源分享1、Python所有方向的学习路线2、学习软件3、精品书籍4、入门学习视频5、实战案例6、清华编程大佬出品《漫画看学Python》7、Python副业兼职与全职路线一定要注意，您选择的编程将在很大程度上取决于您要定位的系统类型和计划使
JVM-内存分配与回收策略后端
内存分配与回收策略对象的内存分配，就是在堆上分配（也可能经过JIT编译后被拆散为标量类型并间接在栈上分配），对象主要分配在新生代的Eden区上，少数情况下可能直接分配在老年代，分配规则不固定，取决于当前使用的垃圾收集器组合以及相关的参数配置。JetBrains软件使用以下列举几条最普遍的内存分配规则，供大家学习。对象优先在Eden分配大多数情况下，对象在新生代Eden区中分配。当Eden区没有足够
学习笔记078——Java Properties类使用详解上下求索. Java 学习笔记 java
文章目录概述常见方法写入读取遍历概述Properties继承于Hashtable。表示一个持久的属性集，属性列表以key-value的形式存在，key和value都是字符串。Properties类被许多Java类使用。例如，在获取环境变量时它就作为System.getProperties()方法的返回值。我们在很多需要避免硬编码的应用场景下需要使用properties文件来加载程序需要的配置信息，
学习笔记040——如何定时备份服务器中的数据库？上下求索. MySQL Linux mysql 服务器
目录1、编写备份脚本：2、创建crontab定时任务需求前景：Ubuntu系统的服务器中，需要定时备份MySQL数据库中的数据。确保数据能够得到安全保障。我的方法：1、写一个备份数据库的脚本2、利用Ubuntu的crontab每日定时执行脚本。下面是我的实现方式：1、编写备份脚本：#!/bin/bash#设置数据库名，用户和密码DB_NAME="数据库名"DB_USER="账号"DB_PASSWO
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习模型推理速度/吞吐量计算(附代码） Scabbards_ 1500深度学习笔记深度学习人工智能
参考博文：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247546551&idx=2&sn=f198b6365e11f0a18832ff1203302632&chksm=ebb70e63dcc0877569d1838b2391744be628bf6cbb6e203a49f855e0769ecbbbf5a9929fe2db&scene
PyTorch使用教程- Tensor包 Loving_enjoy 论文 pytorch 人工智能
###PyTorch使用教程-Tensor包PyTorch是一个流行的深度学习框架，它提供了一个易于使用的API来创建和操作张量（Tensors）。张量是一个多维数组，类似于NumPy中的ndarray，但它是基于GPU的，支持自动求导。本文将详细介绍PyTorch中的Tensor包，包括张量的创建、运算、形状变换、索引与切片、以及重要的张量处理方式。####一、张量的创建在PyTorch中，可以
ChatGPT详解 Loving_enjoy 实用技巧人工智能自然语言处理
ChatGPT是一款由OpenAI研发和维护的先进的自然语言处理模型（NLP），全名为ChatGenerativePre-trainedTransformer，于2022年11月30日发布。以下是对ChatGPT的详细介绍：###一、技术架构与原理1.**技术架构**：ChatGPT建立在Transformer架构之上，这是一种深度学习模型，特别适用于处理自然语言。其核心是自注意力机制，允许模型在
mysql学习笔记(八):分页查询代码魔法师Sunny MySQL mysql 学习笔记
应用场景：当要显示的数据，一页显示不全，需要分页提交sql请求语法：select查询列表from表【jointypejoin表2on连接条件where筛选条件groupby分组字段having分组后的筛选orderby排序的字段】limit【offset,】size;offset要显示条目的起始索引（起始索引从0开始）size要显示的条目个数特点：①limit语句放在查询语句的最后②公式要显示的页
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
【Python学习】科学计算工具包SciPy-安装配置墨夶 Python学习资料 python 学习 scipy
SciPy安装与配置指南SciPy是一个基于Python的科学计算库，广泛应用于数学、科学和工程领域。它建立在NumPy库的基础上，提供了丰富的数学和科学计算工具。本文将详细介绍如何在不同环境下安装和配置SciPy。1.前提条件在安装SciPy之前，确保你的系统已经安装了Python和pip。你可以通过以下命令检查Python是否已经安装：python--version如果输出类似于Python3
CSDN简介神罗天征666 data
CSDN（ChineseSoftwareDeveloperNetwork），全称“中国软件开发者网络”，是一个专注服务于IT专业人士及IT企业的知识传播、在线学习、职业发展等全生命周期服务的平台。CSDN成立于1999年，是中国最大的中文IT技术社区，隶属于北京创新乐知网络技术有限公司。该平台汇聚了大量的软件开发者和IT专业人士，成为中国乃至全球范围内重要的IT技术交流和学习平台。CSDN的主要功
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
学习笔记081——如何备份服务器中MySQL数据库数据？上下求索. MySQL Linux 数据库学习笔记
方法：可以通过编写sh脚本的方式，结合Linux中的crontab定时任务来实现定时备份数据的功能。sh脚本如下：#!/bin/bash#要备份的数据库DB_NAME="wms"#数据库账号DB_USER="root"#数据库密码DB_PASSWORD="123456"#数据备份存放目录BACKUP_DIR="/home/htl/backup"mkdir-p$BACKUP_DIR#备份文件名BAC
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
FPGA-全局时钟缓冲IBUFG BUFG IBUFGDS ODDR2 kelinnn FPGA fpga 嵌入式 buffer
学习内容全局时钟缓冲，输入缓冲，输出缓冲开发环境xilinxspartan6、ISE14.7、modelsim10.5写在前面的话当你用ISE14.7时可能会出现如下的报错Thisdesigncontainsaglobalbufferinstance,,drivingthenet,,thatisdrivingthefollowing(first30)non-clockloadpins.Thisde
Java学习，删除集合指定元素五味香 java 学习开发语言 python android kotlin golang
Java删除集合中指定元素，通常依赖于集合具体类型。不同的集合类型（如ArrayList,HashSet,LinkedList等）提供了不同的方法来执行此操作。使用ArrayList：importjava.util.ArrayList;importjava.util.List;publicclassMain{publicstaticvoidmain(String[]args){Listlist=n
隐语课程隐语架构概览学习笔记皓月雪学习笔记
隐语架构包含：产品层、算法层、计算层、资源层和硬件层隐语产品：定位：通过可视化产品，降低终端用户的体验和演示成本。通过模块化API降低技术集成商的研发成本。人群画像：作为隐语的直观入口，隐语保护计算从业者均应该关注产品：SecretPad：轻量化安装、快速验证POC、可定制集成；多部署形态：中心模式、P2P模式全栈产品：MPC、TEE、SCQLSecretNote：Notebook形式、交互式建模
全局变量的优缺点时光札记z java c++c语言开发语言
全局变量的优缺点1.写在前面在上一文中，我谈到了在完成项目中将需要的变量分为了“全局变量”和“局部变量”，但是在后来的学习中发现，虽然全局变量有一些优点，但同时也伴随着许多的缺点，于是在此做出一些小结，并寻找替代全局变量的方法。2.全局变量的定义全局变量也称为外部变量，它是在函数外部定义的变量。它不属于哪一个函数，它属于一个源程序文件。其作用域是整个源程序。在函数中使用全局变量，一般应作全局变量说
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他