weixin_47082769

NLP-自然语言处理-文本分类-总结-Tensorflow2.0版

一、文本分类综述

1、基本概念

（1）定义

在给定的分类体系中（eg:文档P（可能含有标题t）），将文本分到指定的某个或某几个类别当中

（2）分类对象

短文本（句子/标题/商品评论）、长文本（文章）

（3）实质

使用包含文本文档和标签的数据集来训练一个分类器。

（4）应用场景及其对应标签

应用场景	对应标签
情感分析(Sentiment Analyse）	(积极、消极、中性)
主题分类(Topic Labeling)	(金融、体育、军事、社会)
问答任务(Question Answering)	(是、否)
意图识别(Dialog Act Classification)	(天气查询、歌曲搜索、随机闲聊)
自然语言推理(Natural Language Inference)	(导出、矛盾、中立)
垃圾邮件判断	(是、否)
新闻分类news classification (NC)

（5）分类模式

binary：2分类问题，（属于或不属于）

multi-class：多分类问题

multi-label：多标签问题，（一个文本可以属于多类）

（6）NLP发展史

神经语言模型
多任务学习
词嵌入
NLP神经网络
sequence2sequence模型
注意力机制
善于记忆的网络
预训练语言模型

2、文本分类总流程

数据加载

文本清洗与预处理

降维

文本特征提取

分类算法构建

训练/评估

（1）文本清洗与预处理

分词==（jieba、tokenizer）==

去停用词stopwords==（re）==

词性标注==（jieba）==

处理大小写Capitalization

Tokenization（将文本流分为单词、短语）

Gensim（将原始文本转为所能理解的稀疏向量）

（2）降维

主成分分析法（PCA）
线性判别分析（LDA）
非负矩阵分解（NMF）

（3）文本特征提取(构建词向量空间）：

TfidfVectorizer = CountVectorizer + TfidfTransformer。

①CountVectorizer（Sklearn）

CountVectorizer得到的是词频（term frequency）特征

统计词汇出现的次数，并用词汇出现的次数的稀疏矩阵来表示文本的特征。它会统计所有出现的词汇，每个词汇出现了多少次，最后得到的稀疏矩阵的列就是词汇的数量（每个词汇就是一个特征/维度）

from sklearn.feature_extraction.text import CountVectorizer
ctv = CountVectorizer()#使用默认
"""参数主要
（1）ngram_range=(x,y)。其中，x,y 为数字，即n元语法。 
（2）stop_words = stop_words。其中，stop_words是从停用词文件中读取的list，每行一个停用词。
（3）max_features = n。其中，n为词汇表的数量。表示根据词频大小降序排列后的TOP n词汇数。"""

需要fit_transform

②TF-IDF（与CountVectorizer很像）

TfidfVectorizer就像一个给词频term frequency加权了一个作用

TfidfVectorizer提取的特征是：在一个文本中各个有效词汇对应的TFIDF值是多少，同时，每个文本特征向量会自动进行normalization（归一化）操作。

from sklearn.feature_extraction.text import TfidfVectorizertfv = TfidfVectorizer()
"""
ngram_range=(x,y)。其中，x,y 为数字，即n元语法。 
stop_words = stop_words。其中，stop_words为自己从停用词文件中获取到的。
max_features = n。其中，n为词汇表的数量。表示根据词频大小降序排列后的TOP n词汇数。"""

③BoW(从语料库中统计词频)

④词嵌入Word_Embedding：word2vec, FastText、Glove

⑤语法词表示：N-gram

⑥Word2Vec==（用gensim）==：CBoW和Skip-gram

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x2P1MMaQ-1641710073816)(/Users/duanyuqing/Library/Application Support/typora-user-images/image-20220107002442037.png)]

# 生成Word2Vec模型
model = gensim.models.Word2Vec(sentences, size = 50, sg=1,  		min_count= 3, window = 8, iter = 20 )
"""min_count用于修剪内部字典（Prune the Internal Dictionary）

size：是gensim Word2Vec将词汇映射到的N维空间的维度数量（N）。
sg：是模型训练所采用的的算法类型：1 代表 skip-gram，该模型从上下文语境（context）对目标词汇（target word）的预测中学习到其词向量的表达;0代表 CBOW，该模型从目标词汇（target word）对上下文语境（context）的预测中学习到其词向量的表达
window：控制窗口，它指当前词和预测词之间的最大距离
"""
#打印模型（反映模型中的参数）和词汇列表（仅展示按词汇的首字母进行排序的前50个词汇）：
print(model)
print(list(model.wv.vocab)[:50])

⑦Glove

（4）分类算法构建（机器/深度学习）

机器学习：

朴素贝叶斯NB，随机森林模型（RF），SVM分类模型，KNN分类模型，Voting、Stacking、神经网络分类模型、逻辑回归LR、决策树（DT）、GBDT/XGBOOST、集成算法Boosting/Bagging

深度学习 全连接神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)、 GRU、LSTM、BiLSTM

Fasttext、TextCNN、textRNN、Attention、Bert

"""采用Sequential方法搭建——按照顺序搭建——————单输入单输出——————简单"""
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=(28, 28)),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dropout(0.2),
  tf.keras.layers.Dense(10, activation='softmax')
])

"""采用Functional API方式搭建————工业常用"""
#输入，构建模型
inputs = keras.Input(shape=(28, 28, 1), name="img")
x = layers.Conv2D(16, 3, activation="relu")(encoder_input)
x = layers.Conv2D(32, 3, activation="relu")(x)
x = layers.MaxPooling2D(3)(x)
x = layers.Conv2D(32, 3, activation="relu")(x)
x = layers.Conv2D(16, 3, activation="relu")(x)
outputs = layers.GlobalMaxPooling2D()(x)

model = keras.Model(inputs=inputs, outputs=outputs, name="model")

"""模型编译（选择优化器、损失函数、评价指标）"""
model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

"""查看模型"""
model.summary()

（5）训练并评价分类结果

机器学习———①训练fit(x,y)

#训练fit
clf = clf.fit(X, y)
#转换transform

机器学习———②预测predict（x_test）

机器学习———③标准cross_val_score(clf, X, y, cv=5)和cross_validate

scores = cross_val_score(clf, X, y, cv=5)
scores = cross_validate(clf, X, y, scoring=scoring)#返回一个字典

机器学习———④词汇相似性查询任务

获取词汇相关的前n个词语，当positive和negative同时使用的话，就是词汇类比 (Word Analogy )。

model.wv.most_similar(positive=['文本挖掘', '汽车'], negative=['内容'], topn=20)

找出与其他词差异最大的词汇

model.wv.doesnt_match("舆情 互联网 媒体 商业 场景 咨询 ".split())

接近词汇A更甚于词汇B接近词汇A的【所有】词汇,按相似度由高到低降序排列

model.wv.closer_than('微博','社会化媒体') 
#'微博'是词汇A,'社会化媒体'是词汇B

找到前N个最相似的单词：similar_by_word

基于cosine余弦计算词汇之间的相似度，数值越大代表相似度越高

model.wv.similarity('微博', '数据')
model.wv.similarity('social_listening', '社会化媒体')

深度学习———①模型训练model.fit（）

"""使用history就是为了能够callback每个epoch训练"""
history = model.fit(x_train, y_train, batch_size=64, epochs=2, validation_split=0.2,)
#或者选择val的数据集：validation_data=(x_val, y_val)

深度学习———②模型评估和预测（推断）[`Model.evaluate()`]和 [`Model.predict()`]

"""模型评估————输入：test_data 和 label，输出：loss和accuracy"""
results = model.evaluate(x_test, y_test, batch_size=128)
"""模型预测————输入：test_data，输出：预测的label"""
predictions = model.predict(x_test[:3])

深度学习———③模型评价指标

Accuracy
Loss

二、基础结构

文本分类包含两大基础结构：

1、特征表示

（1）目的

让将文本转变成一种能够让计算机更容易处理的形式，同时减少信息的损失。

（2）表示方法

①BoW词袋模型(Bow of Words)

用词典大小的向量来表征文本，每个值代表该词在文中出现的次数

该方法忽略了文本当中的词序

②TF-IDF词频-逆文档频率

使用词频和逆文档频率来建模文本

③N-gram

将相邻的文字和词组信息纳入到表征的词典当中

def create_ngram_set(input_list, ngram_value=2):
    """从整数列表中提取一组n-gram
		eg:	create_ngram_set([1, 4, 9, 4, 1, 4], ngram_value=2)
    		{(4, 9), (4, 1), (1, 4), (9, 4)}
		eg: create_ngram_set([1, 4, 9, 4, 1, 4], ngram_value=3)
    [(1, 4, 9), (4, 9, 4), (9, 4, 1), (4, 1, 4)]
    """
    return set(zip(*[input_list[i:] for i in range(ngram_value)]))

④One-hot独热编码

二分类变量作为二进制向量的表示，构建向量，除了本身单词位置是1，其余都是0

one-hot 编码仅仅只是将词符号化，不包含任何语义信息

one-hot 的缺点如下：

无法表达词语之间的关系
这种过于稀疏的向量，导致计算和存储的效率都不高

⑤Word2Vec（无监督的）

Word2vec使用局部上下文信息来获取词向量。

⑥Glove词向量

Glove采用了局部上下文信息和全局统计特征。

2、分类模型

（1）机器学习模型

特征工程+（分类器）算法（Naive Bayes/SVM/LR/KNN……）

依赖于人工获取的文本特征，虽然模型参数相对较少，但是在复杂任务中往往能够表现出较好的效果，具有很好的领域适应性。
总结：学习预定义的特征表示，其中人工特征是问题难点

NB朴素贝叶斯、SVM支持向量机、KNN K近邻、DT决策树、RF随机森林

集成模型：集成学习是指通过将多个弱分类器的分类结果进行整合，获得比单个弱分类器更好效果的机器学习方法。

bagging中的各个弱分类器取值是相互独立的、无关的，常使用有放回抽样实现。

boosting中的弱分类器是在基分类器/前一个分类器的基础上通过迭代不断优化/调整出来

（2）深度学习模型

词向量+模型（FastText/TextCNN/TextRNN/TextRCNN）

深度学习模型结构相对复杂，不依赖与人工获取的文本特征，可以直接对文本内容进行学习、建模，但是深度学习模型对于数据的依赖性较高，且存在领域适应性不强的问题。

ReNN（Relu-embedded Neural network）规则嵌入神经网络

MLP（Multi-Layer Preceptron）多层感知机

RNN（Recurrent Neural Network）循环神经网络

CNN（Convolutional Neural Network）卷积神经网络

Attention注意力机制

Transformer

BERT

三、传统文本分类流程（机器学习）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PjsTVkhm-1641710073818)(/Users/duanyuqing/Library/Application Support/typora-user-images/image-20220106052513566.png)]

1. 准备和加载数据集：

第一步：准备数据集，包括加载数据集和执行基本预处理，然后把数据集分为训练集和验证集。导入Sklearn的包使用

将下载的数据加载到包含两个列（文本和标签）的pandas的数据结构（dataframe）中。

数据清洗和预处理

原始文本RawData:网页文本/新闻/报告

分词Segmentation

数据清洗Cleaning:无用标签/特殊符号/停用词

标准化Normalization:词干提取/词性还原

特征提取FeatureExtraction:Tf-ifd/Word2Vec

建模Modeling:相似度计算/分类算法

（1）英文

非英文部分

html、json等格式，提取出文本数据
- 文本泛化：数字、表情符号、网址……
拼写检查更正
词干提取（steming）、词形还原（lemmatization）

has/had/having->have am/is/are->is isn’t->is not
大写转小写
去停用词

a, to, the, according, any…

（2）中文——文本分词、去停用词、编码

非中文部分

html、json等格式，提取出文本数据
- 文本泛化：数字、英文、网址……
中文编码问题（one-hot、LabelEncoder）
中文分词

jieba分词、nltk、SnowNLP……

举例jieba分词代码

import jieba
jieba.enable_parallel() #并行分词开启
data['文本分词'] = data['正文'].apply(lambda i:jieba.cut(i) )

data['文本分词'] =[' '.join(i) for i in data['文本分词']]

去停用词stopwords
- 啊、哎、哎哟、但是、不如……
词语替换
- 俺->我，俺们->我们，装13->装逼
- 禾斗匕匕->科比，孬->不好，灰机->飞机
- CEO->首席执行官，Tencent->腾讯

2、特征工程：

第二步是特征工程，将原始数据集被转换为用于训练机器学习模型的平坦特征（flat features），并从现有数据特征创建新的特征。

文本表示

特征提取

（1）文本表示

目的：是把文本预处理后的转换成计算机可理解的方式

方法：词袋模型（BOW, Bag Of Words）或向量空间模型（Vector Space Model）

缺点：忽略文本上下文关系，每个词之间彼此独立，并且无法表征语义信息。

词袋模型：高纬度、高稀疏性

示例： ( 0, 0, 0, 0, … , 1, … 0, 0, 0, 0)

解决向量空间模型通过特征项选择降低维度，通过特征权重计算增加稠密性。

（2）特征提取

向量空间模型的文本表示方法的特征提取对应特征项的选择和特征权重计算两部分

基本思路：根据某个评价指标独立的对原始特征项（词项）进行评分排序，从中选择得分最高的一些特征项，过滤掉其余的特征项。

评价指标：文档频率、互信息、信息增益、χ²统计量等

（3）基于语义的文本表示

方法：LDA主题模型、LSI/PLSI概率潜在语义索引

3、模型训练

最后一步是建模，利用标注数据集训练机器学习模型。

分类器——统计分类方法

朴素贝叶斯分类算法（Naïve Bayes）、KNN、SVM、最大熵和神经网络

主要介绍集成学习的方法（采用Sklearn）

（1）集成学习`sklearn.ensemble`

VotingClassifier分类问题：

用多个模型对样本进行分类，以“投票”的形式，投票最多者为最终的分类。

Hard Voting：使用预测的Label进行多数决定投票

Soft Voting：根据预测概率和的argmax来预测Label

代码展示：

#选择3个分类器，分别为逻辑回归、随机森林、朴素贝叶斯
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(n_estimators=50, random_state=1)
clf3 = GaussianNB()

eclf = VotingClassifier(
    estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)],
    voting='hard')

VotingRegressor回归问题

对不同模型得出的结果取平均或加权平均

# Training classifiers
#选择3个，回归器，梯度提升树、随机森林回归、线性回归
reg1 = GradientBoostingRegressor(random_state=1)
reg2 = RandomForestRegressor(random_state=1)
reg3 = LinearRegression()
ereg = VotingRegressor(
  			estimators=[('gb', reg1), ('rf', reg2), ('lr', reg3)])

Stacking（分类：StackingClassifier 回归：StackingRegressor）

本质上是分层的结构。

第一层是k折交叉的训练集，针对于每一折，由除自己以外的其他的训练数据训练出模型，并以此模型对这一折进行预测。

按照此流程进行k次之后，我们得到了用不同模型预测训练集标签的结果，按顺序罗列之后作为第二层的训练集。再用k次训练的模型预测测试集标签，将得到的结果除以k取平均，作为第二层的测试集。

随后，再用另一个模型去训练第二层的训练集并预测第二层的测试集，获取对原始的测试集的预测结果进行评估。

estimators = [('ridge', RidgeCV()),
            ('lasso', LassoCV(random_state=42)),
             ('knr', KNeighborsRegressor(n_neighbors=20,
               metric='euclidean'))]
final_estimator = GradientBoostingRegressor(
    n_estimators=25, subsample=0.5, min_samples_leaf=25, max_features=1,
    random_state=42)
reg = StackingRegressor(estimators=estimators,
    								final_estimator=final_estimator)

4、进一步提高分类器性能

四、深度学习文本分类模型

1、文本的分布式表示：词向量（Word Embedding）

（1）基本思想：每个词表达成 n 维稠密、连续的实数向量，与之相对的one-hot encoding向量空间只有一个维度是1，其余都是0。

（2）优点：具备很强的特征表达能力，n维向量每维k个值，可以表征kⁿ个概念

（3）来源：神经网络语言模型==（下图）==（NNLM，Neural Probabilistic Language Model）每个词表示为稠密的实数向量

————词的分布式表示即词向量（word embedding）是训练语言模型的一个附加产物，即图中的Matrix C。

##2、深度学习文本分类模型

文本分类模型则是利用CNN/RNN等深度学习网络及其变体解决自动特征提取（即特征表达）的问题。

（1）FastText——文本长，且速度要求快时用

①原理

把句子中所有的词向量进行平均（某种意义上可以理解为只有一个avg pooling特殊CNN），然后直接接 softmax 层。

其实文章也加入了一些 n-gram 特征的 trick 来捕获局部序列信息。

输入的词向量可以是预先训练好的，也可以随机初始化，跟着分类任务一起训练

②适用场景

文本长且对速度要求高的场景Fasttext是baseline首选。

用它在无监督语料上训练词向量，进行文本表示

③模型图

第一层：添加Input层（embedding层）

第二层：Hidden层（投影层）

投影层对一个文档中所有单词的向量进行叠加平均。这层的input_shape是Embedding层的output_shape，这层的output_shape=(batch_size, embedding_dim)；

第三层：output层（softmax层）

真实的fastText这层是Hierarchical Softmax，这层指定了class_num，对于一篇文档，输出层会产生class_num个概率值，分别表示此文档属于当前类的可能性。这层的output_shape=(batch_size, class_num)

技巧：字符级n-gram特征的引入（用skip-gram）

分层Softmax分类

④Keras实现过程

#第一步：从整数数组中抽取n-grams去重set
def create_ngram_set(input_list, ngram_value=2):
    return set(zip(*[input_list[i:] for i in range(ngram_value)]))

#第二步：通过n-gram，来扩充输入参数sequnences序列；
def add_ngram(sequences, token_indice, ngram_range=2):
    new_sequences = []
    for input_list in sequences:
        new_list = input_list[:]
        for ngram_value in range(2, ngram_range + 1):
            for i in range(len(new_list) - ngram_value + 1):
                ngram = tuple(new_list[i:i + ngram_value])
                if ngram in token_indice:
                    new_list.append(token_indice[ngram])
        new_sequences.append(new_list)
    return new_sequences

# 第三步：处理训练数据
 if ngram_range > 1:
    print('Adding {}-gram features'.format(ngram_range))
    #  从训练数据集中，创建n-gram去重set
    ngram_set = set()
    for input_list in x_train:
        for i in range(2, ngram_range + 1):
            set_of_ngram = create_ngram_set(input_list, ngram_value=i)
            ngram_set.update(set_of_ngram)

    # 对n-gram词产出不同序号的词典
    # 这些序号的值要大于max_features 
    # Integer values are greater than max_features in order
    # 去避免跟已有的特征重合
    start_index = max_features + 1
    # 词 -> 序号
    token_indice = {v: k + start_index for k, v in enumerate(ngram_set)}
    # 序号 -> 词
    indice_token = {token_indice[k]: k for k in token_indice}
   # 需要更新max_features
    max_features = np.max(list(indice_token.keys())) + 1
    # 对x_train和x_test用n-grams特征进行扩充
    x_train = add_ngram(x_train, token_indice, ngram_range)
    x_test = add_ngram(x_test, token_indice, ngram_range)
    # 截断补齐
		x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
		x_test = sequence.pad_sequences(x_test, maxlen=maxlen)

⑤优缺点

模型本身复杂度低，但效果不错，能快速产生任务的baseline
fastText在保持高精度的情况下加快了训练速度和测试速度
fastText不需要预训练好的词向量，fastText会自己训练词向量
采用了char-level的n-gram作为附加特征，比如paper的trigram是 [pap, ape, per]，在将输入paper转为向量的同时也会把trigram转为向量一起参与计算。这样一方面解决了长尾词的OOV (out-of-vocabulary)问题，一方面利用n-gram特征提升了表现
当类别过多时，支持采用hierarchical softmax进行分类，提升效率

缺点

完全没有考虑词序信息，而它用的 n-gram 特征 trick 恰恰说明了局部序列信息的重要意义。

⑥代码实现——直接导入fasttext模型

fastText文本分类要求的数据存储格式

__ label __ 我爱中国

__ label __ : 类别前缀， __ label __ 后面接类别
1: 类别 id，用来区分不同类，可自定义
“我爱中国”: 分词后文本

代码：

"__label__"+str(label)+"\t"+" ".join(segs)

import fasttext
"""有监督学习"""fasttext.train_supervised
classifier=fasttext.train_supervised('./data/train_data.txt',label='label',
                                     wordNgrams=2,epoch=20,lr=0.1,dim=100)


"""无监督学习：无监督训练模式: 'skipgram' 或者 'cbow', 默认为'skipgram', 
		在实践中，skipgram模式在利用子词方面比cbow更好."""fasttext.train_unsupervised
 model = fasttext.train_unsupervised('path‘, "cbow", dim=300, epoch=1, lr=0.1, thread=8)

# 模型批量预测   classifier.test
test_result=classifier.test('./data/test_data.txt')
#输出返回：元组中的每项分别代表, 验证集样本数量, 精度以及召回率
# 模型单例预测     classifier.predict
labels = classifier.predict(texts)
# 输出：元组中的第一项代表标签, 第二项代表对应的概率

#参数说明
"""
train_supervised(path, lr=0.1, dim=100, ws=5, epoch=5, minCount=1, minCountLabel=0, minn=0, 
                   maxn=0, neg=5, wordNgrams=1, loss="softmax", bucket=2000000, 
                   thread=12, lrUpdateRate=100,t=1e-4, label="__label__", 
                   verbose=2, pretrainedVectors="")
  训练一个监督模型, 返回一个模型对象
  @param path: 					训练数据文件路径
  @param lr:              学习率————————————默认为0.05, 根据经验, 建议选择[0.01，1]范围内.
  @param dim:             向量维度——————————默认为100, 但随着语料库的增大, 词嵌入的维度往往也要更大.
  @param ws:              cbow模型时使用
  @param epoch:           次数————————————————默认为5, 但当你的数据集足够大, 可能不需要那么多次.
  @param minCount:        词频阈值, 小于该值在初始化时会过滤掉
  @param minCountLabel:   类别阈值，类别小于该值初始化时会过滤掉
  @param minn:            构造subword时最小char个数
  @param maxn:            构造subword时最大char个数
  @param neg:             负采样
  @param wordNgrams:      n-gram个数
  @param loss:            损失函数类型, softmax, ns: 负采样, hs: 分层softmax
  @param bucket:          词扩充大小, [A, B]: A语料中包含的词向量, B不在语料中的词向量
  @param thread:          线程个数, 0号线程负责loss输出————————————默认为12个线程, 一般建议和你的cpu核数相同.
  @param lrUpdateRate:    学习率更新
  @param t:               负采样阈值
  @return model object
"""

（2）TextCNN——利用CNN来提取句子中类似 n-gram 的关键信息

①TextCNN详细过程

第一层：embedding Layer（用于把单词映射到一组向量表示），得到[seq_length, embedding_dim]

——一般是300维度，主要针对于训练

接下去是一层卷积层，使用了多个filters，这里有3,4,5个单词一次遍历。接着是一层max-pooling layer得到了一列长特征向量，然后在dropout 之后使用softmax得出每一类的概率。
第二层：Convolution Layer（用N个卷积核filter），得到N个seq_length-filter_size+1长度的一维feature map

使用了多个filters，这里有3,4,5个单词一次遍历。

filter大小为7最优，filter个数100-600(接近600号)

激活函数：ReLU（默认），tanh比sigmoid好
第三层：Max_pooling Layer：对feature map进行max-pooling（因为是时间维度的，也称max-over-time pooling），得到N个1x1的数值，拼接成一个N维向量，作为文本的句子表示.

Polling：推荐 1-max-pooling

正则化（防止模型的过拟合）：dropout rate最好不好超过0.5；L2正则化效果一般
第四层：Softmax Layer：将N维向量压缩到类目个数的维度，过Softmax

特征：词向量

有静态（static）和非静态（non-static）方式。

static方式采用比如word2vec预训练的词向量，训练过程不更新词向量，实质上属于迁移学习了，特别是数据量比较小的情况下，采用静态的词向量往往效果不错。

non-static则是在训练过程中更新词向量。推荐的方式是 non-static 中的 fine-tunning方式，它是以预训练（pre-train）的word2vec向量初始化词向量，训练过程中调整词向量，能加速收敛，当然如果有充足的训练数据和资源，直接随机初始化词向量效果也是可以的。

通道（Channels）：

图像中可以利用 (R, G, B) 作为不同channel，

文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove）

实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：

图像是二维数据，经过词向量表达的文本为一维数据，

因此在TextCNN卷积用的是一维卷积。一维卷积带来的问题是需要设计通过不同 filter_size 的 filter 获取不同宽度的视野。

Pooling层：

pooling阶段保留 k 个最大的信息，保留了全局的序列信息。比如在情感分析场景，举个例子：

            “ 我觉得这个地方景色还不错，但是人也实在太多了 ”

虽然前半部分体现情感是正向的，全局文本表达的是偏负面的情感，利用 k-max pooling能够很好捕捉这类信息。

②代码实现

class TextCNN(object):
    """
    CNN用于文本分类(4层)
        Embedding Layer：词语转变成为一组向量表示
        Convolutional Layer
        Max-pooling Layer
        Softmax Layer
    """

    def __init__(self, max_setence_length, num_classes, vocab_size,
                 embedding_dims, filter_sizes, num_filters, l2_reg_lambda=0.0):
        """
        :param max_setence_length:  （最大句子长度：int）——文本样本中字词的最大长度，不足补零，多余的截断
        :param num_classes:     		（标签类别数目：int）
        :param vocab_size:      		（词典大小：int）
        :param embedding_size:  		（词向量长度，每个字词的维度,嵌入维度：int）——一般为128
        :param filter_sizes:    		（卷积核大小：int/list） 1D 卷积窗口的长度
        :param num_filters:     		（卷积核个数：int）
        :param l2_reg_lambda:   		（可选的L2正则化）
        
        *:param dropout_keep_prob 
        *:param base_lr				  		（学习率）

注意：filter_sizes和num_filters

filters_sizes是指filter每次处理几个单词

num_filters是指每个尺寸的处理包含几个filter

def creat_CNN_model(self):
  			# 输入层
        input = layers.Input((self.maxlen,))
        # 嵌入层
        embedding = layers.Embedding(self.max_features, self.embedding_dims,
                                     input_length=self.maxlen)(input)
        # 运用不同大小的卷积核嵌套（卷积和池化）
        convs = []
        for kernel_size in [3, 4, 5]:
            c = layers.Conv1D(128, kernel_size, activation='relu',padding='same')(embedding)
            c = layers.GlobalMaxPooling1D()(c)
            convs.append(c)
        # 将几层串起来
        x = layers.Concatenate()(convs)
        
				# 输出是全连接层-即多少类别
        output = layers.Dense(self.class_num, activation='softmax')(x)
        model = Model(inputs=input, outputs=output)
        return model

③适用场景

TextCNN是很适合中短文本场景的强baseline，但不太适合长文本，因为卷积核尺寸通常不会设很大，无法捕获长距离特征。

同时max-pooling也存在局限，会丢掉一些有用特征。

TextCNN和传统的n-gram词袋模型本质是一样的，它的好效果很大部分来自于词向量的引入，解决了词袋模型的稀疏性问题。

③缺点

CNN有个最大问题是固定 filter_size 的视野，一方面无法建模更长的序列信息，另一方面 filter_size 的超参调节也很繁琐。

###（3）TextRNN——RNN+LSTM

①RNN模型概念

它们利用顺序信息。
他们有一个记忆，可以捕捉到到目前为止已经计算过的内容，即我=最后讲的内容将影响我=接下来要讲的内容。
RNN是文本和语音分析的理想选择。
最常用的RNN是LSTM。

②模型图

RNN：

②RNN文本分类原理

输入每个单词，单词以某种方式彼此关联。
当看到文章中的所有单词时，就会在文章结尾进行预测。
RNN通过传递来自最后一个输出的输入，能够保留信息，并能够在最后利用所有信息进行预测。

缺点：短句子非常有效，当处理长篇文章时，将存在长期依赖问题

③LSTM ：

LSTM内部主要有三个阶段：

Forget Gate。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是会 “忘记不重要的，记住重要的”。

具体来说是通过计算得到的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWNDc9O7-1641710073819)(https://www.zhihu.com/equation?tex=z%5Ef)] （f表示forget）来作为忘记门控，来控制上一个状态的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gHjxqS1U-1641710073820)(https://www.zhihu.com/equation?tex=c%5E%7Bt-1%7D)] 哪些需要留哪些需要忘。

Input Gate。这个阶段将这个阶段的输入有选择性地进行“记忆”。主要是会对输入 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eTuOqWIk-1641710073821)(https://www.zhihu.com/equation?tex=x%5Et)] 进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。当前的输入内容由前面计算得到的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wDUvRcY3-1641710073821)(https://www.zhihu.com/equation?tex=z+)] 表示。而选择的门控信号则是由 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zZaANdt9-1641710073822)(https://www.zhihu.com/equation?tex=z%5Ei)] （i代表information)来进行控制。

将上面两步得到的结果相加，即可得到传输给下一个状态的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1OyCs8Fc-1641710073823)(https://www.zhihu.com/equation?tex=c%5Et)] 。也就是上图中的第一个公式。

Output Gate。这个阶段将决定哪些将会被当成当前状态的输出。主要是通过 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YggdT6LF-1641710073823)(https://www.zhihu.com/equation?tex=z%5Eo)] 来进行控制的。并且还对上一阶段得到的 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iW2grHCK-1641710073824)(https://www.zhihu.com/equation?tex=c%5Eo)] 进行了放缩（通过一个tanh激活函数进行变化)。

与普通RNN类似，输出 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mnaZ0Aet-1641710073824)(https://www.zhihu.com/equation?tex=y%5Et)] 往往最终也是通过 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7VLEGZ12-1641710073825)(https://www.zhihu.com/equation?tex=h%5Et)] 变化得到。

注意：LSTM模型只是将 FastText 的 GlobalAveragePooling1D 换成了 LSTM 神经网络层，输入先通过嵌入层转换为词向量序列表示，然后经过LSTM转换为128维的向量，然后直接接上sigmoid分类器。

④LSTM代码

keras.layers.LSTM(units, activation='tanh', recurrent_activation='hard_sigmoid',dropout=0.0, recurrent_dropout=0.0,return_sequences=False, return_state=False, )
"""
:param 				units: 正整数，输出空间的维度。
:param				activation: 要使用的激活函数(如果None就是没有激活)
:param				recurrent_activation: 用于循环时间步的激活函数 
:param				return_sequences: 布尔值。是返回输出序列中的最后一个输出，还是全部序列
:param				dropout: 在 0 和 1 之间的浮点数。 单元的丢弃比例，用于输入的线性转换
:param				recurrent_dropout: 在 0 和 1 之间的浮点数。 单元的丢弃比例，用于循环层状态的线性转换。
:param				return_state: 布尔值。除了输出之外是否返回最后一个状态。
"""

def LSTM_model():
  model = Sequential()
  model.add(LSTM(32, return_sequences=True,
                 input_shape=(timesteps, data_dim)))  # 返回维度为 32 的向量序列
  model.add(LSTM(32, return_sequences=True))  # 返回维度为 32 的向量序列
  model.add(LSTM(32))  # 返回维度为 32 的单个向量
  model.add(Dense(10, activation='softmax'))

（4）Bi-LSTM——从某种意义上捕获变长且双向的的 “n-gram” 信息

tf.keras.layers.Bidirectional(
    layer, merge_mode="concat", weights=None, backward_layer=None, **kwargs
)
"""
:param 				layer: keras.layers.RNN实例:如keras.layers.LSTM或keras.layers.GRU。
:param 				merge_mode:{'sum'， 'mul'， 'concat'， 'ave'， None}之一。
						  如果为None，输出将不会被合并，它们将作为一个列表返回。默认值为“concat”。
"""

def create_bilstm_model():
  # LSTM
  lstm_output_size = 70
  model = Sequential()
  model.add(Embedding(voc_size, embedding_dim, input_length=max_len))
  model.add(LSTM(lstm_output_size))
  model.add(Bidirectional(LSTM(lstm_output_size)))
  model.add(Dropout(0.1))
  model.add(Dense(class_num,))
  model.add(Activation('softmax'))
  return model
bi_lstm_model = create_bilstm_model()
plot_model(bi_lstm_model, to_file='bi_lstm_model.png', show_shapes=True)

（5）BERT（无监督学习）

BERT模型：多个Transformer Encoder一层一层地堆叠起来，

且只使用了 Transformer 的 Encoder 模块

①BERT的预训练过程
BERT的预训练阶段包括两个任务：Masked Language Model/Next Sentence Prediction。

Masked Language Model
MLM可以理解为完形填空，作者会随机mask每一个句子中15%的词，用其上下文来做预测，**例如：my dog is hairy → my dog is [MASK] **

此处将hairy进行了mask处理，然后采用非监督学习的方法预测mask位置的词是什么，但是该方法有一个问题，因为是mask15%的词，其数量已经很高了，这样就会导致某些词在fine-tuning阶段从未见过，为了解决这个问题，作者做了如下的处理：

80%的时间是采用[mask]，my dog is hairy → my dog is [MASK]

10%的时间是随机取一个词来代替mask的词，my dog is hairy -> my dog is apple

10%的时间保持不变，my dog is hairy -> my dog is hairy

那么为啥要以一定的概率使用随机词呢？这是因为transformer要保持对每个输入token分布式的表征，否则Transformer很可能会记住这个[MASK]就是"hairy"。至于使用随机词带来的负面影响，文章中解释说,所有其他的token(即非"hairy"的token)共享15%x10% = 1.5%的概率，其影响是可以忽略不计的。Transformer全局的可视，又增加了信息的获取，但是不让模型获取全量信息。
注意：

# dupe_factor:决定数据duplicate的次数。
# create_instance_from_document函数，构造了一个sentence-pair的样本。
对每一句，
			先生成[CLS]+A+[SEP]+B+[SEP]，有长（0.9）有短（0.1），
  		再加上mask，然后做成样本类object。
# create_masked_lm_predictions函数返回的tokens是已经被遮挡词替换之后的tokens
# masked_lm_labels则是遮挡词对应位置真实的label。

Next Sentence Prediction
选择一些句子对A与B，其中50%的数据B是A的下一条句子，剩余50%的数据B是语料库中随机选择的，学习其中的相关性，添加这样的预训练的目的是目前很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系，从而能让预训练的模型更好的适应这样的任务。 Bert先是用Mask来提高视野范围的信息获取量，增加duplicate再随机Mask，这样跟RNN类方法依次训练预测没什么区别了除了mask不同位置外；

全局视野极大地降低了学习的难度，然后再用A+B/C来作为样本，这样每条样本都有50%的概率看到一半左右的噪声；

但直接学习Mask A+B/C是没法学习的，因为不知道哪些是噪声，所以又加上next_sentence预测任务，与MLM同时进行训练，这样用next来辅助模型对噪声/非噪声的辨识，用MLM来完成语义的大部分的学习

②输入
BERT 的输入可以是单一的一个句子或者是句子对。通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入

BERT 模型的主要输入是文本中各个字/词(或者称为 token)的原始词向量，该向量既可以随机初始化，也可以利用 Word2Vector 等算法进行预训练以作为初始值

实际的输入值是segment embedding与position embedding相加，

BERT的输入词向量是三个向量之和：

Token Embedding：WordPiece tokenization subword词向量。
Segment Embedding：表明这个词属于哪个句子（NSP需要两个句子），该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合
Position Embedding：由于出现在文本不同位置的字/词所携带的语义信息存在差异（比如：“我爱你”和“你爱我”），因此，BERT 模型对不同位置的字/词分别附加一个不同的向量以作区分Transformer中是预先设定好的值。

③输出

输出是文本中各个字/词融合了全文语义信息后的向量表示

④优缺点

BERT优点

Transformer Encoder因为有Self-attention机制，因此BERT自带双向功能

因为双向功能以及多层Self-attention机制的影响，使得BERT必须使用Cloze版的语言模型Masked-LM来完成token级别的预训练

为了获取比词更高级别的句子级别的语义表征，BERT加入了Next Sentence Prediction来和Masked-LM一起做联合训练

为了适配多任务下的迁移学习，BERT设计了更通用的输入层和输出层

微调成本小

BERT缺点

task1的随机遮挡策略略显粗犷

[MASK]标记在实际预测中不会出现，训练时用过多[MASK]影响模型表现;

每个batch只有15%的token被预测，所以BERT收敛得比left-to-right模型要慢（它们会预测每个token）

BERT对硬件资源的消耗巨大

④代码实现

Keras ——TensorFlow Hub

*流程：

加载数据集（以IMDB为例）
从TensorFlow Hub加载BERT模型
通过将BERT与分类器结合来构建您自己的模型
训练自己的模型，微调BERT作为其中的一部分
保存模型，用它来分类句子

"""下载各种包"""
# 1.下载BERT中预处理的包，以及模型的包
!pip install -q -U tensorflow-text
!pip install -q tf-models-official

"""从TensorFlow Hub 中直接选择BERT的模型"""
# 可以选择的：BERT-Base、Small BERTs（一般选择这个，因为参数少，也比较快、ALBERT:
#选择一个BERT模型进行微调，下载 BERT 模型，以及预处理的模块
bert_model_name = 'small_bert/bert_en_uncased_L-4_H-512_A-8' 
BERT model selected           : https://tfhub.dev/tensorflow/small_bert/bert_en_uncased_L-4_H-512_A-8/1
Preprocess model auto-selected: https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3
# 预处理模型加载到一个hub.KerasLayer来组成微调模型。这是将tf2风格的SavedModel从TF Hub加载到Keras模型的首选API。
bert_preprocess_model = hub.KerasLayer(tfhub_handle_preprocess)

"""使用BERT模型"""
bert_model = hub.KerasLayer(tfhub_handle_encoder)

#创建分类模型
def build_classifier_model():
  text_input = tf.keras.layers.Input(shape=(), dtype=tf.string, name='text')
  preprocessing_layer = hub.KerasLayer(tfhub_handle_preprocess, name='preprocessing')
  encoder_inputs = preprocessing_layer(text_input)
  encoder = hub.KerasLayer(tfhub_handle_encoder, trainable=True, name='BERT_encoder')
  outputs = encoder(encoder_inputs)
  net = outputs['pooled_output']
  net = tf.keras.layers.Dropout(0.1)(net)
  net = tf.keras.layers.Dense(1, activation=None, name='classifier')(net)
  return tf.keras.Model(text_input, net)

HuggingFace直接调用——

simpletransformer对数据集格式有要求：左边是text 右边是abels———— [“text”, “labels”]

"""下载模型simpletransformer（注意对数据集格式有要求）"""
!pip install --upgrade simpletransformers

"""导入模型"""
from simpletransformers.classification import ClassificationModel, ClassificationArgs
# 设置模型的参数
model_args = ClassificationArgs(num_train_epochs=1,overwrite_output_dir=True)
# 创建一个分类模型，直接选则bert-base-chinese
model = ClassificationModel('bert', 'bert-base-chinese', num_labels=2, args=model_args)

"""bert-base-uncased模型的内部使用"""
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = TFBertModel.from_pretrained("bert-base-uncased")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)

"""模型训练"""
model.train_model(train_df)
"""模型评估"""
result, model_outputs, wrong_predictions = model.eval_model( eval_df)
"""模型预测"""
predictions, raw_outputs = model.predict(["text2"])

#五、模型选择

1、CNN vs RNN

2、Fasttext vs CBOW

相同点：和CBOW一样，fastText模型也只有三层：输入层、隐含层、输出层（Hierarchical Softmax），输入都是多个经向量表示的单词，输出都是一个特定的target，隐含层都是对多个词向量的叠加平均。
不同点：CBOW的输入是目标单词的上下文，fastText的输入是多个单词及其n-gram特征，这些特征用来表示单个文档；CBOW的输入单词被onehot编码过，fastText的输入特征是被embedding过；CBOW的输出是目标词汇，fastText的输出是文档对应的类标。
注意：fastText在输入时，将单词的字符级别的n-gram向量作为额外的特征；在输出时，fastText采用了分层Softmax，大大降低了模型训练时间。

##3、Word2vec vs fastText区别？

1）都可以无监督学习词向量，fastText训练词向量时会考虑字词subword；

2）fastText还可以进行有监督学习进行文本分类，

Fasttext其主要特点：结构与CBOW类似，但学习目标是人工标注的分类结果；

分层Softmax的叶子结点（类别）相对word2vector（所有词汇）少很多，样本中标签多的类别被分配短的搜寻路径

引入字符级的N-gram特征，考虑词序特征；（一定程度上捕捉词序信息）。中文n-gram针对的是word，而不是char。对应到中文，应该对应的是分词之后的词，而不是字。英文是char字符级的n-gram、引入subword来处理长词，处理未登陆词问题，以及低频词（n-gram共享）

采用hierarchical softmax对输出的分类标签建立哈夫曼树，样本中标签多的类别被分配短的搜寻路径

4、BERT 模型为什么要用 mask?

BERT 通过在输入 X 中随机 Mask 掉一部分单词，然后预训练过程的主要任务之一是根据上下文单词来预测这些被 Mask 掉的单词。其实这个就是典型的 Denosing Autoencoder 的思路，那些被 Mask 掉的单词就是**在输入侧加入的噪音。因此总结来说 BERT 模型 [Mask] 标记就是引入噪音的手段

关于预训练模式，优点是它能比较自然地融入双向语言模型，同时看到被预测单词的上文和下文，然而缺点也很明显，主要在输入侧引入[Mask]标记，导致预训练阶段和 Fine-tuning 阶段不一致的问题。

##5、BERT是如何做 mask 的？

给定一个句子，会随机 Mask 15%的词，然后让 BERT 来预测这些 Mask 的词,在输入侧引入[Mask]标记，会导致预训练阶段和 Fine-tuning 阶段不一致的问题，因此在论文中为了缓解这一问题，采取了如下措施：

如果某个 Token 在被选中的 15%个 Token 里，则按照下面的方式随机的执行：

80%的概率替换成[MASK]，比如 my dog is hairy → my dog is [MASK]

10%的概率替换成随机的一个词，比如 my dog is hairy → my dog is apple

10%的概率替换成它本身，比如 my dog is hairy → my dog is hairy

这样做的好处是，BERT 并不知道[MASK]替换的是这 15%个 Token 中的哪一个词==(「注意：这里意思是输入的时候不知道[MASK]替换的是哪一个词，但是输出还是知道要预测哪个词的」)==，而且任何一个词都有可能是被替换掉的，比如它看到的 apple 可能是被替换的词。这样强迫模型在编码当前时刻的时候不能太依赖于当前的词，而要考虑它的上下文，甚至对其上下文进行”纠错”。比如上面的例子模型在编码 apple 是根据上下文 my dog is 应该把 apple(部分)编码成 hairy 的语义而不是 apple 的语义。

##6、mask 相对于 CBOW 有什么异同点？

「相同点」

CBOW 的核心思想是：给定上下文，根据它的上文 Context-Before 和下文 Context-after 去预测 input word。而 BERT 本质上也是这么做的，但是 BERT 的做法是给定一个句子，会随机 Mask 15%的词，然后让 BERT 来预测这些 Mask 的词。

「不同点」

首先，在 CBOW 中，每个单词都会成为 input word，而 BERT 不是这么做的，原因是这样做的话，训练数据就太大了，而且训练时间也会非常长。
其次，对于输入数据部分，CBOW 中的输入数据只有待预测单词的上下文，而 BERT 的输入是带有[MASK] token 的“完整”句子，也就是说 BERT 在输入端将待预测的 input word 用[MASK] token 代替了。
另外，通过 CBOW 模型训练后，每个单词的 word embedding 是唯一的，因此并不能很好的处理一词多义的问题，而 BERT 模型得到的 word embedding(token embedding)融合了上下文的信息，就算是同一个单词，在不同的上下文环境下，得到的 word embedding 是不一样的。

你可能感兴趣的:(自然语言处理,自然语言处理,分类,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
性格小测试熹大头
有些人非常肯定自己属于外向型，有些人则发现自己是绝对的内向型。然而，多数人却发现他们似乎介于两者之间，是两种性格的结合。现在我们就来看看你在这种分类中处在何种位置。阅读以下问题，从a、b、c中选出最适合自己的选项。你可能会发现三个选项都不合适，或者合适的不止一项，这种情况下，选出相对来说更适合自己的即可。1人们经常会用下列哪个词语描述你：a善于分析b遵守纪律c有创造力2一连几天参与社交活动（比如，
李克富 | 咨询师推荐阅读书目李克富
最重要的书籍不是别人的推荐，而是自己学过的教材，不论当初使用的是哪个版本，它都是我们专业的底层代码，具有不可替代性。前不久，中国心理咨询师筹委会的一位老师邀请我罗列一个推荐书目清单作为咨询师工具包的内容，并要求“说明一下简单的分类或者作三言两语的说明”。斟酌后，我觉得自己推荐的书目大体可以分为普及类书籍、心理学书籍和心理咨询与治疗专业书籍，第三类又分为适合于咨询师新手的和有经验咨询师的。经过严格筛
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
郭生白中药方论之二(破除温凉寒热的框框) 本能学堂a昨年
离病说药茫茫然，对症下药不着边。顺势利导一乘法，排异调节渡法船。无限整合非模糊，模糊病区得清楚。共性之外求个性，亲和不生抗药性。温凉寒热巧方便，君臣佐使筏喻焉。药包大小折中看，毒性有无一念间。导读破除温凉寒热的框框寒热温凉是基于中药共性的传统分类药无寒热人有寒热药无寒热病有寒热抛弃温凉不并用的错误观念寒热温凉是基于中药共性的传统分类寒热温凉是个共性，是说的共性。这个共性，知道什么叫共性吗？所有的药
2022-04-25 L是木子李呢
上门维修APP开发应具备哪些功能随着移动互联网的不断发展，上门维修在我们生活中已经是非常普遍的存在了，为了给用户更方便的找到上门维修的渠道，上门维修APP应运而生，那么上门维修APP开发应具备哪些功能呢？1、维修门店搜索为了更好地方便用户省时省力，上门维修APP会依据用户定位信息搜索线下实体店，促使用户更好的找到线下维修店面，省时又省力。2、维修服务分类包括管道洁具维修、强电弱电维修、木工维修、粉
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb