码农a皮

NLP自然语言处理入门学习笔记（一）

文章目录

- 一、NLP简介
- - 1.1、什么是自然语言处理
  - 1.2、NLP发展简史
  - 1.3、NLP应用场景
- 二、文本预处理
- - 2.1、认识文本预处理
  - 2.2、文本处理的基本方法
  - - 2.2.1、分词简介
    - 2.2.2、流行中文分词工具-----jieba
    - 2.2.3、流行中英文分词工具hanlp
  - 2.3、文本张量表示方法
  - - 2.3.1、了解文本张量表示
    - 2.3.2、one-hot词向量表示
    - 2.3.3、word2vec
    - 2.3.4、word embedding
  - 2.4、文本数据分析
  - - 2.4.1、文本数据分析简介
    - 2.4.2、标签数量分布
    - 2.4.3、句子长度分布
    - 2.4.4、词频统计与关键词词云
  - 2.5、文本特征处理
  - - 2.5.1、文本特征处理简介
    - 2.5.2、n-gram特征
    - 2.5.3、文本长度规范
  - 2.6、文本数据增强
  - - 2.6.1、文本数据增强的作用
    - 2.6.2、回译数据增强
    - 2.7、案例：新闻主题分类任务

一、NLP简介

1.1、什么是自然语言处理

自然语言处理（NLP）是计算机科学与语言学中关注计算机与人类语言间转换的领域

1.2、NLP发展简史

1950年图灵提出“机器可以思考么”
1957~1970 自然语言处理领域开始形成两大阵营，基于规则、基于统计
1994~1999 基于统计的方法逐渐取得胜利，概率计算开始引入到NLP领域的每个任务中
2000~2008 机器学习开始兴起，迅速占据NLP主流市场
2015~ 人工智能时代到来，深度学习技术深刻改变NLP

1.3、NLP应用场景

语音助手
机器翻译
搜索引擎
智能问答

二、文本预处理

2.1、认识文本预处理

文本预处理及作用
- 文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入的要求，如：将文本转化成模型需要的张量，规范张量的尺寸，而且科学的文本预处理环境还将有效指导模型超参数的选择，提升模型的评估指标
文本预处理中包含的主要环节
- 文本处理的基本方法
  - 分词
  - 词性标注
  - 命名实体识别
- 文本张量的表示方法
  - one-hot编码
  - Word2vec
  - Word Embedding
- 文本语料的数据分析
  - 标签数量的分布
  - 句子长度分布
  - 词频统计与关键词词云
- 文本特征处理
  - 添加n-gram特征
  - 文本长度规范
- 文本数据增强方法
  - 回译数据增强法
- 重要说明
  - 在实际生产应用中，我们最常使用的两种语言是中文和英文

2.2、文本处理的基本方法

2.2.1、分词简介

什么是分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分解符的，而中文只是字、句和段能通过明显的分界符来简单划界，而词没有一个形式上的分界符，分词过程就是找到这样分解符的过程
分词的作用

词作为语言语义理解的最小单元，是人类理解文本语言的基础，因此也是AI解决NLP领域高阶任务，如自动问答，机器翻译，文本生成的重要基础环节

2.2.2、流行中文分词工具-----jieba

愿景：“结巴”中文分词，做最好的Python中文分词组件
特性：
- 支持多种分词模式
  - 精确模式
  - 全模式
  - 搜索引擎模式
- 支持中文繁体分词
- 支持用户自定义词典
安装
```
pip install jieba
```

jieba分词的使用

精确模式分词

试图将句子以最精确的切开，适合文本分析

import jieba

content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
# 返回生成器对象
# res = jieba.cut(content, cut_all=False)
# lcut返回列表内容
res = jieba.lcut(content, cut_all=False)
print(res)

全模式分词
- 把句子中所有的可以成词的词语都扫描出来，速度非常快，但不能消除歧义
```
res = jieba.lcut(content, cut_all=True)
print(res)
```
搜索引擎模式
- 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词
```
res = jieba.lcut_for_search(content)
print(res)
```

中文繁体分词

# 繁体分词
content1 = "煩惱即是菩提，我暫且不提"
print(jieba.lcut(content1))

使用用户自定义词典
- 添加自定义词典后，jieba能够准确识别词典中出现的词汇，提升整体的识别准确率
- 词典格式：每行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒
- ```
云计算 5 n
李小福 2 nr
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
八一双鹿 3 nz
```
```
jieba.load_userdict("./user_dict.txt")
jieba.lcut("八一双鹿更名为八一南昌篮球队")
```

2.2.3、流行中英文分词工具hanlp

中英文NLP处理工具包，基于tensorflow2.0，使用在学术界和行业中推广最先进的深度学习技术
hanlp安装
```
pip install hanlp 
```

分词

hanlp中文分词

# hanlp分词功能
import hanlp

# 中文分词
tokenizer = hanlp.load('CTB6_CONVSEG')
print(tokenizer("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"))

英文分词

命名实体识别

命名实体：通常我们将人名、地名、机构名等转悠名词统称命名实体
命名实体识别（Named Entity Recognition，简称NER）就是识别出一段文本中可能存在的命名实体
命名实体识别的作用
- 同词汇一样，命名实体也是人类理解文本的基础单元，因此也是AI解决NLP领域高阶任务的重要基础环节

实例

使用hanlp进行中文命名实体识别

# 中文命名实体识别
# 加载中文命名实体识别的预训练模型MSRA_NER_BERT_BASE_ZH
recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
content = list("上海华安工业（集团）公司董事长谭旭光和秘书张晚霞来到美国纽约现代艺术博物馆参观。")
print(recognizer(content))

使用hanlp进行英文命名实体识别

# 英文命名实体识别
recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_CASED_EN)
print(recognizer(['President', 'Obama', 'is', 'speaking', 'at', 'the', 'White', 'House']))

词性标注
- 词性：语言中对词的一种分类方法，以语法特征为主要依据、兼顾词汇意义对词进行划分的结果，常见的词性有14种，如名词、动词、形容词等
- 词性标注（POS）：就是标注出一段文本中每个词汇的词性
- ```
我爱自然语言处理
我 /rr ,爱 /v, 自然语言 /n, 处理 /vn
rr：人称代词
v:  动词
n:  名词
vn: 动名词
```
- 词性标注的作用
  - 词性标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节
- 使用jieba进行中文词性标注
```
import jieba.posseg as pseg
print(pseg.lcut("我爱北京天安门"))
# 返回pair元组
```
- 使用hanlp进行中文词性标注
```
tagger = hanlp.load(hanlp.pretrained.pos.CTB5_POS_RNN_FASTTEXT_ZH)
print(tagger(['我', '的', '希望', '是', '希望', '和平']))
```
- 使用hanlp进行英文词性标注
```
tagger = hanlp.load(hanlp.pretrained.pos.PTB_POS_RNN_FASTTEXT_EN)
print(tagger(['I', 'banked', '2', 'dollars', 'in', 'a', 'bank', '.']))
```

2.3、文本张量表示方法

2.3.1、了解文本张量表示

什么是文本张量表示
- 将一段文本使用张量进行表示，其中一般将词汇表示成向量，称作词向量，再由各个词向量按顺序组成矩阵形成文本表示

例子

['人生','该','如何','起头']
# 每个词对应矩阵中的一个向量
[[
    
]]

文本张量表示的作用
- 将文本表示成张量（矩阵）形式，能够使语言文本可以作为计算机处理程序的输入，进行接下来一系列的解析工作
文本张量表示的方法
- one-hot编码
- Word2vec
- Word Embedding

2.3.2、one-hot词向量表示

又称独热编码，将每个词表示成具有n个元素的向量，这个词向量中只有一个元素是1，其他元素都是0，不同词汇元素的位置不同，其中n的大小是整个语料中不同词汇的总数

例子

['改变'，'要','如何','起手']
[[1,0,0,0],
 [0,1,0,0],
 [0,0,1,0],
 [0,0,0,1]]

one-hot编码实现

# 导入用于对象保存和加载的包
import joblib
# 导入keras的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer

# 初始化一个词汇表
vocab = {'周杰伦', '陈奕迅', '李宗盛'}

# 实例化一个词汇映射器
t = Tokenizer(num_words=None, char_level=False)

# 在映射器上拟合现有的词汇表
t.fit_on_texts(vocab)

# 遍历词汇表，将每一个单词映射为one-hot张量表示
for token in vocab:
    # 初始化一个全零向量
    zero_list = [0] * len(vocab)
    # 使用映射器转化文本数据
    token_index = t.texts_to_sequences([token])[0][0] - 1
    # 将对应的位置赋值1
    zero_list[token_index] = 1
    print(token, "的one-hot编码为：", zero_list)

# 将拟合好的映射器保存起来
tokenizer_path = './Tokenizer'
joblib.dump(t, tokenizer_path)

one-hot编码器使用

# 加载映射器
t = joblib.load('./Tokenizer')
token = '李宗盛'
# 从词汇映射器中得到index
token_index = t.texts_to_sequences([token])[0][0] - 1
# 初始化一个全零向量
zero_list = [0] * 3
zero_list[token_index] = 1
print(token, '的one-hot编码为', zero_list)

one-hot编码的优劣势
- 优势：操作简单，容易理解
- 劣势：完全割裂了词与词之间的联系，而且在大语料集下，每个向量的长度过大，占据大量内存
- 因为one-hot编码明显的劣势，这种编码方式被应用的地方越来越少，取而代之的是稠密向量的表示方法word2vec和word embedding

2.3.3、word2vec

什么是word2vec
- 是一种流行的将词汇表示成向量的无监督训练方法，该过程将构建神经网络模型，将网络参数作为词汇的向量表示，它包含CBOW和skipgram两种训练模式
CBOW（Continuous bag of words）模式
- 给定一段用于训练的文本语料，再选定某段长度（窗口）作为研究对象，使用上下文词汇预测目标词汇
skipgram模式
- 给定一段用于训练的文本语料，再选定某段长度（窗口）作为研究对象，使用目标词汇预测上下文词汇

使用fasttext工具实现word2vec的训练和使用

获取训练数据

# 数据集
http://mattmahoney.net/dc/enwik9.zip
# 解压
unzip enwik9.zip
# 使用perl脚本提取网页中的文本数据
perl wikifil.pl data/enwik9 > data/fil9

训练词向量

import fasttext

# 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练
model = fasttext.train_unsupervised('data/fil9')

# 通过get_word_vector方法来获得指定词汇的词向量
model.get_word_vector('the')

模型超参数设定
- fasttext.train_unsupervised(path, “skipgram”, dim=300, epoch=1, lr=0.05, thread=12)
  - path：词汇文件路径
  - 无监督训练模式：skipgram/cbow
  - dim：词键入维度，默认100，随着语料库的增大，词嵌入的维度往往也要更大
  - epoch：数据循环次数，默认5
  - thread：线程数，默认12个线程
模型效果检测
- model.get_nearest_neighbors(‘单词’) ：查找临近单词

模型的保存与重加载

# 使用save_model保存模型
model.save_model('fil9.bin')

# 使用fasttext.load_model加载模型
model = fasttext.load_model('fil9.bin')

2.3.4、word embedding

什么是word embedding（词嵌入）
- 通过一定的方式将词汇映射到指定维度（一般是更高维度）的空间
- 广义的word embedding 包括所有的密集词汇向量的表示方法，如word2vec，即可认为是word embedding的一种
- 狭义的word embedding 是指在神经网络中加入的embedding层，对整个网络进行训练的同时产生的embedding矩阵，这个矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵

# 导入torch和tensorboard
import fileinput
import torch
from torch.utils.tensorboard import SummaryWriter

# 实例化一个写入对象
writer = SummaryWriter()

# 随机初始化一个100 * 50 的矩阵
embedded = torch.randn(100, 50)

# 导入中文词汇文件
meta = list(map(lambda x: x.strip(), fileinput.FileInput("./vocab100.csv")))
writer.add_embedding(embedded, metadata=meta)
writer.close()

2.4、文本数据分析

2.4.1、文本数据分析简介

文本数据分析的作用
- 文本数据分析能够有效帮助我们理解数据语料，快速检查出语料可能存在的问题，并指导之后模型训练过程中一些超参数的选择
常用几种文本数据分析方法
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云

2.4.2、标签数量分布

在深度学习模型评估中，我们一般使用ACC作为评估指标，若想将ACC的基线定义在50%左右，则需要我们的正负样本比例维持在1：1左右，否则就要进行必要的数据增强或者数据删减

  #%%
  # 文本数据分析之文本标签分布
  #%%
  # 导入包
  import seaborn as sns
  import pandas as pd
  import matplotlib.pyplot as plt
  #%%
  # 设置显示风格
  plt.style.use('fivethirtyeight')
  #%%
  # 使用pandas读取数据
  train_data = pd.read_csv('./cn_data/train.tsv', sep="\t")
  #%%
  train_data
  #%%
  # 获取训练数据标签数量分布
  sns.countplot(x='label', data=train_data)
  plt.title('train_data')
  plt.show()
  #%%

2.4.3、句子长度分布

通过绘制句子长度分布图，可以得知我们的语料中大部分句子长度的分布范围，因为模型的输入要求为固定尺寸的张量，合理的长度范围对之后进行句子截断补齐(规范长度)起到关键的指导作用，上图中大部分句子长度的范围大致为20~250之间

#%%
# 文本数据分析之句子长度分布
#%%
train_data['sentence_length'] = list(map(lambda x: len(x), train_data['sentence']))
#%%
train_data
#%%
# 绘制句子长度列的数量分布图
#%%
sns.countplot(x="sentence_length", data=train_data)
plt.xticks([])
plt.show()
#%%
# 绘制dist长度分布图
sns.displot(train_data['sentence_length'])
plt.xticks([])
plt.show()
#%%

通过查看正负样本长度散点图，可以有效定位异常点的出现位置，帮助我们更准确的进行人工语料审查
```
# 句子长度正负样本散点图分布绘制
sns.stripplot(y="sentence_length", x='label', data=train_data)
plt.show()
```

2.4.4、词频统计与关键词词云

词汇总数统计

#%%
# 文本数据分析之词汇总数统计
# 导入jieba分词
import jieba
# 导入chain方法用于扁平化列表
from itertools import chain
#%%
# 对训练集句子进行分词
train_vocab = set(chain(*map(lambda x: jieba.lcut(x), train_data['sentence'])))
#%%
train_vocab
#%%
print("词汇总数为：", len(train_vocab))

根据高频形容词词云显示，我们可以对当前语料质量进行简单评估，同时对违反语料标签含义的词汇进行人工审查和修正，来保证绝大多数语料符合训练标准

#%%
# 文本数据分析之正负样本高频形容词词云绘制
#%%
# 导入jieba分词的词性标注
import jieba.posseg as pseg
#%%
# 获取形容词列表方法
def get_a_list(text):
    """
    获取形容词列表
    :param text:
    :return:
    """
    r = []
    for g in pseg.lcut(text):
        if g.flag == 'a':
            r.append(g.word)
    return r
#%%
# 导入绘制词云的工具包
from wordcloud import WordCloud
#%%
def get_word_cloud(keywords_list):
    """
    绘制词云
    :param keywords_list:
    :return:
    """
    wordcloud = WordCloud(font_path='./NotoSansCJK-Bold.ttc', max_words=100, background_color='white')
    keywords_string = " ".join(keywords_list)
    # 生成词云
    wordcloud.generate(keywords_string)

    # 绘制图像
    plt.figure()
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()

#%%
# 获取正样本
p_train_data = train_data[train_data['label'] == 1]['sentence']
#%%
p_train_data
#%%
# 获取正样本形容词
train_p_a_vocab = chain(*map(lambda x:get_a_list(x), p_train_data))
# 绘制词云
get_word_cloud(train_p_a_vocab)

2.5、文本特征处理

2.5.1、文本特征处理简介

文本特征处理的作用
- 文本特征处理包括为语料添加具有普适性的文本特征，如n-gram特征，以及对加入特征之后的文本语料进行必要的处理，如长度规范，这些特征处理工作能够有效的将重要的文本特征加入模型训练中，增强模型评估指标
常见的文本特征处理方法
- 添加n-gram特征
- 文本长度规范

2.5.2、n-gram特征

什么是n-gram特征
- 给定一段文本序列，其中n个词或字的相邻共现特征即n-gram特征，常用的n-gram特征是bi-gram和tri-gram特征，n对应2,3

提取方法

#%%
# 文本特征处理之n-gram特征提取
#%%
def create_ngram_set(input_list, ngram_range):
    """
    从数值列表中提取n-gram特征
    :param input_list: 数值列表
    :param ngram_range: n
    :return:
    """
    return set(zip(*[input_list[i:] for i in range(ngram_range)]))
#%%
# 测试
input_list = [1, 3, 2, 1, 5, 3]
res = create_ngram_set(input_list, 2)
print(res)

2.5.3、文本长度规范

文本长度规范及其作用
- 一般模型的输入需要等尺寸大小的矩阵，因此在进入模型前需要对每条文本数值映射后的长度进行规范，此时将根据句子长度分布分析出覆盖绝大多数文本的合理长度，对超长文本进行截断，对不足文本进行补齐（一般使用数字0），这个过程就是文本长度规范
文本长度规范的实现

from keras.preprocessing import sequence
def padding(x_train, cutlen):
    """
    对输入文本张量进行长度规范
    :param x_train:
    :param cutlen:
    :return:
    """
    return sequence.pad_sequences(x_train, cutlen)
x_train = [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], [1, 2, 3, 4, 5]]
res = padding(x_train, 10)
print(res)

datas = []
    for i in batch_data['text']:
        data = text_pipeline(i)
        if len(data) > 70:
            data = data[len(data) - 70:]
        elif len(data) < 70:
            data = [0 for i in range(70 - len(data))] + data
        datas.append(data)
    return datas

2.6、文本数据增强

2.6.1、文本数据增强的作用

常见的文本数据增强方法
- 回译数据增强法

2.6.2、回译数据增强

什么是回译数据增强法
- 回译数据增强目前是文本数据增强方面效果较好的增强方法，一般基于google翻译接口，将文本数据翻译成另外一种语言（一般选择小语种），之后再翻译回原语言，即可认为得到与原语料同标签的新语料，新语料加入到原数据集中即可认为是对原数据集数据增强
回译数据增强优势
- 操作简便，获得新语料质量高
回译数据增强存在的问题
- 在短文本回译过程中，新语料与原语料可能存在很高的重复率，并不能有效增大样本的特征空间
高重复率解决办法
- 进行连续的多语言翻译，如中文->韩文->日文->中文，根据经验，最多只采用3次连续翻译，更多的翻译次数将产生效率低下，语义失真等问题

代码实现

#%%
# 文本数据增强之回译数据增强法
#%%
datas = ['酒店设施非常不错','这家价格很便宜','拖鞋都发霉了，太差了','电视不好用，没有看到足球']
#%%
# 导入google翻译接口
from googletrans import Translator
#%%
# 实例化翻译对象
proxies = {'http': '127.0.0.1:10809'}
translator = Translator()
#%%
# 进行翻译，目标韩语
translations = translator.translate(datas,dest='ko')
#%%
# 获取翻译后的结果
ko_res = list(map(lambda  x: x.text, translations))
print("中间翻译结果：", ko_res)
#%%
# 翻译回中文
translations = translator.translate(ko_res, dest='zh-cn')
cn_res = list(map(lambda x:x.text, translations))
print("回译结果：", cn_res)

2.7、案例：新闻主题分类任务

获取新闻数据集合

实现步骤

构建带有Embedding层的文本分类模型

class TextSentiment(nn.Module):
    """
    文本分类模型
    """

    def __init__(self, vocab_size, embed_dim, num_class):
        """
        初始化
        :param vocab_size: 语料包含的不同词汇总数
        :param embed_dim: 指定词嵌入的维度
        :param num_class: 文本分类的类别总数
        """
        super().__init__()
        # 实例化embedding层
        self.embedding = nn.Embedding(vocab_size, embed_dim, sparse=True)
        # 线性层
        self.fc = nn.Linear(embed_dim, num_class)
        # 初始化权重
        self.init_weights()

    def init_weights(self):
        """初始化权重函数"""
        # 初始权重取值范围
        initrange = 0.5
        self.embedding.weight.data.uniform_(-initrange, initrange)
        self.fc.weight.data.uniform_(-initrange, initrange)
        # 偏置
        self.fc.bias.data.zero_()

    def forward(self, text):
        """
        构建网络
        :param text: 文本数值映射后的结果
        :return:
        """
        embedded = self.embedding(text)
        # 计算数据包含几组数据c
        c = embedded.size(0) // BATCH_SIZE
        # 去除不够c的数据
        embedded = embedded[:BATCH_SIZE * c]
        # 转置，增加维度
        embedded = embedded.transpose(1, 0).unsqueeze(0)
        # 平均池化
        embedded = F.avg_pool1d(embedded, kernel_size=c)
        # 返回全连接
        return self.fc(embedded[0].transpose(1, 0))

对数据进行batch处理

def generate_batch(batch):
    """
    数据批量处理
    :param batch:
    :return:
    """
    # 从batch中获取标签张量
    label = torch.tensor([i[1] for i in batch])
    # 获取样本张量
    text = [i[0] for i in batch]
    text = torch.cat(text)
    return text, label

构建训练与验证函数

def train(train_data_set):
    """
    模型训练方法
    :param train_data_set: 训练集数据
    :return:
    """
    # 初始化损失值和准确率
    train_loss = 0
    train_acc = 0

    # 生成批次数据
    data = DataLoader(train_data_set, batch_size=BATCH_SIZE, shuffle=True, collate_fn=generate_batch)

    # 遍历批次训练数据
    for i, (text, cls) in enumerate(data):
        # 梯度归零
        optimizer.zero_grad()
        # 获取模型输出
        output = model(text)
        # 计算损失
        loss = criterion(output, cls)
        # 累计损失
        train_loss += loss.item()
        # 反向传播
        loss.backward()
        # 参数更新
        optimizer.step()
        # 累计准确率
        train_acc += (output.argmax(1) == cls).sum().item()

    # 调整优化器学习率
    scheduler.step()

    return train_loss / len(train_data), train_acc / len(train_data)


def valid(valid_data):
    """
    模型验证方法
    :param valid_data: 验证集数据
    :return:
    """
    test_loss = 0
    test_acc = 0

    data = DataLoader(valid_data, batch_size=BATCH_SIZE, collate_fn=generate_batch)

    for text, cls in data:
        # 验证阶段不求解梯度
        with torch.no_grad():
            # 模型输出
            output = model(text)
            # 计算损失
            loss = criterion(output, cls)
            # 累计损失
            test_loss += loss.item()
            test_acc += (output.argmax(1) == cls).sum().item()
    return test_loss / len(valid_data), test_acc / len(valid_data)

进行模型训练和验证


def run():
    """
    开始训练
    :return:
    """
    # 训练轮次
    N_EPOCHS = 10

    # 训练集数据进行转换成数值张量
    train_data_value = [(torch.tensor(text_pipeline(i['text'])), label_pipline(i['label'])) for i in train_data.iloc]

    # 划分训练集和验证集数据
    train_len = int(len(train_data) * 0.95)
    sub_train_, sub_valid_ = random_split(train_data_value, [train_len, len(train_data) - train_len])

    # 开始训练
    for epoch in range(N_EPOCHS):
        # 开始时间
        start_time = time.time()
        # 训练
        train_loss, train_acc = train(sub_train_)
        valid_loss, valid_acc = valid(sub_valid_)

        # 计算耗时
        secs = int(time.time() - start_time)
        mins = secs / 60
        secs = secs % 60

        print('EPoch: %d' % (epoch + 1), " | time in %d minutes, %d seconds" % (mins, secs))
        print(f'\tLoss: {train_loss:.4f}(train)\t|\tAcc:{train_acc * 100:.1f}%(train)')
        print(f'\tLoss: {valid_loss:.4f}(valid)\t|\tAcc:{valid_acc * 100:.1f}%(valid)')

查看embedding层嵌入的词向量

print(model.state_dict()['embedding.weight'])

完整代码

# 导入工具包
import torch
import torch.nn as nn
import torch.nn.functional as F
# 分词器
from torchtext.data.utils import get_tokenizer
# 词汇表构建方法
from torchtext.vocab import build_vocab_from_iterator
from torch.utils.data import DataLoader
import time
from torch.utils.data.dataset import random_split
import pandas as pd

# 执行设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


def load_data():
    """
    加载数据
    :return:
    """
    train_data_frame = pd.read_csv('/home/pizm/project/py_pro/news_classify/data/train.csv',
                                   names=['label', 'title', 'content'])
    # 合并标题和内容
    train_data_frame['text'] = train_data_frame['title'] + " " + train_data_frame['content']
    train_data_frame = train_data_frame[['label', 'text']]
    return train_data_frame


# 训练集数据
train_data = load_data()

# 数据数值化
text_pipeline = lambda x: vocab(tokenizer(x))
label_pipline = lambda x: int(x) - 1

# 使用英文分词器
tokenizer = get_tokenizer('basic_english')


def yield_tokens(data_iter):
    """分词生成器"""
    for text in data_iter:
        yield tokenizer(text)


# 词汇表
vocab = build_vocab_from_iterator(yield_tokens(train_data['text']), specials=[''])
vocab.set_default_index(vocab[""])


class TextSentiment(nn.Module):
    """
    文本分类模型
    """

    def __init__(self, vocab_size, embed_dim, num_class):
        """
        初始化
        :param vocab_size: 语料包含的不同词汇总数
        :param embed_dim: 指定词嵌入的维度
        :param num_class: 文本分类的类别总数
        """
        super().__init__()
        # 实例化embedding层
        self.embedding = nn.Embedding(vocab_size, embed_dim, sparse=True)
        # 线性层
        self.fc = nn.Linear(embed_dim, num_class)
        # 初始化权重
        self.init_weights()

    def init_weights(self):
        """初始化权重函数"""
        # 初始权重取值范围
        initrange = 0.5
        self.embedding.weight.data.uniform_(-initrange, initrange)
        self.fc.weight.data.uniform_(-initrange, initrange)
        # 偏置
        self.fc.bias.data.zero_()

    def forward(self, text):
        """
        构建网络
        :param text: 文本数值映射后的结果
        :return:
        """
        embedded = self.embedding(text)
        # 计算数据包含几组数据c
        c = embedded.size(0) // BATCH_SIZE
        # 去除不够c的数据
        embedded = embedded[:BATCH_SIZE * c]
        # 转置，增加维度
        embedded = embedded.transpose(1, 0).unsqueeze(0)
        # 平均池化
        embedded = F.avg_pool1d(embedded, kernel_size=c)
        # 返回全连接
        return self.fc(embedded[0].transpose(1, 0))


def get_a_model():
    """
    实例化模型
    :return:
    """
    # 获得语料词汇总数
    VOCAB_SIZE = len(vocab)
    # 词嵌入维度
    EMBED_DIM = 32
    # 获得类别总数
    NUN_CLASS = len(set(train_data['label']))
    # 实例化模型
    return TextSentiment(VOCAB_SIZE, EMBED_DIM, NUN_CLASS).to(device)


# 模型实例化
model = get_a_model()

# 指定BATCH_SIZE的大小
BATCH_SIZE = 16
# 损失函数
criterion = torch.nn.CrossEntropyLoss().to(device)
# 优化器
optimizer = torch.optim.SGD(model.parameters(), lr=4.0)
# 优化器步长调节器
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1, gamma=0.9)


def generate_batch(batch):
    """
    数据批量处理
    :param batch:
    :return:
    """
    # 从batch中获取标签张量
    label = torch.tensor([i[1] for i in batch])
    # 获取样本张量
    text = [i[0] for i in batch]
    text = torch.cat(text)
    return text, label


def train(train_data_set):
    """
    模型训练方法
    :param train_data_set: 训练集数据
    :return:
    """
    # 初始化损失值和准确率
    train_loss = 0
    train_acc = 0

    # 生成批次数据
    data = DataLoader(train_data_set, batch_size=BATCH_SIZE, shuffle=True, collate_fn=generate_batch)

    # 遍历批次训练数据
    for i, (text, cls) in enumerate(data):
        # 梯度归零
        optimizer.zero_grad()
        # 获取模型输出
        output = model(text)
        # 计算损失
        loss = criterion(output, cls)
        # 累计损失
        train_loss += loss.item()
        # 反向传播
        loss.backward()
        # 参数更新
        optimizer.step()
        # 累计准确率
        train_acc += (output.argmax(1) == cls).sum().item()

    # 调整优化器学习率
    scheduler.step()

    return train_loss / len(train_data), train_acc / len(train_data)


def valid(valid_data):
    """
    模型验证方法
    :param valid_data: 验证集数据
    :return:
    """
    test_loss = 0
    test_acc = 0

    data = DataLoader(valid_data, batch_size=BATCH_SIZE, collate_fn=generate_batch)

    for text, cls in data:
        # 验证阶段不求解梯度
        with torch.no_grad():
            # 模型输出
            output = model(text)
            # 计算损失
            loss = criterion(output, cls)
            # 累计损失
            test_loss += loss.item()
            test_acc += (output.argmax(1) == cls).sum().item()
    return test_loss / len(valid_data), test_acc / len(valid_data)


def run():
    """
    开始训练
    :return:
    """
    # 训练轮次
    N_EPOCHS = 10

    # 训练集数据进行转换成数值张量
    train_data_value = [(torch.tensor(text_pipeline(i['text'])), label_pipline(i['label'])) for i in train_data.iloc]

    # 划分训练集和验证集数据
    train_len = int(len(train_data) * 0.95)
    sub_train_, sub_valid_ = random_split(train_data_value, [train_len, len(train_data) - train_len])

    # 开始训练
    for epoch in range(N_EPOCHS):
        # 开始时间
        start_time = time.time()
        # 训练
        train_loss, train_acc = train(sub_train_)
        valid_loss, valid_acc = valid(sub_valid_)

        # 计算耗时
        secs = int(time.time() - start_time)
        mins = secs / 60
        secs = secs % 60

        print('EPoch: %d' % (epoch + 1), " | time in %d minutes, %d seconds" % (mins, secs))
        print(f'\tLoss: {train_loss:.4f}(train)\t|\tAcc:{train_acc * 100:.1f}%(train)')
        print(f'\tLoss: {valid_loss:.4f}(valid)\t|\tAcc:{valid_acc * 100:.1f}%(valid)')


if __name__ == '__main__':
    run()
    print(model.state_dict()['embedding.weight'])

你可能感兴趣的:(python,自然语言处理,学习,人工智能)

智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
2019-01-11 Anne玉
姓名：周玉霞六项精进：327期反省二组公司：浙江意威服饰【日精进打卡第424天】【知~学习】《六项精进》0遍共451遍《六项精进》通篇共18遍《大学》1遍共506遍《静思语》0遍共109遍【经典名句分享】至乐莫如读书至要莫如教子【行~实践】一、修身：喝红糖水、蜂蜜水，好好喝药二、齐家：家和万事兴，扫地三、建功：督促、辅导孩子写作业｛积善｝：每天行善，做善事不分大小；【省～觉悟】1.爱出者爱返，福往
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
python 循环结构(for-in) 编程小僧 python基础
循环结构(for-in)说明：也是循环结构的一种，经常用于遍历字符串、列表，元组，字典等格式：forxiny:循环体执行流程：x依次表示y中的一个元素，遍历完所有元素循环结束示例1：遍历字符串s='Iloveyoumorethanicansay'foriins:print(i)示例2：遍历列表l=['鹅鹅鹅','曲项向天歌','锄禾日当午','春种一粒粟']foriinl:print(i)#可以
IM即时通讯源码/im源码基于uniapp框架从0开始设计搭建在线聊天系统宠友信息 uni-app mysql spring boot java 小程序
文章目录前言一、确定技术栈二、数据库设计：1.引入库2.使用SpringBoot创建后端项目3.实现WebSocket通信：3.1创建WebSocket配置类：3.2创建ChatWebSocketHandler类：3.3前端WebSocket连接与通信：总结前言随着人社交产品的不断发展，即时通讯聊天这门技术也越来越重要，很多人都开启了学习通讯技术，本文就介绍了即时通讯的基础内容。一、确定技术栈在开
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
中原焦点团队第29期第75天分享20211010 简单蜗行
看见不一样，才能做到不一样。“横看成岭侧成峰。”每件事情从不同的角度看，所见到的面也就不一样。这也是学习有魅力之处，让我们见到了自己没有想到的点，看到了事情的另一个面。越学习，认知越开阔，做事的弹性也会越大。今日听课的新认知：当一个人对周围的人挑剔的时候，一定是对他自己最不满意的时候，所以才会向外挑剔。当一个人受挫自卑的时候，他才会退行到孩子的状态。连要求都不敢向孩子提的家长，是家长的失职。拒绝孩
有所思之干货vs水货勤劳的farmer
许久没有开始敲钱盘写写自己最近的心得和感悟啦！刚好这两天的感悟蛮多的，所以写写。最近高能的冼姐邀请我加入南宁演讲群，一起成长学习，期间也单独找我聊着，鼓励我去霸占舞台，突破自我！在群里看到群友对冼姐的称呼是“冼主席”，还有每次冼姐发的活动文案感觉每次都是非常的用心的表达自己，帮助别人！能量超级强！只讲重点！！也讲到了会拖着我前进，期间给我说了一句话让我印象深刻：“人生不疯几次，怎么能做的了大事呢？
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Python for循环 dengdieli5313 python
Pythonfor循环可以遍历任何序列的项目，如一个列表或者一个字符串。for循环的语法结构如下：foriterating_varinsequence:statements(s)最简单的形式如下，循环10次。1foriinrange(10):2print("loop:",i)输出为1loop:02loop:13loop:24loop:35loop:46loop:57loop:68loop:79lo
2019-02-20简单记录请叫我王青羽
近一周过得很充实，带娃去园博苑，见了朋友，学习培训，孩子开始新学期的学习，时间紧迫而充实；01.园博苑周六带去园博苑，我来厦门十年也是第一次到园博苑游览（我本是个不爱出门的人），走走停停，看看植物观察建筑；从南门走到北门，从早上十点到下午两点，中间休息几次吃个午饭，柳小宝基本全程自己走；跟他的小玩具合影身处自然的环境中让人身心舒畅，惊觉自己对自然.建筑.历史了解太少，没法跟孩子做更多的延展，只能挑
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
python的for-in循环小白L. 入门 python numpy 开发语言
‘’‘for-in循环in表达从（字符串序列）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象for-in的语法结构for自定义的变量in可迭代对象:循环体循环体内不需要访问自定义变量，可以将自定义变量替代为下划线’‘’#第一次取出来的是P，将P赋值item，将item的值输出foritemin'python':print(item)#range（）产生一个整数序列，–》也是一个可迭代
【记录】2017.7-2018.7复盘杨帆_c4ea
keene草莓杨2017目标：踏入直销行业（有平台发展快且好）营养讲师（热爱营养学）有自己的团队一起拼搏（让更多人了解营养知识拥有保健意识实现财务自由荣誉感）一年期间我想要关于职业和学习上面的提升想要生活上自己保障自己@职业（一年期间）汤臣倍健1.能门诊顾客（了解保健品中药西药人体解剖学）2.能拿起话筒（每天天看小汤网络讲师课程学习技巧有上台机会一定要上丢人没事经历一场是财富）3.情商与逻辑思维能
2022-6-29晨间日记 645e2ce505ed
今天是什么日子：今天是6月29日起床：5点50分就寝：22点天气：雨心情：好纪念日：叫我起床的不是闹钟是梦想年度目标及关键点：在头条突破千粉。本月重要成果：今日三只青蛙/番茄钟成功日志-记录三五件有收获的事务一、每天写一篇日记。二、听书学习，了解中国文化历史背景。三、运动锻炼。财务检视人际的投入曾子曰：“吾日三省吾身，为人谋而不忠乎？与朋友交而不信乎？传不习乎？”能够以曾子的为人处事方式为座右铭，
Python-for-in循环難釋懷 python windows 服务器
一、前言在Python编程中，循环结构（LoopStructure）是程序控制流的重要组成部分。其中，for...in循环是Python中最常用、最简洁的迭代工具之一。与传统的C风格语言中的for不同，Python的for...in循环专门用于遍历可迭代对象（Iterable），如列表、元组、字符串、字典、集合，甚至是生成器等。本文将带你深入了解：for...in循环的基本语法；如何高效地遍历各种
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
linux如何使用jstack分析线程状态 ycllycll linux
在高并发，多线程环境下的java程序经常需要分析线程状态，本本是一个分析步骤无具体讲解（具体命令可自行google学习）一般流程：1.使用jps-l查看有哪些java程序在运行2.使用top查看步骤1中进程号（pid或者vmid）所占用cpu以及内存情况（或者省略步骤1）3.使用top-Hppid查看具体该pid下各个线程所占用的cpu情况（进程下的线程有一个nid，后面需要用到）4.使用jsta
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
2019-02-07 我心依旧_79e2
【六项精进打卡】2019.2.7日姓名：陈岗企业名称：上海孚因流体动力设备股份有限公司打卡第289天【知~学习】《六项精进》3遍,共738遍《大学》1遍，共580遍【经典名言名句分享》富贵不淫贫贱乐，男儿到此是豪雄。修身：（对自己个人）有理想的地方，地狱就是天堂，有希望的地方，痛苦也成快乐。1每天坚持诵读《六项精进》和《大学》。2学会宽恕他人，同时从错误中吸取教训。3每天中午睡十五分钟。二、齐家：
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
深圳从心开始365心理咨询顾问深圳从心开始心理咨询
365心理顾问是什么？“365心理顾问”以“幸福人生，从心开始”为宗旨，依托香港、内陆两地优秀心理学师资队伍（1000余名执业心理咨询师），针对团体和个人常见的个性发展和人格完善、生活学习及职业发展、婚恋及家庭关系的处理、亲子教育、人际交往、情绪调节等主题开发出一套完备的心理支持系统，为团体及个体的心理建设提供一整套优秀的解决方案，为用户的心理成长提供全方位的支持。365心理顾问费用？365心理顾
相见恨晚田家浪子
“你有一张陌生的脸，到今天才看见……”彭佳慧还不甚出名的时候，我就知道了她。那个时候，我迷恋的是路绮欧，一个YY的主播。后来，彭佳慧真的火了起来，特别是那首《走在红毯那一天》。只是，在那个时候，我就再也不敢听彭佳慧的《相见恨晚》这首歌了。最开始接触这首歌的时候，是因为一个女孩，一个最熟悉却又最陌生的女人。那年大二，正是精力无限，美好的光阴不知道怎么去消磨的时节。除了学习之外，男孩子发泄精力的方式，
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
使用Python进行文件属性修改 python自动化工具 python办公自动化 python 服务器 java
哈喽，大家好，我是木头左！在计算机中，文件属性是指与文件相关的元数据，如创建时间、修改时间、访问时间等。这些属性对于管理和组织文件非常重要。Python提供了一些内置的函数和方法，可以方便地修改文件的属性。本文将介绍如何使用Python进行文件属性的修改。1.获取文件属性需要使用os模块中的stat()函数来获取文件的属性。该函数返回一个包含文件属性的命名元组。以下是一个简单的示例：importo
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f