Lanciberrr

自然语言处理入门——文本预处理

自然语言处理入门

内容大纲：
- 文本预处理
- 经典序列模型
- RNN及其变体
- Transformer
- 迁移学习

文本预处理

认识文本预处理

作用：文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入要求，如将文本转换成模型需要的张量、规范张量的尺寸等。而且科学的文本预处理环节还将有效知道模型超参数的选择，提高模型的评估指标。
文本预处理中包含的主要环节：
- 文本处理的基本方法
  - 分词
  - 词性标注
  - 命名实体识别
- 文本张量表示方法
  - one-hot编码
  - Word2vec
  - Word Embedding
- 文本语料的数据分析
  - 标签数量分布
  - 句子长度分布
  - 词频统计与关键词词云
- 文本特征处理
  - 添加n-gram特征
  - 文本长度规范
- 数据增强方法
  - 回译数据增强法

文本处理的基本方法

分词，指将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程。

流行中文分词工具jieba

import jieba

content = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'
# 精确切割模式
jieba.cut(content, cut_all = False)
print(jieba.lcut(content, cut_all = False))

['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

精确切割模式就是将语句切割成我们最习惯的词。全模式分词将句子中所有的可以成词的词语都扫描出来，速度非常快但不能消除歧义。搜索引擎模式分词是在精确模式的基础上对长词再次切分，提高召回率，适合用于搜索引擎分词。

# 全模式分词
jieba.cut(content, cut_all = True)
print(jieba.lcut(content, cut_all = True))

#结果很“危险”，不予展示


# 搜索引擎模式
jieba.cut_for_search(content)
print(jieba.lcut_for_search(content))

['工信处', '干事', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换', '换机', '交换机', '等', '技术', '技术性', '器件', '的', '安装', '工作']

使用用户自定义词典：
- jieba会准确识别词典中的词汇，提高整体识别准确度。
- 词典格式：每一行三部分，词语、词频（可省）、词性（可省），用空格隔开。
将下面词典存为userdict.txt，并加载使用：

print(jieba.lcut('八一双鹿更名为八一南昌篮球队！'))
jieba.load_userdict('./userdict.txt')
print(jieba.lcut('八一双鹿更名为八一南昌篮球队！'))

['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队', '！']
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队', '！']

流行中英文分词工具hanlp

中英文NLP处理工具包，基于tensorflow2.0

词性标注

使用jieba进行中文实体标注

import jieba.posseg as pseg
print(pseg.lcut('我爱北京天安门'))

[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]

文本张量表示方法

文本张量表示方法：
- one-hot编码
- Word2vec
- Word Embedding

one-hot编码

又称独热编码，将每个词表示成具有n个元素的向量。这个词向量中只有一个元素是1，其他元素都是0，不同词汇元素0的位置不同，其中n的大小是整个语料中不同词汇的总数。

# 导入用于对象保存和加载的joblib
import joblib
# 导入keras中词汇映射器Tokenizer
from tensorflow.keras.preprocessing.text import Tokenizer
# 假定vocab为语料集中所有不同词汇集合
vocab = {'李克勤', '李荣浩', '廖昌永', '汪峰'}
# 实例化一个词汇映射器对象
t = Tokenizer(num_words=None, char_level=False)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocab)

for token in vocab:
    zero_list = [0] * len(vocab)
    # 使用映射器转化现有文本数据，每个词汇对应从1开始的自然数
    # 返回样式如：[[2]]，取出其中的数字需要使用[0][0]
    token_index = t.texts_to_sequences([token])[0][0] - 1
    zero_list[token_index] = 1
    print(token, "的one-hot编码为：", zero_list)
    
# 使用joblib工具保存映射器，以便之后使用
tokenizer_path = './Tokenizer'
joblib.dump(t, tokenizer_path)


廖昌永 的one-hot编码为： [1, 0, 0, 0]
李克勤 的one-hot编码为： [0, 1, 0, 0]
汪峰 的one-hot编码为： [0, 0, 1, 0]
李荣浩 的one-hot编码为： [0, 0, 0, 1]

使用one-hot编码

t = joblib.load(tokenizer_path)
token = '李克勤'
# 从词汇映射器中得到其index
token_index = t.texts_to_sequences([token])[0][0] - 1
# 初始化一个全零向量
zero_list = [0] * 4
zero_list[token_index] = 1
print(token, '的one-hot编码为：', zero_list)


李克勤 的one-hot编码为： [0, 1, 0, 0]

使用one-hot编码的优劣势：
- 优势：操作简单、容易理解
- 劣势：完全割裂了词与词之间的联系，且在大语料集情况下，每个向量长度过大，占据大量内存。

word2vec编码

是一种流行的将词汇表示成向量的无监督训练方法，该过程将构建神经网络模型，将网络参数作为词汇的向量表示，它包含CBOW和skipgram两种训练模式
CBOW（Continuous bag of words）模式：给定一段用于训练的文本预料，再选定某段长度（窗口）为研究对象，使用上下文词汇预测目标词汇。通俗来讲就是周围的词预测中间的词。
skipgram模式：给定一段用于训练的文本语料，再选定某段长度（窗口）作为研究对象，使用目标词汇预测上下文词汇。skipgram模式和CBOW模式刚好反过来。
使用fasttext包中的无监督训练方法train_unsupervised('data\enwik9data')：

import fasttext
model = fasttext.train_unsupervised('data\enwik9data')


Read 124M words
Number of words:  218316
Number of labels: 0
Progress:   1.8% words/sec/thread:   11116 lr:  0.049106 loss:  1.586364 ETA:   2h10m

这些参数都是波动的，thread指线程数，lr指学习率，使用自适应的Adam优化器，loss指平均损失
模型超参数的设定：
- 无监督训练模式：‘skipgram’或者’cbow’，默认为’skipgram’，在实践中，skipgram模式在利用子词方面比cbow更好
- 词嵌入维度dim：默认为100，但随着语料库的增大，词嵌入的维度往往也需要增大
- 数据循环次数epoch：默认为5，但当数据集足够大可能不需要那么多次。
- 学习率lr：默认为0.05，根据经验建议选择[0.01, 1]范围内。
- 使用的线程数thread：默认为12个线程，一般建议和CPU核数相同。
模型训练之后可以通过查找邻近词的方法来验证模型

print(model.get_nearest_neighbors('music'))
print(model.get_nearest_neighbors('sports'))
print(model.get_nearest_neighbors('dog'))

模型的保存和加载

# 使用svae_model保存模型
model.save_model('fil9.bin')

# 使用fasttext.load_model加载模型
model = fasttext.load_model('fil9.bin')
model.get_word_vector('the')

word embedding

通过一定方式将词汇映射到指定维度（一般是更高维度）的空间
广义的word embedding包括所有密集词汇向量的表示方法，如之前学习的word2vec，即可以认为是word embedding的一种
狭义的word embedding是指在神经网络中加入的embedding层，对整个网络进行训练的同时产生的embedding矩阵（embedding层的参数），这个embedding矩阵就是训练过程中所有输入词汇向量表示的矩阵。
通过使用tensorboard可视化嵌入的词向量

# 导入torch和tensorboard的摘要写入方法
import torch
import fileinput
from torch.utils.tensorboard import SummaryWriter

# 实例化一个摘要写入对象
writer = SummaryWriter()

# 随机初始化一个100×50的矩阵，认为他是我们已经得到的词嵌入矩阵
# 代表一百个词汇，每个词汇被表示成五十维的向量
embedded = torch.randn(100, 50)

# 导入事先准备好的100个中文词汇文件，形成meta列表原始词汇
meta = list(map(lambda x: x.strip(), fileinput.input('./vocab100.csv')))
writer.add_embedding(embedded, metadata = meta)
writer.close()

文本数据分析

文本数据分析能够有效帮助我们理解数据语料，快速检查出预料可能存在的问题，并指导之后模型训练过程中一些超参数的选择。
常用文本数据分析方法
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
利用真实的二分类中文情感分析语料：某酒店的客户评价。1代表积极评价，0代表消极评价。
获取标签数量分布:

# 使用二分类中文情感分析语料
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

# 设置显示风格
plt.style.use('fivethirtyeight')

# 分别读取训练tsv和验证tsv
train_data = pd.read_csv('./cn_data/train.tsv', sep='\t')
valid_data = pd.read_csv('./cn_data/dev.tsv', sep='\t')

# 获取训练数据标签数量分布
sns.countplot('label', data=train_data)
plt.title('train_data')
plt.show()

# 获取验证数据标签数量分布
sns.countplot('label', data=valid_data)
plt.title('valid_data')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vr4Oxwb1-1634973828830)(C:\Users\Lancibe\Desktop\train_data.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jmQ3nTa4-1634973828835)(C:\Users\Lancibe\Desktop\valid_data.png)]

在深度学习模型评估中，一般使用ACC作为评估指标，若想将ACC的基线定义在50%左右，则需要我们的正负样本比例维持在1:1左右，否则就要进行必要的数据增强或数据删减。上图中训练集和验证集正负样本都稍有不均衡，可以进行数据增强。
下面是句子长度分布代码

train_data['sentence_length'] = list(map(lambda x:len(x), train_data['sentence']))
sns.countplot('sentence_length', data=train_data)
plt.xticks([])
plt.show()

sns.distplot(train_data['sentence_length'])
plt.yticks([])
plt.show()

valid_data['sentence_length'] = list(map(lambda x:len(x), valid_data['sentence']))
sns.countplot('sentence_length', data=valid_data)
plt.xticks([])
plt.show()

sns.distplot(valid_data['sentence_length'])
plt.yticks([])
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JHrrHPS1-1634973828839)(C:\Users\Lancibe\Desktop\train.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UkCGKQ2S-1634973828842)(C:\Users\Lancibe\Desktop\train_density.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NbsO6eoz-1634973828844)(C:\Users\Lancibe\Desktop\valid.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fbl7NNvF-1634973828846)(C:\Users\Lancibe\Desktop\valid_density.png)]

通过分析句子长度分布，可以得知语料中大部分句子长度的分布范围，因为模型的输入要求为固定尺寸的张量，合理的尺寸范围对之后进行句子截断补齐起到关键的指导性作用。
获取训练集和验证集的正负样本长度散点分布：

sns.stripplot(y = 'sentence_length', x='label', data=train_data)
plt.show()

sns.stripplot(y = 'sentence_length', x='label', data=valid_data)
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FklF7g1l-1634973828847)(C:\Users\Lancibe\Desktop\train_strip.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-03uYTKJT-1634973828848)(C:\Users\Lancibe\Desktop\valid_strip.png)]

获得训练集与验证集不同词汇总数的统计：

import jieba
from itertools import chain # 用于扁平化列表

# 进行训练集的句子进行分词，并统计出不同词汇总数
train_vocab = set(chain(*map(lambda x:jieba.lcut(x), train_data['sentence'])))
print('训练集共包含不同词汇总数为：', len(train_vocab))

valid_vocab = set(chain(*map(lambda x:jieba.lcut(x), valid_data['sentence'])))
print('验证集共包含不同词汇总数为：', len(valid_vocab))


训练集共包含不同词汇总数为： 12162
验证集共包含不同词汇总数为： 6857

获得训练集上正负样本的高频形容词词云：

# 使用jieba词性标注功能
import jieba.posseg as pseg
from itertools import chain

def get_a_list(text):
    # 获取形容词列表
    r = []
    for g in pseg.lcut(text):
        if g.flag =='a':
            r.append(g.word)
    return r

# 导入绘制词云的工具包
from wordcloud import WordCloud

def get_word_cloud(keywords_list):
    # 实例化绘制词云的类
    wordcloud = WordCloud(font_path='SimHei.ttf', max_words = 100, background_color='white')
    keywords_string = ' '.join(keywords_list)
    # 生成词云
    wordcloud.generate(keywords_string)
    
    # 绘制图像并显示
    plt.figure()
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()
    
# 获取正样本
p_train_data = train_data[train_data['label'] == 1]['sentence']
# 获取形容词
train_p_a_vocab = chain(*map(lambda x: get_a_list(x), p_train_data))
n_train_data = train_data[train_data['label'] == 0]['sentence']
train_n_a_vocab = chain(*map(lambda x: get_a_list(x), n_train_data))

# 绘制词云
get_word_cloud(train_p_a_vocab)    
get_word_cloud(train_n_a_vocab)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8oNgj0I9-1634973828849)(C:\Users\Lancibe\Desktop\wordcloud1.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8algVkay-1634973828851)(C:\Users\Lancibe\Desktop\wordcloud0.png)]

文本特征处理

文本特征处理包括为语料添加具有普适性的文本特征，如n-gram特征，以及对加入特征之后的文本语料进行必要的处理，如：长度规范。这些特征处理工作能够有效的将重要的文本特征加入模型训练中，增强模型评估指标。
常见的文本特征处理方法：
- 添加n-gram特征
- 文本长度规范

添加n-gram特征

给定一段文本序列，其中n个词或字的相邻共现特征既n-gram特征，常用n-gram特征是bi-gram特征和tri-gram特征，分别对应n为2和3。

# 一般n-gram中n取2或3，这里以2为例
ngram_range = 2

def create_ngram_set(input_list):
    return set(zip(*[input_list[i:] for i in range(ngram_range)]))

input_list = [1, 3, 2, 1, 5, 3]
res = create_ngram_set(input_list=input_list)
print(res)



{(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}

文本长度规范及其作用

一般模型的输入需要等尺寸大小的矩阵，因此进入模型前需要对每条文本数值映射后的长度进行规范，此时将根据句子长度分布分析出覆盖绝大多数文本的合理长度，对超长文本进行截断，对不足文本进行补齐（一般使用数字0）。

from tensorflow.keras.preprocessing import sequence

# cutlen根据数据分析中句子长度分布，覆盖90%左右语料的最短长度
# 在这里假定为10
cutlen = 10

def padding(x_train):
    return sequence.pad_sequences(x_train, cutlen)

# 假定x_train里有两条文本，一条长度大于10，一条小于10
x_train = [[1, 23, 5, 32, 55, 63, 2, 21, 78, 32, 23, 1],
           [2, 32, 1, 23, 1]]
print(padding(x_train))


[[ 5 32 55 63  2 21 78 32 23  1]
 [ 0  0  0  0  0  2 32  1 23  1]]

文本数据增强

常用文本数据增强方法：回译数据增强法。是目前文本数据增强方面效果较好的增强方法，一般基于google翻译接口，将文本数据翻译成另一种语言（一般选择小语种）再翻译回源语言，即可认为得到与原语料同标签的新语料，新语料的加入到原数据集中即可认为是对原数据集数据增强。
优势：操作简便，获得新语料质量高
劣势：短文本回译过程中新语料和原语料可能存在很高重复率，并不能有效增大样本特征空间。
高重复率解决办法：进行连续的多语言翻译，例如中-韩-日-英-中，最多只采用3次连续翻译，否则将导致效率低下，语义失真等问题。

# 假设取两条已存在的正样本、负样本
p1 = '这家酒店设施非常不错'
p2 = '这家价格很便宜'
n1 = '拖鞋都发霉了，太差了'
n2 = '电视不好用，没有看到足球'

from google_trans_new import google_translator
translator = google_translator()
# 进行一次批量翻译，目标是泰语
translations = translator.translate([p1, p2, n1, n2], lang_tgt='th')

# 打进结果
print('中间翻译结果： ')
print(translations)

# 再翻译成中文
translations = translator.translate(translations, lang_tgt='zh-cn')
print('回译得到的增强数据： ')
print(translations)


中间翻译结果： 
['โรงแรมนี้มี บริษัท ที่ดีมาก', 'ราคานี้ราคาถูกมาก', 'รองเท้าแตะเป็นราที่เลวร้ายเกินไป', 'ทีวีไม่ใช่เรื่องง่ายไม่เห็นฟุตบอล '] 
回译得到的增强数据： 
[这家酒店有一个非常好的公司'，'这个价格很便宜'，'拖鞋太糟糕了', '电视不容易，看不到足球']

tor()

进行一次批量翻译，目标是泰语

translations = translator.translate([p1, p2, n1, n2], lang_tgt=‘th’)

打进结果

print('中间翻译结果： ')
print(translations)

再翻译成中文

translations = translator.translate(translations, lang_tgt=‘zh-cn’)
print('回译得到的增强数据： ')
print(translations)

中间翻译结果：
[‘โรงแรมนี้มี บริษัท ที่ดีมาก’, ‘ราคานี้ราคาถูกมาก’, ‘รองเท้าแตะเป็นราที่เลวร้ายเกินไป’, 'ทีวีไม่ใช่เรื่องง่ายไม่เห็นฟุตบอล ‘]
回译得到的增强数据：
[这家酒店有一个非常好的公司’，‘这个价格很便宜’，‘拖鞋太糟糕了’, ‘电视不容易，看不到足球’]

Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
pytorch基础-比较矩阵是否相等 yuweififi pytorch 人工智能
1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,
Exception:data did not match any variant of untagged enum PyPreTokenizerTypeWrapper at line 69 解决方案爱编程的喵喵 Python基础课程 python tokenizer PyPreTokenizer 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Exception:datadidn
一学就会：A*算法详细介绍（Python）不去幼儿园人工智能（AI）#启发式算法算法 python 人工智能机器学习开发语言
本篇文章是博主人工智能学习以及算法研究时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在启发式算法专栏：【人工智能】-【启发式算法】（6）---《一学就会：A*算法详细介绍（Python）》一学就会：A*算法详细介绍（Python）目录A*算法介绍A*算法的核心概念A*算法的特点A*算法示例：迷宫
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
如何使用Python编程实现捕获笔记本电脑麦克风的音频并通过蓝牙耳机实时传输 winfredzhang python 音视频实时传输蓝牙耳机
在现代的工作和生活环境中，音频传输的需求日益增加。无论是远程会议、在线教育，还是家庭娱乐，音频的实时传输都扮演着至关重要的角色。今天，我将向大家介绍一个简单而实用的应用程序，它能够捕获笔记本电脑麦克风的音频，并通过蓝牙耳机实时传输。这款应用程序特别适用于需要在会议室等场景中远程听取声音的情况。接下来，我将详细讲解这个应用程序的实现过程，并提供完整的代码和使用指南。引言想象一下这样的场景：你需要离开
【LangChain编程：从入门到实践】实现多模态代理 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】实现多模态代理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：LangChain编程，多模态代理，自然语言处理，多媒体数据融合，复杂任务解决能力1.背景介绍1.1大背景与问题的提出随着人工智能技术的飞速发展，尤其是大模型在自然语言处理领域的突破，如通义千问、通义万相、阿里云通义大模型等，我们正迎来一个全
Linux 查看端口占用命令酒酿小圆子～ linux 运维服务器
文章目录1、lsof-i:端口号2、netstat命令2.1netstat-tunlp命令2.2netstat-anp命令1、lsof-i:端口号用于查看某一端口的占用情况，比如查看5000端口使用情况：sudolsof-i:5000注意：这里最好使用sudo开启管理员权限，未开启管理员权限时，可能会检测不到相关进程。（并非所有进程都能被检测到，所有非本用户的进程信息将不会显示，如果想看到所有信息
网络安全加密python代码黑客Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快网络信息安全中遇到的各种攻击是防不胜防的，采取适当的防护措施就能有效地保护网络信息的安全,包括防火墙、入侵检测系统、漏洞扫描技术以及加密技术等多种防护措施。而信息安全的本质就是要保护信息本身和信息系统在存储、传输中的完整性和保密性,保障不被攻击和篡改,上述的主动攻击、被动攻击和病毒袭击都会造成信息的破坏和泄密,我们以信息安全中的基础理论出
222222222222222 智能与优化开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas是基于Nu
python 商城性能,python商城项目总结 Yvetzy python 商城性能
importhashlib#实例化md5对象md5=hashlib.md5()#md5.update()方法的参数必须是字节型数据md5.update(bytes(request.POST['password'],encoding="UTF-8"))#以16进制格式存储md5.hexdigest()'''这里有个坑必须注意：md5.update()方法会将每次加密的字符进行拼接，所以每次加密前都要
用Python写一个商城系统潮水岩
如果要用Python写一个商城系统，可以先定义需要实现的功能，再按照功能模块分别进行开发。下面是一个简单的开发流程：数据模型设计：需要定义商品、订单、用户等数据模型，并且将它们存储在数据库中。用户模块：用户可以注册、登录、查看个人信息、修改密码等。商品模块：商家可以发布商品、管理商品信息、查看商品列表等；用户可以查看商品详情、加入购物车等。订单模块：用户可以下单、查看订单详情、取消订单、评价订单等
python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例 weixin_39955149 python pandas 读取数据库
Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins
python导出结果_Python连接Oracle数据查询导出结果 weixin_39712821 python导出结果
python连接oracle，需用用到模块cx_oracle，可以直接pip安装，如网络不好，可下载离线后本地安装本人由于工作需要，期望便捷查询所得结果，且固定输出某个格式具体代码如下：#!coding:utf-8importcx_Oracleconn=cx_Oracle.connect('username/password@IP/连接名')cur=conn.cursor()cur.execute
Python—kafka操作蓝魔Y Python编程 kafka
文档结构1、概念简介2、环境搭建3、操作实践1、概念简介2、环境搭建接口手册：https://kafka-python.readthedocs.io/en/master/Python操作kafka的模块为：kafka-python模块安装pipinstallkafka-python3、操作实践=============================================over====
python使用kafka原理详解_Python操作Kafka原理及使用详解形象顧問Aking
Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk
python把oracle的查询结果导出为insert语句优游的鱼 oracle python 数据库开发语言
可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor
Empowering LLMs with Logical Reasoning: 从“语言大师”到“逻辑大师”的进化之路步子哥人工智能
“逻辑是智慧的骨架，而语言是智慧的血肉。让大语言模型（LLMs）既能说会道，又能逻辑严谨，是AI发展的下一座高峰。”开篇：语言模型的“逻辑盲区”近年来，大语言模型（LLMs）在自然语言处理（NLP）任务中取得了令人瞩目的成就。从生成流畅的文章到翻译复杂的句子，这些模型似乎无所不能。然而，当我们试图让它们回答逻辑推理问题时，却发现它们的表现常常令人失望。比如，某顶尖LLM在回答以下问题时出现了自相矛
python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算路过炊烟 python画出roc曲线 auc计算逻辑
前言ROC(ReceiverOperatingCharacteristic)曲线和AUC常被用来评价一个二值分类器(binaryclassifier)的优劣。这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(AreaUnderCurve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大的容忍性，
【spug】使用勤不了一点 CI/CD python django ci/cd 运维 devops
目录简介下载与安装初始化配置启动与日志版本更新登录与使用工作台主机管理批量执行配置中心应用发布系统管理监控与告警使用问题简介手动部署|Spugwalle的升级版本轻量级无Agent主机管理主机批量执行主机在线终端文件在线上传下载应用发布部署在线任务计划配置中心监控报警如果有测试错误请指出。下载与安装测试环境：Python3.7.8CentOSLinuxrelease7.4.1708(Core)sp
记一次从mysql数据迁移到oralce （基于python和pandas） qq_36532060 mysql oracle pandas python
记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
python实现从oracle数据库查询数据生成excel透视表发送outlook niceme！ python
#-*-coding:utf-8-*-#http://pypi.cq.pegatroncorp.com/simple--trusted-hostpypi.cq.pegatroncorp.comimportchardetimportdatetimeimporttimeimportxlwtimportwin32com.clientaswin32fromwin32com.clientimportcons
pip 与当前python环境版本不匹配，python安装库成功，还是提示没有该库灿灿的金 python pip 开发语言
解决pip版本不一致在使用pip命令前加上python-m即可让pip版本和当前python版本一致因此,当使用pip安装依赖时,需要在命令前添加python-m来配合使用,比如安装一个pillow库,命令如下python-mpipinstallpillow你同时安装了python2和python3pipinstallPillow可能下载的是python3的库，而你代码跑的是python2可以通过
【Python-ML】SKlearn库性能指标ROC-AUC fjssharpsword Big data python专栏
#-*-coding:utf-8-*-'''Createdon2018年1月19日@author:Jason.F@summary:ROC(receiveroperatorcharacteristic，基于模型真正率和假正率等性能指标评估分类模型'''importpandasaspdfromsklearn.preprocessingimportLabelEncoderfromsklearn.cros
使用Python导出Oracle数据库数据表目录 SeanData Python 数据分析 python oracle 数据目录导出
###Oracle数据库数据表目录导出###导入包importpandasaspdimportcx_Oracle###数据库信息username='xxx'password='yyy'ipaddr='100.28.60.132'port='1521'service_name='service_name'connect_string=ipaddr+":"+port+"/"+service_name#
《Python入门+Python爬虫》——6Day 数据库可视化——Flask框架应用不摆烂的小劉 python python flask 爬虫
Python学习版本:Python3.X观看：Python入门+Python爬虫+Python数据分析1.Flask入门1.1关于Flask1.1.1了解框架Flask作为Web框架，它的作用主要是为了开发Web应用程序。那么我们首先来了解下Web应用程序。Web应用程序(WorldWideWeb)诞生最初的目的，是为了利用互联网交流工作文档。一切从客户端发起请求开始。所有Flask程序都必须创建
【python 机器学习】sklearn ROC曲线与AUC指标人才程序员杂谈机器学习 python sklearn 人工智能深度学习神经网络目标检测
文章目录sklearnROC曲线与AUC指标1.什么是ROC曲线与AUC？通俗介绍：学术解释：2.在`sklearn`中绘制ROC曲线与计算AUC2.1导入库和数据2.2加载数据集2.3训练模型2.4预测概率2.5计算FPR、TPR和AUC2.6绘制ROC曲线3.解析ROC曲线和AUC值4.总结sklearnROC曲线与AUC指标在机器学习中，评估分类模型的性能不仅仅依赖于准确率，还需要使用一些更
python操作kafka 您懂我意思吧 python开发 kafka 分布式 python
一、参考阿里云的官方链接：使用PythonSDK接入Kafka收发消息_云消息队列Kafka版(Kafka)-阿里云帮助中心二、安装python环境三、添加python依赖库pipinstallconfluent-kafka==1.9.2四、新建一个setting.py文件配置信息kafka_setting={'sasl_plain_username':'XXX',#如果是默认接入点实例，请删除该
Python异步编程-asyncio详解我爱让机器学习 python 开发语言 asyncio 异步
目录asyncio简介示例什么是asyncio?适用场景APIasyncio的使用可等待对象什么是可等待对象？协程对象任务对象Future对象协程什么是协程？基本使用运行协程Task什么是Task？创建Task取消TaskTask异常获取Task回调TaskGroup什么是TaskGroup？为什么使用TaskGroup？创建任务异常处理同步任务完成asyncio简介示例首先，我们来看一个简单的H
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep