Dream_Bri

文本向量化与文本处理(含详细代码)

提示：本文的数据集是IMDB数据集

文章目录

前言
文本向量化
- one-hot 编码
- - 单词级的one-hot编码示例
  - 字符级的one-hot编码示例
  - 使用keras实现单词级的one-hot编码
- 词嵌入编码
- - 使用Embedding层学习词嵌入
  - 使用预训练的词嵌入
  - 在keras模型中使用GloVe嵌入

前言

深度学习用于自然语言处理是将模式识别应用于单词、句子和段落。这些模型不能像人类理解文字一样去理解文本，知识映射出了书面语言的统计结果，但是这也足以解决许多简单的问题了。

深度学习不能像人类一样去理解文本，那么它是如何处理文本的呢？

模型不会接受原始文本作为输入，因为它只会处理张量。因此需要将文本转换为张量，再将转换好的张量作为输入传递给模型。那么如何将文本转换为张量呢？

文本向量化

文本转换为向量有多种形式：
可以将文本分割成单词，再将每个单词转换为一个向量；
可以将文本分割为字符，再将字符转换为向量；
也可以提取单词或字符的n-gram，并将每个n-gram转换为一个向量。n-gram是多个连续单词或字符的集合。

关于n-gram，看下面的例子：
考虑句子“The cat sat on the mat.”。它可以被分解为以下二元语法（2-grams）的集合。
{“The”, “The cat”, “cat”, “cat sat”, “sat”, “sat on”, “on”, “on the”, “the”, “the mat”, “mat”}
这个句子也可以被分解为以下三元语法（3-grams）的集合。
{“The”, “The cat”, “cat”, “cat sat”, “The cat sat”,“sat”, “sat on”, “on”, “cat sat on”, “on the”, “the”,“sat on the”, “the mat”, “mat”, “on the mat”}

编码方法此处介绍两种：one-hot编码、标记嵌入编码

one-hot 编码

one-hot编码是转换为向量的最常用、最基本的方法。它将每个单词与唯一的整数索引相关联，然后将这个整数索引i转换为长度为N的二进制向量(N是词表大小)，这个向量只有第i个元素为1，其余元素均为0。

单词级的one-hot编码示例

import numpy as np
# 列举的初始数据
samples = ['The cat sat on the mat.', 'The dog ate my homework.'] 
# 构建数据中所有标记的索引
token_index = {} 
for sample in samples:
	for word in sample.split(): 
		if word not in token_index:
			token_index[word] = len(token_index) + 1 
#为每个唯一单词指定唯一的索引，并且没有索引编号为0的单词
#只考虑每个样本前max-length个单词
max_length = 10 
results = np.zeros(shape=(len(samples),
					max_length,
					max(token_index.values()) + 1)) 
for i, sample in enumerate(samples):
	for j, word in 	  list(enumerate(sample.split()))[:max_length]:
		index = token_index.get(word)
		#将结果保存在results中
		results[i, j, index] = 1.

字符级的one-hot编码示例

import string
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
# 所有可打印的ASCII码
characters = string.printable 
token_index = dict(zip(range(1, len(characters) + 1), characters))
max_length = 50
results = np.zeros((len(samples), max_length, max(token_index.keys()) + 1)) 
for i, sample in enumerate(samples):
	for j, character in enumerate(sample):
		index = token_index.get(character)
		results[i, j, index] = 1

使用keras实现单词级的one-hot编码

keras的内置函数可以对原始文本数据进行单词级或字符级的one-hot编码。只考虑字符的前N个单词是为了避免处理非常大的输入向量空间。

from keras.preprocessing.text import Tokenizer
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
# 设置分词器，只考虑前1000个最常见的单词
tokenizer = Tokenizer(num_words=1000) 
tokenizer.fit_on_texts(samples) 
# 将字符串转换为整数索引组成的列表
sequences = tokenizer.texts_to_sequences(samples) 
# 可以直接得到one-hot二进制表示，分词器也支持除one-hot编码外的其它向量化模式
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary') 
word_index = tokenizer.word_index 
print('Found %s unique tokens.' % len(word_index))

词嵌入编码

词嵌入编码是地位的浮点数向量编码形式，词嵌入是从数据中学习得到的，常见的词向量维度是256，512或1024。而作为对比的one-hot编码的词向量维度通常为20000或者更高，因此词向量可以将更多信息塞入到更低的维度中。

词嵌入有两种方法：
1、完成主任务的同时学习词嵌入，在这种情况下，一开始是随机的词向量，然后对这些词向量进行学习，其学习方式与学习神经网络的权重相同。
2、正在不同于待解决的机器学习任务上预计算好词嵌入，然后将其加载到模型中。这些词嵌入叫做预训练词嵌入。

使用Embedding层学习词嵌入

要将一个词与一个密集向量相关联，最简单的方法就是随机选择向量，这种方法的问题在于，得到的嵌入空间没有任何结构。

抽象点来说，词向量之间的几何关系应该表示这些词之间的语义关系。词嵌入的作用应该是将人类的语言映射到几何空间中。

合理的做法是每个新任务都学习一个新的嵌入空间，幸运的是，反向传播让这种学习变得很简单，而keras使其变得更简单，我们要做的就是学习一个层的权重，这个层就是embedding层。

一、将一个Embedding层实例化：

from keras.layers import Embedding
enbedding_layer=Embedding(1000，64)

embedding层至少需要两个参数，标记的个数此处为1000，嵌入的维度此处为64。
二、加载IMDB数据，准备用于Embedding层

from keras.datasets import imdb
from keras.layers import preprocessing 
# 特征单词个数
max_features = 10000 
maxlen = 20 
# 将数据加载为整数列表
(x_train, y_train), (x_test, y_test) = imdb.load_data(
 num_words=max_features) 
 # 将整数列表转换为形状为(samples,maxlen)的二维整数张量
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen) 
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)

三、在IMDB数据上使用Embedding层和分类器

from keras.models import Sequential 
from keras.layers import Flatten, Dense, Embedding
model = Sequential()
model.add(Embedding(10000, 8, input_length=maxlen)) 
model.add(Flatten()) 
model.add(Dense(1, activation='sigmoid')) 
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']) 
model.summary()
history = model.fit(x_train, y_train, 
					epochs=10,
					batch_size=32, 
					validation_split=0.2)

使用预训练的词嵌入

有时候可用的训练数据很少，无法完成特定任务的词嵌入，那么应该怎么办呢？
可以从预计算的嵌入空间中加载嵌入向量，而不是在解决问题的同时学习词嵌入。在自然语言处理中使用预训练的词嵌入，其背后的原理与图像分类中使用预训练的卷积神经网络是一样的，没有足够的数据来自己学习真正强大的特征，但是需要的特征应该是非常通用的，这样就可以重复使用其他问题上学到的特征。
预训练的词嵌入数据库有许多，常用的有：word2vec、GloVe等。

在keras模型中使用GloVe嵌入

1、下载IMDB数据的原始文本

import os
imdb_dir = '/Users/fchollet/Downloads/aclImdb'
train_dir = os.path.join(imdb_dir, 'train')
labels = []
texts = []
for label_type in ['neg', 'pos']:
	dir_name = os.path.join(train_dir, label_type)
	for fname in os.listdir(dir_name):
		if fname[-4:] == '.txt':
			f = open(os.path.join(dir_name, fname))
			texts.append(f.read())
			f.close()
			if label_type == 'neg':
				labels.append(0)
			else:
				labels.append(1)

2、对IMDB数据进行分词
对文本进行分词，将其划分为训练集和验证集。本文将训练数据限定为前200个样本，因此在读取200个样本后对电影评论进行分类。

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import numpy as np

# 在100个单词后截断评论
maxlen = 100 
# 在200个样本上训练
training_samples = 200 
#在10000个样本上进行验证
validation_samples = 10000 
# 只考虑数据集中前10000个最常见单词
max_words = 10000 
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))
data = pad_sequences(sequences, maxlen=maxlen)
labels = np.asarray(labels)
print('Shape of data tensor:', data.shape)
print('Shape of label tensor:', labels.shape)
# 打乱数据集，因为所有负面评论是在前面的
indices = np.arange(data.shape[0]) 
np.random.shuffle(indices)
data = data[indices]
labels = labels[indices]
x_train = data[:training_samples]
y_train = labels[:training_samples]
x_val = data[training_samples: training_samples + validation_samples] 
y_val = labels[training_samples: training_samples + validation_samples]

3、下载GloVe词嵌入
打开 https://nlp.stanford.edu/projects/glove，下载 2014 年英文维基百科的预计算嵌入。这是一个 822 MB 的压缩文件，文件名是glove.6B.zip，里面包含 400 000 个单词（或非单词的标记）的 100 维嵌入向量的解压文件。
4、对嵌入进行预处理
我们对解压后的文件进行解析，构建一个将单词映射为其向量表示的索引。

解析GloVe词嵌入文件程序段：

glove_dir = '/Users/fchollet/Downloads/glove.6B'
embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.100d.txt'))
for line in f:
	values = line.split()
	word = values[0]
	coefs = np.asarray(values[1:], dtype='float32')
	embeddings_index[word] = coefs
f.close()
print('Found %s word vectors.' % len(embeddings_index))

准备GloVe词嵌入矩阵

embedding_dim = 100
embedding_matrix = np.zeros((max_words, embedding_dim))
for word, i in word_index.items():
	if i < max_words:
		embedding_vector = embeddings_index.get(word)
		if embedding_vector is not None:
			embedding_matrix[i] = embedding_vector

5、定义模型

from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense
model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.summary()

6、在模型中加载GloVe嵌入
embedding层只有一个权重矩阵，是一个二维的浮点数矩阵，其中每个元素i是与索引i相关联的词向量。将准备好的GloVe矩阵加载到embedding层中，即模型的第一层。

将预训练的词嵌入加载到embedding层中的代码：

model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False

这里需要冻结embedding层，将参数trainable属性设置为False。
7、模型的训练与评估

model.compile(optimizer='rmsprop',
			loss='binary_crossentropy',
			metrics=['acc'])
history = model.fit(x_train, y_train,
					epochs=10,
					batch_size=32,
					validation_data=(x_val, y_val))
model.save_weights('pre_trained_glove_model.h5')

绘制模型的结果代码如下：

import matplotlib.pyplot as plt
acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1, len(acc) + 1)
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()

8、结果展示
使用预训练嵌入时的训练损失和验证损失
使用预训练嵌入时的训练精度和验证精度

你可能感兴趣的:(python,自然语言处理,深度学习)

基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
【半夜爬起来学python】零基础学习Pygame|第一期|知识点+小球反弹游戏案例奈樱. python(pygame)pygame 学习游戏 pip
一.安装PygamePygame是跨平台Python模块，很多编译器不会向用户提供该模块，需要我们自己安装。安装步骤：打开Pygame官网：www.pygame.org点击PYGAME2.6.0-25JUN,2024下载好之后，解压压缩包，安装路径最好放在c盘里Administrator文件里在菜单栏点击搜索，输入cmd，找到“命令提示符”输入命令pipinstallpygame运行的时候会发现命
【Python】Pygame从零开始学习宅男很神经 python 开发语言
模块一：Pygame入门与核心基础本模块将引导您完成Pygame的安装，并深入理解Pygame应用程序的基石——游戏循环、事件处理、Surface与Rect对象、显示控制以及颜色管理。第一章：Pygame概览与环境搭建1.1什么是Pygame？Pygame是一组专为编写视频游戏而设计的Python模块。它构建在优秀的SDL(SimpleDirectMediaLayer)库之上，允许您使用Pytho
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
【python】判断值是否为NaN MoFe1 python 开发语言
importmathdefis_nan(value):returnisinstance(value,float)andmath.isnan(value)#测试print(is_nan(float('nan')))#输出：Trueprint(is_nan(None))#输出：Falseprint(is_nan('abc'))#输出：False
print(3 or 5)的结果是什么？为什么？ Lauren_Lu python
print(3or5)的结果是：3原因：在Python中，or是一个逻辑运算符，但当它作用于非布尔类型（比如整数）时，它的行为是：返回第一个为真的值；如果第一个值为假，则返回第二个值。具体分析：3是一个非零整数，在布尔上下文中被视为True所以3or5就是：如果3是True，就返回3；否则返回5由于3是True，所以返回的是3。类似例子：print(0or5)#输出5，因为0被视为Falsepri
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
[python系列] 创建虚拟环境 venv en-route python virtualenv
虚拟环境定义Python中的虚拟环境是一个隔离的运行环境，旨在为每个Python项目提供独立的执行空间，支持在不同的项目中分别管理依赖关系，而不会影响到其他项目或系统的原始Python安装。可以将虚拟环境视为每个Python项目的“独立容器”，每个容器具备以下特点：拥有独立的Python解释器拥有各自独立的包管理和安装的软件包与其他虚拟环境相互隔离允许同一包存在不同版本使用虚拟环境的重要性体现在以
Python代理池的构建与应用：实现高效爬虫与防封禁策略程序员威哥 python 爬虫开发语言
在进行大规模网络数据抓取时，IP封禁是最常见的反爬虫手段之一。为了应对这一挑战，代理池成为了一个重要工具。通过构建代理池，爬虫程序可以随机切换代理IP，避免同一IP被频繁访问而导致封禁，确保数据抓取任务的稳定性和持续性。本文将详细介绍如何使用Python构建一个高效的代理池，并结合实际应用场景，讲解如何使用代理池提升爬虫的抓取能力和防封禁策略。一、代理池的工作原理代理池的基本工作原理是，爬虫请求时
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
Python_计算两个省市之间的直线距离_2506 夏天里的肥宅水 PYTHON python spring 开发语言
更新代码上一版链接importpandasaspdimporttimeimportpickleimportosimportsysfromgeopy.geocodersimportNominatimfromgeopy.distanceimportgeodesicfromtqdmimporttqdm#ConfigurationINPUT_FILE=r"距离.xlsx"#输入文件路径OUTPUT_FIL
python中的*args 和 **kwargs Hi_kenyon python python
简单来说，它们允许一个函数接收不定数量的参数。这在我们预先不知道会传递多少个参数给函数时非常有用。*args(任意数量的位置参数)*args用于在一个函数中接收任意数量的位置参数(positionalarguments)。当你在函数定义中使用*args时，Python会将所有传入的多余的位置参数收集到一个元组(tuple)中。这个名字args只是一个约定俗成的惯例(arguments的缩写)，你也
用 Python 开发文字冒险游戏：从零开始的教程晓天天天向上 python microsoft 开发语言
文字冒险游戏(Text-basedAdventureGame)是一种经典的游戏类型，玩家通过输入文字指令与游戏世界互动。这种游戏不依赖复杂的图形界面，非常适合初学者学习编程逻辑和用户交互。在本篇博客中，我们将用Python开发一个简单的文字冒险游戏，体验游戏开发的乐趣。1.游戏设计思路游戏背景玩家醒来发现自己身处一个神秘的地下城，需要探索房间、收集物品、战胜敌人并找到出口。核心机制房间导航：玩家可
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
1.2 Python 的特点与优势 Utopia Reverie python python 开发语言
1.语法简洁易读Python以简洁的语法著称，代码可读性强，减少了不必要的符号和冗余代码。例如，使用缩进来表示代码块，而非传统的大括号。这使得代码更易于理解和维护，尤其适合初学者。示例：python运行【#计算斐波那契数列的前10项n=10a,b=0,1for_inrange(n);print(a,end='')a,b=b,a+b#输出:0112358132134】2.开源与社区支持Python是
动手学Python：从零开始构建一个“文字冒险游戏” network爬虫 python python 开发语言
动手学Python：从零开始构建一个“文字冒险游戏”大家好，我是你的技术向导。今天，我们不聊高深的框架，也不谈复杂的算法，我们来做一点“复古”又极具趣味性的事情——用Python亲手打造一个属于自己的文字冒险游戏（TextAdventureGame）。你是否还记得那些在早期计算机上，通过一行行文字描述和简单指令来探索未知世界的日子？这种游戏的魅力在于它能激发我们最原始的想象力。而对于我们程序员来说
python 脚本遍历目录，并把目录下的非utf-8文件改成utf8 还债大湿兄 python 开发语言数据库
从网上下载的qt项目我本地编译里面经常包含中文，提示编译不过，实际上以前经常手动转，发觉还是用脚本不，毕竟这次下的有点大，我只改.h.cpp#pythonD:\python\filetoUtf.pyE:\EasyCanvas-master\EasyCanvas-masterimportosimportcodecsimportargparseimportsysdefconvert_to_utf8_b
树莓派中 Python+opencv打开摄像头 68lizi 光电设计 python
树莓派中Python+opencv打开摄像头注意不要使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)，我在树莓派使用这个的时候会报错，在windows不会报错，具体原因不清楚cap=cv2.VideoCapture(0)#使用cap=cv2.VideoCapture(0,cv2.CAP_DSHOW)会报错whileTrue:status,img=cap.read()i
python实现读取文件的指定某行内容 Fitz1318 Python3学习 python
python实现读取文件的指定某行内容最近有一个需求就是读取一个文件中的指定某行的内容，现将方法记录如下importlinecache#这里填写你自己的文件位置和行号text=linecache.getline("../TestFile/test_C1.json",2)print(text)
[Python] 使用 dataclass 简化数据结构：定义、功能与实战踏雪无痕老爷子 Python python 开发语言
在经典面向对象编程中，为了保存和操作数据往往需要定义多个类，手写__init__()、__repr__()、__eq__()等方法。Python3.7引入了@dataclass装饰器，它能自动生成这些常见方法，大幅减少样板代码。本文将介绍dataclass的定义与参数、比较与普通类的差别、实战示例，以及常见注意事项。一、什么是dataclass@dataclass是一种类装饰器，它通过类成员的类型
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
程序化交易系统中如何精准获取MACD、KDJ、BOLL等基础指标的值？股票程序化交易接口量化交易股票API接口 Python股票量化交易程序化交易系统 macd指标 kdj指标 boll指标股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>基础指标在程序化交易系统中的重要性基础指标对交易决策的指导意义MACD、KDJ、BOLL等基础指标在程序化交易系统中扮演着重要角色。MACD可以帮助判断市场的趋势和买卖信号，通过分析其快线和慢线的交叉情况，能为投资者提供入场和出场的参
股票程序化交易软件如何选择？这些要点你知道吗股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链股票程序化交易软件功能特性稳定性成本股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>了解软件功能特性基础交易功能基础交易功能是股票程序化交易软件的核心。它应具备快速下单、撤单等基础操作能力。比如在行情快速变化时，能让投资者迅速抓住机会下单，或者及时撤单避免损失。软件的交易界面要简洁明了，方便投资者操作。还应支持多种交
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他