无水先生

文本分析：NLP 魔法！

一、说明

这是一个关于 NLP 和分类项目的博客。NLP 是自然语言处理，目前需求量很大。让我们了解如何利用 NLP。我们将通过编码来理解流程和概念。我将在本博客中介绍 BagOfWords 和 n-gram 以及朴素贝叶斯分类模型。这个博客的独特之处（这使得它很长！）是我已经展示了如何根据我们手中的数据集为我们选择正确的模型。那么，让我们开始吧。

二、导入基础库

当编码时出现我们的需求时，我们将导入所需的库。首先，让我们导入 pandas、numpy、matplotlib、seaborn、regex 和 random 库，这些库都被广泛使用。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import random
import regex as re
#below code is for not showing up any warnings that might appear for the ongoing improvements in functions
import warnings
warnings.filterwarnings('ignore')

三、以dataframe的形式导入数据集

我从 Kaggle 下载了电影评论数据集。电影数据集是情感分类学习最常用的数据集。我还将在一个单独的博客中向您展示实时项目的情绪分类。现在让我们继续我们的学习吧。

#Reading the csv file into the dataframe
df = pd.read_csv('movie.csv')

#Let's look into the first ten records
df.head(10)  
#if no parameter is provided then the head() function will show 5 records, else it will show as many as you will provide

现在，请记住，标记为 1 的情绪是积极的，标记为 0 的情绪是消极的。这就是它的标签方式，当您从网站下载它时，您将获得此信息。现在我们将开始稍微探索一下数据集。

# to get the information about the dataset
df.info()

数据集不包含空数据。对我们好！让我们继续看看正面和负面反馈的数量。

df['label'].value_counts()

负面评论4318条，正面评论4170条。由于两种类型的反馈的存在几乎相同，因此我们不会在数据集中执行采样。但是，如果我们进行采样，我们可能会获得更高的准确性。让我们绘制情绪数字。

sns.countplot(x = 'label', data = df)
plt.xlabel('Sentiments')

plt.show()

四、文本处理

现在我们进入有趣的部分了！处理文本。我将首先向您展示词袋方法。那么它是什么？
当我们使用文本数据时，我们没有在结构化表格数据中看到的功能。因此，我们需要一些措施来从文本数据中获取特征。如果我们可以从一个句子中取出每个单词，并获得某种度量，通过它我们可以找出该单词是否存在于另一个句子中及其重要性，该怎么办？通过称为“词袋模型”的过程，这当然是可能的。也就是说，我们的电影评论数据集中的每个句子都被视为一个词袋，因此每个句子被称为一个文档。所有文档共同构成一个语料库。

如果这听起来让您感到困惑，请不要担心！这个解释会让事情变得更清楚 -我们将首先创建一个包含语料库中使用的所有唯一单词的字典（这意味着数据集中存在的所有文档或评论）。在计算字数时，我们不考虑像 the、an、is 等语法，因为这对于理解文本上下文没有任何重要意义。然后，我们将所有文档（个人评论）转换为向量，该向量将表示特定文档中字典中单词的存在。BoW 模型中可以通过三种方式来识别单词的重要性 -

计数向量模型
词频向量模型 — tf
词频-逆文档频率模型 — tf-idf

计数向量模型将计算整个句子中单词出现的次数。直观地理解会更好，所以假设我们有以下语句 -
review1 = '电影非常非常好'
review2 = '电影令人失望'
在计数向量模型中，评论将这样显示 -

词频模型 - 在此模型中，每个文档（或句子）中每个单词的频率是相对于整个文档中观察到的单词总数来计算的。它的计算公式为 -
TF = 第 i 个文档中单词出现的次数 / 第 i 个文档中单词的总数

术语频率-逆文档频率模型 - TFIDF 衡量特定句子中单词的重要性。句子中某个单词的重要性与其在文档中出现的次数成正比，与整个语料库中同一单词的出现频率成反比。它的计算公式为 -
TF-IDF = TF x ln (1+N/Ni)，其中 N 是语料库中的文档总数，Ni 是包含单词 i 的文档。

好的！这是很多理论。让我们通过编码来理解这个概念。我们首先使用 CountVectorizer 函数统计每个单词在每个文档中出现的次数

五、计数向量化器 — 词袋模型

from sklearn.feature_extraction.text import CountVectorizer

#initializing the CountVectorizer
count_vector = CountVectorizer()

#creating dictionary of words from the corpus
features = count_vector.fit(df['text'])

#Let's see the feature names extracted by the CountVectorizer
feature_names = features.get_feature_names_out()
feature_names

print('Total Number of features extracted are - ',len(feature_names))

这代表我们的数据集中存在 48618 个独特特征。这是因为我们没有清除不需要的文本。我们最终会这样做。让我们继续前进！

#Let's randomly pickup 10 feature names out of it
random.sample(set(feature_names), 10)

正如我们所看到的，这些是特征名称，而不是它的向量形式。我们必须将特征转换成向量形式。

feature_vector = count_vector.transform(df['text'])
feature_vector.shape
(8488, 48618)

从形状中我们可以看出，所有 8488 个文档都由 48618 个特征（即唯一词）表示。对于文档中出现的单词，对应的特征将携带该单词在文档中出现的次数。如果该单词不存在，则该特征的值为 0。结果我们发现向量数据中有很多 0。为了知道特征向量中存在的 0 的数量，请执行以下操作 -

feature_vector.getnnz()
1158500

# To get the non-zero value density in the document
feature_vector.getnnz()/(feature_vector.shape[0]*feature_vector.shape[1])
0.0028073307190965642

我们的特征向量中的非零值太少了！大部分都是零！您可以将稀疏矩阵可视化如下 -

feature_vector.todense()

显然，我们需要先修复数据集，然后再进行正确的分类。开始吧 -

六、停用词删除

首先，让我们从句子中删除停用词，因为它们没有任何本质意义。停用词是像 the、an、was、is 等这样的词。这会减少特征的数量。我们将从 nltk 库导入停用词 -

from nltk.corpus import stopwords

#since the reviews are in english, stopwords will be in english that we need to set as below -
all_stopwords = set(stopwords.words('english'))

#this is how stop words looks like - 
list(all_stopwords)[:10]

["doesn't",
 "weren't",
 'each',
 "she's",
 'himself',
 'did',
 'about',
 'through',
 'the',
 'should']

现在我们将再次从头开始，即我们将再次调用 countvectorizer，但这次使用 stop_words 的附加参数，这将阻止停用词出现在计数向量中 -

count_vector2 = CountVectorizer(stop_words=list(all_stopwords))
feature_names2 = count_vector2.fit(df['text'])

feature_vector2 = count_vector2.transform(df['text'])
feature_vector2.shape
(8488, 48473)

之前，特征数量为 48618 个，现在为 48473 个。略有减少。我们需要减少更多。让我们先看看一些功能名称 -

feature_names = feature_names2.get_feature_names_out()
feature_counts = np.sum(feature_vector2.toarray(), axis = 0)

pd.DataFrame(dict(Features = feature_names, Count = feature_counts))

如果我们研究这些特征，我们会发现有许多非英语单词和数字正在污染数据集。让我们把它们清理干净——

#we will use the regex module to go through each document and look for the non english characters and will replace them with a space in our document
for word in df.text[:][:10]:
    review = re.sub('[^a-zA-Z]',' ',word)

现在最好将评论句子中的所有单词转为小写，然后删除停用词，因为由于大小写的差异，向量化器倾向于创建两个向量来表示 hello 和 HELLO。

sentences = []
for word in df.text:
    review = re.sub('[^a-zA-Z]',' ',word)
    review = review.lower()
    sentences.append(review)

句子现在是 df['text'] 的干净形式。让我们在从句子中删除停用词后应用 counvectorizer 并观察特征的差异。

count_vector3 = CountVectorizer(stop_words=list(all_stopwords))
feature_names3 = count_vector3.fit(sentences)
feature_vector3 = count_vector3.transform(sentences)
feature_vector3.shape
(8488, 47672)

特征从 48473 减少到 47672。差别不大！让我们看看该功能及其计数一次 -

feature_names = feature_names3.get_feature_names_out()
feature_counts = np.sum(feature_vector3.toarray(), axis = 0)
pd.DataFrame(dict(Features = feature_names, Count = feature_counts))

正如我们所看到的，有些评论并不具有任何此类意义。我们将摆脱那些。我们先来了解一下词干分析器和词形还原的含义。

七、词干提取和词形还原

词干提取是将单词还原为词根形式的过程。词干提取会切掉单词的末尾部分，并将其恢复为词根形式，因为矢量化器将相似含义的单词视为两个不同的特征，但以不同的方式书写。例如，爱、爱、被爱，在不同的形式下都有相似的含义。Stemmer 会将每个单词截断为其词根 lov。这将导致创建单个特征而不是 3 个。词干提取的一个问题是词干提取后创建的单词不是词汇表的一部分，并且词干提取也无法考虑单词的形态含义来转换单词。例如，女人和女人都与同一件事有关，但斯特默无法理解这一点。然而，词形还原考虑了单词的形态分析。它使用字典将单词转换为其根词。例如，词形还原可以理解“女人”和“女人”属于同一实体，并将它们还原为“女人”。

让我们首先使用词干分析器。有两种算法 - PorterStemmer 和 LancasterStemmer

from nltk.stem.porter import PorterStemmer
#object for porterstemmer is needed
ps = PorterStemmer()

# we have sentences turned into lowercase now we will stem individual words and then look into if its a stop word or not.
# we will create a list removing all the stop words
sentences_stemmed = []
for texts in sentences:
    reviews = [ps.stem(word) for word in texts.split() if not word in all_stopwords]
    sentences_stemmed.append(' '.join(reviews))

#Let's call the Countvectorizer process now 
count_vector4 = CountVectorizer() 
feature_names4 = count_vector4.fit(sentences_stemmed) 
feature_vector4 = count_vector4.transform(sentences_stemmed)

feature_vector4.shape
(8488, 32342)

这里我们可以看到特征从 47672 减少到 32342。现在让我们使用词形还原。我们将使用 WordNetLemmatizer 算法 —

from nltk.stem import WordNetLemmatizer
lemma = WordNetLemmatizer()
sentences_lemma = [] 
for texts in sentences: 
     reviews = [lemma.lemmatize(word) for word in texts.split() if not word in all_stopwords] 
     sentences_lemma.append(' '.join(reviews))

#Let's call the Countvectorizer process now 
count_vector5 = CountVectorizer() 
feature_names5 = count_vector5.fit(sentences_lemma) 
feature_vector5 = count_vector5.transform(sentences_lemma)

feature_vector5.shape
(8488, 42521)

在这里，我们将使用 PorterStemmer 进行词干提取。也许您可以使用词形还原而不是 PorterStemmer 来找出您得到的结果有什么不同！好吧，现在让我们创建一个函数，它将完成我们迄今为止看到的所有这些任务，并给出句子的最终结果 -

def get_clean_text(df, col):
    sentence = []

    for word in df[col][:]:
        review = re.sub('[^a-zA-Z]',' ',word)
        review = review.lower()
        review = review.split()
        review = [ps.stem(word) for word in review if not word in all_stopwords]
        review = ' '.join(review)
        sentence.append(review)

    return sentence

df['clean_text'] = get_clean_text(df, 'text')
df.head(10)

#Now we need to vectorize it. We will do it in the same way, that is using countvectorizer -
cv = CountVectorizer()
features = cv.fit_transform(df['clean_text'])

九、分类

让我们分割数据集，现在我们将使用分类来进行情感分析。我们在这里使用朴素贝叶斯分类 -

 dataset into train and test
x = features.toarray()
y = df['label']
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.10, random_state = 42)

9.1 模型训练

我们将构建两种类型的朴素贝叶斯分类器并比较准确性。首先是 GaussianNB -

from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(x_train, y_train)

9.2 模型验证

我们的模型经过训练。现在让我们来做一下预测——

y_pred = classifier.predict(x_test)

好的！现在让我们检查一下准确性 -

from sklearn.metrics import confusion_matrix, accuracy_score
cm = confusion_matrix(y_test, y_pred)
print(cm)

[[305 124]
 [194 226]]

round(accuracy_score(y_test, y_pred), 3)
0.625

有 194 个假阴性，结果不太好！我们模型的准确度很低。这可能是一些奇怪评论的结果。让我们检查训练集的准确性以检查是否过度拟合 -

y_pred_train = classifier.predict(x_train)
round(accuracy_score(y_train, y_pred_train), 3)
0.902

显然，该模型过于拟合。现在让我们在处理数据之前应用另一个 NB 分类模型 -

from sklearn.naive_bayes import BernoulliNB

classifier2 = BernoulliNB()
classifier2.fit(x_train, y_train)

y_pred2 = classifier2.predict(x_test)
cm = confusion_matrix(y_test, y_pred2)
sns.heatmap(cm, annot = True, fmt='.2f')

行显示数据中的实际标签，列显示预测标签。由此，我们可以看到有 111 个正面陈述被错误地归类为负面，即 False Negative。有 50 个否定陈述被归类为表示误报的肯定陈述。这表明 BernaulliNB 可能是该数据集的更好模型。

round(accuracy_score(y_test, y_pred2), 3)
0.81

使用该模型，测试精度也显着提高！让我们检查一下是否过度拟合 -

y_pred_train2 = classifier2.predict(x_train)
round(accuracy_score(y_train, y_pred_train2), 3)
0.916

过度拟合仍然存在，尽管比以前减少了很多。我们来看看完整的分类报告——

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred2))

              precision    recall  f1-score   support

           0       0.77      0.88      0.82       429
           1       0.86      0.74      0.79       420

    accuracy                           0.81       849
   macro avg       0.82      0.81      0.81       849
weighted avg       0.82      0.81      0.81       849

现在我们可以想一些办法来进一步提高准确性。我们可以做什么？让我们尝试更改 BagOfWord 模型。到目前为止我们一直在使用 CountVectorizer，让我们使用 tf idf 矢量化器并看看差异 -

十、TF-TDF 矢量化器 — 词袋模型

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer() 
features = tfidf.fit_transform(df['clean_text'])
x1 = features.toarray()
x_train, x_test, y_train, y_test = train_test_split(x1, y, test_size = 0.10, random_state = 42)

#Let's use GaussianNB first
classifier = GaussianNB() 
classifier.fit(x_train, y_train)

y_pred = classifier.predict(x_test) 
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot = True, fmt='.2f')

round(accuracy_score(y_test, y_pred), 3)
0.63

#Now using BernaulliNB
classifier2 = BernoulliNB()
classifier2.fit(x_train, y_train)

y_pred2 = classifier2.predict(x_test)
cm = confusion_matrix(y_test, y_pred2)
sns.heatmap(cm, annot = True, fmt='.2f')

round(accuracy_score(y_test, y_pred2), 3)
0.81

y_pred_train2 = classifier2.predict(x_train)
round(accuracy_score(y_train, y_pred_train2), 3)
0.916

print(classification_report(y_test, y_pred2))

              precision    recall  f1-score   support

           0       0.77      0.88      0.82       429
           1       0.86      0.74      0.79       420

    accuracy                           0.81       849
   macro avg       0.82      0.81      0.81       849
weighted avg       0.82      0.81      0.81       849

因此，我们看到对于该数据集，最好使用 BernoulliNB 模型，而不是高斯模型。此外，模型性能不会随着矢量化类型的变化而发生显着变化。因此，我们现在将使用除 BogOfWords 之外的其他形式的词向量化并查看变化。

BoW模型忽略句子结构或句子中的单词序列。n-grams 模型可以解决这个问题。单词的含义可能会根据其前面或后面的单词而变化。例如，在“我不高兴”这句话中，这个不高兴应该被视为一个单元，而不是两个单独的单词。n-gram 解决了这个问题，它是 n 个单词的连续序列。当两个连续的单词被视为一个单元时，它被称为二元组，对于三个连续的单词被视为一个单元，它被称为三元组，依此类推。现在让我们使用 n-gram —

十一、N-Grams — 词袋模型

tfidf2 = TfidfVectorizer(ngram_range=(1,2), max_features=5000)
feature2 = tfidf2.fit_transform(df['clean_text'])

x = feature2.toarray()
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.10, random_state = 42)

#using bernaulli since its performing best 
#Now using BernaulliNB 

classifier = BernoulliNB() 
classifier.fit(x_train, y_train) 
 y_pred = classifier.predict(x_test) 
cm = confusion_matrix(y_test, y_pred) 
sns.heatmap(cm, annot = True, fmt='.2f')

在途中您可以看到误报和漏报的数量减少了！

accuracy_score(y_test, y_pred)
0.8244994110718492

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.82      0.84      0.83       429
           1       0.83      0.81      0.82       420

    accuracy                           0.82       849
   macro avg       0.82      0.82      0.82       849
weighted avg       0.82      0.82      0.82       849

更改矢量化器类型并使用 Bernaulli 后，我们能够达到 82.4% 的精度。我们的准确率从 62.5% 跃升至 82.4%。可能存在一点过度拟合。因此，让我们先尝试清理数据集 -

#removing the words of 1 letter or 0 letter 
sentences_clean = [] 
for listed in df['clean_text'].str.split(' '): 
     review = [word for word in listed if len(word) != 1 and len(word) != 0] 
     review = ' '.join(review) 
     sentences_clean.append(review)

#removing all same letters from string 
def allCharactersSame(s) : 
     n = len(s) 
     for i in range(1, n) : 
         if s[i] != s[0] : 
             return False
         return True 

cleaned = []
for sentences in sentences_clean: 
     word_list = [] 
     for word in sentences.split(' '): 
         if allCharactersSame(word): 
             pass 
         else: 
             word_list.append(word) 
     word_list = ' '.join(word_list) 
     cleaned.append(word_list)

df['clean_text'] = cleaned
df.head()

现在让我们执行矢量化器和分类器 -

tfidf = TfidfVectorizer(ngram_range=(1,2), max_features=10000)
feature = tfidf.fit_transform(df['clean_text'])
x = feature.toarray()
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.10, random_state = 42)

#using bernaulli since its performing best
#Now using BernaulliNB
classifier = BernoulliNB()
classifier.fit(x_train, y_train)

y_pred = classifier.predict(x_test)
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot = True, fmt='.2f')

accuracy_score(y_test, y_pred)
0.823321554770318

y_pred1 = classifier.predict(x_train) 
#training accuracy calculation
accuracy_score(y_train, y_pred1)
0.8984160230396648

正如我们在尝试所有方法后所看到的，我们得出的准确率为 82.3%，训练数据的准确率为 89.8%。这表明模型中仍然存在一点过度拟合。我们可以尝试 GridSearchCV 来获取模型的最佳参数。但我会继续使用 82.3% 的准确率，这对于我们获得的训练准确率来说非常好。

让我们用完整的未见过的数据来测试模型。

十二、对看不见的数据执行文本分析

#This is something I have written for testing
reviews = [
    "I didn't liked the movie. It was so boring.",
    'I am not happy that the movie ended so badly',
    "The movie is terrific. It's a must watch for every one."
]

dataframe = pd.DataFrame({'Text':reviews})
dataframe

#cleaning up the data and applying stemming
test_sent = get_clean_text(dataframe, 'Text')

#converting into vectors using last trained n-grams model
x1 = tfidf.transform(test_sent).toarray()

#predicting unseen data using last trained classifier
y_pred_res = classifier.predict(x1)

dataframe['predictions'] = y_pred_res.tolist()
dataframe

正如我们所看到的，根据我们的数据输入，负面和正面的预测是正确的，这对于我们的模型来说是看不到的。现在您可以使用上述过程创建您自己的文本分析模型。快乐编码:)

十三、结论

在这里，我们已经完成了使用 NLP 和分类的文本分析项目。这是一个非常基本的模型。我们已经从这个基本模型（我在这里展示了）发展到像 NLP 的 Transformers 这样的模型。希望读者对召回、混淆矩阵、分类等概念有一个了解。如果您没有这些概念或者您发现博客很难理解，我会建议您阅读 NLP 和分类的理论第一的。

https://medium.com/@nishi.paul.in/text-analytics-a-nlp-magic-126d1db78186

你可能感兴趣的:(NLP高级和ChatGPT,人工智能,自然语言处理,人工智能)

文本lint工具：textlint全面指南包椒浩Leith
文本lint工具：textlint全面指南textlintThepluggablenaturallanguagelinterfortextandmarkdown.项目地址:https://gitcode.com/gh_mirrors/te/textlint项目介绍textlint是一款可插拔的文本和Markdown语法检查工具，专为JavaScript编写，旨在解决自然语言文本校对的难题。与专注于
Swift中常见的面试题 ~废弃回忆 �༄ swift Swift面试题 Swift常见面试题 Swift面试题总结
1.Swift与OC相比有什么优势?Swift是强类型语言，注重值类型，有类型推断，安全性高Swift的语法更简洁，使用起来方便，支持函数式编程Swift拥有更强大的特性，它有元组类型、支持可选类型（optional）、支持运算符重载、支持泛型、支持静态/动态派发，协议不仅可以被类实现还可以被struct和enum实现Swift支持命名空间、函数支持默认参数Swift的错误处理机制更完善oc的优点
Spring Cloud Bus 核心原理与快速入门 CarlowZJ AI应用落地+AI微服务 Bus spring cloud
目录一、SpringCloudBus概念讲解（一）什么是SpringCloudBus（二）核心功能（三）工作原理（四）架构图二、代码示例（一）引入依赖（二）配置文件（三）发送消息（四）监听事件三、应用场景（一）动态配置刷新（二）服务间通信（三）事件驱动架构四、注意事项（一）消息顺序和重复性（二）消息丢失和可靠性（三）安全性五、性能优化（一）消息压缩（二）异步处理六、总结摘要：在分布式系统和微服务架
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
筑牢电力网安防线：密码技术应用全景南京首传信安科技有限公司密码应用密码学电力安全
密码技术在电力行业的应用是保障国家关键基础设施安全的核心环节。随着智能电网、新能源接入、电力物联网的发展，密码技术已深度融入电力系统的发、输、变、配、用、调、管等各个环节，为电力系统的安全稳定运行、数据机密性、完整性和身份真实性提供保障。一、主要应用领域1.网络与通信安全(基础保障)通信加密：对电力调度数据网、广域测量系统、配电自动化系统、用电信息采集系统等关键网络中的通信数据进行加密（如采用IP
Docker容器中安装 ROS2-Humble 并使用 rviz ZPC8210 docker 容器运维
默认电脑已经安装了docker，没安装看这篇文章Docker安装(完整详细版)ROS和docker各种结合看官方文档dockerTutorials在OSRF中拉取想要的ROS版本docker镜像网址为拉取命令在这里dockerpullosrf/ros:humble-desktop-full拉取完后创建容器，但是为了能在docker中能打开窗口，将使用以下参数，只需要修改名字即可，your_name
密码应用与趋势之医疗数据安全南京首传信安科技有限公司数据安全健康医疗
目录二、密码技术的核心应用场景二、技术创新趋势三、关键防护措施四、总结数据泄露风险在不同行业间分布不均。医疗行业因其数据的极高价值、安全防护的相对短板及攻击者的高度关注，成为数据泄露的重灾区。泄露数据类型也日益多样化，从传统身份信息扩展到网络行为数据等新兴领域。医疗数据的高价值体现为：黑市价格高昂：完整医疗记录在黑市售价可达普通个人信息的数十倍。欺诈工具：医疗身份信息常被用于虚假理赔和药物欺诈。精
opencv入门(6) TrackBar调整图片和键盘响应千殃sama opencv 学习笔记
文章目录1创建trackbar2使用userdata传入函数3键盘响应1创建trackbar1.trackbar名称2.创建在哪个窗口上3.拖动trackbar改变的值4.trackBar的最大值5.trackbar改变时的回调函数6.带入回调函数的数据，可以不用带,是一个void指针createTrackbar(“Valuebar”,“亮度调整”,&lightness,max_value,on_
MySQL InnoDB 引擎中的聚簇索引和非聚簇索引有什么区别？ Chen-Edward 数据库 mysql android 数据库
MySQLInnoDB引擎中的聚簇索引和非聚簇索引有什么区别？主要解答详细解答1.**聚簇索引（ClusteredIndex）**2.**非聚簇索引（Non-ClusteredIndex/SecondaryIndex）**3.**对比总结**4.**流程图（查询过程对比）**知识拓展与延伸1.**如何选择主键和索引**2.**Java后端开发中的应用**3.**常见误区**主要解答在MySQL的I
The valid characters are defined in RFC 7230 and RFC 3986错误解决方案 Chen-Edward SpringBoot firefox 服务器前端 java ide intellij-idea 运维
问题情况ThevalidcharactersaredefinedinRFC7230andRFC3986这个错误提示来自Tomcat，表示请求的URI中包含了不符合RFC7230和RFC3986标准的字符，导致服务器返回了400BadRequest。，我发现问题出在路径参数（pathparameter）中：它包含了方括号[]，而这些字符在Tomcat的默认配置下被视为非法字符。问题根源Tomcat对
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
WebGIS开发系列教程（5）：Openlayers高级功能 WebGIS开发 GIS开发 javascript 开发语言 webgis openlayers
本系列教程为webgis二维开发入门openlayers零基础小白学习教程，本篇为第五篇。完整版可以查看文末链接下载。1.地图标注功能地图标注是将空间位置信息点与地图关联，通过图标、窗口等形式把相关的信息展现到地图上。地图标注也是WebGIS中比较重要的功能之一，在大众应用中较为常见。地图标注的基本原理：获取标注点的空间位置(X、Y逻辑坐标)，在该位置上叠加显示图标(或包含信息的小图片)，必要时以
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
python换行输出字典_Python基础入门：字符串和字典 weixin_39959236 python换行输出字典
10、字符串常用转义字符转义字符描述\\反斜杠符号\'单引号\"双引号\n换行\t横向制表符(TAB)\r回车三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符para_str="""这是一个多行字符串的实例多行字符串可以使用制表符TAB(\t)。也可以使用换行符[\n]。"""print(para_str)#这是一个多行字符串的实例#多行字符串可以使用制表符#TAB()。
mysql数据一致性
前言美团酒店直连项目自2013年末开始，通过业务上的不断完善和技术上的不断改进，至今已经接入200多家供应商，其中在线酒店3万以上，在线SPU30万以上。经过两年的成长，美团酒店直连平台终于在2015年末发展为国内最大的酒店直连业务平台，其接入的业务类型也从最初的经济连锁，拓展到高星渠道、小连锁集团、非标准住宿等，获得了业界一致好评。随着美团点评的日益壮大，客户的需求和系统体量的不断增加，直连平台
【LangChain编程：从入门到实践】使用LangServe提供服务 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】使用LangServe提供服务作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：LangChain,LangServe,微服务架构,API设计,端到端解决方案1.背景介绍1.1问题的由来随着云计算和互联网技术的发展，企业级应用越来越倾向于采用微服务架构。微服务架构允许将大型应用拆分为一组小的服务，每项服务
Python----Python中的集合及其常用方法 redrose2100 Python python 开发语言后端
【原文链接】1集合的定义和特点（1）集合是用花括号括起来的，集合的特点是元素没有顺序，元素具有唯一性，不能重复>>>a={1,2,3,4}>>>type(a)>>>a={1,2,3,1,2,3}>>>a{1,2,3}2集合的常用运算（1）集合元素没有顺序，所以不能像列表和元组那样用下标取值>>>a={1,2,3}>>>a[0]Traceback(mostrecentcalllast):File""
零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
同步复位、异步复位和异步复位同步释放 nananaij fpga开发单片机嵌入式硬件
复位的基本目的是使器件进入到可以稳定工作的确定状态，避免器件在上电后进入随机状态。同步复位同步复位就是在是在时钟上升沿到来时，复位信号有效。下面是一个简单的同步复位的D触发器，代码如下：moduleSync_rst(inputclk,inputrst,//Synchronousresetinput[7:0]d,outputreg[7:0]q);always@(posedgeclk)beginif(
算法复杂度分析每天一个秃顶小技巧算法 java 后端数据结构
算法复杂度分析前言算法（Algorithm）是指用来操作数据、解决程序问题的一组方法。对于同一个问题，使用不同的算法，也许最终得到的结果是一样的，但在过程中消耗的资源和时间却会有很大的区别。那么我们应该如何去衡量不同算法之间的优劣呢？主要还是从算法所占用的「时间」和「空间」两个维度去考量。时间维度：是指执行当前算法所消耗的时间，我们通常用时间复杂度来描述。空间维度：是指执行当前算法需要占用多少内存
数据结构—数组每天一个秃顶小技巧数据结构 golang 后端
数据结构—数组相关数据结构实现用go语言实现相关代码做题合集：https://github.com/longpi1/algorithm-pattern数组（Array）在Go中，数组是固定长度的连续内存块，长度在定义时确定且不可变。数组的使用场景较少，因为切片（slice）更加灵活，通常更常用。所以在做算法题时一般用切片进行编写定义和特点数组的长度是类型的一部分，例如[3]int和[4]int是不
pycharm运行py之路径、导入问题 hellopbc #pycharm python pycharm python python path python import 导入导包调用
文章目录pycharm运行py之路径、导入问题ref实验总结一、运行方式和pycharm窗口二、工作目录`wdir`和系统路径`sys.path`三、模块、包的导入四、大总结pycharm运行py之路径、导入问题加载文件：使用相对路径加载文件时，叠加调用后，会因为工作目录的不同，导致相对路径转绝对路径后，会报找不到文件错误。调用模块：会出现引用的包，在pycharm跳转查看是正常的，但是运行会报错
Python集合生成式
一、前言在Python中，我们已经熟悉了列表生成式（ListComprehension），它为我们提供了一种简洁高效的方式来创建列表。而除了列表之外，Python还支持一种类似的语法结构来创建集合——集合生成式（SetComprehension）。集合生成式不仅可以帮助我们快速构造一个无序且不重复的集合，还能有效提升代码的可读性和执行效率。本文将带你全面了解：✅什么是集合生成式✅集合生成式的语法结
TypeScript简介難釋懷 typescript ubuntu javascript
一、前言随着前端开发的快速发展，JavaScript已经成为构建现代Web应用的核心语言。然而，随着项目规模的增长，JavaScript在类型安全性、代码可维护性和团队协作方面逐渐显现出不足。为了解决这些问题，TypeScript应运而生。它不仅保留了JavaScript的灵活性，还引入了强大的静态类型系统和面向对象编程能力，极大地提升了大型项目的开发效率与稳定性。本文将带你全面了解TypeScr
基于XML的EtherCAT工业以太网协议解析技术研究
基于XML的EtherCAT工业以太网协议解析技术研究【下载地址】基于XML的EtherCAT工业以太网协议解析技术研究探索EtherCAT工业以太网协议解析的新思路，本项目聚焦基于XML的解析技术，为自动化控制领域的研究者和开发者提供深入的技术资源。EtherCAT以其高速、实时特性在工业网络中占据重要地位，而XML的灵活性与结构化数据能力为协议解析带来全新视角。项目不仅详细解析了EtherCA
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
Effective C 中文版资源下载史剑咪Nessa
EffectiveC中文版资源下载去发现同类优质开源项目:https://gitcode.com/欢迎来到本仓库！这里提供了一个非常实用的资源——EffectiveC中文版.pdf。这本书深入浅出地介绍了C语言编程中的各种技巧和最佳实践，无论你是C语言的新手还是有一定基础的程序员，都能从中获得宝贵的知识。本书详细讲解了C语言的各个方面，包括基础语法、高级特性、内存管理、效率优化等。通过阅读本书，你
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C