无水先生

使用 Python 进行自然语言处理第 5 部分：文本分类

一、说明

关于文本分类，文章已经很多，本文这里有实操代码，明确而清晰地表述这种过程，是实战工程师所可以参照和依赖的案例版本。本文是 2023 年 1 月的 WomenWhoCode 数据科学跟踪活动提供的会议系列文章中的一篇。

之前的文章在这里：第 2 部分（涵盖 NLP 简介）、第 3 部分（涵盖 NLTK 和 SpaCy 库）、第 4 部分（涵盖文本预处理技术）、第 <> 部分（涵盖文本表示技术）。

二、什么是文本分类？

文本分类是指将一段文本（例如，客户评论、电子邮件、网页、新闻文章）分类为一些预定义的类别或类。正面、负面或中立的评论评论、垃圾邮件或非垃圾邮件、作为个人或商业页面的网页、有关政治、体育或金融的新闻文章）
即，文本分类是为给定文本分配标签或类的任务。例如，将电子邮件归类为垃圾邮件。出于分类的目的，通常从输入文本中识别出一些信息量很大的特征。
监督机器学习和无监督学习可用于 NLP 中的文本分类。监督学习涉及在标记的数据集上训练分类器。无监督学习不需要标记的数据集，它使用数据的固有属性（相似性）将数据聚类到组中。高质量的标记数据，通常来自人类注释者，对于监督机器学习非常重要。标记的数据通常分为 3 个部分，训练集、验证集和测试集。分类器的性能使用准确率、精确度、召回率和 F1 分数等指标进行评估。

三、文本分类的重要用例：

情绪分析
POS 标签
自然语言推理 — 推断两段文本之间的关系——前提和假设。这种关系的类型——蕴涵性、矛盾性和中性性。

蕴涵：假设由前提支持
矛盾：假设被前提否定
中性：假设和前提之间没有关系例如，
前提：我现在正在看电影。
假设：我现在正在打板球。关系标签：矛盾

4. 检查语法正确性：可接受/不可接受。

四、使用 NLTK 进行文本分类

对于文本分类的第一个示例，我们将使用 nltk 库中内置的movie_reviews语料库。
您可以使用 nltk.download 函数下载 movie_reviews 包： import nltk nltk.download("movie_reviews")

fileids（）方法允许我们访问 nltk.corpus 中数据集中所有文件的列表。movie_reviews数据集有 2000 个文本文件，每个文件都有一个 fileid。这些文件中的每一个都包含对电影的评论。其中 1000 个文件包含负面评论，1000 个包含正面评论。负面文件位于名为“neg”的文件夹中，所有包含正面评论的文件都位于名为“pos”的文件夹中。

#Required imports
import nltk
import random
from nltk.corpus import movie_reviews

#Total no. of review files in corpus
##There are 1000 negative reviews, and 1000 positive reviews (one review per file)
len(movie_reviews.fileids())


#separating filenames in two lists one for positive reviews, one for negative reviews(based on which folder they exists in corpus)
negative_fileids = movie_reviews.fileids('neg')
positive_fileids = movie_reviews.fileids('pos')

# Now we will load all reviews and their labels (i.e., folder name pos or neg in which the review file is present)

reviewswithcategory = [(list(movie_reviews.words(fileid)), category) 
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]
random.shuffle(reviewswithcategory)

接下来，让我们做一些文本预处理：

# Text pre-processing - lower casing, removing stop words and punctuation marks
import string
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
def text_preprocessing(review):
    review = [w.lower() for w in review]
    review = [w.translate(str.maketrans('', '', string.punctuation)) for w in review]
    review = [w for w in review if w not in stop_words]
    review = list(filter(None, review)) #Remove empty strings
    return review

cleaned_reviewswithcategory = []
for review, cat in reviewswithcategory:
    cleanreview = text_preprocessing(review)
    cleaned_reviewswithcategory.append((cleanreview, cat))

# Our variable cleaned_reviewswithcategory is a list of tuples, 
# each tuple in it has a list of words and category label

# here we all getting all words from all tuples into a single iterable
allcleanwords = list(itertools.chain(*cleaned_reviewswithcategory))
allcleanwordslist = []
for m in range(len(allcleanwords)):
   # traversing the inner lists
   for n in range (len(allcleanwords[m])):
      # Add each element to the result list
      allcleanwordslist.append(allcleanwords[m][n])

接下来，我们从电影评论数据中清理过的单词列表中确定 5000 个最常见的单词

# Using NLTK FreqDist for computing word frequencies
freqd = nltk.FreqDist(allcleanwordslist)
# Identifying 5000 most frequent words from Frequency Distribution
frequent_words = list(freqd.keys())[:5000]

现在，我们将只使用这 5000 个单词。对于正面和负面类别中的每条评论，特征向量将包含这些常用词和一个布尔值 True（如果该词存在于该评论中），否则为 False。

# Identify the presence of these most frequent words in out positive and negative reviews.
# This function returns word and True if word is present, else it returns word and False. 

def extract_frequentwordfeatures(text):
    words = set(text) # computing all unique words (vocabulary) in input text
    features = {}
    for w in frequent_words:
        features[w] = (w in words)
    return features

review_features = [(extract_frequentwordfeatures(review), category) for (review, category) in cleaned_reviewswithcategory]

现在，每个评论都由其特征表示，该特征是一个单词列表和一个布尔值 True 或 False，指示该单词是否存在于评论中。列表中共有 2000 条评论。接下来，我们将评审功能拆分为训练和测试部分。在 2000 条评论中，我们将使用 1800 条来训练来自 NLTK 的朴素贝叶斯分类器，并使用 200 条来测试其性能。

# Splitting the documents into training and test portions
train_data = review_features[:1800]
# set that we'll test against.
test_data = review_features[1800:]

# use Naive Bayes classifier from NLTK to train 
clf_nb = nltk.NaiveBayesClassifier.train(train_data)

# After training, let us see the accuracy
print(" Accuracy:",(nltk.classify.accuracy(clf_nb, test_data)))

五、使用 sklearn 分类器对上述评论数据进行分类

from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

names = ['Logistic Regression','Multinomial Naive Bayes', 'Support Vector Machine']

classifiers = [LogisticRegression(),MultinomialNB(),SVC(kernel='linear')]
models = zip(names, classifiers)

text_features, labels = zip(*test_data)

for name, model in models:
    nltk_clf = SklearnClassifier(model)
    nltk_clf.train(train_data)
    accuracy = nltk.classify.accuracy(nltk_clf, test_data)
    print("\n{} Classifier Accuracy: {}".format(name, accuracy))

六、使用 Keras 进行文本分类

在这部分，我们将使用来自 UCI 存储库的 Sentiment Labelled Sentences 数据集。此数据集包含标有正面或负面情绪的句子。情绪是分数的形式，分数是 1 表示积极情绪，0 表示消极情绪。这些句子来自三个不同的网站：imdb.com、amazon.com yelp.com 对于每个网站，存在 500 个正面句子和 500 个负面句子。在这里的示例中，我们将仅使用文件amazon_cells_labelled.txt中的亚马逊评论。

首先，我们将使用 pandas 将数据读入 pandas 数据帧。此数据有两列 — 句子和标签。句子是产品评论，标签是 0 或 1。标签 1 表示积极情绪，0 表示消极情绪。

import pandas as pd
df = pd.read_csv('amazon_cells_labelled.txt', names=['sentence', 'label'], sep='\t')
df.head()

接下来，我们对句子列中的文本进行预处理

# This process_text() function returns list of cleaned tokens of the text
import numpy
import re
import string
import unicodedata
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
stop_words = stopwords.words('english')
lemmatizer = WordNetLemmatizer()

def process_text(text):
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = text.lower()
    text = " ".join([word for word in str(text).split() if word not in stop_words])
    text = " ".join([lemmatizer.lemmatize(word) for word in text.split()])
    return text
df['sentence'] = df['sentence'].apply(process_text)
df['sentence']

现在我们将数据分为训练和测试部分，在此之前，让我们将“句子”列中的文本和“标签”列中的标签分为两个pandas系列——“句子”和“标签”。


# Taking cleaned text and sentiment labels in two separate variables
sentences = df['sentence']
labels = df['label']

# Splitting into train-test portions
from sklearn.model_selection import train_test_split
sentences_train, sentences_test, labels_train, labels_test = train_test_split(sentences, labels, test_size=0.25, random_state=1000)

接下来，我们使用 sklearn 中带有 CountVectorizer 的词袋模型以向量形式表示句子中的文本

# Converting sentences to vectors using Bag of words model with CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()
cv.fit(sentences_train)

vc_traindata = cv.transform(sentences_train)
vc_testdata  = cv.transform(sentences_test)
vc_traindata

现在我们将使用 Keras 进行分类，因此应该在我们的计算机上安装 TensorFlow 和 Keras 库。可以使用 pip 命令从 Jupyter Notebook 中安装它们

!pip install tensorflow
!pip install keras

首先，我们将使用 Keras Tokenizer 来计算文本的单词嵌入

# Using Keras Tokenizer to compute embeddings for text
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(df['sentence'])

# Take the sentence text in a variable X and labels in y.
X = df['sentence']
y = df['label']

#Splitting X and y into train and test portions
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1000)

#converting sentences into vector sequences
X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test)

# Total number of unique words in our sentences
vocab_size = len(tokenizer.word_index) + 1  # Adding 1 because of reserved 0 index
print('Vocabulary size:' , vocab_size)

然后，我们将填充所有向量（代表产品评论的文本）的长度相同 — 50

# padding vector sequences to make them all of same length
from keras_preprocessing.sequence import pad_sequences
maxlen = 50
X_train = pad_sequences(X_train, padding='post', maxlen=maxlen)
X_test = pad_sequences(X_test, padding='post', maxlen=maxlen)
print(X_train[4, :])

七、使用 Keras 的嵌入层

我们现在将使用 Keras 的嵌入层，它采用先前计算的整数并将它们映射到嵌入的密集向量。它需要以下参数：

input_dim：词汇量的大小
output_dim: the size of the dense vector
input_length: the length of the sequence

我们可以获取嵌入层的输出并将其插入密集层。为此，我们需要在中间添加一个 Flatten 层，为 Dense 层准备顺序输入。

在训练期间，要训练的参数数vacab_size乘以embedding_dim。嵌入层的权重是随机初始化的，然后在训练期间使用反向传播进行微调。该模型将按句子顺序出现的单词作为输入向量

在下面的代码中，我们使用嵌入层 GlobalMaxPool1D 进行扁平化，以及由 15 个神经元和一个输出层组成的密集层。我们编译了 keras 模型。

from keras.models import Sequential
from keras import layers

embedding_dim = 100
maxlen = 50
model = Sequential()
model.add(layers.Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=maxlen))
model.add(layers.GlobalMaxPool1D())
model.add(layers.Dense(15, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy'])
model.summary()

接下来，我们将模型拟合在 50 个 epoch 的训练数据上，并评估其性能。使用 matplotlib 绘制模型的准确性

import matplotlib.pyplot as plt
plt.figure(figsize=(9, 5))

history = model.fit(X_train, y_train,epochs=50, verbose=False,validation_data=(X_test, y_test), batch_size=10)
loss, accuracy = model.evaluate(X_train, y_train, verbose=False)
print("Training Accuracy: {:.4f}".format(accuracy))
loss, accuracy = model.evaluate(X_test, y_test, verbose=False)
print("Testing Accuracy:  {:.4f}".format(accuracy))

acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']
x = range(1, len(acc) + 1)
plt.plot(x, acc, 'b', label='Training acc')
plt.plot(x, val_acc, 'r', label='Validation acc')
plt.legend()
plt.title('Training and validation accuracy')
plt.show()

在下一篇文章中，我们将看看变形金刚。代码出处尼姆里塔·库尔

参考和引用：

https://developers.google.com/machine-learning/guides/text-classification
Text Classification with Python and Scikit-Learn
https://towardsdatascience.com/a-practitioners-guide-to-natural-language-processing-part-i-processing-understanding-text-9f4abfd13e72
Text Classification using NLTK | Foundations of AI & ML
Practical Text Classification With Python and Keras – Real Python
Text Classification with NLTK | Chan`s Jupyter
https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/
https://medium.com/analytics-vidhya/nlp-tutorial-for-text-classification-in-python-8f19cd17b49e
Practical Text Classification With Python and Keras – Real Python

在Springboot中集成unihttp后应用无法启动的解决办法夜郎king java 集成Unihttp报错 Java 集成Unihttp Spring集成unihttp
目录前言一、最开始的应用集成1、使用unihttp定义第三方访问接口2、在SpringBoot应用中集成unihttp3、启动时发生的问题二、问题解决1、一种解决办法2、未来的优化三、总结前言在当今的软件开发领域，SpringBoot框架以其简洁、高效、灵活的特点，成为了众多开发者构建Java应用程序的首选。它能够帮助开发者快速搭建项目，简化繁琐的配置过程，让开发变得更加高效和便捷。而UniHtt
Linux的权限巷子里的童年ya linux 运维服务器 centos
基本权限与归属读取：允许查看内容-readr写入：允许修改内容-writew可执行：允许运行和切换-excutex1、对于文本文件：r读取权限：cat、less、grep、head、tailw写入权限：vim、>、>>x可执行权限：Shell与Python\Go2、对于目录：r读取权限：ls命令查看目录内容w写入权限：能够创建、删除、修改等目录的内容x执行权限：能够cd切换到此目录下（进入此目录）
正则表达式基本语法和Java中的简单使用 XF鸭 SX记录正则表达式
先来个例子publicstaticfinalPatternCHINESE_PATTERN=Pattern.compile("[\\u4e00-\\u9fa5]");/检测字符串是否包含汉字Stringtext="Hello世界";booleanhasChinese=CHINESE_PATTERN.matcher(text).find();//返回true//提取所有汉字Matchermatcher
Java项目设计文档：架构、模块与实现策略详解体制教科书
本文还有配套的精品资源，点击获取简介：Java项目设计文档是项目规划、实施和维护的重要指导工具，包含系统架构、模块划分、接口定义、类设计、数据库设计、异常处理、测试计划、性能优化以及部署运维等方面。本设计文档集合对于理解Java项目的架构设计和提升项目开发质量具有极高的参考价值。1.项目背景阐述在当今数字化转型的大潮中，企业对于IT系统的依赖日益加重。项目背景阐述这一章，将为您揭示本次项目的发起缘
java调用自己写的类型_Java基础——自定义类的使用跑马溜溜 java调用自己写的类型
自定义类我们可以把类分为两种：1.一种是java中已经定义好的类，如之前用过的Scanner类、Random类，这些我们直接拿过来用就可以了。2.另一种是需要我们自己去定义的类，我们可以在类中定义多个方法和属性来供我们实际的使用。什么是类呢？在java中，我们可以将现实生活中的事物通过描述来写成代码，我们可以自定义类来描述生活中的事物。比如我们可以将人进行描述，人的姓名，年龄，性别都是人的特有属性
Java 程序员必读书单 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 Java实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Java是一门高级、新兴的静态面向对象编程语言，在互联网、移动互联网、大数据、云计算、人工智能、物联网等领域都有广泛应用。作为Java程序员的你是否也经常被面试官或者HR问到有关Java的知识点呢？如果你最近在准备面试或阅读相关技术文档，则本文正是适合你。在本文中，我将给你一些你可能不知道的关于Java的重要概念和知识，并通过具体的代码示例和图表来帮助你理解这些
大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
Python 学习笔记1 - 认识Python Scora_liu Python 学习笔记 python
一、什么是Python1989年圣诞节期间，荷兰数学和计算机科学研究学会的GuidovanRossum（吉多.范罗苏姆）决心开发一个新的解释程序，作为ABC语言的替代品。这门ABC语言的替代语言被取名为Python,命名来自Guido爱看的的电视剧MontyPython'sFlyingCircus（蟒蛇马戏团）。二、什么是Python（⭐⭐）Python是一门解释型语言。计算机不能识别任何除了机器
C# SerialPort 类中 Handshake 属性的作用鲤籽鲲上位机 c#开发语言上位机
总目录前言在C#的SerialPort类中，Handshake属性用于指定串口通信中的流量控制（FlowControl）方案，以协调发送方和接收方的数据传输速率，防止数据溢出或丢失。一、Handshake属性基本信息1.作用C#中SerialPort.Handshake属性的核心作用是通过硬件或软件流控制协议，管理串口通信中的数据流，防止缓冲区溢出并确保数据传输的可靠性。System.IO.Por
HarmonyOS NEXT 基于原生能力获取视频缩略图
大家好，我是V哥。不得不佩服HarmonyOSNEXT原生能力的强大，如果你想在鸿蒙APP开发中获取视频缩略图，不用依赖第三方库，就可以高效和稳定的实现，AVMetadataHelper就是一个好帮手，下面V哥整理实现步骤的代码，帮助你快速理解，开整。想要学习鸿蒙开发，一定绕不开学习ArkTS语言，V哥写了三本鸿蒙开发之路的书，第一本《鸿蒙HarmonyOSNEXT开发之路卷1ArkTS篇》已上市
灵活运用HarmonyOS NEXT布局管理器，实现完美的自适应布局 harmonyos
灵活运用HarmonyOSNEXT布局管理器，实现完美的自适应布局在多设备和多样化的屏幕尺寸环境中开发应用时，创建一个既能适应不同屏幕尺寸又能保持良好视觉效果的布局至关重要。本文将深入探讨HarmonyOSNEXT提供的几种布局管理器及其工作原理，指导开发者如何利用这些工具实现高效的自适应布局，并提供API12版本的具体示例代码。Flex布局：沿主轴和交叉轴排列子元素Flex布局是一种强大的布局模
鸿蒙开发：正则中的match和matchAll
前言本文基于Api13关于正则表达式，其实之前也撰写过相关文章，但没有对match和matchAll做过详细的分析，虽然都是用于常见的字符串匹配，但是在使用方式上还是具有一定的区别；大家记住一点，正则表达式适用于所有的编程语言，可能有些语法和使用方式有些不同，但基本的原理是一样的。我们先看下源码：match：将字符串与正则表达式匹配，并返回一个包含该搜索结果的数组。/***Matchesastri
ArkTS函数与模块的定义与调用 harmonyos
ArkTS是一种面向全场景的声明式编程语言，它在函数与模块的定义和调用方面有着独特的特点和优势。一、ArkTS函数的定义在ArkTS中，函数是一段可以重复使用的代码块，用于执行特定的任务。函数可以接受输入参数，并返回一个值。例如：在这个例子中，add是函数名，a和b是输入参数，number是参数和返回值的类型。通过定义函数，可以将复杂的任务分解为较小的、可管理的部分，提高代码的可读性和可维护性。二
筛选素数的三种方法小赖同学吖算法 c++
判断一个数是不是素数，相信大家都知道，那么如果每一个数，都规规矩矩的使用判断[1,本身]是否有除了本身和1，以外的可以整除的数，这样的做法显然不可取的，如果查看1~n的素数，这样的时间复杂度为O（n^2）1.朴素筛法这个筛法的思想是，每一次把枚举到的数x的倍数筛选掉，这样就可以优化一些时间复杂度为O(N*lnN)具体代码#includeusingnamespacestd;intn,cnt;cons
深入探索HarmonyOS NEXT自定义组件与样式，提升应用个性化水平 harmonyos
深入探索HarmonyOSNEXT自定义组件与样式，提升应用个性化水平在HarmonyOSNEXT平台上开发应用程序时，创建自定义组件和有效应用样式是实现独特用户体验的关键。本文将详细介绍如何从零开始构建自定义组件，并探讨如何利用样式系统来统一整个应用的视觉风格。我们将重点介绍API12版本中支持的功能和技术，帮助开发者提升应用的个性化水平。创建自定义组件：封装特定功能和外观自定义组件允许开发者封
HarmonyOS NEXT 应用开发：用户反馈收集与处理 harmonyos
在应用的生命周期中，用户反馈是提升应用质量、优化用户体验以及增强市场竞争力的重要依据。对于开发者来说，如何有效地收集、分析和处理用户反馈，已成为一项关键的运营任务。在HarmonyOSNEXT环境中，开发者不仅需要关注功能实现和技术优化，还需要建立高效的用户反馈机制，以确保应用能够持续满足用户需求、解决用户痛点，并在市场中不断迭代和进步。本部分将介绍在HarmonyOSNEXT应用开发中，如何通过
3.22 codeforces小结 Brokenrivers 总结随记 Codeforces 算法竞赛编译错误签到题实战经验
说来好笑，也算接触小半年算法了，这次算是第一次"正式"的打cf。之前因为一些原因比较倾向于找个空闲时间上oj上刷题，虽然知道cf对一个搞算法竞赛的人的重要性，但是一直没去蹲点打比赛（我觉得就是我们宿舍这破网上个cf要转两分钟圈圈还经常崩的原因），最多会在比赛结束找比赛题目的文档练习。这次因为组队了，希望能和队友实时交流，手机开了梯子热点打完了这次的cf。感觉就是，自己像个傻子一样，提交代码的语言选
C++ 的内存管理有哪些改进？ c++
C++20引入了对协程的官方支持，这是C++语言发展的一个重要里程碑。协程为异步编程、并发任务处理以及复杂的控制流提供了一种更高效、更简洁的解决方案。以下是C++20中协程支持的主要优势：一、简化异步编程在传统的异步编程中，开发者通常需要使用回调函数、std::future和std::promise等机制来处理异步任务。这些方法虽然有效，但代码往往难以阅读和维护，且容易出错。C++20的协程提供了
深度对比：Chrome扩展框架 Crx.js vs. Plasmo vs. WXT 前端chrome
浏览器扩展开发领域正在快速进化。本文将从GitHub人气、上手体验、云服务支持、MVVM框架兼容性、工程化能力和社区生态六大维度，完整呈现三大框架的差异,并分析各自更适合的场景。框架GitHub统计社区表现技术特点Plasmo11k+StarsDiscord/GitHub活跃讨论持续稳定迭代（周均5次更新）WXT6.2kStars频繁出现技术对标讨论基于Vite的现代化架构Crx.js较低星标数生
【赵渝强老师】达梦数据库的逻辑存储结构数据库信创
达梦数据库由硬盘上的文件组成，而要读写数据需要通过达梦实例来完成。那么，达梦数据库是如何存储数据的呢？要搞清楚这个问题，就需要理解什么是达梦数据库的存储结构。达梦数据库的存储结构是由逻辑存储结构和物理存储结构组成。一般来说数据库无论是关系型数据库，还是NoSQL数据库在存储结构上，都是通过逻辑存储结构来管理物理存储结构。视频讲解如下：https://www.bilibili.com/video/B
一文彻底搞清楚HarmonyOS NEXT的元服务 harmonyos-next
程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、嵌入式、鸿蒙、人工智能等,专注于程序员成长那点儿事,希望在成长的路上有你相伴！君志所向,一往无前！1.什么是元服务在万物互联时代，人均持有设备量不断攀升，设备种类和使用场景更加多样，使得应用开发、应用入口变得更加复杂。在此背景下，应用提供方和用户迫切需要一种新的服务提供方式，使应用开发更简单、服务（如听音乐、打车等）的获取和
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
C++ 支持哪些面向对象特性？ c++
C++是一种支持面向对象编程（OOP）的语言，它提供了丰富的面向对象特性，使得开发者能够以类和对象为核心来组织代码。以下是C++支持的主要面向对象特性：一、类（Class）类是C++中面向对象的核心概念，它是一种用户自定义的数据类型，用于封装数据和操作数据的函数。类可以包含成员变量（属性）和成员函数（方法），并通过构造函数和析构函数管理对象的生命周期。（一）定义类cpp复制classMyClass
费控系统是做什么的费控系统
费控系统主要用于费用监控**、成本控制、风险预警。其中费用监控通过实时采集和精细数据分析，帮助企业实时掌握资金流向和支出情况，从而确保预算执行与资金使用的准确性。企业借助该系统可以提前预警异常支出、降低运营风险，并借助数据反馈不断优化管理策略，从而提升整体财务透明度和管理效率。一、费控系统的概念与基本功能费控系统是企业在财务管理中的重要工具，主要用于对企业各项费用进行实时监控和管理。它通过对各部门
蓝桥杯算法实战：技巧、策略与进阶之路竣雄蓝桥杯算法职场和发展
摘要蓝桥杯作为国内颇具影响力的程序设计竞赛，对提升大学生算法思维与编程能力意义重大。本文深入剖析蓝桥杯算法竞赛，结合历年真题总结核心考点与典型题型，分享实用解题技巧与备考策略，并探讨算法优化与进阶方向。通过系统学习与实践，助力参赛者提升算法水平，在竞赛中取得优异成绩。关键词蓝桥杯；算法竞赛；解题技巧；备考策略；算法优化一、引言蓝桥杯全国软件和信息技术专业人才大赛旨在选拔优秀的软件和信息技术人才，推
多元素Slots游戏数值设计与平衡：特色玩法的深度策略小宝哥Code 游戏策划游戏 microsoft 网络
问题：如何深入研究针对特色游戏（如多元素组合类游戏，多重路线设计游戏）进行专业的数值设计与平衡，确保游戏体验与平台效益双赢？多元素Slots游戏数值设计与平衡：特色玩法的深度策略一、特色Slots游戏的市场定位与设计理念在当今竞争激烈的Slots游戏市场中，传统单一玩法已难以满足玩家日益增长的复杂需求。作为资深Slots游戏策划，我深知特色玩法如多元素组合和多重路线设计已成为市场差异化的关键。1.
嵌入式系统开发如何选择和备考软考高级矿渣渣系统架构
针对已通过软考中级嵌入式系统设计师的开发者或者从事嵌入式系统设计的人员，以下是为您量身定制的高级科目推荐及备考方案：一、软考高级科目推荐1.系统架构设计师（首推）推荐理由：技术延续性：与嵌入式系统设计高度相关，涉及硬件/软件协同设计、实时系统架构、低功耗设计等核心领域。职业发展：适合向架构师或技术负责人转型，提升复杂系统设计能力。考试内容匹配：覆盖嵌入式场景（如物联网架构、边缘计算系统设计）。考试
前端框架入门：Vue 基础风亦辰739 前后端开发全栈指南 vue.js 前端框架前端
Vue.js是一款流行的前端框架，专注于构建用户界面。它采用响应式数据绑定和组件化开发，易于上手且功能强大。Vue3版本引入了CompositionAPI，提升了开发效率。一、Vue.js基础1.Vue介绍Vue是一个渐进式JavaScript框架，可用于：构建单页应用（SPA）。组件化开发，提高代码复用性。结合Vuex（状态管理）和VueRouter（路由）开发大型应用。2.Vue模板语法Vue
Linux使用pidof命令来快速查找进程id linux
简介pidof命令用于查找Linux中正在运行的程序的进程ID(PID)。它有助于管理和控制进程。基本语法pidof[options]program_name常用选项-s：单次-指示程序仅返回一个pid-q：安静模式，抑制任何输出并仅相应地设置退出状态-w：还显示没有可见命令行的进程（例如内核工作线程）-x：这会导致程序也返回运行指定脚本的shell的进程ID-o：告诉pidof忽略具有该进程ID
残疾人员检测数据集VOC+YOLO格式3168张5类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：3168标注数量(xml文件个数)：3168标注数量(txt文件个数)：3168标注类别数：5标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["person-ba
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>