海盐味的小圆饼

学习笔记：情感分析

一、项目目标

（一）将Twitter数据集可视化，制作出直方图、词云等；

（二）掌握LSTM算法原理；

（三）学会利用NLTK语料库进行数据清洗；

（四）可以用深度学习进行预测分析。

二、实验原理

（一）NLTK语料库

NLTK，全称Natural Language Toolkit，自然语言处理工具包，是NLP研究领域常用的一个Python库，由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块，至今已有超过十万行的代码。这是一个开源项目，包含数据集、Python模块、教程等；NLTK可以搜索文本、计数词汇等，具有简易性、一致性、可扩展性和模块化等优点。本项目中用到了wordnet和stopwords两个语料库。

Wordnet

WordNet是由Princeton 大学的心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列，而且按照单词的意义组成一个“单词的网络”。它是一个覆盖范围宽广的英语词汇语义网。名词，动词，形容词和副词各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接。WordNet包含描述概念含义，一义多词，Wordnet目前主要针对英文处理，想要使用它处理中文就需要构建中文的wordnet，把现有的知识加入该结构，其实也不需要从零做起，比如类别归属，同义，反义，通用的有“同义词词林”字典可供使用，在很多的专业领域，也有概念的类别及关系定义（如各种医学词典），只是格式有所不同。另外，还可以通过翻译，使用英文的WordNet的一部分数据，翻译过程中的问题主要是词汇的多义性，不过有些专有名词，歧义不大。

stopwords

人类语言包含很多功能词。与其他词相比，功能词没有什么实际含义。最普遍的功能词是限定词（“the”、“a”、“an”、“that”、和“those”），这些词帮助在文本中描述名词和表达概念，如地点或数量。介词如：“over”，“under”，“above” 等表示两个词的相对位置。这些功能词的两个特征促使在搜索引擎的文本处理过程中对其特殊对待。第一，这些功能词极其普遍。记录这些词在每一个文档中的数量需要很大的磁盘空间。第二，由于它们的普遍性和功能，这些词很少单独表达文档相关程度的信息。如果在检索过程中考虑每一个词而不是短语，这些功能词基本没有什么帮助。在信息检索中，这些功能词的另一个名称是：停用词（stopword）。称它们为停用词是因为在文本处理过程中如果遇到它们，则立即停止处理，将其扔掉。将这些词扔掉减少了索引量，增加了检索效率，并且通常都会提高检索的效果。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

为节省存储空间和提高搜索效率，搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词，这些字或词即被称为Stop Words(停用词)。通常意义上，Stop Words大致为如下两类：

这些词应用十分广泛，在Internet上随处可见，比如“Web”一词几乎在每个网站上均会出现，对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率；
这类就更多了，包括了语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”之类。

举个例子来说，像“IT技术点评”，虽然其中的“IT”从我们的本意上是指“Information Technology”，事实上这种缩写也能够为大多数人接受，但对搜索引擎来说，此“IT”不过是“it”，即“它”的意思，这在英文中是一个极其常见同时意思又相当含混的词，在大多数情况下将被忽略。我们在IT技术点评中保留“IT”更多地面向“人”而非搜索引擎，以求用户能明了IT技术点评网站涉及的内容限于信息技术，虽然从SEO的角度这未必是最佳的处理方式。

（二）LSTM网络

LSTM，是为了解决长期以来问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。

图 1LSTM结构

LSTM的关键在于细胞的状态整个(绿色的图表示的是一个cell)，和穿过细胞的那条水平线。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

图 2LSTM内部结构

三、实验及分析

（一）数据集

本项目使用sentiment140数据集。它包含使用twitter api提取的1,600,000条推文。这些推文已添加注释（0 =否定，4 =肯定），可用于检测情绪。

它包含以下6个字段：

target：推特的极性（0 =负极，2 =中性，4 =正）

ids：推特的id（2087）

date：推特的日期（UTC 2009__年__5__月__16__日星期六__23:58:44）

flag：查询（lyx）。如果没有查询，则此值为NO_QUERY。

user：发推的用户（robotickilldozr）

text：推特的文字（Lyx__很酷）

（二）数据准备与处理

import zipfile

zipName = "twitter_dataset.zip"

with zipfile.ZipFile('./twitter_dataset.zip') as z:

z.extractall()

# 数据集中总共有6列。

dataset = pd.read_csv('./twitter_dataset.csv', encoding='ISO-8859-1',

names=['Sentiment', 'Id', 'Date', 'Flag', 'User', 'Tweet'])

print("Total tweets in the dataset: %.2f Million"%(dataset.shape[0]/1000000.0))

# 使用info方法获取有关数据集的更多信息。

dataset.info()

（三）特征分析（查看每个列并确定其中有用的列）

1.绘制推文情绪的条形图

数据集如何在正面和负面情绪值之间分配？绘制一个推文情绪的条形图，负面为红色，正面推文为绿色。

class_count = dataset['Sentiment'].value_counts() # Returned in descending order [4, 0]

plt.figure(figsize = (12, 8))

plt.xticks([4, 0], ['Positive', 'Negative'])

plt.xticks([4, 0])

plt.bar(x = class_count.keys(),

height = class_count.values,

color = ['g', 'r'])

plt.xlabel("Tweet sentiment")

plt.ylabel("Tweet count")

plt.title("Count of tweets for each sentiment")

plt.show()

如图3数据集均匀分布在正（4）和负（0）推文之间：

图 3正面负面情绪分配

2.日期

如果我希望根据日期查看推文，日期是一个重要功能。我将从每条推文中提取月份，然后绘制每个月的推文数量。

dataset['Month'] = dataset['Date'].apply(lambda date: date.split(' ')[1])

months_count = dataset['Month'].value_counts()

plt.figure(figsize = (12, 8))

plt.bar(['Jun', 'May', 'Apr'], months_count.values, color = ['b', 'g', 'r'])

for i, v in enumerate(months_count.values):

plt.text(i - 0.1, v + 10000, str(v))

plt.xlabel('Months')

plt.ylabel('Number of tweets')

plt.title('Tweets during months of 2009')

plt.show()

如图4，我们可以看到，2009年6月的推文数量最多。

图 4推文发布数量前3月份

（四）词云

推文中有很多元素，有用户名，网址，表情符号，额外的点，感叹号和许多其他符号。

我们可以根据他们的情绪结合所有推文，并创建他们各自的wordclouds。

正面词汇词云

positive_tweets = ' '.join(dataset[dataset['Sentiment'] == 4]['Tweet'].str.lower())

negative_tweets = ' '.join(dataset[dataset['Sentiment'] == 0]['Tweet'].str.lower())

wordcloud = WordCloud(stopwords = STOPWORDS, background_color = "white", max_words = 1000).generate(positive_tweets)

plt.figure(figsize = (12, 8))

plt.imshow(wordcloud)

plt.axis("off")

plt.title("Positive tweets Wordcloud")

图 5正面词汇词云

负面词汇词云

wordcloud = WordCloud(stopwords = STOPWORDS, background_color = "white", max_words = 1000).generate(negative_tweets)

plt.figure(figsize = (12, 8))

plt.imshow(wordcloud);

plt.axis("off")

plt.title("Negative tweets Wordcloud")

图 6负面词汇词云

（五）数据清洗

from termcolor import colored

from sklearn.model_selection import train_test_split

# 定义列名变量

COLUMNS = ['Sentiment', 'Id', 'Date', 'Flag', 'User', 'Tweet']

# 读取数据集

dataset = pd.read_csv('./twitter_dataset.csv', names=COLUMNS, encoding='latin-1')

print(colored("Columns: {}".format(', '.join(COLUMNS)), "yellow"))

# 去除额外的列

print(colored("Useful columns: Sentiment and Tweet", "yellow"))

print(colored("Removing other columns", "red"))

dataset.drop(['Id', 'Date', 'Flag', 'User'], axis = 1, inplace = True)

print(colored("Columns removed", "red"))

（六）拆分数据集并保存

#Train test split

print(colored("Splitting train and test dataset into 80:20", "yellow"))

X_train, X_test, y_train, y_test = train_test_split(dataset['Tweet'], dataset['Sentiment'], test_size = 0.20, random_state = 100)

train_dataset = pd.DataFrame({

'Tweet': X_train,

'Sentiment': y_train

})

print(colored("Train data distribution:", "yellow"))

print(train_dataset['Sentiment'].value_counts())

test_dataset = pd.DataFrame({

'Tweet': X_test,

'Sentiment': y_test

})

print(colored("Test data distribution:", "yellow"))

print(test_dataset['Sentiment'].value_counts())

print(colored("Split complete", "yellow"))

（七）自然语言数据预处理

import re

import nltk

import numpy as np

import pandas as pd

import ssl

try:

_create_unverified_https_context = ssl._create_unverified_context

except AttributeError:

pass

else:

ssl._create_default_https_context = _create_unverified_https_context

from nltk.corpus import stopwords

from termcolor import colored

from nltk.stem import PorterStemmer

from nltk.stem import WordNetLemmatizer

print("Loading data")

train_data = pd.read_csv('./train.csv')

test_data = pd.read_csv('./test.csv')

# 设置停词

STOPWORDS = set(stopwords.words('english'))

STOPWORDS.remove("not")

# 扩展推文的功能

def expand_tweet(tweet):

expanded_tweet = []

for word in tweet:

if re.search("n't", word):

expanded_tweet.append(word.split("n't")[0])

expanded_tweet.append("not")

else:

expanded_tweet.append(word)

return expanded_tweet

# 处理推文的函数

def clean_tweet(data, wordNetLemmatizer, porterStemmer):

data['Clean_tweet'] = data['Tweet']

print(colored("Removing user handles starting with @", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].str.replace("@[\w]*","")

print(colored("Removing numbers and special characters", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].str.replace("[^a-zA-Z' ]","")

print(colored("Removing urls", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].replace(re.compile(r"((www\.[^\s]+)|(https?://[^\s]+))"), "")

print(colored("Removing single characters", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].replace(re.compile(r"(^| ).( |$)"), " ")

print(colored("Tokenizing", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].str.split()

print(colored("Removing stopwords", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].apply(lambda tweet: [word for word in tweet if word not in STOPWORDS])

print(colored("Expanding not words", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].apply(lambda tweet: expand_tweet(tweet))

print(colored("Lemmatizing the words", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].apply(lambda tweet: [wordNetLemmatizer.lemmatize(word) for word in tweet])

print(colored("Stemming the words", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].apply(lambda tweet: [porterStemmer.stem(word) for word in tweet])

print(colored("Combining words back to tweets", "yellow"))

data['Clean_tweet'] = data['Clean_tweet'].apply(lambda tweet: ' '.join(tweet))

return data

# 定义处理方法

wordNetLemmatizer = WordNetLemmatizer()

porterStemmer = PorterStemmer()

# 推文的预处理以及文件保持

print(colored("Processing train data", "green"))

train_data = clean_tweet(train_data, wordNetLemmatizer, porterStemmer)

train_data.to_csv('./clean_train.csv', index=False)

print(colored("Train data processed and saved to data/clean_train.csv", "green"))

print(colored("Processing test data", "green"))

test_data = clean_tweet(test_data, wordNetLemmatizer, porterStemmer)

test_data.to_csv('./clean_test.csv', index=False)

print(colored("Test data processed and saved to data/clean_test.csv", "green"))

（八）深度学习进行预测分析

1.分词

# 载入数据

print(colored("Loading train and test data", "yellow"))

#由于数据量过大我们抽取部分数据进行测试

train_data = pd.read_csv('./clean_train.csv').sample(12800)

test_data = pd.read_csv('./clean_test.csv').sample(3200)

print(colored("Data loaded", "yellow"))

# Tokenization

print(colored("Tokenizing and padding data", "yellow"))

tokenizer = Tokenizer(num_words = 2000, split = ' ')

tokenizer.fit_on_texts(train_data['Clean_tweet'].astype(str).values)

train_tweets = tokenizer.texts_to_sequences(train_data['Clean_tweet'].astype(str).values)

max_len = max([len(i) for i in train_tweets])

train_tweets = pad_sequences(train_tweets, maxlen = max_len)

test_tweets = tokenizer.texts_to_sequences(test_data['Clean_tweet'].astype(str).values)

test_tweets = pad_sequences(test_tweets, maxlen = max_len)

print(colored("Tokenizing and padding complete", "yellow"))

2.利用深度学习进行自然语言情感分析

# 构建模型

print(colored("Creating the LSTM model", "yellow"))

#定义一个网络容器

model = Sequential()

#降维:输入（input_length，2000）输出（input_length,128）

model.add(Embedding(2000, 128, input_length = train_tweets.shape[1]))

#随机失活随机将百分之四十的值变为0

model.add(SpatialDropout1D(0.4))

#短时神经网络输出256*1

model.add(LSTM(256, dropout = 0.2))

#全连接层输出未2*1激活函数softmax

model.add(Dense(2, activation = 'softmax'))

#超参数设置loss损失函数 optimizer学习率adam自适应学习率算法

model.compile(loss = 'categorical_crossentropy', optimizer = 'adam', metrics = ['accuracy'])

model.summary()

# 训练模型

print(colored("Training the LSTM model", "green"))

history = model.fit(train_tweets, pd.get_dummies(train_data['Sentiment']).values, epochs = 10, batch_size = 128, validation_split = 0.2)

print(colored(history, "green"))

# 测试模型

print(colored("Testing the LSTM model", "green"))

score, accuracy = model.evaluate(test_tweets, pd.get_dummies(test_data['Sentiment']).values, batch_size = 128)

print("Test accuracy: {}".format(accuracy))

四、实验结果

LSTM模型结构输出，全连接层输出2*1激活函数softmax；

图 7LSTM模型结构输出

训练集的准确率可以达到0.8539；

图 8训练数据

测试集的准确率可达0.7113；

图 9测试数据

五、总结

项目过程中遇到的一些问题：

（一）首先是数据集的下载，网上找了很多数据都不匹配，最后在天池阿里云中下载（数据集-阿里云天池）；

（二）其次是NLTK语料库的下载，报图10的错误，根据原作者提供的思路更改网页权限（图11），还是未能解决。在大量的参考资料之后得出了以下可行办法：

进入cmd，在python中执行：

>>>import nltk

>>>nltk.downloads()

enter进入会出现图12的情况，将sever index更改为http://www.nltk.org/nltk_data/(如图13)，即可下载到本地；

直接下载

链接：nltk_data/packages/corpora at gh-pages · nltk/nltk_data · GitHub；

图 10NLTK在线下载报错

图 11添加了nltk官网网页权限

图表 12nltkDownloader报错

图表 13server index更改后

（三）stopwords和wordnet存放路径错误

每个人的存放路径可能不相同，放于它提示的文件路径下即可。如图14。

图 14报错提示

六、引用

（1）知识图谱之WordNet_xieyan0811的博客-CSDN博客_wordnet知识库

（2）基于pytorch的文本分类（使用Sentiment140数据集）_ajiujiujiu的博客-CSDN博客

（3）nltk安装Wordnet出错[nltk_data] Error loading wordnet: ＜urlopen error [Errno 111]_LawsonAbs的博客-CSDN博客

你可能感兴趣的:(学习笔记,学习,自然语言处理,python)

python动态全局缓存配置 king9666 python 缓存
在内存中缓存配置，但提供手动或自动刷新机制。使用文件的修改时间戳（mtime）来判断文件是否更新，只有在文件更新时重新读取importosimportjson_cached_config=None_cached_config_mtime=Nonedefread_config():global_cached_config,_cached_config_mtimeconfig_file=os.path
Maui学习笔记-身份认证和授权案例 Mr.L70517 Maui学习笔记学习笔记 ios c#http
在深入研究身份验证和授权时，可能会遇到很多术语。我们来简单介绍一下。Authentication，简单来讲时认证、验证身份检查用户名和密码，更高级方法设计到指纹、扫描、人脸识别或2FA认证。Authorization，授权，一旦通过身份认证，系统就可以决定当前用户是否有访问某些信息或执行一些操作的授权。OpenAuthorization(OAuth)，开放授权，它允许第三方用户访问你的程序，而无需
THULAC-Python 使用教程时昕海Minerva
THULAC-Python使用教程THULAC-PythonTHULAC-Python:由清华大学开发的中文词法分析工具包，提供中文分词和词性标注功能。项目地址:https://gitcode.com/gh_mirrors/th/THULAC-Python项目介绍THULAC（THULexicalAnalyzerforChinese）是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词
TypeScript 学习 -类型 - 8 草明 TypeScript typescript 学习 javascript
交叉类型与联合类型交叉类型interfaceDogInterface{run():void;}interfaceCatInterface{jump():void;}letpet:DogInterface&CatInterface={run(){},jump(){},};联合类型只能访问公共的方法约束不可以漏处理某个类型typeShape=Square|Rectangle|Circle;//约束不可
TypeScript 学习 -类型 - 9 草明 TypeScript typescript 学习 javascript
声明合并成员变量合并：成员变量会合并，但类型必须一致。成员函数合并：如果函数签名不同，合并后的函数会是签名的联合类型。接口声明顺序：在同一个接口内按顺序合并；不同接口时，后声明的会覆盖前声明的。函数字面量优先级：如果有函数字面量，它们会优先合并。interfacePerson{name:string;}interfacePerson{age:number;}interfacePerson{age:
链表的基础知识 erchazhan 链表网络数据结构
在大一学习链表的过程中，感觉有许多没有学过的知识，这篇文章，算是我的第一篇学习笔记，可以在后续学习中回顾，有不对的情况可以提出，谢谢大家的建议。#pragmaonce#include#include//#include"SList.h"typedefintSLDateType;//voidSListPrint(SListNode*phead);定义结构体typedefstructNode{SLDa
STM32完全学习——0V5640的JPEG模式采集小A159 学习
一、写在前面我参考的是买开发板的时候，普中送的资料里面的源码，他那个是用标准库写的，我将他的代码移植到了HAL库，有一些不一样的地方。由于标准库和HAL库的差别造成的。二、编程思路首先初始化OV5640模块，使用的是SCCB总线，和I2C很像，具体的就不说了，再就是将OV5640设置成JPEG输出模式，然后就是调整OV5640输出的图像的大小。下来就是开启DMA传输。然后每捕获一帧图像，DCMI会
【Python】探索自然语言处理的利器：THULAC 中文词法分析库详解技术无疆 Python 人工智能自然语言处理人工智能 python 数据挖掘机器学习深度学习神经网络
THULAC（THULexicalAnalyzerforChinese）是清华大学开发的一款中文词法分析工具，集成了分词和词性标注两大功能。THULAC拥有强大的分词能力和高效的词性标注，适用于多种中文文本处理场景。该工具能够在保证高准确率的同时保持较快的处理速度，非常适合大规模中文数据处理。⭕️宇宙起点THULAC的特点安装与配置1.使用pip安装2.使用GitHub源码安装♨️使用方法1.分词
Mongodb 慢查询日志分析 - 1 草明 mongodb mongodb python 数据库
Mongodb慢查询日志分析使用mloginfo处理过的日志会在控制台输出,显示还是比较友好的.但是如果内容较大,就不方便查看了,如果可以导入到excel就比较方便筛选/排序.但是mloginfo并没有提供生成到excel的功能.可以通过一个python脚本辅助生成:importpandasaspdimportre#定义文件路径mloginfo_output_file="mloginfo_outp
Python软件打包工具Pyinstaller 码农NoError 人工智能 python 自然语言处理智能对话智能闲聊人工智能
需求：我们需要把自己使用python开发好的程序发给朋友体验一下这就需要让朋友安装python的解释器，安装程序所需要的python包，最最最重要的是还要考虑版本兼容问题，特别麻烦。此时如果我们能给别人一个exe软件直接双击运行就好多了，那么就需要用到今天介绍的python程序打包工具pyinstaller了。1、安装pyinstaller首先安装pyinstaller，使用安装命令：pipins
python 循环语句金箍一梦何来愁 python
while循环while循环的格式while条件:条件满足时，做的事情1条件满足时，做的事情2条件满足时，做的事情3...(省略)...demoi=0whileiwhile嵌套的格式while条件1:条件1满足时，做的事情1条件1满足时，做的事情2条件1满足时，做的事情3...(省略)...while条件2:条件2满足时，做的事情1条件2满足时，做的事情2条件2满足时，做的事情3...(省略)..
每日一道算法题移除元素 BraveOxCow 算法题算法数据结构
题目27.移除元素-力扣（LeetCode）PythonclassSolution:defremoveElement(self,nums:List[int],val:int)->int:whilevalinnums:fornuminnums:ifnum==val:nums.remove(num)breakreturnlen(nums)classSolution:defremoveElement(s
每日一道算法题成绩排序 BraveOxCow 算法 python 开发语言
题目成绩排序_牛客题霸_牛客网(nowcoder.com)Pythonn=int(input())flag=int(input())ans=[]for_inrange(n):name,score=input().split('')ans.append([name,int(score)])ans.sort(key=lambdax:x[1],reverse=notflag)foreinans:prin
每日一道算法题组合 BraveOxCow 算法题算法数据结构
题目77.组合-力扣（LeetCode）Python体会一下Python的高开发效率classSolution:defcombine(self,n:int,k:int)->List[List[int]]:fromitertoolsimportcombinationsreturnlist(combinations(range(1,n+1),k))第二种解法如下：classSolution:defco
嵌入式知识点总结 Linux驱动 (四)-中断-软硬中断-上下半部-中断响应 7yewh 【嵌入式知识点总结】linux mcu stm32 物联网嵌入式硬件驱动开发硬件工程
针对于嵌入式软件杂乱的知识点总结起来，提供给读者学习复习对下述内容的强化。目录1.硬中断，软中断是什么？有什么区别？2.中断为什么要区分上半部和下半部？3.中断下半部一般如何实现？4.linux中断的响应执行流程？中断的申请何时执行（何时执行中断处理函数）？1.硬中断，软中断是什么？有什么区别？硬中断：由硬件设备触发，响应时间要求非常快，通常用于紧急事件的处理。软中断：由软件（操作系统）触发，通常
python制作日历_Python如何绘制日历图和热力图 weixin_39692847 python制作日历
本文以2019年全国各城市的空气质量观测数据为例，利用matplotlib、calmap、pyecharts绘制日历图和热力图。在绘图之前先利用pandas对空气质量数据进行处理。数据处理从网站下载的数据为逐小时数据，每天一个文件。如果要绘制全年的日历图或者热图，首先要将所有的数据进行合并处理。下载好数据之后，将数据解压到当前目录的2019文件夹内，然后处理数据：importglobfromdat
Python 中的 `selectors`：构建高效的 I/O 复用程序蜗牛沐雨 python java 开发语言
在现代编程中，高效地处理I/O操作是构建高性能应用程序的关键。无论是网络服务器、多任务文件处理还是实时数据流处理，都需要一种机制来同时监控多个I/O源，并在它们准备好时高效地处理数据。Python的selectors模块正是为了解决这一问题而设计的。它提供了一种高级的I/O复用接口，使得开发者可以轻松地实现高效的并发程序。一、什么是I/O复用？在多任务程序中，我们经常需要同时处理多个I/O操作，例
深入理解 Python 中的 `@classmethod` 和 `@staticmethod` 装饰器蜗牛沐雨 Python python 开发语言
在Python的面向对象编程中，装饰器为我们提供了灵活的函数和方法定义方式。其中，@classmethod和@staticmethod是两个常用的装饰器，它们的主要作用是改变方法的调用方式，使方法能够在类的层面上使用，而不是依赖具体的实例。什么是@classmethod？@classmethod是Python的内置装饰器，用于将一个方法标记为类方法。类方法的第一个参数通常命名为cls，代表类本身。
深入理解 `mmap`：高效的文件访问机制蜗牛沐雨 c++python
在现代编程中，文件操作是不可或缺的一部分。随着数据量的增加，如何高效地读取和写入文件变得尤为重要。mmap（Memory-MappedFile）是一种高效的文件访问机制，它允许将文件或设备映射到进程的地址空间中，使得文件操作就像操作内存一样简单和高效。本文将详细介绍mmap的工作原理、使用方法及其在Python和C语言中的实现。1.mmap的用途mmap的主要用途包括：高效文件访问：通过将文件映射
掌握 Python 网络爬虫技术：从基础入门到高级实践（附带爬虫案例）一ge科研小菜鸡 Python 编程语言 python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是自动访问网站并抓取网页数据的程序。Python凭借其丰富的库和易于使用的特性，成为开发网络爬虫的首选语言。本文将详细介绍如何使用Python进行网络爬虫开发，包括基本概念、主要工具、数据解析和高级爬取技术，并提供一个完整的实践案例。1.网络爬虫概述1.1什么是网络爬虫？网络爬虫（WebCrawler）是指用于访问和抓取网页内容的自动化脚
python高级爱心代码爱掉发的小龙 python pygame 经验分享笔记
python高级爱心代码实现：importturtleimportrandom#设置画布screen=turtle.Screen()screen.bgcolor("black")#创建画笔pen=turtle.Turtle()pen.speed(0)pen.color("red")pen.penup()#移动画笔到起始位置pen.goto(0,-200)pen.pendown()#开始绘制爱心pe
C++基础实战项目：美发店管理系统卓莲晓Life
C++基础实战项目：美发店管理系统【下载地址】C基础实战项目美发店管理系统欢迎来到C++基础实战项目——美发店管理系统。本项目专为C++编程初学者设计，旨在通过一个实际的案例加深对C++语言核心概念的理解和应用能力。通过这个项目，你将学习到如何在控制台环境下开发一个简易的管理系统，涵盖客户管理、服务预约、账单处理等基本功能项目地址:https://gitcode.com/open-source-t
将Python程序打包为Windows安装包 bicart 服务器 linux python 开发语言 windows 前端
本文使用创作助手。如果你想将Python程序打包为Windows安装包，你可以使用NSIS（NullsoftScriptableInstallSystem）工具。NSIS是一个免费的Windows安装包创建工具。以下是使用NSIS将Python程序打包为Windows安装包的步骤：首先，确保你已经安装了NSIS。你可以从官方网站（https://nsis.sourceforge.io/Downlo
探索GigaChat与LangChain的完美结合：深度解析与实战指南 asdfujhgy langchain easyui 前端 python
探索GigaChat与LangChain的完美结合：深度解析与实战指南引言在人工智能的领域中，语言模型和嵌入技术正逐步改变我们与数据交互的方式。GigaChat作为一种创新的AI嵌入服务，结合LangChain可以提供强大的文本嵌入功能，促进自然语言处理任务的完成。本篇文章将带你深入了解如何结合GigaChat与LangChain进行文本嵌入，并提供实用的代码示例与解决方案。主要内容GigaCha
Python编程从入门到实践(第2版)个人学习笔记 Xx_Studying Python基础 python 开发语言
这是本人学习Python编程从入门到实践(第2版)个人学习笔记，书本如下目录一、变量和简单数据类型1.1字符串和数1.1.1字符串部分方法的使用1.1.2f字符串的用法1.1.3删除空白1.1.4数中的下划线1.1.5同时给多个变量赋值二、列表简介2.1列表(list)2.1.1概念引入2.1.2访问列表元素2.1.3查找某元素的下标（index方法）2.2修改、添加和删除元素2.2.1修改列表元
【数据结构】并查集 + 路径压缩与按秩合并 python 查理零世数据结构 python 算法
目录前言模板朴素实现路径压缩按秩合并按树高为秩按节点数为秩总结前言并查集的基本实现通常使用森林来表示不同的集合，每个集合用一棵树表示，树的每个节点有一个指向其父节点的指针。如果一个节点是它自己的父节点，那么它就是该集合的代表（称为根节点）。模板P3367【模板】并查集https://www.luogu.com.cn/problem/P3367题目描述如题，现在有一个并查集，你需要完成合并和查询操作
【全解析 PTA】浙大版《Python 程序设计》题目集-第三章_len(‘3 11 2018‘(1) 2401_84010901 程序员 python windows 开发语言
b[:]##单独一个冒号,代表从头取到尾,步长默认为1b[::]##单独两个冒号一样代表从头取到尾,步长默认为1b[::-1]##注意,两个冒号后面是步长,步长为1,故应从右往左取8.列表lst=[12,-5,-22,-10,-26,35,0,49,3,-21],lst[::-1]的结果是[-21,3,49,0,35,-26,-10,-22,-5,12]。T9.列表lst=[12,-5,-22,-
使用Python爬虫抓取与分析航班信息：从数据采集到应用的完整实践 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫？爬虫的工作原理爬虫的应用领域航班数据爬取的实际应用航班数据分析的重要性选择爬虫技术栈常见的爬虫框架与工具选择合适的工具：requestsvsSeleniumvsScrapy如何获取航班信息航班数据来源分析航班信息的结构与抓取目标爬虫抓取航班信息的步骤发送HTTP请求并获取航班数据使用Selenium抓取动态数据解析HTML页面并提取航班信息航班数据存储与处理存储抓
Python爬虫实战：在线考试题库抓取 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化 jvm
前言在线考试已经成为现代教育中不可或缺的一部分，许多在线教育平台提供了丰富的题库资源，供学生进行练习与模拟考试。随着互联网的发展，教育平台上每天都有大量的题库数据，如何抓取这些数据，并进行整理、分析、分享，成为了教育技术与数据分析领域的一个热门话题。本文将介绍如何使用Python爬虫技术抓取各类在线考试平台的题库和试题，包括抓取方法、技术细节、反爬虫策略等。通过这篇博客，我们将实现以下目标：从多个
使用Python Selenium抓取表单数据：从数据提取到自动化处理的完整指南 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫爬虫的工作原理Selenium简介什么是SeleniumSelenium的工作原理表单数据抓取概述什么是表单数据常见的表单类型表单抓取的实际应用场景爬虫技术栈requestsvsSeleniumSelenium的安装与配置使用Selenium抓取表单数据的步骤启动浏览器并访问目标页面查找表单元素提交表单并抓取返回的数据数据存储与处理存储抓取的数据：CSV、数据库等数
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR