Pumpkin9913

【项目】新冠肺炎疫情期间网民情绪识别——Python文本分类

任务描述

2019新型冠状病毒（COVID-19）感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响，并引发国内舆论的广泛关注，众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况，科学高效地做好防控宣传和舆情引导工作，针对疫情相关话题开展网民情绪识别的任务。
具体任务是给定微博ID和微博内容，设计算法对微博内容进行情绪识别，判断微博内容是积极的、消极的还是中性的。

数据描述

数据集nCoV_100k.labled.csv包含10万条用户标注的微博数据，包括微博id,发布时间,发布人账号,中文内容,微博图片,微博视频,情感倾向等多条数据，具体格式如下：

微博id，格式为整型。
微博发布时间，格式为xx月xx日 xx:xx。
发布人账号，格式为字符串。
微博中文内容，格式为字符串。
微博图片，格式为url超链接，[]代表不含图片。
微博视频，格式为url超链接，[]代表不含视频。
情感倾向,取值为{1,0,-1}。

读取数据

由于文件是GB2312格式编码的文件，需要将其转化为utf-8格式的文件进行读取数据预处理。

//转换编码
def re_encode(path): //定义编码转换函数
    with open(path, 'r', encoding='GB2312', errors='ignore') as file:
        lines = file.readlines()
    with open(path, 'w', encoding='utf-8') as file:
        file.write(''.join(lines))
        
re_encode('nCov_10k_test.csv') //测试集转换编码
re_encode('nCoV_100k_train.labled.csv') //训练集转换编码

将转换好的数据读取进来，以便操作。

//读取网民情绪的文件
data = pd.read_csv('nCoV_100k_train.labled.csv',
                   encoding='utf-8',
                   engine ='python') 
data.head()

简单查看一下前5条结果，发现读取正确。

        微博id	         微博发布时间   发布人账号	微博中文内容	  微博图片	微博视频	情感倾向
0	4456072029125500	01月01日 23:50	存曦1988	写在年末冬初孩子流感的第五天，我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信，早...	['https://ww2.sinaimg.cn/orj360/005VnA1zly1gah...	[]	0
1	4456074167480980	01月01日 23:58	LunaKrys	开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#?	[]	[]	-1
2	4456054253264520	01月01日 22:39	小王爷学辩论o_O	邱晨这就是我爹，爹，发烧快好，毕竟美好的假期拿来养病不太好，假期还是要好好享受快乐，爹，新年...	['https://ww2.sinaimg.cn/thumb150/006ymYXKgy1g...	[]	1
3	4456061509126470	01月01日 23:08	芩r	新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的?	['https://ww2.sinaimg.cn/orj360/005FL9LZgy1gah...	[]	1
4	4455979322528190	01月01日 17:42	changlwj	问：我们意念里有坏的想法了，天神就会给记下来，那如果有好的想法也会被记下来吗？答：那当然了。...	[]	[]	1

数据预处理

数据预处理的一般包括：

缺失值处理
特征规范化
离散与连续化
去噪

首先查看一下数据集的基本特征：

//查看训练集各个变量的类型，数量等信息，同时查看标签数据
data.info(memory_usage='deep')
data['情感倾向'].value_counts()

变量名	数据量	数据类型
微博id	`100000`	`non-null int64`
微博发布时间	`100000`	`non-null object`
发布人账号	`99978`	`non-null object`
微博中文内容	`99646`	`non-null object`
微博图片	`100000`	`non-null object`
微博视频	`100000`	`non-null object`
情感倾向	`99919`	`non-null object`

从上表中很明显可以看出共有10000条数据，但是发布人账号、微博中文内容、情感倾向等变量从在明显的缺失值。
同时观察情感倾向这一变量中的统计值如下表：

情感倾向	数量
`0`	57619
`1`	25392
`-1`	16902
`10`	1
`-`	1
`-2`	1
`9`	1
`·`	1
`4`	1

发现中文内容和情感倾向两项内容与数据总量不符，微博中文内容项只有99646条值，说明有些微博是没有文字内容的，很明显，其中0代表中立，1代表积极态度，而-1则代表消极态度，同时表格中存在一些不合理的异常值，例如10，-等值，这些错误的分类标签会影响我们的分类效果，需要对数据进行清洗,由于数据量不是很多，我们考虑将这些值删除。
同时可以看到标签数据的数据类型是object，由于接下来的模型需要，我们考虑将其转化为数值型。

//将异常值去除
data = data[data['情感倾向'].isin(['-1','0','1'])]
//将label转化为整型
data['情感倾向'] = data['情感倾向'].astype(np.int32)

变量名	数据量	数据类型
微博id	`99913`	`non-null int64`
微博发布时间	`99913`	`non-null object`
发布人账号	`99913`	`non-null object`
微博中文内容	`99560`	`non-null object`
微博图片	`99913`	`non-null object`
微博视频	`99913`	`non-null object`
情感倾向	`99913`	`non-null int32`

可以发现去除那些异常的标签数据之后，有效数据变为99913条，虽然仍然可以看到有些微博文本内容有缺失值，但文本数据不适合填充，可以考虑将其标签数据设置为0，表示中立态度。

将数据集分割为训练数据集和测试数据集。分割后的数据集有79930条训练集和19983条测试集。

可视化

接下来对数据进行一些简单的可视化操作，便于观察数据的分布和趋势，以便参数选择和结果分析。
主要查看了以下四方面的内容

三种情感倾向的分布情况

df_train['情感倾向'].value_counts()/df_train['情感倾向'].count()
(df_train['情感倾向'].value_counts()/df_train['情感倾向'].count()).plot.bar()
plt.show()

可以看出在10000条微博文本中有大概60%是持中立态度的，25%持积极态度，还有约15%持消极态度。
2. 三种感情倾向的数量变化和占比变化情况

df_train['time'] = pd.to_datetime('2020年' + df_train['微博发布时间'], format='%Y年%m月%d日 %H:%M', errors='ignore')
df_train['date'] = df_train['time'].dt.date //转换日期格式

//对数据按照日期和情感倾向进行分类
date_influence = df_train.groupby(['date','情感倾向'],as_index=False).count() 

sns.relplot(x="date", y="微博id",kind='line', hue='情感倾向',palette=["b", "r",'g'],data=date_influence)
plt.xticks(rotation=45,fontsize=12)
plt.xlabel('日期',fontsize=15)
plt.ylabel('数量',fontsize=15)
plt.title('微博数量分布图',fontsize=15)
plt.show()

date_influence = date_influence.merge(df_train.groupby('date',as_index=False)['情感倾向'].count().rename(columns={'情感倾向':'weibo_count'}),how='left',on='date')
date_influence['weibo_rate'] = date_influence['微博id']/date_influence['weibo_count']

sns.relplot(x="date", y="weibo_rate", kind="line", hue='情感倾向',palette=["b", "r",'g'],data=date_influence)
plt.xticks(rotation=45,fontsize=12)
plt.xlabel('日期',fontsize=15)
plt.ylabel('数量',fontsize=15)
plt.title('微博情感占比分布图',fontsize=15)
plt.show()

从上图可以直观的看到三种数据在数量上都有不同程度的增加，在1月中旬的时候三种评论都有显著增加，推测可能是有新的疫情数据或大事件发布，例如武汉公开瞒报数据等情况，但是在比例上三种评论的比例基本没有变化。
3. 评论的长度分布

df_train['char_length'] = df_train['微博中文内容'].astype(str).apply(len) #计算每条微博评论的长度
sns.distplot(df_train['char_length'],kde=False)
plt.xlabel('长度',fontsize=15)
plt.ylabel('数量',fontsize=15)
plt.title('评论长度分布',fontsize=15)
plt.show()

大部分分布在150词左右，少于150词的基本维持在2000条，大于150词的微博就很少了。因此在神经网络设定句子长度时，可以设置为200或高于150的数值，以免丢失太多信息。

def label(data):
    if data <125:
        return '小于125'
    elif data<150 and data>125:
        return '125-150'
    else:
        return '大于150'
df_train['length_label']=df_train['char_length'].apply(label)
sns.countplot('情感倾向',hue='length_label',data=df_train)
plt.xlabel('长度',fontsize=15)
plt.ylabel('数量',fontsize=15)
plt.title('评论长度分布',fontsize=15)
plt.legend(loc='upper right')
plt.show()

按照评论种类分别查看长度，可以看出在不同种类的评论中，评论的长度分布并没有很大的区别。

词云

import wordcloud
import re
WC = wordcloud.WordCloud(font_path = 'C://Windows//Fonts/simfang.ttf',max_words=2000,height= 400,width=400,background_color='white',repeat=False,mode='RGBA') //设置词云图对象属性
st1 = re.sub('[，。、“”‘ ’]','',str(train_text)) //使用正则表达式将符号替换掉。
conten = ' '.join(jieba.lcut(st1)) //此处分词之间要有空格隔开，联想到英文书写方式，每个单词之间都有一个空格。
con = WC.generate(conten)
plt.imshow(con)
plt.axis("off")
WC.to_file('wordcloud.png')

之前都是对文本的外部属性的分析，比如长度，比例等等，这里主要对文本的内容进行分析，可以通过词频等方法观察到文本的主题。

可以看到内容主要围绕新型冠状肺炎的话题，其中还有一些中国加油，武汉加油的内容，内容大部分比较积极。

word2vec

原理知识可以参考通俗理解word2vec。
处理文本语言，需要将这些文本转化为计算机能够识别的数据。
第一步对微博文本进行分词，本文采用的是jieba分词库。
对疫情的微博文本进行分词，采用精确模式，以分割数据集后的第一条数据为例:
原文如下：

'#男子解除隔离10天后发病##男子解除隔离10天后发病#【山东日照：一男子解除隔离10天后发病妻孩三人皆为无症状感染者】2月15日，山东省新增的新冠肺炎确诊病例中，一名42岁的日照男子刘某和家人，曾与确诊病例有接触，随后刘某和妻子于某燕(38岁)、女儿(11岁)、儿子(5岁)均被集中隔离医学观察。四人在?展开全文c'

分词后的结果如下，其中每个词都以空格为间隔：

'#  男子  解除  隔离  10  天后  发病  ##  男子  解除  隔离  10  天后  发病  #  【  山东  日照  ：  一  男子  解除  隔离  10  天后  发病  妻孩三人  皆  为  无症状  感染者  】  2  月  15  日  ，  山东省  新增  的  新冠  肺炎  确诊  病例  中  ，  一名  42  岁  的  日照  男子  刘某  和  家人  ，  曾  与  确诊  病例  有  接触  ，  随后  刘某  和  妻子  于  某燕  (  38  岁  )  、  女儿  (  11  岁  )  、  儿子  (  5  岁  )  均  被  集中  隔离  医学观察  。  四人  在  ?  展开  全文  c'

将这些文本分词后统计其词频放在hash表里，统计这些词在所有的训练样本中的出现次数，并根据词语的出现频率由高到低排序。

//分词取得该词的个数
import jieba
num_index={}
train_texts=[]
for sentence in train_text:
    sequences=jieba.lcut(str(sentence),cut_all=False,HMM=True)
    train_texts.append(sequences)
    for sequence in sequences:
        num_index[sequence]=num_index.get(sequence,0)+1
print('found %s words'%len(num_index))
test_texts=[]
for sentence in test_text:
    sequences=jieba.lcut(str(sentence),cut_all=False,HMM=True)
    test_texts.append(sequences)
//按照词语出现的频率排序
num_index=sorted(num_index.items(),key = lambda x:x[1],reverse = True) 
//建立词索引
word_index={}
i=1
for key in num_index:
    word_index[key[0]]=i
    i+=1

按照词语出现次数的顺序，创建词的索引字典，即对最常出现的词索引为1，例如在以上所有微博文本中词语“的”出现频率最高，则“的”的词索引为1，之后依次增加，最后得到索引字典，由于索引字典很长，下面只展示一部分索引数据：

词	索引
，	1
的	2
？	3
/	4
#	5

发现是有很多没有意义的符号的，可以尝试将这些符号去掉再创建词索引，这里不再展示。
根据刚刚的索引字典，就将微博数据整数化，也就是说将词转化为其索引数字，以便输入到神经网络中去。

train_texts_int=[]
test_texts_int=[]
for sentences in train_texts:
    sentence_int=[]
    for sentence in sentences:
        if word_index[sentence]<10000:
            sentence_int.append(word_index[sentence])
        else:
            sentence_int.append(0)
    train_texts_int.append(sentence_int)
print("训练集前五条数据为：\n",train_texts_int[:5])
for sentences in test_texts:
    sentence_int=[]
    for sentence in sentences:
        if word_index.get(sentence,0)<10000 :
            sentence_int.append(word_index.get(sentence,0))
        else:
            sentence_int.append(0)
    test_texts_int.append(sentence_int)
print("测试集前五条数据为：\n",test_texts_int[:5])

以上程序分别将训练集和测试集的每一条文本转化成相对应的整形数据，训练集和测试集的第一条文本转化为整型数据分别如下：
训练集：
[1005, 7865, 188, 2, 52, 2586, 37, 257, 1666, 746, 212, 0, 2651, 2, 0, 1842, 230, 4662, 1, 5533, 37, 81, 5979, 4852, 8, 540, 1241]
测试集：
[59, 944, 4613, 8, 5183, 31, 175, 4613, 2046, 84, 29, 352, 0, 0, 2349, 71, 0, 7455, 246, 204, 8, 604, 3090, 0, 115, 944, 3]

由于微博文本的长度不一，需要对文本的长度进行固定，根据之前文本长度的可视化分析，我们将微博文本截取到200的长度，不足的用0补全，超过的截取掉不要。

maxlen=200
x_train = pad_sequences(train_texts_int, maxlen=maxlen)
x_test = pad_sequences(test_texts_int, maxlen=maxlen)

本文对于标签值采用one-hot编码的方式将每一个标签转化为向量。

def to_one_hot(labels, dimension=3):
    results = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        results[i, label] = 1.
    return results

// Our vectorized training labels（将训练标签向量化）
one_hot_train_labels = to_one_hot(train_label)
// Our vectorized test labels（将测试标签向量化）
one_hot_test_labels = to_one_hot(test_label)

对于自变量（也就是微博文本）则采用神经网络中的embedding层来训练常出现的前10000个词得到相应的词嵌入向量，embedding层经过训练后得到的是一个（samples，100，200）的三维张量，其中每个词的词嵌入长度是100，每条微博文本有200个词。

模型框架及拟合

模型采用LSTM层来防止早期信号的消失，采用25%随机失活防止过拟合，最后用全连接层作为输出层。

max_words=10000
embedding_dim=100
//模型框架搭建
model = Sequential()
//加入embedding层，设置输入维度为（10000，100）
model.add(Embedding(max_words, embedding_dim, input_length=maxlen)) 
//长短期记忆层
model.add(LSTM(128,recurrent_dropout=0.25))
//随机失活
model.add(Dropout(0.25))
//全连接层
model.add(Dense(3, activation='softmax'))

模型内的参数变化如下：

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_3 (Embedding)      (None, 100, 100)          1000000   
_________________________________________________________________
lstm_3 (LSTM)                (None, 128)               117248    
_________________________________________________________________
dropout_3 (Dropout)          (None, 128)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 3)                 387       
=================================================================
Total params: 1,117,635
Trainable params: 1,117,635
Non-trainable params: 0
_________________________________________________________________

对模型在训练集上进行拟合，在测试集上进行验证。

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
//拟合模型
history = model.fit(x_train, one_hot_train_labels,
                    epochs=10,
                    batch_size=128,
                    validation_data=(x_test, one_hot_test_labels))

结果展示

对模型进行编译后运行，迭代30次（发现10次后精度下降后改为10次）

Train on 79930 samples, validate on 19983 samples
Epoch 1/30
79930/79930 [==============================] - 182s 2ms/step - loss: 0.7387 - accuracy: 0.6825 - val_loss: 0.6804 - val_accuracy: 0.7175
Epoch 2/30
79930/79930 [==============================] - 177s 2ms/step - loss: 0.6408 - accuracy: 0.7281 - val_loss: 0.6311 - val_accuracy: 0.7275
Epoch 3/30
79930/79930 [==============================] - 176s 2ms/step - loss: 0.6076 - accuracy: 0.7424 - val_loss: 0.6336 - val_accuracy: 0.7243
Epoch 4/30
79930/79930 [==============================] - 176s 2ms/step - loss: 0.5837 - accuracy: 0.7549 - val_loss: 0.6340 - val_accuracy: 0.7287
Epoch 5/30
79930/79930 [==============================] - 176s 2ms/step - loss: 0.5675 - accuracy: 0.7620 - val_loss: 0.6226 - val_accuracy: 0.7361
Epoch 6/30
79930/79930 [==============================] - 178s 2ms/step - loss: 0.5502 - accuracy: 0.7698 - val_loss: 0.6272 - val_accuracy: 0.7352
Epoch 7/30
79930/79930 [==============================] - 177s 2ms/step - loss: 0.5354 - accuracy: 0.7771 - val_loss: 0.6189 - val_accuracy: 0.7297
Epoch 8/30
79930/79930 [==============================] - 178s 2ms/step - loss: 0.5203 - accuracy: 0.7846 - val_loss: 0.6220 - val_accuracy: 0.7282
Epoch 9/30
79930/79930 [==============================] - 178s 2ms/step - loss: 0.5081 - accuracy: 0.7904 - val_loss: 0.6262 - val_accuracy: 0.7351
Epoch 10/30
79930/79930 [==============================] - 177s 2ms/step - loss: 0.4934 - accuracy: 0.7979 - val_loss: 0.6323 - val_accuracy: 0.7297

//损失函数和准确率可视化
import matplotlib.pyplot as plt

acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()

plt.show()

可以看到虽然训练精度随着迭代次数的增加不断上升，甚至达到了95%的精度，但其在测试集上的效果在迭代大概9-10次左右就开始明显下降，产生了过拟合。

但验证集的精度仍然达到了73%左右，效果有待改进。

改进与思考

在模型迭代到10次后发现精度开始下降，损失函数也开始上升，出现了比较严重的过拟合，可以尝试更改学习率，可以让学习率随着迭代次数的增加线性或者倍数减少，效果应该会更好。
模型只考虑了文本数据的分析，数据中还提供了图片、视频等数据没有利用，方法暂时没想到。
训练集只有8万左右，在自然语言处理上不算多，可以尝试使用Bert等作为预训练模型作为词嵌入的输入，这样既可以提高效率，也能提高精度，同时由于文本是和疫情高度相关的，也需要在预训练模型的基础上微调训练，以便达到更好的效果，但是电脑设备只有CPU，尝试未果。

说明

文章参考了很多github、百度AI和CSDN博客上大牛的思路，以下贴出部分连接，有兴趣的可以直接查看。

利用500万条微博语料对微博评论进行情感分析
网民情绪情感分析 DataFountain
python爬虫爬取微博之战疫情用户评论及详情
机器学习项目（四）网民情绪识别（一）
基于PaddleHub的网民情绪识别

你可能感兴趣的:(【项目】新冠肺炎疫情期间网民情绪识别——Python文本分类)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
本地包解决npm error code E404 雅痞yuppie npm 前端 node.js
这个错误提示表明npm找不到名为create-vue-admin-cli的包。这是因为你开发的CLI工具还没有发布到npm官方注册表。要解决这个问题，有两种方法：方法一：使用本地开发模式测试1.确保你的CLI已正确链接到全局在你的vue-admin-cli项目根目录下执行：npmlink这会在全局环境中创建一个符号链接，指向你本地的CLI项目。2.使用本地链接的CLI创建项目直接使用命令：vue-
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
Linux操作系统磁盘管理 CZZDg linux 运维服务器
目录一.硬盘介绍1.硬盘的物理结构2.CHS编号3.磁盘存储划分4.开机流程5.要点6.磁盘存储数据的形式二.Linux文件系统1.根文件系统2.虚拟文件系统3.真文件系统4.伪文件系统三.磁盘分区与挂载1.磁盘分区方式2.分区命令3.查看与识别命令4.格式化命令5.挂载命令四.LVM逻辑卷1.概述2.管理命令五.磁盘配额1.概述usrquota:支持对用户的磁盘配额grpquota：支持对组的磁
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc