dra_p0p3n

带有表情符号的文本情感分类实验

差不多是个实验报告的目录

一点感想
涉及知识点
论文内容
论文复现
- 表情符处理
- 文本处理
- 构建模型训练
结果
代码
- 表情处理
- 文本处理
- 建模训练

一点感想

这是本人的内容安全课堂作业，参考一些网上代码与文章，汇报时排在前面的大佬都是各种深度学习曲线分析，参数调整，获得了教辅博士的大力表扬，本人啥也不会，只能选择一篇简单的论文进行复现，并且进行若干改进，在此记录以避免踩坑。

涉及知识点

中文分词（词性分析），TF-IDF，朴素贝叶斯，人工神经网络

论文内容

进入正文，首先进行论文复现，本论文是基于表情符分析的情感关键句提取方法，里面用到了基于表情符分析的句子情感极性计算、关键词计算、位置信息计算
其中基于表情符分析的句子情感极性计算是对现有方法的改进，通过融入表情符分析提升情感关键句提取的正确率，论文如下

这篇文章主要是介绍表情符分类的若干新方式与新模型,并未提出实现的具体方式，故代码实现时做了一些变化。

论文复现

表情符处理

首先是进行表情符的提取，因为表情符都有[]包裹，所以根据此特征进行匹配提取，所有数据集里的表情符都存至一个数组中，供后面进行处理，首先是第一个函数pre_processer.py介绍

然后将这些表情符进行存储，避免后面进行重复读取，浪费时间

下一个函数进行表情的分类，这里参考论文中的共现率判断方式来评判未知表情的情感，但需要说明的是这里和论文中的复现基础不同，论文中的数据集是采用词向量的训练集，而这里给出的是句向量的标签信息，所以方式做了一个调整，判断该表情在积极句子中出现的次数与消极句子中出现的次数，同时也有中性的句子

当积极占比大于0.8时就是积极表情，消极同理，其余的由于情感不明显，归入中立的表情当中，分别存入三个数组，至此，表情的情感分类已经完成

文本处理

下面是文字处理的部分，也就是specialize.py部分，复现了论文中的一些关于文字权重的操作，并且进行了一些改进。首先由于给的数据集是句子，而且其中有很多诸如@、//之类的杂质对分析不利

所以首先应该做的就是数据清洗的工作，首先进行匹配过滤与正则过滤，把一些肉眼可见出现频率很高的无意义符号给去除

随后使用停词过滤

这里发现之前的停用词表存在一些不足, 具体停用词表可自行百度，因为其中存在一些诸如“很”、“特别”之类代表感情的词语，而在这里过滤掉之后影响后文分析,所以手动删除了所有的情感词，只留下一部分过滤无用词与符号，随后进行jieba分词，用作词性的标注

之后是常规程序TF-IDF选择每个句子的重要词成分，这里每个句子选择5个关键词，以避免后面的训练太慢

这里面也用到了论文中所说的副词重要性与位置的重要性进行权重的调整，比如说下面的权重数组

并且进行权重的修正，例如写一个简单的权重返回函数

还有尾词语比中部词语权重增加一倍，生成一个speciallist的特征向量，在后面进行训练的时候加入。这部分是对文字的训练。

构建模型训练

随后就是进行训练的部分，首先是读取数据集，定义初始权重

正面负面与中性的词语和表情权重分别为1、0、-1,然后先直接进行朴素贝叶斯训练，方便与后文实验效果做对比，值得一提的是文中是对词语进行分别打分计算权重，但这里复现时数据集不具备条件，于是赋予基础权重，也就是该词语所在句子超过80%情感的权重。

这里的六万条数据集进行交叉选取数据集与训练集，并且调库进行打分

而后的分类是对普通朴素贝叶斯的一个权重修正

可以看到加入了前面进行处理的特征向量，并且与正确结果进行对比，直接算比例，这里结果中可以看见提升非常明显，从百分之五十多直接提升到百分之八十多，说明论文中提出的方法明显有效（结果写在后文）。

前面都是定义方法，主体函数如下

三个类型分别进行训练并且叠加，因为实验二使用人工神经网络效果还不错，所以这里在后面也加了一个人工神经网络进行处理

也没有用工具进行调参，自己写了两个循环跑了一晚上,写入文件自己去判断参数优化情况，得出得分较高的参数组合，得出的结果也有了比较明显的优化。

结果

运行代码，得运行结果：

可以看出，用表情辅助对文本数据进行分类情感分析的效果，比单独的朴素贝叶斯分类效果要好一些。

而深度学习又比单纯朴素贝叶斯效果要更好

代码

表情处理

import csv
# 获取某一评论中存在的表情 参数：path：文件路径 emotion_set：用来存储表情列表
def get_emotion(path, emotion_set):
    with open(path, encoding= 'utf-8-sig') as f:
        reader = csv.reader(f)
        rows=[row for row in  reader]
        for each in rows:
            for i in range(len(each[0])):
                if each[0][i] == '[' : # 判断是否为表情符号
                    temp = ''
                    for k in range(100):
                        if i+k > len(each[0]) - 1:
                            break
                        temp = temp + each[0][i+k]
                        # print(each[i+k])
                        if each[0][i+k] == ']':
                            if temp not in emotion_set:
                                emotion_set.append(temp) # 若为表情符号则存储在该列表中，使每个符号只出现一次
                            # print(temp)
                            break
    return emotion_set


# 整合三个文件获取的表情存储于emotion_result_sat，存储于csv
def Save_as_File(save_path, emotion_result_set):  
    emotion_set = []
    Star_emotion_set = get_emotion('明星.csv', emotion_set)
    Hotspot_emotion_set = get_emotion('热点.csv', emotion_set)
    Epidemic_emotion_set = get_emotion('疫情.csv', emotion_set)
    for each in Star_emotion_set:
        if each not in emotion_result_set:
            emotion_result_set.append(each)
    for each in Hotspot_emotion_set:
        if each not in emotion_result_set:
            emotion_result_set.append(each)
    for each in Epidemic_emotion_set:
        if each not in emotion_result_set:
            emotion_result_set.append(each)
            
    with open(save_path, 'w', encoding='utf-8-sig') as f:
        for each in emotion_result_set:
            write=csv.writer(f)
            write.writerow(each)
    return emotion_result_set


# 根据评论标签1或-1的多少判断表情是积极还是负面，积极的存储于PE_set,负面的存储于NE_set
def creat_Respiratory(emotion_result_set):
    PE_set = []
    NE_set = []
    Neu_set = []
    with open('明星.csv',encoding= 'utf-8-sig') as f1:
        reader1 = csv.reader(f1)
        rows1=[row for row in  reader1]      
        with open('热点.csv',encoding= 'utf-8-sig') as f2:
            reader2 = csv.reader(f2)
            rows2=[row for row in  reader2]  
            with open('疫情.csv',encoding= 'utf-8-sig') as f3:
                reader3 = csv.reader(f3)
                rows3=[row for row in  reader3]
        
                temp_set = []
                for a in rows1:
                    temp_set.append(a)
                for b in rows2:
                    temp_set.append(b)
                for c in rows3:
                    temp_set.append(c) #将所有评论存储在一个列表temp_set内
    # print(temp_set)
    for emotion in emotion_result_set:
        positive = 0
        negtive = 0
        for critic in temp_set:
            # print(emotion)
            if emotion in critic[0]:
                if critic[1] == '1':
                    positive = positive + 1
                if critic[1] == '-1':
                    negtive = negtive + 1
        if positive + negtive == 0:
            Neu_set.append(emotion)
        else:
            if (positive/(positive + negtive)) > 0.8:
                PE_set.append(emotion)
            elif (negtive/(positive + negtive)) > 0.8:
                NE_set.append(emotion)
            else:
                Neu_set.append(emotion)
    with open('Positive_emotion.csv', 'w', encoding='utf-8-sig') as f:
        for each in PE_set:
            write=csv.writer(f)
            write.writerow(each)
        
    with open('Negtive_emotion.csv', 'w', encoding='utf-8-sig') as f:
        for each in NE_set:
            write=csv.writer(f)
            write.writerow(each)
        
    with open('Neu_emotion.csv', 'w', encoding='utf-8-sig') as f:
        for each in Neu_set:
            write=csv.writer(f)
            write.writerow(each)

    return PE_set, NE_set, Neu_set
    
    

# emotion_result_set = []
# emotion_result_set = Save_as_File('.//emotion//All_emotion.csv', emotion_result_set)
# PE_set, NE_set = creat_Respiratory(emotion_result_set)

文本处理

import pre_professer
import jieba
import csv
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

list3=['最','最为','极','极其','极为','极度']
list2_5=['太','至','至为','顶','过','过于','过份','分外','万分']
list2=['很','挺','怪','非常','特别','相当','十分','甚为','够','多','多么']
list1_5=['不甚','不胜','好','好不','颇','颇为','大','大为']
list1_1=['稍','比较','较为','还']
list0_8=['稍稍','稍微','稍许','略微','多少']
list0_5=['有点','有些']
list_1=['甭', '别', '不', '不曾', '不必', '非', '没', '没有', '莫', '未必', '未尝', '无从', '无须', '不要', '不用', '不再', '不很', '不太', '绝非', '决非', '并非', '不能', '不常', '不会', '不可能', '何曾', '何尝', '勿']

def PLfenci(emotion_result_set, _class): #遍历每一条评论分词处理并去杂(去除表情、去除@内容、去除停用词)
    label_list = [] # 一维列表，存储评论标签
    with open('明星.csv',encoding= 'utf-8-sig') as f1:
        reader1 = csv.reader(f1)
        rows1=[row for row in  reader1]      
        with open('热点.csv',encoding= 'utf-8-sig') as f2:
            reader2 = csv.reader(f2)
            rows2=[row for row in  reader2]  
            with open('疫情.csv',encoding= 'utf-8-sig') as f3:
                reader3 = csv.reader(f3)
                rows3=[row for row in  reader3]
        
                temp_set = []
                for a in rows1:
                    if _class == 'Star' or _class == 'All':
                        temp_set.append(a)
                    label_list.append(a[1])
                for b in rows2:
                    if _class == 'Hotspot' or _class == 'All':
                        temp_set.append(b)
                    label_list.append(b[1])
                for c in rows3:
                    if _class == 'Epidemic' or _class == 'All':
                        temp_set.append(c) #将评论存储在一个列表temp_set内
                    label_list.append(c[1])
                if _class == 'All':
                    return temp_set, label_list
# 去除表情，去除@信息和停用表词
    for i in range(len(temp_set)):
        for emotion in emotion_result_set:
            if emotion in temp_set[i][0]:
                temp_set[i][0] = temp_set[i][0].replace(emotion, '')

    for each in temp_set:
        for m in range(len(each[0])):
            if (each[0][m] == '/') and (each[0][m+1] == '/') and (each[0][m+2] == '@'):
                while m < len(each[0]):
                    each[0] = each[0].replace(each[0][m], '')
                    m+=1
                break    
            
    for each in temp_set:
        for i in range(len(each[0])):
            if i < len(each[0]) and each[0][i] == '@':
                temp = ''
                while i < len(each[0]) and (each[0][i] != '：' or each[0][i] == ' '): # 注意要使用中文'：'
                    temp = temp + each[0][i]
                    i = i + 1
                each[0] = each[0].replace(temp, '')
           
    stop_list = []
    f_stop = open('.\\停用词表.txt', 'r', encoding = 'UTF-8')
    #获取停用词列表
    for each in f_stop:
        each = each.strip()#去除尾字符中的换行符
        stop_list.append(each)
    for each in temp_set:
        for k in stop_list:
            if k in each[0]:
                each[0] = each[0].replace(k, '')
    
# 进行jieba分词
    speciallist=[]
    data_list = [] # 二维列表，每个元素为一个评论预处理后的结果，每个结果也是一个列表，用','分割。
    for k in range(len(temp_set)):
        data_list.append([])
    k = 0
    for each in temp_set:
        a=checkpoint(each)
        speciallist.append(a)
        generator = jieba.cut(each[0])
        for i in generator:
            data_list[k].append(i)
        k = k + 1
    

# 预处理结果写入segment文件
    with open('.\\segment.csv', 'w', newline = '',encoding = 'utf-8-sig') as f:
        write = csv.writer(f)
        for each in data_list:
            write.writerow(each)

    return data_list, label_list,speciallist


def tfidf_get(data_list, _class): # 实现3，4功能 data_list即为前面获取的数据列表, 类名（和前一函数一致）
    transfer_data_list = [] #将data_list转化为tfidf可以看懂的格式
    for each in data_list:
        x = ' '.join(each)
        transfer_data_list.append(x)
    vectorizer = CountVectorizer() # 将文本中的词语转换为词频矩阵
    X = vectorizer.fit_transform(transfer_data_list) # 计算个词语出现的次数
    word_list = vectorizer.get_feature_names()  # 获取词袋中所有文本关键词
    transformer = TfidfTransformer() #类调用
    tfidf = transformer.fit_transform(X) #将词频矩阵X统计成TF-IDF值
    feature = [] # 存储所有评论的feature， 每个元素为一条评论的feature，每条评论5个feature。
    length = len(word_list)
    s = 0
    for each in tfidf.toarray():#进入二维列表tfidf_list的每一项中，遍历每一句的tfidf
        feature_list = []    #对于每一评论，初始特征置空
        item = 0#特征值计数变量，满5个为止
        while item < 5:
            max_tfidf = 0#最大值置零
            for i in range(length):#每一次循环找出一个最大tfidf值对应的word并存入feature_list列表中，并置该tfidf = 0
                if each[i] >= max_tfidf:
                    max_tfidf = each[i] 
                    m = i#记录相应索引号
                if i == (length - 1):# i = length - 1说明句子已经遍历到末尾了，此时最大的tfidf值就可以确定了
                    feature_list.append(word_list[m])
                    each[m] = 0
                    item = item + 1
        v = ' '.join(feature_list)
        feature.append(v)
        s = s + 1
    with open('.\\特征数据\\' + _class + '.csv', 'w', newline = '',encoding = 'utf-8-sig') as f:
        write = csv.writer(f)
        for each in feature:
            write.writerow(each)

def checkpoint(str):
    if str in list3:
        return 3
    elif str in list2_5:
        return 2.5
    elif str in list2:
        return 2
    elif str in list1_5:
        return 1.5
    elif str in list1_1:
        return 1.1
    elif str in list0_8:
        return 0.8
    elif str in list0_5:
        return 0.5
    elif str in list_1:
        return -1
    else:
        return 0

建模训练

import pre_professer
import specialize
from sklearn.model_selection import  train_test_split #数据集划分
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer  # 从sklearn.feature_extraction.text里导入文本特征向量化模块
from sklearn.metrics import classification_report
from sklearn.neural_network import MLPClassifier
import time

data = []#数据集
def Contribute_data(data, _class): # 获取class类别的数据
    with open('\\特征数据\\' + _class + '.csv', 'r', encoding = 'utf-8-sig') as fr:
        for tem in fr:
            tem = tem.replace(',', '')
            tem = tem.replace('\n', '')
            data.append(tem)
    return ''  
def get_target(lebal_list):
    target = []
    for each in lebal_list:
        if each == '1':
            target.append('积极')
        elif each == '0':
            target.append('中性')
        elif each == '-1':
            target.append('消极')
        else:
            target.append('中性')
    return target

def Bayesian(data, target):
    #数据预处理：训练集和测试集分割，文本特征向量化
    #X_train,X_test,y_train,y_test = train_test_split(data, target, test_size=30000 ,random_state=4) # 随机采样数据样本作为测试集
    X_train = data[10000:20000] + data[30000:40000] + data[60000: 80000]
    X_test = data[0:10000] + data[20000:30000] + data[50000: 60000]
    y_train = target[10000:20000] + target[30000:40000] + target[60000: 80000]
    y_test = target[0:10000] + target[20000:30000] + target[50000: 60000]
    k = X_test
    #文本特征向量化
    vec = CountVectorizer()
    X_train = vec.fit_transform(X_train)
    X_test = vec.transform(X_test)
    #print(y_test)
    #print(y_train)
    #使用朴素贝叶斯进行训练
    mnb = MultinomialNB()   # 使用默认配置初始化朴素贝叶斯
    mnb.fit(X_train,y_train)    # 利用训练数据对模型参数进行估计
    y_predict = mnb.predict(X_test)     # 对参数进行预测
    #print(y_predict)
    #获取结果报告
    print ('不带表情的朴素贝叶斯:', mnb.score(X_test,y_test))
    print ('其它指标:\n',classification_report(y_test, y_predict, target_names = ['积极', '中性', '消极']))
    
    return k, y_test, y_predict

def Fenlei(emotion_X_test, emotion_y_test, emotion_y_predict, origin_list, PE_set, NE_set, Neu_set,specialist): # 运用表情训练
    o_list = origin_list[0:10000] + origin_list[20000:30000] + origin_list[50000: 60000]
    length = len(emotion_y_predict)
    for i in range(length):
        if emotion_y_test[i] != emotion_y_predict[i]:
            key = 0
            if '' in emotion_X_test[i]:

                for each in PE_set:
                    if each in o_list[i]:
                        key = key + 1
                for each in NE_set:
                    if each in o_list[i]:
                        key = key - 1
                key+=specialist[i]
                if key > 0:
                    emotion_y_predict[i] = '积极'
                if key < 0:
                    emotion_y_predict[i] = '消极'
                if key == 0:
                   emotion_y_predict[i] = '中性'
            else:
                key = 0.5
                for each in PE_set:
                    if each in o_list[i]:
                        key = key + 1
                for each in NE_set:
                    if each in o_list[i]:
                        key = key - 1
                for each in Neu_set:
                    if each in o_list[i]:
                        key = key - 0.5
                if key > 0:
                    emotion_y_predict[i] = '积极'
                if key < 0:
                    emotion_y_predict[i] = '消极'
                if key == 0:
                    emotion_y_predict[i] = '中性'
# 呈现分类结果
    rate = 0
    for p in range(length):
        if emotion_y_predict[p] == emotion_y_test[p]:
            rate += 1
    print('带表情的贝叶斯：%.8f'%(rate/30000))
                
    return ''
start=time.time()
print('开始预处理')
emotion_result_set = []
emotion_result_set = pre_professer.Save_as_File('All_emotion.csv', emotion_result_set)
PE_set, NE_set, Neu_set = pre_professer.creat_Respiratory(emotion_result_set)
print('预处理完毕')

Star_data_list,lebal_list ,specialkist= specialize.PLfenci(emotion_result_set, 'Star')
print('开始star处理')
feature = specialize.tfidf_get(Star_data_list, 'Star')
print('Star类别特征构建成功')
print('开始hotpot处理')
Hotspot_data_list,lebal_list ,specialkist= specialize.PLfenci(emotion_result_set, 'Hotspot')
feature = specialize.tfidf_get(Hotspot_data_list, 'Hotspot')
print('Hotspot特征构建成功')
Epidemic_data_list,lebal_list ,specialkist= specialize.PLfenci(emotion_result_set, 'Epidemic')
feature = specialize.tfidf_get(Epidemic_data_list, 'Epidemic')
print('Epidemic特征构建成功')

Contribute_data(data, 'Star')
Contribute_data(data, 'Hotspot')
Contribute_data(data, 'Epidemic')

origin_list, lebal_list = specialize.PLfenci(emotion_result_set, 'All')
target = get_target(lebal_list)
emotion_X_test, emotion_y_test, emotion_y_predict = Bayesian(data, target)
#print(len(emotion_y_test))
Fenlei(emotion_X_test, emotion_y_test, emotion_y_predict, origin_list, PE_set, NE_set, Neu_set,specialkist)
size = (10,10000)
iters = 10000
clf = MLPClassifier(activation='relu', alpha=1e-05, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=size, learning_rate='constant',
       learning_rate_init=0.001, max_iter=iters, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=1, shuffle=True,
       solver='adam', tol=0.0001, validation_fraction=0.1, verbose=False,
       warm_start=False)#多层感知机
tv=specialize.tfidf_get()
print('深度学习:',clf.score(tv.transform(emotion_X_test),emotion_y_test))
from sklearn.metrics import classification_report
print('其它指标:\n',classification_report(emotion_y_predict,clf.predict(tv.transform(emotion_X_test))))
end=time.time()

参考论文：基于表情符分析的情感关键句提取方法
（提取码：3882）

Python使用pip安装Caused by SSLError:certificate verify failed 风一样的树懒人工智能 python
最近公司电脑受限，安装conda好像有点问题，不让安装。只能pip硬装了：使用pip安装的时候一直报错：“CouldnotfetchURLhttps://pypi.org/simple/pyplot/:Therewasaproblemconfirmingthesslcertificate:HTTPSConnectionPool(host='pypi.org',port=443):Maxretrie
jupyter notebook在Linux系统中导入虚拟环境 tiantian11253 linux jupyter python
一、创建虚拟环境：1、Anaconda自带的工具创建虚拟环境：1.1离线创建：condacreate-nenv_name--offlinepython=3.6.31.2在线创建：condacreate-nenv_namepython=3.6.3注：env_name表示你要创建的虚拟环境的名称python=3.6.3表示新建的环境指定的python解释器版本，不指定代表默认环境的python版本1.
【Swift 算法实战】利用 KMP 算法高效求解最短回文串网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
python jieba+wordcloud 风夏夜中 python jieba wordcloud
pipinstalljiebapipinstallwordcloud#!-*-coding:utf-8-*-importjieba.possegaspsegstop_words=["给","被","的","最"]text="食堂的饭真的是很好吃呀，最喜欢食堂了"word_dict={}#分词并统计词频，flag表示词性forword,flaginpseg.cut(text):ifwordnotin
详解Python字符串 jay丿 python 网络开发语言
字符串str是由多个字符组成的文本内容、在python中可以使用双引号、单引号或者三引号来标记字符串类型。在编程语言中，字符串是使用频率最高的一种数据类型。Python中的字符串是不可变的序列字符串的定义方式字面量定义str工厂函数字面量定义字符串可以使用双引号、单引号或者三引号进行定义、且支持不同的符号之间的嵌套。str工厂函数str(obj)可以将任何数据类型转换为字符串字符串的运算+:字符串
Python面向对象 jay丿 python 开发语言
#面向对象在编程领域中，有多种开发模式/风格，比较常见的有面向过程、面向对象、函数式编程等手段。在Python语言中，支持面向过程、面向对象和函数式编程的。面向过程面向过程目的性很强、为了完成某个特定的功能而通过函数、判断、循环等手段编写的代码。面向对象面向对象将一个任务进行拆解、每一部分的任务由特定的类/函数等完成、最终将每一部分任务的结果合并到一块、最终完成整个任务。面向对象的三大基石封装继承
Python基础知识点全面总结 jay丿 python windows 开发语言
Python基础知识点全面总结Python作为一种简洁、易读且功能强大的编程语言，已经成为编程学习和应用领域中的热门选择。本文将对Python的基础部分进行全面总结，涵盖数据类型、条件判断、循环、函数、数据结构等重要知识点，并附上相关代码示例。一、数据类型Python中的数据类型主要分为五大类：数值、布尔、字符串、容器、None。数值类型整型（int）：在Python3中，int表示长整型，没有l
Python 进阶特性深度解析：从语法糖到内存管理的统一视角 Neo Evolution Python python windows 开发语言算法数据结构
生成式（推导式）的用法与内存效率分析Python的推导式不仅仅是语法糖，它们在内存管理和性能方面有着深刻的影响。理解推导式的工作原理，有助于我们写出更高效的代码。推导式的内存模型分析列表推导式在CPython解释器中的实现实际上比等价的for循环更为高效：#列表推导式的内存分配模式squares_list=[x**2forxinrange(1000)]#等价for循环的内存分配模式squares_
探索Omniglot：一个无尽的手写字符集合宋溪普Gale
探索Omniglot：一个无尽的手写字符集合omniglotomniglot-一个包含大量不同语言手写字符图像的数据集，用于机器学习模型的训练和评估。项目地址:https://gitcode.com/gh_mirrors/om/omniglot项目简介Omniglot是由BrendenLake等人创建的一个开源项目，其目标是提供一个广泛的手写字符集，用于研究人类和机器的学习能力。这个项目不仅仅是一
python SSL: CERTIFICATE_VERIFY_FAILED certificate has expired 证书错误的几种情况和解决方法景影随形 python python ssl certificate 证书错误
文章目录一、哪些情况可能会遇到这个错误？二、为什么会出现这个错误？这个错误说明了什么？2.1HTTPS的简要知识2.2客户端是如何验证服务器证书的呢？2.2.1常见的证书错误有：三、哪些原因可能会导致证书错误？3.1证书无效报错3.1.1网站使用自签发证书3.1.2证书和域名不匹配3.2证书有效报错3.2.1本地计算机缺少合适的根证书3.2.2本地计算机根证书过期未更新3.2.3证书链不完整3.2
cap4：YoloV5的TensorRT部署指南（python版）我是一个对称矩阵 TensorRT全流程部署指南 YOLO python 人工智能 TensorRT 模型部署
《TensorRT全流程部署指南》专栏文章目录：《TensorRT全流程部署指南》专栏主页cap1：TensorRT介绍及CUDA环境安装cap2：1000分类的ResNet的TensorRT部署指南（python版）cap3：自定义数据集训练ResNet的TensorRT部署指南（python版）cap4：YoloV5目标检测任务的TensorRT部署指南（python版）cap5：YoloV5
Python----数据分析（Numpy二：数组的索引切片，属性，更改类型和形状，修改维度）蹦蹦跳跳真可爱589 数据分析 Python numpy python 数据分析
一、数组的索引和切片Ndarray数组中的元素是可以被修改的，如果需要访问或者修改Ndarray数组某个位置的元素，则需要使用Ndarray数组的索引来完成；如果需要访问或者修改一些区域的元素，则需要使用Ndarray数组的切片。1.1、一维数组的索引与切片1.1.1、索引一维数组的索引方式与Python列表的索引方式类似，Ndarray数组使用方括号行索引，索引值从左向右从0开始，从右向左从-1
Python Cookbook-2.10 处理字符串中的 zip 文件我不会编程555 #Python学习 python 开发语言
任务程序接收到了一个字符串，其内容是一个zip文件，需要读取这个zip文件中的信息。解决方案应对这种问题，采用Python标准库的cStringIO模块的拿手好戏:importcStringIO，zipfileclassZipString(ZipFile):def__init__(self,datastring):ZipFile.__init__(self,cStringIO.StringIO(d
解决在Python中使用Win32api报错的问题，No module named win32api w36680130 Python
解决在Python中使用Win32api报错的问题，Nomodulenamedwin32api参考文章：（1）解决在Python中使用Win32api报错的问题，Nomodulenamedwin32api（2）https://www.cnblogs.com/SH170706/p/9640110.html备忘一下。
ROS2安装教程（virtualbox7.0.6+ROS2） setella c++ubuntu
整个过程分两步：先安装Virtualbox，再安装ROS2一、安装virtualbox7.0.6网址：https://www.virtualbox.org/wiki/Downloads问题1安装时报错：缺少pythoncore、win32api依赖（下图网上拷贝的图，版本忽略）解决：根据virtualbox论坛的帖子，有人说不使用python控制virtualbox的话，可以先不安装，去掉pyth
基于Python开发的使用多个单视图特征融合的基于图卷积网络（GCN）的肺结节检测系统的示例 go5463158465 python 深度学习算法 python 迁移学习开发语言
以下是一个基于Python开发的使用多个单视图特征融合的基于图卷积网络（GCN）的肺结节检测系统的示例。我们将使用PyTorch和torch_geometric库来实现图卷积网络，并模拟数据进行演示。步骤概述数据准备：模拟生成多个单视图的肺结节特征数据，并构建图数据。特征融合：将多个单视图特征进行融合。图卷积网络构建：构建一个简单的图卷积网络模型。模型训练：使用训练数据对模型进行训练。模型评估：使
virtualBox虚拟机使用 hawks:) linux 运维服务器
之前一直使用vmware，现在发现virtualbox其实用着也还可以，界面比较简洁。下载和安装官方网站：https://www.virtualbox.org/不知道为什么，这个官网看起来很亲切。我下载的是virtualbox7，直接安装提示缺少python和win32api。目前virtualbox最高支持python3.11https://www.virtualbox.org/ticket/2
如何使用Python快速开发一个带管理系统界面的网站-解析方案萧鼎 python基础到进阶教程 python 开发语言
如果你想用Python开发一个管理系统界面的网站，并且希望界面美观，可以考虑以下几个框架和库：1.Streamlit（快速、简洁）适合：数据分析、仪表盘、内部管理系统特点：写法简单，类似JupyterNotebook自带现代化UI，无需前端开发内置交互组件，如表单、图表、按钮缺点：不适合复杂的权限管理和大规模系统示例代码：importstreamlitasstst.title("管理系统")st.
安全见闻笔记 freesec 安全笔记
安全见闻包含了网络安全，网络技术，拓展知识面“不识庐山真面目，只缘身在此山中”编程语言:C语言：一种通用的、面向过程的编程语言，广泛应用于系统软件和嵌入式开发。C++：在C语言基础上发展而来，支持面向对象编程，常用于游戏开发、高性能计算等领域。Java：一种广泛使用的面向对象编程语言，具有跨平台性，应用于企业级应用开发等。Python：简洁易学，拥有丰富的库，适用于数据分析、人工智能、Web开发等
使用 Python 和 OpenCV 检测人体皮肤颜色变化计算心率爱搬砖的程序猿. python opencv 开发语言
一、引言心率是反映人体健康状况的重要生理指标之一。传统的心率检测方法通常需要使用专业的医疗设备，如心电图仪、心率带等。而随着计算机视觉技术的发展，我们可以利用摄像头捕捉人体皮肤的颜色变化，通过分析这些变化来计算心率。本文将介绍如何使用Python和OpenCV实现这一功能。二、原理概述当心脏跳动时，血液会在血管中流动，导致皮肤表面的颜色发生微小的变化。这种颜色变化主要体现在皮肤的红色通道上。我们可
python数据分析一周速成2.数据计算噼里啪啦噼酷啪Q python 数据分析 CDA
python数据分析一周速成2.数据计算一、按列聚合计算（常用函数，五星推荐describe一键多维展示）importnumpyasnpimportpandasaspdd=np.array([[1,12,13,15,16],[23,28,24,215,26],[370,39,355,325,3],[47,49,45,42,482],[571,519,5,52,57],[61,69,
linux建立多个repo,git+repo的搭建过程七月步远 linux建立多个repo
此文章是分为Git搭建和repo搭建，以及repoAndroid仓库的创建Git搭建公用版代码服务器apt-getinstallgit确保ssh已经正常安装并使用。useradd-mgitapt-getinstallpython-setuptoolsgitconfig--globaluser.name"S905-server"gitconfig--globaluser.email查看成功与否则是：
【Python爬虫(70)】Python爬虫实战：房产数据大揭秘奔跑吧邓邓子 Python爬虫 python 爬虫开发语言房产数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬取准备2.1目标网站选择2.2开发环境搭建2.3反爬
【Python爬虫(68)】扒一扒招聘网站，让求职“有备而来” 奔跑吧邓邓子 Python爬虫 python 爬虫开发语言招聘网站
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬取准备2.1确定目标招聘网站2.2环境搭建2.3了解
【Python爬虫(69)】解锁游戏数据宝藏：Python爬虫实战攻略奔跑吧邓邓子 Python爬虫 python 爬虫游戏开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言1.1游戏数据的价值1.2爬虫在游戏数据获取中的作用二、爬
基于YOLOv5、FaceNet与KNN的人脸识别系统 reset2021 人脸识别系统 YOLO facenet knn 人脸检测
步骤1：环境配置安装依赖库：安装Python3.x安装TensorFlow、Keras、OpenCV等深度学习库获取数据集：收集训练用的多个人脸图像（每个用户至少几十张）将图像按用户分类存放在data/train/user1,user2等文件夹中步骤2：训练YOLO模型配置YOLO数据集：创建一个data.yaml文件，配置您的数据集路径和标签train:./data/train/images/v
L1-013 计算阶乘和(10分) Python 大菜彩天梯赛蓝桥杯 python 天梯赛
对于给定的正整数N，需要你计算S=1!+2!+3!+...+N!。输入格式：输入在一行中给出一个不超过10的正整数N。输出格式：在一行中输出S的值。样例：">输入样例：3输出样例：9代码：n=int(input())sum0=0foriinrange(1,n+1):sum1=1forjinrange(1,i+1):sum1=sum1*jsum0=sum0+sum1print(sum0)
零基础学习Python之保留字_我的学习Python记录3 灏瀚星空人工智能 python 学习经验分享笔记
零基础学习Python之保留字_我的学习Python记录3学习背景在ChatGPT引爆AI革命的今天，Python以"人工智能第一语言"的身份成为技术圈宠儿。作为零基础小白，我决定用CSDN博客记录学习历程，通过输出倒逼输入，与广大网友共同成长！今日重点攻克——Python保留字。一、Python保留字速查表（共35个）以下为Python3.10版本所有保留字及简明释义：保留字释义基础用法示例（新
windows下安装Open Web UI 醒醒a python
windows下安装openwebui有三种方式,docker,python+node.js,整合包.这里我选择的是第二种,非docker.非Docker方式安装1.安装Python：下载并安装Python3.11，建议安装路径中不要包含中文字符，并勾选“Addpython3.11toPath”选项。安装完成后，在命令提示符中输入python，若显示Python版本信息则表示安装成功。2.安装No
Python Django系列—入门实例(二) Doker数码品牌 Python python django 开发语言
数据库配置现在，打开mysite/settings.py。这是个包含了Django项目设置的Python模块。默认情况下，DATABASES配置使用SQLite。如果你是数据库新手，或者只是想尝试Django，这是最简单的选择。SQLite包含在Python中，因此你不需要安装任何其他东西来支持数据库。然而，当你开始第一个真正的项目时，你可能希望使用像PostgreSQL这样更具扩展性的数据库，以
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

带有表情符号的文本情感分类实验

差不多是个实验报告的目录

一点感想

涉及知识点

论文内容

论文复现

表情符处理

文本处理

构建模型训练

结果

代码

表情处理

文本处理

建模训练

你可能感兴趣的:(python,机器学习,情感分析)