yava_free

Python的情感词典情感分析和情绪计算

一.大连理工中文情感词典

情感分析 (Sentiment Analysis)和情绪分类 (Emotion Classification）都是非常重要的文本挖掘手段。情感分析的基本流程如下图所示，通常包括：

自定义爬虫抓取文本信息；
使用Jieba工具进行中文分词、词性标注；
定义情感词典提取每行文本的情感词；
通过情感词构建情感矩阵，并计算情感分数；
结果评估，包括将情感分数置于0.5到-0.5之间，并可视化显示。

目前中国研究成熟的词典有大连理工大学情感词汇本体库、知网的 HowNet 情感词典及TW大学中文情感极性词典等。本文选择的基础词典是大连理工大学情感词汇本体库，此词典将情感分为“乐”“好”“怒”“哀”“惧”“恶”“惊”7 个大类和 21 个小类，其情感词的初始情感强度被设置为 1、3、5、7、9 五个等级，较其他词典而言，强度划分得更为细致。情感词的情感极性有中性、褒义、贬义 3 类，分别对应值 0、1、2。为便于计算机作情感计算，文中将代表贬义的极性值2 修改为-1。词汇的情感值公式为：

中文情感词汇本体库是大连理工大学信息检索研究室在 林鸿飞教授 的指导下经过全体教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或者短语，包括词语词性种类、情感类别、情感强度及极性等信息。中文情感词汇本体的情感分类体系是在国外比较有影响的 Ekman 的 6 大类情感分类体系的基础上构建的。在 Ekman 的基础上，词汇本体加入情感类别“好”对褒义情感进行了更细致的划分。最终词汇本体中的情感共分为 7 大类 21 小类。

构造该资源的宗旨是在情感计算领域，为中文文本情感分析和倾向性分析提供一个便捷可靠的辅助手段。中文情感词汇本体可以用于解决多类别情感分类的问题，同时也可以用于解决一般的倾向性分析的问题。如下图所示，该词典共包括27466个词语，包含词语、词性种类、词义数、词义序号、情感分类、强度、极性、辅助情感分类、强度和极性。

注意，在情感词典中，一个情感词可能对应多个情感，情感分类用于刻画情感词的主要情感分类，辅助情感为该情感词在具有主要情感分类的同时含有的其他情感分类。

情感分类按照论文《情感词汇本体的构造》所述，情感分为 7 大类 21 小类。情感强度分为 1、3、5、7、9 五档，9 表示强度最大，1 为强度最小。情感分类如下表所示：

情感词汇本体中的词性种类一共分为 7 类，分别是名词（noun）、动词（verb）、形容词（adj）、副词（adv）、网络词语（nw）、成语（idiom）、介词短语（prep）。同时，每个词在每一类情感下都对应了一个极性。其中，0代表中性，1代表褒义，2代表贬义，3代表兼有褒贬两性。最后给出否定词和程序副词，否定词会将情感强度乘以-1，程度副词代表不同级别的情感倾向。

二.七种情绪计算

首先，我们的数据集如下图所示，是《庆余年》电视剧的评论，共计220条。

第一步，调用Pandas读取数据。

# coding: utf-8
import pandas as pd

#获取数据集
f = open('庆余年220.csv',encoding='utf8')
weibo_df = pd.read_csv(f)
print(weibo_df.head())

输出结果如下图所示：

第二步，导入大连理工大学中文情感词典。

# coding: utf-8
import pandas as pd

#-------------------------------------获取数据集---------------------------------
f = open('庆余年220.csv',encoding='utf8')
weibo_df = pd.read_csv(f)
print(weibo_df.head())

#-------------------------------------情感词典读取-------------------------------
#注意：
#1.词典中怒的标记(NA)识别不出被当作空值,情感分类列中的NA都给替换成NAU
#2.大连理工词典中有情感分类的辅助标注(有NA),故把情感分类列改好再替换原词典中

# 扩展前的词典
df = pd.read_excel('大连理工大学中文情感词汇本体NAU.xlsx')
print(df.head(10))

df = df[['词语', '词性种类', '词义数', '词义序号', '情感分类', '强度', '极性']]
df.head()

下图展示了我们导入的词典。

第三步，统计七种情绪分布情况。

# coding: utf-8
import pandas as pd

#-------------------------------------获取数据集---------------------------------
f = open('庆余年220.csv',encoding='utf8')
weibo_df = pd.read_csv(f)
print(weibo_df.head())

#-------------------------------------情感词典读取-------------------------------
#注意：
#1.词典中怒的标记(NA)识别不出被当作空值,情感分类列中的NA都给替换成NAU
#2.大连理工词典中有情感分类的辅助标注(有NA),故把情感分类列改好再替换原词典中

# 扩展前的词典
df = pd.read_excel('大连理工大学中文情感词汇本体NAU.xlsx')
print(df.head(10))

df = df[['词语', '词性种类', '词义数', '词义序号', '情感分类', '强度', '极性']]
df.head()

#-------------------------------------七种情绪的运用-------------------------------
Happy = []
Good = []
Surprise = []
Anger = []
Sad = []
Fear = []
Disgust = []

#df.iterrows()功能是迭代遍历每一行
for idx, row in df.iterrows():
    if row['情感分类'] in ['PA', 'PE']:
        Happy.append(row['词语'])
    if row['情感分类'] in ['PD', 'PH', 'PG', 'PB', 'PK']:
        Good.append(row['词语']) 
    if row['情感分类'] in ['PC']:
        Surprise.append(row['词语'])       
    if row['情感分类'] in ['NB', 'NJ', 'NH', 'PF']:
        Sad.append(row['词语'])
    if row['情感分类'] in ['NI', 'NC', 'NG']:
        Fear.append(row['词语'])
    if row['情感分类'] in ['NE', 'ND', 'NN', 'NK', 'NL']:
        Disgust.append(row['词语'])
    if row['情感分类'] in ['NAU']:     #修改: 原NA算出来没结果
        Anger.append(row['词语'])  

#正负计算不是很准 自己可以制定规则       
Positive = Happy + Good + Surprise
Negative = Anger + Sad + Fear + Disgust
print('情绪词语列表整理完成')  
print(Anger)

比如输出Anger生气的情绪词语。

用Spyder集成环境打开可以看到情感特征词的具体分布情况。

第四步，增加中文分词和自定义停用词典的代码。

#---------------------------------------中文分词---------------------------------
import jieba
import time

#添加使用者词典和停用词
jieba.load_userdict("user_dict.txt")              #自定义词典
stop_list = pd.read_csv('stop_words.txt',
                        engine='python',
                        encoding='utf-8',
                        delimiter="\n",
                        names=['t'])['t'].tolist()
def txt_cut(juzi):
    return [w for w in jieba.lcut(juzi) if w not in stop_list]     #可增加len(w)>1

部分停用词如下所示，它们没有意义，对情感也没有影响，所以需要进行过滤。

第五步，计算七种情绪特征词的出现频率。

情绪包括anger、disgust、fear、sadness、surprise、good、happy。

#---------------------------------------中文分词---------------------------------
import jieba
import time

#添加自定义词典和停用词
#jieba.load_userdict("user_dict.txt")
stop_list = pd.read_csv('stop_words.txt',
                        engine='python',
                        encoding='utf-8',
                        delimiter="\n",
                        names=['t'])

#获取重命名t列的值
stop_list = stop_list['t'].tolist()

def txt_cut(juzi):
    return [w for w in jieba.lcut(juzi) if w not in stop_list]     #可增加len(w)>1

#---------------------------------------情感计算---------------------------------
def emotion_caculate(text):
    positive = 0
    negative = 0
    anger = 0
    disgust = 0
    fear = 0
    sad = 0
    surprise = 0
    good = 0
    happy = 0
    
    wordlist = txt_cut(text)
    #wordlist = jieba.lcut(text)
    wordset = set(wordlist)
    wordfreq = []
    for word in wordset:
        freq = wordlist.count(word)
        if word in Positive:
            positive+=freq
        if word in Negative:
            negative+=freq
        if word in Anger:
            anger+=freq  
        if word in Disgust:
            disgust+=freq
        if word in Fear:
            fear+=freq
        if word in Sad:
            sad+=freq
        if word in Surprise:
            surprise+=freq
        if word in Good:
            good+=freq
        if word in Happy:
            happy+=freq
            
    emotion_info = {
        'length':len(wordlist),
        'positive': positive,
        'negative': negative,
        'anger': anger,
        'disgust': disgust,
        'fear':fear,
        'good':good,
        'sadness':sad,
        'surprise':surprise,
        'happy':happy,
        
    }

    indexs = ['length', 'positive', 'negative', 'anger', 'disgust','fear','sadness','surprise', 'good', 'happy']
    return pd.Series(emotion_info, index=indexs)

#测试
text="""
原著的确更吸引编剧读下去，所以跟《诛仙》系列明显感觉到编剧只看过故事大纲比，这个剧的编剧完整阅读过小说。
配乐活泼俏皮，除了强硬穿越的台词轻微尴尬，最应该尴尬的感情戏反而入戏，
故意模糊了陈萍萍的太监身份、太子跟长公主的暧昧关系，
整体观影感受极好，很期待第二季拍大东山之役。玩弄人心的阴谋阳谋都不狗血，架空的设定能摆脱历史背景，
服装道具能有更自由的发挥空间，特别喜欢庆帝的闺房。以后还是少看国产剧，太长了，
还是精短美剧更适合休闲，追这个太累。王启年真是太可爱了。
"""
res = emotion_caculate(text)
print(res)

统计结果为disgust特征词6个，good特征词6个，开心特征词1个。

length      83
positive     7
negative     6
anger        0
disgust      6
fear         0
sadness      0
surprise     0
good         6
happy        1
dtype: int64

进一步提取特征词，我们可以看到刚才那个句子的特征词如下所示（详见后续完整代码）。其中，disgust（恶）包括“阴谋”、“玩弄”等词语，good（好）包括“极好”、“喜欢”等词语，happy（乐）包括“摆脱”词语。

第六步，计算《庆余年》自定义数据集的七种情绪分布情况。

# coding: utf-8
import pandas as pd
import jieba
import time

#-------------------------------------获取数据集---------------------------------
f = open('庆余年220.csv',encoding='utf8')
weibo_df = pd.read_csv(f)
print(weibo_df.head())

#-------------------------------------情感词典读取-------------------------------
#注意：
#1.词典中怒的标记(NA)识别不出被当作空值,情感分类列中的NA都给替换成NAU
#2.大连理工词典中有情感分类的辅助标注(有NA),故把情感分类列改好再替换原词典中

# 扩展前的词典
df = pd.read_excel('大连理工大学中文情感词汇本体NAU.xlsx')
print(df.head(10))

df = df[['词语', '词性种类', '词义数', '词义序号', '情感分类', '强度', '极性']]
df.head()

#-------------------------------------七种情绪的运用-------------------------------
Happy = []
Good = []
Surprise = []
Anger = []
Sad = []
Fear = []
Disgust = []

#df.iterrows()功能是迭代遍历每一行
for idx, row in df.iterrows():
    if row['情感分类'] in ['PA', 'PE']:
        Happy.append(row['词语'])
    if row['情感分类'] in ['PD', 'PH', 'PG', 'PB', 'PK']:
        Good.append(row['词语']) 
    if row['情感分类'] in ['PC']:
        Surprise.append(row['词语'])       
    if row['情感分类'] in ['NB', 'NJ', 'NH', 'PF']:
        Sad.append(row['词语'])
    if row['情感分类'] in ['NI', 'NC', 'NG']:
        Fear.append(row['词语'])
    if row['情感分类'] in ['NE', 'ND', 'NN', 'NK', 'NL']:
        Disgust.append(row['词语'])
    if row['情感分类'] in ['NAU']:     #修改: 原NA算出来没结果
        Anger.append(row['词语'])  

#正负计算不是很准 自己可以制定规则       
Positive = Happy + Good + Surprise
Negative = Anger + Sad + Fear + Disgust
print('情绪词语列表整理完成')  
print(Anger)

#---------------------------------------中文分词---------------------------------

#添加自定义词典和停用词
#jieba.load_userdict("user_dict.txt")
stop_list = pd.read_csv('stop_words.txt',
                        engine='python',
                        encoding='utf-8',
                        delimiter="\n",
                        names=['t'])

#获取重命名t列的值
stop_list = stop_list['t'].tolist()

def txt_cut(juzi):
    return [w for w in jieba.lcut(juzi) if w not in stop_list]     #可增加len(w)>1

#---------------------------------------情感计算---------------------------------
def emotion_caculate(text):
    positive = 0
    negative = 0
    
    anger = 0
    disgust = 0
    fear = 0
    sad = 0
    surprise = 0
    good = 0
    happy = 0

    anger_list = []
    disgust_list = []
    fear_list = []
    sad_list = []
    surprise_list = []
    good_list = []
    happy_list = []
    
    wordlist = txt_cut(text)
    #wordlist = jieba.lcut(text)
    wordset = set(wordlist)
    wordfreq = []
    for word in wordset:
        freq = wordlist.count(word)
        if word in Positive:
            positive+=freq
        if word in Negative:
            negative+=freq
        if word in Anger:
            anger+=freq
            anger_list.append(word)
        if word in Disgust:
            disgust+=freq
            disgust_list.append(word)
        if word in Fear:
            fear+=freq
            fear_list.append(word)
        if word in Sad:
            sad+=freq
            sad_list.append(word)
        if word in Surprise:
            surprise+=freq
            surprise_list.append(word)
        if word in Good:
            good+=freq
            good_list.append(word)
        if word in Happy:
            happy+=freq
            happy_list.append(word)
            
    emotion_info = {
        'length':len(wordlist),
        'positive': positive,
        'negative': negative,
        'anger': anger,
        'disgust': disgust,
        'fear':fear,
        'good':good,
        'sadness':sad,
        'surprise':surprise,
        'happy':happy,
        
    }

    indexs = ['length', 'positive', 'negative', 'anger', 'disgust','fear','sadness','surprise', 'good', 'happy']
    #return pd.Series(emotion_info, index=indexs), anger_list, disgust_list, fear_list, sad_list, surprise_list, good_list, happy_list
    return pd.Series(emotion_info, index=indexs)

#测试 (res, anger_list, disgust_list, fear_list, sad_list, surprise_list, good_list, happy_list)
text = """
原著的确更吸引编剧读下去，所以跟《诛仙》系列明显感觉到编剧只看过故事大纲比，这个剧的编剧完整阅读过小说。
配乐活泼俏皮，除了强硬穿越的台词轻微尴尬，最应该尴尬的感情戏反而入戏，
故意模糊了陈萍萍的太监身份、太子跟长公主的暧昧关系，
整体观影感受极好，很期待第二季拍大东山之役。玩弄人心的阴谋阳谋都不狗血，
架空的设定能摆脱历史背景，服装道具能有更自由的发挥空间，
特别喜欢庆帝的闺房。以后还是少看国产剧，太长了，还是精短美剧更适合休闲，追这个太累。王启年真是太可爱了。
"""
#res, anger, disgust, fear, sad, surprise, good, happy = emotion_caculate(text)
res = emotion_caculate(text)
print(res)

#---------------------------------------情感计算---------------------------------
start = time.time()   
emotion_df = weibo_df['review'].apply(emotion_caculate)
end = time.time()
print(end-start)
print(emotion_df.head())

#输出结果
output_df = pd.concat([weibo_df, emotion_df], axis=1)
output_df.to_csv('庆余年220_emotion.csv',encoding='utf_8_sig', index=False)
print(output_df.head())

输出结果如下图所示：

对应的矩阵数据如下图所示：

第七步，如果我们想获取某种情绪的结果，则可以通过下面的代码实现。

#显示fear、negative数据集
fear_content = output_df.sort_values(by='fear',ascending=False)
print(fear_content)
print(fear_content.iloc[0:5]['review'])

negative_content = output_df.sort_values(by='negative',ascending=False)
print(negative_content)
print(negative_content.iloc[0:5]['review'])

输出结果如下图所示：

三.七种情绪词云可视化

当我们获取了某个语料的情绪特征词之后，通常还会和词云结合起来进行可视化分析。首先，简单给出一个词云可视化的代码，接着结合该案例来进行分析。

1.基本用法

词云分析主要包括两种方法：

调用WordCloud扩展包画图（兼容性极强，之前介绍过）
调用PyEcharts中的WordCloud子包画图（本文推荐新方法）

PyEcharts绘制词云的基础代码如下：

# coding=utf-8
from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

# 数据
words = [
    ('背包问题', 10000),
    ('大整数', 6181),
    ('Karatsuba乘法算法', 4386),
    ('穷举搜索', 4055),
    ('傅里叶变换', 2467),
    ('状态树遍历', 2244),
    ('剪枝', 1868),
    ('Gale-shapley', 1484),
    ('最大匹配与匈牙利算法', 1112),
    ('线索模型', 865),
    ('关键路径算法', 847),
    ('最小二乘法曲线拟合', 582),
    ('二分逼近法', 555),
    ('牛顿迭代法', 550),
    ('Bresenham算法', 462),
    ('粒子群优化', 366),
    ('Dijkstra', 360),
    ('A*算法', 282),
    ('负极大极搜索算法', 273),
    ('估值函数', 265)
]

# 渲染图
def wordcloud_base() -> WordCloud:
    c = (
        WordCloud()
        .add("", words, word_size_range=[20, 100], shape='diamond')  # SymbolType.ROUND_RECT
        .set_global_opts(title_opts=opts.TitleOpts(title='WordCloud词云'))
    )
    return c

# 生成图
wordcloud_base().render('词云图.html')

输出结果如下图所示，出现词频越高显示越大。

核心代码为：
add(name, attr, value, shape=“circle”, word_gap=20, word_size_range=None, rotate_step=45)

name -> str: 图例名称
attr -> list: 属性名称
value -> list: 属性所对应的值
shape -> list: 词云图轮廓，有’circle’, ‘cardioid’, ‘diamond’, ‘triangleforward’, ‘triangle’, ‘pentagon’, ‘star’可选
word_gap -> int: 单词间隔,默认为20
word_size_range -> list: 单词字体大小范围,默认为[12,60]
rotate_step -> int: 旋转单词角度,默认为45

2.统计七种情绪特征词

我们先统计七种情绪特征词出现的次数，然后写入CSV文件中。

# coding: utf-8
import pandas as pd
import jieba
import time
import csv

#-------------------------------------获取数据集---------------------------------
f = open('庆余年220.csv',encoding='utf8')
weibo_df = pd.read_csv(f)
print(weibo_df.head())

#-------------------------------------情感词典读取-------------------------------
#注意：
#1.词典中怒的标记(NA)识别不出被当作空值,情感分类列中的NA都给替换成NAU
#2.大连理工词典中有情感分类的辅助标注(有NA),故把情感分类列改好再替换原词典中

# 扩展前的词典
df = pd.read_excel('大连理工大学中文情感词汇本体NAU.xlsx')
print(df.head(10))

df = df[['词语', '词性种类', '词义数', '词义序号', '情感分类', '强度', '极性']]
df.head()

#-------------------------------------七种情绪的运用-------------------------------
Happy = []
Good = []
Surprise = []
Anger = []
Sad = []
Fear = []
Disgust = []

#df.iterrows()功能是迭代遍历每一行
for idx, row in df.iterrows():
    if row['情感分类'] in ['PA', 'PE']:
        Happy.append(row['词语'])
    if row['情感分类'] in ['PD', 'PH', 'PG', 'PB', 'PK']:
        Good.append(row['词语']) 
    if row['情感分类'] in ['PC']:
        Surprise.append(row['词语'])       
    if row['情感分类'] in ['NB', 'NJ', 'NH', 'PF']:
        Sad.append(row['词语'])
    if row['情感分类'] in ['NI', 'NC', 'NG']:
        Fear.append(row['词语'])
    if row['情感分类'] in ['NE', 'ND', 'NN', 'NK', 'NL']:
        Disgust.append(row['词语'])
    if row['情感分类'] in ['NAU']:     #修改: 原NA算出来没结果
        Anger.append(row['词语'])  

#正负计算不是很准 自己可以制定规则       
Positive = Happy + Good + Surprise
Negative = Anger + Sad + Fear + Disgust
print('情绪词语列表整理完成')  
print(Anger)

#---------------------------------------中文分词---------------------------------

#添加自定义词典和停用词
#jieba.load_userdict("user_dict.txt")
stop_list = pd.read_csv('stop_words.txt',
                        engine='python',
                        encoding='utf-8',
                        delimiter="\n",
                        names=['t'])

#获取重命名t列的值
stop_list = stop_list['t'].tolist()

def txt_cut(juzi):
    return [w for w in jieba.lcut(juzi) if w not in stop_list]     #可增加len(w)>1

#---------------------------------------情感计算---------------------------------
#文件写入
c = open("Emotion_features.csv", "a+", newline='', encoding='gb18030')
writer = csv.writer(c)
writer.writerow(["Emotion","Word","Num"])

#情感统计
def emotion_caculate(text):
    positive = 0
    negative = 0
    
    anger = 0
    disgust = 0
    fear = 0
    sad = 0
    surprise = 0
    good = 0
    happy = 0

    anger_list = []
    disgust_list = []
    fear_list = []
    sad_list = []
    surprise_list = []
    good_list = []
    happy_list = []
    
    wordlist = txt_cut(text)
    #wordlist = jieba.lcut(text)
    wordset = set(wordlist)
    wordfreq = []
    for word in wordset:
        freq = wordlist.count(word)
        tlist = []
        if word in Positive:
            positive+=freq
        if word in Negative:
            negative+=freq
        if word in Anger:
            anger+=freq
            anger_list.append(word)
            tlist.append("anger")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
        if word in Disgust:
            disgust+=freq
            disgust_list.append(word)
            tlist.append("disgust")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
        if word in Fear:
            fear+=freq
            fear_list.append(word)
            tlist.append("fear")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
        if word in Sad:
            sad+=freq
            sad_list.append(word)
            tlist.append("sad")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
        if word in Surprise:
            surprise+=freq
            surprise_list.append(word)
            tlist.append("surprise")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
        if word in Good:
            good+=freq
            good_list.append(word)
            tlist.append("good")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
        if word in Happy:
            happy+=freq
            happy_list.append(word)
            tlist.append("happy")
            tlist.append(word)
            tlist.append(freq)
            writer.writerow(tlist)
            
    emotion_info = {
        'length':len(wordlist),
        'positive': positive,
        'negative': negative,
        'anger': anger,
        'disgust': disgust,
        'fear':fear,
        'good':good,
        'sadness':sad,
        'surprise':surprise,
        'happy':happy,
        
    }

    indexs = ['length', 'positive', 'negative', 'anger', 'disgust','fear','sadness','surprise', 'good', 'happy']
    #return pd.Series(emotion_info, index=indexs), anger_list, disgust_list, fear_list, sad_list, surprise_list, good_list, happy_list
    return pd.Series(emotion_info, index=indexs)

#---------------------------------------情感计算---------------------------------
start = time.time()   
emotion_df = weibo_df['review'].apply(emotion_caculate)
end = time.time()
print(end-start)
print(emotion_df.head())

#输出结果
output_df = pd.concat([weibo_df, emotion_df], axis=1)
output_df.to_csv('庆余年220_emotion.csv',encoding='utf_8_sig', index=False)
print(output_df.head())

#结束统计
c.close()

输出结果如下图所示：

3.词云分析

接着通过Pandas获取不同情绪的特征词及数量，代码如下所示。

# coding: utf-8
import csv
import pandas as pd

#读取数据
f = open('Emotion_features.csv')
data = pd.read_csv(f)
print(data.head())

#统计结果
groupnum = data.groupby(['Emotion']).size()
print(groupnum)
print("")

#分组统计
for groupname,grouplist in data.groupby('Emotion'):
    print(groupname)
    print(grouplist)

输出结果如下图所示：

   Emotion Word  Num
0     good   人心    1
1     good   极好    1
2     good   活泼    1
3  disgust   强硬    1
4  disgust   尴尬    2

Emotion
anger         2
disgust     208
fear          9
good        254
happy        39
sad          42
surprise     11
dtype: int64

anger
    Emotion Word  Num
133   anger   气愤    1
382   anger   报仇    3

disgust
     Emotion Word  Num
3    disgust   强硬    1
4    disgust   尴尬    2
8    disgust   模糊    1
..       ...  ...  ...
558  disgust   紧张    1
560  disgust   紧张    1
561  disgust   刺激    1
[208 rows x 3 columns]

fear
    Emotion  Word  Num
93     fear   鸿门宴    1
111    fear    吓人    1
148    fear    可怕    1
170    fear  没头苍蝇    1
211    fear    厉害    1
290    fear  刀光剑影    1
292    fear    忌惮    1
342    fear  无时无刻    1
559    fear    紧张    1

good
    Emotion Word  Num
0      good   人心    1
1      good   极好    1
..       ...  ...  ...

但是我们会发现统计的结果分布不均匀，所以扩展情感词库是非常必要的。接下来我们以good、disgust、sad和happy作为示例进行词云对比。最终代码如下所示：

# coding: utf-8
import csv
import pandas as pd
import operator

#------------------------------------统计结果------------------------------------
#读取数据
f = open('Emotion_features.csv')
data = pd.read_csv(f)
print(data.head())

#统计结果
groupnum = data.groupby(['Emotion']).size()
print(groupnum)
print("")

#分组统计
for groupname,grouplist in data.groupby('Emotion'):
    print(groupname)
    print(grouplist)

#生成数据 word = [('A',10), ('B',9), ('C',8)] 列表+Tuple
i = 0
words = []
counts = []
while i WordCloud:
    c = (
        WordCloud()
        .add("", result, word_size_range=[5, 200], shape=SymbolType.ROUND_RECT)
        .set_global_opts(title_opts=opts.TitleOpts(title='情绪词云图'))
    )
    return c

# 生成图
wordcloud_base().render('情绪词云图.html')

输出结果如下图所示：

[(‘可惜’, 5), (‘大失所望’, 1), (‘白搭’, 1), (‘情感’, 1), (‘失望’, 10), (‘鹤唳华亭’, 5), (‘引人深思’, 1), (‘不行’, 5), (‘难受’, 4), (‘艰苦’, 2), (‘俏皮话’, 1), (‘无语’, 2), (‘回忆’, 1), (‘悲剧’, 1), (‘江河日下’, 1), (‘战乱’, 2), (‘不忍’, 1)]

由于数据集较少，作者将次数扩大了5倍，这种情况建议大家进行归一化处理。具体怎么做？这里不再详细讲解。

最终四个情绪Sad | Happy | Good | Disgust 对比图如下图所示：

四.自定义词典情感分析

下面我们进行基于大连理工自定义词典的情感分析。核心模块

load_sentiment_dict(self,dict_path)，功能如下：

调用大连理工词典，选取其中要用的列
将情感极性转化一下，并计算得出真正的情感值(强度×极性(转后))
找到情感词所属的大类
分词 => 情感词间是否有否定词/程度词+前后顺序 => 情感分数累加

完整代码如下：

# coding: utf-8
import sys
import gzip
from collections import defaultdict
from itertools import product
import jieba
import csv
import pandas as pd

class Struct(object):
    def __init__(self, word, sentiment, pos,value, class_value):
        self.word = word
        self.sentiment = sentiment
        self.pos = pos
        self.value = value
        self.class_value = class_value

class Result(object):
    def __init__(self,score, score_words,not_word, degree_word ):
        self.score = score
        self.score_words = score_words
        self.not_word = not_word
        self.degree_word = degree_word

class Score(object):
        # 七个情感大类对应的小类简称: 尊敬
        score_class = {'乐':['PA','PE'],
                       '好':['PD','PH', 'PG','PB','PK'],
                       '怒':['NA' ],
                       '哀':['NB','NJ','NH', 'PF'],
                       '惧':['NI', 'NC', 'NG'],
                       '恶':['NE', 'ND', 'NN','NK','NL'],
                       '惊':['PC']
                       }
        # 大连理工大学 -> ICTPOS 3.0
        POS_MAP = {
            'noun': 'n',
            'verb': 'v',
            'adj': 'a',
            'adv': 'd',
            'nw': 'al',  # 网络用语
            'idiom': 'al',
            'prep': 'p',
        }

        # 否定词
        NOT_DICT = set(['不','不是','不大', '没', '无', '非', '莫', '弗', '毋',
                        '勿', '未', '否', '别', '無', '休'])

        def __init__(self, sentiment_dict_path, degree_dict_path, stop_dict_path ):
            self.sentiment_struct,self.sentiment_dict = self.load_sentiment_dict(sentiment_dict_path)
            self.degree_dict = self.load_degree_dict(degree_dict_path)
            self.stop_words = self.load_stop_words(stop_dict_path)

        def load_stop_words(self, stop_dict_path):
            stop_words = [w for w in open(stop_dict_path).readlines()]
            #print (stop_words[:100])
            return stop_words

        def remove_stopword(self, words):
            words = [w for w in words if w not in self.stop_words]
            return words

        def load_degree_dict(self, dict_path):
            """读取程度副词词典
            Args:
                dict_path: 程度副词词典路径. 格式为 word\tdegree
                           所有的词可以分为6个级别，分别对应极其, 很, 较, 稍, 欠, 超
           Returns:
                返回 dict = {word: degree}
            """
            degree_dict = {}
            with open(dict_path, 'r', encoding='UTF-8') as f:
                for line in f:
                    line = line.strip()
                    word, degree = line.split('\t')
                    degree = float(degree)
                    degree_dict[word] = degree
            return degree_dict

        def load_sentiment_dict(self, dict_path):
            """读取情感词词典
            Args:
                dict_path: 情感词词典路径. 格式请看 README.md
            Returns:
                返回 dict = {(word, postag): 极性}
            """
            sentiment_dict = {}
            sentiment_struct = []

            with open(dict_path, 'r', encoding='UTF-8') as f:
            #with gzip.open(dict_path) as f:
                for index, line in enumerate(f):
                    if index == 0:  # title,即第一行的标题
                        continue
                    items = line.split('\t')
                    word = items[0]
                    pos = items[1]
                    sentiment=items[4]
                    intensity = items[5]  # 1, 3, 5, 7, 9五档, 9表示强度最大, 1为强度最小.
                    polar = items[6]      # 极性
                    
                    # 将词性转为 ICTPOS 词性体系
                    pos = self.__class__.POS_MAP[pos]
                    intensity = int(intensity)
                    polar = int(polar)

                    # 转换情感倾向的表现形式, 负数为消极, 0 为中性, 正数为积极
                    # 数值绝对值大小表示极性的强度 // 分成3类，极性：褒(+1)、中(0)、贬(-1)； 强度为权重值
                    value = None
                    if polar == 0:            # neutral
                        value = 0
                    elif polar == 1:          # positive
                        value = intensity
                    elif polar == 2:          # negtive
                        value = -1 * intensity
                    else:  # invalid
                        continue

                    #key = (word, pos, sentiment )
                    key = word
                    sentiment_dict[key] = value

                    #找对应的大类
                    for item in self.score_class.items():
                        key = item[0]
                        values = item[1]
                        #print(key)
                        #print(value)
                        for x in values:
                            if (sentiment==x):
                                class_value = key # 如果values中包含，则获取key
                    sentiment_struct.append(Struct(word, sentiment, pos,value, class_value))
            return  sentiment_struct, sentiment_dict

        def findword(self, text): #查找文本中包含哪些情感词
            word_list = []
            for item in self.sentiment_struct:
                if item.word in text:
                    word_list.append(item)
            return word_list

        def classify_words(self, words):
            # 这3个键是词的序号(索引)
            
            sen_word = {}                 
            not_word = {}
            degree_word = {}
            # 找到对应的sent, not, degree;      words 是分词后的列表
            for index, word in enumerate(words):
                if word in self.sentiment_dict and word not in self.__class__.NOT_DICT and word not in self.degree_dict:
                    sen_word[index] = self.sentiment_dict[word]
                elif word in self.__class__.NOT_DICT and word not in self.degree_dict:
                    not_word[index] = -1
                elif word in self.degree_dict:
                    degree_word[index] = self.degree_dict[word]
            return sen_word, not_word, degree_word
        def get2score_position(self, words):
            sen_word, not_word, degree_word =  self.classify_words(words)   # 是字典

            score = 0
            start = 0
            # 存所有情感词、否定词、程度副词的位置(索引、序号)的列表
            sen_locs = sen_word.keys()
            not_locs = not_word.keys()
            degree_locs = degree_word.keys()
            senloc = -1
            # 遍历句子中所有的单词words，i为单词的绝对位置
            for i in range(0, len(words)):
                if i in sen_locs:
                    W = 1  # 情感词间权重重置
                    not_locs_index = 0
                    degree_locs_index = 0

                    # senloc为情感词位置列表的序号,之前的sen_locs是情感词再分词后列表中的位置序号
                    senloc += 1
                    #score += W * float(sen_word[i])
                    if (senloc==0): # 第一个情感词,前面是否有否定词，程度词
                        start = 0
                    elif senloc < len(sen_locs):  # 和前面一个情感词之间，是否有否定词,程度词
                        # j为绝对位置
                        start = previous_sen_locs

                    for j in range(start,i): # 词间的相对位置
                        # 如果有否定词
                        if j in not_locs:
                            W *= -1
                            not_locs_index=j
                        # 如果有程度副词
                        elif j in degree_locs:
                            W *= degree_word[j]
                            degree_locs_index=j

                        # 判断否定词和程度词的位置：1）否定词在前，程度词减半(加上正值)；不是很   2）否定词在后，程度增强（不变），很不是
                    if ((not_locs_index>0) and (degree_locs_index>0 )):
                        if (not_locs_index < degree_locs_index ):
                            degree_reduce = (float(degree_word[degree_locs_index]/2))
                            W +=degree_reduce
                            #print (W)
                    score += W * float(sen_word[i])  # 直接添加该情感词分数
                    #print(score)
                    previous_sen_locs = i
            return score

        #感觉get2score用处不是很大
        def get2score(self, text):
            word_list = self.findword(text)  ##查找文本中包含哪些正负情感词，然后分别分别累计它们的数值
            pos_score = 0
            pos_word = []
            neg_score = 0
            neg_word=[]
            for word in word_list:
                if (word.value>0):
                    pos_score = pos_score + word.value
                    pos_word.append(word.word)
                else:
                    neg_score = neg_score+word.value
                    neg_word.append(word.word)
            print ("pos_score=%d; neg_score=%d" %(pos_score, neg_score))
            #print('pos_word',pos_word)
            #print('neg_word',neg_word)

        def getscore(self, text):
            word_list = self.findword(text)  ##查找文本中包含哪些情感词
            # 增加程度副词+否定词
            not_w = 1
            not_word = []
            for notword in self.__class__.NOT_DICT:  # 否定词
                if notword in text:
                    not_w = not_w * -1
                    not_word.append(notword)
            degree_word = []
            for degreeword in self.degree_dict.keys():
                if degreeword in text:
                    degree = self.degree_dict[degreeword]
                    #polar = polar + degree if polar > 0 else polar - degree
                    degree_word.append(degreeword)
            # 7大类找对应感情大类的词语，分别统计分数= 词极性*词权重
            result = []
            for key in self.score_class.keys(): #区分7大类
                score = 0
                score_words = []
                for word in word_list:
                    
                    if (key == word.class_value):
                        score = score + word.value
                        score_words.append(word.word)
                if score > 0:
                    score = score + degree
                elif score<0:
                    score = score - degree  # 看分数>0，程度更强； 分数<0,程度减弱？
                score = score * not_w

                x = '{}_score={}; word={}; nor_word={}; degree_word={};'.format(key, score, score_words,not_word, degree_word)
                print (x)
                result.append(x)
                #key + '_score=%d; word=%s; nor_word=%s; degree_word=%s;'% (score, score_words,not_word, degree_word))
            return result

if __name__ == '__main__':
    sentiment_dict_path = "sentiment_words_chinese.tsv" 
    degree_dict_path = "degree_dict.txt"
    stop_dict_path = "stop_words.txt"

    #文件读取
    f = open('庆余年220.csv',encoding='utf8')
    data = pd.read_csv(f)

    #文件写入
    c = open("Result.csv", "a+", newline='', encoding='gb18030')
    writer = csv.writer(c)
    writer.writerow(["no","review","score"])

    #分句功能 否定词程度词位置判断
    score = Score(sentiment_dict_path, degree_dict_path, stop_dict_path )

    n = 1
    for temp in data['review']:
        tlist = []
        words = [x for x in jieba.cut(temp)] #分词
        #print(words)     
        words_ = score.remove_stopword(words)
        print(words_)
        
        #分词->情感词间是否有否定词/程度词+前后顺序->分数累加
        result = score.get2score_position(words_)  
        print(result)
        
        tlist.append(str(n))
        tlist.append(words)
        tlist.append(str(result))
        writer.writerow(tlist)
        n = n + 1

        #句子-> 整句判断否定词/程度词 -> 分正负词
        #score.get2score(temp) 
        #score.getscore(text)
    c.close()

输出结果如下图所示，每条评论对应一个情感分析分数，总体效果较好，差评和好评基本能区分，但是有些“白瞎”、“烂”、“难受”、“尴尬”这些特征词没有识别，应该和大连理工情感词典有关。所以我们在情感分析时，是否可以考虑融合多个特征词典呢？

同时，情感分析通常需要和评论时间结合起来，并进行舆情预测等，建议读者尝试将时间结合。比如王树义老师的文章《基于情感分类的竞争企业新闻文本主题挖掘》。我们可以和时间结合绘制相关的趋势图，如果某一天出现很多评论，可以计算该天所有评论的情感分数，求其平均值即可。最后，情感分析的分数最好进行归一化处理，也可以进行评价，比如抓取数据的分为5星评分，则可假设0-0.2位一星，0.2-0.4位二星，0.4-0.6为三星，0.6-0.8为四星，0.8-1.0为五星，这样我们可以计算它的准确率，召回率，F值，从而评论我的算法好坏。

最后第五部分我用SnowNLP情感分析，并绘制相应的情感分布图，方便大家对比。

五.SnowNLP情感分析

SnowNLP是一个常用的Python文本分析库，是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的，而中文没有空格分割特征词，Python做中文文本挖掘较难，后续开发了一些针对中文处理的库，例如SnowNLP、Jieba、BosonNLP等。注意SnowNLP处理的是unicode编码，所以使用时请自行decode成unicode。

Snownlp主要功能包括：

中文分词（算法是Character-Based Generative Model）
词性标注（原理是TnT、3-gram 隐马）
情感分析
文本分类（原理是朴素贝叶斯）
转换拼音、繁体转简体
提取文本关键词（原理是TextRank）
提取摘要（原理是TextRank）、分割句子
文本相似（原理是BM25）

安装和其他库一样，使用pip安装即可。

SnowNLP情感分析也是基于情感词典实现的，其简单的将文本分为两类，积极和消极，返回值为情绪的概率，越接近1为积极，接近0为消极。下面是简单的实例。

# -*- coding: utf-8 -*-
from snownlp import SnowNLP
s1 = SnowNLP(u"我今天很开心")
print(u"s1情感分数:")
print(s1.sentiments)

s2 = SnowNLP(u"我今天很沮丧")
print(u"s2情感分数:")
print(s2.sentiments)

s3 = SnowNLP(u"大傻瓜，你脾气真差，动不动就打人")
print(u"s3情感分数:")
print(s3.sentiments)

输出结果如下所示，当负面情感特征词越多，比如“傻瓜”、“差”、“打人”等，分数就会很低，同样当正免情感词多分数就高。

s1情感分数:
0.842040189791
s2情感分数:
0.648537121839
s3情感分数:
0.049546727538

而在真实项目中，通常需要根据实际的数据重新训练情感分析的模型，导入正面样本和负面样本，再训练新模型。

sentiment.train(’./neg.txt’, ‘./pos.txt’)
sentiment.save(‘sentiment.marshal’)

下面的代码是对《庆余年》电视剧部分评论进行情感分析。在做情感分析的时候，很多论文都是将情感区间从[0, 1.0]转换为[-0.5, 0.5]，这样的曲线更加好看，位于0以上的是积极评论，反之消极评论。最终代码如下：

# -*- coding: utf-8 -*-
from snownlp import SnowNLP
import codecs
import os
import pandas as pd

#获取情感分数
f = open('庆余年220.csv',encoding='utf8')
data = pd.read_csv(f)
sentimentslist = []
for i in data['review']:
    s = SnowNLP(i)
    print(s.sentiments)
    sentimentslist.append(s.sentiments)

#区间转换为[-0.5, 0.5]
result = []
i = 0
while i

 
  绘制图形如下所示，注意它表示每一条评论的情感分布趋势，我们同样可以绘制时间分布的情感趋势图。 
   
  写到这里，这篇情感分析的文章就讲解完毕，希望对您有所帮助，尤其是想写文本挖掘论文的读者。后续还会分享深度学习和自然语言处理结合的文章。如果文章对您有所帮助，将是我写作的最大动力。

基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
【Python】深入解析 Hydra 库宅男很神经 python 开发语言
第一章:混沌的终结：在配置泥潭中挣扎与Hydra的曙光在任何一个软件项目的生命周期中，无论是小型的个人脚本，还是大型的企业级分布式系统，我们都无法回避一个核心问题：如何管理配置。配置，是连接我们静态的代码逻辑与动态的运行环境之间的桥梁。它决定了我们的程序连接哪个数据库、使用哪个API密钥、以多大的批次处理数据、模型的学习率应该是多少、日志应该输出到哪里、以何种级别输出…可以说，配置定义了程序的行为
“解锁自动化新可能：使用Robocorp构建Python机器人“ sjufgwgfhoia 自动化 python 服务器
在这个快速变化的技术时代，自动化已经成为提高生产力和效率的关键驱动力。Robocorp提供了一种强大且灵活的平台，帮助开发者构建和运行Python机器人，以满足各类业务需求。引言在本文中，我们将深入探讨如何使用Robocorp构建和操作可以运行在任何地方且具备任意规模的Python工作器。本文旨在帮助你快速上手Robocorp平台的安装和设置，并分享如何在实践中应用它。主要内容1.Robocorp
Conda 虚拟环境与 venv、virtualenv、pipenv 的对比 drebander conda virtualenv python
1.引言在Python开发中，虚拟环境是解决不同项目依赖冲突的关键工具。Python提供了多种虚拟环境管理工具，包括Conda、venv、virtualenv和pipenv。每种工具都有其独特的特点和适用场景。本篇博客将简要对比这些工具，帮助你选择最适合的虚拟环境管理工具。2.Conda虚拟环境2.1Conda概述Conda是Anaconda提供的跨平台、跨语言的包和环境管理工具。除了管理Pyth
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
使用Robocorp和LangChain构建可扩展的Python自动化工作流 qq_37836323 langchain python 自动化
使用Robocorp和LangChain构建可扩展的Python自动化工作流引言在当今快速发展的技术世界中，自动化已成为提高效率和生产力的关键。Robocorp是一个强大的平台，它允许开发者构建和运行可在任何地方、任何规模无缝运行的Python工作流。本文将探讨如何结合Robocorp和LangChain来创建灵活、可扩展的自动化解决方案。Robocorp简介Robocorp是一个现代化的自动化平
Robocorp自动化框架使用教程
Robocorp自动化框架使用教程robocorpCreatePythonAIActionsandAutomations,anddeploy&operatethemanywhere项目地址:https://gitcode.com/gh_mirrors/ro/robocorp1.项目介绍Robocorp是一个开源自动化框架，旨在帮助开发者创建PythonAIActions和自动化任务，这些任务可以部
Python量化策略与回测框架实战：从“纸上谈兵”到“真金白银”的第一步（系列第2篇） Natsume1710 python 开发语言 github
作者：GitHub项目地址Awesome-QuantDev-Learn本文为量化开发学习路线系列第2篇，欢迎收藏与关注。引言：为什么选择Python作为量化入门的起点？在上一篇文章中，我们详细讲解了量化开发的基本框架与开发者思维的转变路径。那么，具体要如何开始第一步实践呢？答案是：从Python入门。Python以其快速原型开发能力、丰富的数据分析工具包，以及良好的社区生态，已经成为全球范围内量化
【Python】Python 3.10 新特性月落一寸光 Python新特性 python 开发语言
文章目录前言：一、新特性1.1PEP617；带括号的上下文管理器1.2更清楚的错误消息1.3PEP634：结构化模式匹配（match）1.4PEP604：有关类型提示的新增特性1.5PEP613：类型别名二、改进的模块2.1`asyncio`2.2`argparse`2.3`base64`2.4`collections.abc`2.5`dataclasses``__slots__`2.6`trac
程序代码篇---Python指明函数参数类型
文章目录前言简介一、函数参数的类型指定1.基本类型提示2.默认参数3.可变参数4.联合类型（Union）5.可选类型（Optional）6.复杂类型二、返回值的类型指定1.基本返回类型2.无返回值（None）3.返回多个值（Tuple）4.生成器（Generator）三、高级类型提示用法1.类型别名（TypeAliases）2.泛型（Generics）3.可调用对象（Callable）4.NewT
五、Python新特性指定类型用法 ZingKings Python python
1.什么是类型注解类型注解是Python3.5+引入的特性，用于为变量、函数参数和返回值指定类型。它不会影响代码运行，但有助于代码可读性和IDE支持。2.基本类型注解#变量类型注解name:str="张三"age:int=25height:float=175.5is_student:bool=True#列表类型注解numbers:list[int]=[1,2,3,4,5]names:list[st
AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025） Liudef06小白 AIGC 人工智能 AI作画语言模型
一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商
python笔记-Selenium谷歌浏览器驱动下载 hero.zhong python 笔记 selenium
Selenium谷歌浏览器驱动下载地址：https://googlechromelabs.github.io/chrome-for-testing/#stable下面是遇到的问题：python网络爬虫技术中使用谷歌浏览器代码，报错：OSError:[WinError193]%1不是有效的Win32应用程序：遇到错误OSError:[WinError193]%1不是有效的Win32应用程序通常意味着
网络编程底层通信（socket） En^_^Joy python应用网络 python
文章目录一、socket函数介绍二、TCP/IP服务端/客户端三、UDP/IP服务端/客户端四、多线程服务器（threading）五、网络编程常见问题（地址复用、粘包、数据长度）网络编程指通过计算机网络实现程序间通信的技术。Python提供了丰富的库支持各种网络协议和编程模式套接字是网络通信的基本操作单元，是应用层与TCP/IP协议族通信的中间软件抽象层。它提供了一组接口，允许不同主机或同一主机的
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
python unicode汉字转成各种进制，以及进制互相转换丧尽天良的良！ python python
例如，汉字：“五”的unicode编码为：4e94，使用二进制的结果为：100111010010100，转换为十进制是：20116对应转换如下：
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

Python的情感词典情感分析和情绪计算

一.大连理工中文情感词典

二.七种情绪计算

三.七种情绪词云可视化

1.基本用法

2.统计七种情绪特征词

3.词云分析

四.自定义词典情感分析

五.SnowNLP情感分析

你可能感兴趣的:(python,大数据,人工智能)