基于有关十二个“一”的文章的文本分析、数据可视化及拓展性思考——(情绪写作,团队建设,内容多样性)

@TOC

1 任务主题

对全体同学的文艺创作进行文本分析、统计和数据可视化

2 任务要求

整理大家的作业数据,运用NLP技术(自然语言处理)对其进行分析,完成一篇图文结合的分析报告,特别是要分别对十二个“一”有关的文本分别进行统计。

3 文章整体词频分析

针对所有人的文章,首先我对最多出现的70词进行了筛选统计。

3.1 列表显示

次数
感觉 193
十二个 176
性格 163
喜欢 155
角色 140
宜人 122
开放性 108
神经质 108
外倾 99
能力 96
团队 92
李佳莉 91
责任心 88
一种 82
力量 68
生活 67
设定 66
公司 66
人物 65
描述 65
成员 65
伤害 64
感受 63
方一树 62
人格 58
事情 55
魔法 53
形象 48
工作 48
技能 48
想象 48
身材 46
速度 46
拥有 46
一点 46
程度 46
选择 44
像是 44
故事 43
声音 43
追求者 43
做事 43
12 42
背景 42
特质 42
武器 42
10 41
乐器 41
职业 41
父亲 40
温柔 40
外表 39
目标 39
类型 39
关系 39
数据 38
员工 38
可爱 37
游戏 37
男人 37
面试 37
热情 36
书法 36
看着 35
擅长 35
11 35
朋友 35
稳重 35
特色 34
努力 34

3.2 词云图

在这里插入图片描述

3.3 结论

  • 同学们在进行创作时,主要从感觉上出发
  • 创作的主要方式时给每个“一”赋予一种性格,从而塑造一种角色
  • 十二个“一”适合作为一个团队

3.4 代码

import jieba
import wordcloud # 词云展示库
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image

num = 103
TXT = []

for i in range(1,num+1):
    txt = None
    try:
        txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
    except UnicodeDecodeError:
        try:
            txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
        except UnicodeDecodeError:
            try:
                txt = open(r"data\{}.txt".format(i), encoding="utf-8").read()
            except UnicodeDecodeError:
                print(i)

    TXT.append(txt)

txt = "".join(TXT)
#加载停用词表
stopwords = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()]
words  = jieba.lcut(txt)
counts = {}
for word in words:
    #不在停用词表中
    if word not in stopwords:
        #不统计字数为一的词
        if len(word) == 1:
            continue
        else:
            counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
word_counts = {}
for i in range(70):
    word, count = items[i]
    word_counts[word] = count
    print ("{:<10}{:>7}".format(word, count))


# 词频展示
mask = np.array(Image.open('back.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(
    font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式
    # mask=mask, # 设置背景图
    max_words=70, # 最多显示词数
    max_font_size=100 # 字体最大值
)

wc.generate_from_frequencies(word_counts) # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
# wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
plt.figure(figsize=(30,15),dpi=200)
wc.recolor()
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像

4 文章整体情绪统计

调用snowNLP中函数对每篇文章进行情绪判断,再求平均获得总体的一个文章情绪判断。

越接近1表示正面情绪

越接近0表示负面情绪

4.1 结果

平均值为:


其中判断为1的文章再总共103篇文章中共有92篇:

在这里插入图片描述

4.2 结论

  • 在写文章时,同学们绝大部分的语句带有正面情绪,极少语句会带有负面情绪
  • 同学们的文章能给人阅读时正面的情感

4.3 代码

from snownlp import SnowNLP

num = 103

sum_of_all = 0
for i in range(1,num+1):
    try:
        txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
    except UnicodeDecodeError:
        try:
            txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
        except UnicodeDecodeError:
            try:
                txt = open(r"data\{}.txt".format(i), encoding="utf-8").read()
            except UnicodeDecodeError:
                print(i)

    s = SnowNLP(txt)

    sum_of_all += s.sentiments
    # print(s.tf)
    # print(s.idf)
print(sum_of_all/num)

4.4 拓展思考——情绪与写作

情感、情绪、情操是心理学研究的内容,是人对客观事物的主观感受和评价,它们的性质决于人的需求、性格等特点。而写作做为一种具有创造性、独特性特征的高级精神活动,在写作目的、写作内容、写作思维等方面,必然要受 到以上“三情”的影响。
情感、情绪是客观事物是否符合人的需要、愿望与观点时所产生的体验,西方心理学界通常把两者称为感情(Affectron)。人的情感、情绪有多方面的心理功能。首先是信号功能。能情感、情绪是人思想、意识的自然流露,借助表情、动作、语言、文字达到人们彼此的了解与沟通。第二是动机功能。人的一般性动机来源于内驱力,内驱力在情感、情绪的作用下提高,形成产生行动后果的动机性。第三是易感性功能。人的情感、情绪有感染力,在写作中作者借助文字对情感、情绪进行表达,读者从文字中获得情感体验,以达到写作的目的和应有的效果。

情感、情绪、情操对写作目的、写作内容、写作思维具有深刻的影响:

对写作目的的影响。作者的写作目的是想通过文字体现某种社会价值。要使文章反映一定的主题,表现出作者的情感,作者的写作目的就要清晰、明确, 以指导文章的主题立意、材料选择、结构安排、语言运用。写作的目的也最能体现出作者的情操,影响文章的社会价值。写作应该是为了读者的一种工作,读者的情感需要、理解能力必须要被作者所关注,作者应该具有为读者服务的高尚情操,使作品具有广泛的群众性。

对写作内容的影响。邓小平同志指出:“写文章也不是很困难,主要是要意思好”,“技术的问题是次要的,自己努力,别人帮助,慢慢就会提高。”这里强调了写作内容的重要性,写作是为社会主义精神文明的建设服务的,作者的情操是否高尚,作品的特点是否突出、准确、生动, 至关重要。

对写作思维的影响。根据写作目的和内容的不同,写作思维要向规范性和创造性两个方向展开。应用文体体现范性思维;科学、文学作品应该有创造性思维。首先写作思维要体现作者的情操和对情感、情绪的把握能力。好的写作思维,严谨、流畅、清晰、活跃,便于读者理解和接受,更使作品流光溢彩。要符合事物发展的客观规律,符合人们对事物认识的规律。其次要满足读者求新、求美的心理要求。作者的情感、情绪借助文字完成信号功能,向读者传达出自己的思想、感情,同时读者也能从中了解作者的心理品质、思维能力。写作思维是通过理论层次和感情层次对问题进行分析和感受形成的,作者的情感和情操决定写作思维能否严谨、流畅、清晰、活跃因此,作者要注重情操的自我培养,具体应 该培养自己的理论修养、哲学社会学养,扩展知识面,使自己成为处于时 代前列的先锋,使作品具有逻辑性、思想性、时代性。

可见,在写作活动中,作者应该自觉地运用心理学的基本原则,努力把自己的情绪、情感,有目的地不断培养自己的情操,以写出高质量的好文章,

5 团队类文章分析

5.1 筛选文章

首先找到出现团队词汇出现次数大于5的文章。

import jieba
import wordcloud # 词云展示库
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image

index = []
num = 103

for i in range(1,num+1):
    txt = None
    try:
        txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
    except UnicodeDecodeError:
        try:
            txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
        except UnicodeDecodeError:
            try:
                txt = open(r"data\{}.txt".format(i), encoding="utf-8").read()
            except UnicodeDecodeError:
                print(i)

    #加载停用词表
    stopwords = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()]
    words  = jieba.lcut(txt)
    counts = {}
    for word in words:
        #不在停用词表中
        if word not in stopwords:
            #不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                counts[word] = counts.get(word,0) + 1
    items = list(counts.items())
    items.sort(key=lambda x:x[1], reverse=True)
    word_counts = {}
    for il in range(10):
        word, count = items[il]
        word_counts[word] = count

    try:
        if word_counts['团队'] >=5:
            print(word_counts['团队'])
            index.append(i)
    except KeyError:
        pass

print(index)

结果一共5篇文章:

5.2 相似性分析

针对上述找到的团队类文章,分析各自间的相似程度,由此发掘一些信息。

5.2.2 相似度表

30 65 88 89 90 100
30 - 23 44 15 18 18
65 67 - 49 16 19 19
88 65 25 - 16 16 16
89 61 22 44 - 21 21
90 68 25 44 19 - 32
100 68 25 44 19 32 -

5.2.3 相似度和弦图

在这里插入图片描述

5.2.4 结论

  • 可以看出序号为30的文章在团队类文章中相似性表现出最大
  • 团队类文章有很大的相似性,同学们在思考时思维模式基本相同

5.3 词频分析

针对上述找到的团队类文章,找出其出现次数最多的词汇,由此发掘一些信息。

5.3.1 词频列表

次数
团队 68
成员 30
性格 15
负责 12
能力 12
孩子 11
喜欢 9
宇宙 7
十二个 7
团体 7
努力 7
特色 7
演奏 7

5.3.2 词云图

在这里插入图片描述

5.3.3 结论

  • 在进行团队文章撰写的时候,同学们都注意到团队有多种成员构成
  • 同学们在组建团队时更注团队中不同人的能力、性格、责任性
  • 团队可以实舞蹈团队,也可以是音乐团队,团队的种类多种多样

5.4 情绪分析

平均值为:


其中判断为1的文章在总共6篇文章中共有4篇:

在这里插入图片描述

5.5 拓展性思考——团队建设思考

1.凝聚力高的团队特征

  1. 团队内的沟通渠道比较畅通、信息交流频繁,大家觉得沟通是工作中的一部分,不会存在什么障碍。
  2. 团队成员的参与意识较强,人际关系和谐,成员间不会有压抑的感觉。
  3. 团队成员有强烈的归属感,并为成为团队的一分子觉得骄傲。愿意把自己作为这个团队中的一分子提出来,跳槽的现象相应较少。
  4. 团队成员间会彼此关心、互相尊重。
  5. 团队成员有较强的事业心和责任感,愿意承担团队的任务,集体主义精神盛行。
  6. 团队为成员的成长与发展,自我价值的实现提供了便利的条件。领导者、团队周围的环境、其他的成员都愿意为自身及他人的发展付出。

2.提升团队凝聚力

从外部看,当团队遇到威胁时,无论团队内部曾经发生过或正在发生什么问题、困难、矛盾,这时团队成员会暂时放弃前嫌,一致应对外来威胁。通常外来威胁越高、造成的影响越大、压力越大,团队所表现出的凝聚力也会越强。当然如果团队成员感到团队根本没有办法应付外来威胁和压力时,就不愿意再去努力了。
从内部看有这样一些因素影响凝聚力的高低:

  • 团队领导人的风格、类型
  • 领导是团队行为的一种导向和核心,采取什么样的领导方式直接影响到凝聚力的高低。

6. “感觉”文章分析

因为感觉这个词的出现率在所有文章中出现次数最高,因此在此做一个简单分析。

6.1 筛选文章

首先找到出现感觉词汇出现次数大于5的文章。
结果一共12篇文章:

6.2 词频分析

6.2.1 词频列表

次数
感觉 133
一种 39
十二个 38
员工 37
性格 35
喜欢 32
公司 29
那种 28
面试 25
恋爱 24
责任心 19
外倾 19
宜人 19
结婚 19
神经质 18
像是 18
异性 17
开放性 17
特质 17
选拔 17
描述 16
感受 16
嘉宾 16
没什么 15
工作 14
想象 13
角色 13
落笔 13

6.2.2 词云图

在这里插入图片描述

6.2.3 结论

  • 出现感觉词的文章的内容种类非常多,同学们没有限制自己的写作思路
  • 感觉文章中,同学们仍会考虑人物间的关联性,“公司”、“面试”、“恋爱”等词都是体现人物关联性的词汇。

6.3 拓展思考——内容营销和内容多样性

所谓内容营销,就是不需要做广告或推销,通过合理的内容创建、发布及传播,向用户传递有价值的信息,从而实现网络营销的目的。内容营销适用于所有的媒介渠道和平台,不管是网站优化推广,还是自媒体推广,优质的内容必不可少。
好的内容越来越被看重。有价值的内容能够稳定商家与用户间的关系,也可以给予用户更多参与品牌传播的机会。同时也利于搜索引擎收录和排名,让品牌能得到曝光和展示。
早些年前,做内容的人只做内容,不在乎优化,也不懂怎么优化,让很多有价值的好内容,没有在搜索引擎上发挥出最大的价值。同样,只做SEO技术流的工作人,虽懂得专业知识但不会写作,也没有合适的优质内容展示出来。
如今,自媒体从业者越来越多,越来越多人意识到,优质的内容+SEO优化双剑合璧,才能在眼下这个新媒体爆发的时代,把内容营销做得更好。

你可能感兴趣的:(基于有关十二个“一”的文章的文本分析、数据可视化及拓展性思考——(情绪写作,团队建设,内容多样性))