@TOC
1 任务主题
对全体同学的文艺创作进行文本分析、统计和数据可视化
2 任务要求
整理大家的作业数据,运用NLP技术(自然语言处理)对其进行分析,完成一篇图文结合的分析报告,特别是要分别对十二个“一”有关的文本分别进行统计。
3 文章整体词频分析
针对所有人的文章,首先我对最多出现的70词进行了筛选统计。
3.1 列表显示
词 | 次数 |
---|---|
感觉 | 193 |
十二个 | 176 |
性格 | 163 |
喜欢 | 155 |
角色 | 140 |
宜人 | 122 |
开放性 | 108 |
神经质 | 108 |
外倾 | 99 |
能力 | 96 |
团队 | 92 |
李佳莉 | 91 |
责任心 | 88 |
一种 | 82 |
力量 | 68 |
生活 | 67 |
设定 | 66 |
公司 | 66 |
人物 | 65 |
描述 | 65 |
成员 | 65 |
伤害 | 64 |
感受 | 63 |
方一树 | 62 |
人格 | 58 |
事情 | 55 |
魔法 | 53 |
形象 | 48 |
工作 | 48 |
技能 | 48 |
想象 | 48 |
身材 | 46 |
速度 | 46 |
拥有 | 46 |
一点 | 46 |
程度 | 46 |
选择 | 44 |
像是 | 44 |
故事 | 43 |
声音 | 43 |
追求者 | 43 |
做事 | 43 |
12 | 42 |
背景 | 42 |
特质 | 42 |
武器 | 42 |
10 | 41 |
乐器 | 41 |
职业 | 41 |
父亲 | 40 |
温柔 | 40 |
外表 | 39 |
目标 | 39 |
类型 | 39 |
关系 | 39 |
数据 | 38 |
员工 | 38 |
可爱 | 37 |
游戏 | 37 |
男人 | 37 |
面试 | 37 |
热情 | 36 |
书法 | 36 |
看着 | 35 |
擅长 | 35 |
11 | 35 |
朋友 | 35 |
稳重 | 35 |
特色 | 34 |
努力 | 34 |
3.2 词云图
3.3 结论
- 同学们在进行创作时,主要从感觉上出发
- 创作的主要方式时给每个“一”赋予一种性格,从而塑造一种角色
- 十二个“一”适合作为一个团队
3.4 代码
import jieba
import wordcloud # 词云展示库
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
num = 103
TXT = []
for i in range(1,num+1):
txt = None
try:
txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
except UnicodeDecodeError:
try:
txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
except UnicodeDecodeError:
try:
txt = open(r"data\{}.txt".format(i), encoding="utf-8").read()
except UnicodeDecodeError:
print(i)
TXT.append(txt)
txt = "".join(TXT)
#加载停用词表
stopwords = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()]
words = jieba.lcut(txt)
counts = {}
for word in words:
#不在停用词表中
if word not in stopwords:
#不统计字数为一的词
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
word_counts = {}
for i in range(70):
word, count = items[i]
word_counts[word] = count
print ("{:<10}{:>7}".format(word, count))
# 词频展示
mask = np.array(Image.open('back.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(
font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式
# mask=mask, # 设置背景图
max_words=70, # 最多显示词数
max_font_size=100 # 字体最大值
)
wc.generate_from_frequencies(word_counts) # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
# wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
plt.figure(figsize=(30,15),dpi=200)
wc.recolor()
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() # 显示图像
4 文章整体情绪统计
调用snowNLP中函数对每篇文章进行情绪判断,再求平均获得总体的一个文章情绪判断。
越接近1表示正面情绪
越接近0表示负面情绪
4.1 结果
平均值为:
其中判断为1的文章再总共103篇文章中共有92篇:
4.2 结论
- 在写文章时,同学们绝大部分的语句带有正面情绪,极少语句会带有负面情绪
- 同学们的文章能给人阅读时正面的情感
4.3 代码
from snownlp import SnowNLP
num = 103
sum_of_all = 0
for i in range(1,num+1):
try:
txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
except UnicodeDecodeError:
try:
txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
except UnicodeDecodeError:
try:
txt = open(r"data\{}.txt".format(i), encoding="utf-8").read()
except UnicodeDecodeError:
print(i)
s = SnowNLP(txt)
sum_of_all += s.sentiments
# print(s.tf)
# print(s.idf)
print(sum_of_all/num)
4.4 拓展思考——情绪与写作
情感、情绪、情操是心理学研究的内容,是人对客观事物的主观感受和评价,它们的性质决于人的需求、性格等特点。而写作做为一种具有创造性、独特性特征的高级精神活动,在写作目的、写作内容、写作思维等方面,必然要受 到以上“三情”的影响。
情感、情绪是客观事物是否符合人的需要、愿望与观点时所产生的体验,西方心理学界通常把两者称为感情(Affectron)。人的情感、情绪有多方面的心理功能。首先是信号功能。能情感、情绪是人思想、意识的自然流露,借助表情、动作、语言、文字达到人们彼此的了解与沟通。第二是动机功能。人的一般性动机来源于内驱力,内驱力在情感、情绪的作用下提高,形成产生行动后果的动机性。第三是易感性功能。人的情感、情绪有感染力,在写作中作者借助文字对情感、情绪进行表达,读者从文字中获得情感体验,以达到写作的目的和应有的效果。
情感、情绪、情操对写作目的、写作内容、写作思维具有深刻的影响:
对写作目的的影响。作者的写作目的是想通过文字体现某种社会价值。要使文章反映一定的主题,表现出作者的情感,作者的写作目的就要清晰、明确, 以指导文章的主题立意、材料选择、结构安排、语言运用。写作的目的也最能体现出作者的情操,影响文章的社会价值。写作应该是为了读者的一种工作,读者的情感需要、理解能力必须要被作者所关注,作者应该具有为读者服务的高尚情操,使作品具有广泛的群众性。
对写作内容的影响。邓小平同志指出:“写文章也不是很困难,主要是要意思好”,“技术的问题是次要的,自己努力,别人帮助,慢慢就会提高。”这里强调了写作内容的重要性,写作是为社会主义精神文明的建设服务的,作者的情操是否高尚,作品的特点是否突出、准确、生动, 至关重要。
对写作思维的影响。根据写作目的和内容的不同,写作思维要向规范性和创造性两个方向展开。应用文体体现范性思维;科学、文学作品应该有创造性思维。首先写作思维要体现作者的情操和对情感、情绪的把握能力。好的写作思维,严谨、流畅、清晰、活跃,便于读者理解和接受,更使作品流光溢彩。要符合事物发展的客观规律,符合人们对事物认识的规律。其次要满足读者求新、求美的心理要求。作者的情感、情绪借助文字完成信号功能,向读者传达出自己的思想、感情,同时读者也能从中了解作者的心理品质、思维能力。写作思维是通过理论层次和感情层次对问题进行分析和感受形成的,作者的情感和情操决定写作思维能否严谨、流畅、清晰、活跃因此,作者要注重情操的自我培养,具体应 该培养自己的理论修养、哲学社会学养,扩展知识面,使自己成为处于时 代前列的先锋,使作品具有逻辑性、思想性、时代性。
可见,在写作活动中,作者应该自觉地运用心理学的基本原则,努力把自己的情绪、情感,有目的地不断培养自己的情操,以写出高质量的好文章,
5 团队类文章分析
5.1 筛选文章
首先找到出现团队词汇出现次数大于5的文章。
import jieba
import wordcloud # 词云展示库
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
index = []
num = 103
for i in range(1,num+1):
txt = None
try:
txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
except UnicodeDecodeError:
try:
txt = open(r"data\{}.txt".format(i), encoding="ansi").read()
except UnicodeDecodeError:
try:
txt = open(r"data\{}.txt".format(i), encoding="utf-8").read()
except UnicodeDecodeError:
print(i)
#加载停用词表
stopwords = [line.strip() for line in open("CS.txt",encoding="utf-8").readlines()]
words = jieba.lcut(txt)
counts = {}
for word in words:
#不在停用词表中
if word not in stopwords:
#不统计字数为一的词
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
word_counts = {}
for il in range(10):
word, count = items[il]
word_counts[word] = count
try:
if word_counts['团队'] >=5:
print(word_counts['团队'])
index.append(i)
except KeyError:
pass
print(index)
结果一共5篇文章:
5.2 相似性分析
针对上述找到的团队类文章,分析各自间的相似程度,由此发掘一些信息。
5.2.2 相似度表
30 | 65 | 88 | 89 | 90 | 100 | |
---|---|---|---|---|---|---|
30 | - | 23 | 44 | 15 | 18 | 18 |
65 | 67 | - | 49 | 16 | 19 | 19 |
88 | 65 | 25 | - | 16 | 16 | 16 |
89 | 61 | 22 | 44 | - | 21 | 21 |
90 | 68 | 25 | 44 | 19 | - | 32 |
100 | 68 | 25 | 44 | 19 | 32 | - |
5.2.3 相似度和弦图
5.2.4 结论
- 可以看出序号为30的文章在团队类文章中相似性表现出最大
- 团队类文章有很大的相似性,同学们在思考时思维模式基本相同
5.3 词频分析
针对上述找到的团队类文章,找出其出现次数最多的词汇,由此发掘一些信息。
5.3.1 词频列表
词 | 次数 |
---|---|
团队 | 68 |
成员 | 30 |
性格 | 15 |
负责 | 12 |
能力 | 12 |
孩子 | 11 |
喜欢 | 9 |
宇宙 | 7 |
十二个 | 7 |
团体 | 7 |
努力 | 7 |
特色 | 7 |
演奏 | 7 |
5.3.2 词云图
5.3.3 结论
- 在进行团队文章撰写的时候,同学们都注意到团队有多种成员构成
- 同学们在组建团队时更注团队中不同人的能力、性格、责任性
- 团队可以实舞蹈团队,也可以是音乐团队,团队的种类多种多样
5.4 情绪分析
平均值为:
其中判断为1的文章在总共6篇文章中共有4篇:
5.5 拓展性思考——团队建设思考
1.凝聚力高的团队特征
- 团队内的沟通渠道比较畅通、信息交流频繁,大家觉得沟通是工作中的一部分,不会存在什么障碍。
- 团队成员的参与意识较强,人际关系和谐,成员间不会有压抑的感觉。
- 团队成员有强烈的归属感,并为成为团队的一分子觉得骄傲。愿意把自己作为这个团队中的一分子提出来,跳槽的现象相应较少。
- 团队成员间会彼此关心、互相尊重。
- 团队成员有较强的事业心和责任感,愿意承担团队的任务,集体主义精神盛行。
- 团队为成员的成长与发展,自我价值的实现提供了便利的条件。领导者、团队周围的环境、其他的成员都愿意为自身及他人的发展付出。
2.提升团队凝聚力
从外部看,当团队遇到威胁时,无论团队内部曾经发生过或正在发生什么问题、困难、矛盾,这时团队成员会暂时放弃前嫌,一致应对外来威胁。通常外来威胁越高、造成的影响越大、压力越大,团队所表现出的凝聚力也会越强。当然如果团队成员感到团队根本没有办法应付外来威胁和压力时,就不愿意再去努力了。
从内部看有这样一些因素影响凝聚力的高低:
- 团队领导人的风格、类型
- 领导是团队行为的一种导向和核心,采取什么样的领导方式直接影响到凝聚力的高低。
6. “感觉”文章分析
因为感觉这个词的出现率在所有文章中出现次数最高,因此在此做一个简单分析。
6.1 筛选文章
首先找到出现感觉词汇出现次数大于5的文章。
结果一共12篇文章:
6.2 词频分析
6.2.1 词频列表
词 | 次数 |
---|---|
感觉 | 133 |
一种 | 39 |
十二个 | 38 |
员工 | 37 |
性格 | 35 |
喜欢 | 32 |
公司 | 29 |
那种 | 28 |
面试 | 25 |
恋爱 | 24 |
责任心 | 19 |
外倾 | 19 |
宜人 | 19 |
结婚 | 19 |
神经质 | 18 |
像是 | 18 |
异性 | 17 |
开放性 | 17 |
特质 | 17 |
选拔 | 17 |
描述 | 16 |
感受 | 16 |
嘉宾 | 16 |
没什么 | 15 |
工作 | 14 |
想象 | 13 |
角色 | 13 |
落笔 | 13 |
6.2.2 词云图
6.2.3 结论
- 出现感觉词的文章的内容种类非常多,同学们没有限制自己的写作思路
- 在感觉文章中,同学们仍会考虑人物间的关联性,“公司”、“面试”、“恋爱”等词都是体现人物关联性的词汇。
6.3 拓展思考——内容营销和内容多样性
所谓内容营销,就是不需要做广告或推销,通过合理的内容创建、发布及传播,向用户传递有价值的信息,从而实现网络营销的目的。内容营销适用于所有的媒介渠道和平台,不管是网站优化推广,还是自媒体推广,优质的内容必不可少。
好的内容越来越被看重。有价值的内容能够稳定商家与用户间的关系,也可以给予用户更多参与品牌传播的机会。同时也利于搜索引擎收录和排名,让品牌能得到曝光和展示。
早些年前,做内容的人只做内容,不在乎优化,也不懂怎么优化,让很多有价值的好内容,没有在搜索引擎上发挥出最大的价值。同样,只做SEO技术流的工作人,虽懂得专业知识但不会写作,也没有合适的优质内容展示出来。
如今,自媒体从业者越来越多,越来越多人意识到,优质的内容+SEO优化双剑合璧,才能在眼下这个新媒体爆发的时代,把内容营销做得更好。