本学期大数据分析的课程结束了,平时没有注意博客记录,因为暑假刚开始,所以在这里记录一些上课时做过的有意思的项目。这里分享大数据分析期末作业的挑战部分:根据BDA上课记录分析活跃度。思路是首先把各个点名文件txt合并成一个文件,然后从合并文件中使用readlines读出每行数据;再使用正则表达式,把所有人名提取出来,存储在待分析列表中,然后把列表去重,统计出所有班级的人数,最后利用列表的.count()函数,计算人名出现的个数,结合格式输出到txt文件中。由于时间紧迫,没有再对最终结果进行优化,这里可以考虑采用排序,然后再放在excel等软件中进一步分析,也可以使用外部库绘图分析。以下文章就分成几个部分进行。
第一部分:合并文件:
#合并文件 # -*- coding: UTF-8 -*- import os import os.path #文件夹遍历函数 #获取目标文件夹的路径 filedir = 'txtdata' #获取当前文件夹中的文件名称列表 filenames = os.listdir(filedir) # len(filenames) #打开当前目录下的result.txt文件,如果没有则创建 f = open('result1.txt','w',encoding='UTF-8') #先遍历文件名 for filename in filenames: filepath = filedir + '/'+filename #遍历单个文件,读取行数 for line in open(filepath , encoding = 'utf-8'): f.writelines(line) f.close()
最终result.txt执行结果如下图所示:
第二部分:读取文件,使用re模块分析相关数据
#读取文件之后创建一个空列表,用于存放使用re模块截取后的数据 result = open('result1.txt' , encoding = 'UTF-8') txts = result.readlines() txts #使用re截取 #本科生信息提取 import re ben= r'0\d{7,8}\s*\w{2,3}|\w{2,3}071\d{5,6}|潘克研|武新跃|071803232吴方怡' ''' 本科生的昵称信息概况如下: 1. 学号(0开头)+零个或一个或两个空格+姓名 --> 0\d{7,8}\s*\w{2,3} 2. 姓名+学号 --> \w{2,3}071\d{5,6} 3. 潘克研与武新跃两位同学只有姓名,没有学号 4. 吴方怡同学学号与姓名中间含有特殊字符 ''' for i in range(0,len(txts)-1): # print(re.findall(ben , txts[i])) txts2.append(re.findall(ben , txts[i])) #研究生信息提取 yan = '1907\d{4,5}\s*\w{2,4}\s*\w{2,7}|1907\d{4,5}\s*\w{2,7}|\w{3,4}\s*1907\d{4,5}\w*|黄志辉' ''' 研究生的昵称信息概况如下: 1. 学号(19开头)+零个或一个或两个空格 + 姓名或姓名与专业信息 --> 1907\d{4,5}\s*\w{2,7} 2. 学号(19开头)+零个或一个或两个空格 + 姓名 + 零个或一个或两个空格 + 专业信息 -->1907\d{4,5}\s*\w{2,4}\s*\w{2,7} 3. 专业信息 + 零个或一个或两个空格 + 学号 + 零个或一个或两个空格 + 姓名 --> \w{3,4}\s*1907\d{4,5}\w* 4. 黄志辉同学只有姓名 ''' for i in range(0,len(txts)-1): # print(re.findall(yan , txts[i])) txts2.append(re.findall(yan, txts[i])) #去除txts2的空子列表 txts2 = [x for x in txts2 if x!=[]] txts2
值得注意的是,这里考虑把研究生和本科生分开计算,比较便利,还有就是因为昵称的原因,有的同学不时地会修改自己的昵称,所以应该仔细观察数据,不能有遗漏。代码执行的结果如下所示:
[['071803232 吴方怡'], ['071803108黄若琳'], ['071803111 康佳琦'], ['071803405 曾溪峰'], ['071803118 刘瀚霖'], ['071803219林郁轩'], ['071803229石煜川'], ['071803217林莘茹'], ['071803101蔡雨婷'], ['071803431 张文杰'], ['071803242郑亚宁'], ['071803122 潘思杰'], ['071803227施文纨'], ['071803207甘熳霞'], ['071803208龚秀玲'], ['071803205陈丽萍'], ['071803130吴彦霖'], ['071803404 曾诗诗'], ['071803104陈婷婷'], ['071803203陈惠琳'], ['071803222罗越凡'], ['071803409何睿阳'], ['071803218林宇帆'], ['071803423魏浩斌'], ['071803239 张瑞婷'], ['071803233杨劲鹏'], ['071803221刘雅茹'], ['071803201蔡雨婷'], ['071803127 汤敏航'], ['071803228 施晓欣'], ['071803103陈玲玉'], ['071803129王月梅'], ['071803416林欣'], ['071803420 宋彬'], ['071803116林巧妮'], ['071803238张迪'], ['071803119 刘炫圻'], ['071803240 张睿思'], ['071803433 郑宇和'], ['071803115梁彪'], ['071803120 刘一阳'], ['071803414廖燕玲'], ['071803132 颜君凤'], ['071803214黄琪澜'], ['071803226齐红燕'], ['071803141郑俊鸿'], ['071803408 关涛亮'], ['071803211 何正杨'], ['071803136张浩泽'], ['071803236游菲旸'], ['071803206陈昕怡'], ['061700313 黄宁馨'], ['071803106戴淑宇'], ['071803138 张淑梅'], ['071803128王佳瑶'], ['071803202曾露瑶'], ['071803416林欣'], ['071803139 张旭坤'], ['071803429 杨一鸣'], ['071803126 苏礼洁'], ['071803105 陈艺娟'], ['071803425 武新跃'], ['071803117 林思婷'], ['071803109 黄宇慧'], ['071803418 念文琴'], ['071803121 陆奕璇'], ['071803225 彭佳兴'], ['071803209郭泳秀'], ['071803240 张睿思'], ['071803123 浦有权'], ['071803204陈凯'], ['071803235杨晓萱'], ['071803131 谢桃微'], ['071803135张初煜'], ['071803134 余书涵'], ['071803113李艳泓'], ['071803210郭毓萱'], ['071803125 史伊娜'], ['071803112 李超'], ['071803419 潘克研'], ['071803215黄睿'], ['071803124 邱昱宁'], ['071803234 杨祥'], ['071803230孙胜先'], ['071803217林莘茹'], ['071803133 叶钰玲'], ['071803241章语嫣'], ['071803224孟想'], ['071803114李祯'], ['071803220刘婧雯'], ['071803110 江瑾婷'], ['071803137张玲丽'], ['071803412赖显隆'], ['071803403 蔡林晟'], ['071803233杨劲鹏'], ['071803204 陈凯'], ['071803233杨劲鹏'], ['071803233杨劲鹏'], ['071803409何睿阳'], ['071803419潘克研'], ['071803233杨劲鹏'], ['071803214黄琪澜'], ['071803229石煜川'], ['071803233杨劲鹏'], ['071803233杨劲鹏'], ['071803204 陈凯'], ['071803419潘克研'], ['071803419潘克研'], ['071803204 陈凯'], ['071803409何睿阳'], ['071803233杨劲鹏'], ['071803419潘克研'], ['071803409何睿阳'], ['071803409何睿阳'], ['071803419潘克研'], ['071803233杨劲鹏'], ['071803228施晓欣'], ['071803414廖燕玲'], ['071803419潘克研'], ['071803214黄琪澜'], ['071803132颜君凤'], ['071803409何睿阳'], ['071803233杨劲鹏'], ['071803233杨劲鹏'], ['071803432张旭君'], ['071803419潘克研'], ['071803414廖燕玲'], ['071803219 林郁轩'], ['071803214黄琪澜'], ['071803204 陈凯'], ['071803419潘克研'], ['071803418念文琴'], ['071803418念文琴'], ['071803229石煜川'], ['071803419潘克研'], ['071803229石煜川'], ['071803219 林郁轩'], ['071803207甘熳霞'], ['071803130吴彦霖'], ['071803418念文琴'], ['071803240张睿思'], ['071803241章语嫣'], ['071803104陈婷婷'], ['071803120刘一阳'], ['071803414廖燕玲'], ['071803135张初煜'], ['071803109黄宇慧'], ['071803215黄睿'], ['071803108黄若琳'], ['061700313黄宁馨'], ['071803101蔡雨婷'], ['071803112李超'], ['071803409何睿阳'], ['071803234杨祥'], ['071803131谢桃微'], ['071803202曾露瑶'], ['071803204 陈凯'], ['071803141郑俊鸿'], ['071803206陈昕怡'], ['071803134余书涵'], ['071803408关涛亮'], ['071803222罗越凡'], ['071803111康佳琦'], ['071803242郑亚宁'], ['071803228施晓欣'], ['071803420宋彬'], ['071803103陈玲玉'], ['071803220刘婧雯'], ['071803227施文纨'], ['071803429杨一鸣'], ['071803214黄琪澜'], ['071803233杨劲鹏'], ['071803133叶钰玲'], ['071803211何正杨'], ['071803236游菲旸'], ['071803218林宇帆'], ['071803125史伊娜'], ['071803208龚秀玲'], ['071803217林莘茹'], ['071803239张瑞婷'], ['071803122 潘思杰'], ['071803203陈惠琳'], ['071803136张浩泽'], ['071803226齐红燕'], ['071803235 杨晓萱'], ['071803128王佳瑶'], ['071803121陆奕璇'], ['071803119刘炫圻'], ['071803124邱昱宁'], ['071803432张旭君'], ['071803210郭毓萱'], ['071803113李艳泓'], ['071803221刘雅茹'], ['fzu071803412'], ['071803132颜君凤'], ['071803225彭佳兴'], ['071803238张迪'], ['071803138张淑梅'], ['071803127汤敏航'], ['071803213黄程波'], ['071803230孙胜先'], ['071803139张旭坤'], ['071803205陈丽萍'], ['071803232\x7f吴方怡'], ['071803224孟想'], ['071803105陈艺娟'], ['071803201 蔡雨婷'], ['071803201 蔡雨婷'], ['071803117 林思婷'], ['071803129王月梅'], ['071803209郭泳秀'], ['071803423魏浩斌'], ['071803423魏浩斌'], ['071803115梁彪'], ['071803131谢桃微'], ['071803414廖燕玲'], ['071803419潘克研'], ['071803139张旭坤'], ['071803414廖燕玲'], ['071803105陈艺娟'], ['071803405曾溪峰'], ['071803230孙胜先'], ['071803419潘克研'], ['071803416 林欣'], ['071803409何睿阳'], ['071803425武新跃'], ['071803219 林郁轩'], ['071803214黄琪澜'], ['071803130吴彦霖'], ['071803221刘雅茹'], ['071803105陈艺娟'], ['071803203陈惠琳'], ['071803414廖燕玲'], ['071803433郑宇和'], ['071803113李艳泓'], ['071803204 陈凯'], ['071803419潘克研'], ['071803431张文杰'], ['071803229石煜川'], ['071803134余书涵'], ['071803228施晓欣'], ['071803241章语嫣'], ['071803121陆奕璇'], ['071803155马雨轩'], ['071803155马雨轩'], ['071803419潘克研'], ['071803405曾溪峰'], ['071803204 陈凯'], ['071803416 林欣'], ['071803119刘炫圻'], ['071803419潘克研'], ['071803130吴彦霖'], ['071803215黄睿'], ['071803110 江瑾婷'], ['071803229石煜川'], ['071803433郑宇和'], ['071803414廖燕玲'], ['071803419潘克研'], ['071803419潘克研'], ['071803419潘克研'], ['071803416 林欣'], ['071803416 林欣'], ['071803103陈玲玉'], ['071803242郑亚宁'], ['071803433郑宇和'], ['071803131谢桃微'], ['071803409何睿阳'], ['071803416 林欣'], ['071803419潘克研'], ['071803226齐红燕'], ['071803125 史伊娜'], ['071803213黄程波'], ['071803108黄若琳'], ['071803206陈昕怡'], ['071803242郑亚宁'], ['071803116林巧妮'], ['071803130吴彦霖'], ['念文琴071803418'], ['071803222罗越凡'], ['071803232\x7f吴方怡'], ['071803112李超'], ['071803208龚秀玲'], ['071803141郑俊鸿'], ['071803201 蔡雨婷'], ['071803122潘思杰'], ['071803124邱昱宁'], ['061700313黄宁馨'], ['071803204 陈凯'], ['071803139张旭坤'], ['071803234杨祥'], ['071803238张迪'], ['071803408关涛亮'], ['071803239张瑞婷'], ['071803127汤敏航'], ['071803218林宇帆'], ['071803101蔡雨婷'], ['071803220刘婧雯'], ['071803103陈玲玉'], ['071803136张浩泽'], ['071803425武新跃'], ['071803231王雅婷'], ['071803225彭佳兴'], ['071803404曾诗诗'], ['071803202曾露瑶'], ['071803104陈婷婷'], ['071803241章语嫣'], ['071803414廖燕玲'], ['071803135张初煜'], ['071803233杨劲鹏'], ['071803111康佳琦'], ['071803128 王佳瑶'], ['071803412赖显隆'], ['071803240张睿思'], ['071803109黄宇慧'], ['071803228施晓欣'], ['071803203陈惠琳'], ['071803120刘一阳'], ['071803121陆奕璇'], ['071803129王月梅'], ['071803126 苏礼洁'], ['071803131谢桃微'], ['071803134余书涵'], ['071803407辜兵'], ['071803409何睿阳'], ['071803215黄睿'], ['071803429杨一鸣'], ['071803230孙胜先'], ['071803235 杨晓萱'], ['071803229石煜川'], ['071803420宋彬'], ['071803211何正杨'], ['071803110 江瑾婷'], ['071803236游菲旸'], ['071803210郭毓萱'], ['071803119刘炫圻'], ['071803431张文杰'], ['071803205 陈丽萍'], ['071803105陈艺娟'], ['071803209郭泳秀'], ['071803219 林郁轩'], ['071803227施文纨'], ['071803105陈艺娟'], ['071803116林巧妮'], ['071803226齐红燕'], ['071803419潘克研'], ['071803230孙胜先'], ['07183227施文纨'], ['071803240张睿思'], ['071803203陈惠琳'], ['071803405曾溪峰'], ['071803214黄琪澜'], ['071803414廖燕玲'], ['071803414廖燕玲'], ['071803113李艳泓'], ['071803414廖燕玲'], ['071704133周泽海'], ['071803419潘克研'], ['071704133周泽海'], ['071704133周泽海'], ['071803418念文琴'], ['071803103陈玲玉'], ['071704133周泽海'], ['071803229石煜川'], ['071704133周泽海'], ['071803405曾溪峰'], ['071803419潘克研'], ['071803202曾露瑶'], ['071803423魏浩斌'], ['071704133周泽海'], ['071803419潘克研'], ['071704133周泽海'], ['071803419潘克研'], ['071803419潘克研'], ['071803419潘克研'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803419潘克研'], ['071704133周泽海'], ['071803419潘克研'], ['071704133周泽海'], ['071803419潘克研'], ['071803419潘克研'], ['071803419潘克研'], ['071803419潘克研'], ['071803419潘克研'], ['071803405曾溪峰'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803419潘克研'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803419潘克研'], ['071803419潘克研'], ['071803233杨劲鹏'], ['07183227施文纨'], ['071803132颜君凤'], ['071803103陈玲玉'], ['071803409何睿阳'], ['071803205陈丽萍'], ['071803139张旭坤'], ['071803229石煜川'], ['071803130吴彦霖'], ['071803120刘一阳'], ['071803202曾露瑶'], ['061700313黄宁馨'], ['071803223马鸣威'], ['071803134余书涵'], ['071803116林巧妮'], ['071803228施晓欣'], ['071803423魏浩斌'], ['071803101蔡雨婷'], ['071803125史伊娜'], ['071803119刘炫圻'], ['071803230孙胜先'], ['071704133周泽海'], ['071803112李超'], ['071803108黄若琳'], ['071803214黄琪澜'], ['071803225彭佳兴'], ['071803137张玲丽'], ['071803129王月梅'], ['071803122潘思杰'], ['071803108黄若琳'], ['071803432张旭君'], ['071803105陈艺娟'], ['071803203陈惠琳'], ['071803201蔡雨婷'], ['071803124邱昱宁'], ['071803104陈婷婷'], ['071803238张迪'], ['071803418念文琴'], ['071803405曾溪峰'], ['071803208龚秀玲'], ['071803420宋彬'], ['071803110江瑾婷'], ['071803215黄睿'], ['071803210郭毓萱'], ['071803109黄宇慧'], ['071803222罗越凡'], ['071803135张初煜'], ['071803220刘婧雯'], ['071803429杨一鸣'], ['071803218林宇帆'], ['071803234杨祥'], ['071803102曾則菲'], ['071803204 陈凯'], ['071803126 苏礼洁'], ['071803407辜兵'], ['071803141郑俊鸿'], ['071803111康佳琦'], ['071803241章语嫣'], ['071803127汤敏航'], ['071803121陆奕璇'], ['071803217林莘茹'], ['071803404曾诗诗'], ['071803117林思婷'], ['071803236游菲旸'], ['071803211何正杨'], ['071803235杨晓萱'], ['071803226齐红燕'], ['071803115梁彪撤'], ['071803117林思婷'], ['071803408关涛亮'], ['071803115梁彪'], ['071803412赖显隆'], ['071803128王佳瑶'], ['071803416林欣'], ['071803123浦有权'], ['071803239张瑞婷'], ['071803431张文杰'], ['071803206陈昕怡'], ['071803224孟想'], ['武新跃'], ['071803118刘瀚霖'], ['071803242郑亚宁'], ['071803113李艳泓'], ['071803107黄华炫'], ['071803138 张淑梅'], ['071803240 张睿思'], ['071704133周泽海'], ['071704133周泽海'], ['潘克研'], ['071803132颜君凤'], ['071803226齐红燕'], ['071803405曾溪峰'], ['07183227施文纨'], ['071803214黄琪澜'], ['071803116林巧妮'], ['071803225彭佳兴'], ['071803418念文琴'], ['071803423魏浩斌'], ['071803414廖燕玲'], ['071803408关涛亮'], ['071803108黄若琳'], ['071803412赖显隆'], ['071803135张初煜'], ['071803141郑俊鸿'], ['071803230孙胜先'], ['潘克研'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803405曾溪峰'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803229石煜川'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['潘克研'], ['071803405曾溪峰'], ['071803418念文琴'], ['071803204 陈凯'], ['071803414廖燕玲'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803233杨劲鹏'], ['071803223马鸣威'], ['071704133周泽海'], ['071803423魏浩斌'], ['潘克研'], ['071803418念文琴'], ['071803409何睿阳'], ['071803420宋彬'], ['071803235杨晓萱'], ['071803109黄宇慧'], ['071803103陈玲玉'], ['071803135张初煜'], ['071803222罗越凡'], ['071803229石煜川'], ['071803217林莘茹'], ['071803130吴彦霖'], ['071803117林思婷'], ['071803138张淑梅'], ['071803215黄睿'], ['071803127汤敏航'], ['071803242郑亚宁'], ['071803241章语嫣'], ['061700313黄宁馨'], ['071803228施晓欣'], ['071803201蔡雨婷'], ['071803116林巧妮'], ['071803408关涛亮'], ['071803131谢桃微'], ['071803204 陈凯'], ['潘克研'], ['071803134余书涵'], ['071803431张文杰'], ['071803112李超'], ['071803111康佳琦'], ['071803220刘婧雯'], ['071803210郭毓萱'], ['071803108黄若琳'], ['071803236游菲旸'], ['071803407辜兵'], ['071803203陈惠琳'], ['071803224 孟想'], ['071803231王雅婷'], ['071803115梁彪'], ['071803211何正杨'], ['071803214黄琪澜'], ['071803202曾露瑶'], ['071803423魏浩斌'], ['071803205陈丽萍'], ['071803226齐红燕'], ['071803234杨祥'], ['071803118刘瀚霖'], ['071803405曾溪峰'], ['071803121陆奕璇'], ['071803429杨一鸣'], ['071803119刘炫圻'], ['07183227施文纨'], ['071803130吴彦霖'], ['071803122潘思杰'], ['071803136张浩泽'], ['071803218林宇帆'], ['071803416林欣'], ['071803414廖燕玲'], ['071803125史伊娜'], ['071803104陈婷婷'], ['071803139张旭坤'], ['林郁轩071803219'], ['071803232\x7f吴方怡'], ['071803204 陈凯'], ['071803240张睿思'], ['071803113李艳泓'], ['071803120刘一阳'], ['071803124 邱昱宁'], ['武新跃'], ['071803412赖显隆'], ['071803225彭佳兴'], ['071803230孙胜先'], ['071803107黄华炫'], ['071803132颜君凤'], ['071803141郑俊鸿'], ['071803404曾诗诗'], ['071803102曾則菲'], ['071803208龚秀玲'], ['071803129王月梅'], ['071803432张旭君'], ['071803101蔡雨婷'], ['071803239张瑞婷'], ['071803133叶钰玲'], ['071803206陈昕怡'], ['071803123浦有权'], ['071803105陈艺娟'], ['071803221刘雅茹'], ['071803238张迪'], ['071803139张旭坤'], ['071803110江瑾婷'], ['071803209郭泳秀'], ['071803106戴淑宇'], ['071704133周泽海'], ['071803202曾露瑶'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803233杨劲鹏'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803233杨劲鹏'], ['潘克研'], ['071704133周泽海'], ['071704133周泽海'], ['071803223马鸣威'], ['071803405曾溪峰'], ['071803418念文琴'], ['071803117林思婷'], ['061700313黄宁馨'], ['071803120刘一阳'], ['071803423魏浩斌'], ['071803111康佳琦'], ['071803139张旭坤'], ['071803214黄琪澜'], ['071803138张淑梅'], ['071803115梁彪'], ['071803116林巧妮'], ['071803414廖燕玲'], ['071803236游菲旸'], ['071803112李超'], ['071803233杨劲鹏'], ['071803215 黄睿'], ['071803134余书涵'], ['071803229石煜川'], ['071803126 苏礼洁'], ['071803108黄若琳'], ['071803232\x7f吴方怡'], ['071803101蔡雨婷'], ['071803225彭佳兴'], ['071803133叶钰玲'], ['071803220刘婧雯'], ['071803141郑俊鸿'], ['071803408关涛亮'], ['071803110江瑾婷'], ['071803217林莘茹'], ['07183227施文纨'], ['071803242郑亚宁'], ['071803122潘思杰'], ['071803211何正杨'], ['071803201蔡雨婷'], ['071803119刘炫圻'], ['071803210郭毓萱'], ['071803228施晓欣'], ['071803104陈婷婷'], ['071803130吴彦霖'], ['071803239张瑞婷'], ['071803109黄宇慧'], ['071803222罗越凡'], ['071803202曾露瑶'], ['071803128王佳瑶'], ['071803208龚秀玲'], ['071803127汤敏航'], ['071803205陈丽萍'], ['071803124 邱昱宁'], ['071803407辜兵'], ['071803121陆奕璇'], ['071803235杨晓萱'], ['071803429杨一鸣'], ['071803224 孟想'], ['071803118刘瀚霖'], ['林郁轩071803219'], ['071803125史伊娜'], ['071803432张旭君'], ['071803238张迪'], ['071803431张文杰'], ['071803209郭泳秀'], ['071803420宋彬'], ['071803107黄华炫'], ['071803135张初煜'], ['071803416林欣'], ['071803136张浩泽'], ['071803123浦有权'], ['071803218林宇帆'], ['071803425武新跃'], ['071803204 陈凯'], ['071803230孙胜先'], ['071803404曾诗诗'], ['071803203陈惠琳'], ['071803240张睿思'], ['071803412赖显隆'], ['071803137张玲丽'], ['071803241章语嫣'], ['071803109黄宇慧'], ['071803409何睿阳'], ['071803103陈玲玉'], ['071803206陈昕怡'], ['071803132颜君凤'], ['071803226齐红燕'], ['071803234杨祥'], ['071803105陈艺娟'], ['071803113李艳泓'], ['071803106戴淑宇'], ['071803131谢桃微'], ['071803231王雅婷'], ['071803213黄程波'], ['071803129王月梅'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071704133周泽海'], ['071803215 黄睿'], ['071803414 廖燕玲'], ['071803235杨晓萱'], ['071803120刘一阳'], ['071803130吴彦霖'], ['071803228施晓欣'], ['071803204 陈凯'], ['061700313黄宁馨'], ['071803418念文琴'], ['071803132颜君凤'], ['071803135张初煜'], ['071803405 曾溪峰'], ['071803109黄宇慧'], ['071803129王月梅'], ['071803223马鸣威'], ['071803116林巧妮'], ['071803138张淑梅'], ['071803112李超'], ['071803242郑亚宁'], ['071803423魏浩斌'], ['071803103陈玲玉'], ['071803236游菲旸'], ['071803207甘熳霞'], ['071803113李艳泓'], ['071704133周泽海'], ['071803119刘炫圻'], ['071803425武新跃'], ['071803134余书涵'], ['071803201蔡雨婷'], ['071803126 苏礼洁'], ['071803105陈艺娟'], ['071803117林思婷'], ['071803133叶钰玲'], ['071803205陈丽萍'], ['071803225彭佳兴'], ['071803136张浩泽'], ['071803420宋彬'], ['071803209郭泳秀'], ['071803128王佳瑶'], ['071803214黄琪澜'], ['071803419潘克研'], ['071803210郭毓萱'], ['071803204 陈凯'], ['071803238张迪'], ['071803108黄若琳'], ['071803104陈婷婷'], ['071803222罗越凡'], ['071803217林莘茹'], ['071803432张旭君'], ['071803233杨劲鹏'], ['071803230孙胜先'], ['071803111康佳琦'], ['071803122潘思杰'], ['071803228施晓欣'], ['071803124邱昱宁'], ['071803232\x7f吴方怡'], ['071803131谢桃微'], ['071803115梁彪'], ['071803110 江瑾婷'], ['071803227施文纨'], ['071803202曾露瑶'], ['071803431张文杰'], ['071803224 孟想'], ['071803408关涛亮'], ['071803213黄程波'], ['071803211何正杨'], ['071803229石煜川'], ['071803139张旭坤'], ['071803220刘婧雯'], ['071803141郑俊鸿'], ['071803240张睿思'], ['071803416林欣'], ['071803218林宇帆'], ['071803107黄华炫'], ['071803102曾則菲'], ['071803221刘雅茹'], ['071803429杨一鸣'], ['071803239张瑞婷'], ['071803432张旭君'], ['071803412赖显隆'], ['071803127汤敏航'], ['071803409何睿阳'], ['071803125史伊娜'], ['071803106戴淑宇'], ['071803206陈昕怡'], ['071803203陈惠琳'], ['071803404 曾诗诗'], ['林郁轩071803219'], ['071803208龚秀玲'], ['071803114李祯'], ['071803118刘瀚霖'], ['071803114李祯'], ['071803106戴淑宇'], ['071803239张瑞婷'], ['071803242郑亚宁'], ['071803121 陆奕璇'], ['071803231王雅婷'], ['071803407辜兵'], ['071803241章语嫣'], ['190727034会计常燕伟'], ['190727087会计郑红珠'], ['190727156施萍娈'], ['190727120金融赵纯帅'], ['190727021国商施娇娇'], ['190727157应统吴灵珊'], ['190727037会计陈敏'], ['190727161应统杨明明'], ['190727151 黄志辉'], ['190727073会计任霞'], ['190727153应统刘湘'], ['应用统计190727159许旖旎'], ['190727160阳洁'], ['190727032 蔡晓彬'], ['190727105金融乐亦欣'], ['190727084会计张琪丹'], ['190727022国商汪琳'], ['190727057 会计林佳敏'], ['190727049会计黄丹琳'], ['190727094金融陈炳帆'], ['190727045会计郭虹'], ['190727148常小雨'], ['190727043会计高彦茜'], ['190727058会计林玲'], ['190727103金融金双双'], ['190727056会计李智丽'], ['190727101金融黄希如'], ['190727109金融林伟华'], ['190727083会计张菲菲'], ['190727028国商杨晨晨'], ['190727077吴翌锦'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727156施萍娈'], ['190727083会计张菲菲'], ['190727156施萍娈'], ['190727149应统陈宇晴'], ['190727152江梅梅'], ['190727107林敏'], ['190727042会计邓紫薇'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727149应统陈宇晴'], ['190727156施萍娈'], ['190727107林敏'], ['190727107林敏'], ['190727107林敏'], ['190727026吴新林'], ['190727023王小典'], ['190727016国商陈滢'], ['190727019国商赖宗祺'], ['190727080熊婧怡'], ['190727086会计张昕悦'], ['190727021 施娇娇'], ['190727056会计李智丽'], ['190727152江梅梅'], ['190727122金融郑子薇'], ['190727073会计任霞'], ['190727025吴桂英'], ['190727036会计陈佳音'], ['190727120金融赵纯帅'], ['190727063会计林雅慧'], ['190727090会计朱扈溶'], ['190727156施萍娈'], ['190727109金融林伟华'], ['190727151 黄志辉'], ['应用统计190727159许旖旎'], ['190727048华世领'], ['190727091会计庄致朋'], ['190727064会计林尹涵'], ['190727119杨心轶'], ['190727083会计张菲菲'], ['190727099金融胡瑾'], ['190727065会计刘绿莹'], ['190727112金融马婷'], ['190727092 金融蔡金龙'], ['190727049会计黄丹琳'], ['190727095金融陈佳楠'], ['190727088周巧凤'], ['190727045会计郭虹'], ['190727153应统刘湘'], ['190727041会计陈殷珂'], ['190727071会计欧润英'], ['190727148常小雨'], ['190727160阳洁'], ['190727103金融金双双'], ['190727111金融卢源祥'], ['190727017国商陈韵如'], ['190727108金融林楠'], ['190727030国商杨泽昕'], ['190727154应统刘远航'], ['190727150应统黄愉捷'], ['190727055会计李雪连'], ['190727117叶婷'], ['190727076吴闽婧'], ['190727155彭李珍'], ['190727093金融曾紫怡'], ['190727040会计陈委民'], ['190727094金融陈炳帆'], ['190727078会计肖丽琴'], ['190727070聂磊'], ['190727061林文迪'], ['190727031赵朝阳'], ['190727051黄悦'], ['190727015陈舒雨'], ['190727043会计高彦茜'], ['190727068会计刘杨雨'], ['190727042会计邓紫薇'], ['190727024国商王颖'], ['190727107林敏'], ['190727072会计曲艺'], ['190727027国商辛雨秋'], ['190727058会计林玲'], ['190727082会计游佳丽'], ['190727026吴新林'], ['190727161应统杨明明'], ['190727101金融黄希如'], ['190727121郑威'], ['190727074会计文思佳'], ['190727032 蔡晓彬'], ['190727077吴翌锦'], ['190727097方晶晶'], ['190727033会计曹滢怡'], ['190727018国商姬向阳'], ['190727104金融柯秀玲'], ['190727115金融徐晓楠'], ['190722001金融林俊垚'], ['190727028国商杨晨晨'], ['190727102江颖'], ['190727157应统吴灵珊'], ['190727035陈胡杨'], ['190727118詹琳'], ['190727069会计梅红欣'], ['林思雨190727060'], ['190727149应统陈宇晴'], ['190727062林欣'], ['190727105金融乐亦欣'], ['190727040会计陈委民'], ['190727022国商汪琳'], ['190727029杨晓翠'], ['190727020国商普婵燕'], ['190727056会计李智丽'], ['190727054会计李佳颖'], ...]
注意到两个同名同学,需要处理同名同学蔡雨婷,按照学号进行区分,071803101为蔡雨婷甲,071803201为蔡雨婷乙。
#需要处理同名同学蔡雨婷,按照学号进行区分,071803101为蔡雨婷甲,071803201为蔡雨婷乙 for i in range(0,len(txts2)-1): # print(txts2[i][0]) if txts2[i][0] == '071803101蔡雨婷': txts2[i][0] = '蔡雨婷甲' if txts2[i][0] == '071803201蔡雨婷' or txts2[i][0] == '071803201 蔡雨婷': txts2[i][0] = '蔡雨婷乙'
第三步:提取名字的中文信息:
#提取中文,可能会把专业信息提取出来,这里把昵称只有学号的去除了 txts4 = [] pattern = r'[\u4e00-\u9fa5]' for i in range(0,len(txts2)-1): txtre = re.findall(pattern , str(txts2[i])) txts4.append(txtre) #把txts4的各个子列表的各个元素连接在一起,使各个子列表变成字符串 for j in range(0,len(txts4)-1): txts4[j] = ''.join(txts4[j]) #把txts4的空值元素去除 while '' in txts4: txts4.remove('') #对中文信息进一步提纯,只把人名提取出来,用循环把txts4的各个元素使用re模块进行提取 cutwords = ['撤','受伤','金融','国商','会计','应用统计','应统'] for k in range(0,len(txts4)-1): for m in range(0,len(cutwords)): if txts4[k].find(cutwords[m]) !=-1: # print(txts4[k]) txts4[k] = re.sub(cutwords[m],'',txts4[k]) txts4
代码执行结果如下所示:
['吴方怡', '黄若琳', '康佳琦', '曾溪峰', '刘瀚霖', '林郁轩', '石煜川', '林莘茹', '蔡雨婷', '张文杰', '郑亚宁', '潘思杰', '施文纨', '甘熳霞', '龚秀玲', '陈丽萍', '吴彦霖', '曾诗诗', '陈婷婷', '陈惠琳', '罗越凡', '何睿阳', '林宇帆', '魏浩斌', '张瑞婷', '杨劲鹏', '刘雅茹', '蔡雨婷', '汤敏航', '施晓欣', '陈玲玉', '王月梅', '林欣', '宋彬', '林巧妮', '张迪', '刘炫圻', '张睿思', '郑宇和', '梁彪', '刘一阳', '廖燕玲', '颜君凤', '黄琪澜', '齐红燕', '郑俊鸿', '关涛亮', '何正杨', '张浩泽', '游菲旸', '陈昕怡', '黄宁馨', '戴淑宇', '张淑梅', '王佳瑶', '曾露瑶', '林欣', '张旭坤', '杨一鸣', '苏礼洁', '陈艺娟', '武新跃', '林思婷', '黄宇慧', '念文琴', '陆奕璇', '彭佳兴', '郭泳秀',.......]
第四部分:统计次数,结果输出
#将数组去重,用于统计 txts3 = [] for i in txts4: if i not in txts3: txts3.append(i) #存储到txt文件中 with open('finalresult.txt', 'w' , encoding='utf-8') as f: for i in range(0,len(txts3)-1): f.write(str(txts3[i]) + ' 的活跃次数为:'+ str(txts4.count(txts3[i]))) f.write('\n') f.close()
结果如图所示:
由于时间过于匆忙,所以项目比较粗糙,日后有时间考虑优化。