用到的工具jieba
jieba分词,最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在这里我们需要用他的分词功能来提取文本中的人名。
gephi
gephi是一个开源的复杂网络数据可视化软件,可用于探索数据分析、链路分析、社交网络分析、生物网络分析等。我们需要把数据处理成gephi可接受的csv格式,然后再进行绘制。
实现流程
代码实现分为三步,1. 人物出场次数统计。2. 人物关系统计。3. 格式化输出。
准备工作
准备两份字典,用于分词。文本人物字典
文本人物字典包含了文本中的大部分人名,或者说是我们关心的人物的人名。
人物别称映射字典
民国时期的散文,势必每个人会有多个称呼,在文化人中甚多。蕊生、我、兰成、胡先生指代的都是胡兰成。因此需要一个映射字典,将不同的称呼都映射到同一个人名当中。
定义文件路径常量和初始化全局变量
TEXT_PATH = '../jsjs.txt' # 文本路径
DICT_PATH = 'person.txt' # 人物字典路径
SYNONYMOUS_DICT_PATH = 'synonymous_dict.txt' # 同义词路径
SAVE_NODE_PATH = 'node.csv'
SAVE_EDGE_PATH = 'edge.csv'
'''
person_counter是一个计数器,用来统计人物出现的次数。{'a':1,'b':2}
person_per_paragraph每段文字中出现的人物[['a','b'],[]]
relationships保存的是人物间的关系。key为人物A,value为字典,包含人物B和权值。
'''
person_counter = defaultdict(int)# 人物出场次数计数器
person_per_paragraph = []
relationships = {}
synonymous_dict = {}
人物出场次数统计
def count_person(self):
'''
统计人物出场次数,添加每段的人物
:return:
'''
paragraphs = self.get_clean_paragraphs()
synonymous = self.synonymous_names()
print('start process node')
with codecs.open(self._dict_path, 'r', 'utf-8') as f:
name_list = f.read().split(' 10 nr\r\n') # 获取干净的name_list
for p in paragraphs:
jieba.load_userdict(self._dict_path)
# 分词,为每一段初始化新字典
poss = jieba.cut(p)
self._person_per_paragraph.append([])
for w in poss:
# 判断是否在姓名字典以及同义词区分
if w not in name_list:
continue
if synonymous.get(w):
w = synonymous[w]
# 往每段中添加人物
self._person_per_paragraph[-1].append(w)
# 初始化人物关系,计数
if self._person_counter.get(w) is None:
self._relationships[w] = {}
self._person_counter[w] += 1
return self._person_counter
人物关系统计
def calc_relationship(self):
'''
统计人物关系权值
:return:
'''
print("start to process edge")
# 遍历每一段落,笛卡尔积形式,统计人物关系
for p in self._person_per_paragraph:
for name1 in p:
for name2 in p:
if name1 == name2:
continue
if self._relationships[name1].get(name2) is None:
self._relationships[name1][name2] = 1
else:
self._relationships[name1][name2] += 1
return self._relationships
格式化输出
def save_node_and_edge(self):
'''
根据dephi格式保存为csv
:return:
'''
with codecs.open(SAVE_NODE_PATH, "a+", "utf-8") as f:
f.write("Id,Label,Weight\r\n")
for name, times in self._person_counter.items():
f.write(name + "," + name + "," + str(times) + "\r\n")
with codecs.open(SAVE_EDGE_PATH, "a+", "utf-8") as f:
f.write("Source,Target,Weight\r\n")
for name, edges in self._relationships.items():
for v, w in edges.items():
if w > 3:
f.write(name + "," + v + "," + str(w) + "\r\n")
print('save file successful!')
转为csv文件后
得到结果如下所示
接下来就可以把数据导入到gephi中生成人物关系网图了。
gephi的使用
假如gephi下载失败,可以参考下面这个链接Gephi 入门使用_java_飞羽的博客-CSDN博客blog.csdn.net
打开如下所示
1. 新建工程,导入数据新建工程
选择数据资料tab,点击输入数字表格,添加节点和边的csv数据。
2.调整相关的样式
点击概览调整相关样式。可以通过度,权重等信息修改相关的样式。
3. 修改字体,显示相应的标签
4. 选择一个自动化布局的方式,预览,再调整相关参数
5. 最终点击左下角导出图片