关系网络图表可视化_Python数据预处理

本章内容: 用Python预处理豆瓣电影数据,并使用Gephi做关系网络图表可视化。

Python数据预处理

将数据中导演与演员的关系整理出来,得到导演与演员的关系数据,并统计合作次数。

import pandas as pd
import warnings
warnings.filterwarnings('ignore')  # 不发出警告

# 读取数据
import os
os.chdir('C:/Users/HP/Desktop/')
df = pd.read_excel('豆瓣电影数据.xlsx',sheetname=0,header=0)
print('数据总共%i条' % len(df))
print('数据字段为:\n',df.columns.tolist())
df.head() # 查看数据

# 数据清洗
data = df[['name','导演','主演']]
print(data.head(2)) # 查看数据

data.dropna(inplace=True)  # 删除缺失值

data_yy = data['主演'].str.split('/ ', expand=True)  
col_len1 = len(data_yy.columns)
data_yy.columns = ['yy'+str(i) for i in range(col_len1)]
print(data_yy.head(2))
# 演员数据分列

data_dy = data['导演'].str.split('/ ', expand=True) 
col_len2 = len(data_dy.columns)
data_dy.columns = ['dy'+str(i) for i in range(col_len2)]
print(data_dy.head(2))
# 导演数据分列

data2 = data_dy.join(data_yy).join(data['name'])
print(data2.head()) # 数据合并

# 数据拆分、合并
data_re = pd.DataFrame(columns=['name','导演','演员'])   # 创建一个空的Dataframe

col_yy = data_yy.columns
col_dy = data_dy.columns
# 提取演员、导演的列名

for dy in col_dy:
    for yy in col_yy:
        data_i = data2[['name',dy,yy]].dropna()  # 提取数据
        data_i.columns = ['name','导演','演员']  # 列名重命名
        data_re = pd.concat([data_re,data_i])    # 添加数据
print(data_re.head())
# 遍历数据后,得到一个导演与演员的关系数据,并做去重处理
# 这里index是有重复的,但作为过程数据可忽略

# 汇总统计导演和演员的合作次数
result = data_re.groupby(['导演','演员']).count()
result.reset_index(inplace=True)   # reset_index() → 将所有索引级别转换为列
result.columns = ['导演','演员','合作次数']
print(result.head())
# 按照导演-演员进行计数统计,得到结果数据


writer = pd.ExcelWriter('output.xlsx')
result.to_excel(writer,'sheet1')
writer.save()
# 存为excel
# 注意:output.xlsx文件不能是打开状态

Gephi做关系网络图表可视化。

关系网络图表可视化_Python数据预处理_第1张图片
关系网络图表可视化_Python数据预处理_第2张图片
相关数据:
链接:https://pan.baidu.com/s/1fgySTLWcr450yc7Ctkco4Q 密码:fb08

你可能感兴趣的:(python)