处理数据,可视化

这篇内容就是极度简单简称极简,适合新手使用Django和Matplotlib还有pandas库

首先衔接我前几篇的内容,就是图片和信息已经获取了,现在需要处理了

因为我再获取数据的时候碰到一个问题就是使用selenium库获取不了空值数据,所以我就以字符串“空”为内容,插入到了表格中

首先第一步就是处理表单中单一列表中为空值的行,我这边选择的是全部删除

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel('./movie_data.xlsx')

# 查看原始数据
print("原始数据:")
print(df)

# 清除空值
df_clean = df[df[上映时间] != '空']

# 查看清理后的数据
print("\n删除 '空' 字符串后的数据:")
print(df_cleaned)

# 保存清理后的数据到新文件
df_cleaned.to_excel('cleaned_data.xlsx', index=False)

现在空值被我们删除掉了,所以,接下来只保留上映地区下标索引为[0]的值,以及电影时长删除’分钟‘操作

"""
电影空值
"""

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel('./cleaned_data.xlsx')
"""
电影时长处理
"""

# 使用 str.replace() 去掉 '分钟' 字符串
df['电影时长'] = df['电影时长'].str.replace('分钟', '', regex=False)

# 转换为整数
df['电影时长'] = pd.to_numeric(df['电影时长'], errors='coerce')  # 无法转换的值会变为 NaN

# 查看修改后的数据(可选)
print("\n处理后的数据:")
print(df)

"""
电影地区
"""

# 使用 str.split() 按顿号分隔并保留第一个地区
df['电影地区'] = df['电影地区'].str.split('、').str[0]

# 查看修改后的数据(可选)
print("\n处理后的数据:")
print(df)

# 保存修改后的数据到新文件
df.to_excel('cleaned_data_movie.xlsx', index=False)

这样数据就算处理好了

你可能感兴趣的:(python,后端,pandas)