首先将数据文件放入相应的文件夹下,
创建一个ipnb文件,命名为美国总统大选政治捐献金分析
导入模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from pandas import Series,DataFrame
读取文件
总共有536041行,16个列(属性)
这只是美国总统大选政治捐献金的部分数据,不是全部的数据
这里缺失了一些数据 关于党派信息的数据
将txt文件中的内容复制进来
执行一下这条语句
把党派信息创建成一个DataFrame对象,然后把DataFrame和ele对象合并,
这个合并以姓名为基准
映射使用map函数,map是使用Series来调用,所以首先要取出cand_nm这个属性
可以看到,此时就产生了party这一列
用到分组聚合方面的知识
分组:党派 ; 聚合:政治捐献金 ; 聚合方式: 求和
- 查看每一天每个党派收到的政治捐献金的累积值并且画出累计值的曲线
什么叫累计值呢?
举个例子,你第一天吃了一个苹果,第二天吃了两个苹果,那么你第1天和第二天累计吃了3个苹果
累计值要用到一个cumsum()的函数,举个例子
那是不是用cumsum()函数就能计算了呢?
试一下后发现
这样累积求和产生了党派数据的冲突,会把所有的党派数据全累积到同一个党派,因为这些党派都在同一列,没有分隔开,所以数据是不断叠加的
那么怎么解决?方法就是,将各个党派的数据弄出单独一列,每一列只有本党派的数据,这样就不会有数据的重叠
采用用索引堆把党派变成列索引
现在用cumsum()函数就能正确计算了
最后一步绘制图像
x轴为日期,y轴为政治捐献金
企业高管包括(CEO,BUSSINESS OWNER,CHIRMAN,OWNER)
方案一、建表级联
将企业高管(CEO,BUSSINESS OWNER,CHIRMAN,OWNER)每个都建一张表
将这些表级联
方案二、把以上所有的职业都用替换成"Senior Manager"