在这个数据分析项目中,利用Pandas等Python库对美国2020年7月22日至2020年8月20日期间的超过75万条捐赠数据进行了深入的探索和分析。通过这一分析,他们揭示了这段时间内美国选民对总统候选人的偏好和捐款情况。以下是对文章中的主要步骤和内容的进一步描述:
数据集处理: 作者首先加载候选人信息、候选人和委员会关系、个人捐赠数据等多个数据集。他们使用Pandas库创建DataFrame对象,并对数据集的列名进行了指定,以确保数据按照预期的格式加载。
关联数据表: 作者通过候选人和委员会关系表,将候选人信息与个人捐赠数据进行关联。通过候选人和委员会的标识(CMTE_ID和CAND_ID),他们将捐赠数据与候选人的相关信息连接起来,以便后续分析。
数据探索和清洗: 在关联后的数据中,作者进行了一系列的探索性数据分析。他们统计了各州的捐款总额,并使用Matplotlib创建了美国地图的热度图,将各州的捐款情况以不同颜色展示在地图上,使读者能够直观地了解捐款分布情况。
候选人捐赠趋势分析: 为了深入了解获得捐赠额最多的三位候选人的捐赠趋势,作者针对这三位候选人分别计算了每日的捐赠总额。他们使用Matplotlib创建了折线图,将时间作为横轴,捐赠金额作为纵轴,以显示这三位候选人在这段时间内的捐赠变化情况。
词云可视化: 针对获得捐款额最多的候选人,作者从个人捐赠者的姓名中提取出数据,然后使用WordCloud库创建了一个词云图。该词云图以候选人的形象作为背景,将捐赠者