1. 首先导入所需数据,了解每个csv文件存储了哪些数据。
2. 将人口数据pop 和 各州简称数据abb 进行合并:
如果想保证数据的完整性,需要使用外连接。
3. 将合并之后重复的一列abbreviation删除:
4. 查看讯在缺失数据的列:(说明abb_pop数据中有缺失值)
5. 找到哪些state/region 使得state的值为NaN,进行去重操作:
将state中空值对应的简称找到,然后对state/region进行去重操作。
思路:将state这一列中的空值所对应的行数据找到,然后在这些行数据中找到对应的简称的值
6. 为找到的这些state/region 的state项补上正确的值,从而去除掉state中这一列的所有空值:
fillna 是给全体空值进行填充,但是这里需要给固定的两个'PR'和'USA'所对应的state进行填充,可以使用元素赋值的方法。
检查是否赋值成功: 得到剩下'PR'对应的state为空。,说明‘USA’赋值完成。
同理,对‘PR’对应的state进行赋值:
7. 合并各州面积数据,并找出area中哪些行有缺失数据:
8. 去除一些含有缺失数据的行:
9. 找出2010年全名人口数据:
10. 计算各洲的人口密度= 总人口/面积,并将密度这一列汇总到原表中。
11. 排序,并找出人口密度最高的州:
先排序(sort_value),然后再找出最大的行数据( iloc[0] ) 对应的state。