如何高效地把CSMAR(国泰安)数据导入Python

最近看到王新路老师在发表的《如何优雅的把CSMAR(国泰安)数据导入R和Python》一文,基于CSMAR的excel文件导入到Python。

实际上,从CSMAR导入数据可以更简单。CSMAR提供了一种叫“所有历史数据”的下载方式(如下图所示)。


点击“下载数据”后,CSMAR会生成一个压缩包。压缩包里最主要的文件是一个txt文件,里面的数据是这样的



接下来,只要使用Pandas的read_csv,就可以直接导入数据了。导入前有三点需要说明:

1. 文件是有tab作为分隔符的;

2. 数据的第一(0)行是变量名,第二、三行是变量说明和单位,可以skip掉(或者单独处理后作为label合并回来);

3. 数据中的中文不是utf编码,而是GBK编码的。

最后,只需要一行代码,就可以实现数据导入了。

df = pd.read_csv('../csmar/csmarfile.txt',sep='\t',skiprows=(1,2),header=(0),encoding="GBK")

你可能感兴趣的:(如何高效地把CSMAR(国泰安)数据导入Python)