作者:韩信子@ShowMeAI
数据分析实战系列:http://www.showmeai.tech/tutorials/40
本文地址:http://www.showmeai.tech/article-detail/285
声明:版权所有,转载请联系平台与作者并注明出处
收藏ShowMeAI查看更多精彩内容
Pandas 数据显示的问题
我们在应用 Python 进行数据分析挖掘和机器学习时,最常用的工具库就是 Pandas,它可以帮助我们快捷地进行数据处理和分析。
对 Pandas 不熟悉的同学,一定要学习下这个宝藏工具库哦!ShowMeAI 给大家做了一个详尽的教程,可以在 Python 数据分析教程 中查看,我们同时也制作了 Pandas速查表,方便大家快速查找需要的功能。如果你喜欢跟着视频学习,那么推荐B站这个 快速实战教程。
但在使用 Pandas 时,我们经常会遇到像下面这样一些问题,它很影响我们查看数据了解详情。
长文本无法显示全
对于非常长的字段可能显示不全,如下图中,URL 被缩短显示。
科学计数法显示失去细节
Pandas 默认使用『科学计数法』显示大浮点数,例如 1000000.5
显示为 1.000e+06
。对于数值较大的数字,就可能有如下的显示,这导致我们看不到具体数值。
![](https://p3-juejin.byteimg.com...e" width="30%" >
小数位精度不一致
对于浮点型的字段列,Pandas 可能有不同的位精度。例如下图中,col_1
精确到小数点后一位,而 col_2
精确到小数点后三位。有时候精度的不一致可能会有信息的差异。
在本篇内容中,ShowMeAI 将介绍如何使用 Pandas 自定义设置来解决诸如上述的问题。主要的设置包括下面内容:
- 自定义要显示的行数
- 自定义要显示的列数
- 自定义列宽
- 使浮点列之间的小数位精度保持一致
- 禁用科学记数法
- 其他用法
注意:以上设置仅更改数据的显示呈现方式,实际并不会影响Dataframe存储的数据。
Pandas自定义显示设置
自定义显示行数
打印大 Dataframe(行列数很多的数据)时,Pandas 默认显示前 5 行和后 5 行,如下图所示。
我们可以通过设置显示选项 display.max_rows
来更改要显示的行数,比如我们将其设置为4。
pd.set_option("diaply.max_row", 4)
df
我们可以使用重置选项 pd.reset_option("display.max_rows")
恢复默认行数显示设置。
自定义显示列数
同样的道理,我们可以通过设置 display.max_columns
自定义输出 Dataframe 时要显示的列数。
pd.set_option("diaply.max_columns", 6)
df
我们甚至可以设置 pd.set_option('display.max_columns',
` `None)
来显示所有列(但是大家需要注意一下内存使用,这个操作可能让 Jupyter Notebook 一下占用特别多资源)。
我们同样可以使用 pd.reset_option("display.max_columns")
重置返回到默认设置。
自定义列宽
在下图中,我们看不到前两行的全文,因为它们的字符太长(长度超过了 50)。
我们把设置 display.max_colwidth
调整到 70,就可以看到全文了,如下图所示。
pd.set_option("diaply.max_colwidth", 70)
df
对这个设置重置的操作依旧是pd.reset_option("display.max_colwidth")
。
设置字段小数位精度一致
前面提到的一个例子中,col_1
和 col_2
的小数位精度不一致:
我们可以通过设置 display.float_format
至 "{:.2f}".format
使格式一致,如下图所示。
该选项只会影响浮点列,而不影响整数列。
pd.set_option("diaply.float_format", "{:.2f}".format)
df
对这个设置重置的操作是 pd.reset_option("display.float_format")
禁用科学计数法
Pandas 默认以科学计数法显示较大的浮点值。
通过设置 display.float_format
至 "{:,.2f}".format
,我们可以为千位添加分隔符。
pd.set_option("diaply.float_format", "{:,.2f}".format)
df
我们甚至可以添加货币符号在数值前面,比如我们把 display.float_format
设置为 "$ {:,.2f}".format
,得到如下结果:
pd.set_option("diaply.float_format", "$ {:,.2f}".format)
df
其他设置
上面列到的是一些最常用的设置,如果我们记不住这些设置名称,或者我们想了解全部可以调整的显示设置,可以怎么办呢?实际上大家可以借助pd.describe_option()
获得所有可用显示设置的列表。
针针对某个特定的显示设置,可以在 pd.describe_option()
中传入想调整的显示设置名称来获取使用细节,例如我们运行pd.describe_option("max_rows")
将打印描述 display.max_rows
使用细节,如下图所示。
pd.describe_option("max_rows")
参考资料
- Pandas 设置选项: https://pandas.pydata.org/docs/user_guide/options.html
- Python 数据分析教程: http://www.showmeai.tech/tutorials/33
- Pandas速查表: http://www.showmeai.tech/article-detail/101
- Pandas 快速实战教程: https://www.bilibili.com/video/BV1M64y187bz