有没有一些让你相见恨晚的Python库?

640?wx_fmt=jpeg


作者 | Roc

来源 | 数据札记倌(ID:Data_Groom)

欢迎客官光临,这里主要给大家介绍一下pandas-profiling库,一行代码,生成超详细的数据分析报告,数据分析师的福音。

主菜之前先送两个小菜给大家~

1、爬虫的吸星大法,下面几句的搭配应用应该可以下载万物了

import re

import ele

import requests

import bs4

2、Tqdm堪称python的监视器

Tqdm 是 Python 进度条库,堪称贴心小棉袄,时刻告诉你任务进度,监控运行状态,强迫症患者最爱。

有没有一些让你相见恨晚的Python库?_第1张图片

好嘞~小菜已经准备完毕,接下来介绍一下今天的主菜,干净整洁,应该算是分析全席的清炒时蔬了。

3、pandas-profiling,一行代码生成超详细数据分析报告,实乃我等数据分析从业者的福音哈哈~

「特别感谢知乎高楠的分享」


一般来说,面对一个数据集,我们需要做一些探索性分析 (Exploratory data analysis),这个过程繁琐而冗杂,每个数据分析师肯定有自己常用的一些配料,这里介绍一个非常简单有趣的方法。为了防止这个菜与楠姐炒出来完全一致,换一个最近建模数据集为例


我们传统方法是先用Dataframe.describe():

有没有一些让你相见恨晚的Python库?_第2张图片

通过这种方法,我们只能大致判断各个变量的分布以及target的情况,但是无法获取更详细的信息,如果我们需要进一步探索数据,查看变量相关性等,我们就可以利用pandas-profiling来填饱肚子啦


然后一键储存为html格式,非常方便:

import pandas_profiling  	
data.profile_report(title='Model Dataset')	

	
profile = data.profile_report(title='Model Dataset')	
profile.to_file(output_file='model_report.html')

具体生成的报告如下:

有没有一些让你相见恨晚的Python库?_第3张图片

有没有一些让你相见恨晚的Python库?_第4张图片

最后,虽然pandas-profiling这个库并非完全智能,但是一份基础的数据报告,可以为我们节省大量时间(少敲代码),数据分析师们赶紧用起来吧~

另外在知乎有非常多有趣的python库的讨论,有兴趣的可以去看看,阅读原文进行传送

(*本文为 Python大本营转载文章,转载请联系作者)

精彩推荐


由易观携手CSDN联合主办的第三届易观算法大赛正在火热进行中!冠军奖3万元,每团队不超过5人参赛。

本次比赛主要预测访问平台的相关事件的PV,UV流量(包括Web端,移动端等),大赛将会提供相应事件的流量数据,以及对应时间段内的所有事件明细表和用户属性表等数据,进行模型训练,并用训练好的模型预测规定日期范围内的事件流量。

640?wx_fmt=jpeg

推荐阅读
  • 5大必知的图算法,附Python代码实现

  • 吐血整理!140种Python标准库、第三方库和外部工具都有了

  • 如何用爬虫技术帮助孩子秒到心仪的幼儿园(基础篇)

  • Python传奇:30年崛起之路
  • 2019年最新华为、BAT、美团、头条、滴滴面试题目及答案汇总

  • 阿里巴巴杨群:高并发场景下Python的性能挑战

640?wx_fmt=png
你点的每个“在看”,我都认真当成了喜欢

你可能感兴趣的:(有没有一些让你相见恨晚的Python库?)