过去一段时间,很多人会问我:
“现在的工作没有前途,该如何转行?”
“我知道数据时代已经来了,我该如何学习,不让自己落伍?”
“数据分析适用于生活和工作的方方面面,我要怎样提高数据分析能力呢?”
“python虽然都说简单,可我依然不知道如何下手去学?”
“我想学数据分析,可是sql、pandas、numpy、python、spark...内容太多,如何找重点学?”
......
其实大家的问题都比较类似,归纳为一点就是:如何提升自己的编程和数据分析能力?
从今年5月份在知乎发表数据分析原创文章,至今已有1.1万关注者,知乎专栏6千关注者,总阅读达到110万。创立公众号两个月,关注者也突破3千人。
做一个发文的技术博主,获得大家的点赞和收藏,其实是一件非常开心的事情。但我觉得光写文章并不够,应该去接触更多热爱数据热爱技术的人。
这也是我想建立“Python数据分析”知识星球的原因,为大家提供一个提问、交流、分享的环境,也试想着能通过这个方式敦促大家学习python数据分析知识,给想从事数据工作或者准备提升分析能力的伙伴一个明确的方向。
不可否认,建立这个学习社群模式的知识星球,我是有私心的。
一方面,我想尝试将知识和经验转化为工作之外的收入;另外,通过这种模式认识更多的朋友,和大家讨论并提升自己的视野;最后,通过知识的分享,弥补自己的不足,终身学习。
“Python数据分析”知识星球要做什么,以及它有什么规矩:
1、这是一个python数据分析学习圈子,涵盖python编程、机器学习、python爬虫、SQL、Tableau、Spark大数据工具、数据分析求职等内容。希望大家友善交流,认真学习。
2、这里会分享定期数据分析学习资料,以及有用的文章,希望大家不要贪多,需要什么学什么。如果你有好的资源,也可以分享出来。
3、针对初学者以及准备转行的小伙伴,我会发布相关课程,按照课程要求系统性地学习数据分析知识。并且会有打卡和作业,希望你能自觉完成。
4、非常欢迎大家提问,问题包括学习方法心得、编程技术、数据处理、面试求职等。其他无关的问题请不要讨论。
5、新人从入该星球之日算起,有效期为一年,可续入。但社群资格可一直保留。
谈一谈公众号
做公众号这几个月,感谢大家的支持,关注数一直超出我预期的上升。
算了算,一共发了34篇原创文章,归纳如下。
Python数据科学系列:
Python可视化系列:
python爬虫系列:
python技巧系列:
python基础系列:
再谈谈python数据分析
对于新人来说,首要任务是要了解什么是数据分析?
数据分析是一种从数据中获取洞见,并驱动商业决策的知识发现行为。
这里分两点来讲,一是如何从数据中获取洞见?数据往往是冰冷的,不会说话,作为专业的数据分析人员,无疑是要具备非常丰富的业务知识,才能通过数据知道已经发生了什么?即将要发生什么?诸如python、R、excel是实现数据分析挖掘的重要工具,很多初学者往往重视工具,而忽略作为数据分析人员应该要具备的专业素养。
二是如何驱动商业决策?这可能不是普通数据分析师所能决定的层面,但作为优秀的数据分析人员,需要具备敏锐的商业眼光。单纯的数据分析结果是没有任何助益的,将分析结果与真实场景结合,产生有指导性的结论,才是一个数据分析师的价值所在。
我知道,大家很在意怎么去学习数据分析过程,对于python、R、sql、tableau、pandas、sklearn等等充满了疑惑和向往,这也是我当初接触数据分析时候的心态。很多东西要学,该学哪一样?怎么学习?学到什么程度?
下面就要讲到数据分析工具,以及数据分析的流程
分析工具的选择
1、取数
一般企业的数据保存在本地数据库或者公有云里,有的会采用mysql、oracle、mongodb等,有的会采用hbase、parquet等。
我会建议初学者把sql学精,有余力者可以看看hbase、parquet等大数据存储方式。
sql是数据领域最常用的语言,无论是hive、spark、flink都支持sql,以至于机器学习也支持sql,像阿里开源的sqlflow。
sql永不落伍。
2、编程语言
Python和R是数据分析领域的绝代双骄,我觉得这两个都适合作为数据分析的核心语言,但最好选择一个来学。
由于很多咨询我的人问的都是关于python的问题,我自己也是在用python工作,所以这里讲一下用python来做数据分析的利与弊。
python这几年的火爆程度堪称编程界的小鲜肉,虽然它诞生也快30年了,但风头正劲。
作为一门高级编程语言,python除了不善于开发底层应用,几乎可以做任何事情。
拿数据分析来说,从数据库操作、数据IO、数据清洗、数据可视化,到机器学习、批量处理、脚本编写、模型优化、深度学习,python都能完美地完成,而且提供了不同的库供你选择。
除此之外,Jupyter notebook是进行数据分析非常优秀的交互式工具,为初学者提供了方便的实验平台。
3、数据分析库
pandas是一款不断进步的python数据科学库,它的数据结构十分适合做数据处理,并且pandas纳入了大量分析函数方法,以及常用统计学模型、可视化处理。
如果你使用python做数据分析,在数据预处理的过程,几乎九成的工作需要使用pandas完成。
在一些企业招分析师的笔试题中,pandas已经作为必考的工具,所以如果你想要入行数据分析师,请努力学习使用pandas。
numpy是python的数值计算库,包括pandas之类的很多分析库都建立在numpy基础上。
numpy的核心功能包括:
nd
array,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
用于
对整组数据进行快速运算的标准数学函数(无需编写循环)。
用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
线性代数、随机数生成以及傅里叶变换功能。
用于集成由C、C++、Fortran等语言编写的代码的A C
API。
numpy之于数值计算特别重要是因为它可以高效处理大数组的数据。
这是因为:
比起Pytho
n的内置序列,numpy数组使用的内存更少。
numpy可以在整个数组上
执行复杂的计算,而不需要Python的for循环。
matplotlib和seaborn是python主要的可视化工具,建议大家都去学学,数据的展现和数据分析同样重要。
sklearn和keras,sklearn是python机器学库,涵盖了大部分机器学习模型。
keras是深度学习库,它包含高效的数值库Theano和TensorFlow。
数据分析流程
在确定数据分析工具之后,要关注数据分析的过程,也就是说当你拿到一批数据后如何开启数据分析。
总结
十年饮冰,难凉热血。
数据时代,希望我们不仅仅是旁观者。
Python大数据分析
data creat value
长按二维码关注