Python数据分析_Pandas从入门到放弃(二)

Python数据分析_Pandas从入门到放弃(二)

将代码当成人类语言,用片语化(code snippets)的方法记忆,并配合。

以数据科学的角度学习Pandas

说到Python,我们第一反应就是以代码为主的编程语言,对于没有接触代码的数据分析初学者来说可能会感到痛苦,但是恰恰相反,Pandas虽然是以代码的形式进行数据处理,但是拥有数据分析的思维才是更重要的,pandas的代码量并不是很大,况且python这门语言更偏向人类能够读的懂的方式。所以,用新的眼光,数据科学的方法来使用Python来做数据分析吧!

✂️总的来说,pandas就是Python中用来处理数据(json、excel、csv…等数据文件)的模块,它非常强大,并且可以将数据输出以可视化的数据图像、表格(数据帧)等。

所谓数据分析就是:用代码去揉捏数据,对数据做加值、融合。


pandas处理什么数据

探索,清理和处理数据在Pandas中,数据表称为DataFrame.

在pandas中我们常用的处理数据的方式是使用 pandas.DataFrame() 进行表格型数据结构的创建,里面包含”行“(index/row)和”列“(columns),数据可以来源列表,嵌套的字典也可以创建DataFrame。(外层字典的键作为列,内层键作为索引)

对数据科学家来说:

  • 竖着的列column通常放变数variables
  • 横着的行row通常放观察observations

对数据及信息管理人员来说:

  • 表格数据(例如存储在电子表格或数据库中的数据)是很常见的,最主流的数据结构和查询语言是SQL
  • 树状文本数据(例如HTML, XML, JSON数据)是很常见的,HTML/XML最主流的查询语言是xpath

注意标点及缩进

框框 = pd.DataFrame ( {
   
        "变数X": ["观察X1", "观察X2", "观察X3", "观察X4"],
        "变数Y": ["观察Y1", "观察Y2", "观察Y3", "观察Y4"],
        "变数Z": ["观察Z1", "观察Z2", "观察Z3", "观察Z4"],
      } )

记得,像人类语言一样,说的清楚,人就可以读的比较清楚…

  • pd.DataFrame 的主流参数是字典
  • 该字典的键keys是由变数构成,相当於表格中一行行的标题
  • 该字典的值values是由观察的列表构成,相当於表格中一行行的数据
  • 表格真的要是表格, 该字典的每个观察的列表数量必需齐一

*[小贴士] *
在我们上面的创建框框中,每行结尾都加了一个“,”,这个逗号是可有可无的,但是最好是有,为什么呢?

  • 可读性 : 每一行的逗号就代表结束
  • 更容易编辑 : 如果需要对某行数据进行增、删、改,更容易找到和编辑。
  • 养成好习惯,代码不仅是机器运行的,在开源时代,代码更是给人看的,在工作、学习中,养成写好(优美)的代码习惯很重要。

练习代码

  • 1.创建DataFrame简单示例:
框框 = pd.DataFrame ( {
   
        "变数X": ["观察X1", "观察X2", 

你可能感兴趣的:(Python,Python数据分析,python,数据分析,数据挖掘,列表,大数据)