Python数据挖掘学习02--numpy和pandas模块基本使用

一、numpy模块

导入numpy模块并命名为npy

>>> import numpy as npy

1、创建数组

(1)一维数组
>>> x = npy.array(['22','18','15','4'])
>>> x
array(['22', '18', '15', '4'],dtype=')
>>>
(2)二维数组
>>> y = npy.array([['aa','bb','cc'],['12','14'],['adasd']])
>>> y
array([list(['aa', 'bb', 'cc']), list(['12', '14']), list(['adasd'])], dtype=object)
>>> 

2、数组排序

>>> a = npy.array([15,22,17,6])
>>> a
array([15, 22, 17,  6])
>>> a.sort()
>>> a
array([ 6, 15, 17, 22])
>>> 

3、取最大值最小值

>>> a = npy.array([15,22,17,6])
>>> a
array([15, 22, 17,  6])
>>> a.min()
6
>>> a.max()
22

注意:两种情况会取不出最大值最小值的情况
1、数组中有不为数字的项

>>> a = npy.array([['15','22','17','6'],['12','23']]) #不为数字
>>> a.min()
['12','23']  #就会出现找不出最小数的情况

2、数组同一维度中长度不同也会报错

>>> a = npy.array([[15,22],[7,6,7]]) 
>>> a.min()
[15,22]

4、切片

a[0:2]相当于取a数组中下表为0到2但不包含2下标的数组,也就是说是取a[0],a[1]

>>> a = npy.array([2,3,4,5,1,2,3])
>>> a
array([2, 3, 4, 5, 1, 2, 3])

>>> a[0:2]   #取0~2的数组但不包含2
array([2, 3])

>>> a[:-1]  #取到最后一位,但不包含最后一位
array([2, 3, 4, 5, 1, 2])

>>> a[1:]  #下标为1后的所有数,包含第一一位
array([3, 4, 5, 1, 2, 3])

>>> a[:]  #取所有数
array([2, 3, 4, 5, 1, 2, 3])

二、pandas模块

导入pandas模块并命名为pda

>>> import pandas as pda

1、Series:序列

>>> a = pda.Series([1,2,3,4,5])
>>> a
0    1
1    2
2    3
3    4
4    5
dtype: int64

1、Series:序列

>>> a = pda.Series([1,2,3,4,5])
>>> a
0    1
1    2
2    3
3    4
4    5
dtype: int64

2、DataFrame:数据框,有行有列

>>> c = pda.DataFrame([[1,2,3],[2,3,4],[3,2,5]])
>>> c
   0  1  2
0  1  2  3
1  2  3  4
2  3  2  5
(1)取头部或尾部几行
#取头部,默认5行
>>> c.head()
   0  1  2
0  1  2  3
1  2  3  4
2  3  2  5

#取头部2行
>>> c.head(2)
   0  1  2
0  1  2  3
1  2  3  4

#取尾部,默认5行
>>> c.tail()
   0  1  2
0  1  2  3
1  2  3  4
2  3  2  5

#取尾部2行
>>> c.tail(2)
   0  1  2
1  2  3  4
2  3  2  5
(2)描述
>>> c.describe()
         0         1    2
count  3.0  3.000000  3.0
mean   2.0  2.333333  4.0
std    1.0  0.577350  1.0
min    1.0  2.000000  3.0
25%    1.5  2.000000  3.5
50%    2.0  2.000000  4.0
75%    2.5  2.500000  4.5
max    3.0  3.000000  5.0

count:每一列的个数
mean:每一列的平均数

(3)反转
>>> c
   0  1  2
0  1  2  3
1  2  3  4
2  3  2  5

>>> c.T
   0  1  2
0  1  2  3
1  2  3  2
2  3  4  5

你可能感兴趣的:(Python,Python数据挖掘)