基础知识
list列表[]
常用知识:del list[1] 删除第二个数; list[1] = value,更改第二个数的值
list内置函数
1 | cmp(list1, list2) 比较两个列表的元素 |
2 | len(list) 列表元素个数 |
3 | max(list) 返回列表元素最大值 |
4 | min(list) 返回列表元素最小值 |
5 | list(seq) 将元组转换为列表 |
序号 | 方法 |
---|---|
1 | list.append(obj) 在列表末尾添加新的对象 |
2 | list.count(obj) 统计某个元素在列表中出现的次数 |
3 | list.extend(seq) 在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表) |
4 | list.index(obj) 从列表中找出某个值第一个匹配项的索引位置 |
5 | list.insert(index, obj) 将对象插入列表 |
6 | list.pop(obj=list[-1]) 移除列表中的一个元素(默认最后一个元素),并且返回该元素的值 |
7 | list.remove(obj) 移除列表中某个值的第一个匹配项 |
8 | list.reverse() 反向列表中元素 |
9 | list.sort([func]) 对原列表进行排序 |
元组(),与列表相似,内容不可修改
dictionary字典{}包含{index:value,index1:value}
array有点像list,但只能存储同一种数据,占用内存少,同时长这样L([[1,2,3],[1,2,3],[1,2,3],[1,2,3],[1,2,3]])类似list外面加了一个()查看一个数为L[1][1]第二行第二列
L = np.array([1,2,3,4,5,6])可以通过A=L.reshape((2.,3))将A变为2行3列的矩阵,其本身不变。
L[1,3]第二行第四列,和
导入文件
data = pd.read_csv('文件名')不能含有中文
data = pd.read_excel('文件名')
创建DataFrame数据
data = pd.DataFrame(np.random.randn(3,4))
数据的选择
1.数据抓取
DataFrame行的选取不能通过index来选取,只能通过切片或是布尔值,而列可以。要想像数组一样选取行列,要使用.ix,如:data.ix[['a','b'],['one','two']]
一下操作都不是必须的
有 at loc iloc(同操作array一般) iat前两项只能通过输入index和column来选取,后两项方便的多。除这些外还有直接如真般的df[1:2]不过只能操作行,且不1能是单行。
如:df.loc[df[0],'columns1'
1
2
3
4
5
|
df.iloc[
3
]
#选取第3行
df.iloc[
2
:
4
]
#选取第2到第3行
df.iloc[
0
,
1
]
#选取第0行1列的元素
dat.iloc[:
2
, :
3
]
#选取第0行到第1行,第0列到第2列区域内的元素
df1.iloc[[
1
,
3
,
5
],[
1
,
3
]]
#选取第1,3,5行,第1,3列区域内的元素
提取某个数字df.iloc[1,2]
提取某个数字时,使用df.iat[1,2]更好
|
2.数据筛选
数据的导出
dataframe可以使用to_csv方法方便地导出到csv文件中,如果数据中含有中文,一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常,index指定为False表示不用导出dataframe的index数据。
1
|
df.to_csv(file_path, encoding
=
'utf-8'
, index
=
False
)
|