机器学习教程之pandas(一)

在Python中学习机器学习的四个步骤

1、首先你要使用书籍、课程、视频来学习 Python 的基础知识

2、然后你必需掌握不同的模块,比如 Pandas、Numpy、Matplotlib、NLP (自然语言处理),来处理、清理、绘图和理解数据。

3、接着你必需能够从网页抓取数据,无论是通过网站API,还是网页抓取模块Beautiful Soap。通过网页抓取可以收集数据,应用于机器学习算法。

4、最后一步,你必需学习机器学习工具,比如 Scikit-Learn,或者在抓取的数据中执行机器学习算法(ML-algorithm)。

基础知识我就不讲了,大家去看菜鸟教程点击打开链接

那我们现在先来看看pandas,pandas 是什么?

引用百科的 :Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

那么他的数据结构有哪些呢?

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
Time- Series:以时间为索引的Series。
DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
Panel :三维的数组,可以理解为DataFrame的容器。

了解了基本概念之后 ,我们进行pandas的Series的学习:
import pandas as pd
from pandas import Series,DataFrame
import numpy as np
# Series相当于一维数组,如果没有给坐标,他会默认创建0到N-1(N为数据的长度)的索引
obj=Series([4,7,-3,5])
# print(obj.values)     #[ 4  7 -3  5]
# print(obj.index)     #RangeIndex(start=0, stop=4, step=1)

#给Series设置索引,一般来说都会自己设置
obj=Series([1,3,-9,9,2],index=('a','b','c','d','e'))
# print(obj.index)        #Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
# print(obj['a'])         #1
# print(obj[['a','c','d']])
# #输出一个数据集
# a    1
# c   -9
# d    9
# dtype: int64

#居然还有过滤功能

obj=Series([1,3,-9,9,2],index=('a','b','c','d','e'))

print(obj[obj>0])
# a    1
# b    3
# d    9
# e    2
# dtype: int64

print(obj*2)
# a     2
# b     6
# c   -18
# d    18
# e     4
# dtype: int64
# print(np.exp(obj))
# a       2.718282
# b      20.085537
# c       0.000123
# d    8103.083928
# e       7.389056
# dtype: float64
print('a'in obj)  #true
#当然也能用字典进行排序初始化
date={'amiy':18,'hony':10,'bony':12}
obj2=Series(date)
print(obj2)

# amiy    18
# bony    12
# hony    10
# dtype: int64
#再来换着玩
date={'amiy':18,'hony':10,'bony':12}
state={'amiy','bony','cony'}
obj2=Series(date,index=state)
print(obj2)
print(obj2.isnull())
# amiy    18.0
# bony    12.0
# cony     NaN
# dtype: float64
# amiy    False
# bony    False
# cony     True
# dtype: bool
好 ,这章先到这儿,下一节学习DataFrame!

你可能感兴趣的:(机器学习教程之pandas(一))