1、首先你要使用书籍、课程、视频来学习 Python 的基础知识
2、然后你必需掌握不同的模块,比如 Pandas、Numpy、Matplotlib、NLP (自然语言处理),来处理、清理、绘图和理解数据。
3、接着你必需能够从网页抓取数据,无论是通过网站API,还是网页抓取模块Beautiful Soap。通过网页抓取可以收集数据,应用于机器学习算法。
4、最后一步,你必需学习机器学习工具,比如 Scikit-Learn,或者在抓取的数据中执行机器学习算法(ML-algorithm)。
基础知识我就不讲了,大家去看菜鸟教程点击打开链接
那我们现在先来看看pandas,pandas 是什么?
引用百科的 :Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
那么他的数据结构有哪些呢?
import pandas as pd from pandas import Series,DataFrame import numpy as np # Series相当于一维数组,如果没有给坐标,他会默认创建0到N-1(N为数据的长度)的索引 obj=Series([4,7,-3,5]) # print(obj.values) #[ 4 7 -3 5] # print(obj.index) #RangeIndex(start=0, stop=4, step=1) #给Series设置索引,一般来说都会自己设置 obj=Series([1,3,-9,9,2],index=('a','b','c','d','e')) # print(obj.index) #Index(['a', 'b', 'c', 'd', 'e'], dtype='object') # print(obj['a']) #1 # print(obj[['a','c','d']]) # #输出一个数据集 # a 1 # c -9 # d 9 # dtype: int64 #居然还有过滤功能 obj=Series([1,3,-9,9,2],index=('a','b','c','d','e')) print(obj[obj>0]) # a 1 # b 3 # d 9 # e 2 # dtype: int64 print(obj*2) # a 2 # b 6 # c -18 # d 18 # e 4 # dtype: int64 # print(np.exp(obj)) # a 2.718282 # b 20.085537 # c 0.000123 # d 8103.083928 # e 7.389056 # dtype: float64 print('a'in obj) #true #当然也能用字典进行排序初始化 date={'amiy':18,'hony':10,'bony':12} obj2=Series(date) print(obj2) # amiy 18 # bony 12 # hony 10 # dtype: int64 #再来换着玩 date={'amiy':18,'hony':10,'bony':12} state={'amiy','bony','cony'} obj2=Series(date,index=state) print(obj2) print(obj2.isnull()) # amiy 18.0 # bony 12.0 # cony NaN # dtype: float64 # amiy False # bony False # cony True # dtype: bool好 ,这章先到这儿,下一节学习DataFrame!