乱七八糟第三天

昨天又明确了一些方向,ML是一定要学的,但感觉kaggle的titanic就足够入门了。爬虫招聘信息的意外找到了代码,学完numpy和pandas记得回去完善一下并移植到实习僧或者智联招聘做成自己的小项目。risk部分随缘吧,只能从信贷评分卡模型什么入手了,毕竟quant部分现在还不是很想涉及。

好啦,先学基础语法,同时听ML的课,再完善kaggle和小分析项目的学习。
下面是python基础学习模块:

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4
output:
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

series把字典直接变成series,空缺数值用NaN表示。
series类似一维数组,由一组数据和相对应的数据标签组成。
DataFrame为表格型数据结构,既有行索引也有列索引,看作series组成的字典。

pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
pop = {'Nevada': {2001: 2.4, 2002: 2.9},

       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame3 = DataFrame(pop)

frame3

    Nevada  Ohio
2000    NaN     1.5
2001    2.4     1.7
2002    2.9     3.6

嵌套字典把外层键作为行索引内层键列索引。
或者:

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
    pop     state   year
0   1.5     Ohio    2000
1   1.7     Ohio    2001
2   3.6     Ohio    2002
3   2.4     Nevada  2001
4   2.9     Nevada  2002

你可能感兴趣的:(乱七八糟第三天)