aliyun_data_analysis_demo1.ipynb
111.7K ·
百度网盘
aliyun_data_analysis_demo11.ipynb
404.6K ·
百度网盘
titanic_data.csv
60.3K ·
百度网盘
背景信息:
本系列只为自己业余学习记录用,兴趣所致,方便自己查找,简单整理所成,主要是代码测试与踩坑,出坑记录,需要有代码开发基础【python】,计算机基础【主要是excel】,本人财务专业,后转数据分析,有统计基础,本系列不做科普【如需要自己搜索,解答】,,学习资源在阿里云,天池AI学习tianchi.aliyun.com
有视频,数据集,源码等【就是天池的notebook 经常要排队,我是通过自己下载数据集,用annoconda 里面的jupyter notebook替代的。略有不同,不过无碍】,还有一些其他渠道学习到的零零碎碎的 知识点,可能有些乱,学到哪写道哪,望谅解。
源码在附件,不喜欢图文的,可以直接上代码.
利用好 Anaconda3 和 jupyter notebook 可以方便的利用魔术命令[类似shell 常用的一些命令 在附录里面 ] 可以方便的解决大部分麻烦的安装 环境等问题.
定义问题[问对问题很关键],准备/理解数据,评估算法,优化模型,最后完成运用再实际中,会直接再代码上同步进行
常用的魔术命令 [# 在jupyter notebook 内是注释符合]
# %pip list
# %lsmagic #打印当前可以用的魔法命令,当我们想使用一个魔法命令,而不知怎么拼写函数名时,可以使用%lsmagic来查询;
#魔法命令+?显示魔法命令的说明 Docstring
# %timeit %%timeit #为代码执行计时
# %%writefile #后面紧接着一个file_name.py,表示在jupyter notebook里面创建一个py文件,后面cell里面的内容为py文件内容
# %run #后面紧接着一个相对地址的file_name.py,表示运行一个py文件
# %pwd #和linux一样,查找当前目录
# %ls# 查看当前目录下的文件
# %cd ~ 回主目录。。
# %cd #更改当前目录
# %cp #复制文件
# %whos #查看当前变量,类型,信息
# %reset #清除变量
# %del #清除某一个变量
# %load #加载一个文件里面的内容
# %matplotlib inline #使用matplotlib画图时,图片嵌入在jupyter notebook里面,不以单独窗口显示
用以下案例代码 验证一下 jupyter 是不是正常运行.,复制过去也行,最好自己手过一遍,验证完删掉就好了.
# %head ./titanic_data.csv # jupyter 不支持这个命令,暂时不去深究,用另外的方式,解决,麻烦一点点.
# %lsmagic 里面没有head 命令。。
方法一:
方法二:
我更喜欢 方法一[其实没什么区别,看自己喜欢就好了],更像excel表格模式,比较熟悉.
测试数据也同步进行分析.
先查看数据的缺失情况,分布情况,:
测试数据也同步进行分析.
简单的填充处理.
用 0 -99 等特殊值填充,也可用数据的前一个 或者 后一个数据填充, 用统计值填充, 均值,中位数等等.
数据缺失太严重了,建议删除,不然会影响最终的模型效果,速度还慢.
也可以把修改好的数据,直接生效再源文件,这个可以自己尝试.
其中细微的差别,可以自己体验以下:不小心还是比较容易中招的.
train.fillna?# 忘记一些方法了,可以用这样的格式 来找文档。不用跳出另外的地方搜索。
用sklearn 库 处理数据.
填充一个特殊的值,方便后续画图观察.
第一个图 太密集 不好观察,变换以下分布 换成第二个图就直观很多了.
np.max(move_data)#求最大值 等等.
再查看数据类型与分布,了解数据整体情况.
最好每个列得数据都观察一遍,熟悉数据,最好能理解其中得业务逻辑, 重点是你想解决得问题得哪个逻辑,先理顺,方便后续解决问题,能找到核心得影响因子就更好了.
年龄的分布 直接用数值不太好观察,最好换成 图表.
通常 训练数据于测试数据的分布尽量一致. 公司的电脑没有,回去找找.
性别的分布.
# 是否存活的分布.
除了看单个分布,也可以看组合的分布情况,了解两两之间的相关关系. 以下两个关系不是很明显,还需要另外找,以及尝试另外的方法.