python demo是什么意思啊_python 数据挖掘 demo1

aliyun_data_analysis_demo1.ipynb

111.7K ·

百度网盘

aliyun_data_analysis_demo11.ipynb

404.6K ·

百度网盘

titanic_data.csv

60.3K ·

百度网盘

背景信息:

本系列只为自己业余学习记录用,兴趣所致,方便自己查找,简单整理所成,主要是代码测试与踩坑,出坑记录,需要有代码开发基础【python】,计算机基础【主要是excel】,本人财务专业,后转数据分析,有统计基础,本系列不做科普【如需要自己搜索,解答】,,学习资源在阿里云,天池AI学习​tianchi.aliyun.com

有视频,数据集,源码等【就是天池的notebook 经常要排队,我是通过自己下载数据集,用annoconda 里面的jupyter notebook替代的。略有不同,不过无碍】,还有一些其他渠道学习到的零零碎碎的 知识点,可能有些乱,学到哪写道哪,望谅解。

源码在附件,不喜欢图文的,可以直接上代码.

利用好 Anaconda3 和 jupyter notebook 可以方便的利用魔术命令[类似shell 常用的一些命令 在附录里面 ] 可以方便的解决大部分麻烦的安装 环境等问题.

定义问题[问对问题很关键],准备/理解数据,评估算法,优化模型,最后完成运用再实际中,会直接再代码上同步进行

常用的魔术命令 [# 在jupyter notebook 内是注释符合]

# %pip list

# %lsmagic #打印当前可以用的魔法命令,当我们想使用一个魔法命令,而不知怎么拼写函数名时,可以使用%lsmagic来查询;

#魔法命令+?显示魔法命令的说明 Docstring

# %timeit %%timeit #为代码执行计时

# %%writefile #后面紧接着一个file_name.py,表示在jupyter notebook里面创建一个py文件,后面cell里面的内容为py文件内容

# %run #后面紧接着一个相对地址的file_name.py,表示运行一个py文件

# %pwd #和linux一样,查找当前目录

# %ls# 查看当前目录下的文件

# %cd ~ 回主目录。。

# %cd #更改当前目录

# %cp #复制文件

# %whos #查看当前变量,类型,信息

# %reset #清除变量

# %del #清除某一个变量

# %load #加载一个文件里面的内容

# %matplotlib inline #使用matplotlib画图时,图片嵌入在jupyter notebook里面,不以单独窗口显示

用以下案例代码 验证一下 jupyter 是不是正常运行.,复制过去也行,最好自己手过一遍,验证完删掉就好了.

# %head ./titanic_data.csv # jupyter 不支持这个命令,暂时不去深究,用另外的方式,解决,麻烦一点点.

# %lsmagic 里面没有head 命令。。

方法一:

方法二:

我更喜欢 方法一[其实没什么区别,看自己喜欢就好了],更像excel表格模式,比较熟悉.

测试数据也同步进行分析.

先查看数据的缺失情况,分布情况,:

测试数据也同步进行分析.

简单的填充处理.

用 0 -99 等特殊值填充,也可用数据的前一个 或者 后一个数据填充, 用统计值填充, 均值,中位数等等.

数据缺失太严重了,建议删除,不然会影响最终的模型效果,速度还慢.

也可以把修改好的数据,直接生效再源文件,这个可以自己尝试.

其中细微的差别,可以自己体验以下:不小心还是比较容易中招的.

train.fillna?# 忘记一些方法了,可以用这样的格式 来找文档。不用跳出另外的地方搜索。

用sklearn 库 处理数据.

填充一个特殊的值,方便后续画图观察.

第一个图 太密集 不好观察,变换以下分布 换成第二个图就直观很多了.

np.max(move_data)#求最大值 等等.

再查看数据类型与分布,了解数据整体情况.

最好每个列得数据都观察一遍,熟悉数据,最好能理解其中得业务逻辑, 重点是你想解决得问题得哪个逻辑,先理顺,方便后续解决问题,能找到核心得影响因子就更好了.

年龄的分布 直接用数值不太好观察,最好换成 图表.

通常 训练数据于测试数据的分布尽量一致. 公司的电脑没有,回去找找.

性别的分布.

# 是否存活的分布.

除了看单个分布,也可以看组合的分布情况,了解两两之间的相关关系. 以下两个关系不是很明显,还需要另外找,以及尝试另外的方法.

你可能感兴趣的:(python,demo是什么意思啊)