深度学习-场景、数据、模型

参考

《深度学习:基于Keras的Python实践》_魏贞原/《深度学习:基于Keras的Python实践》_魏贞原.pdf

其他

Keras 是 Python 在深度学习领域非常受欢迎 的类库之一,但 Kerns 的侧重点是深度学习 , 而不是所有的机器学习。事实上, Keras 力求极简主义 , 只专注于快速、简单地定 义和构建深度学习模型所需要的内容。 

Python中的 Scikit-Leam是非常受欢迎的机器学习库 , 它基于 SciPy, 用于高效的数值计算。 Scikit-Leam 是一个功能齐全的通用机器学习 库,并提供 了许多在开发深度学习模型 中非常有帮助的方法,例如, Scikit-Leam 提供了很多用于选择模型和对模型调优的方法,这些方法同样适用于深度学习。

深度学习模型的评估

k 折交叉验证

多层感知器实例

Pima Indians 数据集,糖尿病发病情况数据集

二分类问题

多分类问题

莺尾花分类,Scikit-Learn 带有数据集

银行营销分类,Banking Marking 

回归问题

波士顿房价预测

数据是 1978年统计收集的,包含以下 14个特征和 506条数据。

推荐系统

item-user

movielens

 

翻译系统

nmt、平行语料

文本生成

语料:爱丽丝梦游仙境

keras

LSTM、0-1编码、gensim加载词典和映射

自动摘要

语言模型

srilm

主题模型

LDA、LDA4j、sphinx

gensim

困惑度

序列分类

IMDB影评分类

情感分析

IMDB影评情感分析

在这里使用 IMDB 提供的数据集中的评论信息来分析一部电影 的好坏,数据集由IMDB (htψ://www.imdb.com/interfaces/)提供,其中包含了 25000 部电影的评价信息。该数据集是斯坦福大学的研究员整理的 , 在 2011 年的论文中 , 采用该数据集的 50%用于训练, 50%用于评估算法模型,达到 88.89%的准确度。

手写数字识别

卷积神经网络、MNIST

图像识别

CIFAR-10分类

这个数据集由 Alex Krizhevsky、 Vinod Nair和 Geo世ey Hinton 收集整理 , 共包含了60000张32x32的彩色图像, 50000张用于训练模型、 10000张用于评估模型。 可以从其 主页 (http://www.cs.toronto.edu/~kriz/cifar.html ) 下载。 训l陈数据集被均匀地分成 10个类别, 每个类别刚好包含5000张图片。 

多层感知器的时间序列预测

国际旅行人数预测

这里使用一个经典的数据集一一 国际旅行旅客人数数据集,来研究分析序列问题 。这个数据集包含从 1949 年 1 月到 1960 年 12 月,共 12 年 144 条记录,数据集中的人数 以千人为单位 。 可以免费从 DataMarket 上下载这个数据集,在这里选择下载 csv 格式 的文件,下载地址是 http://data.is/1bKs2mG。

LSTM

多变量时间序列预测

PM2.5

本章将通过空气污染预测来说明如何实现多变量时间序列的预测问题。这个数据集 是美国驻华( 北京)大使馆五年内报告的天气和污染水平。 数据集中包含日期、 PM2.5污染物浓度,以及天气信息,包括露点(露点温度)、温度、压力、风向、风速、累计的 降雪小时数和累计的降水小时数 。 数据集中的数据包括从 2010 年 l 月 1 号到 2014 年 12月 31 号的数据。数据集可以到 UCI机器学习仓库网站下载( http://archive.ics.uci.edu/ml/datasets/Beijing+PM2.5+Data )。

 

你可能感兴趣的:(笔记)