deep learning with pytorch——8

张量是PyTorch中数据的构建块。神经网络以张量作为输入,产生张量作为输出。事实上,神经网络内部和优化过程中的所有操作都是张量之间的操作,而神经网络中的所有参数(如权重和偏差)都是张量。掌握如何对张量执行操作并有效地索引它们是成功使用PyTorch等工具的关键。
表格数据:
在机器学习工作中遇到的最简单的数据形式是放在电子表格、CSV(逗号分隔值)文件或数据库中。无论介质是什么,这个数据都是一个表,每个样本(或记录)包含一行,其中的列包含一条关于样本的信息。即表格数据
假设样本在表中的出现顺序没有意义。这样的表是独立样本的集合,与时间序列不同,在时间序列中,样本由时间维度关联。
处理葡萄酒数据:
葡萄酒质量数据集是一个免费提供的表格,包含了凡尔多葡萄酒(一种来自葡萄牙北部)加上感官质量分数。您可以在https://archive.ics.uci.edu/ml/machine-learning-databases/winequality/winequality-white.csv上下载白葡萄酒的数据集。我们在在data/p1ch4/tabular win下使用PyTorch Git存储库进行深入学习
该文件包含一个逗号分隔的值集合,这些值组织在12列中,前面是包含列名的标题行。前11列包含化学变量值;最后一列包含从0(最差)到10(最佳)的感官质量分数。以下是列名在数据集中的显示顺序:
deep learning with pytorch——8_第1张图片
如图3.1所示,您希望找到数据中的一个列与quality列之间的关系。在这里,你会看到随着硫的减少,质量会提高
deep learning with pytorch——8_第2张图片
Python提供了几个快速加载CSV文件的选项。三种流行的选择是:
在这里插入图片描述
第三个选项是最节省时间和内存的,但是我们将避免在您的学习轨迹中引入额外的库,而仅仅是为了加载文件。因为我们已经介绍了NumPy,而PyTorch具有出色的NumPy互操作性,所以您可以使用它。加载文件并将生成的NumPy数组转换为PyTorch张量,如下所示。

deep learning with pytorch——8_第3张图片
您指定了2D数组的类型(32位浮点)和用于分隔每行中的值的分隔符,并声明不应读取第一行,因为它包含列名。下一步,检查所有数据是否已被读取,

deep learning with pytorch——8_第4张图片然后继续将NumPy数组转换为PyTorch张量:
deep learning with pytorch——8_第5张图片

你可能感兴趣的:(基础知识)