认识HDF5文件格式及R中.h5 文件读取

1 什么是HDF5文件?

官方介绍链接:HDF5
通俗地来说,HDF5HDF5 是一种灵活的文件储存格式,可以存储不同类型的图像和数码数据,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。
三代测序下机的原始数据不再是fastq格式了,而是换成了hdf5 格式.

HDF5格式

HDF5 文件一般以 .h5 或者 .hdf5 作为后缀名,需要专门的软件才能打开预览文件的内容。HDF5 文件结构中有 2 primary objects: Groups 和 Datasets。

(1)Groups 和 Datasets

dataset 代表数据集,一个文件当中可以存放不同种类的数据集,这些数据集如何管理,就用到了group最直观的理解,可以参考我们的文件管理系统,不同的文件位于不同的目录下。目录就是hdf5中的group, 描述了数据集dataset的分类信息,通过group 有效的将多种dataset 进行管理和区分;文件就是hdf5中dataset, 表示的是具体的数据。

group and dataset
(2)Dataset 组成

每个 dataset 可以分成两部分: 原始数据 (raw) data values 和 元数据 metadata (存储数据集对应的属性信息的集合)。


Dataset 组成

2 R中.h5 文件读取(10Xgenomics测序数据)

需要安装包 hdf5r

BiocManager::install("hdf5r")    #安装包
library(hdf5r)
library(Seurat) 
data_sample <- Read10X_h5("Women/GSE118127_RAW/GSM3319032_sample_1-1_filtered_gene_bc_matrices_h5.h5")  #导入数据
data_seurat <- CreateSeuratObject(data_sample,project = "data_sample") #后面就可以单细胞处理的标准流程啦

人生苦短,一起学习叭。

参考

https://www.cnblogs.com/xudongliang/p/6907733.html
https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html#Get_data

你可能感兴趣的:(认识HDF5文件格式及R中.h5 文件读取)