利用TCGAbiolinks下载病理学报告（PDF）和切片图像（SVS）

我们平时使用TCGA的使用，基本都是下载临床特征数据，生存数据，基因表达量，高级一点的还可以去下载体细胞突变，拷贝变异数和DNA甲基化等。如果知道一些算法，还可以去获取MSI（微卫星不稳定性）、肿瘤免疫微环境等等。
但是，TCGA的数据远不止于此，关于肿瘤学研究，尤其是病理学医师，可能更关心的是获得病理学报告和切片图像等信息，其实在HPA数据里我们也是可以看到一些患者的组织学切片的图片，今天我们讲讲如何通过R语言包TCGAbiolinks获取病理学报告和切片图像。

安装和加载包

由于TCGAbiolinks这个包是Bioconductor上的包，如果网络不好的话，建议提前设置镜像。

## 设置清华大学镜像，可以提高下载速度
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
## 安装TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
## 加载TCGAbiolinks包
library(TCGAbiolinks)

获取病理学报告 (PDF格式)

首先进行查询，然后下载，可以一次性查询多个患者，也可以输入患者的编码精准查询

## 首先可以设置一个目标文件夹
setwd("~/Desktop/TCGA/COAD") ## 设置目标文件夹
# 从legacy获取病理报告 
query.legacy <- GDCquery(project = "TCGA-COAD",  ## 肿瘤类型，可以修改
                         data.category = "Clinical", ##数据分类为临床
                         data.type = "Pathology report", ## 数据类型为病理学报告
                         legacy = TRUE, 
                         barcode = c("TCGA-RU-A8FL","TCGA-AA-3972") ##制定患者编号
                         )

我们可以看下查询的内容，提示PDF是open状态。

getResults(query.legacy)[, 1:4]

row	id	data_format	access	cases
7	a4753077-2bd3-4301-8424-b7575c8ccd66	PDF	open	TCGA-RU-A8FL
365	b77a41e9-cf0d-4b94-9576-09e91b6d8f61	PDF	open	TCGA-AA-3972

下载的话，只需要一个GDCdownload()函数即可

GDCdownload(query.legacy)

接着就是等待自动下载，这个根据网络而已，由于pdf的格式较小，下载速度还是比较快的，之后就会在目标文件夹新生成一个GDCdata的文件夹，再往下分别是/TCGA-COAD/legacy/Clinical，这里有两个文件夹，打开后里面就是我们需要的pdf报告了。

image.png

pdf

获取组织学切片图像（SVS格式）

TCGA的组织学切片图像，包括了组织切片（Tissue slide image）和诊断切片（Diagnostic Slide）两种，数据库有legacy和harmonized 两种类型，结果都是一样的。我们可以通过查询函数进行更多细节的提取，但是由于SVS格式一般都很大，我运行的这个有100M以上，所以下载图像数据也是非常考验网速的，我们可以试着下载一两个数据。。
先建立查询

# 从legacy数据库获取组织学切片图片文件
query.legacy <- GDCquery(project = "TCGA-COAD", 
                         data.category = "Clinical", 
                         data.type = "Tissue slide image",
                         legacy = TRUE,
                         barcode = c("TCGA-RU-A8FL","TCGA-AA-3972")) 

# 从harmonized数据库获取组织学切片图片文件
query.harmonized <- GDCquery(project = "TCGA-OV",
                             data.category = "Biospecimen",
                             data.type = 'Slide Image')

## 从harmonized数据库获取诊断性切片图片
query.harmonized2 <- GDCquery(project = "TCGA-COAD", 
                             data.category = "Biospecimen", 
                             data.type = "Slide Image",
                             experimental.strategy = "Diagnostic Slide",
                             barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))

之后就是下载数据了，比如我们下载query.harmonized2的SVS图片

GDCdownload(query.harmonized2)

接下来，就是漫长的等待，我这个数据是145.7M，大概用了20分钟才下载完成。

image.png

打开SVS格式的图片需要专门的阅读器，这个搞病理学的应该懂
网上有关于病理学图片的机器学习的文章，如果想从这个方向入手的话，就慢慢下载数据吧。。。。

利用TCGAbiolinks下载病理学报告（PDF）和切片图像（SVS）

安装和加载包

获取病理学报告 (PDF格式)

获取组织学切片图像（SVS格式）

你可能感兴趣的:(利用TCGAbiolinks下载病理学报告（PDF）和切片图像（SVS）)