利用TCGAbiolinks下载病理学报告(PDF)和切片图像(SVS)

我们平时使用TCGA的使用,基本都是下载临床特征数据,生存数据,基因表达量,高级一点的还可以去下载体细胞突变,拷贝变异数和DNA甲基化等。如果知道一些算法,还可以去获取MSI(微卫星不稳定性)、肿瘤免疫微环境等等。
但是,TCGA的数据远不止于此,关于肿瘤学研究,尤其是病理学医师,可能更关心的是获得病理学报告和切片图像等信息,其实在HPA数据里我们也是可以看到一些患者的组织学切片的图片,今天我们讲讲如何通过R语言包TCGAbiolinks获取病理学报告和切片图像。

安装和加载包

由于TCGAbiolinks这个包是Bioconductor上的包,如果网络不好的话,建议提前设置镜像。

## 设置清华大学镜像,可以提高下载速度
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
## 安装TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
## 加载TCGAbiolinks包
library(TCGAbiolinks)

获取病理学报告 (PDF格式)

首先进行查询,然后下载,可以一次性查询多个患者,也可以输入患者的编码精准查询

## 首先可以设置一个目标文件夹
setwd("~/Desktop/TCGA/COAD") ## 设置目标文件夹
# 从legacy获取病理报告 
query.legacy <- GDCquery(project = "TCGA-COAD",  ## 肿瘤类型,可以修改
                         data.category = "Clinical", ##数据分类为临床
                         data.type = "Pathology report", ## 数据类型为病理学报告
                         legacy = TRUE, 
                         barcode = c("TCGA-RU-A8FL","TCGA-AA-3972") ##制定患者编号
                         ) 

我们可以看下查询的内容,提示PDF是open状态。

getResults(query.legacy)[, 1:4]
row id data_format access cases
7 a4753077-2bd3-4301-8424-b7575c8ccd66 PDF open TCGA-RU-A8FL
365 b77a41e9-cf0d-4b94-9576-09e91b6d8f61 PDF open TCGA-AA-3972

下载的话,只需要一个GDCdownload()函数即可

GDCdownload(query.legacy)

接着就是等待自动下载,这个根据网络而已,由于pdf的格式较小,下载速度还是比较快的,之后就会在目标文件夹新生成一个GDCdata的文件夹,再往下分别是/TCGA-COAD/legacy/Clinical,这里有两个文件夹,打开后里面就是我们需要的pdf报告了。


image.png

image.png

pdf

获取组织学切片图像(SVS格式)

TCGA的组织学切片图像,包括了组织切片(Tissue slide image)和诊断切片(Diagnostic Slide)两种,数据库有legacy和harmonized 两种类型,结果都是一样的。我们可以通过查询函数进行更多细节的提取,但是由于SVS格式一般都很大,我运行的这个有100M以上,所以下载图像数据也是非常考验网速的,我们可以试着下载一两个数据。。
先建立查询

# 从legacy数据库获取组织学切片图片文件
query.legacy <- GDCquery(project = "TCGA-COAD", 
                         data.category = "Clinical", 
                         data.type = "Tissue slide image",
                         legacy = TRUE,
                         barcode = c("TCGA-RU-A8FL","TCGA-AA-3972")) 

# 从harmonized数据库获取组织学切片图片文件
query.harmonized <- GDCquery(project = "TCGA-OV",
                             data.category = "Biospecimen",
                             data.type = 'Slide Image')

## 从harmonized数据库获取诊断性切片图片
query.harmonized2 <- GDCquery(project = "TCGA-COAD", 
                             data.category = "Biospecimen", 
                             data.type = "Slide Image",
                             experimental.strategy = "Diagnostic Slide",
                             barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))  

之后就是下载数据了,比如我们下载query.harmonized2的SVS图片

GDCdownload(query.harmonized2)

接下来,就是漫长的等待,我这个数据是145.7M,大概用了20分钟才下载完成。


image.png

打开SVS格式的图片需要专门的阅读器,这个搞病理学的应该懂
网上有关于病理学图片的机器学习的文章,如果想从这个方向入手的话,就慢慢下载数据吧。。。。

你可能感兴趣的:(利用TCGAbiolinks下载病理学报告(PDF)和切片图像(SVS))