2019-06-05

试验记录3

1、关于昨天无法识别参考基因组问题,看链接。

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/advanced/references


1)需要gtf文件,但我上传的是gff文件

准备知识:gtf和gff文件的区别以及如何转换详见

https://www.sogou.com/link?url=hedJjaC291OV7dVab-QfvHtdr0qpeLU_q-AJTa7ycw4kT9jfsNhhYQ..

gtf文件的内容格式见下图:


2019-06-05_第1张图片

操作:利用cufflinks中的gffread,写命令


4.0
3.1

分别将这两种基因组gff格式转换为gtf格式。

2019-06-05_第2张图片
标准命令和范例

2)https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/advanced/references#mkgtf(官网链接)

https://www.jianshu.com/p/f14cb44094c9(中文链接)

从ENSEMBL和UCSC等网站下载的GTF文件通常包含需要从最终注释中过滤的转录本和基因。Cell Ranger提供mkgtf,这是一个简单的实用工具,可以根据GTF属性列中的键值对过滤基因。

首先cellranger mkgtf对最初的gtf文件进行过滤。官网中命令形式见下图,通过attribute属性来筛选,其中--attribute=gene_biotype:protein_coding则是筛选出蛋白编码基因对应的记录。

mkgtf标准命令
2019-06-05_第3张图片
mkgtf范例

写命令:

3.1

将Oar 3.1只筛选出蛋白编码基因对应的记录于Ovis_aries.Oar_v3.1.92.chr.filtered.gtf 文件中,用同样的办法对Oar4.0筛选失败,原因报错是gtf格式有问题,猜测可能是因为基因组gff格式来源不同,3.1来源于ENSEMBL,4.0来源于NCBI。

其次cellranger mkref建索引,官网中说到需要基因组文件fasta和经mkgtf过滤的注释文件filtered gtf。而--genome=output_genome则是写着输出的文件名。最基础的命令使用方式见下图:

mkref标准命令

我的命令是:

3.1

跑的过程中界面显示:

2019-06-05_第4张图片
2019-06-05_第5张图片

跑完之后,结果保存至ovis3.1_genome文件夹中。

再用cellrangercount,见实验记录4。

2、Cell Ranger流程概览

重点:指定fastq文件位置要求,见实验记录4

https://mp.weixin.qq.com/s/v2S8obShNRpeTRFQt2PrwQ

3、来自邮件:0121和0122样本使用的是bcl2fastq软件,将basecall files转变成FlowCell中每条lane上每个文库对应的FASTQ文件。

测序平台是Illumina NovaSeq6000,是双端测序,测序读长为150bp。文件名没有体现这些信息。

190201_A00682_0056_BHHNNKDSXX文件夹中是小测的数据,也就是第一次上机的数据,190223_A00262_0238_BHFNVVDSXX和190228_A00679_0057_BHFML2DSXX文件夹中均为大数据量上机的数据,也就是第二次和第三次上机的数据。

由于第二次上机后,数据产出没有达到合同要求的数据量,所以我们安排了加测,也就有了第三次上机。分析的时候将三次数据合并分析的。

你可能感兴趣的:(2019-06-05)