1128 转录组分析 B站up主天马行空的坦克兵 (讲解清晰易懂)

1128 转录组分析 B站up主天马行空的坦克兵 (讲解清晰易懂)


09  删除conda下的某一款软件 删除名为rnaseq1环境下的比对软件STAR:remove -n rnaseq STAR          Ctrl+C停止运行程序  (删前删后注意查看,查看有两种,去所属环境删除与直接指定环境用命令删除)

删除名为rnaseq1环境下所有软件: remove -n rnaseq --all

 

10  安装mamba - conda的左右手

conda网站上搜索mamba,第一条(下载量最多)匹配出来的mamba,点进去,根据命令安装。

mamba是所有环境都可能会用到的软件,并且对整体环境无干扰,所以安装在base环境。

由于mamba基于conda而产生的,所以使用时必须是在conda激活的环境下。

mamba安装其他软件报错命令不能打开下载文件,没有这个文件夹或者路径Couldnt open fiel for download ...(可能是版本不匹配,直接粘贴Github反馈网址,进入看看Mamba软件更新情况,小姐姐安装了0.9.1版本(降了版本型号,结果还是不行))


11mamba安装软件报错&conda 安装软件却不报错(中)

为什么我的which STAR,不显示STAR软件的所在路径呢?但我的STAR --help能够找到.(注意软件名大小写的区别,在安装时,大小写仿佛没有区别但是在搜索查询时,大小写要注意区分。)

安装时可以用bioconda.org官网查询匹配。


11mamba安装软件报错&conda 安装软件却不报错(下)

作者尝试,退出rnaseq环境,进入base环境,新建一个环境,将mamba安装在新环境下。激活新环境(换环境尝试,报错依旧

删除环境时,必须注意要退出该环境,再进行删

mamba安装再base环境下,先退出base,再remove -n base mamba(删除名为base环境的mamba软件)

再次尝试(无效):解压mamba文件 tar zxvf mamba.gz ./ (无效),拷贝cp app ~/miniconda3 -r; 移动当前文件夹所有文件到上一级文件夹下 mv ./* ../ -r (有空的文件夹,不能拷贝)

 

11 mamba安装软件成功案例(最终)---结果作者还是报错了 ,报错命令conda has prepared the above report

 

12conda或者mamba安装软件经典报错 HTP000 CONECTION FAILED,HTTP error(经典网络不行的报错)

 

13conda安装软件报错 An unexpected error has occured, conda has prepared the above report. 可能安装的软件与python版本不匹配,最好改变安装软件的版本,因为python包(Python包是基础配置包)一变,可能会导致其他版本不能用。中等新建新环境,安装匹配的python版本(麻烦,得反复调用),最次直接在原环境直接更改python版本。

查看版本conda list或  软件名 -V。

 

[if !supportLists]14. [endif]conda 安装的两个软件是“欢喜冤家”不能共存,其实就是版本没找对(更新或者降低版本)(版本号要相互对应,要先安装一个包,再按另一个包,才能使用

那怎么找是否兼容(依存)呢,怎么安装呢

怎么找对版本:去官网查看有无depend(依存)关系;此外可以运用mamba repoquery denpends 包名 命令去查询依赖关系(谁依赖mamba) mamba repoquery whoneeds python(谁需要某某软件)

怎么安装:---技能三:利用conda安装最新版本mira和mitbom (参考博主此个视频,能够解决不兼容问题。)


15借助conda软件安装报错,出现GLIBCXX_3.4.22 not found问题(安装上了,为啥查找不到)---软件库新建链接就行(见up主,fastp软件系列2与3,解决这个问题)

(命名安装不了,弹不出帮助文档)-----(可能是软件名大小写问题),想要弄清大小写,去万能的官网搜 anaconda.org/search(但是注意官网与服务器大小写不统一,如star,官网小写,但是在服务器是大写的;此外注意服务器中每个字母,每个空格都有特定的意义,不能大意

小思考:(可以考虑做一款推荐版的视频,每个软件应该安装什么版本,安装的顺序----这种效果应该会非常不错--自己会了之后做这个---up主在第16节就进行了推荐,安装的话可以借鉴他们实验室的流程)


16转录组分析—总结自己Linux上常用的转录组版本软件

安装的时候,名称用trim-galore,查询的时候,软件名称是用trim_galore

可以强烈借鉴作者的各种软件版本。那样不会存在版本问题。



17批量下载ebi中的fastaq/SRA数据

准备数据:GSE155902(自身必须根据作者的路程演示一遍***,跟着up主做一遍,可以思考不断的做PPT进行输出)

(选择原因:该组数据分组明确,样本量较少,便与演示,文章中清晰展示过程,并给出了原始数据----可以自己演示进行比较)

挂在后台下载NCBI中的数据

nohupwget -c 链接 &()368302是其名称

下载位置:批量下载的话可能下载在家目录下的NCBI处

Kill 368302(结束进程)

取消下载则先删除文件rm SRR12415656 ,接着取消后台下载rm nohup.out

Sra的格式需要用个软件转换成FASTAQ格式,不如利用EBI网站搜索转换,直接下载FASTAQ格式

批量下载(基于文件命名有顺序,所以利用for循环指定范围进行批量下载)】

for循环展示:for i in {1..100}  (展示1-100,并用空格隔开)

> do echo -ne “$i ”(-ne数字与数字之间以空格隔开)

> done


批量下载命令:

如for i in 52 53 54 55 56 57 58 59 60 61 62 63  ; do

>{

> nohup wget -c ftp: //ftp.sra.ebi.ac.uk/voll/fastq/SRR124/0${i}/SRR124156${I}/SRR124156${i}_1.fa stq.gz &

>}

>done


Ctrl+P键可以显示之前输入的命令,Ctrl+N键可以显示下一个常用命令; tail -f nohup .out(可以查看下载进度)



18 解读转录组测序下机数据&fastaq文件,到手的下机数据、利用linux查看fasta文件

一查看什么(测序信息)

查看每个下载数据内部内容,每一行代表什么

zless SRR12415652_1. fasta.gz |head -n 8(只查看该数据集的前8行,up主打算精心讲解其组成)

ATCG表示通过红黄蓝绿荧光进行修饰的,N代表没有读出荧光颜色,不知道碱基组成。

zless SRR12415652_1. fasta.g 不用管道部分(想看多少看多少)

数据集的内容组成由4行4行的循环格式组成,每一个4行代表

4行中第一行代表的是测序信息(啥样本(样本名称)啥仪器啥泳道啥流动池啥line啥tiel,啥X/Y,最末尾的1代表第一个reads)

行中第二行代表的是碱基顺序(如果含N太多的话,需要质控修建掉吧)

第三行代表的是+号(一般没有内容,有内容也基本与第一行一样,但是+号必须保留)

第四行代表(第二行每一个碱基的质量值,代表相对应碱基的ASC码)ASC码有phred33与phred64码,目前主要是用phred33,反映碱基质量。

 

19 解读转录组测序下机数据&fastaq文件(同18)


20转录组分析——怎么才能知道下载的fastq文件是否完整--md5sum(校验码)文件轻松搞定

用md5sum *gz >md5.txt(将当前位置所有md5sum *gz文件写入md5.txt文件,目录下会多一个md5.txt文件,可以用md5查看文件完整性)---- cat md5.txt(可以比对公司的或者网站数据库提供的,确认数据是否被改动或者有缺失)  md5sum -c md5.txt(可以用于反馈下载数据是否完整



21转录组分析  ---对GSE155902批量fastQC质控

检查完数据完整性之后,进行质控,质控利用fastQC软件,一般都是批量进行质控

查看当前文件夹下有多少格文件ls |wc -l

[if !supportLists]一、[endif]先展示单个进行质控

激活安装软件的小环境conda activate fastQC

接着开始质控fastqc -t 2 SRR12415652_1.fastq.gz(-t 2代表的是两个线程,跑的可能稍微慢些)

ls质控之后,会生成一个SRR12415652_1.fastq.html(网页),可以下载该网页进行查看,每次质控,都会生成一个zip

二、批量质控

用通配符ls *gz |xargs fastqc -t 5

避免一个一个点开相应的html进行查看(上百个不得点死,所以multiqc来了),可以将各自的html打包成一个html总文件进行查看

用multiqc ./(直接汇总生成multiqc的html)

可以下载到桌面进行查看,也可以用软件进行查看。



22转录组分析---对GSE155902批量trim_galore质量控制

创建一个名为rawdata_qc的文件mkdir rawdata_qc

将所有html、zip文件都放在该文件夹下mv *html ./rawdata_qc

mv *zip ./rawdata_qc/

mv multiqc_data/ ./rawdata_qc/

创建一个文件rawdata

把所有gz结尾文件放入该文件夹下 mv *gz ./rawdata

ls

cd rawdata

用原始数据进行质控(所有相应操作必须要有相应软件---trim_galore安装之前,必须先安装cutadapt

批量进行处理(原始数据质控处理)

用ls *_1.*gz>1  (把1结尾的文件写成1结尾的文本文件)

用ls *_2.*gz>1  (把2结尾的文件写成2结尾的文本文件)

paste 1 2 > config   (把1与2并排排列,整理在一个文件夹下)

Mkdir cleandata cleandata_qc(建立cleandata文件与其质控文件)

用dir=”./cleandata”(指定输出路径)

用cat config |while read id               (读取列表)

do

arr=${id}

fq1=${arr[0]}

fq2=${arr[1]}

nohup trim_galore -q 25 --phred33、64



23 转录组分析录屏 ---对trim_galore质控后的fastq文件fastqc一下,看一下质控效果

进入质控完的结果的目录下

cd cleandata后将cleandata_qc放在cleandata下(原始文件gz结尾,质控文件fq.gz结尾)

测序长度,由于后续重复较高,设置为20-100,20太低了,所以up主将其调为


质控效果不好,所以作者打算重新进行质控

 

找几篇文章看看转录组测序数据质控结果怎么阅读?明白fastqc与multiqc处理之后,结果的阅读方式。


24 转录组分析——trim_galore软件的使用方法(讲解质控文件trim_galore的帮助文档)

[if !supportLists]1- [endif]conda avcivate rnaseq

[if !supportLists]2- [endif]trim_galore(想用必须安装cutadapt)

[if !supportLists]3- [endif]trim_galore利用trim_galore --help查看该软件的使用说明,-q(保证每一个碱基的之质量,默认是20,up主一般用25); -phred33 (sanger测序1.9的话就是ASC‖+33,其余则是64(普遍是33型); --fastqc (运行FastQC,产生FastQC文件); 实在不行可以运用百度搜索例子。--stringency(接头序列重复不能超过一个.?不大理解该含义) -e(错误率设置为0.1)  --length(长度默认20,太短的话比对序列会显著增加)  --max n (最多允许几个n出现)  --trim-n(去除n碱基)

[if !supportLists]4- [endif]trim_galore -l 25 -stringency 3 -q 25 --phread 33(碱基长度设置为25,接头重复不能超过3否则会被删除,碱基质量值要大于25, ASC‖碱基质量评估类型)  需要什么参数,按照help文档进行添加即可


哎,作者又断了,算了,把作者相应的技能视频也先学了把。

你可能感兴趣的:(1128 转录组分析 B站up主天马行空的坦克兵 (讲解清晰易懂))