2020-03-17

合并矩阵: 输入:每个样本定量结果,输出:reads.count矩阵(gene_count.matrix)用于差异分析,标准化后的矩阵(tpm.matrix样本内标准化).再标准化形成TMM(tmm.matrix样本间标准化)
程序:abundance_estimate_to_matrix.pl
代码:perl script/abundance_estimates_to_matrix.pl --est_method featureCounts --quant_files genes.quant_files.txt --out_prefix genes
count文件:genes.quant_files.txt存放上一步生成的count文件

genes.quant_files.txt

contrasts.txt

差异表达分析(分组):输入:reads count矩阵(gene_count.matrix)
软件:DESeq2 和 edgeR(这两个软件内部都能标准化)安装conda install bioconductor-deseq2 或者BiocManager::install('DESeq2')
样品表:sample
分组设计contrasts:
sample.txt

sample.txt

代码
perl /pub/anaconda3/opt/trinity-2.1.1/Analysis/DifferentialExpression/run_DE_analysis.pl \ --matrix ../3.Merge_result/genes.counts.matrix \ --method DESeq2 \ --samples_file ../data/samples.txt #\ --contrasts contrasts.txt

run_DE_analysis.pl

组间的差异大于组内差异
差异分析基于假设检验,假设基于概率模型

去掉文件的第一行sed '1d' file

筛选差异基因sed '1d' genes.counts.matrix.KID_S1_vs_KID_S3.DESeq2.DE_results |awk 'sqrt($5*$5)>1 && $9<0.05{print $1,$5,$9} ' |sort -k 2n
n:number,表示以数字大小排序

第七天:功能注释

蛋白功能注释:人等模式生物可以通过R包biomart查询基因的功能
基于相似性和结构域确定蛋白功能
比对算法:动态规划算法,两条序列滑动比对打分

物种分化是直系同源基因,通过拷贝增加的是旁系同源
基因家族COG/KOG:NCBI把一个基因组的基因分成24类,广义的基因家族。
输入文件:蛋白文件
常用流程:
软件(eggNOG-mapper)

你可能感兴趣的:(2020-03-17)