中国科学技术大学生物信息学考试复习资料(整理版)

持续更新中!
QUIZ参考答案:
中国科学技术大学生物信息学考试复习资料(整理版)_第1张图片

  1. Which gene is the most highly mutated gene in cancer?
    TP53
  2. Which gene is the most highly mutated gene inCOAD/READ?
    APC
  3. Name three alignment tools.
    Bowtie 2 Histat , Tophat BWA
  4. What is the method for SNP calling that we introduced in this class?
    .(BWA)-GATK
  5. Name three advantages of this method.
    做序列比对和SNP calling的算法中,表现优,现在成为金标。(1)灵敏度95% (2)特异度97% (3)准确度96%
    第四课:
    中国科学技术大学生物信息学考试复习资料(整理版)_第2张图片
  6. What is the main difference between DNA-seq and RNA-seq alignment?
    RNA-seq has junction reads
  7. What percentage of the genome is transcribed?
    90%(基因组中约 90% 的基因是转录基因。这些转录基因中只有 1-2% 编码蛋白质;大多数转录为 ncRNA。)
  8. Name three types of ncRNAs.
    tRNA、rRNA 、snRNA、piRNA、siRNA and lncRNA
  9. Name three RNA-seq alignment tools.
    bowtie tophat 2 、 HISAT 或 STAR
  10. What are the main functions of lncRNAs?
    中国科学技术大学生物信息学考试复习资料(整理版)_第3张图片
    第6课:中国科学技术大学生物信息学考试复习资料(整理版)_第4张图片
    第7课:
    中国科学技术大学生物信息学考试复习资料(整理版)_第5张图片
    复习资料:
    中国科学技术大学生物信息学考试复习资料(整理版)_第6张图片
    中国科学技术大学生物信息学考试复习资料(整理版)_第7张图片
    中国科学技术大学生物信息学考试复习资料(整理版)_第8张图片
    中国科学技术大学生物信息学考试复习资料(整理版)_第9张图片
    中国科学技术大学生物信息学考试复习资料(整理版)_第10张图片
    中国科学技术大学生物信息学考试复习资料(整理版)_第11张图片
    2020.12.29 第16周课 单细胞测序 2
    假时间轨迹:①monocle ②Velocyto ③Palantir (从1个时间点的数据模拟出成熟体系的过程)
    1.monocle(基于表达量expression) 时间树,进行降纬分析,建立发育路径,
    ·利用真实数据进行验证软件功能是可靠的。
    ·monocle2 预测肺部上皮细胞分化命运:(可以预测与发育分支密切相关的基因集)利用免疫刺激树突细胞分化的基因knockout进行验证(基因是已知的)。
    Go term分析:从基因集到基因集功能
    Monocle的pros和cons:

2.Velocyto(基于splicing)`
·mRNA成熟度:验证实验SCP细胞向chromaffin cells的分化过程
·小鼠海马区:(细胞分群,进行细胞图谱构建):不同的发育轨迹由不同的转录因子调控
Velocyto的pros和cons:
优点:①从RNA成熟度的角度出发预测发育的起点和终点;②对多分支路径的预测比较好;
缺点:①对测序质量有一定要求,最好是全长测 ②路径的预测是基于tSNE或者UMAP的降维结果,需要质量是较高的(细胞群的相连)
3.Palantir·基于熵增大原理:
发育潜能很大,但变化幅度(熵)是较小的,而分化后,发育潜能小,变化幅度熵是较大的。
适合于诸如研究胚胎细胞的分化 ·验证方法:早期人类造血干细胞
Palantir的pros和cons:
Pros: ①从发育可能性的熵值出发,估计发育起点和终点 ②仅需要表达量信息 (需要很多样本)
Cons:①对原本就高无序性的样本,如肿瘤可能不适用 ②路径的展示方法比较依赖于降维方法
假时间轨迹:算法横向比较
判断指标:①分叉树的结构的正确性②分叉支点的正确性(细胞是否位于正确的结点上)③分叉的顺序④分化过程中重要的基因
合成数据 进行评估

插值与降噪:①Magic ②Saver ③DCA ④WEDGE (原因:细胞分群的稀疏,只有5%-10%的数据能被捕捉)
单细胞数据分析中的科学问题:
①稀疏矩阵(采用插值与降噪 解决) ②调控关系 (scATAC-seq解决)
③RNA-蛋白表达差异(RNA被翻译的次数不同) ④空间转录组(采用整合分析 解决)发育过程的空间位置信息
整合分析及原因
插值与降噪
1.MAGIC(细胞与细胞之间的关联,构建关联矩阵,关联度很高的基因表达量相互为依据)
(依赖对于邻居cell的确定)
2.SAVER(深度学习模型,负二项分布,利用偏移的负二项分布 挪移以重新获取基因表达量)
(假设基因表达符合负二项分布,理论与实践是近似的)
3.DCA(使用深度学习回归表达量均值和离散度)
拟合分析
4.WEDGE(对表达量矩阵中的零元和非零元分别做不同权重的非负矩阵分解) qulab
非零元:基因表达量的确很低
零元:由于实验原因,噪音基因表达信息未get,进行非权重分解 进行分群质量恢复的提高
用途:发现精细细胞亚型() 细胞层次降维

单细胞ATAC-seq分析:
前边提到的SIMIR 也可以用于验证 表达基因片段的上游是否存在一些motif
scATAC-Seq技术的开发:由斯坦福大学Howard Chang 和Greenleaf实验室联合开发
科学问题:scATAC-seq数据过于稀疏(>95%丢失),细胞分群无法达到scATAC RNA-seq一样的精度
1.ChromVAR:group peaks by motifs
peak的开放位点上游的motif进行堆积富集
用途:①细胞分化 路径的确立(造血干细胞 HSC的分群)②细胞聚类clustering ③假时间轨迹:细胞发育路径
ChromVAR优缺点:
优点:①从motif/TF分析容易定义每个亚群的功能 ②可以发现细胞发育的路径
缺点:①分群效果较差(将motif进行堆积,忽略了很多信息)②使用的motif都(必须)是已知的 ③只考虑开放位点上游调控的关系(忽略了开放位点下游网络)
2.Cicero(group peak by genes)
认为基因的开放性(转录起始位点)周围与附近的峰认为也与之相关,能得到顺式开放型(下游网络)
Cicero的优缺点
优点:①揭示基因转录区域附近的调控因子 ②从DNA开放程度预测RNA表达量
缺点:①分群效果较差 ②仅考虑近端的调控因子 ③仅考虑下游调控关系
3.cisTopic:group peaks by topics
topic(影响开放位点差异型的组合)降纬,能够凝练成细胞和topic的矩阵 - 集群
ARI越高,细胞分群可信度越高 利用不同的表达topic(区分细胞亚群)
cisTopic优缺点: (一个topic可能包含了很多功能类型的细胞,因此)
优点:①细胞分群的效果较好 ②每个亚群的特征清晰
缺点:①每个特征(topic)的生物学功能比较模糊 ②每个topic内DNA开放片段之间的关联不清楚。
4.APEC:group peaks by pattern qulab
Peak的开放位点的Pattern - 细胞 和 pattern group 矩阵
缺点:有批次效应
用途:对单细胞数分群存在优势 构建单细胞发育路径(发育轨迹构建)

多组学整合:seurat novoSpaRc
1.seurat
Mutual 相互之间寻找neighbor 将不同 的数据整合在一起 用了cicero
空间转录组:将很少的scRNA RNA转录组信息 投影 到整体的空间转录组,在空间转录组得到更多的转录信息。
2.novoSpaRc
假设表达量模式相近的细胞在空间上也是相近的。
中国科学技术大学生物信息学考试复习资料(整理版)_第12张图片
中国科学技术大学生物信息学考试复习资料(整理版)_第13张图片

你可能感兴趣的:(中科大研究生考试,中科大考试,瞿昆生物信息学,中科大生物信息学)