微生物基因组研究扫盲系列|1

这是一个关于高通量基因组学研究相关基础知识的系列内容,旨在为初步涉入基因组学研究的同学查缺补漏,答疑解惑。如果前期对基本概念都没理解通透,基础没打好,后期会走弯路的。本系列内容涉及基因组学、高通量测序相关基本概念,基因组分析中常见问题等,每期5-10个FAQ,希望对大家有用。

大家有其他相关的问题,可以关注微信公众号:密码子实验室,在后台留言,我们会尽力在下期为您解答(๑•̀ㅂ•́) ✧~

基因组组装常见问题:

Q1:在有杂菌污染的情况下,为什么得不到好的组装结果呢?

A1: 如果是近源物种,二者的GC含量相似,具有大量的同源序列;非近源物种DNA污染,虽然可以通过GC-depth将非近源物种的一些序列找出并剔除,但是其DNA中会有不同程度的相似性序列;高度相似序列会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列,从而形成很多个contig,从而很难形成一个完整的环,导致组装结果不好。

基因组注释知识锦集:

Q1:什么是基因组注释?

A1:基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。

Q2:具体讲解一下KEGG代谢通路图,图中的箭头,虚线箭头分别代表什么?

A2:在KEGG代谢通路图中,实线箭头有以下几种含义:

(1)一步生化反应;(2)正向调控;(3)分子相互作用

而虚线箭头的意义:

(1)与其它pathway的连接(表示间接反应);(2)不确定的生化反应。

具体见下图:

Q3: KEGG注释里面的KO和ko分别代表什么?

A3:KO是基因的编号,代表某一类同源基因,同源基因在不同的物种/基因组中会有不同的基因名,但它们的KO编号是一致的;ko是通路的编号,代表某一个通路。

Q4:将某一基因的KO号输入 KEGG pathway,为什么没有找到与之对应的通路呢?

A4: KEGG 库中注释到的基因,有一部分是参加代谢网络的或者有代谢通路图,可以在 KEGG的 pathway数据库中找到,但是有一部分基因是不参加代谢通路网络的,或者是 KEGG的 pathway数据库现有的代谢通路图中没有该基因参与的代谢通路图,这部分基因只能在 KEGG的 gene 库中找到,不能在 pathway数据库中找到。

Q5: 为什么原核生物基因组会注释到真核生物的代谢通路?

A5:这里有2种可能:一是该基因在原核物种的数据库中未能找到很好的匹配结果,而在真核生物中的某个被归类到真核代谢通路的基因与该基因达到最佳匹配,因此被注释到的基因也就展示了真核代谢通路;二是展示代谢通路时,它的逻辑并不仅仅展示该基因对应的代谢通路,而是展示该基因注释到的KO对应的所有代谢通路。比如细胞色素C(K08738),这类同源基因在细菌中可以参与双组分调控系统,而在人体内与耐药性、疾病、癌症等多种代谢途径有关。因此,即使实际情况下某个细菌的K08738基因本身只与双组分调控系统有关,最终还是会显示一些与细菌代谢无关的通路。总之,这种情况无需过分纠结,根据实际情况进行判断即可。

Q6: 在pathway数据库中,这个下拉菜单分别代表什么?

A6:Reference pathway表示没有特别标注的代谢通路。Reference pathway(KO)是把KO数据库中所有的数据填充在代谢通路中;Reference pathway(EC)是把酶数据库所有的数据填充在代谢通路中;Reference pathway(Reaction)是把反应数据库所有的数据填充在代谢通路中;下面就是把各个物种所包含的KO注释填充在代谢通路中。

Q7:KEGG注释能否精确到具体某个物种?

A7:线上注释在选择数据库的时候可以只选择某个物种进行注释。

Q8:通过实验已经证明菌株中具有某种功能的基因,而在注释结果里面没有,是什么原因?

A8:首先,虽然我们通常认为具有相似序列的蛋白具有相似的功能,并主要通过序列相似性来进行基因注释。但实际情况下,这种假设并不是绝对的,即序列相似性并不完全等价于功能相似性。有的基因会由于一个碱基的SNP完全丧失或改变原有的功能,也有的基因在很低的序列相似性情况下也具备相同的功能。因此,基于序列相似性的基因注释是无法注释到这些基因的。

除此之外,基因没有被注释到也有可能与基因组装、基因预测有关,例如含有该基因的DNA片段由于组装错误丢失了,或者该基因在预测过程中由于预测软件的关系没有被预测是基因,这些原因都有可能造成注释的缺失。

基因组重测序知识锦集:

Q1:什么是重测序?

A1: 即对已知基因组序列的物种进行不同个体的基因组测序,是一种有参分析,目的在于寻找不同个体或者群体的基因组变异差异,通过序列比对,找到单核苷酸多态性位点(SNP),插入/缺失位点(InDel)、结构变异位点(SV,Structure Variation)位点和拷贝数变异位点(CNV,Copy Number Variation)。

Q2:什么是INDEL (基因组小片段插入)?

A2:INDEL指的是在基因组的某个位置上所发生的小片段序列的插入或者删除,其长度通常在50bp以下。

Q3:什么是copy number variation (CNV):基因组拷贝数变异?

A3:基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。

比较基因组学:

Q1:什么是比较基因组学?

A1:比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。

扩增子测序与菌种鉴定知识与锦集:

点击跳转,继续阅读

猜你喜欢

微生物基因组公开课:

1.细菌基因组测序方式:重测序、扫描图、完成图、转录组如何选择

2.细菌基因组研究思路和案例分享

3.常见的比较基因组分析有哪些

4.什么是基因水平转移(HGT)?如何研究细菌的HGT?

5.PC电脑上如何绘制高水平的基因组圈图?

6.如何使用BRIG绘制比较基因组圈图?

7.如何通过BLAST软件进行比较基因组分析?

8.BRIG高级使用与常见问题?

更多生信脚本放送:

火山图 Venn图 upset图 fasta序列提取

AI操作教程:

AI绘图-常见问题汇总 AI临摹小鼠 AI绘制DNA双螺旋 AI绘制细胞膜

-这里只有干货 关注我们- 微信号:密码子实验室

你可能感兴趣的:(微生物基因组研究扫盲系列|1)