2019-12-26 Biostar Handbook DAY2

“Scientific Fight Club”的Rules:

1.没有“通用”规则。
2.每个看似基本的的paradigm都有一个或多个例外。
3.生物信息学方法的validity取决于数据的unknown characteristic。
4.即使考虑到这些规则,生物学也总是比你想象的要复杂。

5.1开始讲了一些生物信息学需要掌握的基本biology知识(5.1.1-5.1.16)

DNA (Deoxyribo Nucleic Acid)

真核生物位于细胞核,原核生物位于细胞质

核苷酸 nucleotide
例:炭疽杆菌的the forward strand
ATATTTTTTCTTGTTTTTTATATCCACAAACTCTTTT

碱基对 base pair
共享某些特征的核苷酸组可以用所谓的歧义码(ambiguity codes)来指定:

Y是嘧啶,R是嘌呤,W为弱氢键,S为强氢键,K为酮基,M为氨基,D为非C,V为非T,H为非G,B为非A,N为任何碱基,-为gap

DNA链 forward strand|reverse strand
在某些数据集中也表示为+|-、top|bottom、Watson|Crick (了解即可,尽量使用forward strand|reverse strand)

这些只是label,不涉及DNA本身的性质,具体哪条链为forward,哪条链为reverse是由研究者在初次研究某DNA时决定的,为了交流方便,label不能随意改变。

DNA的方向性
多数biological mechanism发生在上图中的某一条链中,方向为箭头所指的方向
两条链呈“反向互补”(reverse complement)

同义/反义 sense|antisense

“When a process occurs in the expected direction, its directionality may be called sense”

↑翻译不出来,感受一下意思吧↑

注意,sense|antisense和forward strand|reverse strand的概念不相关。前者是相对于sequence的方向而言,而这个sequence既可以来源于forward strand,也可以来源于reverse strand。

DNA 测序
这是一个大的概念,包括所有以鉴定DNA大分子构成为目的的流程。DNA测序会得到未经处理的文件,通常为FASTA、FASTQ、unaligned BAM(uBAM)文件。多数论文会上传测序文件至数据库,以便下载和重复分析。

测序测的是什么
并不是拿到DNA就开始测,而是通过“一系列实验室流程”将原始DNA转换成测序文库(sequencing library),因此测序是间接得知原有DNA分子的部分信息,且建库过程势必会在结果中引入多种limitations和artificial properties。

基因组
有机体的每个体细胞都包含着一套完整的基因组,细胞分裂的过程包括基因组的拷贝

基因组是做什么的
编码信息,实现有机体的功能
包括编码区域(编码蛋白质),非编码区域(产生非蛋白分子、发挥调控作用),同时包含许多“无功能区域”(如一些散在序列,重复序列)
C值矛盾 https://en.wikipedia.org/wiki/C-value#C-value_paradox

基因组大小
朊病毒仅有300个碱基对,日本重楼有1500亿碱基对,常用的度量基因组大小的单位包括kilo-bases(Kb, 千), mega-bases (Mb, 百万), giga-bases (Gb, 十亿)

常见物种基因组大小,人约3Gb

RNA
在细胞内降解很快(分钟级)

基因组如何工作
举个primary mRNA transcription的例子,“简单说来”就是:

细胞将基因转录(transcription)成RNA分子,转录后RNA分子被剪切(splicing),被剪切的部分称为内含子(intron),未被剪切的称为外显子(exon),剪切后得到信使RNA(mRNA)。
细胞通过GT和AG识别内含子(也叫剪切信号,通常出现在内含子的开头和结尾),单有剪切信号不够,35%的人类基因包含可变剪切。

看似简单的解释,随便摘出来一句其实都是深坑,根本没这么简单...这就是生物学的复杂性啊

蛋白
DNA,mRNA包含遗传信息,蛋白则执行功能。生化基础知识已经讲了一堆了

蛋白如何产生
转录、翻译、密码子、起始密码子(编码甲硫氨酸)、终止密码子

什么是开放阅读框 ORF
包括至少100个连续的内含子的序列
尽管有所谓的“standard” translation table,但不同物种采用的编码会有不同,即所谓的genetic codes,可查看https://en.wikipedia.org/wiki/List_of_genetic_codes

什么是基因 gene
Sequence Ontology 给出的gene的定义为:

A region (or regions) that includes all of the sequence elements necessary to encode a functional transcript. A gene may include regulatory regions, transcribed
regions and other functional sequence regions.

这个定义中,基因包含了编码有功能转录本所需的所有元件,包括调控元件,转录元件和其他有功能的序列。

基因组还有其他特点吗

多了去了,列举一些:

  • 非转录区域:
    1、mRNA起始密码子前有一段5'UTR;
    2、mRNA终止密码子后到polyA尾前为3'UTR
  • 启动子区:
    60%的人类基因的启动子区位于CpG岛上。
  • CpG岛:
    5'→3'顺序的CpG组合,C可被甲基化,可调节基因表达,涉及到表观遗传学
    书上给了一个1号染色体一段CpG岛的例子,包括了30个CpG,GC%为77.14%,出于对表观遗传学的兴趣摘录了下来:
efetch -db=nuccore -id=NC_000001.11 -format=fasta -seq_start=36306860 -seq_stop=36307069
  • 增强子
    一个增强子可作用于多个基因,一个基因可以有多个增强子(沉默子同理)
    增强子在DNA strand上和调控的基因可以相隔甚远,但DNA链在细胞中被折叠了
    鉴定增强子可以通过disrupt观察基因表达的增减,也可以通过核小体修饰鉴定。

什么是同源性 homology

Two regions of DNA that evolved from the same sequence (through processes of duplication of genomic regions and separation of two species) are homologous, or homologs of one another.

homologous 同源(包括直系同源orthologous 和旁系同源paralogous )

More specifically, regions in the genomes of two species that are descended from the same area in a common ancestor’s genome are orthologs. These regions are said to be orthologous.

orthologous 直系同源:物种不一样,但都源于基因组上同一区域

On the other hand, paralogous sequences or paralogs were separated by duplication of a genomic region within the same genome.

paralogous 旁系同源:基因源于两个区域,这两个区域是由于基因重复(gene duplication)产生的,与物种无关。


来源:http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html

Homology is not a synonym of sequence similarity!
同源性不等同于序列相似性!
Homologous sequences are usually similar to one another, but similarity of sequences does not indicate homology.
同源序列一般相似,相似序列不一定同源。

主要是preface的chapter5,先到这里吧,已经2点半了。

你可能感兴趣的:(2019-12-26 Biostar Handbook DAY2)