Jun-H

蛋白质结构与功能的预测方法总结和资料汇总

“折叠（fold）”的概念

“折叠（fold）”是近年来蛋白质研究中应用较广的一个概念，它是介与二级和三级结构之间的蛋白质结构层次，它描述的是二级结构元素的混合组合方式。

二级结构的预测方法介绍：

Chou-Fasman算法：
　
是单序列预测方法中的一种，它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小，然后计算出每一种氨基酸在这几种构象中的构象参数Px.构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。按照构象参数值的大小可以把氨基酸分为六个组：Ha（强螺旋形成者）、ha（螺旋形成者）、Ia（弱螺旋形成者）、ia（螺旋形成不敏感者）、ba（螺旋中断者）、Ba（强螺旋中断者）。Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则，要点是沿蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程，但预测成功率并不高，仅有50%左右

GOR算法：
　
也是单序列预测方法中的一种，因其作者Garnier, Osguthorpe和 Robson而得名。这种方法是以信息论为基础的，也属于统计学方法的一种，GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响，也考虑到相邻残基种类对该位置构象的影响。这样使预测的成功率提高到 65% 左右。GOR方法的优点是物理意义清楚明确，数学表达严格，而且很容易写出相应的计算机程序，但缺点是表达式复杂。

多序列列线预测：
　
对序列进行多序列比对，并利用多序列比对的信息进行结构的预测。调查者可找到和未知序列相似的序列家族，然后假设序列家族中的同源区有同样的二级结构，预测不是基于一个序列而是一组序列中的所有序列的一致序列。

基于神经网络的序列预测：
　
利用神经网络的方法进行序列的预测，BP (Back-Propagation Network) 网络即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法，它通常是由三层相同的神经元构成的层状网络，使用反馈式学习规则，底层为输入层，中间为隐含层，顶层是输出层，信号在相邻各层间逐层传递，不相邻的各层间无联系，在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重，最终目标是找到一种好的输入与输出的映象，并对未知二级结构的蛋白进行预测。神经网络方法的优点是应用方便，获得结果较快较好，主要缺点是没有反映蛋白的物理和化学特性，而且利用大量的可调参数，使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。
　
基于已有知识的预测方法（knowledge based method）:

这类预测方法包括Lim 和 Cohen 两种方法。Lim 方法是一种物理化学的方法，它根据氨基酸残基的物理化学性质，包括：疏水性、亲水性、带电性以及体积大小等，并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链， Lim 方法的预测准确率可以达到73%. 另一种是 Cohen 方法，它的提出当时是为了α/β蛋白的预测，基本原理是说：疏水性残基决定了二级结构的相对位置，螺旋亚单元或扩展单元是结构域的核心，α螺旋和β折叠组成了结构域。

混合方法（hybrid system method）:

将以上几种方法选择性的混合使用，并调整他们之间使用的权重可以提高预测的准确率，目前预测准确率在70%以上的都是混合方法，其中，同源性比较方法、神经网络方法和 GOR方法应用最为广泛。

三级结构的预测：

同源性建模：
　
假设对已知结构的另一个蛋白质序列来排列一个蛋白质的序列，如果靶序列和已知结构序列在整个序列的全长有很高的相似性，在合理的信任度上，我们可以使用已知结构作为靶蛋白质的模版。

“串线（threading）”算法：
　
串线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配，并评估序列折叠成那种结构的合适度。串线法最适用于折叠（fold）的识别，而不是模型的建立。它是快速用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。Jones等首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库，以折叠子数据库中的折叠结构作为模板，将目标序列与这些模板一一匹配，通过计算打分函数值判断匹配程度，根据打分值给模板结构排序，其中打分最高的被认为是目标序列最可能采取的折叠结构。Threading 方法的难点在于序列与折叠结构的匹配技术和打分函数的确定。（Jones等，1992）

蛋白质二级结构预测：
　
蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步，是根据它们被预测的局部结构，对蛋白序列中的氨基酸进行分类。二级结构的预测方法通常分为多序列列线预测和单序列预测的方法。由于单序列预测所提供的信息只是残基的顺序而没有其空间分布的信息，所以单序列预测的算法预测准确率并不高而且对于一些特殊结构，这些算法很难预测成功。多序列列线预测和神经网络的应用大大提高了二级结构预测的准确度，通过对序列比对的预测可以明确的提供单一位点在三维结构上的信息。这样通常二级结构预测的准确率比单序列预测能够提高１０%.许多方法据说可达到70%-77%，目前较为常用的几种方法有：PHD、PSIPRED、Jpred、 PREDATOR、PSA。其中最常用的是PHD。PHD结合了许多神经网络的成果，每个结果都是根据局部序列上下文关系和整体蛋白质性质（蛋白质长度、氨基酸频率等）来预测残基的二级结构。那么，最终的预测是这些神经网络每个输出的算术平均值。这种结合方案被称为陪审团决定法（jury decision）或者称为所有胜利者（winner-take-all）法。PHD被认为是二级结构预测的标准。

蛋白质三级结构预测：

蛋白质三维结构的预测方法通常包括：同源性建模和从头开始的预测方法。对数据库中已知结构的序列的比对是预测未知序列三级结构的主要方法，也即同源建模的方法。通常对于同源建模的方法过程并非统一，但基本思路是一致的，基本包括如下几个步骤：
1．使用未知序列作为查询来搜索已知蛋白质结构。
2．产生未知序列和模版序列最可能的完整比对。
3．以模版结构骨架作为模型，建立蛋白质骨架模型。
4．在靶序列或者模版序列的有空位区域，使用环建模过程代替合适长度的片段。
5．给骨架模型加上侧链。
6．优化侧链的位置。
7．使用能量最小和已知的优化知识来优化结构。

在进行序列比对时，最容易使用 BLASTP 程序比对 NRL-3D 或 SCOP 数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列，则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下，同源性建模在预测该未知蛋白精细结构方面会有非常大的作用。同源性建模的成功的关键通常不是建模使用的软件或服务器，在设计与模版结构好的比对时的技巧更加重要。
　
结构预测相关程序及数据库：
常用蛋白序列和结构数据库：
数据库说明网址链接
PDB蛋白质三维结构http://www.rcsb.org/pdb
SWISS-PROT蛋白质序列数据库http://kr.expasy.org/sprot/
PIR蛋白质序列数据库http://pir.georgetown.edu/
OWL非冗余蛋白质序列http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL核酸序列数据库http://www.embl-heidelberg.de/
TrEMBLEMBL的翻译数据库http://kr.expasy.org/sprot/
GenBANK核酸序列数据库http://www.ncbi.nih.gov/Genbank/
PROSITE蛋白质功能位点http://kr.expasy.org/prosite/
SWISS-MODEL从序列模建结构http://www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE三维结构图示http://us.expasy.org/sw3d/
DSSP蛋白质二级结构参数http://www.cmbi.kun.nl/gv/dssp/
FSSP已知空间结构的蛋白质家族http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP蛋白质分类数据库http://scop.mrc-lmb.cam.ac.uk/scop/
CATH蛋白质分类数据库http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam蛋白质家族和结构域http://pfam.wustl.edu/

蛋白质功能预测：
　
相关概念：

1．重叠群（contig）：
基因组测序中将许多序列片段经过比对找到重叠区，从而连接成长片段，称重叠连续群，简称重叠群。
2．序列模体（motif）：
通常指蛋白序列中相邻或相近的一组具有保守性的残基，与蛋白质分子及家族的功能有关。
3． Smith-Waterman算法：
1981年，Smith 和Waterman提出的一种用来寻找并比较这些具有局部相似区域的方法，即常用的Smith-Waterman算法，它也是一种基于矩阵的方法，而且也是运用回溯法（backtracking）建立允许空位插入的比对。这个算法的一个重要特征是矩阵中每个单元均可以是比对结果序列片段的终点，该片段的相似性程度由该单元中的分数值表示。
4．计分矩阵（scoring matrix）：
记分矩阵是描述残基（氨基酸或碱基）在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数，一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中，一对残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。

蛋白质功能确定的思路及方法：

1．通过相似序列的数据库比对确定功能

具有相似性序列的蛋白质具有相似的功能。因此，最可*的确定蛋白质功能的方法是进行数据库的相似性搜索。需要明确的是，一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。对于不少种类的数据库搜索工具，快速搜索工具（如BLASTP）速度快，也很容易发现匹配良好的序列，一般就没必要运行更花时间的工具（如FASTA、BLITZ）；但当BLASTP不能发现显著的匹配时，就需要使用那些搜索速度较慢但很灵敏的工具了。所以，一般的策略就是先进行BLASTP检索，如果不能得到相应的结果，就可以运行FASTA，如果FASTA也无法得到相应结果，最后就需要选用完全根据Smith- Waterman 算法设计的搜索程序，如 BLITZ。
比对所选用的记分矩阵对最终预测结果影响也很重要，首先，选择的矩阵须与匹配水平相一致。PAM250应用于远距离匹配（<25%相同比率）， PAM40应用于不很相近的蛋白质序列，BLOSUM62为一个通用矩阵。其次，使用不同矩阵，可以发现始终出现的匹配序列，这样可以减少误差。

2．确定序列特性：疏水性、跨膜螺旋等

许多功能可直接从蛋白质序列预测出来。例如，疏水性信息可被用于跨膜螺旋的预测，还有不少小的序列模体（motif）是细胞用于特定细胞区室（cell compartment）蛋白质的定向。对于跨膜螺旋的预测涉及到对跨膜蛋白跨膜区域的识别，这就需要鉴定序列中可以折叠成螺旋并存在于膜的疏水环境中的区域。跨膜序列一般具有一些明显的特征，比如，为了跨膜α螺旋必须有大约17~25个氨基酸长度，因为细胞膜内部是由脂肪酸的长的碳氢链组成，所以膜中的 α螺旋必须存在相对的面向膜的非极性面才能在能量上是有利的。早期的算法程序会直接分析这些特征，并通过分析序列的17~25个氨基酸的窗口，对每个窗口产生的疏水性得分，得分高的即被预测为跨膜螺旋，现在一些经过改进的更精确的算法，不仅提高预测准确性到90%以上，而且可以预测跨膜螺旋的一些其他特征，比如在膜上的方向。这些都依赖于一系列对已知跨膜螺旋的特征研究的成果。
3．通过序列模体数据库等的比对确定功能

蛋白质不同区段的进化速率不同，蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能，通过确定这些保守区域，有可能为蛋白质功能提供线索。主要有两种方法可用于序列模体的查找。一种方法是查找匹配的一致序列或序列模体。这种技术的优点是快捷，序列模体数据库庞大而且不断被扩充；缺点是有时不灵敏，因为只有与一致序列或序列模体完全匹配才被列出，而近乎匹配的都将被忽略。使在做复杂分析时候受到严重限制。第二种方法是更加精细的序列分布型方法。原则上，分布型搜索的是保守序列（不只是一致序列），这样可以更灵敏的找出那些相关性较远的序列。但分布型和分布数据库需要大量的计算和人力，所以分布数据库的记录没有序列模体数据库多。在实际分析时，应同时对这两种类型的数据库都进行搜索。

结构密码蕴藏在排序中

这是一个复杂但很有意思的生命过程——基因承载了生命的遗传信息，生命的功能则是藉由蛋白质执行的；蛋白质是由20种氨基酸组成的肽链，而DNA中的基因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生命的功能，但折叠是如何自发形成的呢？

氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森（C.Anfinsen）。1961年，他研究了核糖核酸酶的去折叠和重折叠过程，发现在相同的环境中去折叠的蛋白质都会恢复到原来的空间结构，认为蛋白质链会以自由能最低的方式形成三维结构，由此推测蛋白质的折叠密码隐藏在氨基酸排序中，即所谓的安芬森原则：蛋白质一级排序决定三维结构。因为“对控制蛋白质链折叠原理的研究”，安芬森获得1972年诺贝尔化学奖。

然而，蛋白质的空间结构极其复杂，该如何确定呢？现在有两种方法：一种是实验测量，包括用X射线衍射和核磁共振成像；一种是理论预测，利用计算机根据理论和已知的氨基酸序列等信息来预测，方法包括同源结构模拟、折叠辨识模拟和基于第一性原理的从头计算。

1913年，劳尔和布拉格父子第一次发现X射线通过晶体可以产生衍射现象从而确定原子在晶体中的位置并因此获得诺贝尔奖。1957年，剑桥大学的肯德鲁用劳尔-布拉格的方法确定出第一个蛋白质(肌红蛋白)的三维结构从而获得1962年的诺贝尔化学奖。此后18年间,人类共测出38个蛋白质结构；至1980 年，这个数目增长到184个。

显然，用实验方法测量蛋白质及生物大分子的结构相当繁琐。张阳说：“蛋白质结构的实验测定十分费时费力。多年前测定一个蛋白质的结构就有可能获得诺贝尔奖。如今随着技术的进步，实验测蛋白质结构的时间和花费已经大大地减少了，但测定一个蛋白质结构的平均费用也在100万美元左右。”

自然界有大量种类的蛋白质，实验只能测出其中非常小的一部分，目前“蛋白质数据库”中只有3万多个蛋白质的结构。有没有其他方法可以更快、更经济地测量出大量蛋白质呢？

物含妙理总堪寻

既然蛋白质结构的密码隐藏在序列中，那么解开这个密码就可以通过序列来解开蛋白质的结构。张阳说：“我们的目的就是用计算机从氨基酸的序列来直接预测蛋白质的结构。将序列输进计算机里，设计一套程序，让计算机去计算和确定蛋白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行，那么就可能通过计算机自动预测出蛋白质的结构，这几乎是免费的。”

然而，用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多，包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距和电磁力以及它与水分子的相互作用等。根据数学计算，由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构。

物含妙理总堪寻。一种氨基酸序列只可能有一种蛋白质结构，这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理，蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数，因此寻找这种最低自由能所代表的结构。

科学家们使出十八般武艺来预测序列与结构间的密码，寻找出三种有代表性的预测方法：同源结构模拟（Homology Modeling）、折叠辨识模拟（Fold Recognition）和基于“第一原则”的从头计算方法（Ab Initio）。

同源模拟又称为比较性模拟。如果目标蛋白质与已测出结构的蛋白质的序列有30%以上的相似，那么这两种蛋白质可被视为同源，它们也应该有类似的空间结构。因此，若知道同源蛋白质家族中的某些蛋白质的结构，就可利用它们作为模板来模拟目标蛋白质的结构，这种方法速度较快，精度也比较高。但是这种方法有局限性，毕竟已知结构的蛋白质数量很少，而且很多蛋白质没有同源系列。

折叠辨识模拟又称串线指认方法，意思是指把目标蛋白序列与蛋白质数据库中所有的蛋白质结构进行逐一对比。自然界中有些蛋白质的氨基酸序列不大相同，但其结构极为相似。张阳说：“这对我们建立新计算机模型非常有用。在无法进行序列比对的情况下，我们就想办法用目标序列直接与已有的其他蛋白质结构进行比较。具体做法是，设计一个打分系统，让计算机来识别这个序列放在被比较的其他蛋白质上是否‘舒服’，再根据得分高低判断序列是否会折叠成这种结构，评分系统是这种方法的关键。”

“从头计算”方法源于安芬森的“最低自由能构型假说”。前两种方法是用已知结构的蛋白质为模板来构建新的结构，而“从头计算”不需要模板，它是以物理为基础来研究蛋白质的折叠方法，怎样设计适当的能量函数，怎样找到相应的最低自由能是这种方法的关键。

蛋白质结构预测免费服务

目前已经有许多蛋白质结构预测服务通过因特网对公众免费开放。由于结构预测技术本身的局限性，每种预测服务都各有得失。我们简要介绍几种国际上较为常用的预测服务的优缺点、使用方法及工作原理。

三级结构预测（同源建模）：

瑞士生物信息研究所 SWISS-MODEL　

丹麦技术大学生物序列分析中心 CPHmodels

比利时拿摩大学 ESyPred3D 　

英国癌症研究中心 3DJigsaw

二级结构预测（折叠识别）：

美国哥伦比亚大学 PredictProtein

英国瓦卫克大学 PSIpred　

印度昌迪加尔的微生物技术研究所 APSSP　

欧洲生物信息研究所（EBI）Jpred　

美国加利福尼亚大学 SSpro

α－螺旋倾向性预测（从无到有）：

欧洲分子生物学实验室(EMBL) AGADIR

AGADIR Service

AGADIR —— 一种预测肽链中螺旋含量的算法

AGADIR 是一种基于螺旋/卷曲转化理论，可以在残基水平上准确预测单体肽螺旋行为的算法。利用此算法，可以预测肽链的平均螺旋含量、α碳和α氢原子的构象、偶合常数、及N-Cap、C-Cap等参数。通过用圆二色性法和核磁共振法的测评，此算法对短肽链，即三级相互作用不明显时，预测准确很高。

利用AGADIR的预测数据，可以参考之对肽链螺旋，及至蛋白结构进行适当修饰，以达到特定的实验目的，或进行其它应用。

到目前为止，蛋白质结构解析的方法主要是两种，x射线衍射和NMR。近年来还出现了一种新的方法，叫做Electron Microscopy。

其中X射线的方法产生的更早，也更加的成熟，解析的数量也更多，我们知道，第一个解析的蛋白的结构，就是用x晶体衍射的方法解析的。而NMR方法则是在90年代才成熟并发展起来的。这两种方法各有优点和缺点。
首先来说一下，这两种方法的一般的步骤和各自的优点和缺点。

电子显微镜（electron microscopy）作为一种新型的技术，目前的应用还是非常少，并且比较狭窄，到最后在给它作些介绍，而且相信绝大多数人也没有听说过，也不会有很大的兴趣。

首先是X晶体衍射。首先要得到蛋白质的晶体。
通常，都是将表达蛋白的基因PCR之后克隆到一种表达载体中，然后在大肠杆菌中诱导表达，提纯之后摸索结晶条件，等拿到晶体之后，工作便完成的80％，将晶体进行x射线衍射，收集衍射图谱，通过一系列的计算，很快就能得到蛋白质的原子结构。
用x射线的优点是：速度快，通常只要拿到晶体，甚至当天就能得到结构，另外不受大小限制，无论是多大的蛋白，或者复合体，无论是蛋白质还是RNA、DNA，还是结合了什么小分子，只要能够结晶就能够得到其原子结构。
所以x射线方法解析蛋白的瓶颈是摸索蛋白结晶的条件。这个时候运气就显的特别重要。关于这个有好多有趣的离子。据说国外一个同学在摸索两个月无果之后，毅然去度假，就将蛋白扔在一个很随便的地方，等度假回来之后，却发现已经结晶了。
然后，来说一下NMR。
NMR（nuclear magnetic resonance）现象早已发现了很久，然后将这种方法用来解析蛋白结构，却是近一二十年的事情。不过到今天为止，用nmr方法来解析结构已经十非常成熟的方法。
原理暂且放在一边，先说常规步骤。
首先通过基因工程的方法，表达出目的蛋白，提纯之后，摸索一下蛋白稳定的条件，如果蛋白没有聚合，而且折叠良好，便将蛋白样品（通常是1mM－3mM， 500ul，Ph6－7的PBS）装入核磁管中，放入核磁谱仪中，然后用一系列写好的程序控制谱仪，发出一系列的电磁波，激发蛋白中的H、N13、C13 原子，等电磁波发射完毕，在收集受激发的原子所放出的“能量”，其实也是小磁场，通过收集数据、谱图处理、电脑计算从而得到蛋白的原子结构。
它的优点就是，蛋白在液体中得到结构，是一个动态的结构，事实上所有在pdb中或者文献中发表的NMR结构都是十个或者二十个结构的ensemble（集合），这就是因为这些结构都是进行能量优化后符合条件的结构，或者说就是溶液中的蛋白结构。因为是动态就很容易的研究蛋白与其他蛋白或者配基的相互作用。缺点是，受大小的限制，到目前为止NMR解析蛋白结构的上限是50kd。

无论是晶体还是NMR，蛋白都要符合下面的条件：首先表达量要大，象NMR要求1个mM500UL，这就要求十几个毫克，结晶要摸索很多的条件也需要大量的蛋白。所以蛋白一定要在胞质中表达才行。其次，蛋白要折叠。我们知道许多蛋白，尤其是真核蛋白在大肠杆菌中是以包含体的形式存在，这种情况下是不行的，除非复性。如果你的蛋白在胞质中表达，如果你不确定是不是表达，可以从分子筛上的位置，或者扫CD确定一下，当然最简单的是做一个NMR一维谱，只需要几分钟。
小于20Kd的蛋白可以考虑NMR，因为NMR研究功能核相互作用方面是更加擅长的，而且不需要结晶，现在速度也不慢。如果比较大，可以考虑晶体解析。

蛋白质的亚细胞定位
关于蛋白质的亚细胞定位的预测，In general，预测方法分为3个步骤。首先，为每一类亚细胞locations构建客观而具有代表性的数据集。其次，从数据集中提取特征参数或 descriptor。最后也是最关键的一步，通过算法比较查询序列中所包含的特征参数与各类相应的location的相似度，作出判断，一般会用一组概率的形式来表述。很明显，其中大量运用的是机器学习理论和统计学的方法。对算法有兴趣的朋友可以参考下面这一篇综述，“An overview on predicting the subcellular location of a protein” In Silico Biology 2002 http://www.bioinfo.de/isb/2002/02/0027/main.html

以下是该综述中涉及的部分server，都是比较经典的。

PSORT：http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge

TargetP：http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide

MitoProt：http://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide

Predotar：http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide

NNPSL：http://predict.sanger.ac.uk/nnpsl
By amino acid composition

SobLoc：http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By amino acid composition

SubLoc: http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By more sequence information besides the amino acid composition

一篇文献：http://cubic.bioc.columbia.edu/papers/2003_loci_3dnet/paper.html

“Better prediction of sub-cellular localization by combining evolutionary and structural information”

找到一些晶体学的原理。一起学习。
蛋白质纯化与结晶
获得蛋白质的晶体结构的第一个瓶颈，就是制备大量纯化的蛋白质(>10 mg)，其浓度通常在10 mg/ml 以上，并以此为基础进行结晶条件的筛选。运用重组基因的技术，将特定基因以选殖(clone)的方式嵌入表现载体(expression vector)内，此一载体通常具有易于调控的特性。之后再将带有特定基因的载体送入可快速生长的菌体中，如大肠杆菌(Escherichia coli)，在菌体快速生长的同时，也大量生产表现载体上的基因所解译出之蛋白质。一般而言纯度越高的蛋白质比较有机会形成晶体，因此纯化蛋白质的步骤就成为一个重要的决定因素。

在取得高纯度的蛋白质溶液后，接下来就是晶体的培养。蛋白质晶体与其他化合物晶体的形成类似，是在饱和溶液中慢慢产生的，每一种蛋白质养晶的条件皆有所差异，影响晶体形成的变量很多，包含化学上的变量，如酸碱度、沈淀剂种类、离子浓度、蛋白质浓度等；物理上的变数，如溶液达成过饱和状态的速率、温度等；及生化上的变数，如蛋白质所需的金属离子或抑制剂、蛋白质的聚合状态、等电点等，皆是养晶时的测试条件。截至目前为止，并无一套理论可以预测结晶的条件，所以必须不断测试各种养晶溶液的组合后，才可能得到一颗完美的单一晶体(图一) 。

蛋白质晶体的培养，通常是利用气相扩散法(Vapor Diffusion Method) 的原理来达成；也就是将含有高浓度的蛋白质(10-50 mg/ml)溶液加入适当的溶剂，慢慢降低蛋白质的溶解度，使其接近自发性的沈淀状态时，蛋白质分子将在整齐的堆栈下形成晶体。举例来说，我们将蛋白质溶于低浓度(~1.0 M) 的硫酸铵溶液中，将它放置于一密闭含有高浓度(~2.0 M)硫酸铵溶液的容器中，由气相平衡，可以缓慢提高蛋白质溶液中硫酸铵的浓度，进而达成结晶的目的(图二)。

蛋白质晶体在外观上与其他晶体并无明显不同之处，但在晶体的内部，却有很大的差异。一般而言，蛋白质晶体除了蛋白质分子外，其他的空间则充满约40 %至60 %之间的水溶液，其液态的成分不仅使晶体易碎，也容易使蛋白质分子在晶格排列上有不规则的情形出现，造成晶体处理时的困难及绕射数据上的搜集不易等缺点。但也由于高含水量的特性，让蛋白质分子在晶体内与水溶液中的状态，极为相似。所以由晶体所解出的蛋白质结构，基本上可视为自然状态下的结构。

绕射数据的记录
X 光绕射点搜集，随着时间的推移，也由早期以闪烁计数器(scintillation counter) 一次记录一个点及使用许多X-光片(X-ray film) 拍下绕射点，每张X 光片都要经过显影的步骤；之后进而使用多重金属丝板(multiwire)自动记录每次侦测到的绕射点。目前使用的荧光记录板(image plate)，则是利用磷化物经X 光激发后会产生荧光，经荧光扫描仪记录成数字模式的图像文件后，再以灯光照射一段时间去除记录板上的荧光点，即可再进行下一次的记录工作。电荷耦合器 (charge-coupled devices, CCD) 的出现及技术的改良，可以不断地记录绕射点，而不需荧光板扫描及去除步骤，如此将加速绕射点的搜集。目前的同步辐射光源几乎全部使用CCD 来记录绕射数据(图三)。
在实验室中的X 光光源的产生，一般使用铜作为旋转式阳极靶(rotating anode)，可以产生波长为1.54 ? Cu Kα放射光。不过，以目前发表的文献来看，在同步辐射(synchrotron)光源所搜集的资料有增加的趋势，因为同步辐射所提供的X 光束，其强度较实验室强约百倍、甚至上千倍，同时它也可以改变不同频段的波长，以供非寻常散射(anomalous dispersion) 的实验研究

绕射原理
单一分子在X 光下的讯号极弱，无法被记录下来，然而在晶体中通常是由许多排列整齐的蛋白质分子所组成，当晶体内所有的分子(数量约在1015 个以上)一起在同一个方向上进行绕射且绕射波皆同步时，即足以使所产生的讯号被记录下来。每一个绕射波的强度与其振幅(amplitude)的平方成正比。但绕射波的另一个变数，绕射波的相角(phase)，则无法直接测量得到，必须利用其他的方法方能获得(见相角决定方法)。若是绕射点振幅与相角都可获知，则可以进一步地来计算晶体中的电子密度图。
下列方程式即是著名的傅立叶转换公式，ρ表示在晶体中任何一个位置上(x, y, z) 的电子密度，φhkl 为绕射光相角，|Fhkl|为绕射光振幅，可由实验测得的绕射光强度开平方获得。
所以若是记录了所有的绕射波的强度(h,k,l)，并计算出所有绕射光的相角，带入这个公式，蛋白质在晶体内的结构，就以电子密度图的方式呈现在我们的眼前了(图四)。
相角决定方法
决定相角通常有三种常用的方法，分别是同型置换法(isomorphous replacement method) 、非寻常散射法(anomalous dispersion method) 以及分子置换法(molecular replacement) ，现在分述如下：
(1）同型置换法
同型重原子置换法最早的应用是在1954 年，用来解出血红蛋白hemoglobin 的相角，需要在晶体蛋白质的内部加入重原子。通常以浸泡的方法使重原子能够渗透(diffuse) 进入到晶体内部和蛋白质结合。这些重原子对X 光产生较大的绕射，对绕射点的强度会有明显的差异，根据这些差异，可定出重原子的位置，并进而推算出蛋白质晶体绕射光的相角。理论上，若是只获得一组重原子衍生物数据(single isomorphous replacement, SIR)，经计算后，其解并不是唯一的；因此通常会结合数个不同的重原子衍生物所得到的数据(multiple isomorphous replacement, MIR)，来求得更精确的相角。
(2) 非寻常散射法
较重的原子会吸收特定波长的X 光，运用接近吸收边缘(absorption edge)的X 光进行绕射实验时，会产生不寻常的X 光散射或吸收现象，称为非寻常散射(anomalous scattering)，此一现象可导致绕射振幅及相角的改变。经由数个不同波长的X 光照射，记录吸收边缘前后所产生的不同绕射结果，可依此计算出相角。由于它使用数个不同波长，所以称为「多波长非寻常散射法」 (multiwavelength anomalous dispersion, MAD) 。使用这个方法的前提是X 光的波长需依重原子的特性加以调整，而一般在实验室的X 光通常是属于固定波长的，并无法满足这个方法，所以非寻常散射法就需要利用同步辐射可变波长的光源来完成(5)。目前很多实验室使用硒化甲硫胺酸 (selenomethionine)来取代甲硫胺酸 (methionine)，在养菌的同时加入硒化甲硫胺酸，使蛋白质的形成过程带入含有重原子硒的硒化甲硫胺酸，接下来养出蛋白质晶体，在硒的吸收边缘进行绕射实验，并运用MAD 的方法来计算出蛋白质晶体绕射波的相角(图四)。
(3) 分子置换法
若是一个未知的蛋白质与另一已解出结构的蛋白质，在胺基酸序列具有30 %以上的一致性(identity)，表示这两个蛋白质的结构可能类似，可以利用分子置换法来计算出未知蛋白质的相角。利用已知蛋白质之结构分子带入晶体中寻找旋转及位移的可能位置，解析出结构。随着蛋白质结构的增加，可以发现类似的蛋白质具有相同的折迭方式，而出现新的折迭的机率也相对减少，所以只要未知的蛋白质在蛋白质数据库(Protein Data Bank, PDB )中，找到序列上具有同源性(homology)的已知结构时，即可在取得晶体绕射数据后，快速地运用分子置换法来解决相角问题。

三维结构模型之建立及修正
藉由电子密度图的三维构形，可将每一个胺基酸依蛋白质序列建立蛋白质的起始模型。蛋白质的起始模型，常由于相角的解不够完美，使计算出来的电子密度图产生误差，误导模型的走向，因此需要做进一步的改善，称为修正(refinement)。修正的目的在于进行立体化学(stereochemistry)(如胜键键长、键角、胺基酸构形)优化的同时，减少计算与实验绕射点强度的差异，用来评估的数值则是「剩余值(R-factor)」：

其中 Fobs 及Fcalc 分别表示观察值与计算值的绕射光振幅。尽可能将剩余值降到最低，直到进一步的修正无法减少其值为止，即达最终的蛋白质结构模型。大部分修正后可接受的剩余值约0.2 (20%)。但低的剩余值，并不代表其结构就是正确的。已有数个例子显示在蛋白质结构上的某些部分不正确时，仍可能获得较低的剩余值。因此Brünger (7)在1992 年提出一个交互验证的程序，也就是取出部分的绕射点(建议为10%)，排除于修正的程序之外，以对结构的正确性，提供个别的检查，称为「自由剩余值(R- free) 」，其计算方式同剩余值。除了剩余值外，分辨率是另一个判断晶体结构可信度的重要数值。分辨率在蛋白质晶体结构中通常是定义为：可以分辨二个平面的最小距离。分辨率对模型的建构所造成的影响，可以直接由电子密度图看出，在低分辨率(~6 ? )时，只能观察到由α螺旋(α-helix)所形成的圆柱形密度图；随着分辨率提高(3 ? ~ 2 ? ) ，主链与支链结构就会出现，但个别原子仍无法由密度图中看出，除非分辨率可以达到1.0 ? 或更高的分辨率。蛋白质结构所能达到的分辨率，主要是取决晶体内分子排列的整齐程度。小分子晶体内并没有太多的水分子，所以常能得到分辨率高于0.5 ? 的绕射数据。但因蛋白质结构由长的胜链所组成，其间又是由较弱的氢键及凡得瓦力所维系，造成蛋白质结构富有弹性，蛋白质分子与分子的堆栈也就没有那么整齐。同时分子与分子之间的空隙由水分子来填补，也因这些空隙的水分子排列比较紊乱，所以蛋白质晶体绕射出的结果，仅有少数高分辨率晶体，一般蛋白质晶体结构的分辨率约在2.0 至3.0 ? 之间。

生物信息学简概及教程（经典）

一、数据库

注：Display中选FASTA形式，显示原始的核苷酸数据，便于复制。

（2）dbEST
EST来源于mRNA
－基因片度（300-400bp，数据长度足以分析编码的产物）或者全基因（已知）
－5’端或3’端的cDNA序列（EST）
－300-400bp single-pass sequence （可能有误，如果要求<0.1%的错误率，需要测序8-10次）
－GenBank中71%以上的是EST序列。
http://www.ncbi.nlm.nih.gov/dbEST/index.html

（3）UniGene
来源于同一基因的非重复EST，组成基因序列群（contig）
注：不同实验室各自采用poly（T）15法和随机引物合成的cDNA（不完整），不同的cDNA的加工、拼接，形成重叠群（Contig） http://www.ncbi.nlm.nih.gov/UniGene/

（4）dbSTS （sequence tagged sites）
a.短序列（200-500bp） b.已完成染色体上的定位 c.可以与电子PCR相连用
http://www.ncbi.nlm.nih.gov/dbSTS/index.html

（5）dbGSS （genome survey sequence）
a.基因组短序列 b. cosmid、BAC、YAC外源插入片断末端序列 c. Alu PCR 序列
http://www.ncbi.nlm.nih.gov/dbGSS/index.html

（6）HTG （high-throughput genome sequence）
尚未完成测序的重叠群（>2kb）更新快！！！
http://www.ncbi.nlm.nih.gov/HTGS/

（7）dbSNP
每100-300bp有一个SNP
http://www.ncbi.nlm.nih.gov/SNP/

（8）EMBL
http://www.ebi.ac.uk/embl/

（9）DDBJ
http://www.ddbj.nig.ac.jp/

（10）EPD （Eukaryotic Promoter Database）启动子数据库
http://www.genome.jp/dbget/dbget2.html

2．蛋白质数据库
（1）SWISS-PROT
http://us.expasy.org/sprot/
有详细的注释序列；与44个数据库相互参照（cross-reference）
(2)TrEMBL (translation of EMBL)

(3)PIR (Promoter information resource)
http://www-nbrf.georgetown.edu/pir/
表明了结构域

（4）PRF （Promoter research foundation）
http://www4.prf.or.jp/

（5）PDBSTR （Re-organized Protein data Bank）
http://us.expasy.org/sprot/prosite.html
蛋白质的二级结构、α-碳位置

（6）Prosite
蛋白质家族、结构域
http://us.expasy.org/prosite/

3．结构数据库
（1）PDB (Protein Data Bank)
http://www.rcsb.org/pdb/

(2) NDB (Nucleic Acid Database)
http://ndbserver.rutgers.edu/NDB/ndb.html

(3)DNA-bind Protein database
http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html

（4）swiss-3D IMAGE
http://www.expasy.ch/sw3d/

4．酶和代谢数据库
（1）KEGG （Kyoto Eneyclopedin of genes & genemes）
http://www.genome.ad.jp/kegg/

(2)PKR (Protein Kinase Resource)
http://www.sdsc.edu/kinases

5．文献数据库
（1）PubMed
http://www.ncbi.nlm.nih.gov/PubMed/

（2）OMIM
http://www.ncbi.nlm.nih.gov/Omim

（3）Agricola
http://agricola.nal.usda.gov/
农业相关的文献

6．提交数据
GenBank
BankIt提交
网上直接提交，立即得到临时编号（1周内提供Aceesion No.）
SequIn提交下载软件填写表格，自动确定CDS、ORF和查找重复序列、查载体序列
用Update功能修改

二、检索数据库的方法
1、用关键词或词组进行的数据库检索 Text-based database searching
2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching
关键词：名词；描述性词、词组；Accession number
体系：Entrz；Sequence retrieval system (SRS)；Integrated database retrieval system (DBGET)
检索须知
1、连接词：AND OR NOT
用引号将两个词组成一个词组 “disease resistance” 表示必须两个词先后顺序连续出现；disease resistance 表示默认AND
2、wild card “*” 放在单词后使检索范围扩大，但是专一性降低
Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同
（1）Entrz（NCBI）
优点：三种检索体系中最容易操作的；缺点：检索范围有限
8大类29个与Entrz体系相连的数据库
1、Nucleiotide sequence database
GenBank; SNP; Gene; Homologene; UniSTS; ProSet
2、Protein sequence database(1)
Proteins
3、Structure database(4)
Structure; PubChem; Compound; 3D-Domain; CDD
4、Taxonomy database(1)
Taxonomy
5、Genome database(2)
Genomes; Genome Project
6、Expression database(4)
UniGene; GEO Profiles; GEO database;GENSAT
注：数据库来源于mRNA－cDNA－protein（更确切）
7、Literature database(7)
PubMed（文摘）; PubMed central（全文）; Books; OMIM; Journals; NLM catalog; MeSH
8、Others
PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch
检索方法：a、数据库间的检索 b、选择数据库（可以限定检索内容和时间范围）

（2）SRS (Sequence Retrieval System)
http://srs.ebi.ac.uk/ 有不同的版本，可以下载。
EBI 优点：检索面宽缺点：检索复杂
17大类194个数据库与SRS体系相连
检索方法：a、快速检索（操作简单，检索的数据库有限，适用于明确目标的检索。） b、深入检索（检索稍微复杂，检索全部的数据库，适用范围广泛的检索。）

（3）DBGET
http://www.genome.jp/dbget/dbget2.html
优点：与KEGG相连，操作较SRS简单缺点：检索面较窄
检索方法：a、Basic search b、Advanced search

三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching
1、序列对位排列（sequence alignment）
2、将两条或多条序列对位排列，突出相似的结构区域（分析功能、分析物种进化、检测突变，插入或缺

失、序列延长、序列定位、基因表达谱分析） 3、序列对位排列分析种类
a、序列对库对位排列分析（从数据库中寻找同源序列，主要涉及核苷酸库和蛋白质库）
b、两序（多序列）列对位排列分析

（一）序列对位排列分析的基本原理
1、记分矩阵（scoring matrix）
a、蛋白质序列对位排列分析记分复杂
b、一致氨基酸记分不同稀有氨基酸分值高，普通氨基酸分值低
c、相似氨基酸也积分，如D-E 用“＋”表示氨基酸残基性质相似

2、空位（间隔）罚分（gap penalty）
基因进化过程中产生突变（插入、缺失）
序列对位排列分析是允许插入空位
空位罚分涉及两个参数：空位开放（gap opening）空位延伸（gap extension）

（二）序列对库对位排列分析
对待分析的序列对库进行相似性分析；重复许多次的两序列对位排列分析；从数据库找出所以的同源序列
主要检索体系：BLAST、FASTA、Blitz
1、基本概念
a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同
sequence similarity（or opositive）两序列在同一位点核苷酸或氨基酸残基化学性质相似
b、Global alignment 完整的序列比较
Local alignment 两序列相似程度最高的片断相比较
c、Gapped alignment 为达到最佳alignment序列中加入空位
Ungapped alignment 相比较的核苷酸或氨基酸残基连续
d、Alignment score 衡量两相比序列相似程度的标准
E (expect) value 期望得到的，完全由机会造成的，相当于或大于目前分值的alignment次数
Raw score 原始分，分值较大，两个比较序列相似性程度较大
Bit score 采用统计学方法以原始分为基础计算
E＝10 ；表示方法5e-46=5×10-46 E越小越好
可以接受的标准：E＝10-5 （重叠位置>40bp；identity>94%；远大于杂交标准）
E＝10-30 基因组分析，功能与序列中相似
E取决于alignment分值，相比较序列的长短和库中数据数量
e、Low-complexity alignment region(LCR)
核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列（如polyA）
数据库中半数以上的序列至少带有一处LCR
序列alignment 应避免LCR相互配对得分
BLAST用Filter功能避免比较LCR 用X和N分别代表LCR中的每个氨基酸残基和核苷酸

2、BLAST（Basic Local Alignment Search Tool）
（1） Nucleiotide Blast (Blastn)
(2) Protein Blast (Blastp、PSI blast、PHI blast；Conserved domain (rpsblast)
(3) Translated blast (blastx；tblstn；tblsatx)
(4) Special Blast (Blast 2 sequence；bl2seq；VecScreen)
BLAST program
Blastn 用核苷酸序列检索核苷酸库
BlastP 用氨基酸序列检索蛋白质库
Blastx 用核苷酸序列通过6种阅读框翻译成不同的氨基酸序列检索蛋白质库
tblastn 将蛋白质序列译成不同的核苷酸序列检索核苷酸库 tblastx 将核苷酸序列通过6种阅读框翻译成

不同的氨基酸序列检索核苷酸库（库中的序列也被译成不同的氨基酸序列）
Blast database
nr (nucleiotide blast) GenBank（无EST、STS、GSS、HTGS）
nr (protein blast) GenBank CDS translation + PDB + SwissProt + PIR + PRF
(1)BLASTN 序列的粘贴（或用GI号）－选择database－Autoformat（full/semi）
(2)BLASTP
(3)PSI-blast (Position Specific Iterated Blast) 氨基酸序列检索；重复循环检索数据库。注意：

PHI和PSH同一网页，需要设定。
（4）PHI-blast (Pattern Hit Initiated Blast）蛋白质并带有特殊的结构域（pattern）检索库中的

相似蛋白质（带有同样的特殊结构域或者这一临近的序列与被查找的序列相似。）与PSI-blast相连，可

以循环检索。
（5）Translated Blast
Conserved Domain Blast (rpsblast)

3、FASTA
www.ebi.ac.uk/fasta33/index.html
fasta3 用DNA序列检索核苷酸序列，用氨基酸序列检索蛋白质库。
Fastx3/fastay3 将DNA序列及其互补的序列通过6种读码框翻译成不同的氨基酸序列检索蛋白质库
注意：提交结果的形式与Blast不同（表格形式）

4、Blitz
http://www2.ebi.ac.uk/bic_sw/
能检索出远缘的序列；发现家族成员上可*；只用于蛋白质库；慢！一般用email服务。

（三）两序列对位排列分析
全局（贯穿整条序列长度）；局部（相似性变大区段）
1、Blast 2 sequence 任两条序列，允许空位。 blastn, blastp, tblastn(比较蛋白质序列1与核苷酸序

列翻译成蛋白质序列2比较。 blastx 比较核苷酸序列（译成蛋白质）（seq1）和蛋白质序列（seq2）

tblastx 两条核苷酸比较（译成蛋白质） 2、Global alignment program (GAP) 两条序列，允许空位，

可以选记分的矩阵，全局对位排列，提交有格式。 >sequence 1 ATGTGAGGTCCCTGA >sequence 2

GCTGCAAGTCGTAGC 四、多序列对位排列分析和系谱分析主要用于分析基因或蛋白质的进化；通过分析各

个基因和蛋白质序列的同源性确定它们在进化上的关系；分析基因或蛋白质的功能。 1、多序列对位排列

分析（Multiple Sequence Alignment） -两条以上序列排列分析 -可以发展保守的结构域（重要的功能

位点？） -多序列允许插入空位 -Clustal W 目前公认的最好的序列alignment的方法之一（可以下载）

对要分析的序列输入格式有要求 FAST（Pearson）格式 >sequence 1 ATGTGAGGTCCCTGA >sequence 2

GCTGCAAGTCGTAGC -分析方法（举例） Bayor college of medicine (BCM)生物信息学主页

http://dot.imgen.bcm.tmc.edu Multiple sequence alignment –Clustal W 1.8-结果 [o] full

options form 修改 -可以修改分析参数一些参数的定义：（1）Gap opening penalty 增大数值使Gap

数减小； (2) Gap extension penalty 增大数值使Gap变短；（3）Weight transition penalty A-G转

换成C-T 转换（multiple DNA alignment） (4) Hydrophilic gap 选“on”将增加形成gap的机会

你可能感兴趣的:(生物信息学)

推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
零基础入门生信数据分析——导读呆猪儿生信之转录组——上游分析生信之转录组——下游分析学习方法 r语言数据分析数据库数据挖掘需求分析大数据
零基础入门生信数据分析——导读生信数据分析，即生物信息学数据分析，是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释，以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。本帖主要是为生信数据分析的各个分析点提供跳转链接（简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转）关联的生信数据分析的分析点
NCBI BLAST+：分析生物内在编码的工具 belldeep 生物信息学 Blast 生物数据分析
在生物信息学的广阔领域中，NCBI（NationalCenterforBiotechnologyInformation，美国国立生物技术信息中心）开发的BLAST（BasicLocalAlignmentSearchTool，基本局部比对搜索工具）无疑是一把不可或缺的分析工具。NCBIBLAST+，作为其最新版本2.16.0+，为科研工作者提供了一套强大的序列比对和搜索功能，帮助解析生命现象背后的遗
【图论简介】 WA-自动机图论深度优先算法架构后端前端面试
图论简介图论是一门数学分支，主要研究图（Graph）的性质、结构和应用。图论在计算机科学、网络理论、优化问题、生物信息学等多个领域都有广泛的应用。本文将简要介绍图论的基本概念、常见算法及其在实际中的应用。一、图的基本概念图（Graph）：图是由一组顶点（Vertices）和连接顶点的边（Edges）组成的结构。可以表示为(G=(V,E))，其中(V)是顶点的集合，(E)是边的集合。根据边的不同属性
生信圆桌：专业生信服务器与平台服务的提供者生信圆桌x生信云服务器服务器人工智能运维
生信圆桌是一个专注于提供生物信息学（生信）服务器和平台服务的领先企业，致力于为全球科研机构、企业和独立研究者提供高性能的生信分析解决方案。随着生物信息学研究对计算资源的需求日益增加，生信圆桌凭借其先进的服务器技术和专业的服务团队，成为了生信领域中不可或缺的合作伙伴。访问生信圆桌,使用生信云。高效分析少走弯路www.tebteb.cc生信圆桌的核心服务高性能生信服务器定制：生信圆桌为客户提供定制化的
用Python实现生信分析——基序（Motif）识别详解写代码的M教授生信分析 python 开发语言
1.什么是基序（Motif）？在生物信息学中，基序（Motif）是指在生物序列（如DNA、RNA或蛋白质序列）中具有特定功能或结构的短序列片段。基序通常在生物进化中得到保留，因为它们在生物学功能中起着重要作用。例如，在DNA序列中，基序可能是一个转录因子结合位点；在蛋白质序列中，基序可能是一个具有特定功能的结构域。基序识别是指从一组生物序列中识别出保守的短序列片段，这对于功能预测、基因调控网络分析
数据结构与算法——动态规划 passion更好数据结构 C++动态规划算法
目录引言最优子结构重叠子问题打家劫舍（LeetCode198题）经典例题1.爬楼梯（LeetCode70题）2.斐波那契数列（LeetCode126题）3.最长公共子序列（LeetCode95题）引言动态规划（DynamicProgramming,简称DP）是一种在数学、计算机科学、经济学和生物信息学等领域广泛使用的算法设计技术。它通过把原问题分解为相对简单的子问题的方式，来求解复杂问题。动态规划
深度学习——概念引入韶光流年都束之高阁深度学习日记深度学习人工智能职场和发展
深度学习深度学习简介深度学习分类根据网络结构划分：循环神经网络卷积神经网络根据学习方式划分：监督学习无监督学习半监督学习根据应用领域划分：计算机视觉自然语言处理语音识别生物信息学深度学习简介深度学习（DeepLearning，DL）是机器学习领域中的一个新的研究方向，主要是通过学习样本数据的内在规律和表示层次，让机器能够具有类似于人类的分析学习能力。深度学习的最终目标是让机器能够识别和解释各种数据
考研调剂：中医生命科学菌心说双脑论
科学网—考研调剂——欢迎研究生调剂到我们的招生专业方向“中西医结合基础”：中医药与肠道菌群、生物信息学等交叉学科-张成岗的博文http://blog.sciencenet.cn/home.php?mod=space&uid=40692&do=blog&id=1281078欢迎各位有志于从事中医生命科学、解码中医、中西医结合以及医学与数学、计算机科学等交叉学科研究的青年才俊加入我们的研究团队，共同见
2020-04-07 liuyang2020
学习小组Day2笔记--linux入门（刘阳）1.为什么学习linux大多数人用的是可视化界面，便捷的windows，linux用户量比较少，但是需要知道，linux的功能相当的强大，对于数据处理、程序运行方面的优势，那是其它的系统无法比拟的，生物信息学数据处理对电脑要求较高，因此学习linux，，嘿嘿，大势所趋。2.linux操作2.1登录远程登录linux服务器，好像有很多连接软件，今天尝试应
Python在生物信息学中的应用：有序字典简说基因-专业生信合作伙伴 python 开发语言
我们知道，通过{}创建的字典是无序的。如何创建有序字典呢？解决方案可以使用collections模块中的OrderedDict类。当对字典做迭代时，它会严格按照元素添加的顺序进行。例如：from collection import OrderedDictd=OrderedDict()d['1st'] = 1d['2nd'] = 2d['3rd'] = 3d['4th']=4forkeyind:
Python在生物信息学中的应用：同时对数据做转换和换算简说基因-专业生信合作伙伴 python 开发语言
我们需要调用一个换算（reduction）函数，例如sum()、min()、max()等，但首先得对数据做转换或筛选。解决方案一种优雅的方式能将数据换算和转换结合在一起，即在函数中使用生成器表达式。例如，要计算平方和，可以这样：nums=[1,2,3,4,5]s=sum(x*xforxinnums)更多的例子：#Determineifany.pyfilesexistinadirectoryimpo
Python在生物信息学中的应用：列表推导式简说基因-专业生信合作伙伴 python windows 开发语言
列表中有一些数据，我们想提取或删除某些值，该怎么办？解决方案最简单的方法是使用列表推导式（listcomprehension）。例如：>>>mylist=[1,4,-5,10,-7,2,3,-1]>>>[nforninmylistifn>0][1,4,10,2,3]>>>[nforninmylistifn>>列表推导式的使用需要注意其内存占用，当原始列表比较大时，其内存占用较高，可以使用生成器表达
最长公共子序列(LCS) 算法
定义(维基百科)在一个序列集合中（通常为两个序列）查找所有序列中最长的子序列。这与查找最长公共子串的问题不同的地方是：子序列不需要在原序列中占用连续的位置。最长公共子序列问题是一个经典的计算机科学问题，也是数据比较程序，比如Diff工具和生物信息学应用的基础。它也被广泛地应用在版本控制，比如Git用来调和文件之间的改变解决方案这类问题通常都是采用动态规划的思想来解决，核心就是构造出动态解决方程。以
自学生物信息学 gtt儿_生物信息学习
我是生物工程专业出身，在大三保研时选择了生物信息的道路，到现在为止已经在行业里摸爬滚打了6年的时间，在这6年的学习之路上疑惑过，也迷茫过，特此把我学习的过程以及遇到的问题总结出来以让大家避免出现同样的问题。在我学习生物信息过程的基础上带着大家顺畅的走一遍。在学习生物信息学之前，我们先来了解一下什么是生物信息学。生物信息学，顾名思义，生物学和信息学的结合。生物学，这个对大家比较简单，基本入生信行的同
我们能成为孩子的上帝吗—— 谁来管理非法行医的贺建奎闲月农
贺建奎，原南方科技大学副教授，毕业于美国斯坦福大学，拥有多学科交叉的背景，并在基因测序仪研究，CRISPR基因编辑，生物信息学等多个领域取得研究突破。2018年11月26日，贺建奎“基因编辑婴儿”事件引发轩然大波。2018年12月19日，贺建奎入选《Nature》年度十大科学人物。2019年4月18日，上榜美国《时代》杂志（Time）2019年度全球百位最具影响力人物榜单。2019年12月30日，
2022-01-27 学习生信的小兔子
参考：生物信息学100个基础问题——第1~5题答案公布-知乎(zhihu.com)掌握FASTQ格式特点第2行就是测序得到的序列信息，一般用ATCGN来表示，其中N用于荧光信号干扰无法判断到底是哪个碱基时的代表符号；第3行以“+”开始，可以储存一些附加信息，但目前的测序fastq文件这一行一般是空的。第4行储存的是质量信息，与第2行的碱基序列是一一对应的，其中的每一个符号对应的ASCII值是经过换
金域医学：医检行业顶级学术委员会成立，钟南山院士任主席里昂杰森
4位院士领衔23位顶级专家加盟,金域医学“最强大脑”助力中国医学检验2017年12月1日，国内第三方医学检验行业的开拓者和引领者广州金域医学检验集团在广州国际生物岛总部，召开金域医学学术委员会成立大会暨金域学术汇报会由呼吸系统疾病专家、中国工程院院士钟南山出任委员会主席，医学遗传学家、中国工程院院士曾溢滔，生物信息学家、中国科学院院士陈润生，以及我国著名肾脏病专家、中国科学院院士侯凡凡出任委员会顾
机器学习系列——（十九）层次聚类飞影铠甲机器学习机器学习聚类人工智能
引言在机器学习和数据挖掘领域，聚类算法是一种重要的无监督学习方法，它试图将数据集中的样本分组，使得同一组内的样本相似度高，不同组间的样本相似度低。层次聚类（HierarchicalClustering）是聚类算法中的一种，以其独特的层次分解方式，在各种应用场景中得到广泛应用，如生物信息学、图像分析、社交网络分析等。一、概述层次聚类算法主要分为两大类：凝聚的层次聚类（AgglomerativeHie
东南大学-生物信息学 wangchuang2017
http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/Index.html目录image第1章生物信息学引论第2章生物信息学的生物学基础第3章序列比较第4章生物分子数据库第5章基因组信息分析第6章系统发生分析第7章蛋白质结构预测第8章基因表达数据分析附录常用基本词汇表
TCGA新版数据库表达矩阵提取医学和生信笔记
本文首发于公众号：医学和生信笔记医学和生信笔记，专注R语言在临床医学中的使用，R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。现在使用TCGAbiolinks下载转录组数据后，直接是一个SummarizedExperiment对象，这个对象非常重要且好用。因为里面直接包含了表达矩阵、样本信息、基因信息，可以非常方便的通过内置函数直
R语言可视化学习笔记之ggridges包生信宝典 R 生物信息生物信息可视化
作者：严涛浙江大学作物遗传育种在读研究生（生物信息学方向）伪码农，R语言爱好者，爱开源。严涛老师的绘图教程还有：gganimate|诺奖文章里面的动图布局教程来了！！ggplot2学习笔记之图形排列R包ggseqlogo|置换序列分析图ggplot2高效实用指南（可视化脚本，工具，套路，配色）简介ggridges。主要包用来绘制山峦图产品尤其的英文针对时间或者空间分布****可视化。具有十分好的效
microRNA数据库与预测、功能分析软件大全 Seurat_Satija
在microRNA的研究中，生物信息学发挥越来越重要的作用，以下是microRNA相关的数据库与预测、功能分析软件，绝对值得收藏。1.miRBase:http://www.mirbase.orgmiRBase序列数据库是一个提供包括已发表的miRNA序列数据、注释、预测基因靶标等信息的全方位数据库，是存储miRNA信息最主要的公共数据库之一。miRBase提供便捷的网上查询服务，允许用户使用关键词
从列表中删除元素|自学生信Python（第十六天）天明豆豆
从列表中删除元素Python有从数据结构对象，如列表和字典中去除数据项的函数。写在前面的话：本人是一枚生物学的学生，由于对生物信息学特别感兴趣，于是想自学生物信息学（新手莫怪）。了解到生物信息学要有编程基础，尤其是要会一门编程语言，例如：R语言、Python、Perl等，还要熟悉Linux系统，作为生信小白，听说Python挺简单的，于是就自学了Python，花了两天时间了解了Python的基础语
「转录组」从环境配置之conda 旮旯蜗牛_c299
image.png什么是condaconda：开源包管理系统和环境管理系统，用于安装多个版本的软件包及其依赖关系，并在它们之间轻松切换。系统：适用Linux，OSX和Windows。For：为Python程序创建的，但可以打包和分发任何软件。【生物信息学频道bioconda】Anaconda是一个开源的Python发行版本，包含了conda、python等180多个科学包及其依赖项。因为包含了大量
生信绘图：在线绘制序列 Logo 图 Ningbo_JiaYT 统计绘图生物信息学 R 学习方法
本文介绍通过WebLogo网站在线绘制序列Logo图（序列分析图）。网站链接：WebLogo3-About(threeplusone.com)1序列Logo图序列Logo是一种常用于可视化DNA、RNA或氨基酸序列中保守性和模式的图形化方法。它是由生物信息学领域中的生物学家TomSchneider和R.MichaelStephens在1990年首次引入的。序列Logo通过显示序列中每个位置上不同碱
理解生物信息学FASTA格式陈佶1
在生物信息学中，FASTA格式是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来表示，且允许在序列前添加序列名及注释。FASTA文件以序列表示和序列作为一个基本单元，各行记录信息如下：第一行是由大于号">"开头的任意文字说明，用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性。；从第二行开始为序列本身，只允许使用既定的核苷酸
Cytoscape软件下载、安装、插件学习[基础教程] 小杜的生信筆記 R语言精美图形绘制教程数据分析 Cytoscape 网络图富集分析信息可视化生物信息学 r语言
写在前面今天分享的内容是自己遇到问题后，咨询社群里面的同学，帮忙解决的总结。关于Cytoscape，对于做组学或生物信息学的同学基本是陌生的，可能有的同学用这个软件作图是非常溜的，做出来的网络图也是十分的好看，“可玩性”很高，就像前面分享的aPEAR包一样aPEAR包绘制功能富集网络图。自己在前面写论文的时候也是一直在使用，以前使用的版本是3.3.0的版本。但是，时间一长，很多操作都忘记。今天，在
支持向量机小森( ﹡ˆoˆ﹡ ) 机器学习算法支持向量机算法机器学习
支持向量机（SupportVectorMachine，SVM）是一个非常优雅的算法，具有非常完善的数学理论，常用于数据分类，也可以用于数据的回归预测中。支持向量机在许多领域都有广泛的应用，如文本分类、图像识别、生物信息学、金融预测等。支持向量机的应用：（1）文本分类：支持向量机可以用于文本分类任务，如垃圾邮件过滤、情感分析、主题分类等。通过对文本数据进行预处理，提取特征，然后使用支持向量机进行训练
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。