第十一章 人类复杂疾病与计算系统生物学

文章目录

  • i. 复杂疾病
    • a. 复杂疾病概述
      • i. 健康的概念
      • ii. 自稳调节控制下的自稳态或称内环境稳定
      • iii. 疾病的概念
      • iv. 病因
      • v. 复杂疾病的定义
      • vi. 微效基因
        • a)微效基因
        • b)累加效应
      • vii. 常见复杂疾病
      • viii. 先天性畸形
      • ix. 遗传变异是复杂疾病的决定因素
      • x.人类遗传病分类
    • b. 染色体异常遗传病
    • c. 基因病
      • i. 概念
      • ii. 研究基因与疾病关系的主要目的
      • iii. 狭义基因病的分类
        • a)单基因病(孟德尔遗传疾病)
          • 常染色体遗传病
          • 2.性染色体遗传病
          • 3.类型
        • b)多基因病(复杂疾病)
          • 主要特点:
        • c)获得性基因病
  • ii. 精准医学
    • a. 精准医学的背景
    • b. 精准医学的概念
    • c. 精准诊断/预防的概念
    • d. 针对精准癌医学的创新性临床试验
    • e. 精准治疗\------精准药物
      • i. 分子靶标
          • 定义:
          • 靶标来源:
      • ii. 精准剂量
      • iii. 面临的挑战
      • iv. 精准治疗和预防
    • f. 复杂疾病数据库
      • i. WHO规范的疾病分类标准(ICD)
      • pitii. 疾病数据库(disease ontology)
  • iii. 疾病网络重构的计算系统生物学方法
    • a. 生物分子网络
      • i.分子生物网络的概述
        • a)生物网络
        • b)分子生物网络
      • ii.分子生物网络的分类
        • a)转录调控网络
        • b)转录后调控网络
        • c)蛋白质互作网络
        • d)代谢网络
        • e)信号转导网络
        • f)表观遗传调控网络
    • b. 网络重构分析
      • i.网络定义
      • ii.网络分类
        • a)有向网络与无向网络
        • b)加权网络与无权网络
        • c)二分网络
    • c. 网络的扩扑属性
      • i.连通度
      • ii.聚类系数
      • iii.介数
      • iv.边介数
      • v.紧密度
      • vi.直径
      • vii.平均距离
      • viii.无标度分布
    • d.疾病网络重构分析的应用
      • i.Disease-Gene网络重构分析
      • ii.Disease-pathway网络重构分析
      • iii.Disease-miRNA网络重构分析
      • iv.其他网络重构分析
  • iv. 常用的复杂疾病知识
    • a.OMIM数据库
      • i.OMIM数据库简介
      • ii.OMIM数据库使用
      • iii.OMIN编号含义
    • b.遗传关联数据库(GAD)
    • c.COSMIC数据库
      • i.COSMIC数据库简介
      • ii.COSMIC数据库使用
    • d.基因型和表型数据库(dbGAP)
    • e.癌症基因数据库(CGAP)
    • f.人类基因突变数据库(HGMD)
    • g.GeneCards数据库

i. 复杂疾病

a. 复杂疾病概述

i. 健康的概念

躯体上,精神上和社会上处于良好状态.即:健康至少包含强壮的体魄和健全的心理精神状态

ii. 自稳调节控制下的自稳态或称内环境稳定

正常机体主要在神经和体液的调节下,在不断变动的内环境因素作用下能够维持各器官系统机能和正常代谢的正常进行,维持内环境的相对的动态稳定性

iii. 疾病的概念

疾病是机体在一定病因的损害作用下,因机体自稳态调节紊乱而发生的异常生命活动过程

iv. 病因

指作用于机体的众多因素中能引起疾病并赋予该病特征的因素

  • 外因:外界环境变化
  • 内因:遗传物质的变异

任何疾病的发生,都不算单一原因所引起,而是内因和外因相互作用的结果

外因是条件,外因必须通过内因而起作用

v. 复杂疾病的定义

复杂疾病,又称多基因病,是指由多种遗传和环境因素共同决定的一类疾病.与单基因病相比,复杂疾病具有遗传异质性,基因微效性,表型复杂性,种族差异性以及环境相关性等特点

  • 复杂疾病涉及多种基因和蛋白:众多基因通过蛋白质复合物,调控网络以及互作通路来控制的
  • 复杂疾病受环境因素影响.同一个体在不同条件下对环境的响应也不同.基因组的个体差异使不同人对环境的响应也不同

复杂疾病涉及多基因和蛋白

复杂疾病,又称多基因病,性状或疾病的遗传方式取决于两个以上微效基因的累加作用,还受环境因子的影响,因此这类性状或疾病称为复杂性状或复杂

vi. 微效基因

a)微效基因

人类的一些遗传性状或某些遗传病的遗传基础不是一对主基因,而是几对基因,每一对基因对遗传性状或遗传病形成的作用是微效的

b)累加效应

若干对基因作用积累之后,可以形成一个明显的表型效应,称为累加效应.这些基因称为累加基因

vii. 常见复杂疾病

  1. 糖尿病
  2. 冠心病
  3. 精神分裂症
  4. 原发性高血压
  5. 哮喘
  6. 老年性痴呆
  7. 近视

viii. 先天性畸形

  1. 脊柱裂
  2. 先天性心脏病
  3. 唇腭裂
  4. 先天性巨结肠

ix. 遗传变异是复杂疾病的决定因素

  • 遗传因素在大多数复杂疾病中起决定作用
  • 人群中任意不相关个体DNA序列大部分一致,少部分存在差异
  • 基因组的不同导致生理表型,罹患疾病的风险即药物反映表型的差异,在人类多样性形成中具有重要意义

x.人类遗传病分类

  • 多基因遗传病
  • 单基因遗传病
  • 染色体异常遗传病
  • 线粒体遗传病
  • 获得性基因病

b. 染色体异常遗传病

  • 由于人的染色体发生异常而引起的遗传病
  • 目前已发现100多种
  • 特点:染色体异常病往往造成较严重的后果.甚至在胚胎期就引起自然流产
  • 染色体畸变------数目异常,结构畸变
  • 分类:常染色体病和性染色体病

c. 基因病

i. 概念

基因本身突变,缺失,表达调控障碍引起的疾病本身

ii. 研究基因与疾病关系的主要目的

  • 确定治病基因或疾病易感基因

  • 阐明这些基因的功能和其在疾病发生发展中的作用机制

  • 指导临床诊断,治疗和预后的实践

iii. 狭义基因病的分类

a)单基因病(孟德尔遗传疾病)

由单一基因缺陷或由主基因缺陷而引起的遗传疾病,叫作孟德尔遗传疾病

孟德尔遗传疾病的遗传模式基本满足孟德尔遗传定律

分类

  • 常染色体遗传病
    • 由显性基因引起的------常显

    • 由隐性基因引起的------常隐

  • 2.性染色体遗传病
    • X

      • 由显性基因引起的------X显

      • 由隐性基因引起的------X隐

    • Y

      • 由显性基因引起的------Y显
      • 由隐性基因引起的------Y隐
3.类型
常显 常隐 伴X隐性 伴X显性 伴Y遗传
病例 多指,并指,软骨发育不全,马凡综合征 白化病,先天性聋哑,苯丙酮尿症 色盲,血友病,进行性肌营养不良 抗维生素D佝偻病 外耳道多毛症
特点 通常为代代相传,男女发病率相等 通常为隔代遗传,男女发病率相等 通常为隔代遗传和交叉遗传,男患者多于女患者 通常为代代遗传,男患者少于女患者 后代只有男性患者,且代代发病

b)多基因病(复杂疾病)

由多个基因共同控制其表型性状的疾病

主要特点:
  • 指由多个基因位点共同参与,且和环境因素相互作用决定表型

  • 发病率较高,一般都超过1/1000

  • 疾病的发生都有一定的遗传基础,并常出现家族倾向,但不是单基因遗传,患者同胞的发病率不遵循1/2或1/4的规律,大约占1%和10%

    • 亲缘系数相同,发病风险相同;随亲属的级别的降低,患者亲属的发病风险迅速降低
    • 近亲结婚时,子女的发病风险也增高,但不及常染色体隐性遗传显著
  • 疾病的发生还受种族等因素的影响

c)获得性基因病

疾病由病原微生物感染引起,不符合孟德尔遗传规律

获得性遗传是指生物个体在生活过程中,由于受外界环境的影响,产生带有适应性和方向性的形状变化并能够遗传给后代的现象,但只有那些引起了基因变化的性状,才是能遗传的;反之,只引起表型变化,即发生获得性状如被太阳晒黑,由于没有引起基因改变,这种获得性状是不能被遗传的

ii. 精准医学

a. 精准医学的背景

b. 精准医学的概念

精准医学是以个体化医疗为基础、随着基因组测序技术快速进步及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式

短期目标:为癌症找到更多更好的治疗手段

长期目标:为实现多种疾病的个性化治疗提供有价值的信息

c. 精准诊断/预防的概念

  • 精准癌医学将原来的某些"大病"如肺癌细分成许多的"小病"甚至是"罕见病";

  • 同时,精准医学又将许多不同的癌症串联起来而形成新的一类疾病

  • 癌症精准医学计划希望进一步借助基因组测序和信息分析,来解释癌症药物抗性的原因,阐明癌症基因组的异质性特征,解析癌症复发和转移的机制,建立癌症联合用药新的应用指南等;最终形成对癌症精确诊断、分子分型、治疗应答预测的标志物等一整套精准医学指标。

  • 癌症化学疗法的精准医学,癌症患者将能更快地用上有效的治疗药物。

d. 针对精准癌医学的创新性临床试验

随着基因组学的不断进步,人们对精准医学越来越感兴趣,期望通过识别基因组成开发能够具体影响疾病靶点的疗法(即靶向疗法)来改善疾病的治疗。因此,认识生物标志物以及如何利用它们开发靶向治疗至关重要

在这样的大趋势之下,衍生出了两类临床试验的类型——篮子试验和伞式试验。在2009年至2019年的10年间,这两类临床试验的数量从2项(1项篮子试验及1项伞式试验)增加到了67项(49项篮子试验及18项伞式试验)

  1. 伞式试验

针对分层为多个亚组(基于预测性生物标志物或其他预测性患者危险因素)的单一疾病评估多种靶向治疗的前瞻性临床试验。

“Umbrella Trial”,即撑起一把大伞,把具有不同驱动基因的肺癌,如KRAS、EGFR、ALK 拢聚在同一把雨伞之下,这把大伞,就是将不同的靶点检测在同一时间里完成,然后根据不同的靶基因分配不同的精准靶药物。Umbrella试验的最大优势,在于将非常少见的突变事件集中起来,变少见事件为“常见”事件,这无论对加速少见疾病的临床试验还是对于某一个个体获得精准治疗的机会,都具有特别的意义。

  1. 篮子实验

针对具有共同分子改变(预测风险因素)的多种疾病评估相应靶向治疗的前瞻性临床试验。一类称为“Basket Trial”,即篮子试验。

形象点儿说,某种靶点明确的药物就是一个篮子, 将带有相同靶基因的不同癌症放进一个篮子里进行研究就是篮子试验,“Basket Trial” 的本质就是一种药物应对不同的肿瘤。

这意味着通过对于同一分子事件的管理,使得带有这种驱动基因的不同肿瘤都能用同一种药物进行治疗。正在进行中的克唑替尼A8081013 临床试验(ClinicalTrials.gov Identifier: NCT01121588)就是一项包括上述各种恶性肿瘤的Basket 试验。除了ALK 之外,EGFR、HER2、BRAF 等基因都可能在不同的肿瘤中发挥驱动的作用,可以往篮子里面装。其中,针对BRAF的研究正在如火如荼地开展着。BRAF 突变可以在多发性骨髓瘤、黑色素瘤、卵巢癌、结肠癌、甲状腺癌、绒毛膜癌、胃肠肿瘤、肺癌等多个癌种中被检出。BRAF V600E 的篮子试验也在进行中。

e. 精准治疗------精准药物

期望:精准药物选择性地(只针对“靶”)发挥药理作用,而对非靶点无杀伤或无明显副作用

指直接针对疾病主因的精确缺陷来抑制功能紊乱,甚至恢复正常功能,为患者提供最有利的治疗

例子:癌症化疗 药物(小分子化合物、大分子蛋白质抗体和免疫细胞治疗等)

抗癌药物发展先后出现三次大革命

  • 细胞毒性化疗药物

    • 目前临床上使用最多抗癌化疗药物

    • 原理:杀死快速分裂的细胞,就可以治疗癌症

    • 几十种常用化疗药物,机制各有不同。像抑制癌细胞的代谢特别是核苷酸代谢,如嘌呤类似物6-巯基嘌呤具有高效抗癌活性

    • 缺点:只寻找分裂快的细胞,不区分恶性细胞还是正常细胞; “杀敌一千,自损八百”

    • 使用剂量必须严格控制

  • “靶向治疗”——靶标(分子)

  • 免疫疗法

    • 免疫治疗(immunotherapy)是指针对机体低下或亢进的免疫状态,人为地增强或抑制机体的免疫功能以达到治疗疾病目的的治疗方法。

      • 肿瘤的免疫治疗旨在激活人体免疫系统,依靠自身免疫机能杀灭癌细胞和肿瘤组织

i. 分子靶标

定义:
  • 存在于组织细胞内, 与疾病发生有因果关系或参与疾病发展

  • 与药物相互作用,并赋予药物效应的生物分子,进而实现治疗目的

  • 可以是单个基因、蛋白质或与许多不同疾病相关的蛋白质相互作用的通路,也可以是多糖分子等生物大分子

靶标来源:
  • 致病靶基因

    • 癌基因、抑癌基因、生长因子及其受体、细胞信号转导系统功能分子、细胞周期调控物质、酶类等基因
  • 外源致病微生物

    • 如HIV,SARS的结构基因

ii. 精准剂量

TPMT(硫標吟甲基转移酶)缺乏症的病人对AZA(硫唑嘌呤)是临床上常用的免疫抑制剂)的骨髓抑制作用异常敏感;尤其是与TPMT抑制剂(如别嘌呤醇)合用时,此作用会加重。

硫標吟甲基转移酶缺乏症(thiopurinemethyltransferasedeficiency, TPMTdeficien- cy; MIM: 610460)在家系中以常染色体隐性(AR)的形式传递。该缺乏症由 TPMT基因突变引起,基因定位于6号染色体(6P22),此缺乏症会影响机体代谢硫 嘌呤类药物的能力,硫嘌呤是嘌呤类抗代谢物,为常见的化疗药物之一,TMPT是这 类药物代谢中最主要的酶之一,TMPTdeficiency会使人体无法将此类药物灭活从而使 其在体内大量堆积,引起严重的骨髓损伤,所以此缺乏症的临床表现通常为服用该 类药物后所出现的贫血,血小板减少(引起出血倾向)和白细胞减少(易感染), 一般的骨髓损害在停药后会消失,但如果造成不可逆的严重损伤,症状会持续。

TPMT缺乏症的诊断主要以基因诊断为主,其治疗主要依据TPMT基因突变的情况, 如果为单个基因突变,则减少硫嘌呤类药物使用剂量30%~70%,而若有两个基因突 变则应该减少至少10倍以上的剂量,而药物的使用频率也应降低到每周3次。

iii. 面临的挑战

  • 精准“靶点”寻找

    基因组测序已成为一种常规性手段,但对产生的海量数据做信息分析仍是一大难题

  • 药物制备----找到干预或治疗的理想手段

    许多重要的癌症相关基因如p53、Ras等虽已研究多年,目前仍缺乏应用于临床的有效药物。

    免疫治疗也仅提供了一种选择,寻找更多的治疗策略还面临重大挑战

  • 癌症异质性—癌症的基本特征之一

    筛选到理想靶点还只是完成了第一步,更艰巨的任务是找到干预或治疗的理想手段。癌症异质性 异质性(即癌症组织内部存在多个突变类型)是癌症的基本特征之一,也是开展精准医学的最大难题。即使治疗靶点和治疗都非常有效,也只对部分癌细胞有效;尽管能做到精准杀伤,但是那些躲过“灭顶之灾”的非靶向癌细胞,可能会更疯狂地增殖和转移,最终造成治疗失败。

    最大挑战还在于:精准医学的概念和人体的复杂性有内在不可调和的矛盾。医学的基础和临床研究大都基于统计学原理,极少应用确定性较高的数学模型,这将意味着医学“永远”不可能精准。

    总之,探索癌症治疗的路还很漫长,精准医学计划可能对此有一定帮助,但真正的突破还应寄希望于癌症新机制的发现或治疗新思路的提出。精准医学在癌症治疗方面有着美好的前景,但同时面临着更多棘手的难题,用哲学语言表述就是:前途是光明的,道路是曲折的。

iv. 精准治疗和预防

前提:精准诊断,从基因的层面掌握了精确的病因

立足于大数据之上

核心:识别疾病精准致病基因与异常基因

f. 复杂疾病数据库

i. WHO规范的疾病分类标准(ICD)

国际疾病分类,简称ICD(International Classification of Diseases),是目前国际上共同使用的统一的疾病分类方法。

ICD的目的是

对不同国家或地区在不同时间收集到的死亡和疾病数据进行系统地记录、分析、解释和比较,其中包括对各人群组一般健康状况的分析,疾病发病和患病的监测以及其有关的其他健康问题。

强调“以病因为主、解剖部位和其他为辅”的原则采用 “字母数字编码”形式

  • 它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。

  • 第1位为英文字母,第2、3位为阿拉伯数字

  • 从“A00-Z99”对所有的疾病归成21大类疾病,再逐渐细分成小类等详细内容。
    全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD-10

pitii. 疾病数据库(disease ontology)

2003年在Northwestern大学启动的Nugene计划的一部分

  • 提供一个与人类疾病相关的整合的生物医学数据集的开源Ontology体系
  • 促进各种疾病及相关健康状况向特定医学代码的映射
  • 期望构建成一个具有正确的Ontology体系结构并且在语义上可计算的结构形式

开源的,网址是:http://www.disease-ontology.org/

关系图说明:

  • 红色的为你研究的DO

  • 绿色表示该类型存在父节点或子节点,可点击扩展

  • 灰色表示叶节点

  • 黄色的圆圈数字代表存在几个父节点或子节点,没有详列出。

iii. 疾病网络重构的计算系统生物学方法

a. 生物分子网络

i.分子生物网络的概述

a)生物网络

网络生物学研究表明细胞网络服从网络科学的普遍规律,它提供了一个新的重要框架,在21世纪可能引起生物学和医学的革命性变化。

网络生物学研究的主要目标是分子和在一个活细胞中的分子之间的相互作用,了解这些分子和在他们之间的相互作用如何决定这些功能非常复杂的机制。

b)分子生物网络

分子生物网络:是指生命系统中形态与功能上特化的细胞集团之间,以及各种生物大分子在组合上相互关联的结构形式。

  • 分子生物网络相互联系并跨越生命系统各层次,使生命运动呈现组织性、确定性、稳定性、协调性的功能;
  • 分子生物网络是生命系统细胞与细胞内、外环境之间进行物质、能量、信息转换的渠道。

ii.分子生物网络的分类

分子生物网络的分类标准基于分子生物学的分类标准。

a)转录调控网络

  • 转录调控是基因表达调控中最重要、最复杂的一个环节,也是当前研究的重点。
    转录因子可以结合在基因上游特异的核苷酸序列上,以此调控基因的表达。
  • 通过基因转录调控数据构建基因转录调控网络。
    基因转录调控网络(transcriptional regulatory network)描述转录因子及其调控的基因之间的关系。
  • 有向图
  • 其中点表示转录因子或者被调控的基因,边表示转录因子对基因的调控关系,箭头指向被调控的基因。
  • 正调控
  • 负调控

b)转录后调控网络

miRNA-靶基因的转录后调控网络是一种典型的二分网络,网络的边只存在于miRNA集合和靶基因集合之间,而miRNA集合和靶基因集合内部并不存在调控关系。

c)蛋白质互作网络

  • 单独蛋白通过彼此之间的相互作用构成蛋白质相互作用网络来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。
  • 系统分析大量蛋白在生物系统中的相互作用关系,对于了解生物系统中蛋白质的工作原理,了解疾病等特殊生理状态下生物信号和能量物质代谢的反应机制,以及了解蛋白间的功能联系都有重要意义。
  • 蛋白质互作通常可以分为物理互作和遗传互作。
  • 蛋白质互作网络(Protein interaction network)是系统显示蛋白质互作信息的基本方法。
  • 蛋白作为节点,相互作用关系作为边。

d)代谢网络

  • 代谢通路(Metabolic pathway)是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。

  • 代谢网络则是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络

e)信号转导网络

  • 生物中的信号传导(Signal transduction)则是指细胞将一种类型的生物信号或刺激转换为其他生物信号最终激活细胞反应的过程
  • 同代谢通路一样,信号传导的过程中多个生物分子在酶作用下按照一定顺序发生一系列生理化学反应,由此得到了信号传导通路。

f)表观遗传调控网络

b. 网络重构分析

  • 分子生物网络分析:

    基于复杂网络的技术研究分子生物网络的结构形式,分析各组分之间的调控关系、以及物质、能量、信息转换的渠道等。

  • 分子生物网络构建、分析方法是掌握的重点。

    • Disease-Gene网络重构分析
    • Disease-pathway 网络重构分析
    • Disease-miRNA 网络重构分析
    • 其他类型网络重构分析

i.网络定义

  • 网络定义:通常可以用图G=(V,E)表示网络。
  • 其中, V 是网络的节点集合,每个节点代表一个生物分子,或者一个环境刺激;
  • E 是边的集合,每条边代表节点之间的相互关系。
  • 当V中的两个节点v1与v2之间存在一条属于E的边e1时,称边e1连接v1与v2,或者称v1连接于v2,也称作v2是v1的邻居。

ii.网络分类

a)有向网络与无向网络

  • 根据网络中的边是否具有方向性或者说连接一条边的两个节点是否存在顺序,网络可以分为有向网络与无向网络,边存在方向性,为有向网络,否则为无向网络。

  • 生物分子网络的方向性取决于其所代表的关系。

  • 如调控关系中转录因子与被调控基因之间是存在顺序关系的,因此转录调控网络是有向网络,而基因表达相关网络中的边代表的是两个基因在多个实验条件下的表达高相关性,因此是无向的。

b)加权网络与无权网络

  • 网络中的边在网络中具有不同意义或在某个属性上有不同的价值是网络中普遍存在的一种现象。

  • 如果网络中的每条边都赋予相应的数字,这个网络就称为加权网络,赋予的数字称为边的权重。

  • 如果网络中各边之间没有区别,可以认为各边的权重相等,称为等权网络或无权网络。

  • 权重可以用来描述节点间的距离、相关程度、稳定程度、容量等等各种信息,具体所代表的意义依赖于网络和边本身所代表的意义。

c)二分网络

如果网络中的节点可分为两个互不相交的集合,而所有的边都建立在来自不同集合的节点之间,则称这样的网络为二分网络(bipartite network)

c. 网络的扩扑属性

i.连通度

  • 连通度(degree)是描述单一节点的最基本的拓扑性质。节点v的连通度是指网络中直接与v相连的边的数目。

  • 对于有向网络往往还要区分边的方向,由节点v发出的边的数目称为节点v的出度,指向节点v的边数则称为节点v的入度。

  • 我们用符号k来表示连通度,kout表示出度,kin表示入度。

  • 连通度描述了网络中某个节点的连接数量,整个网络的连通性可以使用其平均值来表示

  • 对于由N个节点和L条边组成的无向网络其平均连通度为Knet=2L/N。

  • 连通度较大的节点称为中心节点(hub)

  • 必需基因或其翻译产物的比例在中心节点中出现的频率显著高于一般节点。

ii.聚类系数

  • 在很多网络中,如果节点v1连接于节点v2,节点v2连接于节点v3,那么节点v3很可能与v1相连接。这种现象体现了部分节点间存在的密集连接性质,可以用聚类系数(clustering coefficient)CC来表示,在无向网络中,聚类系数定义为:
    C C v = n C k 2 = 2 n k ( k − 1 ) CC_v=\frac{n}{C_{k}^{2}}=\frac{2n}{k(k-1)} CCv=Ck2n=k(k1)2n

  • 公式中,K表示节点V的邻居数目,n表示节点V的K个邻居两两之间连接的边数, Ck2 表示K个邻居两两相连的最多边数。

  • 因为n表示在节点v的所有的k个邻居间边的数目,则在无向网络中,n的最大数目可以由邻居节点的两两组合数k(k-1)/2来确定,所以CC值位于[0,1]区间。

  • 当节点v的所有邻居都彼此连接时,v的聚类系数CC=1;

  • 当v的邻居间不存在任何连接时,CC=0。

  • 网络的聚类系数:网络中各个节点的聚类系数的平均值,反映网络的聚集程度

  • 聚类系数满足:0

    • 若C=1:任意两个节点有连接
    • 若C=0:无三角形连接
    • 大部分复杂网络有较大的聚类系数→小世界特征
  • 在有向网络中,由于两个节点间可以存在两天方向相反的边,则标准化的聚类系数被定义为:
    C C v = n p k 2 = n k o u t k o u t − 1 CC_v=\frac{n}{p_k^2}=\frac{n}{k_{out}k_{out}-1} CCv=pk2n=koutkout1n

  • 其中,kout指v的出度,K指节点A指向的连接的邻居个数,n指所有A所指向的连接的节点彼此之间存在的边数

iii.介数

  • 一个节点的介数是衡量这个节点在其他节点间最短路径中的比例。节点v的介数Bv定义如下:
    B v = ∑ i ≠ j ≠ v ∈ V σ i v j σ i j B_v=\sum_{i\ne j\ne v \in V}\frac{\sigma_{ivj}}{\sigma_{ij}} Bv=i=j=vVσijσivj

  • 其中,σij表示节点i到节点j的最短路径的条数,σivj表示其中通过节点v的路径条数

  • 介数表名了一个节点在其他节点彼此连接中所起到的作用

  • 介数越高,意味着在保持网络紧密连接性中节点越重要

iv.边介数

  • 网络中所有最短路径中经过改边的路径的数目占最短路径总数的比例
  • 边的介数衡量的是作为“桥梁”作用
  • 最短路径:从起点到终点所含边的数目最少的路径
  • 最短路径问题是图论研究中的一个经典算法问题

v.紧密度

  • 紧密度是描述一个节点到网络中其他所有节点平均距离的指标。节点v的紧密度Cv定义如下
    C v = 1 n − 1 ∑ j ≠ v ∈ V d v j C_v=\frac{1}{n-1}\sum_{j\ne v\in V}d_{vj} Cv=n11j=vVdvj

  • 其中dvj表示节点v到节点j的距离

  • 紧密度测度衡量节点接近网络“中心”的程度,紧密度测度越小,节点就越接近中心

vi.直径

  • 直径是描述网络总体性质的一个属性。网络的直径是指网络中任意两个联通点间距离的最大值
  • 网络的直径代表了网络中节点连接可能出现的最远距离,标志着网络紧密的程度

vii.平均距离

  • 网络的平均距离是指网络中也是描述网络总体性质的一个属性
  • 网络的平均距离是指网络中任意两个连通节点距离的平均值,也是衡量网络紧密程度的重要指标

viii.无标度分布

  • 网络中节点的度的分布情况可以用分布函数P(k)描述
  • p(k)表示的是一个随机选定的节点的度恰好为k的概率
  • 常见的网络度分布:
    • Delta分布
      • 规则网络有着简单的度序列:因为所有的节点具有相同的度,所以其度分布为Delta分布,它是单个尖峰
    • 泊松分布(完全随机网络)
      • 完全随机网络的度分布近似为poisson分布
      • 其形状在远离峰值处呈指数下降
    • 幂律分布(无标度网络)
      • 近几年的大量研究表名,许多实际网络的度的分布明显地不同于possion分布
      • 许多网络的度分布可以用幂律形式p(k)=~k-r来更好的描述
      • 许多复杂网络包括internet、www以及新陈代谢网络等的连接度分布函数具有幂律形式
      • 近年来,人们在互联网和人际关系网络等社会学网络的研究中都发现看“无标度”特性
      • 无标度网络中,大部分节点通过少数中心节点连接到一起,这就意味着网络中的地位是不平等的,中心节点在连接网络完整性方面起更加重要的作用
      • 定义:无标度网络,指网络中连通度的分布符合幂律分布,即p(k)~k-r的网络
      • 在无标度网络中的大部分节点的连通度较低,但存在少数连通度非常高的节点使网络连接在一起。在这种网络中,平均连通度等标度已经不足以描述网络的规模和结构
      • 在无标度网络中存在着一个显著的特点就是网络中存在着少数度很高的节点(远超平均度),这样的节点称为“hub”
      • 往往认为这样的节点在网络中具有重要的作用,在这样的节点周围存在着保守的网络结构
    • 鲁棒性和脆弱性
      • 这种网络结构可以允许一些破坏行为。如果干扰随机的发生,网络中大多数的节点度很低,hub节点的数目很少,因此破坏hubs节点的概率很低
      • 即使hubs节点受到干扰,网络也会因为其他的hubs节点的存留而保留原来的扩扑结构
      • 另一方面,如果将网络中的大部分hubs节点摘除,这样网络中就会出现一些孤立的点的图
      • 因此无尺度网络中的hubs节点高度影响网络中的鲁棒性

d.疾病网络重构分析的应用

i.Disease-Gene网络重构分析

ii.Disease-pathway网络重构分析

iii.Disease-miRNA网络重构分析

iv.其他网络重构分析

iv. 常用的复杂疾病知识

a.OMIM数据库

i.OMIM数据库简介

在线人类孟德尔遗传疾病数据库

ii.OMIM数据库使用

OMIM编号代表的遗传方式

MIM编号范围 遗传方式
100000-199999 常染色体显性遗传
200000-299999 常染色体隐性遗传
300000-399999 x连锁位点或表型
400000-499999 y连锁位点或表型
500000-599999 线粒体位点或表型
600000- 染色体位点或表型

OMIM号前特殊符号代表的含义

“*”代表已知致病基因的描述,如序列信息等

“+”表示这个记录包含基因和表型的信息

“%”表示这种表型可以由两个或多个基因中的一个发生突变而引起

“^“表示该记录已不存在或者被其他记录所代替

iii.OMIN编号含义

b.遗传关联数据库(GAD)

c.COSMIC数据库

i.COSMIC数据库简介

ii.COSMIC数据库使用

d.基因型和表型数据库(dbGAP)

e.癌症基因数据库(CGAP)

f.人类基因突变数据库(HGMD)

g.GeneCards数据库

  • GeneCardss是一个可搜索的综合数据库,它自动整合约125个网络来源的基因的数据

你可能感兴趣的:(基因组信息学,其他)