译文:微软 Azure Community 基因组学基础概述

文章目录

    • 1 基因组学概述
    • 2 分子生物学中心法则
    • 3 数据库
      • 3.1 人类基因组计划
      • 3.2 基因组学中的子领域
    • 4 挑战
      • 4.1 基础设施
      • 4.2 数据公开性
      • 4.3 临床基因组学
      • 5 讨论

1 基因组学概述

基因组学是研究一个人的所有基因(基因组)的学科,包括基因之间以及基因与个体环境的相互作用。基因组是一个生物的完整的DNA序列,DNA由四个碱基(A、G、T、C)组成。“基因组"这个词是1986年由杰克逊实验室的遗传学家汤姆·罗德里克首次提出的。而遗传学研究的是基因及其遗传方式,基因组学研究的是整个基因组,包括结构、功能和相互作用。人类的每一个基因组大约有32亿个碱基(A、G、C、T)的DNA编码,其中每三个碱基组成一个密码子,每个密码子指定一个特定的氨基酸。氨基酸提供了在翻译过程中读取的指令,用于形成蛋白质,蛋白质是氨基酸序列的链。基因是制造蛋白质的指令,占据基因组的约1.5%。基因之间的其他区域被称为"junk DNA”,后来发现它具有调控基因和基因组的功能。基因组学研究包括基因和"junk DNA"在内的整个基因组。

译文:微软 Azure Community 基因组学基础概述_第1张图片

2 分子生物学中心法则

分子生物学的中心法则是遗传信息从 DNA 流向功能产物的过程,该过程首先由 Francis Crick(发现 DNA 的结构)于 1958 年定义。它指出,遗传信息从细胞中的 DNA 流出,通过一个称为转录的过程。在翻译的第二阶段,这些 RNA 从细胞移动到核糖体,然后翻译成蛋白质(功能产物)。细胞中发生的信息模式是: 1. DNA 到 DNA(复制)、DNA 到 RNA(转录)和 RNA 到蛋白质(翻译)

3 数据库

管理和存储序列数据的数据库资源的数量也在增长。国家生物技术信息中心、欧洲分子生物学实验室 (EMBL) 和日本 DNA 数据库 (DDBJ) 共同创建了国际核苷酸序列数据库协作,以存储、组织和分发可用的核苷酸和氨基酸序列。使用这些数据库的挑战在于,这些存储库没有以研究人员可以使用的方式进行注释和组织。为了应对这些挑战,许多通用基因组浏览器如加利福尼亚大学圣克鲁斯分校 (UCSC) 基因组浏览器、EBI 的 Ensemble 和 NCBI 的 MapViewer 为基因组水平的特征(如基因和疾病位点)提供了更多的基因组背景。
译文:微软 Azure Community 基因组学基础概述_第2张图片

3.1 人类基因组计划

人类基因组计划于 1990 年正式启动,是美国国立卫生研究院和能源部历时 13 年的一项雄心勃勃的工作,旨在确定整个人类基因组的序列。人类基因组计划透露,可能有大约 20,500 个人类基因。HGP 的这一最终产品为世界提供了有关完整人类基因集的结构、组织和功能的详细信息资源。这些信息可以被认为是人类发展和功能的一组基本的可遗传“指令” 2。该项目绘制了大约 92% 的人类基因组,并立即公开,成为研究人员研究整个基因组的重要工具。

最后 8% 的基因组图谱最近由端粒到端粒 (T2T) 联盟完成并发布。3研究人员使用来自人类细胞系的 DNA 生成了这一数据,这些细胞系主要是重复端粒(每条染色体的末端部分)和着丝粒(每条染色体的中间部分)附近的 DNA 序列。

3.2 基因组学中的子领域

  1. 比较基因组学:这是对不同生物体的基因组或一个物种内菌株的基因组进行比较的研究。它是研究进化的好工具。

  2. 结构基因组学:结构基因组学是结构生物学的一个分支,指的是在基因组规模上探索和确定三维蛋白质结构。

  3. 功能基因组学:功能基因组学是研究基因功能及其相互作用以确定生物体基因组与其表型之间关系的领域 。DNA:基因组学和表观基因组学 RNA:转录组学 蛋白质:蛋白质组学 代谢物:代谢组学

  4. 表观基因组学:涉及研究基因之间以及基因与环境之间相互作用的研究。

4 挑战

自 2000 年人类基因组计划完成以来,基因组学数据随着测序数据成本的下降呈指数级增长。随着人们对基因组学研究的兴趣日益浓厚,该领域面临着多项技术和数据隐私与安全挑战。

4.1 基础设施

多年来,随着芯片被用于测序,即使是小型实验室也一直在生成大数据。这导致包括小型研究小组在内的实验室生成有关患者样本和模型生物体的大型数据集。这将存储、管理、分析和解释数据的负担放在了可能不太精通计算机的科学家身上。这些项目通常也是团队之间协作的一部分,这使得数据共享和传输成为一项挑战。

比较人类基因组需要的不仅仅是个人电脑和在线文件共享应用程序。这要求研究人员拥有经常需要维护的硬件,并且需要支付前期费用。许多大规模人类基因组学数据集已公开并可按需下载。在本地或个人计算机上下载如此大的数据集并非易事。

另一种方法是使用云计算和存储,研究人员可以将他们的工具用于数据。这消除了移动数据的需要,并且可以使用适合任务的适当资源在云中执行分析。云计算的现收现付模式不会为研究人员预付任何费用,只对所使用的资源收费。云计算的好处来自于它的弹性和按需扩展。云的另一个好处是其全球可访问性,研究人员可以从世界任何地方访问资源。

4.2 数据公开性

数据共享和数据再利用是实现基因组学研究中数据驱动方法的前提。自2014年提出以来,FAIR原则作为生命科学数据管理的最低指导原则,引起了广泛关注。各种倡议和组织正在共同努力,制定使数据更易发现、可访问、可互操作和可再利用的指南。使用全球唯一标识符、丰富的元数据并通过系统进行索引,使数据易于发现。可访问性要求使用标准化、开放的通信协议来通过唯一标识符检索数据。通过使用标准化的、可机器执行的元数据和数据,支持互操作性。为了使数据可再利用,相关的元数据要使用标准词汇进行描述,包含关于来源的信息,并具有明确的数据使用许可证。

原则 解释 人类遗传学和基因组学的示例
可发现性 数据集应以明确、无歧义的方式进行描述、识别、注册或索引 BBMRI-ERIC 目录
可访问性 数据集应通过明确定义的访问程序进行访问,最好使用自动化手段。元数据应始终可访问 欧洲基因组表型档案
互操作性 数据和元数据使用共同的、已发布的标准进行概念化、表达和结构化 GA4GH 基因组数据工具包
可再利用性 数据的特征和来源应根据领域相关的社区标准进行详细描述,具备明确且可访问的使用条件 BRCA 数据交换平台

4.3 临床基因组学

技术进步和患者样本重新测序成本的降低导致了孟德尔疾病和复杂疾病的临床测试的扩展。癌症基因组图谱、TCGA、gnomAD 和 1UK10K 等大型测序程序有助于解释变异。然而,在临床实践中采用下一代测序仍然面临某些挑战,包括报告数据、偶然发现、数据存储、患者隐私、CLIA/ISO 认证的标准。此外,所使用的技术和计算方法需要使用Genome in a Bottle (GIAB)和白金基因组等基准数据集根据所需指标进行验证

5 讨论

每个人卷人都有一个大厂梦,这几天在看谷歌和微软关于生信的一些岗位,看到Azure的特地记录了一下

你可能感兴趣的:(随笔,offer,azure,微软)