国家级生物医药公共服务平台发布HLA3D数据库,技术架构分享

近日,南京基因与细胞实验室合作团队取得阶段性成果,东南大学-生命科学与技术学院-李健教授团队在《Briefings in Bioinformatics》(影响因子IF=11.622)上发表题“HLA3D: an integrated structure-based computational toolkit for immunotherapy”,开发了一个全面的免疫治疗计算工具包—HLA3D,为不同科研单位提供全面的HLA结构信息查询与分析,促进基于结构的免疫治疗,并通过基因与细胞实验室免费开放使用。 

HLA3D数据库技术栈简述

本系统平台有海量多维的数据,每天还有数据不断的更新以及数据的清洗,数据有结构化与非结构化的数据需要存储和检索,因此,就不能完全采集MySQL之类的数据库,我们采用了Clickhouse作为OLPA引擎,neo4j作为知识图谱可视化引擎,Elasticsearch作为全文检索索引,目前采用了 mongodb 作为文档数据库 存储被标签标记半结构化的数据, redis作为门户网站及用户信息的缓存处理环节、MySQL作为系统管理、配置数据库,开发语言 采用了Java Springboot 开发框架,通过我们自研的SmaterAPI开发工具,将开发周期缩短了60%以上。

目前数据存储量规模在1.96TB,Clickhouse有3个集群节点,Elasticsearch有8个集群、2个集群分组,MySQL采用了主从备份,neo4j目前采用了一台到多台机器transition模式,由于目前缓存数据不算很多redis目前使用了单台机器节点。

HLA3D数据库有什么功能?

该数据库覆盖了美国人群、欧洲人群、中国人群所有常见HLA Ⅰ类分子的序列、结构、频率、文献、单核苷酸多态性(Single Nucleotide Polymorphism, SNP)位点信息,其中HLA的结构数据不仅包括公共数据库中可用的PDB(Protein Database Bank)结构,还包括通过同源建模和分子对接获得的PDB结构,可为不同人群的HLA进行全面分析,阐释与 HLA相关疾病的致病机制。

国家级生物医药公共服务平台发布HLA3D数据库,技术架构分享_第1张图片

(1)数据检索:搜索不同类型的HLA分子和肿瘤相关突变数据;

(2)结构查询:通过HLA等位基因查询其结构以及结构的响应,包括注释信息与可视化结果;

(3)移植风险评估:可通过HLA 分子的结构差异比对、序列差异比对、差异位点可视化以及风险预测评估,全面评估错配HLA供体的移植风险;

(4)免疫原性肽预测:可实现序列分析、热点突变分析、肿瘤抗原肽预测、免疫原性肽筛选、肽-HLA对接的构象模拟等肿瘤新抗原预测流程;

(5)数据提交:用户上传HLA分子的结构数据。

国家级生物医药公共服务平台发布HLA3D数据库,技术架构分享_第2张图片

HLA3D 提供了一个用户友好的界面帮助用户查询、浏览和可视化HLA的详细信息,并提供分析预测、结果下载、数据统计等服务,助力干细胞治疗、器官移植和肿瘤新抗原领域的研究,推动HLA分子结构数据在免疫治疗领域的应用。

如何获取HLA3D数据库?

1、HLA3D工具包可通过HLA3D在线使用。

2、联系南京基因与细胞实验室工作人员(Tel:15261898318;e-mail:[email protected])。

3、联系思通数科 技术&产品负责人 (微信:techflag ,Tel: 13505146123;e-mail:[email protected]

关于开源开源项目

我们几乎每天都在治理与实践 海量结构化和非结构化数据的挑战,对此采用了大量的开源技术框架。在此,将通过技术blog与开源社区将我们的技术经验与研发成果与大家​分享。​

开源项目地址:  开源免费舆情监测网络监控系统: 思通舆情 是一款开源免费的舆情系统,支持本地化部署。支持对海量的舆情数据进行交叉分析和深度挖掘,为用户提供全面的舆情数据,专业的舆情分析,快速的舆情处理等服务,提升企业品牌价值和风控能力。#舆情系统#舆情监测#网络舆情#开源舆情#免费舆情#舆情分析https://gitee.com/stonedtx/yuqing

欢迎对我们的项目 pull request 或者 留言对我们提出建议。您的支持和参与就是我们坚持开源的动力!请  star 或者 fork!

我们专注互联网开源数据智能处理,为用户提供“数据采集”、“数据标记”和“数据挖掘”三方面核心能力,以有效的方式使用互联网数据,提高生产力及决策能力。 了解更多请关注微信公众号:思通数据

你可能感兴趣的:(分布式,big,data,大数据,数据结构,架构)