GitHub中各个文件的作用

一:geisen_main_v1_2_1文件夹

(1)geisen_main_v1_2_1/src/geisen/downloader.py

主要函数:

①download_data_set  :用于异构下载。

输入文件为:name_of_dataset string 和folder_contains_dots,

输出文件:locations_of_storage,一个包含每个文件的存储路径列表

②download_genome: 用于基因组文件下



GitHub中各个文件的作用_第1张图片

② download_genome:下载taxon_of_interest的基因组信息

输入文件: taxon_of_interest中ncbi分类法的 ID号

                  subset_of_interest NIH使用的扩展

输出文件:p_out

使用的数据资源为:基因,来自基因组RNA的编码序列和经验证的RNA序列获自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/

GCF_000001405.36_GRCh38.p10)


GitHub中各个文件的作用_第2张图片


(2)geisen_main_v1_2_1/src/geisen/settings.py:这个文件是geisen_main_v1_2_1/src/geisen/downloader.py文件的下载相关参数设置

(3)geisen_main_v1_2_1/src/geisen/genealacart.py :这个模块包含了提取特定数据集的工具,它对下载的数据进行了整理。具体有以下几点:

①将从genealacard加载选定的数据集并以与生物学项目科学一致的格式导出


GitHub中各个文件的作用_第3张图片

②加载genealacart数据集


GitHub中各个文件的作用_第4张图片

③从ENCODE中加载增强子。并将它们放在可由gene_ncbi索引的格式中


GitHub中各个文件的作用_第5张图片

④获取GIFT得分,它表示数据库中出现基因的部分。被genealacart用作基因一般注释密度的代理。


GitHub中各个文件的作用_第6张图片

⑤加载启动子中的转录因子


GitHub中各个文件的作用_第7张图片

⑥加载不耐受指标。并将它们放置在gene_ncbi可索引的格式中


GitHub中各个文件的作用_第8张图片

⑦加载疾病指标。并将它们放在可由gene_ncbi索引的格式中。


GitHub中各个文件的作用_第9张图片

⑧加载人类表型本体论。并将它们放在可由gene_ncbi索引的格式中


GitHub中各个文件的作用_第10张图片

⑨获取具有明确Input Term, Symbol 和 Entrez Gene


GitHub中各个文件的作用_第11张图片

⑩创建数据库,其中一列中的条目分隔为多行


GitHub中各个文件的作用_第12张图片

(4)geisen_main_v1_2_1/src/geisen/gxa.py:从Matt Antalek (Rick Morimoto实验室)下载了几种模型生物的170222组织数据。


GitHub中各个文件的作用_第13张图片

(5)geisen_main_v1_2_1/src/geisen/mapper.py(该文件是对下载的数据进行处理

该文件夹中包含了以下这些功能:

①将ensembl基因ID映射到NCBI (Entrez)基因ID。只考虑ensembl和entrez基因id的明确1:1映射

②将位点标记映射到NCBI的 (Entrez)基因ID。只考虑明确的 1:1映射。

③通过unprot (swissprot and trembl)在ncbi分类法IDs和分类单元名称之间手动检索查找

⑤将ensembl转录本ID映射到NCBI (Entrez)基因ID。

⑥将带有基因符号id的数据流映射到gene_ncbi

⑦将带有uniprot_protein IDs的数据结构映射到gene_ncbi

⑧对数据结构进行分组,并返回按gene_ncbi进行分组的数据结构,并通过how进行汇总


GitHub中各个文件的作用_第14张图片

⑨检查索引或给定数据框架df列的 id_name 的存在,如果id是不明确的(出现在索引和列中)或不存在,将抛出错误

⑩获取一个系列中的重复值


GitHub中各个文件的作用_第15张图片





2019.3.29

(6)geisen_main_v1_2_1/src/geisen/papers.py

该文件是从过去发表的出版物中提取一些适当的特征,用于机器学习。

如:

①从Blomen等人提取合适的表型并将其与NCBI gene ID一起保存,只能检索CRISPR cassettes的插入,并且将对KBM7和HAP1细胞进行检索。

②从Hart等人提取合适的表型并将其与NCBI gene ID一起保存。

③Itzhak等人于2016年测量了HeLa细胞的蛋白质定位和丰度

④由Lek等人于2016年出版的ExAc数据库

⑤处理Rolland等人2014年的补充数据。输出其考虑的基因,计算相互作用和相互作用的二进制表

⑥人类基因专利数据。注意,公司通常为一个n-mer序列及其变体申请专利,因此他们实际上并不为单个基因申请专利,而是为与基因有一定相似性的序列申请专利。

GitHub中各个文件的作用_第16张图片

⑦人蛋白质图谱的蛋白质亚细胞定位

GitHub中各个文件的作用_第17张图片

⑧形成人类蛋白质图谱RNA 转录本数据。


GitHub中各个文件的作用_第18张图片

⑨Wang等人。(功能缺失突变监测适应性)


GitHub中各个文件的作用_第19张图片

⑩将具有标称值的PANDAS数据数据结构转换为具有布尔值分类的PANDAS数据结构。


GitHub中各个文件的作用_第20张图片

(7)geisen_main_v1_2_1/src/geisen/prepare.py:该文件夹是下载数据和收集各种特征等准备工作

使用的数据资源有:

基因,来自基因组RNA的编码序列和经验证的RNA序列获自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)

基因和染色体的名称于2017年初从NCBI NIH获得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz)。

第一层:下载数据并生成相应的数据集


GitHub中各个文件的作用_第21张图片

①从biogrid下载蛋白质相互作用数据库:

GitHub中各个文件的作用_第22张图片

②从ncbi下载生物系统,并将其格式化以供进一步使用。生物系统在NCBI上具有两个版本(有GO注释和没有GO注释),这里没有GO的版本用于避免与gene2go重复


GitHub中各个文件的作用_第23张图片

③将生物系统按taxon分开


GitHub中各个文件的作用_第24张图片

④创建特定于分类单元的逗号分隔表,列出基因的基本属性(例如:GC内容、长度)

GitHub中各个文件的作用_第25张图片

⑤创建以逗号分隔的表,其中列出了经过验证的RNA转录本的几个属性。包括:RNA的长度和编码序列,RNA中的核苷酸和编码序列,密码子偏倚的度量

GitHub中各个文件的作用_第26张图片

⑥创建特定于分类单元的逗号分隔表,列出RNA转录本的预测编码序列(CDS)的几个属性。包括:RNA和核苷酸的长度(收集Genebank中RNA的特征)


GitHub中各个文件的作用_第27张图片

⑦创建以逗号分隔的表,列出基因组预测的RNA转录本的几个特性。包括:RNA和核苷酸的长度


GitHub中各个文件的作用_第28张图片

⑧从ncbi下载gene_info(基因信息),并将其格式化以供进一步使用

GitHub中各个文件的作用_第29张图片

⑨下载gene2ensembl,并将其格式化以便进一步使用

GitHub中各个文件的作用_第30张图片

⑩下载gene2go,并将其格式化以便进一步使用


GitHub中各个文件的作用_第31张图片

⑪从NCBI上下载gene2pubmed并将其格式化以便进一步使用


GitHub中各个文件的作用_第32张图片

⑫从NCBI中下载generifs_basic,并将其格式化以便进一步使用

GitHub中各个文件的作用_第33张图片

⑬从基因检测登记处下载数据集


GitHub中各个文件的作用_第34张图片

⑭下载uniprot数据库,创建完整的uniprot数据库下载


GitHub中各个文件的作用_第35张图片

⑮准备Uniprot的ID映射

GitHub中各个文件的作用_第36张图片

⑯从NCBI中下载taxdmp,并将其格式化以便进一步使用(taxdmp可以提供物种对应的rank信息)


GitHub中各个文件的作用_第37张图片

第二层:这些数据集的生成要求首先执行第1层函数(并且成功地创建了相应的第1层数据集)


GitHub中各个文件的作用_第38张图片

①提取关于染色体的信息

GitHub中各个文件的作用_第39张图片

②Flybase黑腹果蝇(Drosophila melanogaster)内维持一个维护良好的基因表达集合。分离单个数据集,如modENCODE组织序列


GitHub中各个文件的作用_第40张图片


2019.3.30

③Gerstein实验室维持了一个来自modENCODE的部分过时的(在其位点注释中)基因表达数据集,样本注释处于一个糟糕的状态,尽管modENCODE帮助会转发/CC它们并对它们进行直接处理,但是它们不能为许多样本提供适当的注释。这个函数将加载秀丽隐杆线虫的官方modENCODE高级代表


GitHub中各个文件的作用_第41张图片

④从NCBI中下载同源基因,并将其格式化以便进一步使用

GitHub中各个文件的作用_第42张图片

⑤将interpro数据库以一种易于使用的格式放置。Interpro是一个大型数据库,它联合了几个关于蛋白质的数据库。注意,单个数据库可以有引用相同interpro ID的条目(因此具有相同的蛋白质属性)。


GitHub中各个文件的作用_第43张图片

⑥参考蛋白质数据库,提取分类单元特异性FASTA文件。


GitHub中各个文件的作用_第44张图片

第三层函数:特征的注释


GitHub中各个文件的作用_第45张图片

提取氨基酸的性质(包括衍生性质,如gravy和等电点),并将结果保存为逗号分隔的文件。


GitHub中各个文件的作用_第46张图片

第四层函数:


GitHub中各个文件的作用_第47张图片

①从一个分类单元的基因特异性计算中获得最佳排列的RADAR预测(分子内相似性),并将其保存为逗号分隔的文件


GitHub中各个文件的作用_第48张图片

②从一个taxon的特异性基因的计算中获得SEG(序列复杂度),并将其保存为逗号分隔的文件,以便使用中位数映射到ncbi_gene_id


GitHub中各个文件的作用_第49张图片

③从一个taxon的基因特异性计算中获得 signalP(信号肽和多跨膜),并将其保存为逗号分隔的文件


GitHub中各个文件的作用_第50张图片

支持函数:这些支持性函数我认为是用来整理上面那些函数所下载的数据


GitHub中各个文件的作用_第51张图片

①提取蛋白质氨基酸序列和性质。忽略并去除未定义的氨基酸,基本上只留下略微截短的蛋白质


GitHub中各个文件的作用_第52张图片

②检查给定序列是否以起始密码子开始,以终止密码子结束,并由三的整数倍数组成,这表明不存在移码。


GitHub中各个文件的作用_第53张图片

③计算腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的含量

计数胞嘧啶+鸟嘌呤分数(CG含量)

计算腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的总数(忽略未定义的核苷酸)


GitHub中各个文件的作用_第54张图片

④将解析一个限定符列表并返回ncbi基因ID。如果基因ID不明确,或者没有找到,将返回nan(从限定符号列表中提取NCBI中基因的ID号)


GitHub中各个文件的作用_第55张图片

⑤从uniprot表头中提取uniprot ID

GitHub中各个文件的作用_第56张图片

⑥获取密码子选择偏倚的几个指标

GitHub中各个文件的作用_第57张图片

⑦计算标准密码子的使用情况。

GitHub中各个文件的作用_第58张图片

⑧seg的解析输出(低紧度提取程序)

GitHub中各个文件的作用_第59张图片

⑨检查一个序列是否只由已知的ACGT核苷酸组成

GitHub中各个文件的作用_第60张图片

⑩在给定字典中的每个键名前插入前缀和_

GitHub中各个文件的作用_第61张图片

⑪提取单个蛋白序列(属于taxon_id定义的分类单元)作为FASTA,用于启动批处理(例如:通过RADAR),将忽略蛋白质片段。

GitHub中各个文件的作用_第62张图片

⑫提取属于taxon_id定义的分类单元的蛋白质序列,作为FASTA(例如:用于SEG处理)。忽略蛋白质片段。

GitHub中各个文件的作用_第63张图片

⑬在描述中没有找到返回wheter(片段)

GitHub中各个文件的作用_第64张图片

⑭将包含表达数据的gerstein lab excel文件加载到panda数据流中;删除不需要的额外列

GitHub中各个文件的作用_第65张图片

⑮加载完全映射的Uniprot

GitHub中各个文件的作用_第66张图片

⑯检索到uniprot数据库(如swiss-prot或trmbl)的路径

GitHub中各个文件的作用_第67张图片

⑰将两个数据格式保存到同一个文件夹中,第一个数据格式具有postfix_orig,而另一个数据格式具有postfix _ncbi_gene。

GitHub中各个文件的作用_第68张图片

你可能感兴趣的:(GitHub中各个文件的作用)