基因数据处理

R语言零基础基因/数据差异分析（一）

文章目录介绍环境搭建软件下载结果展示基因数据下载流程基因数据处理利用GEO分析绘制拟火山图注意，本系列有连贯性，每一步都很详细，每一步都很重要，请耐心读完！！

Frms·2023-10-17 14:24

PyVCF 变异基因数据处理

PyVCF是一个用于处理VCF(VariantCallFormat)文件的python库。它提供了许多功能来读取，过滤和修改VCF文件中的变异PyVCF是一个用于读取和写入VCF格式文件的Python库。主要功能包括:1、读取VCF文件：PyVCF提供了一个vcf.Reader()函数，可以用来打开并读取VCF文件。读取后的文件可以进行遍历，每个元素是一个vcf.model._Record的实例2

loong_XL·2023-01-29 20:36

云上弹性高性能计算，支持生命科学产业高速发展、降本增效

从计算机辅助药物设计、疫苗研发，到基因数据处理与分析，再到提供精准医疗服务于肿瘤治疗、产前筛查等医疗技术，高性能计算HPC在生命科学研究中扮演着十分重要的角色。

阿里云开发者·2022-06-27 15:57

云上弹性高性能计算，支持生命科学产业高速发展、降本增效

从计算机辅助药物设计、疫苗研发，到基因数据处理与分析，再到提供精准医疗服务于肿瘤治疗、产前筛查等医疗技术，高性能计算HPC在生命科学研究中扮演着十分重要的角色。

·2022-06-23 18:56

云上弹性高性能计算，支持生命科学产业高速发展、降本增效

从计算机辅助药物设计、疫苗研发，到基因数据处理与分析，再到提供精准医疗服务于肿瘤治疗、产前筛查等医疗技术，高性能计算HPC在生命科学研究中扮演着十分重要的角色。

·2022-06-23 17:15

相似度融合网络：用于聚合不同的基因数据类型：Similarity network fusion for aggregating data types on a genomic scale

但现有的基因数据处理方式大多数是只利用一种基因数据，例如只使用DNA或者是只使用mRNA，不能综合所有

Ice-iron·2020-12-19 12:13

基因数据处理80之disease的DataProcessing

1.代码：/***@authorxubo*morecode:https://github.com/xubo245/SparkLearning*moreblog:http://blog.csdn.net/xubo245*/packageorg.gcdss.cli.diseaseimportjava.text.SimpleDateFormatimportjava.util.Dateimportorg.

KeepLearningBigData·2020-09-17 02:09

基因数据处理85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据

1.介绍：cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取：2.adam-0.18.2adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignments读取adam-0.14.23.代码：packageorg.gcdss.cli.testimportjava.nio.file.

KeepLearningBigData·2020-09-17 02:09

基因数据处理73之从HDFS读取fasta文件存为Adam的parquet文件

1.GRCH38chr14：hadoop@Master:~/xubo/project/load$./load.shstart:1SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:Defaultingtono-operation(NOP)loggerimplementationSLF4J:Seehttp://www.sl

KeepLearningBigData·2020-09-17 02:09

基因数据处理94之使用kmer分析SRR003161数据的kmer分布

1.分两组(1)kmer长度为：5to21(2)kmer长度为：5to55by102.代码：packageorg.gcdss.cliimportjava.text.SimpleDateFormatimportjava.util._importorg.apache.spark._importorg.bdgenomics.adam.projections.{AlignmentRecordField,P

KeepLearningBigData·2020-09-17 02:09

基因数据处理57之BWA-MEM运行single-end(1千万条100bp的reads)

```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$bwamemGRCH38BWAindex/GRCH38chr1L3556522.fastag38L100c10000000Nhs20.fq>g38L100c10000000Nhs20.bwamem.sam[M::bwa_idx_load_from_disk]read0ALTcon

KeepLearningBigData·2020-09-17 02:37

基因数据处理75之从HDFS读取vcf文件存为Adam的parquet文件（成功）

1.参考：packageorg.bdgenomics.adam.cliclassFlattenSuiteextendsADAMFunSuite{valloader=Thread.currentThread().getContextClassLoadervalinputPath=loader.getResource("small.vcf").getPathvaloutputFile=File.cre

KeepLearningBigData·2020-09-17 02:12

基因数据处理74之从HDFS读取vcf文件存为Adam的parquet文件（有问题）

1.small.vcf:没记录2.读取：5loadtime:3287ms{"variant":{"variantErrorProbability":139,"contig":{"contigName":"1","contigLength":null,"contigMD5":null,"referenceURL":null,"assembly":null,"species":null,"refere

KeepLearningBigData·2020-09-17 02:33

基因数据处理2之ftp数据快速查找

基因数据处理2之ftp数据快速查找linux下可以用grep:curl-s"ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/current.tree"|grepNA12878

KeepLearningBigData·2020-08-19 09:20

基因数据处理83之移动GRCH38Index到每个节点

1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$mkdir-p~/xubo/ref/GRCH38Index/hadoop@Master:~/cloud/adam/xubo/data/test20160310$mvGCA_000001405.15_GRCh38/*~/xubo/ref/GRCH38I

KeepLearningBigData·2020-08-04 13:53

基因数据处理54之bwa-mem运行paird-end（1千万条100bp的reads）

指令：```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$bwamemGRCH38BWAindex/GRCH38chr1L3556522.fastag38L100c10000000Nhs20Paired1.fqg38L100c10000000Nhs20Paired2.fq>g38L100c10000000Nhs20Paired12

KeepLearningBigData·2020-07-30 19:23

基因数据处理1之mapping_to_cram

基因数据处理1之mapping_to_cram参考资料：AWorkedExampleObtainsomepublicdataWewillusethefirst100,000read-pairsfromayeastdataset.curlftp

KeepLearningBigData·2020-07-30 18:52

基因数据处理72之GATK安装成功

1.下载：gitclonehttps://github.com/broadgsa/gatk-protected.git2.安装：gitcheckout3.5mvncleanpackage-DskipTests3.安装成功：[INFO]ReactorSummary:[INFO][INFO]GATKRoot..........................................SUCCES

KeepLearningBigData·2020-07-14 08:13

基因数据处理77之从vcf文件中提取某条染色体的数据

1.代码：/***@authorxubo*/packageorg.gcdss.cli.vcfimportorg.apache.spark.{SparkConf,SparkContext}/***Createdbyxuboon2016/5/23.*/objectextractGRCH38chr20vcf{defmain(args:Array[String]){valconf=newSparkConf

KeepLearningBigData·2020-07-11 03:49

基因数据处理34之使用samtools和bcftools进行变异分析

1.指令：（1）samtoolsmpileup-vfHomo_sapiens_assembly19chr20.fastaNA12878_snp_A2G_chr20_225058.sorted.bam>NA12878_snp_A2G_chr20_225058.variants或者：samtoolsmpileup-vfHomo_sapiens_assembly19chr20.fastaNA12878_

KeepLearningBigData·2020-07-11 03:49

基因数据处理116之重新运行SparkBWA Yarn集群模式

KeepLearningBigData·2020-07-09 13:20

基因数据处理117之重新多次运行SparkBWA Yarn集群

KeepLearningBigData·2020-07-09 13:49

基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法

前面一片已经讲了遇到的问题，之前也遇到过：基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample（null）http://blog.csdn.net

KeepLearningBigData·2020-07-09 13:49

基因数据处理110之批量测试SparkBWA和CS-bwamem算法

1.总的脚本hadoop@Master:~/xubo/project/alignment$catrunSparkBWAAndCsbwamem.shecho"startsparkBWA"./sparkBWA/sparkBWA.shecho"startCsbwamemalgin"./cs-bwamem/csbwamemAlign.shecho"startCsbwamemmerge"./cs-bwame

KeepLearningBigData·2020-07-09 13:49

基因数据处理106之bwa-mem运行paird-end（1千万条100bp的reads g38L100c10000000Nhs20Paired12）

脚本：hadoop@Master:~/xubo/project/alignment/sparkBWA$catg38L100c10000000Nhs20Paired12Bwamem.shecho"start"startTime4=`date+"%s.%N"`time4=`date+"%Y%m%d%H%M%S"`#spark-submit--classorg.apache.spark.examples

KeepLearningBigData·2020-07-09 13:49

基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_

（一）问题问题1：avocado数据读取：avocado存到磁盘是：RDD[Genotype]valprocessedGenotypes:RDD[Genotype]=postProcessVariants(calledVariants,stats).flatMap(variantContext=>variantContext.genotypes)//savevariantstooutputfile

KeepLearningBigData·2020-07-09 13:49

基因数据处理109之SparkBWA运行成功的部分log

数据来自：http://219.219.220.149:18080/history/application_1466866953605_0001/executors/http://219.219.220.248:8042/node/containerlogs/container_1466866953605_0001_01_000003/hadoop/stderr/?start=0SLF4J:Cla

KeepLearningBigData·2020-07-09 13:49

Spark问题14之Spark stage retry问题

KeepLearningBigData·2020-07-09 13:48

基因数据处理102之SparkBWA本地运行100万条paired-reads实例

脚本：spark-submit--classSparkBWA\--masterlocal\--archivesbwa.zip\SparkBWA.jar\-algorithmmem-readspaired\-index/home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta\-partitions3\/xubo/alignment/sp

KeepLearningBigData·2020-07-09 13:48

基因数据处理101之SparkBWA本地运行配置和实例

1.修改Makefile.common：将LIBBWA_LIBS=-lrt改为LIBBWA_LIBS=-lrt-lz不然会报错误【5】2.make之后修改java.library.path步骤：vi/etc/profile加入exportLD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH使生效：source

KeepLearningBigData·2020-07-09 13:48

基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12

运行记录：hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$bwamem../GRCH38chr1L3556522.fastaGRCH38chr1L3556522N1000000L100paired1.fastqGRCH38chr1L3556522N1000000L100paired2.fastq>GRCH38chr1L3556522N1000000L100pai

KeepLearningBigData·2020-07-09 13:48

基因数据处理104之SparkBWAMaster文件得到空文件，中间sam文件找不到

脚本1：spark-submit--classSparkBWA\--masterspark://219.219.220.149:7077\--conf"spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build"\--driver-java-options"-Djava.lib

KeepLearningBigData·2020-07-09 13:48