E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
基因数据处理
R语言零基础基因/数据差异分析(一)
文章目录介绍环境搭建软件下载结果展示基因数据下载流程
基因数据处理
利用GEO分析绘制拟火山图注意,本系列有连贯性,每一步都很详细,每一步都很重要,请耐心读完!!
Frms
·
2023-10-17 14:24
R语言零基础基因/数据差异分析
r语言
数据分析
数据可视化
PyVCF 变异
基因数据处理
PyVCF是一个用于处理VCF(VariantCallFormat)文件的python库。它提供了许多功能来读取,过滤和修改VCF文件中的变异PyVCF是一个用于读取和写入VCF格式文件的Python库。主要功能包括:1、读取VCF文件:PyVCF提供了一个vcf.Reader()函数,可以用来打开并读取VCF文件。读取后的文件可以进行遍历,每个元素是一个vcf.model._Record的实例2
loong_XL
·
2023-01-29 20:36
生信
生信
云上弹性高性能计算,支持生命科学产业高速发展、降本增效
从计算机辅助药物设计、疫苗研发,到
基因数据处理
与分析,再到提供精准医疗服务于肿瘤治疗、产前筛查等医疗技术,高性能计算HPC在生命科学研究中扮演着十分重要的角色。
阿里云开发者
·
2022-06-27 15:57
人工智能
运维
数据可视化
安全
BI
数据处理
调度
云计算
数据中心
容器
阿里云开发者
云上弹性高性能计算,支持生命科学产业高速发展、降本增效
从计算机辅助药物设计、疫苗研发,到
基因数据处理
与分析,再到提供精准医疗服务于肿瘤治疗、产前筛查等医疗技术,高性能计算HPC在生命科学研究中扮演着十分重要的角色。
·
2022-06-23 18:56
程序员
云上弹性高性能计算,支持生命科学产业高速发展、降本增效
从计算机辅助药物设计、疫苗研发,到
基因数据处理
与分析,再到提供精准医疗服务于肿瘤治疗、产前筛查等医疗技术,高性能计算HPC在生命科学研究中扮演着十分重要的角色。
·
2022-06-23 17:15
人工智能运维数据可视化安全bi
相似度融合网络:用于聚合不同的基因数据类型:Similarity network fusion for aggregating data types on a genomic scale
但现有的
基因数据处理
方式大多数是只利用一种基因数据,例如只使用DNA或者是只使用mRNA,不能综合所有
Ice-iron
·
2020-12-19 12:13
论文笔记
机器学习
神经网络
深度学习
基因数据处理
80之disease的DataProcessing
1.代码:/***@authorxubo*morecode:https://github.com/xubo245/SparkLearning*moreblog:http://blog.csdn.net/xubo245*/packageorg.gcdss.cli.diseaseimportjava.text.SimpleDateFormatimportjava.util.Dateimportorg.
KeepLearningBigData
·
2020-09-17 02:09
基因数据处理
基因数据处理
85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据
1.介绍:cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:2.adam-0.18.2adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignments读取adam-0.14.23.代码:packageorg.gcdss.cli.testimportjava.nio.file.
KeepLearningBigData
·
2020-09-17 02:09
基因数据处理
基因数据处理
73之从HDFS读取fasta文件存为Adam的parquet文件
1.GRCH38chr14:hadoop@Master:~/xubo/project/load$./load.shstart:1SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:Defaultingtono-operation(NOP)loggerimplementationSLF4J:Seehttp://www.sl
KeepLearningBigData
·
2020-09-17 02:09
基因数据处理
基因数据处理
94之使用kmer分析SRR003161数据的kmer分布
1.分两组(1)kmer长度为:5to21(2)kmer长度为:5to55by102.代码:packageorg.gcdss.cliimportjava.text.SimpleDateFormatimportjava.util._importorg.apache.spark._importorg.bdgenomics.adam.projections.{AlignmentRecordField,P
KeepLearningBigData
·
2020-09-17 02:09
基因数据处理
基因数据处理
57之BWA-MEM运行single-end(1千万条100bp的reads)
```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$bwamemGRCH38BWAindex/GRCH38chr1L3556522.fastag38L100c10000000Nhs20.fq>g38L100c10000000Nhs20.bwamem.sam[M::bwa_idx_load_from_disk]read0ALTcon
KeepLearningBigData
·
2020-09-17 02:37
基因数据处理
基因数据处理
75之从HDFS读取vcf文件存为Adam的parquet文件(成功)
1.参考:packageorg.bdgenomics.adam.cliclassFlattenSuiteextendsADAMFunSuite{valloader=Thread.currentThread().getContextClassLoadervalinputPath=loader.getResource("small.vcf").getPathvaloutputFile=File.cre
KeepLearningBigData
·
2020-09-17 02:12
基因数据处理
基因数据处理
74之从HDFS读取vcf文件存为Adam的parquet文件(有问题)
1.small.vcf:没记录2.读取:5loadtime:3287ms{"variant":{"variantErrorProbability":139,"contig":{"contigName":"1","contigLength":null,"contigMD5":null,"referenceURL":null,"assembly":null,"species":null,"refere
KeepLearningBigData
·
2020-09-17 02:33
基因数据处理
spark
基因数据处理
adam
基因数据处理
2之ftp数据快速查找
基因数据处理
2之ftp数据快速查找linux下可以用grep:curl-s"ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/current.tree"|grepNA12878
KeepLearningBigData
·
2020-08-19 09:20
基因数据处理
基因数据处理
83之移动GRCH38Index到每个节点
1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$mkdir-p~/xubo/ref/GRCH38Index/hadoop@Master:~/cloud/adam/xubo/data/test20160310$mvGCA_000001405.15_GRCh38/*~/xubo/ref/GRCH38I
KeepLearningBigData
·
2020-08-04 13:53
基因数据处理
基因数据处理
54之bwa-mem运行paird-end(1千万条100bp的reads)
指令:```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$bwamemGRCH38BWAindex/GRCH38chr1L3556522.fastag38L100c10000000Nhs20Paired1.fqg38L100c10000000Nhs20Paired2.fq>g38L100c10000000Nhs20Paired12
KeepLearningBigData
·
2020-07-30 19:23
基因数据处理
Spark问题
基因数据处理
1之mapping_to_cram
基因数据处理
1之mapping_to_cram参考资料:AWorkedExampleObtainsomepublicdataWewillusethefirst100,000read-pairsfromayeastdataset.curlftp
KeepLearningBigData
·
2020-07-30 18:52
基因数据处理
基因数据处理
72之GATK安装成功
1.下载:gitclonehttps://github.com/broadgsa/gatk-protected.git2.安装:gitcheckout3.5mvncleanpackage-DskipTests3.安装成功:[INFO]ReactorSummary:[INFO][INFO]GATKRoot..........................................SUCCES
KeepLearningBigData
·
2020-07-14 08:13
基因数据处理
基因数据处理
77之从vcf文件中提取某条染色体的数据
1.代码:/***@authorxubo*/packageorg.gcdss.cli.vcfimportorg.apache.spark.{SparkConf,SparkContext}/***Createdbyxuboon2016/5/23.*/objectextractGRCH38chr20vcf{defmain(args:Array[String]){valconf=newSparkConf
KeepLearningBigData
·
2020-07-11 03:49
基因数据处理
基因数据处理
34之使用samtools和bcftools进行变异分析
1.指令:(1)samtoolsmpileup-vfHomo_sapiens_assembly19chr20.fastaNA12878_snp_A2G_chr20_225058.sorted.bam>NA12878_snp_A2G_chr20_225058.variants或者:samtoolsmpileup-vfHomo_sapiens_assembly19chr20.fastaNA12878_
KeepLearningBigData
·
2020-07-11 03:49
基因数据处理
基因数据处理
116之重新运行SparkBWA Yarn集群模式
更多代码请见:https://github.com/xubo245
基因数据处理
系列1.解释很久没运行SparkBWA了,系统文件有点多,重新运行。
KeepLearningBigData
·
2020-07-09 13:20
基因数据处理
基因数据处理
117之重新多次运行SparkBWA Yarn集群
更多代码请见:https://github.com/xubo245
基因数据处理
系列1.解释重新运行,跟换了文件地址后来终端,需要运行其他的2.代码:hadoop@Master:~/disk2/xubo/
KeepLearningBigData
·
2020-07-09 13:49
基因数据处理
基因数据处理
112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法
前面一片已经讲了遇到的问题,之前也遇到过:
基因数据处理
31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null)http://blog.csdn.net
KeepLearningBigData
·
2020-07-09 13:49
基因数据处理
基因数据处理
110之批量测试SparkBWA和CS-bwamem算法
1.总的脚本hadoop@Master:~/xubo/project/alignment$catrunSparkBWAAndCsbwamem.shecho"startsparkBWA"./sparkBWA/sparkBWA.shecho"startCsbwamemalgin"./cs-bwamem/csbwamemAlign.shecho"startCsbwamemmerge"./cs-bwame
KeepLearningBigData
·
2020-07-09 13:49
基因数据处理
基因数据处理
106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$catg38L100c10000000Nhs20Paired12Bwamem.shecho"start"startTime4=`date+"%s.%N"`time4=`date+"%Y%m%d%H%M%S"`#spark-submit--classorg.apache.spark.examples
KeepLearningBigData
·
2020-07-09 13:49
基因数据处理
基因数据处理
113之对avocado识别的SparkBWA变异数据进行疾病分析_
(一)问题问题1:avocado数据读取:avocado存到磁盘是:RDD[Genotype]valprocessedGenotypes:RDD[Genotype]=postProcessVariants(calledVariants,stats).flatMap(variantContext=>variantContext.genotypes)//savevariantstooutputfile
KeepLearningBigData
·
2020-07-09 13:49
基因数据处理
基因数据处理
109之SparkBWA运行成功的部分log
数据来自:http://219.219.220.149:18080/history/application_1466866953605_0001/executors/http://219.219.220.248:8042/node/containerlogs/container_1466866953605_0001_01_000003/hadoop/stderr/?start=0SLF4J:Cla
KeepLearningBigData
·
2020-07-09 13:49
基因数据处理
Spark问题14之Spark stage retry问题
更多代码请见:https://github.com/xubo245
基因数据处理
系列之SparkBWA1.解释1.1简述当partitions超过节点数量的时候Lostexecutor的问题,已经提交到SparkBWA
KeepLearningBigData
·
2020-07-09 13:48
Spark问题
基因数据处理
102之SparkBWA本地运行100万条paired-reads实例
脚本:spark-submit--classSparkBWA\--masterlocal\--archivesbwa.zip\SparkBWA.jar\-algorithmmem-readspaired\-index/home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta\-partitions3\/xubo/alignment/sp
KeepLearningBigData
·
2020-07-09 13:48
基因数据处理
基因数据处理
101之SparkBWA本地运行配置和实例
1.修改Makefile.common:将LIBBWA_LIBS=-lrt改为LIBBWA_LIBS=-lrt-lz不然会报错误【5】2.make之后修改java.library.path步骤:vi/etc/profile加入exportLD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH使生效:source
KeepLearningBigData
·
2020-07-09 13:48
基因数据处理
基因数据处理
100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12
运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$bwamem../GRCH38chr1L3556522.fastaGRCH38chr1L3556522N1000000L100paired1.fastqGRCH38chr1L3556522N1000000L100paired2.fastq>GRCH38chr1L3556522N1000000L100pai
KeepLearningBigData
·
2020-07-09 13:48
基因数据处理
基因数据处理
104之SparkBWAMaster文件得到空文件,中间sam文件找不到
脚本1:spark-submit--classSparkBWA\--masterspark://219.219.220.149:7077\--conf"spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build"\--driver-java-options"-Djava.lib
KeepLearningBigData
·
2020-07-09 13:48
基因数据处理
基因数据处理
64之bwamem处理500bp和1000bp的记录
xubo@xubo:~/xubo/data/alignment/cs-bwamem$bwamembwaindex/GRCH38chr1L3556522.fastag38l500N10000.fq>g38l500N10000.bwamem.sam[M::bwa_idx_load_from_disk]read0ALTcontigs[M::process]read10000sequences(50000
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
基因数据处理
98之SparkBWA运行时spark on Yarn问题日志完整记录
脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$catpaired.shspark-submit--classSparkBWA\--masteryarn-client\--conf"spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M"--driver-java-options"-Djava.libr
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
基因数据处理
96之sparkBWA运行问题(yarn)
hadoop@Master:~/xubo/project/alignment/sparkBWA$./paired.shUsingpropertiesfile:/home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.confAddingdefaultproperty:spark.executor.extraJavaOptions=-Djava.libra
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
基因数据处理
93之sparkBWA安装和使用
1.安装gitclonehttps://github.com/citiususc/SparkBWA.gitcdSparkBWAmake2.使用:报错:没有成功hadoop@Master:~/xubo/project/alignment/sparkBWA$./run.shError:Mustspecifyaprimaryresource(JARorPythonorRfile)Runwith--hel
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
基因数据处理
59之snap运行single-end(1千万条100bp的reads)
记录:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$snap-alignersinglesnap/snapindexg38L100c10000000Nhs20.fq-osnap/g38L100c10000000Nhs20.snap.samWelcometoSNAPversion1.0beta.23.Loadingindexfrom
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
基因数据处理
82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)
core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit--classcs.ucla.edu.bwaspark.BWAMEMSpark--masterspark://219.219.220.149:7077/home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cl
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
spark
adam
基因数据处理
基因数据处理
95之sparkBWA运行问题
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$catpairedERR.shspark-submit--classSparkBWA\--masterlocal[4]\--driver-memory1500m\--executor-memory1500m\--executor-cores1\--archivesbwa.zip\--verbose
KeepLearningBigData
·
2020-07-09 13:17
基因数据处理
基因数据处理
14之BWA三种方式bwa、BWA_SW、BWA_MEM使用
1.构建索引:bwaindexref.fa或者从ftp下载,请参考【1】2.BWA:bwa.sh为脚本文件hadoop@Master:~/cloud/adam/xubo/data/test20160310/bwa3sh$catbwa.sh#!/bin/bashbwaaln../GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_analysis
KeepLearningBigData
·
2020-07-09 13:16
基因数据处理
基因数据处理
56之bwa运行paird-end(1千万条100bp的reads).md
(1)pair1.fq》saibwaalnGRCH38BWAindex/GRCH38chr1L3556522.fastag38L100c10000000Nhs20Paired1.fq>g38L100c10000000Nhs20Paired1.saipair1记录:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$bwaalnGRCH3
KeepLearningBigData
·
2020-07-09 13:16
基因数据处理
基因数据处理
8之BWA_MEM小数据集处理(成功)
基因数据处理
8之BWA_MEM小数据集处理环境:ubuntu14.046G内存参考基因:GRCH38来源请参考【1】1.fastq数据:SRR003161.fastq的头20行,即5条reads操作记录
KeepLearningBigData
·
2020-07-09 13:16
基因数据处理
基因数据处理
46之cloud-scale-bwamem安装(compile.pl安装没问题)
版本:https://github.com/ytchen0323/cloud-scale-bwamem/releases/tag/v0.2.11.需要设置spark路径:/cluster/spark/spark-1.3.1-bin-hadoop2.4/lib/spark-assembly-1.3.1-hadoop2.4.0.jar-->/home/hadoop/cloud/spark-1.5.2/
KeepLearningBigData
·
2020-07-09 13:16
基因数据处理
基因数据处理
7之BWA_MEM运行太长
基因数据处理
7之BWA_MEM运行太长hadoop@Master:~/cloud/adam/xubo/data/test20160310$bwamemGCA_000001405.15_GRCh38/GCA
KeepLearningBigData
·
2020-07-09 13:16
基因数据处理
BWA_MEM
基因数据处理
18之基因序列生成工具wgsim安装和使用
1.下载:https://github.com/lh3/wgsim可以git或者zip2.安装:gcc-g-O2-Wall-owgsimwgsim.c-lz-lm3.数据下载:可以使用bwakit下载:https://github.com/lh3/bwa/tree/master/bwakit下载:bwa.kit/run-gen-refhs38DH4.使用方法和默认配置:hadoop@Master:
KeepLearningBigData
·
2020-07-09 13:16
基因数据处理
基因数据处理
47之ART基因序列数据生成器(仿真)
1.概念:ART基因序列数据生成器详细请见论文:【1】和官网【2】2.下载:ART-bin-GreatSmokyMountains-04.17.16-Linux64.tgzhttp://www.niehs.nih.gov/research/resources/assets/docs/artbingreatsmokymountains041716linux64tgz.tgz3.配置sudocp到用户
KeepLearningBigData
·
2020-07-09 07:03
基因数据处理
基因数据处理
49之cloud-scale-bwamem运行成功
1.先使用art生成数据:请看前一篇2.上传fastq到hdfs:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$spark-submit--classcs.ucla.edu.bwaspark.BWAMEMSpark--masterlocal[2]/home/hadoop/xubo/tools/cloud-scale-bwamem-
KeepLearningBigData
·
2020-07-09 07:03
基因数据处理
基因数据处理
52之cs-bwamem集群版运行(1千万条100bp的reads)
1.art生成模拟序列:art_illumina-ssHS20-iGRCH38BWAindex/GRCH38chr1L3556522.fna-l100-c10000000-og38L100c10000000Nhs202.上传到hdfs,制定partition数spark-submit--classcs.ucla.edu.bwaspark.BWAMEMSpark--masterspark://mas
KeepLearningBigData
·
2020-07-09 07:03
基因数据处理
基因数据处理
84之cs-bwamem处理小数据集
1.使用的是之前的数据:spark-submit–classcs.ucla.edu.bwaspark.BWAMEMSpark–masterlocal[2]/home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cloud-scale-bwamem-0.2.0-assembly.jarupload-fastq01fastq/g38L100c50
KeepLearningBigData
·
2020-07-09 07:03
基因数据处理
基因数据处理
spark
adam
基因数据处理
58之snap运行paired-end(1千万条100bp的reads对)
hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$snap-alignerindexGRCH38BWAindex/GRCH38chr1L3556522.fastasnapindexWelcometoSNAPversion1.0beta.23.Hashtableslack0.300000LoadingFASTAfile'GRCH38BW
KeepLearningBigData
·
2020-07-09 07:03
基因数据处理
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他