weixin_42953727

生信小白学习日记Day7——WGS分析流程（picard）

2019年6月2日，周日，天气晴，pass 上午。开始学习NGS分析，继BWA比对和SAM文件排序转BAM后的流程。

NGS分析

step5 Mark Duplications

参考这篇：GATK使用方法详解。https://www.plob.org/article/7009.html
在制备文库的过程中，由于PCR扩增过程中会存在一些偏差，也就是说有的序列会被过量扩增。这样，在比对的时候，这些过量扩增出来的完全相同的序列就会比对到基因组的相同位置。而这些过量扩增的reads并不是基因组自身固有序列，不能作为变异检测的证据，因此，要尽量去除这些由PCR扩增所形成的duplicates，这一步可以使用picard-tools来完成。去重复的过程是给这些序列设置一个flag以标志它们，方便GATK的识别。还可以设置 REMOVE_DUPLICATES=true 来丢弃duplicated序列。对于是否选择标记或者删除，对结果应该没有什么影响，GATK官方流程里面给出的例子是仅做标记不删除。这里定义的重复序列是这样的：如果两条reads具有相同的长度而且比对到了基因组的同一位置，那么就认为这样的reads是由PCR扩增而来，就会被GATK标记。
e.g.：

java -jar picard-tools-1.96/MarkDuplicates.jar

REMOVE_DUPLICATES= false

MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000

INPUT=hg19.reorder.sort.addhead_03.bam

OUTPUT=hg19.reorder.sort.addhead.dedup_04.bam METRICS_FILE=hg19.reorder.sort.addhead.dedup_04.metrics

实验室常用脚本中还会加入：VALIDATION_STRINGENCY=LENIENT
去查了一下，不知道理解的对不对：在BWA 比对生成SAM文件时，将没有map到基因组上的read归到了ref以外的区域，其MAPQ值不为0，而Picard认为这些read是不应该出现的，所以会报错（“MAPQ should be 0 for unmapped read” or “CIGAR should have zero elements for unmapped read”）。如果想忽略报错的话，就使用这行代码。
BWA can produce SAM records that are marked as unmapped but have non-zero MAPQ and/or non-"*" CIGAR. Typically this is because BWA found an alignment for the read that hangs off the end of the reference sequence. Picard considers such input to be invalid. In general, this error can be suppressed in Picard programs by passing VALIDATION_STRINGENCY=LENIENT or VALIDATION_STRINGENCY=SILENT. For ValidateSamFile, you can pass the arguments IGNORE=INVALID_MAPPING_QUALITY IGNORE=INVALID_CIGAR.（https://sourceforge.net/p/picard/wiki/Main_Page/）
注意： dedup这一步只要在library层面上进行就可以了，例如一个sample如果建了多个库的话，对每个库进行dedup即可，不需要把所有库合成一个sample再进行dedup操作。其实并不能准确的定义被mask的reads到底是不是duplicates，重复序列的程度与测序深度和文库类型都有关系。最主要目的就是尽量减小文库构建时引入文库的PCR bias。

Step 6: Index Bam File

对上一步得到的结果生成索引文件, 可以用samtools完成，生成的索引后缀是bai。

e.g.

samtools index hg19.reorder.sort.addhead.dedup_04.bam

Step 7: Local realignment around indels

这一步的目的就是将比对到indel附近的reads进行局部重新比对，将比对的错误率降到最低。一般来说，绝大部分需要进行重新比对的基因组区域，都是因为插入/缺失的存在，因为在indel附近的比对会出现大量的碱基错配，这些碱基的错配很容易被误认为SNP。还有，在比对过程中，比对算法对于每一条read的处理都是独立的，不可能同时把多条reads与参考基因组比对来排错。因此，即使有一些reads能够正确的比对到indel，但那些恰恰比对到indel开始或者结束位置的read也会有很高的比对错误率，这都是需要重新比对的。Local realignment就是将由indel导致错配的区域进行重新比对，将indel附近的比对错误率降到最低。

主要分为两步：

第一步，通过运行RealignerTargetCreator来确定要进行重新比对的区域。
e.g.

java -jar GenomeAnalysisTK.jar
-R hg19.fa
-T RealignerTargetCreator
-I hg19.reorder.sort.addhead.dedup_04.bam
-o hg19.dedup.realn_06.intervals
-known Mills_and_1000G_gold_standard.indels.hg19.vcf
-known 1000G_phase1.indels.hg19.vcf

在实验室常用脚本中，-T RealignerTargetCreator 会加入参数 -nt 2 没查到有什么作用；且没有后面的两个-known。
参数说明：
-R：参考基因组；
-T：选择的GATK工具；
-I：输入上一步所得bam文件；
-o：输出的需要重新比对的基因组区域结果；
-maxInterval：允许进行重新比对的基因组区域的最大值，不能太大，太大耗费会很长时间，默认500；
-known： 已知的可靠的indel位点，重比对将主要围绕这些位点进行，对于人类基因组数据而言，可以直接指定GATK resource bundle里面的indel文件（必须是vcf文件）。

对于known sites的选择很重要，GATK中每一个用到known sites的工具对于known sites的使用都是不一样的，但是所有的都有一个共同目的，那就是分辨真实的变异位点和不可信的变异位点。如果不提供这些known sites的话，这些统计工具就会产生偏差，最后会严重影响结果的可信度。在这些需要知道known sites的工具里面，只有UnifiedGenotyper和HaplotypeCaller对known sites没有太严格的要求。

如果你所研究的对象是人类基因组的话，那就简单多了，因为GATK网站上对如何使用人类基因组的known sites做出了详细的说明，具体的选择方法如下表，这些文件都可以在GATK resource bundle中下载。

但是如果你要研究的不是人类基因组的话，那就有点麻烦了，http://www.broadinstitute.org/gatk/guide/article?id=1243，这个网站上是做非人类基因组时，大家分享的经验，可以参考一下。这个known sites如果实在没有的话，也是可以自己构建的：首先，先使用没有经过矫正的数据进行一轮SNP calling；然后，挑选最可信的SNP位点进行BQSR分析；最后，在使用这些经过BQSR的数据进行一次真正的SNP calling。这几步可能要重复好多次才能得到可靠的结果。

第二步，通过运行IndelRealigner在这些区域内进行重新比对。
e.g.

java -jar GenomeAnalysisTK.jar
-R hg19.fa
-T IndelRealigner
-targetIntervals hg19.dedup.realn_06.intervals
-I hg19.reorder.sort.addhead.dedup_04.bam
-o hg19.dedup.realn_07.bam
-known Mills_and_1000G_gold_standard.indels.hg19.vcf
-known 1000G_phase1.indels.hg19.vcf

运行结束后，生成的hg19.dedup.realn_07.bam即为最后重比对后的文件。

注意：

第一步和第二步中使用的输入文件（bam文件）、参考基因组和已知indel文件必须是相同的文件。
当在相同的基因组区域发现多个indel存在时，这个工具会从其中选择一个最有可能存在比对错误的indel进行重新比对，剩余的其他indel不予考虑。
对于454下机数据，本工具不支持。此外，这一步还会忽略bwa比对中质量值为0的read以及在CIGAR信息中存在连续indel的reads。

Step 8: Base quality score recalibration

注：实验室脚本中是没有这一步的，原因可能是我们没有known的.vcf文件。

这一步是对bam文件里reads的碱基质量值进行重新校正，使最后输出的bam文件中reads中碱基的质量值能够更加接近真实的与参考基因组之间错配的概率。这一步适用于多种数据类型，包括illunima、solid、454、CG等数据格式。在GATK2.0以上版本中还可以对indel的质量值进行校正，这一步对indel calling非常有帮助

举例说明，在reads碱基质量值被校正之前，我们要保留质量值在Q25以上的碱基，但是实际上质量值在Q25的这些碱基的错误率在1%，也就是说质量值只有Q20，这样就会对后续的变异检测的可信度造成影响。还有，在边合成边测序的测序过程中，在reads末端碱基的错误率往往要比起始部位更高。另外，AC的质量值往往要低于TG。BQSR的就是要对这些质量值进行校正。

BQSR主要有三步：

第一步：利用工具BaseRecalibrator，根据一些known sites，生成一个校正质量值所需要的数据文件，GATK网站以“.grp”为后缀命名。

e.g.

java -jar GenomeAnalysisTK.jar
-T BaseRecalibrator
-R hg19.fa
-I ChrALL.100.sam.dedup.realn.07.bam
-knownSites dbsnp_137.hg19.vcf
-knownSites Mills_and_1000G_gold_standard.indels.hg19.vcf
-knownSites 1000G_phase1.indels.hg19.vcf
-o ChrALL.100.sam.recal.08-1.grp

第二步：利用第一步生成的ChrALL.100.sam.recal.08-1.grp来生成校正后的数据文件，也是以“.grp”命名，这一步主要是为了与校正之前的数据进行比较，最后生成碱基质量值校正前后的比较图，如果不想生成最后BQSR比较图，这一步可以省略。

e.g.

java -jar GenomeAnalysisTK.jar
-T BaseRecalibrator
-R hg19.fa
-I ChrALL.100.sam.dedup.realn.07.bam
-BQSR ChrALL.100.sam.recal.08-1.grp
-o GATK/hg19.recal.08-2.grp
-knownSites dbsnp_137.hg19.vcf
-knownSites Mills_and_1000G_gold_standard.indels.hg19.vcf
-knownSites 1000G_phase1.indels.hg19.vcf

第三步：利用工具PrintReads将经过质量值校正的数据输出到新的bam文件中，用于后续的变异检测。

e.g.

java -jar GenomeAnalysisTK.jar
-T PrintReads
-R hg19.fa
-I ChrALL.100.sam.dedup.realn.07.bam
-BQSR ChrALL.100.sam.recal.08-1.grp
-o ChrALL.100.sam.recal.08-3.grp.bam

主要参数说明：

-bqsrBAQGOP：BQSR BAQ gap open 罚值，默认值是40，如果是对全基因组数据进行BQSR分析，设置为30会更好。

-lqt：在计算过程中，该算法所能考虑的reads两端的最小质量值。如果质量值小于该值，计算过程中将不予考虑，默认值是2。

注意：

（1）当bam文件中的reads数量过少时，BQSR可能不会正常工作，GATK网站建议base数量要大于100M才能得到比较好的结果。

（2）除非你所研究的样本所得到的reads数实在太少，或者比对结果中的mismatch基本上都是实际存在的变异，否则必须要进行BQSR这一步。对于人类基因组，即使有了dbSNP和千人基因组的数据，还有很多mismatch是错误的。因此，这一步能做一定要做。

step 9: 分析和评估BQSR结果

这一步会生成评估前后碱基质量值的比较结果，可以选择使用图片和表格的形式展示。

e.g.

java -jar GenomeAnalysisTK.jar
-T AnalyzeCovariates
-R hg19.fa
-before ChrALL.100.sam.recal.08-1.grp
-after ChrALL.100.sam.recal.08-2.grp
-csv ChrALL.100.sam.recal.grp.09.csv
-plots ChrALL.100.sam.recal.grp.09.pdf

参数解释：

-before：基于原始比对结果生成的第一次校对表格。

-after：基于第一次校对表格生成的第二次校对表格。

-plots：评估BQSR结果的报告文件。

-csv：生成报告中图标所需要的所有数据。

step 10: Reduce bam file

这一步是使用ReduceReads这个工具将bam文件进行压缩，生成新的bam文件，新的bam文件仍然保持bam文件的格式和所有进行变异检测所需要的信息。这样不仅能够节省存储空间，也方便后续变异检测过程中对数据的处理。

e.g.

java -jar GenomeAnalysisTK.jar
-T ReduceReads
-R hg19.fa
-I ChrALL.100.sam.recal.08-3.grp.bam
-o ChrALL.100.sam.recal.08-3.grp.reduce.bam

到此为止，GATK流程中的第一大步骤就结束了，完成了variants calling所需要的所有准备工作，生成了用于下一步变异检测的bam文件。

step 11: call snp

来自：https://www.plob.org/article/7023.html

GATK在这一步里面提供了两个工具进行变异检测——UnifiedGenotyper和HaplotypeCaller。其中HaplotypeCaller一直还在开发之中，包括生成的结果以及计算模型和命令行参数一直在变动，因此，目前使用比较多的还是UnifiedGenotyper。此外，HaplotypeCaller不支持Reduce之后的bam文件，因此，当选择使用HaplotypeCaller进行变异检测时，不需要进行Reduce reads。

UnifiedGenotyper是集合多种变异检测方法而成的一种Variants Caller，既可以用于单个样本的变异检测，也可以用于群体的变异检测。UnifiedGenotyper使用贝叶斯最大似然模型，同时估计基因型和基因频率，最后对每一个样本的每一个变异位点和基因型都会给出一个精确的后验概率。
e.g.

java -jar GenomeAnalysisTK.jar
-glm BOTH
-l INFO
-R hg19.fa
-T UnifiedGenotyper
-I ChrALL.100.sam.recal.08-3.grp.reduce.bam
-D dbsnp_137.hg19.vcf
-o ChrALL.100.sam.recal.10.vcf
-metrics ChrALL.100.sam.recal.10.metrics
-stand_call_conf 10
-stand_emit_conf 30

上述命令将对输入的bam文件中的所有样本进行变异检测，最后生成一个vcf文件，vcf文件中会包含所有样本的变异位点和基因型信息。但是现在所得到的结果是最原始的、没有经过任何过滤和校正的Variants集合。这一步产生的变异位点会有很高的假阳性，尤其是indel，因此，必须要进行进一步的筛选过滤。这一步还可以指定对基因组的某一区域进行变异检测，只需要增加一个参数 -L：target_interval.list，格式是bed格式文件。

主要参数解释：
-A：指定一个或者多个注释信息，最后输出到vcf文件中。
-XA：指定不做哪些注释，最后不会输出到vcf文件中。
-D：已知的snp文件。
-glm：选择检测变异的类型。SNP表示只进行snp检测；INDEL表示只对indel进行检测；BOTH表示同时检测snp和indel。默认值是SNP。
-hets：杂合度的值，用于计算先验概率。默认值是0.001。
-maxAltAlleles：容许存在的最大alt allele的数目，默认值是6。这个参数要特别注意，不要轻易修改默认值，程序设置的默认值几乎可以满足所有的分析，如果修改了可能会导致程序无法运行。
-mbq：变异检测时，碱基的最小质量值。如果小于这个值，将不会对其进行变异检测。这个参数不适用于indel检测，默认值是17。
-minIndelCnt：在做indel calling的时候，支持一个indel的最少read数量。也就是说，如果同时有多少条reads同时支持一个候选indel时，软件才开始进行indel calling。降低这个值可以增加indel calling的敏感度，但是会增加耗费的时间和假阳性。
-minIndelFrac：在做indel calling的时候，支持一个indel的reads数量占比对到该indel位置的所有reads数量的百分比。也就是说，只有同时满足-minIndelCnt和-minIndelFrac两个参数条件时，才会进行indel calling。
-onlyEmitSamples：当指定这个参数时，只有指定的样本的变异检测结果会输出到vcf文件中。
-stand_emit_conf：在变异检测过程中，所容许的最小质量值。只有大于等于这个设定值的变异位点会被输出到结果中。
-stand_call_conf：在变异检测过程中，用于区分低质量变异位点和高质量变异位点的阈值。只有质量值高于这个阈值的位点才会被视为高质量的。低于这个质量值的变异位点会在输出结果中标注LowQual。在千人基因组计划第二阶段的变异检测时，利用35x的数据进行snp calling的时候，当设置成50时，有大概10%的假阳性。
-dcov：这个参数用于控制检测变异数据的coverage(X)，4X的数据可以设置为40，大于30X的数据可以设置为200。
注意：GATK进行变异检测的时候，是按照染色体排序顺序进行的（先call chr1，然后chr2，然后chr3…最后chrY），并非多条染色体并行检测的，因此，如果数据量比较大的话，建议分染色体分别进行，对性染色体的变异检测可以同常染色体方法。

大多数参数的默认值可以满足大多数研究的需求，因此，在做变异检测过程中，如果对参数意义不是很明确，不建议修改。

实验室常用脚本中，-T UnifiedGenotyper 后面会加几个参数：
-T UnifiedGenotyper -nt 6 -stand_call_conf 30.0 -stand_emit_conf 30.0 -rf MappingQuality -mmq 20
-nt: 线程数
-stand_call_conf 30.0: --standard_min_confidence_threshold_for_calling double default: 30.0
The minimum phred-scaled confidence threshold at which variants should be called. The minimum phred-scaled Qscore threshold to separate high confidence from low confidence calls. Only genotypes with confidence >= this threshold are emitted as called sites. A reasonable threshold is 30 for high-pass calling (this is the default).
-stand_emit_conf 30.0: --standard_min_confidence_threshold_for_emitting double default: 30.0
The minimum phred-scaled confidence threshold at which variants should be emitted (and filtered with LowQual if less than the calling threshold). This argument allows you to emit low quality calls as filtered records. http://www.chenlianfu.com/?p=1523
-rf MappingQuality -mmq 20: GATK提供的CountReads工具中，可以过滤read
功能：计算reads数
分类：诊断和质量控制工具
概要：最好和–read-filter合用，这样可以了解下符合特定标准的reads数
输入：一个或多个BAM文件
输出：结果会输出到屏幕（标准输出）上，毕竟是用来确定阈值的，也不需要一定要输出到文件中
e.g.:

java -jar ~/biosoft/GenomeAnalysisTK.jar -T CountReads -R $work/database/TAIR10/TAIR10.fa  -I BC_bg_reads.sorted.bam
输出：
CountReads - CountReads counted 55080781 reads in the traversal

–read-filter/-rf后面可以接很多的选项，官方文档列出了如下内容：(参考：https://www.jianshu.com/p/710c51dcf1be)
这里主要用到-rf MappingQuality，Filter out reads with low mapping qualities

java -jar GenomeAnalysisTk.jar \
         -T HaplotypeCaller \
         -R reference.fasta \
         -I input.bam \
         -o output.vcf \
         -rf MappingQuality \
         -mmq 15

用HaplotypeCaller call snp运行方法与 UnifiedGenotyper大同小异，至此，从原始.fq.gz文件到获得变异位点的WGS处理就完成了。

若想要call indel，方法有很多，可以参考这篇博文：http://bioinformatics.lofter.com/post/bffd5_a87dee
这里粘贴用 GATK UnifiedGenotyper call indel的方法，只是在call snp的脚本里改了一些参数：

 java -jar GenomeAnalysisTKLite.jar 
   -R ref.fasta 
   -T UnifiedGenotyper 
   -I sample.bam 
   -o sample.gatk.vcf 
   -nt 4 
   -stand_call_conf 50.0 
   -stand_emit_conf 0 
   -glm INDEL 
   -rf BadCigar

这边主要是把-glm这个参数设成了INDEL，所以输出的结果当中只有INDEL。

-nt这个参数设的是线程数，除了这个参数还有-nct也可以控制线程数，data threads是个什么概念楼主也比较费解，-nt是分配多少个data threads，而-nct是每个data threads分配多少个CPU，大家看机器资源试着设好了，我一般都用-nt，耗内存高一点不过应该貌似快一点……

然后根据个人经历2.2版本Call出来的Indel会莫名其妙的少掉很多，很多2.1 Call的出来的我用2.2试了恩个参数也Call不出来(肯定是我打开软件的方式不对= =)，而且2.2的AD值貌似有bug，明显很多不对，不过-maxAltAlleles默认值已经升到了6而且升值不减速确实很imba(就是这么多alt偶尔会觉得没什么意义的就是……) 不过如果真是bug就有望被修复，坐等GATK继续越做越好。

最后再提一下-rf这个参数，全称是–read_filter，就是用来筛选输入的bam文件中的reads的，因为GATK会检查bam文件里面有个叫Cigar值的东西，有时候有的mapping软件生成的bam文件当中有一些不符合它的标准，在用GATK处理时就可能会包Malformed read一类的错，所以可以通过-rf BadCigar这个参数来剔除掉这些不规范的reads，这样GATK就能正常运行了，上次有同学就碰到这样的问题，我后来才想起来加上这个参数应该大部分相关问题都能解决(如果加上了还不能解决的话那就可能是版本的bug了，GATK的论坛上貌似就有人碰到过这种情况，多换几个版本试试吧……)。

这篇博文中还介绍了其他工具call indel的方法，仅供参考http://bioinformatics.lofter.com/post/bffd5_a87dee。

明天再来介绍call snp之后对原始变异位点进行过滤，并对本片文章之前的步骤进行总结，see you later.

C++ Vector的使用(上) 叶羽西 C++c++开发语言
注：这里以C++11版本为基础，简单介绍vector的特性和常见使用。目录vector简介vector特性vector的定义vector对象的构造和初始化1.构造一个空的vector2.构造一个容量大小为n的vector3.构造一个vector，初始值为指定的数据片段4.拷贝构造一个vector对象5.移动构造一个vector对象6.直接使用列表初始化&构造vector对象vector中元素的遍历
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
C语言控制结构深度解析：从底层原理到高效实战技巧 Bryan Ding c语言开发语言
一、程序逻辑的核心密码程序设计的本质是对现实问题的抽象和逻辑表达。C语言作为结构化编程语言的典范，其控制结构构成了程序逻辑的骨架。三大基本结构构成所有程序的逻辑基础：顺序结构：代码的自然执行顺序选择结构：if/else语句实现分支判断循环结构：for/while实现重复操作二、选择结构的底层实现1.if语句的机器级实现if (condition){ //代码块}编译后的汇编代码示例： cmp
ARP 协议全面分析：原理、安全与应用 Dsocc 安全网络网络协议
一、ARP协议基础原理1.1ARP协议的基本概念ARP（AddressResolutionProtocol，地址解析协议）是TCP/IP协议栈中的一个重要低层协议，负责将网络层的IP地址转换为数据链路层的物理MAC地址，使得数据包能够在局域网中准确传输。在计算机网络通信中，当一个设备需要向另一个设备发送数据时，不仅需要知道对方的IP地址，还需要知道其MAC地址。ARP协议就是通过IP地址查询MAC
TCP 坚持定时器详解：原理、配置与最佳实践 Dsocc tcp/ip 网络网络协议
一、TCP坚持定时器基础原理1.1坚持定时器的设计目的TCP坚持定时器(TCPPersistTimer)是TCP协议中用于处理接收窗口为零情况的重要机制，其核心设计目的是防止TCP连接在窗口更新ACK丢失时陷入死锁状态。当TCP连接的接收方通告一个窗口大小为0的ACK时，发送方会停止发送数据。如果后续接收方处理了部分数据并发送一个非零窗口通告的ACK报文在网络中丢失，发送方将永远不知道窗口已经重新
掌握Android Jetpack，优化移动开发体验移动开发前沿移动端开发宝典 android jetpack android ai
掌握AndroidJetpack，优化移动开发体验关键词：AndroidJetpack、组件化开发、ViewModel、LiveData、Room、Navigation、Compose摘要：本文深入探讨AndroidJetpack组件库的核心架构和使用方法，通过系统化的讲解和实战演示，帮助开发者理解如何利用Jetpack系列组件提升开发效率、构建健壮的Android应用。文章将从基础概念入手，逐步
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
【数据标注师】关键词标注试着数据标注师数据标注师关键词标注
目录一、**理解关键词标注的核心逻辑**1.**三大标注原则**2.**关键词类型体系**二、**四阶训练体系**▶**阶段1：基础规则内化**▶**阶段2：语义浓缩训练**▶**阶段3：场景化标注策略**▶**阶段4：工具效率提升**三、**五大高频错误防御指南**四、**复杂场景突破策略**1.**隐喻处理方案**2.**多义词消歧流程**3.**跨语言混合标注**五、**持续进阶体系**1.
PWM技术全解析：从零到企业级开发实战 Android洋芋 PWM技术原理电机控制 SPWM/SVPWM优化高效调制应用电源管理
简介PWM（脉冲宽度调制）技术是现代电子控制系统的核心技术之一，通过调节数字信号的占空比来实现对模拟信号的控制。PWM技术以其高精度、高效率和灵活性优势，广泛应用于电机控制、电源管理、LED调光和通信协议模拟等领域。无论您是电子工程初学者还是资深开发者，掌握PWM技术都将为您的项目带来显著优势。本文将从PWM基础原理出发，深入讲解其核心公式，提供企业级开发实战案例，并附有详细代码及解释，助您从零到
VPS云服务器自动化运维：Ansible+Puppet实现批量配置管理与监控 cpsvps_net 运维服务器自动化
在云计算时代，VPS云服务器的自动化运维已成为企业提升效率的关键技术。本文将深入解析如何通过Ansible和Puppet两大主流工具实现批量配置管理，构建完整的监控体系，帮助运维团队从重复劳动中解放，确保服务器集群的高可用性。我们将从基础架构设计到实战案例，系统讲解自动化运维的最佳实践路径。VPS云服务器自动化运维：Ansible+Puppet实现批量配置管理与监控一、VPS云服务器自动化运维的核
＜电子幽灵＞开发笔记:BAT基础笔记(一）
BAT脚本基础笔记(一)介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：作为低代码工具的笔记，这里会用特殊字体表示要用到的函数等等。请若要学习，请结合相关工具边用边学。BAT基础笔记（一）BAT脚本基础笔记(一)介绍简介在哪里编写BAT代码？BAT基本语法1.基本命
＜电子幽灵＞前端第一件：HTML基础笔记下靈镌sama 电子幽灵随手记前端 html 笔记
HTML基础笔记（下）介绍费曼学习法最重要的部分，即把知识教给一个完全不懂的孩子——或者小白。为了更好的自我学习，也为了让第一次接触某个知识范畴的同学快速入门，我会把我的学习笔记整理成电子幽灵系列。提示：文章的是以解释-代码块-解释的结构呈现的。当你看到代码块并准备复制复现的时候，最好先保证自己看过了代码块前后的解释。＜电子幽灵＞前端第一件：HTML基础笔记上中，最基础的一部分HTML标签和已经以
VR协作香港：虚拟现实技术重塑商业协作新模式 cpsvps_net vr
随着虚拟现实技术的快速发展，VR协作正在全球范围内掀起新一轮的数字化转型浪潮。作为国际金融中心的香港，凭借其独特的地理位置和先进的科技基础设施，正在成为VR协作应用的重要试验场。本文将深入探讨VR协作在香港的发展现状、应用场景、技术优势以及未来趋势，为关注这一领域的读者提供全面洞察。VR协作香港：虚拟现实技术重塑商业协作新模式香港VR协作市场的发展现状香港作为亚洲重要的商业枢纽，VR协作技术的应用
基于 Vue + RuoYi 架构设计的商城Web/小程序实训课程速易达网络 spring boot uni-app vue.js
以下是基于Vue+RuoYi架构设计的商城Web/小程序实训课程方案，结合企业级开发需求与教学实践，涵盖全栈技术栈与实战模块：一、课程概述目标：通过Vue前端+RuoYi后端（SpringBoot）开发企业级电商系统，实现多终端（Web/H5/小程序）适配，覆盖从架构设计到部署上线的全流程。周期：8周（建议每日3小时）适合人群：具备基础Java/Vue知识的开发者，熟悉HTML/CSS/JavaS
git和解决冲突代码杂货铺子 git gitlab
安装包：Git-Downloadsgit小乌龟：TortoiseGit–WindowsShellInterfacetoGit简单介绍git一般指git还有gitlab,实际工程使用时依据项目建立的位置或者需要使用到的特性不同，可以自行选择，基础功能都差不多。git安装后会提供类似shell一样的命令行管理工具，直接在git工程所在的目录右键鼠标单击打开就可以。TortoiseGit是提供了一个类似
【Docker】容器中Spring boot项目 Graphics2D 画图中文乱码解决方案 ladymorgana 日常工作总结 docker spring boot 容器
@TOC一、容器中Springboot项目Graphics2D画图中文乱码解决方案在Docker容器中运行Java应用使用Graphics2D绘制中文时出现乱码，通常是因为容器缺少中文字体支持。以下是完整的解决方案：1.基础解决方案：安装中文字体方法一：基于Alpine镜像的解决方案FROMopenjdk:8-jdk-alpine#安装中文字体RUNapkadd--updatettf-dejavu
【Tkinter从入门到精通】Python原生GUI开发全指南满怀1015 python 开发语言 Tkinter GUI开发桌面应用界面设计
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明⚖️技术选型对比️二、实战演示⚙️环境配置要求核心代码实现案例1：基础窗口创建案例2：网格布局计算器案例3：文件选择对话框✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅推荐方案❌常见错误调试技巧五、应用场景扩展适用领域创新应用方向生态工具链✨结语⚠️技术局
Golang基础笔记八之函数后端go函数闭包
本文首发于公众号：Hunter后端原文链接：Golang基础笔记八之函数本篇笔记介绍Golang里函数相关的内容，以下是本篇笔记目录：函数的定义语法函数返回值可变参数函数匿名函数闭包1、函数的定义语法函数的定义格式如下：func函数名(参数列表)(返回值列表){函数体}比如下面是一个两数相加返回其和的函数：funcadd(a,bint)int{ returna+b}调用的话，直接传参调用即可：s
教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
OpenAI技术路线急转：从TypeScript到Rust的Codex CLI重构内幕全栈陈序员 typescript rust 重构自然语言处理神经网络人工智能深度学习
目录前言：OpenAI的技术抉择引发业界思考CodexCLI：OpenAI的终端AI编程利器语言抉择的戏剧性反转：从TypeScript到RustRust重写的四大技术动因1.零依赖部署：消除环境配置痛点2.内存安全与沙箱隔离3.性能的全面碾压4.协议层的深度整合Rust的崛起：从系统编程到AI基础设施技术选型的平衡艺术：生产力vs性能对开发者生态的潜在影响结语：技术进化的永恒韵律前言：OpenA
Vue3.3 + TypeScript ，自主打造媲美 ElementPlus 的组件库之学习笔记怪我冷i 大前端 typescript 学习笔记
Vue3.3+TS4，自主打造媲美ElementPlus的组件库第1章课程介绍1-1课程导学1-2代码库使用注意事项1-3项目演示地址：http://element.vikingship.xyz/第2章Typescript基础知识2-1什么是Typescript为什么要学习它2-2安装Typescript2-3原始数据类型和Any类型2-4数组和元组2-5Interface-接口初探2-6函数2-
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
python基础知识（二）
目录1.list和tuple1.1.list1.2.tuple2.dict和set2.1.dict2.2.set3.条件3.1.if3.2.if...else3.3.语法糖4.循环4.1.for...in4.2.while1.list和tuple1.1.listPython内置的一种数据类型是列表：list。list是一种有序的集合，可以添加和删除其中的元素。例如：>>>names=['liyan
Python基础知识（IO编程） yuxxto56 python python
目录1.文件读写1.1.读文件1.2.字符编码1.3.二进制文件1.4.写文件2.操作文件和目录2.1.环境变量2.2.操作文件、目录1.文件读写读写文件是Python语言最常见的IO操作。通过数据盘读写文件的功能都是由操作系统提供的，读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）
【Linux】写时拷贝——干货解析代码程序猿RIP Linux linux 运维服务器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、写时拷贝核心概念1.什么是写时拷贝？2.COW解决的问题二、写时拷贝工作原理1.内存管理基础结构2.COW工作流程3.页表状态变化图示初始状态（共享只读）子进程写入后（写时拷贝）三、写时拷贝的优势分析1.性能优势对比2.实际性能数据3.资源利用率提升四、内核实现深度解析1.COW核心代码逻辑2.关键数据结构五、应用场景与最
Python中的语法糖介绍硅星纯牛码 python python
Python中的语法糖介绍1.魔法方法(magicmethods)基础魔法方法属性相关的魔法方法2.装饰器(decorators)内置装饰器@property：让方法变为虚拟属性@classmenthod：定义类方法@staticmethod：定义静态方法functools中的装饰器functoolswraps:保留元数据functoolslru_cache:缓存计算结果3.推导式(compreh
SDK 说明：从基础概念到实践应用的全面解析 Mr_-G Linux 底层软件开发编程入门 SDK
一、SDK的核心定义与本质内涵SDK（SoftwareDevelopmentKit，软件开发工具包）是一组为特定软件平台、编程语言或软件框架提供的开发工具集合。它本质上是技术提供商将复杂的底层技术封装后，向开发者开放的“技术接口包”，其核心目的是降低开发门槛、提升开发效率，让开发者无需从零构建基础功能，直接基于封装好的工具和接口实现业务逻辑。从技术架构看，SDK包含三大核心要素：API（应用程序接
git 总结+场景应用放逐者-保持本心，方可放逐工具配置 git git 远程连接 git 标签 git 应用 git 打包迁移 git 版本控制 git 新手应用
文章目录概要（git）git冲突经验之谈git相关操作后续git具体应用回退到指定版本git校验忽略git版本标签管理git代码仓库迁移gitbundle后续git新手应用指南概要（git）一、Git简介Git是一个分布式版本控制系统，用于高效地处理从非常小到非常大的项目版本管理。它允许开发者跟踪文件的更改历史，方便团队协作开发，并且可以在不同分支上进行并行开发。二、基础指令连接（配置）gitco
Swift - 基础面试题赑屃王者面试题 swift 面试
面试题目录一、类和结构体的区别是什么二、写时拷贝机制三、模式匹配四、协议五、泛型六、运算符、下标、字面量协议、尾随闭包七、Optional、变量常量、类型检查、扩展八、函数式编程九、响应式编程十、swift和OC的区别？一、类和结构体的区别是什么类是引用类型，结构体是值类型，拷贝赋值时，结构体是值拷贝，对象赋值时指针拷贝。结构体保存在栈区，类对象保存在堆区，类对象指针一般在栈区，指向堆区的对象。结
详解FreeRTOS：FreeRTOS列表和列表项（基础篇—13）不脱发的程序猿详解FreeRTOS FreeRTOS列表和列表项 FreeRTOS RTOS
目录1、列表和列表项是什么？1.1、列表1.2、列表项2、初始化列表和列表项2.1、初始化列表2.2、初始化列表项3、列表项插入3.1、列表项插入过程原理3.2、列表项插入源码4、列表项末尾插入4.1、列表项末尾插入过程原理4.2、列表项末尾插入源码5、删除列表项6、遍历列表7、实验：列表项的插入和删除本篇博文是《详解FreeRTOS》专栏基础篇最后一篇，下篇博文将进入进阶篇阶段。列表和列表项是直
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

生信小白学习日记Day7——WGS分析流程（picard）

NGS分析

step5 Mark Duplications

Step 6: Index Bam File

Step 7: Local realignment around indels

Step 8: Base quality score recalibration

step 9: 分析和评估BQSR结果

step 10: Reduce bam file

step 11: call snp

你可能感兴趣的:(NGS基础)