大桃子技术

【生信分析】基因组学导论

由于工作需要，现在开始跨行学生信！
祝我成功
目标：通过一周的学习能对对不同高通量测序数据集（RNA-seq、ChIP-seq、BS-seq 和多组学集成）进行分析。

配置环境

if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install(c('qvalue','plot3D','ggplot2','pheatmap','cowplot', 'cluster', 'NbClust', 'fastICA', 'NMF','matrixStats', 'Rtsne', 'mosaic', 'knitr', 'genomation', 'ggbio', 'Gviz', 'DESeq2', 'RUVSeq', 'gProfileR', 'ggfortify', 'corrplot', 'gage', 'EDASeq', 'citr', 'formatR', 'svglite', 'Rqc', 'ShortRead', 'QuasR', 'methylKit','FactoMineR', 'iClusterPlus', 'enrichR','caret','xgboost','glmnet', 'DALEX','kernlab','pROC','nnet','RANN', 'ranger','GenomeInfoDb', 'GenomicRanges', 'GenomicAlignments', 'ComplexHeatmap', 'circlize', 'rtracklayer', 'BSgenome.Hsapiens.UCSC.hg38', 'BSgenome.Hsapiens.UCSC.hg19','tidyr', 'AnnotationHub', 'GenomicFeatures', 'normr', 'MotifDb', 'TFBSTools', 'rGADEM', 'JASPAR2018' ))

第一章：“基因组学导论”

介绍基因组生物学和基因组学的基本概念。理解这些概念对于计算基因组学非常重要。
1.1 基因、DNA 和中心法则( Genes, DNA and central dogma )
一个不断出现的中心概念是“基因”。在我们解释这一点之前，我们需要介绍一些对于理解基因概念很重要的其他概念。人体由数十亿个细胞组成。这些细胞专门从事不同的任务。例如，肝脏中的细胞有助于产生酶来分解毒素。在心脏中，有专门的肌肉细胞使心脏跳动。然而，所有这些不同种类的细胞都来自单细胞胚胎。制造不同类型细胞的所有指令都包含在该单个细胞内，并且随着该细胞的每次分裂，这些指令都会传输到新细胞。这些指令可以被编码成一个字符串——DNA分子，一种由称为核苷酸的重复单元组成的聚合物。 DNA分子中的四种核苷酸，腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶（编码为四个字母：A、C、G和T）以特定的顺序存储着生命的信息。 DNA 以双螺旋形式组织，其中两个互补的聚合物彼此交织并扭曲成熟悉的螺旋形状。

1.1.1 什么是基因组？（What is a genome?）
生物体的完整 DNA 序列包含所有遗传信息，称为基因组。基因组包含构建和维持有机体的所有信息。基因组有不同的大小和结构。我们的基因组不仅仅是一段裸露的DNA。在真核细胞中，DNA 包裹在蛋白质（组蛋白）周围，形成高级结构，如构成染色质和染色体的核小体（见图 1.1）。

    根据生物体的不同，可能有几条染色体。然而，在某些物种（例如大多数原核生物）中，DNA 以环状形式储存。物种之间基因组的大小也不同。人类基因组有46条染色体和超过30亿个碱基对，而小麦基因组有42条染色体和170亿个碱基对；不同生物体之间的基因组大小和染色体数量都是可变的。使用测序技术获得生物体的基因组序列。通过这项技术，可以获得基因组中的 DNA 序列片段，称为“reads”。随后通过使用重叠读取将初始片段拼接到更大的片段来获得更大的基因组序列块。最新的测序技术使基因组测序变得更便宜、更快。这些技术输出更多的读数、更长的读数和更准确的读数。 1999-2000 年，第一个人类基因组的估计成本为 3 亿美元；如今，只需 1500 美元即可获得高质量的人类基因组。由于成本下降，研究人员和临床医生可以生成更多数据。这增加了数据存储的成本，也增加了对分析基因组数据的合格人员的需求。这是写这本书的动机之一。

1.1.2 什么是基因？
在基因组中，有一些特定区域包含编码遗传信息物理产物的精确信息。基因组中具有此信息的区域传统上称为“基因”。然而，该基因的精确定义仍在发展中。根据分子生物学的经典教科书，基因是对应于单个蛋白质或单个催化和结构RNA分子的DNA序列片段（Alberts等，2002）。现代定义是：“包含所有序列元素的区域（或多个区域）编码功能性转录本所必需的”（Eilbeck et al.,2005）。无论定义如何变化，所有人都同意这样一个事实：基因是所有生物体遗传的基本单位。

   大多数时候，所有细胞都以相同的方式使用其遗传信息； DNA 被复制以将信息转移到新细胞。如果被激活，基因会在细胞核（真核生物）中转录成信使 RNA (mRNA)，然后 mRNA（如果基因编码蛋白质）在细胞质中翻译成蛋白质。这本质上是承载信息的聚合物之间的信息传递过程； DNA、RNA和蛋白质，被称为分子生物学的“中心法则”（总结见图1.2）。蛋白质是生命必需的元素。所有活细胞的生长和修复、功能和结构都依赖于它们。这就是为什么基因是基因组生物学的中心概念，因为基因可以编码蛋白质和其他功能分子的信息。基因如何控制和激活决定了有机体的一切。从细胞的身份到对感染的反应，细胞如何发育以及针对某些刺激的行为是由基因及其编码的功能分子的活性控制的。肝细胞之所以成为肝细胞，是因为某些基因被激活，并产生它们的功能产物，帮助肝细胞完成其任务。

1.1.3 基因是如何控制的？
转录和转录后调控为了回答这个问题，我们必须更深入地研究我们通过中心法则引入的转录概念。信息传递过程的第一步——产生部分 DNA 序列的 RNA 副本——称为转录。这项任务是由 RNA 聚合酶完成的。 DNA 序列中特定区域（核心启动子）的存在使得 RNA 聚合酶依赖性转录起始成为可能。核心启动子是促进转录的 DNA 区域，位于转录起始位点的上游。在真核生物中，几种称为通用转录因子的蛋白质识别并结合核心启动子并形成预启动复合物。 RNA 聚合酶识别这些复合物并启动 RNA 的合成，聚合酶沿着模板 DNA 行进并生成 RNA 副本（Hager 等，2009）。 mRNA 产生后，通常通过剪接体进行剪接。这些被称为“内含子”的部分被移除，而被称为“外显子”的部分被保留。然后，剩余的 mRNA 被翻译成蛋白质。哪些外显子将成为最终成熟转录本的一部分也可以进行调节，并创造蛋白质结构和功能的多样性（见图 1.3）。
与蛋白质编码基因相反，非编码 RNA (ncRNA) 基因在转录后经过加工并呈现其功能结构，无需进行翻译，因此得名：非编码 RNA。某些 ncRNA 也可以被剪接，但仍然不能翻译。 ncRNA 和其他 RNA 通常可以在 RNA 分子内形成互补碱基对，这赋予它们额外的复杂性。这基于自我互补的结构，称为 RNA 二级结构，通常是许多 ncRNA 物种功能所必需的。总之，从转录起始到功能产物产生的一系列过程被称为基因表达。基因表达定量和调控是基因组生物学的一个基本主题。

1.1.4 基因是什么样的？
在我们继续前进之前，最好先讨论一下如何可视化基因。作为对计算基因组学感兴趣的人，您会经常在计算机屏幕上遇到一个基因，而它在计算机上的表示方式将等同于您听到“基因”这个词时所想象的。在在线数据库中，基因将显示为字母序列或一系列连接的框，显示外显子-内含子结构，其中也可能包括转录方向（见图 1.4）。你会遇到更多关于后者的情况，所以当你想到基因时，你可能会想到这一点。正如我们所提到的，DNA 有两条链。基因可以位于它们中的任何一个上，转录的方向将取决于该基因。在图 1.4 中，您可以看到内含子上的箭头（连接框的线）指示基因的方向。

1.2 基因调控的要素 (gene regulation)
调控基因表达的机制对于所有生物体都是至关重要的，因为它们决定了基因产物（可能是蛋白质或 ncRNA）的生产地点和数量。通过控制应产生多少转录本和/或应通过调节剪接产生哪个版本的转录本，这种调节可以发生在转录前和共转录水平。相同的基因可以通过剪接调节编码相同蛋白质的不同版本。这个过程定义了基因的哪些部分将进入最终的 mRNA，从而编码蛋白质变体。此外，基因产物可以在转录后进行调节，其中某些分子与RNA结合，甚至在它们用于蛋白质生产之前就标记它们以进行降解。基因调控驱动细胞分化；产生不同组织和细胞类型的过程。它还帮助细胞维持细胞/组织的分化状态。这一过程的结果是，在分化的最后阶段，不同种类的细胞尽管含有相同的遗传物质，但仍保持不同的表达谱。如上所述，监管主要有两种类型，接下来我们将提供这方面的信息。

1.2.1 转录调控 (Transcriptional regulation)
转录起始速率是基因表达调控的首要调控元件。该速率由核心启动子元件以及增强子等远距离作用调控元件控制。最重要的是，组蛋白修饰和/或 DNA 甲基化(histone modifications and/or DNA methylation)等过程对转录具有至关重要的调节影响。如果转录机器无法访问某个区域，例如如果染色质结构因特定组蛋白修饰的存在而被压缩，或者如果启动子 DNA 被甲基化，则转录可能根本无法开始。最后，基因活性还受到转录后 ncRNA（例如 microRNA (miRNA)）以及细胞信号传导的控制，从而导致蛋白质修饰或蛋白质-蛋白质相互作用的改变。
1.2.1.1 转录因子通过调控区进行调控
转录因子是识别特定 DNA 基序并与调控区结合并调控与该调控区相关基因转录速率的蛋白质（参见图 1.5 的说明）。这些因子与图 1.5 中总结的各种调控区域结合，它们的协同作用控制着转录速率。除了它们的结合偏好之外，它们的浓度以及协同或竞争转录因子的可用性也会影响转录速率。
1.2.1.1.1 核心启动子和近端启动子(Core and proximal promoters)
核心启动子是转录起始位点 (TSS) 周围紧邻的区域，充当转录机制和起始前复合物 (PIC) 组装的对接位点。转录起始的教科书模型如下：核心启动子在起始序列（Inr）上游30 bp处有一个TATA基序（称为TATA-box），其中也包含TSS。首先，转录因子 TFIID 与 TATA-box 结合。接下来，招募通用转录因子并在起始序列上启动转录。除了TATA-box和Inr之外，动物核心启动子上还有许多与转录起始和PIC组装相关的序列元件，例如下游启动子元件(DPE)、BRE元件和CpG岛。在黑腹果蝇的 TATA-less 启动子中，DPE 位于 TSS 下游 28-32 bp 处。它们通常与 Inr 元素同时出现，并且被认为具有与 TATA-box 类似的功能。 BRE 元件被 TFIIB 蛋白识别，位于 TATA-box 的上游。 CpG 岛是脊椎动物基因组中富含 CG 二核苷酸的片段，尽管这些基因组中 CG 二核苷酸普遍缺失。人类基因组中 50% 至 70% 的启动子与 CpG 岛相关。近端启动子元件通常位于核心启动子的正上游，通常包含激活转录因子的结合位点，并提供对基因表达的额外控制。
1.2.1.1.2 增强子 (Enhancers Proximal)
近端调控并不是基因调控的唯一或最重要的模式。人类基因组中的大多数转录因子结合位点都存在于基因间区域或内含子中。这表明远端调控元件在动物基因组中的广泛使用。在分子功能水平上，增强子与近端启动子相似；它们含有相同转录激活剂的结合位点，并且它们基本上增强了基因表达。然而，它们通常是高度模块化的，其中几个可以同时或在不同的时间点或组织影响相同的启动子。此外，它们的活性与它们的方向和与它们相互作用的启动子的距离无关。许多研究表明，增强子可以作用于数千碱基之外的目标基因。根据一个流行的模型，增强子通过使 DNA 成环并与其目标基因接触来实现这一点。
1.2.1.1.3 消音器（Silencers ）
消音器与增强器类似；然而，它们对靶基因转录的作用与增强子相反，并导致其转录水平降低。它们含有抑制性转录因子的结合位点。阻遏转录因子可以阻断激活剂的结合，直接竞争相同的结合位点，或者诱导抑制染色质状态，在这种状态下激活剂不可能结合。沉默子效应与增强子的类似，与目标基因的方向和距离无关。与这种普遍观点相反，果蝇有两种类型的消音器：远程消音器和短程消音器。短程消音器靠近启动子，长程消音器可以使多个启动子或增强子沉默超过千碱基。与增强子一样，与阻遏子结合的沉默子也可能通过循环和创建高阶结构来诱导 DNA 结构的变化。此类阻遏蛋白中的一类是多梳族蛋白 (PcG)，它被认为通过循环启动高阶结构。
1.2.1.1.4 绝缘体（Insulators）
绝缘体区域将其他调控元件的影响限制在某些染色体边界内；换句话说，它们创建了不受该域外区域监管要素污染的监管域。绝缘体可以阻断增强子-启动子之间的通讯和/或防止抑制性染色质结构域的扩散。在脊椎动物和昆虫中，一些经过充分研究的绝缘体被 CTCF（CCTCC 结合因子）结合。来自不同哺乳动物组织的全基因组研究证实，CTCF 结合在很大程度上是细胞类型不变的，并且 CTCF 基序位置在脊椎动物中是保守的。目前解释绝缘体功能的模型有两种；最流行的模型声称绝缘体通过修改染色体结构来创建物理上独立的域。这被认为是通过 CTCF 驱动的染色质环来实现的，最近的证据表明 CTCF 可以通过创建染色质环来诱导更高阶的染色体结构。根据第二种模型，绝缘体结合的激活剂不能结合增强子；因此，实现了增强子阻断活性，并且绝缘体还可以招募活性组蛋白结构域，为增强子发挥作用创造一个活性结构域。
1.2.1.1.5 基因座控制区（Locus control regions）
基因座控制区（LCR）是控制基因座上整套基因的不同调控元件的簇。 LCR 帮助基因实现其时间和/或组织特异性表达程序。 LCR可能由多个顺式调控元件组成，例如绝缘子和增强子，它们甚至可以在远距离作用于目标。然而，LCR 以方向依赖的方式发挥作用，例如，如果倒置，β-珠蛋白 LCR 的活性就会丧失。 LCR 功能的机制在其他方面似乎与上述其他远程调节器相似。越来越多的证据表明，DNA 环形成了一种染色体结构，其中靶基因聚集在一起，这似乎对于维持开放的染色质结构域至关重要。
1.2.1.2 表观遗传调控（Epigenetic regulation）
生物学中的表观遗传学通常是指影响基因调控的DNA序列以外的结构（染色质结构、DNA甲基化等）。本质上，表观遗传调控是DNA包装和结构的调控，其结果是基因表达调控。一个典型的例子是，细胞核内的 DNA 堆积可以通过为转录因子结合创造可接近的区域来直接影响基因表达。表观遗传调控有两种主要机制：i) DNA 修饰和 ii) 组蛋白修饰。
1.2.2 转录后调控
1.2.2.1 非编码RNA的调控
近年来，非编码RNA（ncRNA）相关研究呈爆炸式增长。许多出版物将 ncRNA 视为重要的调控元件。植物和动物产生许多不同类型的 ncRNA，例如长非编码 RNA (lncRNA)、小干扰 RNA (siRNA)、微小 RNA (miRNA)、启动子相关 RNA (PAR) 和小核仁 RNA (snoRNA)（Morris 和 Mattick，2014））。通过与染色质重塑因子相互作用进行遗传调控，它们在基因调控中发挥作用。 siRNA是短双链RNA，参与基因调控和转座子控制；它们通过与 Argonaute 蛋白合作来沉默目标基因。 miRNA 是短单链 RNA 分子，通过使用其互补序列与其靶基因相互作用，并标记它们以便更快降解。 PAR 也可以调节基因表达：它们是大约 18 至 -200 bp 长的 ncRNA，源自编码基因的启动子（Morris 和 Mattick，2014）。 snoRNA 也被证明在基因调控中发挥作用，尽管它们大多被认为引导核糖体 RNA 修饰（Morris 和 Mattick，2014）。
1.2.2.2 剪接调控 (Splicing regulation)
剪接是由mRNA前体上的调控元件和与这些元件结合的蛋白质来调控的。调节元件分为剪接增强子和阻遏子。它们可以位于外显子或内含子中。根据其活性和位置，有四种类型的剪接调节元件：
• 外显子剪接增强子(ESE)
• 外显子剪接沉默子(ESS)
• 内含子剪接增强子(ISE)
• 内含子剪接沉默子(ISS)。
大多数剪接阻遏蛋白是异质核核糖核蛋白（hnRNP）。如果剪接阻遏蛋白结合沉默元件，它们会减少附近位点被用作剪接点的机会。相反，剪接增强子是剪接激活蛋白结合的位点，并且在该区域上的结合增加了附近位点被用作剪接连接点的可能性（Wang 和 Burge，2008）。大多数与剪接增强子结合的激活蛋白都是 SR 蛋白家族的成员。此类蛋白质可以识别特定的RNA识别基序。通过调节剪接，可以跳过或包含外显子，从而创造蛋白质多样性（Wang 和 Burge，2008）。
1.3 塑造基因组：DNA 突变 (Shaping the genome: DNA mutation)
人类和黑猩猩的基因组相似度高达 98.8%。 1.2% 的差异是我们与黑猩猩的区别。就进化距离而言，与人类物种的距离越远，差异就越大。然而，即使在同一物种的成员之间，基因组序列也存在差异。这些差异是由于一种称为突变的过程造成的，该过程驱动了个体之间的差异，但也为作为遗传变异来源的进化提供了燃料。具有有益突变的个体可以比其他人更好地适应周围环境，并且随着时间的推移，这些有利于生存的突变会由于“自然选择”的过程而在人群中传播。选择作用于具有有益特征的个体，这使它们在特定环境中具有生存优势。个体突变产生的遗传变异提供了选择起作用的材料。如果选择过程在需要适应的相对孤立的环境中持续很长时间，那么只要有足够的时间，这个种群就可以进化成不同的物种。简而言之，这就是进化背后的基本思想，如果没有突变提供遗传变异，就不会有进化。基因组突变的发生有多种原因。首先，DNA复制并不是一个没有错误的过程。在细胞分裂之前，DNA 的复制每 10^8 到 10^10 个碱基对有 1 个错误。其次，紫外线等诱变剂可以诱导基因组突变。导致突变的第三个因素是不完善的 DNA 修复。每天，任何人体细胞都会遭受多次 DNA 损伤。 DNA修复酶的存在是为了应对这种损伤，但它们也不是没有错误的，根据使用哪种DNA修复机制（有多种），错误的发生率会有所不同。
突变根据其影响的碱基数量、对 DNA 结构和基因功能的影响进行分类。根据突变对 DNA 结构的影响，突变可分为以下几类：
• 碱基替换：一个碱基被另一个碱基改变。
• 删除：删除一个或多个碱基。
• 插入：新碱基插入基因组中。
• 微卫星突变：小的串联重复DNA 片段的小插入或缺失。
• 反转：DNA 片段将其方向改变180 度。
• 易位：DNA 片段移动到基因组中的另一个位置。突变还可以根据其大小进行如下分类： • 点突变：涉及一个碱基的突变。取代、删除和插入都是点突变。它们也被称为单核苷酸多态性（SNP）。
• 小规模突变：涉及多个碱基的突变。
• 大规模突变：涉及更大染色体区域的突变。转座元件插入（基因组的一个片段跳转到基因组中的另一个区域）和片段复制（一个大区域串联复制多次）是典型的大规模突变。
• 非整倍体：整个染色体的插入或删除。
• 全基因组多倍体：涉及全基因组的重复。突变可以根据其对基因功能的影响进行如下分类：
• 功能获得突变：一种突变，其中改变的基因产物具有新的分子功能或新的基因表达模式。
• 功能丧失突变：导致蛋白质功能降低或消失的突变。这是更常见的突变类型。
1.4 基因组学中的高通量实验方法(High-throughput experimental methods in genomics )
上述大多数与转录、基因调控或DNA突变有关的生物现象都可以使用高通量实验技术在整个基因组上进行测量，这正迅速成为研究基因组生物学的标准。此外，它们在临床上的应用也正在蓬勃发展，因为已经有基于这些技术的诊断测试。可以通过高通量检测测量的一些内容如下：
• 哪些基因被表达以及表达量如何？
• 转录因子在哪里结合？
• 基因组中哪些碱基被甲基化？
• 翻译了哪些文字记录？
• RNA 结合蛋白在哪里结合？
• 表达哪些microRNA？
• 基因组的哪些部分相互接触？
• 基因组中的突变位于何处？
• 基因组的哪些部分没有核小体？
使用现代全基因组技术可以回答更多问题，并且每隔一天就会出现现有技术的新变体来回答新问题。然而，必须记住，这些方法的成熟程度各不相同，并且都存在技术限制，并且并非没有噪音。尽管如此，它们对于研究和临床目的非常有用。而且，借助这些方法，我们能够大规模地对基因组进行测序和注释。

1.4.1 高通量技术背后的总体思路
高通量方法旨在量化或定位包含感兴趣的生物学特征（表达基因、结合位点等）的全部或大部分基因组。大多数方法依赖于对目标生物学特征的某种富集。例如，如果您想要测量蛋白质编码基因的表达，您需要能够提取具有蛋白质编码基因获得的特殊转录后改变的 mRNA 分子，正如许多 RNA 测序 (RNA-seq) 实验中所做的那样。如果您正在寻找转录因子结合，则需要富集目标蛋白质结合的 DNA 片段，就像 ChIP-seq 实验中所做的那样。这部分取决于现有的分子生物学和化学技术，这部分的最终产物是RNA或DNA片段。

   接下来，您需要能够判断这些片段来自基因组中的何处以及有多少。在测序技术普及之前，微阵列(Microarrays)一直是定量步骤的标准工具。在微阵列中，人们必须设计互补碱基，称为“oligos”或“probes”，以通过实验方案富集遗传物质。如果富集的物质与“oligos”互补，则会产生光信号，并且信号的强度将与与该“oligos”配对的遗传物质的量成正比。将有更多的探针(probes)可用于杂交（互补碱基形成键的过程），因此可用的片段越多，信号越强。为了使其发挥作用，您需要至少了解部分基因组序列并设计探针。如果您想测量基因表达，您的探针应该与基因重叠，并且应该足够独特，不会与其他基因的序列结合。该技术现已被测序技术所取代，您可以直接对遗传物质进行测序。如果您有片段的序列，您可以将它们与基因组对齐，查看它们来自哪里，并对它们进行计数。这是一种更好的技术，其中定量基于片段的真实身份，而不是基于与设计探针的杂交。总而言之，HT 技术有以下步骤，图 1.6 也总结了这一点：
• 提取：这是提取感兴趣的遗传物质（RNA 或DNA）的步骤。 
• 富集：在此步骤中，您可以富集您感兴趣的事件。例如，蛋白质结合位点。在某些情况下，例如全基因组 DNA 测序，不需要富集步骤。您只需获取基因组 DNA 片段并对它们进行测序即可。
 • 量化：您可以在此处量化您的浓缩材料。根据实验方案，您可能还需要量化控制集，在该控制集中您应该看不到富集或仅看到背景富集。

1.4.2 高通量测序 (High-throughput sequencing)
高通量测序，或大规模并行测序，是可以一次对数千/数百万个 DNA 片段进行测序的方法和技术的集合。这与一次只能产生有限数量碎片的旧技术形成鲜明对比。这里，吞吐量是指每小时测序的碱基数。与现代高通量方法相比，较旧的低通量测序方法的通量低约 100 倍。吞吐量的增加使得能够在更短的时间内测量全基因组范围内的生物特征。
与其他高通量方法类似，基于测序的方法也需要富集步骤。此步骤丰富了我们感兴趣的特征。基于测序的方法的主要区别在于量化步骤。在高通量测序中，富集的片段通过测序仪，测序仪输出片段的序列。由于当前领先技术的限制，只能从输入片段中对有限数量的碱基进行测序。然而，长度通常足以将读数唯一地映射到基因组并量化输入片段。
1.4.2.1 高通量测序数据
如果有可用的基因组，则将读数与基因组进行比对，并根据文库制备方案，应用不同的策略进行分析。测序文库由可供测序的 RNA 或 DNA 片段组成。文库的准备主要取决于感兴趣的实验。有许多文库制备方案旨在量化来自基因组的不同信号。图 1.7 描述了不同文库制备方案和读比对处理输出的一些潜在分析策略。例如，我们可能对量化基因表达感兴趣。该实验方案称为 RNA 测序 (RNA-seq)，可富集来自蛋白质编码基因的 RNA 片段。比对后，我们可以计算覆盖率概况，从而获得基因组中每个碱基的读取计数。该信息可以存储在文本文件或专用文件格式中，以便在后续分析或可视化中使用。我们还可以计算每个基因的外显子有多少个读数重叠，并记录每个基因的读数计数以供进一步分析。这本质上会生成一个包含不同样本的基因名称和读数计数的表。
正如我们将在后面的章节中看到的，这是统计模型的基本信息用于RNA-seq数据。此外，我们可以堆叠读数并计算读数中的碱基位置与基因组中的碱基不匹配的次数。读取对齐器允许不匹配，因此我们可以看到不匹配的读取。该信息可用于识别SNP，并可再次以表格格式存储，其中包含位置和错配类型以及支持错配的读数的信息。原始算法比仅计算不匹配的算法要复杂一些，但总体思路是相同的；他们所做的不同之处是尝试通过使用过滤器来最大程度地减少误报率，这样就不会将每个不匹配都记录为 SNP。
1.4.2.2 高通量测序的未来
测序技术仍在不断发展。获得更长的单分子读数，并且最好能够动态调用碱基修改是下一个前沿。读长越长，重复含量高的区域的基因组组装就越容易。通过单分子测序，我们将能够判断给定细胞群中存在多少转录本，而无需依赖可能引入偏差的片段扩增方法。最近的另一个发展是单细胞测序。目前的技术通常适用于数千至数百万个细胞的遗传物质。这意味着您收到的结果代表了实验中使用的细胞群。然而，同一类型的细胞之间存在很大的变异，但这种变异根本观察不到。较新的测序技术可以作用于单个细胞并提供每个细胞的定量信息。
1.5 基因组学的可视化和数据存储库
截至 2016 年，大约有 100 个动物基因组被测序。除此之外，还有来自各个实验室或联盟的许多研究项目，产生 PB 级的辅助基因组学数据，例如 ChIP-seq、RNA-seq等。要能够可视化基因组及其相关数据，有两个要求：1）您需要能够使用具有已测序基因组的物种，2）您希望对该基因组进行注释，这意味着，至少，你想知道基因在哪里。大多数基因组在测序后都会快速注释基因预测或将已知的基因序列映射到它们上，您还可以对其他物种进行保护以过滤功能元素。如果您正在研究模型生物体或人类，您还将获得大量辅助信息来帮助划分功能区域，例如人群中常见的调节区域、ncRNA 和 SNP。或者您可能有可用的疾病或组织特异性数据。对有机体的研究越多，您获得的辅助数据就越多。
1.5.0.1 通过基因组浏览器访问基因组序列和注释
UCSC 基因组浏览器：这是由加州大学圣克鲁斯分校托管的在线浏览器，网址为 http://genome.ucsc.edu/。这是一个交互式网站，包含许多物种的基因组和注释。您可以搜索您感兴趣的物种的基因或基因组坐标。它通常响应速度非常快，并且允许您可视化大量数据。此外，它还有多个其他工具可以与浏览器结合使用。最有用的工具之一是 UCSC 表浏览器，它允许您以多种格式下载在浏览器上看到的所有数据，包括序列数据。用户可以上传数据或提供数据链接以可视化用户特定的数据。
Ensembl：这是欧洲生物信息学研究所和英国 Wellcome Trust Sanger 研究所维护的另一个在线浏览器，http://www.ensembl.org。与 UCSC 浏览器类似，用户可以可视化多个物种的基因或基因组坐标，并且还附带辅助数据。 Ensembl 与 Biomart 工具关联，该工具类似于 UCSC Table browser，可以下载多种格式的基因组数据，包括所有辅助数据集。
IGV：综合基因组查看器 (IGV) 是由 Broad 研究所 (https://www.broadinstitute.org/igv/) 开发的桌面应用程序。它是为处理大量高通量测序数据而开发的，这些数据很难在在线浏览器中查看。 IGV 可以将您的本地测序结果与台式机上的在线注释集成。这在查看测序数据（尤其是比对）时非常有用。上面提到的其他浏览器也有类似的功能，但是您需要先在某个地方在线提供大型测序数据，然后才能通过浏览器查看。
1.5.0.2 高通量检测的数据存储库
基因组浏览器包含大量辅助高通量数据。然而，还有更多可用的公共高通量数据集，并且它们肯定无法通过基因组浏览器获得。通常，与出版物相关的每个高通量数据集都应存放在公共档案中。我们使用两个主要的公共档案馆来存放数据。其中之一是托管在 http://www.ncbi.nlm.nih.gov/geo/ 的基因表达综合 (GEO)，另一个是托管在 http://www.ebi 的欧洲核苷酸档案 (ENA)。 ac.uk/ena。这些存储库接受高通量数据集，用户可以免费下载和使用这些公共数据集进行自己的研究。这些存储库中的许多数据集都是原始格式，例如，排序器主要提供的格式。一些数据集也会有经过处理的数据，但这不是常态。
除了这些存储库之外，还有多个致力于某些基因组生物学或疾病相关问题的跨国联盟，它们维护自己的数据库并提供对已处理数据和原始数据的访问。下面提到了其中一些联盟。

你可能感兴趣的:(生信分析,r语言)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
无线鼠标产品整体技术分析总结悟空胆好小计算机外设
无线鼠标产品对比分析，以小米为例文章目录无线鼠标产品对比分析，以小米为例一.小米无线鼠标产品对比1.1小米无线鼠标XMSMSB05YM2.4G单模款1.2小米无线鼠标XMSMSB01YM2.4G+BT双模款二.**单模鼠标与双模的区别****1.连接方式****2.通信性能与可靠性****3.功耗管理****4.适用场景****5.技术扩展性**6.**小结**三.无线鼠标产品技术重点分析3.1.
微软 Bluetooth LE Explorer 实用工具的详细使用分析悟空胆好小 microsoft
微软BluetoothLEExplorer实用工具的详细使用分析文章目录微软**BluetoothLEExplorer**实用工具的详细使用分析1.**工具定位与核心功能**2.**关键特性与更新**3.**使用场景示例**4.**系统要求与依赖**5.**与专业工具对比**6.**局限性**7.**实践建议**结论以下是微软BluetoothLEExplorer实用工具的详细使用分析：1.工具定
蓝牙MTU含义，协商修改的过程案例分析悟空胆好小嵌入式硬件网络人工智能
蓝牙MTU含义，协商修改的过程案例分析文章目录**蓝牙MTU含义，协商修改的过程案例分析****一、MTU含义解析****二、MTU协商过程详解****步骤流程****三、修改MTU的实践案例分析****案例1：中心设备主动设置（主控端）****案例2：外设端响应优化（从设备）****案例3：调试工具强制修改****四、关键限制与注意事项**蓝牙MTU（MaximumTransmissionUni
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
利用技术分享提升个人影响力 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《利用技术分享提升个人影响力》关键词：技术分享、个人品牌、影响力、内容创作、互动反馈、持续成长摘要：本文将深入探讨技术分享在个人发展中的重要作用，通过详细分析技术分享的意义、平台选择、内容创作、互动反馈及个人影响力提升策略，帮助读者掌握利用技术分享提升个人影响力的实用方法。第一部分：引言与基础第1章：技术分享的意义与价值1.1.1技术分享的历史与发展技术分享作为一种知识传播的方式，其历史可以追溯到
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
音频被动降噪技术悟空胆好小音频相关音视频
音频被动降噪技术音频被动降噪技术是一种通过物理结构和材料设计来减少或隔离外部噪声的降噪方式，其核心原理是通过物理屏障或吸声材料来阻断或吸收声波，从而降低环境噪声对听觉体验的影响。以下将从技术原理、应用场景、优缺点及与其他降噪技术的对比等方面进行详细分析。一、被动降噪技术的原理被动降噪技术（PassiveNoiseCancellation,PNC）主要依赖于耳机的物理结构和材料设计，通过以下几种方式
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
如何为加壳保护后的程序提供调试支持深盾科技安全开发语言
在软件开发领域，加壳保护是一种常见的安全手段，用于防止程序被逆向分析。然而，当程序崩溃时，开发人员需要定位原始错误位置，这就与加壳保护产生了天然的矛盾。本文将从加壳原理出发，为大家介绍兼容调试的解决方案。一、加壳的基本功能1.加密/压缩加壳最常见的功能就是对程序的整个代码段和数据段进行压缩或加密。这样做的目的是防止静态反编译，但在程序运行过程中，代码段和数据段是明文状态，所以不会对调试造成影响。2
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的