wangchuang2017

StatQuest学习笔记23——RNA-seq简介

前言——主要内容

这篇笔记是StatQuest系列笔记的第58节，主要内容是讲RNA-seq的原理。StatQuest系列教程的58到62节是协录组测序的内容。

RNA-seq研究的是什么

我们先来看一个案例，在下面的这个案例中，蓝色的细胞是一群正常的神经细胞，红色的细胞是一群突变的神经细胞。其中，突变的神经细胞表型与正常的神经细胞表型不同，此时，我们想知道，是什么遗传机制导致了这两群细胞表型的差异，这就意味着，我们要研究一下这两种细胞基因表达的差异，如下所示：

image

接下来，我们就来看一下，怎么找出这两群细胞基因表达的差异。

首先，根据高中的生物知识我就知道，一个细胞都有一群染色体（其数目因物种的不同而异），每条染色体上都有一些基因，在这些基因中，有些基因处于活跃状态，在下图中，这些活跃基因上面的波形图案表示这些基因mRNA的转录本，如下所示：

image

但是，还有一些基因是不活跃的，如下所示：

image

而高通量测序技术就能告诉我们，哪些基因是活跃的，以及它们的转录水平是多少，如下所示：

image

那么我们就可以通过RNA-Seq技术检测一下正常细胞的基因表达，再检测一下突变细胞的基因表达，如下所示：

image

然后我们比较一下这两种细胞基因表达的差异，如下所示：

image

例如，在这个案例中，我们就可以发现，经过RNA-Seq检测后，基因1的转录水平在这两种细胞内是没有差异的，如下所示：

image

但是，基因2的转录则有很大的差异，如下所示：

image

基因3的转录水平也有差异，如下所示：

image

RNA-Seq的步骤

RNA-Seq主要有三个步骤，分别是第一：建库；第二，测序；第三，数据分析，如下所示：

image

第一步：建库

在这一步，我们就以Illumina的实验流程和测序仪为标准进行讲解，其他公司的流程和测序仪可能略有出入，如下所示：

image

建库又分这些步骤：

第一步，提取RNA；

第二步，将RNA打断成小的片段，打断的目的主要是因为RNA的长度有几千个碱基，而测序仪的读长只有200到300个bp，因此要进行打断，如下所示：

image

第三步，将RNA反转录为DNA，这一步的目的在于，双链DNA比RNA更加稳定，双链DNA更容易扩增与修饰，如下所示：

image

第四步，添加接头。接头主要发挥两个作用，第一，使测序仪识别加了接头的片段，因为接头上的序列与测序仪芯片上序列互补；第二，添加接头可以在一次测序中区分不同的样本，因为不同的样本可以使用不同的接头，如下所示：

image

但我们需要注意的是，在加接头这个步骤中，它的效率并不是100%的，有些片段并不会被加上接头，如下所示：

image

第五步：PCR扩增，这一步的扩增引物是接头上序列，只有那些加上了接头的序列才能扩增，如下所示：

image

第六步：质控。这一步主要是看两个指标：第一，确定文库的浓度，第二，确定文库的长度。确定文库的浓度方法就是（根据我们实验室自己的流程），用Qubit检测一下文库的浓度，这个浓度比较粗略，不能当成精确的数值，接着，使用qPCR的方法，对文库进行绝对定量，经过qPCR绝对定量方法得到的文库浓度才是最终的文库浓度。在确定文库片段的长度方面，通常是使用Agilent 2100进行检测，如下所示：

image

第二步：测序

测序测的其实就是文库，我们假设DNA片段的序列是下图的左侧部分，它是垂直的，因为在测序仪的芯片上，文库就是垂直排列的，在测序芯片上的一个小方格（grid）中将近有4亿条这样的序列，为了方便讲解，我们在下图的右侧只列出4条这样的序列，这样的一个小方格被称为flowcell，如下所示：

image

下图是一个flowcell：

image

在测序仪所使用的测序试剂中，含有一些特殊的碱基，这些碱基带有荧光探针，这些荧光探针按其结合碱基的不同，其颜色也不同，当测序仪开始测序时，这些带有荧光探针的碱基就会结合到DNA片段上第1个碱基，如下所示：

image

一旦这些带有荧光探针的碱基结合到DNA片段的碱基上，此时测序仪就会拍下一张照片，如果从上往下看，就是下图中红框所示的图片，这张图片会告诉测序仪，左下角的碱基是A，如下所示：

image

右下角的碱基就是G，如下所示：

image

左上角与右上角的碱基就是C，如下所示：

image

拍照结束后，测序仪会把这些这些碱基上的探针给冲走（测序试剂中有其他的成分，可以切掉这些荧光探针），此时，这些携带有探针的碱基就成了普通碱基，如下所示：

image

然后再加入含有荧光探针的碱基，再次与片段结合，如下所示：

image

在第二次结合后，测序仪会拍照，从上往下看，就是下图红框内的图片，如下所示：

image

这样测序仪就知道，左下角的碱基是C，如下所示：

image

右下角的碱基是G，如下所示：

image

左上与右上的碱基是T，如下所示：

image

第2张图片识别后，再次用试剂切掉这些碱基上的荧光探针，并冲走，如下所示：

image

再进行第3次反应，如下所示：

image

总之，测序仪会不断地循环这个过程，直到测完所有的碱基，如下所示：

image

不过在实际的测序过程，这些DNA链的密度非常大，构成了一个密度极高的颜色矩阵，这个过程中也会产生一些问题，在下面我们就用一个简单的矩阵来说明这个问题，如下所示：

image

有时候，一个荧光探针的亮度可能不够，此时测序仪就没有足够的把握能够识别这种颜色，而在测序的过程中，根据这些探针的亮度，会生成一个质量评分（Quality score），这个质量评分反映了测序仪对这个颜色识别的可信程度，像在下面的这个图片中，这个比较暗的点可能就会得到一个比较低的质量评分，如下所示：

image

还有另外一种情况可能会得到一个质量评分，就是在某个区域内，相同的碱基数目太多，都呈现出一种颜色，如下图绿框所示部分，这种现象称为多样性差（low diversity），这种情况下，由于存在着大量的单一荧光，测序仪很难识别单独的碱基，这些颜色会混到一起。当测序仪测序时，对于文库中前几个碱基的识别很容易出现多样性差的问题，这是因为在刚开始的时候，测序仪要识别DNA片段位于芯片上的位置时，如下所示：

image

我们看一下测序后的原始数据，下图是测序的一个read的信息，它由4行构成，如下所示

image

第1行通常是由@开头的，它对于每条read，它都有唯一的ID，如下所示；

image

第2行是测序的文库片段的碱基序列，如下所示：

image

第3行是一个加号，它通常是空的，如下所示：

image

第4行是质量信息，它用一个字符表示这个字符对应的碱基的质量评分，如下所示：

image

一次测序通常有4亿条reads数，一共会产生16亿行信息，如下所示：

image

数据预处理

我们现在已经知道了原始数据，以及原始数据如何产生的，那么我们下面要做这三件事情：

第一，过滤掉垃圾reads；

第二，将高质量的reads比对到基因组上；

第三，对每个基因的reads数进行统计，如下所示：

image

过滤垃圾reads

垃圾reads是指：第一，某些reads的碱基质量低；第二，这些reads是明显的结合错误（第二种低质量的reads我不太清楚，原文我也看不太懂，我个人理解就是两个接头直接连接在一起的read）。

一条典型的read是一个DNA片段加上两个接头，但是在某些情况下，两个接头会直接加在一起，这就是垃圾reads，如下所示：

image

将read比对到基因组

我们先看一下基因组上的碱基序列，由于基因组的碱基序列很长，我们只截取一段出来，如下图中的红框所示，把这条基因组的碱基打断，会生成这些短的碱基序列，如下所示：

image

此时，我们把基因组的这些片段加上索引，并记录下它们在染色体上的位置，就是下图蓝框中的部分，如下所示：

image

此时，我们把我们的测序read也打成小片段，就像上面的基因组打成小片段一样，如下所示：

image

然后把reads的小片段与基因组的小片段进行匹配，如下所示：

image

那些与reads的小片段匹配的基因组小片段就是这些read小片段在基因组上的位置（哪条染色体上，染色体的哪个位置），如下所示：

image

此时，我们可能有一个问题，为什么要把这些序列打断成小片段，这是因为即使reads与参考基因组在不是特别精确匹配的情况下，也能进行匹配，如下所示：

image

我们来看一个简单的例子，在下图中，某条read最左侧是A，而对应的基因组上并没有这个A（打个很简单的案例，我自己的基因组肯定与别人的基因组略有差异），如下所示：

image

即使这个小片段无法与基因组上相匹配，那么其它的小片段还是能够匹配的，此时我们仍然可以找到这条read来源于基因组的哪个位置，如下所示：

image

每个基因的reads计数

一旦我们知道了某条read的位置（也就是说知道了这条read在哪条染色体上，以及在染色体的哪个位置上），那么我们就可以看一下这条read是否能够落在某个基因的坐标中（或者是某些其它感兴趣的区域），例如在下图中，我们列出了Xkr4和Rp1这两个基因的坐标，如下所示：

image

当我们统计了每个基因的reads数后，我们就会得到下面这样的矩阵，如下所示：

image

第1列是基因名，在人类中，人类大概有20000个基因，因此这个矩阵的大概有2万行（下图中并没列完所有的基因），如下所示：

image

剩余的几列是每个样本对应的基因的reads数，这里的样本数目大概是6到800个，如下所示：

image

对于大部分的RNA-Seq来说，一个“样本”通常是一群细胞的平均值（通常是600万个细胞），一次实验，一般有3个正常的样本，3个疾病状态的样本，总共就是6个样本，如下所示：

image

而对于单细胞测序（Single-cell RNA-Seq）来说，每个细胞就是一个样本，因此这个矩阵中会出现有几百个样本，例如800多个，如下所示：

image

我们现在看某一行数据，如下所示，在这行数据中，我们可以看到每个样本中，每个特定基因的reads数，如下所示：

image

如果这个矩阵是单细胞测序的数据，那么这个矩阵有2万行（基因数目），800多列（样本数），大概有1600万个数值，这是一个极大的矩阵，并且随着测序技术发展，所测样本数目的增多，这样的矩阵会越来越大，如下所示：

image

在进行最终的数据分析之前，我们还要对数据进行均一化，这是因为每个样本比对到基因组上的reads数都不同，这可能是由于在测序时，有些样本的reads质量低，而另外某些样本的浓度略大，导致其总的reads数略高，如下所示：

image

例如，在下图中，Sample 1有635个reads比对上了，而Sample 2则有1270个reads数比对上了，Sample 2是Sample 1的两倍。但是这无法说明，Sample 2转录的基因是Sample 1的2倍，相反，这只能说明，Sample 2中的低质量reads数少，它在测序时，被测序仪识别的荧光更多而已，如下所示：

image

但是，我们发现，Sample 2中基因的reads数貌似是Sample 1中的基因reads数的2倍，如下所示：

image

A2M基因也是如此，如下所示：

image

因此，我们需要调整每个基因的reads数，从这样才能真正反映出不同样本中比对上的reads数之间的差异，如下所示：

image

均一化最简单的方法就是在每个样本中，每个基因的reads数除以总的比对上的reads数，不过，还有其他更复杂的方法，如下所示：

image

我们再回到最初的正常细胞与突变细胞的比较，我们先有了这两群细胞，如下所示：

image

然后提取RNA，如下所示：

image

随后，进行测序，比对，统计每个基因的reads数，然后均一化，如下所示：

image

此时，开始数据处理。

第三步：数据处理

数据处理的第一步通常都是相同，那就是绘图，我们要记住，这个表达矩阵非常大，如下所示：

image

如果每个样本只有2基因，那么绘图非常简单，如下所示：

image

第1步：绘图

首先我们用XY来替代这两个基因，根据它们的表达水平来绘图，如下所示：

image

但是，我们有2万个基因，如下所示：

image

因此我们会用PCA或者是类似的方法来绘图，PCA能够降低坐标轴的数目（也就是把2万个基因对应的2万个坐标轴给降低到3个或2个），从而更加直观地表现数据，如下所示：

image

下图是我们利用PCA绘制的图形，正常的细胞是wt，突变的细胞是ko，其中正常的细胞集中在左下角，敲除的细胞集中在右下方，如下所示：

image

从图中我们可以发现，这两类数据的差异主要体现在x轴上，如下所示：

image

相反，Y轴的差异没那么大，如下所示：

image

这就说明，wt组与ko组的差异主要集中于X轴，如下所示：

image

但是，当我们进行下一步的分析时，就需要排除wt2这个样本了，如下所示：

image

下图是单细胞测序的PCA图，如下所示：

image

上面的不同颜色绘图依据是这些细胞行为的不同，绿色表示的是静止的细胞，橘黄色表示的是迁移到培养皿周围的细胞，如下所示：

image

大多数橘黄色的细胞与绿色的细胞是不同的，但是在左侧绿色的细胞中，也有几个是橘黄色的细胞，这说明这几个细胞的表型与绿色细胞更接近，如下所示：

image

如果我们想要研究上面两个大群细胞的差异，那么此时我们就要排除左下那几个橘黄色的细胞，如下所示：

image

总之，在对数据绘图后，我们可以从中得到这些信息：

找到感兴趣的差异部分；
在进行下游的分析之前，应该排除哪些数据，如下所示：

image

第2步：寻找差异基因

绘图后，我们就需要找到正常样本与突变样本有哪些差异表达基因，在分析差异基因时，通常使用R中的edgeR或DESeq2，它们通常以下图进行展示，如下所示：

image

其中红色部分是正常样本与突变样本的差异基因，如下所示：

image

中间的黑色部分是没有差异的基因，如下所示：

image

其中X轴表示的是基因的转录水平，它的单位是logCPM，其中CPM是counts per million的缩写，如下所示：

image

Y轴则是表示在正常样本与突变样本之间，差异基因的差异程度有多大，单位是logFC，即log(fold change)，如下所示：

image

此时我们已经找到了感兴趣的基因（也就是差异基因），此时我们要做哪些事情呢？

第一，如果你知道你找的是什么（我的理解就是找的是具体的哪个基因），那么就要做实验，看能否验证你的假设；

第二，如果你不知道你接下来做什么，那么就你可以看一下这些差异基因集能否在某些通路上富集，如下所示：

image

每个样本对于每个特定的基因，它的reads数都不同。

你可能感兴趣的:(RNA-seq)

9.单细胞 RNA-seq：聚类分析 denghb001
学习目标：利用多种方法来评估聚类选择的PC基于重要的PC执行单细胞聚类单细胞RNA-seq聚类分析现在我们已经整合了高质量的细胞，我们想知道我们的细胞群中存在的不同细胞类型。image目标：为了生成特定细胞类型的簇，并使用已知的细胞类型的标志基因来确定的簇的身份。为了确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，如在细胞周期的S期的细胞群，特定批次的簇，或具有高线粒体含量的细胞。
用DESeq2包来对RNA-seq数据进行差异分析 Seurat_Satija
差异分析的套路都是差不多的，大部分设计思想都是继承limma这个包，DESeq2也不例外。DESeq2是DESeq包的更新版本，看样子应该不会有DESeq3了，哈哈，它的设计思想就是针对count类型的数据。可以是任意features的count数据，比如对各个基因的count，或者外显子，或者CHIP-seq的一些feature，都可以用来做差异分析。使用这个包也是需要三个数据：表达矩阵分组矩阵
salmon分析RNA-seq实战超级无敌大蜗牛
Salmon应用查看帮助文档#查看可用的命令###Salmonv0.9.1salmon-h#查看帮助文档之Salmon'squasi-mapping-basedmodesalmon--no-version-checkquant--help-reads#查看帮助文档之Salmon'salignment-basedmodesalmon--no-version-checkquant--help-alig
RNA-seq数据分析_未完成子诚之组学数据分析数据分析
目录基础分析1.质控（reads）2.比对3.质控（alignment）4.定量5.样本合并差异表达1.质控（cohort）2.差异分析3.可视化（差异）富集分析肿瘤免疫1.免疫组库2.免疫浸润3.免疫响应4.新抗原预测微生物组参考本文主要覆盖了肿瘤样本bulkRNA-seq数据常见的分析步骤，并从实践角度出发，较为具体地介绍了每一步骤依赖的工具和数据集。另外，尽管本文适用于肿瘤样本，但其中的一些
10X单细胞转录组个性化分析-拟时序分析 Seurat_Satija
在发育过程中，细胞会对刺激做出反应，在整个生命过程中，从一种功能性“状态”转变为另一种功能性“状态”。处于不同状态的细胞表达的基因不同，产生蛋白质和代谢物的动态重复序列，从而完成它们的工作。当细胞在不同状态间转变时，会经历转录重组的过程，其中一些基因被沉默，而另一些基因被激活。这些瞬时状态通常难以表征，因为在更稳定状态之间纯化细胞是困难或不可能的。单细胞RNA-Seq可以使您在不需要纯化细胞的情况
转录组结果和qRT-PCR结果又不一致？！ Seurat_
什么？！按照转录组筛选的5个最明显的差异基因只有2个与qRT-PCR结果一致？转录组测序（RNA-seq）将细胞内某一类型（或全部）的RNA逆转录成DNA，通过高通量测序的方法测定其序列并统计其表达水平的一项技术。是检测基因表达变化的通用方法。qRT-PCR是指通过对PCR扩增反应中每一个循环产物荧光信号的实时检测从而实现对起始模板定量及定性的分析。RNA-seq无需知道实验样本的基因组序列含比传
11.8 RNA-seq表达rpkm数据操作实践（二） KK_f2d5
接下来，我们需要对rpkm数据进行annotation再画图。一篇文章说：RPKMvalueswerelog2transformedbeforegeneratingheatmaps.TheheatmapwasgeneratedbyBARHeatmapperPlus(http://bar.utoronto.ca/ntools/cgi-bin/ntools_heatmapper_plus.cgi)on
宝藏R包：TCGA的转录组数据挖掘一站搞定小洁忘了怎么分身
最近在看ceRNA的时候看到了一个宝藏R包，写包简化了芯片数据下游分析之后，我正想着写转录组下游分析的简化版，就看到了它。用起来~0.R包和数据准备if(!require(GDCRNATools))BiocManager::install("GDCRNATools")library(GDCRNATools)这里使用的是作者给的示例数据，RNA-seq是1000行，miRNAseq是2588个。#m
生信地基系列--常规分析流程可能性之兽
还在到底搜索一些R的分析流程吗？biocondutor已经给你准备好了29篇Bioconductor-BiocViewsimage.png注释流程生物导体可以导入多种与序列相关的文件类型，包括Fasta、fastq、BAM、VCF、gff、bed和wig文件等。包支持常见的和高级的序列操作操作，例如修剪、转换和对齐。领域特异性分析包括质量评估、ChIP-seq、差异表达、RNA-seq和其他方法。
Python版WGCNA分析和蛋白质相互作用PPI分析教程 Starlitnightly python 开发语言
在前面的教程中，我们介绍了使用omicverse完成基本的RNA-seq的分析流程，在本节教程中，我们将介绍如何使用omicverse完成加权基因共表达网络分析WGCNA以及蛋白质相互作用PPI分析。环境的下载在这里我们只需要安装omicverse环境即可，有两个方法：一个是使用conda：condainstallomicverse-cconda-forge另一个是使用pip：pipinstall
Python版RNA-seq分析教程：DEseq2差异表达基因分析 Starlitnightly python 开发语言
BulkRNA-seq分析的一个重要任务是分析差异表达基因，我们可以用omicverse包来完成这个任务。在omicverse中，除了最简单的ttest外，在这里，我们介绍一种类似R语言中的Deseq2等包的模型来计算差异表达基因。原教程地址：https://omicverse.readthedocs.io/en/latest/Tutorials-bulk/t_deseq2/环境的下载在这里我们只
python基因差异分析包_一个生信素人的上道经验分享-转录组测序（差异分析篇）... weixin_39607873 python基因差异分析包
原标题：一个生信素人的上道经验分享-转录组测序(差异分析篇)转录组测序技术(RNA-seq)作为目前二代测序领域最普遍的技术手段，自从转录组测序问世以来，已经开发了数百种分析工具。根据转录组分析内容可大致将其分析流程分为比对，转录本组装，基因注释和差异表达分析。目前，分析的每一步都有很多软件，其软件的性能和分析效率不尽相同。上篇文章小编为各位小伙伴介绍了转录组分析的第三步——基因定量【一个生信素人
SLICER：从单细胞RNA-seq数据推断分支的非线性细胞轨迹生信编程日常
image.pngSLICER是一种构建轨迹的算法，该轨迹描述了某些生物学过程中基因表达的变化。SLICER可以捕获高度非线性的基因表达变化，自动选择与该过程相关的基因，并检测轨迹中的多个分支和loopfeatures。SLICER（SelectiveLocallyLinearInferenceofCellularExpressionRelationships），是一种使用局部线性嵌入（LLE）重
10.单细胞 RNA-seq：聚类分析 denghb001
学习目标：评估是否存在聚类过程产生的技术误差使用PCA和UMAP图确定聚类质量，并了解何时重新聚类评估已知的细胞类型标记与假设簇的细胞类型同一性单细胞RNA-seq聚类分析现在我们已经进行了整合，我们想知道我们的细胞群中存在哪些不同细胞类型。image目标：*生成特定于细胞类型的簇，并使用已知的标记来确定簇的身份。确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，例如处于细胞周期S期
新版EvidenceModeler基因组注释方法在学生信秃头中
EvidenceModeler用于将多种方法的注释结果合并整理从头预测的结果，同源注释结果，RNA-seq辅助注释结果，EST注释结果等等。1.下载并配置环境wgethttps://github.com/EVidenceModeler/EVidenceModeler/releases/download/EVidenceModeler-v2.1.0/EVidenceModeler-v2.1.0.ta
小鼠嗅球的单细胞rna-seq揭示了细胞的异质性和成体神经元活性依赖的分子普查猫姐Lily
Single-CellRNA-SeqofMouseOlfactoryBulbRevealsCellularHeterogeneityandActivity-DependentMolecularCensusofAdult-BornNeurons题目：小鼠嗅球的单细胞rna-seq揭示了细胞的异质性和成体神经元活性依赖的分子普查作者及单位：BurakTepe,MatthewC.Hill,Brandon
看了老大比较基因组学视频后扩展的小内容小梦游仙境
老大视频比较基因组在IGV看了http://www.bio-info-trainee.com/2218.htmlwes：探针捕获rna-seq：不会出现外显子两边下降chip-seq：不会出现整齐，得到的文件是peaksbedfilesRNA-seq这十年https://mp.weixin.qq.com/s/a3y46NNNO-wardO3XWwh0w经过不断的技术开发和改进，以Roche公司的4
STAR: ultrafast universal RNA-seq aligner sunlight_yy
DobinA,DavisCA,SchlesingerF,etal.STAR:ultrafastuniversalRNA-seqaligner[J].Bioinformatics,2012,29(1).ABSTRACTMotivation:高通量RNA-seq数据的准确比对是一个具有挑战性但尚未解决的问题，因为转录结构不连续，读取长度相对较短且测序技术的通量不断提高。当前可用的RNA-seq比对仪遭
学习：StatQuest-RNA-seq技术重复小潤澤
概念首先我们先辨析一下生物学重复和技术重复，我们的RNA-seq的data产生差异是正常的，关于差异来自于几个方面：生物学多样性，个体间差异，即便是同一物种（基因组相同），其转录本也未必都相同image.png对于geneX来说，不同的小鼠其表达量都不同image.png计算其平均值如上，其中μ是平均值技术多样性，即便是对于同一物种，两次测定的结果都不相同image.png绿色箭头表示技术重复带来
2022-11-29 RNA-seq差异表达分析 Zheng_xy
最近看到一篇文章提到当样本量很大的时候差异表达分析使用秩和检验效果较好。文章题目：ExaggeratedfalsepositivesbypopulardifferentialexpressionmethodswhenanalyzinghumanpopulationsamplesGenomeBiol.2022Mar15;23(1):79.doi:10.1186/s13059-022-02648-4.
2022-08-14 佳奥
上一次写随笔还是两周前八月第一周在玩异度之刃3.....第二周把EGO数据库挖掘的内容结束了，另外学了chip-seq全流程，这一次感觉比rna-seq那一趟顺利多了，当然，数据量也是大多了，分析结束后还要把WSL占用的空间重新释放出来，属实头大。chip-seq实战九、十已经完成，每天更新一篇。假期还剩两周左右，接下来学什么呢？我想完善一下，会使用Linux，会使用R语言，学了转录组分析的流程和
学习：StatQuest-Heatmap 小潤澤
Heatmapimage.png在RNA-seq中热图往往用于衡量不同样本不同基因的表达情况（主要看上下表达），这个图就是个热图，横坐标表示不同样本，纵坐标表示基因。热图中的标准化和聚类Z-scoreimage.png如果有一列数据，我们要计算Z-score：计算这组数据的均值每个数据点减去均值计算标准差用第二步计算的值除以标准差image.png标准化有对某一基因标准化的，有对每个样本进行标准化
RNA-seq转录组数据分析医学小白学生信
B站：RNA-seq转录组数据分析入门实战1linux常用命令touchtext.txt#新建文件rm-rf/var/log/httpd/access#将会删除/var/log/httpd/access目录以及其下所有文件、文件夹rm-f*html#删除所有html格式文件rm-f*zip#删除所有zip格式文件tarzxvf#解压tar.gz文件tarjxvfsamtools-1.11.tar.
200826 Circ之旅3-构建人类基因组索引 dicklim
注：后面可能还会构建鼠源的x参考：RNA-seq(5):序列比对：Hisat2人类基因组hg19、hg38构建bwa索引生物信息学习——bowtie2使用手册bwabowtie2salmonsubreadhisat2建索引和比对史上最快的转录组流程-subread生信软件|bowtie2（测序序列与参考序列比对）「RNA-seq分析软件」RNA-seq比对工具STAR学习笔记我这用的hg19和hg
ATAC-seq发篇测序文章就结束了吗？看如何利用ATAC-seq数据为后续关键基因的转录调控研究提供重要依据爱基百客学习 ATAC 转录调控
染色质可及性（ChromatinAccessibility）是染色质的一种特性，为转录因子结合靶基因提供了空间。转座酶可及染色质测序分析（ATAC-seq）是常见的研究染色质可及性的方法，ATAC-seq联合RNA-seq是一种新的研究思路，为阐述基因组和特定生物过程中的基因差异表达提供见解。然而，做完ATAC-seq仅仅是发一篇测序类的文章吗？ATAC-seq能为后续的研究提供些什么？2024年
使用MAKER进行基因注释(高级篇之GeneMark-ET模型训练） xuzhougeng
GeneMarkGeorgiaInstituteofTechnology开发的一系列基因预测工具。真核生物基因组预测主要会用到GeneMark-ES/ET,其中GeneMark-ES可用于无监督自训练，也就是只要提供一个基因组序列即可，而GeneMark-ET则是在GeneMark-ES的基础上整合了高通量的RNA-Seq转录本数据，工作流程如下工作流程如果是学术、非盈利组织，那么可以在http:
BWT比对算法小潤澤
简介BWT算法在多款序列比对软件（BWA，bowtie）中都有涉及，那么对于RNA-seq的2代数据，一般建库长度是单端300bp，双端各150bp左右。序列比对对于两个序列进行比对，即pairwisealignment，我们可以按比对方式分为全局比对（NW算法）和局部比对（SW算法）：当然对于两条短序列，可采用上述算法进行比较，但是如果其中一条序列换成了较长的参考基因组序列，而另一条为fq文件的
一文搞懂RNA-seq的链特异性测序和非链特异性测序简说基因-专业生信合作伙伴
RNA-seq实验构建文库时，可以构建非链特异性文库和链特异性文库：非链特异性文库：无法区分打碎的片段转录自正义链还是反义链。链特异性文库：建库时保留了转录本的方向信息用以区分转录本来源，避免互补链干扰。1.测序方法两种建库方法对应两种测序方法：非链特异性测序方法（non-strandedRNA-seqprotocol）：得到的reads没有方向性，无法判断reads是属于GeneA还是属于Gen
RPKM，FPKM和TPM明确解释| RNA-Seq博客 Seurat_Satija
RPKM，FPKM和TPM明确解释|RNA-Seq博客来自StatQuest过去，当您进行RNA测序时，您以RPKM（ReadsPerKilobaseMillion每千碱基百万个读数）或FPKM（FragmentsPerKilobaseMillion每千碱基百万个碎片）报告结果。但是，TPM（TranscriptsPerKilobaseMillion每千碱基记录本）现在变得非常流行。由于这些术语似
纯生信分析套路 CCR|自测数据+公开数据库结合音十千寻
今天跟大家分享的是三月份发表在CLINICALCANCERRESEARCH杂志（IF：8.911）上的一篇文章RNAsplicingalterationsinduceacellularstressresponseassociatedwithpoorprognosisinAcuteMyeloidLeukemia。文章主要讲的是，通过分析急性髓系白血病（AML）不同预后情况患者之间的RNA-seq数据
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本