hyena_7

生物信息学三大数据库NCBI-ENSEMBL-UCSC

NCBI

NCBI (National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLM（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库，包括：PubMed, PubMed Central, and GenBank等。网址： https://www.ncbi.nlm.nih.gov/

一、任务

为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；
从事研究基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；
促进生物学研究人员和医护人员应用数据库和软件；
努力协作以获取世界范围内的生物技术信息。

二、内容

1.文献数据库

包括：PubMed,PubMed Central,Books等

2.序列资源库

包括人，小鼠，果蝇，线虫等各种物种的基因组数据库

包含DNA，RNA，蛋白等各种类型的数据

如：SNP,GEO,SRA等

3.常用序列分析工具

Entrez – 数据挖掘的工文本条件查询工具（Text Term Searching）来自于超过10万个种物的核酸和蛋白序列数据，连同蛋白三维结构，基因组图谱信息和文献信息检索网址：https://www.ncbi.nlm.nih.gov/gquery/

BLAST – 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

数据下载接口：ftp://ftp.ncbi.nlm.nih.gov/

上传的工具有：Sequin，tbl2asn等，链接地址：https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其他合作项目

比较常用的就是检索文献，检索序列，比对序列。了解更多内容可以参考官网手册：https://www.ncbi.nlm.nih.gov/books/NBK143764/

参考资料

https://baike.baidu.com/item/NCBI/3598184?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK143764/

1.1 NCBI GEO

基因表达数据库(GEO,Gene Expression Omnibus database，https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/.

一、GEO数据库基础知识

GEO Dataset (GDS) 数据集的ID号
GEO Series (GSE) study的ID号
GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
这些数据都可以在ftp里面直接下载。

二、数据上传

上传的方式：

网页
Excel表格
软件
MINiML格式上传
详细上传方法，参见：https://www.ncbi.nlm.nih.gov/geo/info/submission.html

提交Affymetrix芯片数据到GEO数据库 http://www.biotrainee.com/thread-810-1-1.html

三、数据挖掘

Entrez GEO-DataSets
官网： http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gds

收录整个实验数据，可以通过技术类型，作者，物种和实验变量等信息来进行搜索。一旦相关数据被查询到，可以通过提供上面的小工具做一些分析，比如：热电图分析，表达分析，亚群的影响等

2.Entrez GEO-Profiles

官网：https://www.ncbi.nlm.nih.gov/geoprofiles/

收录单个基因的表达谱数据。可以通过基因名字，GenBank编号，SAGE标签，GEO编号等来进行搜索

3.GEO BLAST

GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles 所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。

数据下载
我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

例如：用GSE75528，则在https://www.ncbi.nlm.nih.gov/geo/ 官网上直接搜索GSE75528 或直接输入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

1.2 NCBI SRA

跟GEO类似,NCBI的SRA（Sequence ReadArchive，https://www.ncbi.nlm.nih.gov/sra/ ）数据库是专门用于存储二代测序的原始数据，包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。除了原始序列数据外，SRA现在也存raw reads在参考基因的aligment information。

该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含：NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后，数据都是共享的。

一、数据库结构

每个数据库都有自己最小的可发表单元。例如：PubMed最小可发表单元是一篇文献，SRA中最小可发表单元是一次实验（标签为：SRX#）。

NCBI中SRA数据结构的层次关系：Studies,Experiments, Samples，Runs:

Studies是就实验目标而言的，一个study可能包含多个experiment。
Experiments包含了样本，DNA source，测序平台，数据处理等信息。
一个experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads.
SRA数据库用不同的前缀加以区分：ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。

二、数据上传

登陆NCBI账号

注册你的项目和生物样本

注册项目：https://www.ncbi.nlm.nih.gov/bioproject/

注册样本：https://www.ncbi.nlm.nih.gov/biosample/

上传SRA数据

上传SRA metadata (关于该项目、实验的等信息)

上传序列数据

更详细的说明，参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

三、数据下载

如果要下载每个study对应的runs的所有数据，我们需要下载安装SRA Toolkit！

链接地址： http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

SRA toolkit常用命令的说明文档见：

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

这里我们需要使用prefetch命令进行下载

$prefetch SRR776503  SRR776505  SRR776506

下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。

sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前，我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :$fastq-dump SRR776503.sra

通过命令行来下载

for ((i=204;i<=209;i++)) ;
do 
wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra;
done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;d

参考资料

http://www.biotrainee.com/thread-800-1-1.html

https://www.ncbi.nlm.nih.gov/sra/docs/

1.3 NCBI dbSNP

单核苷酸多态性（single nucleotide polymorphism，SNP）主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种，占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库，它是关于单碱基替换以及短插入、删除多态性的资源库。网址：https://www.ncbi.nlm.nih.gov/projects/SNP。

1.4 NCBI RefSeq

NCBI RefSeq (Reference Sequence，美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划（RefSeq）将为中心法则中自然存在的分子，从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析，基因表达研究，和多态发现提供一个稳定的参考点。

全面的，整合的，无冗余的序列
基因组DNA，RNA，蛋白产物
是医学、功能、多样性研究的一个基准
为基因组注释，基因鉴定和特性描述，突变和多态性分析，表达研究和比较分析提供稳定可靠的参考
由NCBI和其合作者维护

RefSeq和genbank的数据有什么区别？
genbank是一个开放的数据库，对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列，另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库，一般可信度比较高。

为什么RefSeq记录中的基因符号（symbol）有时和相关的GenBank中的不一样？
RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库，由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号，但有的作者没有，所以有时会产生别名。GenBank与Pubmed相同，通过display可以选择显示格式，常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析，FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征，并以ATGC4种碱基列出核苷酸序列，简单明了。而GenBank格式可显示较完整的基因序列记录，反映核苷酸序列的详细信息

1.5 NCBI Entrez

Entrez (http://www.ncbi.nlm.nih.gov/Entrez) 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez是由NCBI主持的一个数据库检索系统。

一、Entrez系统数据库

有将近38个库，这里仅列举了部分（ https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi ）

Literature

Books: 在线生物医学图书
PubMed 生物医学文献数据库

Health

OMIM : 人类孟德尔遗传数据库

Genomes

SRA：二代测序的原始数据
SNP: 单核苷酸多肽性数据库
Taxonomy: GenBank 中的物种分类学数据库

Genes

GEO: 基因表达数据库

Proteins

Structure: 大分子三维结构数据库

Chemicals

BioSystems 跟基因，蛋白，化学分子关联的分子通路

Ensembl

Ensembl是由EBI和Sanger共同开发的真核生物基因组注释项目，它侧重于脊椎动物的基因组数据，但也包含了其他生物如线虫，酵母，拟南芥和水稻等，其中，BioMart是用户提取Ensembl基因组数据的强大工具。

Ensembl项目得到的数据均可以通过其基因组浏览器查看，用于支持脊椎动物基因组的比较基因组，进化，序列突变和转录调控方面研究。Ensembl注释基因，多重序列比对，预测结构和收集疾病数据。Ensembl工具包括：BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。

一、简介

Ensembl是由英国Sanger研究所Wellcome基金会（WTSI）和欧洲分子生物学实验室所属分部欧洲生物信息学研究所（EMBI-EBI）共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园（Wellcome Trust Genome Campus）内。

Ensembl计划开始于1999年，人类基因组草图计划完成前的几年。即使在早期阶段，也可明显看出，三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释，并把这些注释与其他有用的生物数据整合起来，通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000，是一个真核生物基因组注释项目，其侧重于脊椎动物的基因组数据，但也包含了其他生物，如线虫，酵母，拟南芥和水稻等。近年来，随着时间推移，越来越多的基因组数据已经被添加到了Ensembl，同时Ensembl可用数据的范围也扩展到了比较基因组学、变异，以及调控数据。

基因注释的数据来源

最新的基因组数据（大部分是动物）
UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列
NCBI RefSeq蛋白和核酸序列
EMBL cDNA序列

二、Ensembl可以做什么

查看基因在染色体上的注释
查看基因的选择性转录
探索某个基因的超过50个物种的同源性和进化树
比较物种的全基因组的比对和保守区域
查看比对到Ensembl上的芯片序列
查看染色体任何一区域的ESTs, clones, mRNA和proteins
检查染色体或基因上的SNPs (single nucleotide polymorphisms)
查看不同品种（rat,mouse）,种群，品种（狗）的SNPs
查看比对到Ensembl基因上的mRNA或蛋白的序列位置
上传自己的数据
通过BLAST或BLAT来搜索Ensembl基因组中相似的序列
通过BioMart导出序列和基因信息
Variant Effect Predictor

三、下载

少量的数据
大多数Ensembl 基因组数据的描述页有“export”功能，可以直接导出这一页的内容。

大的数据集
PERL API http://www.ensembl.org/info/docs/api/index.html

如果不熟悉Perl语言，可以通过Ensembl REST API http://rest.ensembl.org/

复杂的交叉数据库
BioMart http://www.ensembl.org/info/data/biomart/index.html

全部的数据集
FTP site http://www.ensembl.org/info/data/ftp/index.html

四、其他

Ensembl genes命名
人的基因

ENSG  Gene
ENST  Transcript
ENSE  Exon
ENSP  Protein
例如： ENST00000252723

其他物种的基因，例如老鼠(Mus musculus)

ENSMUSG  Mouse Gene
ENSMUST  Mouse Transcript
ENSMUSE  Mouse Exon
ENSMUSP  Mouse Protein

UCSC

下面介绍一下作为生信人必须掌握的三大数据库 NCBI-UCSC-ENSEMBL之一的UCSC。

一、简介

2000年6月22日，UCSC（University of California,Santa Cruz）和其他国际人类基因组计划的成员完成了人基因组组装的第一个草图，并承诺永久对外提供基因组信息。几个星期以后，在2000年7月22日，组装的基因组在网站 ttp://genome.ucsc.edu 呈现出来，并提供了一个在线的查询分析工具UCSC Genome Browser。接下来的几年里，该网站不断的发展，如今已包含大量的脊椎动物和模式生物的基因组组装和注释信息，并提供了一系列查看，分析，下载数据的工具。

站点地址：

http://genome.ucsc.edu/
Europe: http://genome-euro.ucsc.edu
Asia: http://genome-asia.ucsc.edu

数据库特点：

给浏览基因组数据提供了可靠和迅速的方式。
整合了大量的基因组注释数据，约有一半的注释信息是UCSC通过来自公开的序列数据计算得出，另外一半来自世界各地的科学工作者。本身并不下任何结论，而只是收集各种相关信息供用户参考。
支持数据库检索和序列相似性搜索。

二、UCSC可以干什么

UCSC建立的初衷是为了更好的呈现基因组数据，方便人们查看与研究。因此在呈现基因组碱基序列的同时，也结合了注释信息，例如known genes, predicted genes, ESTs, mRNAs, CpG islands, assembly gaps and coverage, chromosomal bands, mouse homologies等等。所以用户既可以用他们提供的数据库里面的数据，也可以上传自己的数据来做研究。围绕着这样的初衷，他们设计

Genome Browser 整合基因组数据和各种注释数据的在线查看系统
Blat 序列比对工具
Table Browser 将文本文件转化为数据库可以识别的文件
Genome Graphs 上传和呈现基因组数据的工具，例如genome-wide SNP association studies,
linkage studies 和homozygosity mapping
Gene Sorter 各种形式的呈现基因的表达，同源等信息以及相互关系
Gene Interactions 基因之间的交互关系
In-Silico PCR 查看一对引物在基因组中的位置
VisiGene 查看基因在显微镜下的原位图
LiftOver 基因组版本的转换

Nucleic Acids Research(NAR) 每年会整理重要的生物信息数据库
参考于：http://www.biotrainee.com/jmzeng/book/basic/database.html

Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
用了这么多年的PCA可视化竟然是错的！！！生信宝典
本文启发于上周开的单细胞转录组课程，本次课程由资深单细胞算法研究者戴老师主讲，深入浅出，各部分分析原理从理论到应用层面解释透彻，最新流程，最新代码，绝对值得学习。课程尚未结束，我就迫不及待向一位未能安排出时间参加此课程的老友及时安利了视频课。言归正传，介绍培训课程的一张幻灯片：很多PCA可视化结果都是不合适的。PCA或PCoA是常用的降维工具，之前有几篇文章介绍PCA的原理和可视化。一文看懂PCA
9.单细胞 RNA-seq：聚类分析 denghb001
学习目标：利用多种方法来评估聚类选择的PC基于重要的PC执行单细胞聚类单细胞RNA-seq聚类分析现在我们已经整合了高质量的细胞，我们想知道我们的细胞群中存在的不同细胞类型。image目标：为了生成特定细胞类型的簇，并使用已知的细胞类型的标志基因来确定的簇的身份。为了确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，如在细胞周期的S期的细胞群，特定批次的簇，或具有高线粒体含量的细胞。
高通量测序的数据处理与分析指北(二)--宏基因组篇 lantary
博客原文宏基因组篇前言之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。我们这里主要以肠道微生物
seurat自学笔记1.0 单细胞数据导入 Sanye2022 python pandas
Python读取.h5ad文件importanndataimportpandasaspdadata=anndata.read("/home/R/R_data/Seurat/PBMC10/output/adata.h5ad")#adata.X.todense()#将稀疏矩阵转成普通矩阵#X=pd.DataFrame(adata.X.todense())#cell_name=adata.obs.ind
2022-04-17 图灵基因
NatBiotech|组织中单细胞转录组的空间图谱原创图灵基因图灵基因2022-04-1707:03收录于话题#前沿生物大数据分析单细胞RNA测序（scRNA-seq）已经彻底改变了单细胞水平上的基因表达研究。最近，空间技术通过添加空间信息将转录组学提升到了一个新的水平。但是，它缺乏单细胞分辨率。现在，来自德克萨斯大学MD安德森癌症中心的一个小组开发了一种名为CellTrek的计算方法，将这两个数
生信人应该这样来装软件(未完待续) dandanwu90
P1优先选择二进制可执行软件来安装不同组学任务模块比对重要全基因组测序/外显子测序找差异和变异转录组相关计数软件安装规律：二进制，下载解压，全路径调用#C语言查看在还是不在whichmakewhichcmakewhichjavawhichperlwhichpython#查看版本python--versionperl--version查看版本，版本问题导致错误如何判断所有软件是否是二进制，进入软件官
时空组专辑数据库文献详解 | 拟南芥叶片单细胞空间转录组图谱尐尐呅
深圳华大生命科学研究院等在自主研发的时空组学技术Stereo-seq基础上，针对植物样本具有细胞壁这一特性，建立了一套适用于植物的、单细胞化的空间转录组技术scStereo-seq（single-cellSpaTialEnhancedREsolutionOmics-sequencing）。研究团队将其示范应用于模式植物拟南芥（Arabidopsis）的叶片研究中，对上、下表皮细胞、栅栏细胞、海绵细
2020-01-28 ab96a7f92f71
中西医对病毒性肺病诊治差别（浅析1）ab96a7f92f71字数289·阅读02020-01-2814:05西医除了追溯疾病症状与体征之外，更多借助于各种化验、检测手段和影像学，尤其是血常规和胸部高清CT影像加以诊断，还必须做咽拭子或下呼吸道分泌物寻找出病原体，例如有针对病毒核酸检测或培养测序和抗体滴度测试等。当然还进行全面身体测试数据发现以往的基础病或体质状态。中医主要运用望闻问切传统手段来辨别
7+纯生信，单细胞识别细胞marker+100种机器学习组合建模，机器学习组合建模取代单独lasso回归势在必行！生信小课堂
影响因子：7.3研究概述：皮肤黑色素瘤（SKCM）是所有皮肤恶性肿瘤中最具侵袭性的类型。本研究从GEO数据库下载单细胞RNA测序（scRNA-seq）数据集，根据原始研究中定义的细胞标记重新注释各种免疫细胞，以确定其特异性标志。接着通过计算免疫细胞通信网络，结合对通信网络的大量分析和通信模式的识别，对所有网络进行了定量表征和比较。最后基于bulkRNA测序数据，使用机器学习训练了枢纽通讯细胞的特定
大模型日报2024-06-07 赛博 AI 大模型日报人工智能 AIGC GPT4o OpenAI Gemini
大模型日报2024-06-07大模型资讯大规模单细胞转录组学基础模型研究摘要:大型预训练模型已成为基础模型，在自然语言处理及相关领域取得突破。本文介绍了在单细胞转录组学领域应用大规模基础模型的研究进展。MMLU-Pro：评估语言理解模型的新基准摘要:MMLU-Pro是一个增强型基准，旨在评估语言理解模型在更广泛和更具挑战性的任务中的表现。最近，大型语言模型在自然语言处理领域取得了显著进展，推动了这
雷达图在单细胞数据分析中的应用周运来就是我
听过周老师的课的同学，应该有印象：周老师在讲单细胞数据结构的时候提到过，单细胞数据是表达量数据，每个数值表示的是表达量，也就是含量，是一个非负数。表达量这个可以有绝对表达量和相对表达量，也就是所占的比例。基于这个简单淳朴的认知，其实我们就可以画出很多好玩的图，如雷达图。雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。今天在逛一个单细胞免疫数据库的时候
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
seurat提取表达矩阵_10X scRNA免疫治疗学习笔记-3-走Seurat标准流程幸福的小酒瓶 seurat提取表达矩阵
刘小泽写于19.10.15笔记目的：根据生信技能树的单细胞转录组课程探索10XGenomics技术相关的分析课程链接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=55第二单元第7讲：走Seurat标准流程【文章结构总-分-总，结尾有完整的代码，熟悉者前面可以跳过，去看后面8min完成的代码】前言前面介绍了自己利用cellrangerc
scRNA-data中的R值武艺晴小朋友你好 r语言数据可视化
愿武艺晴小朋友一定得每天都开心当我们测序拿得到各个样本中基因的表达值，就可以用基因表达值来表征样本间的相关性代码如下：#样本间相似性：R值相关性捕获到的基因在两个样本间表达趋势一致性exp_RNA1000)head(label)ggPoint(x=df$fed,y=df$memory_66d,size=1,title="r=0.41",colorDensity=TRUE,continuousSet
单细胞DNA测序方法比较及应用 6102
Lorenz曲线：越接近对角线，测序覆盖越均一Bulk大量细胞测序MDA直接使用DNA聚合酶Phi29扩增均一度：Bulk>MALBAC>MDA3种方法测肿瘤细胞CNV：横轴-染色体序列；纵轴-测序的覆盖深度fig.ABC:MALBAC法还算能看清拷贝数变异fig.D：Bulk法看拷贝数变异很直接清晰fig.E：MDA法拷贝数变异的信息较模糊生殖健康方面的一个应用染色体平衡易位，常见于习惯性流产家
Trimmomatic 数据过滤生信编程日常
Trimmomatic是一个很常用的Illumina平台数据过滤工具。支持SE和PE测序数据。主要用来去除Illumina平台的fastq序列中的接头，并根据碱基质量值对fastq进行修剪。用法：Trimmomatic=~/biotools/Trimmomatic-0.36/trimmomatic-0.36.jaradapter=~/biotools/Trimmomatic-0.36/adapte
零基础入门生信数据分析——导读呆猪儿生信之转录组——上游分析生信之转录组——下游分析学习方法 r语言数据分析数据库数据挖掘需求分析大数据
零基础入门生信数据分析——导读生信数据分析，即生物信息学数据分析，是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释，以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。本帖主要是为生信数据分析的各个分析点提供跳转链接（简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转）关联的生信数据分析的分析点
单细胞转录组和表观组学图谱揭示效应、记忆和耗竭CD8 T细胞在不同细胞命运分化中的共享生物学特征（下篇） Davey1220
文章信息文章题目：Longitudinalsinglecelltranscriptionalandepigeneticmappingofeffector,memory,andexhaustedCD8Tcellsrevealssharedbiologicalcircuitsacrossdistinctcellfates期刊：bioRxiv链接：https://www.biorxiv.org/cont
Signac::EnhanceCoveragePlot 参考实现流程倪桦 r语言 Signac coverageplot
Signac中的CoveragePlot是一种用于展示基因组覆盖度的图形工具，常用于ATAC-seq（AssayforTransposase-AccessibleChromatinusingsequencing）数据分析。它显示了特定基因组区域内测序读取的覆盖度，即每个位置上读取的频率。覆盖度图形对于理解基因组的开放区域、调控元件活性以及染色质状态等方面具有重要作用。通过将多个样本的Coverag
2022-01-14 Tree_microbiome
Tree_microbiome的博客_CSDN博客-微生物组测序数据可视化,微生物组测序分析领域博主（一）不同分类水平注释结果相对丰富度转化在微生物组测序中我们会从taxa_bar.qvz文件中下载到不同水平（level1,level2,level3……）的注释结果，一般我们用这些不同注释结果做微生物组的组成的堆积图，但是这些并不是相对丰富度，因此我们需要对其进行转换。以level-6属水平注释结
NCBI BLAST+：分析生物内在编码的工具 belldeep 生物信息学 Blast 生物数据分析
在生物信息学的广阔领域中，NCBI（NationalCenterforBiotechnologyInformation，美国国立生物技术信息中心）开发的BLAST（BasicLocalAlignmentSearchTool，基本局部比对搜索工具）无疑是一把不可或缺的分析工具。NCBIBLAST+，作为其最新版本2.16.0+，为科研工作者提供了一套强大的序列比对和搜索功能，帮助解析生命现象背后的遗
【图论简介】 WA-自动机图论深度优先算法架构后端前端面试
图论简介图论是一门数学分支，主要研究图（Graph）的性质、结构和应用。图论在计算机科学、网络理论、优化问题、生物信息学等多个领域都有广泛的应用。本文将简要介绍图论的基本概念、常见算法及其在实际中的应用。一、图的基本概念图（Graph）：图是由一组顶点（Vertices）和连接顶点的边（Edges）组成的结构。可以表示为(G=(V,E))，其中(V)是顶点的集合，(E)是边的集合。根据边的不同属性
科研绘图系列：R语言单细胞差异基因四分图（Quad plot）生信学习者2 R语言可视化 r语言数据分析数据挖掘
介绍在单细胞分析领域，为了探究不同分组间同一细胞类型的基因表达差异，研究者们常采用四分图（QuadPlot）作为分析工具。该图形的横轴代表比较组1，而纵轴代表比较组2。通过这种布局，四分图能够有效地展示两组间共有的差异表达基因，从而为深入理解细胞类型在不同条件下的分子特性提供直观的视角。这种可视化方法不仅揭示了组间基因表达的异同，还有助于识别可能在生物学过程或疾病发生中起关键作用的基因。加载R包导
解惑深度学习中的困惑度Perplexity Axlsss 深度学习统计知识深度学习人工智能数学建模
困惑度的定义困惑度(Perplexity)是衡量语言模型好坏的一个常用指标。语言模型(languagemodel)可以预测序列(比如一个句子)中每个时间步词元(比如一个句子中的逐个单词)的概率分布，继而计算一个序列的概率。一个好的语言模型应该有更高的概率生成一个好的序列，即生成的序列不应该让人感到很困惑，困惑度的核心思想是：序列生成的概率越大，其困惑度越小，因此可以使用困惑度这个指标来评估语言模型
使用clusterProfiler进行GO、KEGG富集分析（有参情况）纪伟讲测序
寻找差异表达的基因并识别它们的功能，是我们进行RNA测序的最主要目的。很明显，这些差异的基因必然与功能改变密切相关，例如，比较患病个体与正常个体的组织表达谱，不难想到这些显著失调的基因参与了生物学过程、信号通路等，导致了疾病的发生。前面已经讲了如何使用DESeq2、edgeR基于转录组测序获得的基因表达值鉴定差异表达基因。那么，后续如何继续通过生信分析的方法，探索差异表达的基因发挥了怎样的功能，参
生信圆桌：专业生信服务器与平台服务的提供者生信圆桌x生信云服务器服务器人工智能运维
生信圆桌是一个专注于提供生物信息学（生信）服务器和平台服务的领先企业，致力于为全球科研机构、企业和独立研究者提供高性能的生信分析解决方案。随着生物信息学研究对计算资源的需求日益增加，生信圆桌凭借其先进的服务器技术和专业的服务团队，成为了生信领域中不可或缺的合作伙伴。访问生信圆桌,使用生信云。高效分析少走弯路www.tebteb.cc生信圆桌的核心服务高性能生信服务器定制：生信圆桌为客户提供定制化的
1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流研究概述：本研究首先使用R语言在三个基因表达
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

生物信息学三大数据库NCBI-ENSEMBL-UCSC

你可能感兴趣的:(单细胞测序,生物信息学)