公卫小何

【单细胞测序攻略：二聚体过滤】DoubletDecon包过滤Seurat对象的二聚体（Doublet）

单细胞测序攻略：二聚体过滤——DoubletDecon包攻略

DoubletDecon介绍
- 提醒：
- - 1.一直到2020年7月一直在更新，直接对接seurat比较好用
  - 2.需要单个样本全部seurat流程走一遍，导出所需文件后进行去除二聚体过程
  - 3.去除二聚体以后用subset取去除二聚体后文件的细胞名称，即可得到取出后的交集
  - 4.整个包的使用流程参考链接里的protocol文章，本篇只是对代码进行入门介绍
- 注意：不要用Improved_Seurat_Pre_Process，会报错
- 代码来源：
- 参考文献：
第一步安装包
第二步加载包
第三步读取数据
第四步质量控制
第五步标准流程 Pipeline
第六步 Seurat数据导出——Output
第七步数据预处理（读入DoubletDecon）Seurat_Pre_Process()
- - 注意：Improved_Seurat_Pre_Process会报错，别用。先把需要的数据导出来
第八步二聚体分析
第九步提取过滤二聚体后的细胞名称
第十步细胞名称连接符号变了，要换回seurat的版本
第十一步取交集，所谓去除二聚体后的seurat对象
包信息
作者简介

DoubletDecon介绍

提醒：

1.一直到2020年7月一直在更新，直接对接seurat比较好用

2.需要单个样本全部seurat流程走一遍，导出所需文件后进行去除二聚体过程

3.去除二聚体以后用subset取去除二聚体后文件的细胞名称，即可得到取出后的交集

4.整个包的使用流程参考链接里的protocol文章，本篇只是对代码进行入门介绍

注意：不要用Improved_Seurat_Pre_Process，会报错

代码来源：

https://github.com/JonathanShor/DoubletDetection
https://github.com/EDePasquale/DoubletDecon/blob/master/seurat-3.0.R

参考文献：

https://www.cell.com/cell-reports/fulltext/S2211-1247(19)31286-0
https://www.biorxiv.org/content/10.1101/2020.04.23.058156v1.full

第一步安装包

if(!require(devtools)){
  install.packages("devtools") # If not already installed
}
devtools::install_github('EDePasquale/DoubletDecon')

第二步加载包

library(plyr)
library(dplyr)
library(Matrix)
library(ggplot2)
library(cowplot)
library(Seurat)
library(harmony)
library(DoubletDecon)
library(clusterProfiler)

第三步读取数据


sce.10x <- Read10X(data.dir = 'D:/HSW/HD/scRNA-seq/')
testdata_1 <- CreateSeuratObject(counts = sce.10x, 
                              project = "testdata_1",
                              min.cells=3, min.features=500) 
testdata_1

第四步质量控制


testdata_1[["percent.mt"]] <- PercentageFeatureSet(testdata_1, pattern = "^MT-")
testdata_1[["percent.HB"]]<-PercentageFeatureSet(testdata_1,features="HBB")
VlnPlot(testdata_1, features = c("nFeature_RNA", "nCount_RNA", "percent.mt","percent.HB"), ncol = 2)

plot1 <- FeatureScatter(testdata_1, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(testdata_1, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
CombinePlots(plots = list(plot1, plot2))

testdata_1 <- subset(testdata_1, 
                  subset = nFeature_RNA > 200 & nFeature_RNA < 4000 & percent.mt < 10 & percent.HB < 7)

dim(testdata_1)
testdata_1

第五步标准流程 Pipeline

testdata_1 <- NormalizeData(testdata_1)

testdata_1 <- FindVariableFeatures(testdata_1, selection.method = "vst", nfeatures = 3000, verbose = FALSE)

testdata_1 <- ScaleData(testdata_1, verbose = FALSE)

testdata_1<- RunPCA(testdata_1, features = VariableFeatures(object =testdata_1))

testdata_1 <- JackStraw(testdata_1 , num.replicate = 100,dims = 50)

testdata_1 <- ScoreJackStraw(testdata_1, dims = 1:20)

JackStrawPlot(testdata_1, dims =1:20)

ElbowPlot(testdata_1,ndims=50)

testdata_1<- FindNeighbors(testdata_1, dims = 1:10)

testdata_1<- FindClusters(testdata_1, resolution = 0.6)

testdata_1<- RunTSNE(testdata_1, dims = 1:10)

testdata_1<- RunUMAP(testdata_1, dims = 1:10)


testdata_1.markers <- FindAllMarkers(testdata_1, only.pos = TRUE, min.pct = 0.25, logfc.threshold = 0.25)

testdata_1.markers %>% group_by(cluster) %>% top_n(n = 2, wt = avg_logFC)

top50 <- testdata_1.markers %>% group_by(cluster) %>% top_n(n = 50, wt = avg_logFC)

第六步 Seurat数据导出——Output

write.table(top50,file="Top50Genes.txt",sep="\t",col.names= NA)

write.table(x = Idents(object = testdata_1),"Cluster.txt",sep="\t",col.names= NA)

data<- testdata_1@assays$RNA@data

write.table(data,file="counts.txt",sep="\t",col.names= NA)

第七步数据预处理（读入DoubletDecon）Seurat_Pre_Process()

注意：Improved_Seurat_Pre_Process会报错，别用。先把需要的数据导出来


location="D:/HSW/HD/scRNA-seq/"

expressionFile=paste0(location, "counts.txt")
genesFile=paste0(location, "Top50Genes.txt")
clustersFile=paste0(location, "Cluster.txt")
newFiles=Seurat_Pre_Process(expressionFile, genesFile, clustersFile)

filename="test_example"

第八步二聚体分析


results=Main_Doublet_Decon(rawDataFile=newFiles$newExpressionFile, 
                           groupsFile=newFiles$newGroupsFile, 
                           filename=filename, 
                           location=location,
                           fullDataFile=NULL, 
                           removeCC=FALSE, 
                           species="hsa", 
                           rhop=1.1, 
                           write=TRUE, 
                           PMF=TRUE, 
                           useFull=FALSE, 
                           heatmap=FALSE,
                           centroids=TRUE,
                           num_doubs=100, 
                           only50=FALSE,
                           min_uniq=4,
                           nCores=-1)

第九步提取过滤二聚体后的细胞名称


LIST<-row.names(results$Final_nondoublets_groups)
head(LIST)

第十步细胞名称连接符号变了，要换回seurat的版本


LIST=gsub('[.]','-',LIST)

第十一步取交集，所谓去除二聚体后的seurat对象


testdata_1_RemoveDoublet<-subset(x = testdata_1, cells=LIST)

包信息

sessionInfo()


R version 4.0.2 (2020-06-22)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19041)

Matrix products: default

locale:
  [1] LC_COLLATE=Chinese (Simplified)_China.936  LC_CTYPE=Chinese (Simplified)_China.936   
[3] LC_MONETARY=Chinese (Simplified)_China.936 LC_NUMERIC=C                              
[5] LC_TIME=Chinese (Simplified)_China.936    

attached base packages:
  [1] stats4    parallel  grid      stats     graphics  grDevices utils     datasets  methods  
[10] base     

other attached packages:
  [1] Matrix_1.2-18          shiny_1.5.0            stringr_1.4.0          doParallel_1.0.15     
[5] iterators_1.0.12       foreach_1.5.0          R.utils_2.10.1         R.oo_1.24.0           
[9] R.methodsS3_1.8.1      tidyr_1.1.1            mygene_1.24.0          GenomicFeatures_1.40.1
[13] AnnotationDbi_1.50.3   GenomicRanges_1.40.0   GenomeInfoDb_1.24.2    IRanges_2.22.2        
[17] S4Vectors_0.26.1       MCL_1.0                plyr_1.8.6             gplots_3.0.4          
[21] DeconRNASeq_1.30.0     pcaMethods_1.80.0      Biobase_2.48.0         BiocGenerics_0.34.0   
[25] limSolve_1.5.6         dplyr_1.0.1            clusterProfiler_3.16.1 ROCR_1.0-11           
[29] KernSmooth_2.23-17     fields_11.5            spam_2.5-1             dotCall64_1.0-0       
[33] DoubletFinder_2.0.3    harmony_1.0            Rcpp_1.0.5             Seurat_3.2.0          
[37] sctransform_0.2.1      cowplot_1.0.0          ggplot2_3.3.2          DoubletDecon_1.1.6    

loaded via a namespace (and not attached):
  [1] rappdirs_0.3.1              rtracklayer_1.48.0          knitr_1.29                 
[4] bit64_4.0.5                 DelayedArray_0.14.1         irlba_2.3.3                
[7] data.table_1.13.0           rpart_4.1-15                RCurl_1.98-1.2             
[10] generics_0.0.2              callr_3.4.3                 usethis_1.6.1              
[13] RSQLite_2.2.0               RANN_2.6.1                  europepmc_0.4              
[16] future_1.18.0               chron_2.3-56                bit_4.0.4                  
[19] enrichplot_1.8.1            spatstat.data_1.4-3         xml2_1.3.2                 
[22] httpuv_1.5.4                SummarizedExperiment_1.18.2 assertthat_0.2.1           
[25] viridis_0.5.1               xfun_0.16                   hms_0.5.3                  
[28] promises_1.1.1              fansi_0.4.1                 progress_1.2.2             
[31] caTools_1.18.0              dbplyr_1.4.4                igraph_1.2.5               
[34] DBI_1.1.0                   htmlwidgets_1.5.1           purrr_0.3.4                
[37] ellipsis_0.3.1              RSpectra_0.16-0             backports_1.1.8            
[40] biomaRt_2.44.1              deldir_0.1-28               vctrs_0.3.2                
[43] remotes_2.2.0               abind_1.4-5                 withr_2.2.0                
[46] ggforce_0.3.2               triebeard_0.3.0             checkmate_2.0.0            
[49] GenomicAlignments_1.24.0    prettyunits_1.1.1           goftest_1.2-2              
[52] cluster_2.1.0               DOSE_3.14.0                 ape_5.4-1                  
[55] lazyeval_0.2.2              crayon_1.3.4                pkgconfig_2.0.3            
[58] labeling_0.3                tweenr_1.0.1                nlme_3.1-148               
[61] pkgload_1.1.0               nnet_7.3-14                 devtools_2.3.1             
[64] rlang_0.4.7                 globals_0.12.5              lifecycle_0.2.0            
[67] miniUI_0.1.1.1              downloader_0.4              BiocFileCache_1.12.1       
[70] rsvd_1.0.3                  rprojroot_1.3-2             polyclip_1.10-0            
[73] matrixStats_0.56.0          lmtest_0.9-37               urltools_1.7.3             
[76] zoo_1.8-8                   base64enc_0.1-3             ggridges_0.5.2             
[79] processx_3.4.3              png_0.1-7                   viridisLite_0.3.0          
[82] bitops_1.0-6                Biostrings_2.56.0           blob_1.2.1                 
[85] qvalue_2.20.0               jpeg_0.1-8.1                gridGraphics_0.5-0         
[88] scales_1.1.1                lpSolve_5.6.15              memoise_1.1.0              
[91] magrittr_1.5                ica_1.0-2                   gdata_2.18.0               
[94] zlibbioc_1.34.0             compiler_4.0.2              scatterpie_0.1.5           
[97] RColorBrewer_1.1-2          fitdistrplus_1.1-1          Rsamtools_2.4.0            
[100] cli_2.0.2                   XVector_0.28.0              listenv_0.8.0              
[103] patchwork_1.0.1             pbapply_1.4-2               ps_1.3.4                   
[106] htmlTable_2.1.0             Formula_1.2-3               MASS_7.3-51.6              
[109] mgcv_1.8-31                 tidyselect_1.1.0            stringi_1.4.6              
[112] GOSemSim_2.14.2             askpass_1.1                 latticeExtra_0.6-29        
[115] ggrepel_0.8.2               fastmatch_1.1-0             tools_4.0.2                
[118] future.apply_1.6.0          rstudioapi_0.11             foreign_0.8-80             
[121] gridExtra_2.3               farver_2.0.3                Rtsne_0.15                 
[124] ggraph_2.0.3                digest_0.6.25               rvcheck_0.1.8              
[127] BiocManager_1.30.10         proto_1.0.0                 quadprog_1.5-8             
[130] later_1.1.0.1               RcppAnnoy_0.0.16            httr_1.4.2                 
[133] colorspace_1.4-1            XML_3.99-0.5                fs_1.5.0                   
[136] tensor_1.5                  reticulate_1.16             splines_4.0.2              
[139] uwot_0.1.8                  expm_0.999-5                spatstat.utils_1.17-0      
[142] graphlayouts_0.7.0          ggplotify_0.0.5             plotly_4.9.2.1             
[145] sessioninfo_1.1.1           xtable_1.8-4                jsonlite_1.7.0             
[148] spatstat_1.64-1             tidygraph_1.2.0             testthat_2.3.2             
[151] R6_2.4.1                    Hmisc_4.4-1                 gsubfn_0.7                 
[154] pillar_1.4.6                htmltools_0.5.0             mime_0.9                   
[157] glue_1.4.1                  fastmap_1.0.1               BiocParallel_1.22.0        
[160] codetools_0.2-16            maps_3.3.0                  fgsea_1.14.0               
[163] pkgbuild_1.1.0              utf8_1.1.4                  lattice_0.20-41            
[166] tibble_3.0.3                sqldf_0.4-11                curl_4.3                   
[169] leiden_0.3.3                gtools_3.8.2                GO.db_3.11.4               
[172] openssl_1.4.2               survival_3.2-3              limma_3.44.3               
[175] desc_1.2.0                  munsell_0.5.0               DO.db_2.9                  
[178] GenomeInfoDbData_1.2.3      reshape2_1.4.4              gtable_0.3.0

作者简介

何世伟
复旦大学医学博士生
厦门大学公共卫生硕士
研究方向：儿科学、生物信息学、表观遗传流行病学、循证医学
联系方式：[email protected]

你可能感兴趣的:(单细胞测序)

大数据新视界 --大数据大厂之大数据于基因测序分析的核心应用 - 洞悉生命信息的密钥青云交大数据新视界 #Python 魅力之旅：探索数据与智能的奥秘数据库基因测序分析变异检测数据预处理疾病关联分析数据安全数据质量控制
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
用了这么多年的PCA可视化竟然是错的！！！生信宝典
本文启发于上周开的单细胞转录组课程，本次课程由资深单细胞算法研究者戴老师主讲，深入浅出，各部分分析原理从理论到应用层面解释透彻，最新流程，最新代码，绝对值得学习。课程尚未结束，我就迫不及待向一位未能安排出时间参加此课程的老友及时安利了视频课。言归正传，介绍培训课程的一张幻灯片：很多PCA可视化结果都是不合适的。PCA或PCoA是常用的降维工具，之前有几篇文章介绍PCA的原理和可视化。一文看懂PCA
9.单细胞 RNA-seq：聚类分析 denghb001
学习目标：利用多种方法来评估聚类选择的PC基于重要的PC执行单细胞聚类单细胞RNA-seq聚类分析现在我们已经整合了高质量的细胞，我们想知道我们的细胞群中存在的不同细胞类型。image目标：为了生成特定细胞类型的簇，并使用已知的细胞类型的标志基因来确定的簇的身份。为了确定分群是否代表真实的细胞类型或由于生物或技术差异而形成的群集，如在细胞周期的S期的细胞群，特定批次的簇，或具有高线粒体含量的细胞。
高通量测序的数据处理与分析指北(二)--宏基因组篇 lantary
博客原文宏基因组篇前言之前的一篇文章已经从生物实验的角度讲述了高通量测序的原理，这篇文章旨在介绍宏基因组二代测序数据的处理方式及其原理。在正文开始之前，我们先来认识一下什么是宏基因组。以我的理解，宏基因组就是某环境中所有生物的基因组的合集，这个环境可以是下水道，河流等自然环境，也可以是人体内肠道，口腔等体环境。而宏基因组中的生物往往指的是微生物，如真菌，细菌，病毒，古细菌。我们这里主要以肠道微生物
seurat自学笔记1.0 单细胞数据导入 Sanye2022 python pandas
Python读取.h5ad文件importanndataimportpandasaspdadata=anndata.read("/home/R/R_data/Seurat/PBMC10/output/adata.h5ad")#adata.X.todense()#将稀疏矩阵转成普通矩阵#X=pd.DataFrame(adata.X.todense())#cell_name=adata.obs.ind
2022-04-17 图灵基因
NatBiotech|组织中单细胞转录组的空间图谱原创图灵基因图灵基因2022-04-1707:03收录于话题#前沿生物大数据分析单细胞RNA测序（scRNA-seq）已经彻底改变了单细胞水平上的基因表达研究。最近，空间技术通过添加空间信息将转录组学提升到了一个新的水平。但是，它缺乏单细胞分辨率。现在，来自德克萨斯大学MD安德森癌症中心的一个小组开发了一种名为CellTrek的计算方法，将这两个数
生信人应该这样来装软件(未完待续) dandanwu90
P1优先选择二进制可执行软件来安装不同组学任务模块比对重要全基因组测序/外显子测序找差异和变异转录组相关计数软件安装规律：二进制，下载解压，全路径调用#C语言查看在还是不在whichmakewhichcmakewhichjavawhichperlwhichpython#查看版本python--versionperl--version查看版本，版本问题导致错误如何判断所有软件是否是二进制，进入软件官
时空组专辑数据库文献详解 | 拟南芥叶片单细胞空间转录组图谱尐尐呅
深圳华大生命科学研究院等在自主研发的时空组学技术Stereo-seq基础上，针对植物样本具有细胞壁这一特性，建立了一套适用于植物的、单细胞化的空间转录组技术scStereo-seq（single-cellSpaTialEnhancedREsolutionOmics-sequencing）。研究团队将其示范应用于模式植物拟南芥（Arabidopsis）的叶片研究中，对上、下表皮细胞、栅栏细胞、海绵细
2020-01-28 ab96a7f92f71
中西医对病毒性肺病诊治差别（浅析1）ab96a7f92f71字数289·阅读02020-01-2814:05西医除了追溯疾病症状与体征之外，更多借助于各种化验、检测手段和影像学，尤其是血常规和胸部高清CT影像加以诊断，还必须做咽拭子或下呼吸道分泌物寻找出病原体，例如有针对病毒核酸检测或培养测序和抗体滴度测试等。当然还进行全面身体测试数据发现以往的基础病或体质状态。中医主要运用望闻问切传统手段来辨别
7+纯生信，单细胞识别细胞marker+100种机器学习组合建模，机器学习组合建模取代单独lasso回归势在必行！生信小课堂
影响因子：7.3研究概述：皮肤黑色素瘤（SKCM）是所有皮肤恶性肿瘤中最具侵袭性的类型。本研究从GEO数据库下载单细胞RNA测序（scRNA-seq）数据集，根据原始研究中定义的细胞标记重新注释各种免疫细胞，以确定其特异性标志。接着通过计算免疫细胞通信网络，结合对通信网络的大量分析和通信模式的识别，对所有网络进行了定量表征和比较。最后基于bulkRNA测序数据，使用机器学习训练了枢纽通讯细胞的特定
大模型日报2024-06-07 赛博 AI 大模型日报人工智能 AIGC GPT4o OpenAI Gemini
大模型日报2024-06-07大模型资讯大规模单细胞转录组学基础模型研究摘要:大型预训练模型已成为基础模型，在自然语言处理及相关领域取得突破。本文介绍了在单细胞转录组学领域应用大规模基础模型的研究进展。MMLU-Pro：评估语言理解模型的新基准摘要:MMLU-Pro是一个增强型基准，旨在评估语言理解模型在更广泛和更具挑战性的任务中的表现。最近，大型语言模型在自然语言处理领域取得了显著进展，推动了这
雷达图在单细胞数据分析中的应用周运来就是我
听过周老师的课的同学，应该有印象：周老师在讲单细胞数据结构的时候提到过，单细胞数据是表达量数据，每个数值表示的是表达量，也就是含量，是一个非负数。表达量这个可以有绝对表达量和相对表达量，也就是所占的比例。基于这个简单淳朴的认知，其实我们就可以画出很多好玩的图，如雷达图。雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。今天在逛一个单细胞免疫数据库的时候
seurat提取表达矩阵_10X scRNA免疫治疗学习笔记-3-走Seurat标准流程幸福的小酒瓶 seurat提取表达矩阵
刘小泽写于19.10.15笔记目的：根据生信技能树的单细胞转录组课程探索10XGenomics技术相关的分析课程链接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=55第二单元第7讲：走Seurat标准流程【文章结构总-分-总，结尾有完整的代码，熟悉者前面可以跳过，去看后面8min完成的代码】前言前面介绍了自己利用cellrangerc
scRNA-data中的R值武艺晴小朋友你好 r语言数据可视化
愿武艺晴小朋友一定得每天都开心当我们测序拿得到各个样本中基因的表达值，就可以用基因表达值来表征样本间的相关性代码如下：#样本间相似性：R值相关性捕获到的基因在两个样本间表达趋势一致性exp_RNA1000)head(label)ggPoint(x=df$fed,y=df$memory_66d,size=1,title="r=0.41",colorDensity=TRUE,continuousSet
单细胞DNA测序方法比较及应用 6102
Lorenz曲线：越接近对角线，测序覆盖越均一Bulk大量细胞测序MDA直接使用DNA聚合酶Phi29扩增均一度：Bulk>MALBAC>MDA3种方法测肿瘤细胞CNV：横轴-染色体序列；纵轴-测序的覆盖深度fig.ABC:MALBAC法还算能看清拷贝数变异fig.D：Bulk法看拷贝数变异很直接清晰fig.E：MDA法拷贝数变异的信息较模糊生殖健康方面的一个应用染色体平衡易位，常见于习惯性流产家
Trimmomatic 数据过滤生信编程日常
Trimmomatic是一个很常用的Illumina平台数据过滤工具。支持SE和PE测序数据。主要用来去除Illumina平台的fastq序列中的接头，并根据碱基质量值对fastq进行修剪。用法：Trimmomatic=~/biotools/Trimmomatic-0.36/trimmomatic-0.36.jaradapter=~/biotools/Trimmomatic-0.36/adapte
单细胞转录组和表观组学图谱揭示效应、记忆和耗竭CD8 T细胞在不同细胞命运分化中的共享生物学特征（下篇） Davey1220
文章信息文章题目：Longitudinalsinglecelltranscriptionalandepigeneticmappingofeffector,memory,andexhaustedCD8Tcellsrevealssharedbiologicalcircuitsacrossdistinctcellfates期刊：bioRxiv链接：https://www.biorxiv.org/cont
Signac::EnhanceCoveragePlot 参考实现流程倪桦 r语言 Signac coverageplot
Signac中的CoveragePlot是一种用于展示基因组覆盖度的图形工具，常用于ATAC-seq（AssayforTransposase-AccessibleChromatinusingsequencing）数据分析。它显示了特定基因组区域内测序读取的覆盖度，即每个位置上读取的频率。覆盖度图形对于理解基因组的开放区域、调控元件活性以及染色质状态等方面具有重要作用。通过将多个样本的Coverag
2022-01-14 Tree_microbiome
Tree_microbiome的博客_CSDN博客-微生物组测序数据可视化,微生物组测序分析领域博主（一）不同分类水平注释结果相对丰富度转化在微生物组测序中我们会从taxa_bar.qvz文件中下载到不同水平（level1,level2,level3……）的注释结果，一般我们用这些不同注释结果做微生物组的组成的堆积图，但是这些并不是相对丰富度，因此我们需要对其进行转换。以level-6属水平注释结
科研绘图系列：R语言单细胞差异基因四分图（Quad plot）生信学习者2 R语言可视化 r语言数据分析数据挖掘
介绍在单细胞分析领域，为了探究不同分组间同一细胞类型的基因表达差异，研究者们常采用四分图（QuadPlot）作为分析工具。该图形的横轴代表比较组1，而纵轴代表比较组2。通过这种布局，四分图能够有效地展示两组间共有的差异表达基因，从而为深入理解细胞类型在不同条件下的分子特性提供直观的视角。这种可视化方法不仅揭示了组间基因表达的异同，还有助于识别可能在生物学过程或疾病发生中起关键作用的基因。加载R包导
解惑深度学习中的困惑度Perplexity Axlsss 深度学习统计知识深度学习人工智能数学建模
困惑度的定义困惑度(Perplexity)是衡量语言模型好坏的一个常用指标。语言模型(languagemodel)可以预测序列(比如一个句子)中每个时间步词元(比如一个句子中的逐个单词)的概率分布，继而计算一个序列的概率。一个好的语言模型应该有更高的概率生成一个好的序列，即生成的序列不应该让人感到很困惑，困惑度的核心思想是：序列生成的概率越大，其困惑度越小，因此可以使用困惑度这个指标来评估语言模型
使用clusterProfiler进行GO、KEGG富集分析（有参情况）纪伟讲测序
寻找差异表达的基因并识别它们的功能，是我们进行RNA测序的最主要目的。很明显，这些差异的基因必然与功能改变密切相关，例如，比较患病个体与正常个体的组织表达谱，不难想到这些显著失调的基因参与了生物学过程、信号通路等，导致了疾病的发生。前面已经讲了如何使用DESeq2、edgeR基于转录组测序获得的基因表达值鉴定差异表达基因。那么，后续如何继续通过生信分析的方法，探索差异表达的基因发挥了怎样的功能，参
1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流研究概述：本研究首先使用R语言在三个基因表达
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
肿瘤免疫微环境/免疫浸润分析期待未来
肿瘤免疫微环境/免疫浸润1.概念：肿瘤及微环境肿瘤细胞肿瘤微环境基质细胞成纤维细胞免疫细胞：B细胞、T细胞等肿瘤免疫微环境：就是肿瘤的内部和周围往往聚集着大量的免疫细胞。这些免疫细胞与肿瘤细胞存在复杂相互作用和调节。免疫微环境或免疫浸润分析：本质上，就是搞清楚肿瘤组织当中免疫细胞的构成比例。2.计算免疫微环境的常用方法：“实测法”，高精度的单细胞测序，SinglecellRNA-seq等手段。即一
7+非肿瘤纯生信，内容不多但思路值得借鉴！生信小课堂
关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，铁死亡，自噬等基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友患者添加小编咨询生信分析咨询请关注生信小课堂研究背景：扩张型心
跟着Cell学单细胞转录组分析(十二):转录因子分析 KS科研分享与服务
转录因子分析可以了解细胞异质性背后的基因调控网络的异质性。转录因子分析也是单细胞转录组常见的分析内容，R语言分析一般采用的是SCENIC包，具体原理可参考两篇文章。1、《SCENIC:single-cellregulatorynetworkinferenceandclustering》。2、《AscalableSCENICworkflowforsingle-cellgeneregulatoryne
python调用statsmodels模块实现整合移动平均自回归模型(ARIMA)——以预测股票收盘价为例.md 爆米LiuChen python 回归开发语言
文章目录程序简介程序/数据集下载代码分析程序简介调用statsmodels模块对上证指数的收盘价进行ARIMA模型动态建模，ARIMA适合短期预测，因此输入为15个数据，输出为1个数据程序输入：原序列，需要往后预测的个数程序输出：预测序列，模型结构(白噪声检验、单根检验、一阶差分自相关图、一阶差分偏自相关图)差分整合移动平均自回归模型(ARIMA)，ARIMA(p，d，q)中，AR是”自回归”，p
【好书分享第十期】大模型应用解决方案_基于ChatGPT和GPT-4等Transformer架构的自然语言处理（文末送书）屿小夏书籍推荐 chatgpt transformer 架构大模型 AI
文章目录前言一、内容简介二、作者简介三、目录四、摘录粉丝福利前言在不到4年的时间里，Transformer模型以其强大的性能和创新的思想，迅速在NLP社区崭露头角，打破了过去30年的记录。BERT、T5和GPT等模型现在已成为计算机视觉、语音识别、翻译、蛋白质测序、编码等各个领域中新应用的基础构件。因此，斯坦福大学最近提出了“基础模型”这个术语，用于定义基于巨型预训练Transformer的一系列
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他