Stormzudi

生物信息学【3】：相关理论方法

由于最近在做BRCA-lncRNA相关的生信课题研究，在看到相关论文中的一些模型和方法，整理一下，供自己和大家一起学习。

目录

- 理论方法：
- - 1. 生存分析：log-rank检验在什么情况下失效?
  - 2. DESeq2详细用法
  - 3. TCGA+biomarker——风险因子关联图
  - 4. ROC曲线，混淆矩阵，开集闭集等概念
  - 5. 非负矩阵分解NMF
  - 6. ceRNA网络结构
  - 7. starBase 数据库的使用
  - 8. STRING 蛋白质组研究
  - 9. DNA 甲基化

理论方法：

1. 生存分析：log-rank检验在什么情况下失效?

（1）生存分析：log-rank检验在什么情况下失效?

这一篇博客，写了关于生存分析检验方法的差别。
介绍了：1) log-rank检验 (对数秩检验) 2）Wilcoxon检验 3）Peto检验、Tarone-Ware检验

作者的总结：
如果log-rank检验有意义而Wilcoxon检验无意义，表明可能远期差异较大，早期则不一定，有可能差异不大。
如果log-rank检验无意义而Wilcoxon检验有意义，表明早期生存差别较大，远期生存差异不大。

总的来说，如果研究某种疗法对生存常期是一种状态效果，并不会随着时间变换而衰弱，就可以运用log-rank检验（对数秩检验），如果是认为这种预期效果会随着时间变化而减弱，可以考虑到加入权重N的Wilcoxon检验。

2. DESeq2详细用法

（2）：DESeq2详细用法
这一篇博客，写了创建一个DESeq的对象dds，两种数据转换的方法：vst，rlog，【数据集小于30个样品可以用rlog，数据集大于30个样品用vst，因为rlog速度慢。】，这两种方法的目的：得到一个近似为同方差的值矩阵（沿均值范围具有恒定的方差）。**

3. TCGA+biomarker——风险因子关联图

（3）：TCGA+biomarker——风险因子关联图
这一篇博客是关于预后分析的关联图。在我们得到了风险评分后，如何通过图像来展现出高低风险组样本的分类情况，这时可以通过风险因子关联图来展现出高低风险的差异，其中风险因子关联图包括三个部分。
这里这部分，加一点我的代码：


# 由多因素COX得到的5个基因，我们要进行风险分析，
# 来重新定义BRCA，将他们分组。
rm(list = ls())
library(survival)
library(glmnet)
library(ggplot2)
library(survminer)

setwd("D:\\AProject\\Study_code\\Code_026_Risk_model_lncRNA\\Code_026_Risk_vst_v2\\Risk")

# 读取表达数据
lncRNA_data <- read.csv("tcga_lncRNA_significance_in_immunecell_pathway.csv", row.names = 1)
lncRNA_exp <- lncRNA_data[, 1:7]

#####(1)建立多因素cox回归的数据#######
fml <- as.formula(Surv(lncRNA_data$OS.time, lncRNA_data$status)~.)
mycox <- coxph(fml, data = lncRNA_exp)
summary(mycox)

# 生存风险得分risk_level和评分risk_score
risk_score <- predict(mycox, type="risk", newdata = lncRNA_exp)
risk_level <- as.data.frame(ifelse(risk_score > median(risk_score), "High", "Low"))
colnames(risk_level) <- "risk_level"
risk_score <- as.data.frame(risk_score)
colnames(risk_score) <- "risk_score"
# 生存最后的数据
dat <- cbind(lncRNA_data, risk_score, risk_level)
write.csv(dat, "risk_score.csv")


######(2)生存分析#####
colnames(dat)
# 影响因素分析
# survival包中的Surv函数可以创建一个生存对象
# gender: 0(wumen)、1(men)
fit <- survfit(Surv(OS.time1, status1) ~ risk_level, data = dat)
#survival包中的survfit函数用Kaplan-Meier法进行生存曲线的拟合
sur <- ggsurvplot(fit,
                  pval = TRUE, 
                  # conf.int = TRUE,
                  risk.table = TRUE, # Add risk table
                  risk.table.col = "strata", # Change risk table color by groups
                  linetype = "strata", # Change line type by groups
                  surv.median.line = "hv", # Specify median survival
                  ggtheme = theme_bw(), # Change ggplot2 theme
                  palette = c("#E7B800", "#2E9FDF")
)

# 存储图片
pdf("survival_sig_lncRNA_level1.pdf")#生成文件
sur
dev.off()

#####(3) 绘制风险因子关联图#####
phe <- dat[order(dat$risk_score), ]
fp_dat <- data.frame(patientid = 1:nrow(phe),
                     fp = phe$risk_score)
#添加风险分组，以风险评分的中位值将患者分为两组，大于中位值的 患者为高风险组，小于或等于中位值的患者为低风险组
fp_dat$riskgroup <- ifelse(fp_dat$fp>= median(fp_dat$fp),'high','low')


###第一个图
library(ggplot2)
p1 = ggplot(fp_dat,aes(x = patientid,y = fp))+ geom_point(aes(color = riskgroup))+
        scale_colour_manual(values = c("red","green"))+
        theme_bw()+labs(x="Patient ID(increasing risk score)",y="Risk score")+
        geom_hline(yintercept=median(fp_dat$fp),colour="black", linetype="dotted",size=0.8)+
        geom_vline(xintercept=sum(fp_dat$riskgroup=="low"),colour="black", linetype="dotted",size=0.8)
p1

# 生成sur_dat绘制图二
sur_dat <- data.frame(patientid = 1:nrow(risk_score), 
                      time = phe[,'OS.time1'],
                      event = phe[, 'status1']) 
sur_dat$event <- ifelse(sur_dat$event==0, 'alive', 'death')
sur_dat$event <- factor(sur_dat$event, levels = c("death","alive"))


#### 第二个图
p2 <- ggplot(sur_dat, aes(x=patientid,y=time)) + geom_point(aes(col=event)) + theme_bw()+
        scale_colour_manual(values = c("red","green"))+
        labs(x = "Patient ID(increasing risk score)", y = "Survival time(year)")+
        geom_vline(xintercept=sum(fp_dat$riskgroup=="low"), colour="black", linetype="dotted",size=0.8)
p2

#### 第三个图
library(pheatmap)
heatmap.data <- phe[, 1:7]  # 基因数据框

heatmap.data[is.na(heatmap.data)] <- 0
heatmap.data <- as.matrix(heatmap.data)
heatmap.data.scale <- scale(heatmap.data)
heatmap.data.scale.new <- ifelse(abs(heatmap.data.scale) > 1, sign(heatmap.data.scale)*1, heatmap.data.scale)

# 绘制热图
library(ComplexHeatmap)
library(qdapTools)  #need df2matrix function
library(RColorBrewer)  #colorRamp2
library(circlize)  #colorRamp2
library(tidyverse)  #select

# 转置，得到行为基因，列为样本的矩阵
mat = t(heatmap.data.scale.new)
dim(mat)

# 在热图上添加组标签
Groups <- as.character(phe$risk_level)
# 添加标签
annotation_col = HeatmapAnnotation(Groups = Groups,
                       col = list(
                               Groups = c("Low" = "#556B2F", "High" = "royalblue")
                       ),
                       annotation_name_side = "right",  # 设置注释的名字在右边
                       na_col = "#808080",  #设置空白值的颜色为灰色
                       simple_anno_size = unit(5, "mm")  # 设置行宽度
)

p3 = Heatmap(mat, 
             col = colorRamp2(c(-1, 0, 1), 
                              c("CornflowerBlue", "#D3D3D3", "FireBrick")),
             column_title_gp = gpar(fontsize = 8, fontface = "bold"),
             top_annotation = annotation_col,
             # column_split = 2,
             # row_split = 2,
             # row_labels = FALSE,
             # row_names_gp = gpar(fontsize = 20),  # 设置行字体的大小
             # column_title = "Kmeans groups with heatmap",  # 标签名称
             
             cluster_columns = FALSE,  # 列不进行聚类
             # cluster_columns = hclust(dist(t(mat1))),  #列是样本，样本需要聚类
             # clustering_distance_columns = "euclidean",  #列是样本，样本需要聚类
             # clustering_method_columns = "complete",
             cluster_rows = hclust(dist(mat)),
             clustering_distance_rows = "euclidean",  #行是基因，基因需要聚类
             clustering_method_rows = "complete",
             
             show_row_dend = FALSE,  #是否显示树状图
             show_column_dend = FALSE,
             show_row_names = T,
             show_column_names = F,
             # column_names_gp = gpar(fontsize = 1),
             # row_names_gp = gpar(fontsize = 1),
             heatmap_legend_param = list(title = "Legend",
                                         title_position ="topcenter",
                                         title_gp = gpar(fontsize = 10, fontface = "bold"),
                                         labels_gp = gpar(fontsize = 10))
)
p3

### 拼图实现三图联动
library(ggplotify)
plots = list(A = p1,B = p2,C = as.ggplot(as.grob(p3)))
library(gridExtra)
lay1 = rbind(c(rep(1,7)),c(rep(2,7)),c(rep(3,7))) #布局矩阵
riskdistru <- grid.arrange(grobs = plots, layout_matrix = lay1, heigths = c(2,2,3),weights=c(10,10,10))
ggsave("Risk factor association diagram.pdf", plot = riskdistru, dpi=600, width = 6.73, height = 6.7)

# ggsave("风险因子关联图.tiff", plot = riskdistru, dpi=600, width = 6.73,height = 6.7)


####(4) ROC曲线图#####
library(timeROC)
library(survival)
ROC <- timeROC(T= dat$OS.time/12, delta = dat$status,
             marker=dat$risk_score, 
             cause=1,
             weighting="marginal",
             times=c(3,5,2),ROC=TRUE)

# 显示全部细胞和基质占比
pdf(file = "ROC.pdf",width=5,height=5, useDingbats = FALSE)
plot(ROC,time=3,col="blue", title=FALSE, lwd=3)
plot(ROC,time=5,col="red", add=TRUE, title=FALSE,lwd=3)
legend("bottomright",title = 'AUC',
       c(paste("3-year: ",round(ROC$AUC[1],1)),
         paste("5-year: ",round(ROC$AUC[2],1))),
       col=c("blue","red"),lwd=2)

dev.off()

# ggsave("TCGA生存+timeROC.pdf", plot = ROC,dpi=600, width = 10, height = 4)

4. ROC曲线，混淆矩阵，开集闭集等概念

（4）：ROC、AUC、混淆矩阵

roc_curve()，ROC曲线，混淆矩阵，开集闭集等概念
混淆矩阵、召回率、准确率、ROC曲线、AUC
分类模型评估之ROC-AUC曲线和PRC曲线
混淆矩阵、ROC、AUC

特别是看一下第四个博客，博客中有详细讲解了ROC曲线中点是如何绘制出来的。
可以看到，ROC中的点是从原点（0，0）移动到（1，1）,依据真正类率(true positive rate ,TPR)和假正类率(true positive rate ,FPR)的值作为坐标值，同时，在此之前是按照得分排名的，个人认为：每一个Score下的矩阵表示形式为一个：混淆矩阵，通过计算TPR，FPR来最后得到该概率下的点坐标。

最理想的状况下是先上移动到（0，1），再右移动到（1，1）；理解就是，我们将样本分成的高低风险组与原有的分组之间是完全匹配的。
　　　　　　　　　　　

图片来自博主：chuanbanjun

5. 非负矩阵分解NMF

文章链接: 代谢相关的大肠癌分子分类.
链接: 非负矩阵分解NMF.

可以通过非负矩阵的分解将原始V矩阵（n×m）分解成W（n×r）与矩阵H（r×m）的乘积，矩阵H也叫系数矩阵，通常系数矩阵能够代替原始矩阵，实现降维。【其中矩阵V的每一个列向量为矩阵W所有列向量的线性组合的值，系数为矩阵H 的某一列】

6. ceRNA网络结构

如何使用Cytoscape绘制出ceRNA网络图

其他学习链接：
(1)ceRNA预测工具 —— GDCRNATools
http://www.360doc.com/content/18/0119/10/45852776_723289997.shtml
(2) Cytoscape史上最全攻略
http://www.360doc.com/content/19/0409/20/49059453_827533578.shtml

7. starBase 数据库的使用

官网：http://starbase.sysu.edu.cn/
（1）https://www.bilibili.com/video/BV1qh411o7UG?from=search&seid=2485808999820599866

8. STRING 蛋白质组研究

官网：https://string-db.org/
（1）https://www.biomart.cn/experiment/793/2713465.html
（2）https://www.omicsclass.com/article/1126
（3）http://www.360doc.com/content/19/0419/13/52645714_829884871.shtml

9. DNA 甲基化

什么是 DNA 甲基化?

DNA甲基化是在DNA甲基化转移酶(Dnmt)的作用下将甲基选择性地添加到胞嘧啶上形成5-胞嘧啶的过程，刚被发现时被定义为第五种碱基，实际上它是一种重要的表观遗传学标记，在调控基因表达、维持染色质结构、基因印记、X染色体失活以及胚胎发育等生物学过程中发挥着重大的作用。

甲基化与肿瘤:
这些因素是导致肿瘤发展、转移、恶化最终导致患者死亡的重要原因。
(1) 甲基化的CpG岛二核苷酸中的胞嘧啶以较高的频率脱氨基变成胸腺嘧啶，造成基因突变；
(2) 抑癌基因和DNA修复基因由于超甲基化而沉默；
(3) 癌基因甲基化水平降低而活化；
(4) 基因组总体甲基化水平降低使转座子、重复序列活化导致染色体稳定性下降。

甲基化与肿瘤侵袭和转移:
利用DNA甲基转移酶（methyltransferase）抑制剂5-氮杂胞苷（5-aza-cytidine）处理MCF-7乳腺癌细胞，使其维持低甲基化状态，结果显示与EMT过程相关的促细胞侵袭基因（pro-invasive EMT-associated gene）表达上调，细胞的侵袭能力和转移能力增强。

甲基化与肿瘤治疗:
肿瘤预防和治疗的一个手段是通过去甲基化恢复某些关键的抑癌基因或DNA修复基因的活性，目前研究最多的是DNMTs抑制剂，它通过抑制DNMT活性以逆转异常的DNA甲基化。

你可能感兴趣的:(生物信息学,生物信息学,统计学)

python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
什么是回归模型，什么是自回归模型？杰瑞学AI Computer knowledge AI/AGI NLP/LLMs 回归数据挖掘人工智能
在统计学和机器学习中，回归模型和自回归模型都是用来预测或建模变量之间关系的工具，但它们在数据类型和变量依赖关系上有着关键的区别。回归模型(RegressionModel)回归模型是一种统计方法，用于建立一个或多个自变量（independentvariables）与一个因变量（dependentvariable）之间的关系。它的主要目标是预测因变量的值，或者理解自变量如何影响因变量。核心思想：假设因
使用argparse封装python程序为命令行工具纪伊路上盛名在生信推文-python python 开发语言自动化
小规模的python代码，jupytercell中直接运行，相当于该py文件直接python运行，但是像shell脚本一样，给予参数自由度设置，更方便分析，也就是我们需要传入参数进行重复性、同质性的操作。Q：如何使用argparse将Python程序封装为可调用的命令行工具？比如说我有一个函数，各个模块我已经写好了，这里引用一下我之前上统计学习课的时候举的一个HMM的例子，简单来说，就是一阶HMM
贝叶斯算法：从概率推断到智能决策的基石 weixin_47233946 算法算法
##引言在人工智能与机器学习的蓬勃发展中，贝叶斯算法以其独特的概率推理方式和动态更新的特性，在垃圾邮件过滤、疾病诊断、推荐系统等关键领域展现出强大的应用价值。本文将从概率论基础出发，深入解析贝叶斯算法的核心思想及其实现方式，揭示这一统计学方法如何演变为现代智能系统的决策利器。---##一、贝叶斯定理：概率之门的钥匙###1.1基本公式表述贝叶斯定理的数学表达式揭示事件间的关联关系：$$P(A|B)
CART算法全解析：分类回归双修的决策树之王大千AI助手人工智能 Python #OTHER 算法分类回归决策树数据挖掘 CART DecisionTree
CART（ClassificationandRegressionTrees）是决策树领域的里程碑算法，由统计学家Breiman等人在1984年提出。作为当今最主流的决策树实现，它革命性地统一了分类与回归任务，其二叉树结构和剪枝技术成为现代集成学习（如随机森林、XGBoost）的基石。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕
大模型在生物信息学中的应用前景 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型在生物信息学中的应用前景关键词：大模型、生物信息学、基因组学、蛋白质组学、应用前景摘要：本文将深入探讨大模型在生物信息学中的应用前景。首先，我们将介绍大模型的基础知识，包括其定义、特点和优势。接着，我们将分析大模型在生物信息学中的问题背景和具体应用场景。然后，我们将详细讲解大模型在生物信息学中的数据处理与分析方法，以及其在基因组学和蛋白质组学中的应用案例。最后，我们将讨论大模型在生物信息学中
python scipy简介凤枭香 Python 图像处理 python scipy 开发语言图像处理
scipyscipy是一个python开源的数学计算库，可以应用于数学、科学以及工程领域，它是基于numpy的科学计算库。主要包含了统计学、最优化、线性代数、积分、傅里叶变换、信号处理和图像处理以及常微分方程的求解以及其他科学工程中所用到的计算。scipy模块介绍scipy主要通过下面这些包来实现数学算法和科学计算，后面对于scipy的讲解主要也是基于这些包来实现的cluster：包含聚类算法co
Task 01 第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。回忆知识点：统计学习方法三要素为：模型+策略+算法模型：在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。策略：统计学习要考虑按照什么样的准则选
【深度学习】条件随机场（CRF）深度解析：原理、应用与前沿白熊188 深度学习深度学习人工智能
条件随机场（CRF）深度解析：原理、应用与前沿一、算法背景知识1.1序列标注的挑战1.2概率图模型演进二、算法理论与结构2.1基本定义2.2特征函数设计状态特征（节点特征）转移特征（边特征）2.3线性链CRF结构2.4训练与解码2.5前向-后向算法三、模型评估3.1评估指标3.2评估方法对比3.3性能基准（CoNLL-2003NER）四、应用案例4.1自然语言处理4.2生物信息学4.3计算机视觉五
最新期刊影响因子，基本包含全部期刊 Bioinfo科研生信筆記影响因子 2024年期刊影响因子期刊因子因子 IF
原文链接：2024年期刊最新影响因子（IF）2024年期刊最新影响因子（IF）BioinfoR生信筆記，注于分享生物信息学相关知识和R语言绘图教程。
AI大模型从0到1记录学习大模型技术之机器学习 day27-day60 Gsen2819 算法大模型人工智能人工智能学习机器学习
机器学习概述机器学习（MachineLearning,ML）主要研究计算机系统对于特定任务的性能，逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。人工智能、机器学习与深度学习人工智能（AI）是计算机科学的一个广泛领域，
（详细介绍）什么是 Spherical Gaussian（球形高斯分布）音程数学数学
文章目录什么是SphericalGaussian？几何意义：为什么叫“球形”？特点总结：应用场景举例：✅示例代码（Python）相关概念对比：SphericalGaussian（球形高斯分布）是概率论与统计学中一个非常常见且重要的概念，尤其在机器学习、信号处理、模式识别等领域有广泛应用。什么是SphericalGaussian？SphericalGaussianDistribution（球形高斯分
AI模型的泛化性的第一性原理是什么？ mao_feng 人工智能
目录**一、泛化性的第一性原理：统计学习理论的核心****1.独立同分布假设（IID）是泛化的基础****2.泛化误差：理论本质的数学刻画****3.模型复杂度与样本量的权衡****二、实现泛化的核心机制：正则化与隐式约束****1.显式正则化：复杂度惩罚****2.隐式正则化：优化过程的泛化诱导****3.数据层面的泛化增强****三、深度学习的特殊性：过参数化与泛化的悖论****1.“双下降曲
假设检验：统计推断的决策艺术 Algo-hx 概率论与数理统计概率论
目录引言8假设检验8.1假设检验的基本原理8.1.1核心概念框架8.1.2假设形式8.2检验的两类错误8.2.1错误类型矩阵8.2.2错误概率关系8.3单正态总体参数检验8.3.1均值μ的检验8.3.2方差σ²的检验8.4双正态总体参数检验8.4.1均值差检验8.4.2方差比检验8.5P值：检验的客观度量8.5.1P值定义8.5.2决策规则8.5.3P值解读引言假设检验是统计学的’审判法庭’——通
贝叶斯原理：解锁不确定性的智慧钥匙（全网最详细）富士达幸运星贝叶斯原理人工智能机器学习
在浩瀚的统计学与概率论海洋中，贝叶斯原理如同一盏明灯，照亮了我们在不确定性中前行的道路。它不仅仅是一种计算方法，更是一种深刻的思维方式，让我们能够基于有限的信息和先验知识，对未知事件做出更加合理的预测和判断。本文将带您一窥贝叶斯原理的奥秘，探索它如何在各个领域发光发热。一、贝叶斯原理的起源与核心概念起源贝叶斯原理得名于18世纪的英国数学家托马斯·贝叶斯（ThomasBayes），尽管他本人并未直接
向量检索中的 ANN（Approximate Nearest Neighbor）技术 XiaoQiong.Zhang AI 人工智能
向量检索中的ANN（ApproximateNearestNeighbor）技术是一种在高维空间中高效查找与查询向量q最相似的Top-K个向量的方法，其核心在于牺牲一定的精度（召回率）以换取比精确最近邻搜索（ExactNN）高数个数量级的查询速度。它广泛应用于图像/视频检索、自然语言处理（如语义搜索、问答）、推荐系统、生物信息学等场景。⸻一、基本问题定义目标：给定一个查询向量q，在一个庞大的向量集合
cd-hit安装与使用-cd-hit v4.8.1（bioinfomatics tools-005）让学习成为一种生活方式基因组多组学序列比对 github linux 论文阅读数据挖掘
01背景介绍CD-HIT(ClusterDatabaseatHighIdentitywithTolerance)是一种广泛使用的生物信息学工具，主要用于快速聚类生物序列数据，如蛋白质或核酸序列，以减少数据冗余和简化数据分析。其基本原理涉及比较序列之间的相似性，将高度相似的序列分组到同一个聚类中，从而减少数据集的复杂性。1.1算法原理CD-HIT的算法原理主要包括以下几个方面：序列比较和相似性评分：
利用 Python 和 scikit - learn 进行分层抽样 Python编程之道 python 开发语言 ai
利用Python和scikit-learn进行分层抽样关键词：分层抽样、scikit-learn、Python、数据采样、机器学习、数据预处理、统计学摘要：本文深入探讨了分层抽样在数据科学和机器学习中的应用。我们将从统计学基础出发，详细讲解分层抽样的原理、优势以及实现方法。通过Python和scikit-learn库的实际代码示例，展示如何在不同场景下应用分层抽样技术。文章还涵盖了分层抽样的数学模
JAVA推荐系统-基于用户和物品协同过滤的电影推荐泰山AI 技术交流推荐算法 java 算法
系统原理该系统使用java编写的基于用户的协同过滤算法（UserCF）和基于物品（此应用中指电影）的协同过滤(ItemtemCF）利用统计学的相关系数经常皮尔森（pearson）相关系数计算相关系数来实现千人千面的推荐系统。协同过滤算法协同过滤推荐算法是诞生最早，并且较为著名的推荐算法。主要的功能是预测和推荐。协同过滤(CollaborativeFiltering,简写CF)是推荐系统最重要得思想
中级统计师-统计学基础知识-第八章统计指数孟意昶考证之旅 python 机器学习算法
第一节统计指数的概念和种类一、统计指数的概念广义指数：表明社会经济现象总体数量变动的相对数示例：单只股票价格指数Kp=p1p0=78.573.5≈1.068K_p=\frac{p_1}{p_0}=\frac{78.5}{73.5}\approx1.068Kp=p0p1=73.578.5≈1.068（p1p_1p1为报告期价格，p0p_0p0为基期价格）狭义指数：表明复杂总体数量综合变动的相对数复杂
基于 Java 的大数据分布式计算在基因编辑数据分析与精准医疗中的应用进展知识产权13937636601 计算机 java 分布式计算基因编辑
随着基因测序成本断崖式下降（单人类全基因组低于100）和CRISPR基因编辑技术成熟，全球日均产生超20PB基因数据。传统单机生物信息学工具难以应对海量多组学数据的整合、分析与临床转化。本文将系统阐述**Java技术栈如何构建新一代基因大数据计算中枢**：基于Hadoop+Spark的分布式架构实现千倍加速的基因组比对；通过Flink流式计算引擎支撑CRISPR脱靶效应实时预测；利用ApacheA
没有统计学基础，如何才能学好SPSS和SAS？ cda2024 学习 python 数据分析
在当今数据驱动的时代，掌握数据分析工具如SPSS和SAS已经成为许多职场人士的必备技能。然而，很多初学者常常会问：“我没有统计学基础，如何才能学好SPSS和SAS？”这确实是一个值得探讨的问题。本文将从多个角度为你解答这个问题，并提供一些实用的学习建议。一、理解SPSS和SAS的定位首先，让我们来了解一下SPSS和SAS这两个工具的定位和功能。SPSS（StatisticalPackagefort
Python量化投资入门教程：从零构建你的第一个交易策略聪明的一休哥哥程序员理财 python 开发语言量化交易
1、什么是量化投资？量化投资（QuantitativeInvestment），即通过数量化方式及计算机程序化发出买卖指令，以获取超额收益或特定风险收益比为目的的交易方式。它借助现代统计学、数学方法，利用计算机技术从海量历史数据中寻找能带来超额收益的“大概率”策略和规律，并纪律严明地按照这些策略构建的数量化模型来执行投资理念。其核心优势在于：纪律性：避免投资者在市场波动中因情绪波动做出错误决策。效率
詹森不等式（Jensen’s Inequality）——EM算法的基础 phoenix@Capricornus 模式识别中的数学问题机器学习
詹森不等式（Jensen’sInequality）是数学中一个非常重要的不等式，广泛应用于概率论、统计学、凸优化、信息论等领域。它基于凸函数和凹函数的性质。一、基本定义设函数fff是定义在区间III上的凸函数（convexfunction），且随机变量XXX的取值落在III内，期望存在，则有：E[f(X)]⩾f(E[X]){E}[f(X)]\geqslantf({E}[X])E[f(X)]⩾f(E
吴恩达机器学习入门笔记（Week 1）冒冒喵吴恩达机器学习入门机器学习笔记人工智能
吴恩达机器学习Week1学习资源及工具机器学习分类专业术语（Terminology）线性回归模型(Linearregression)代价函数（costfunction）学习资源及工具1、课程资源：B站大学2、相关工具：Jupter&Github3、书籍资源：神经网络与深度学习（MichaelNielsen）、机器学习（周志华）、统计学习方法（李航）…机器学习分类1、监督学习（supervisedl
机器学习与深度学习16-概率论和统计学01 my_q 机器学习与深度学习机器学习深度学习概率论
目录前文回顾1.什么是概率论和统计学2.概率的基本概念3.什么是概率密度函数和累积分布函数4.均值、中位数与众数前文回顾上一篇文章地址：链接1.什么是概率论和统计学概率论和统计学是数学中重要的分支，用于研究随机事件和数据的分布、关联性以及不确定性。概率论是研究随机事件发生的可能性和规律的数学学科。它提供了一套工具和方法来描述和分析随机变量、随机过程以及他们之间的关系。概率论包括概率分布、随机变量、
Python统计学实例之正态分布：计算男女身高相差＞5厘米的概率 xupeggy163 用python学习统计学 python
正态分布计算：示例1正态分布计算实例：计算男女身高相差>5厘米的概率解题思路用到的公式总结：正态分布计算实例：计算男女身高相差>5厘米的概率假设男生身高X~N(71,20.25)，女生身高Y~N(64,16)解题思路算出两种正态分布的均值和方差算出新的正态分布的均值和方差算出变量5的标准分根据标准分在正态分布表中查询概率值用到的公式z=x−μσz=\frac{x-\mu}{\sigma}z=σx−
全球大型语言模型（LLM）技术全景：从GPT到文心一言的智能本质探析阿部多瑞 ABU 语言模型 gpt 文心一言
标题：全球大型语言模型（LLM）技术全景：从GPT到文心一言的智能本质探析摘要本文系统解析全球主流LLM（包括OpenAIGPT系列、GooglePaLM、MetaLLaMA及中国文心一言、通义千问等）的技术架构与测试表现，结合认知科学与工程学视角，探讨其通过图灵测试的实质意义。通过对比国内外模型的实现路径，揭示统计学驱动型AI与强人工智能（AGI）的本质鸿沟。1.LLM的技术本质：全球模型的共性
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他