生信宝典

废弃P-value，还是学学如何评估统计检验结果？

前几天，Nature上一篇comment再度引发关于p-value如何使用和解释的文章：Scientists rise up against statistical significance，800多名科学家联合声明拒绝使用基于p-value或置信区间或贝叶斯因子等的二分法将研究结果分为统计显著和统计不显著两个部分，而是应该把置信区间改为兼容性区间, 描述区间所有值的实际含义，尤其是其所代表的的效果 (point estimate)或极值在哪。给定了统计假设，任何极值内的值与研究数据都是兼容的。基于此，作者可以更好的强调数据分析带来的期望值和不确定性，不再对结果过于自信或悲观。

不过一来统计界以后会怎么实施未知，二来签名也未发对p-value的正确使用。那么怎么理解P-value的含义？怎么算是正确使用P-value呢？怎么评估算出的P-value是否正常呢？就是我们下面要说的。基于传统，后面还是会继续使用显著性这一说法。

统计分析检验获取p-value是我们经常要做的一个工作，比如获得差异基因或富集分析等。通常计算后会得到数百、数千或数万个p-value。考虑到多重假设检验的问题，你可能会想着先做一个校正。

然而，你最先需要做的却是绘制一个直方图。怎么绘制？简单强大的在线绘图-第3版。

在做任何的多重假设检验校正、假阳性率控制或结果解释之前，先绘制这么一个p-value分布直方图，它可以告诉你在所有假设的p值分布，并帮您发现潜在的问题。

p-value分布直方图可能有下面6种可能，我们一一看来。

Anti-conservative p-value

如果p-value分布直方图如上图所示，左侧0值附近有个峰，右侧为近乎均匀分布，那么恭喜你，这是一个很好的分布。

0-1之间均匀分布的p-value代表原假设H0 (null hypothesis)的P值。为什么它们是均匀分布的呢？这是根据p-value的定义来的。在原假设下，p-value有5%的可能低于0.05, 10%的可能低于0.1，以此类推，就是一个均匀分布。

在p-value接近于0值的峰代表的是备择假设H1 (alternative hypothesis) (也包含部分假阳性)。如果把原假设和备择假设分开，p-value的分布应该入下图所示：

首先可以看到在低p-value处也有一些原假设 (H0)，因此不可以简单的说所有p-value<0.05的都是显著的，否则就会获得一些假阳性结果。而且一些备择假设 (H1)的p-value也比较高，这些就是不能通过本次统计检验方法获得的阳性结果，也称为假阴性结果。

多重假设检验校正就是确定显著性的合理阈值。

那么怎么判断多少假设是原假设，多少是可以拒绝原假设采用备择假设呢？可以从下面几张图有个直观认识，左侧Peak越高，越多的假设p-value趋近于0, 也就是显著的结果。右侧的柱子越高，更多原假设不能被拒绝。如果想获得定量的评估，可以使用qvalue包。

library(qvalue)
data(hedenfalk)
pvalues <- hedenfalk$p
qobj <- qvalue(p=pvalues)
summary(qobj)

输出不同p-value假设的累计数目

Call:
qvalue(p = pvalues)

pi0:	0.669926	

Cumulative number of significant calls:

          <1e-04 <0.001 <0.01 <0.025 <0.05 <0.1   <1
p-value       15     76   265    424   605  868 3170
q-value        0      0     1     73   162  319 3170
local FDR      0      0     3     30    85  167 2241

估计原假设 (H0 null hypothesis)的整体比例 (π0)，q-value与p-value的关系, qvalue即是定义某一个检验统计显著需要承受的最小假阳性率值。lfdr指在给定的p-value条件下，原假设 (H0)为真的后验概率值。

hist(obj)

均匀分布 Uniform p-value

假如，你的p-value是如下图所示，平平的均匀分布，怎么办呢？

看上去所有的假设都符合原假设，是不是意味着就没有办法拒绝原假设了？其实也不是：

起码有一小部分的假设是备择假设，可以用过FDR校正方法如Benjamini-Hochber等鉴定出来。
直接应用p-value<0.05是不合适的，假阳性率会很高。

双峰 Bimodal p-values

如前面所示在p-value=0处有一个峰，但在p-value=1处也有一个？怎么解释。

首先不要对这些p-value应用假阳性率控制。为什么呢？因为一部分FDR控制算法是基于P-value在1附近是均匀分布的。如果不符合这个前提，计算出的显著性会很少。

下一步找出为什么p-value会有这个分布，针对性解决：

是否使用的是单端检验 (one-tailed test) (如检验药物处理后基因表达上调)。如果是这样，p-value接近1的正好是相反的变化 (如基因表达下调)。如果您同时关注上下调，则采用双端检验 (two-sided test)。如果您不想包含另一种变化，则在检验前先过滤掉这些。(注：比如富集分析时只关注富集)
是否pvalue接近1的情况都是病态情况，如基因差异表达分析中，一些软件会赋予在所有样品中都不表达的基因检验pvalue为1，这样的情况直接过滤掉就好。(注：一般分析时是提前过滤。)

Conservative p-values

看到这个分布，不要鲁莽的下结论：没有任何统计显著的假设。如果真的没有统计显著性假设，p-value的分布应该是均匀的 Uniform, 这是因为p-value就是这么定义的：原假设下均匀分布。

如果p-value呈现这个分布，说明统计检验使用错了。其原因可能是数据的分布不符合统计检验的假设，比如统计检验适用于连续数据，而提供的是离散数据，或者统计检验适用于正态分布数据，而提供的数据严重不符合等。最好的解决办法是找一个友好的统计学家朋友帮助您。

我们一直强调可视化的是原始p-value的分布，如果使用的工具不小心提供的是校正后的p-value，比如使用Bonferroni correction，那么校正后的p-value可能是这个分布。

稀疏分布 Sparse p-values

如图所示，获得的p-value的值比较单一，假如做了10,000次统计检验，只获得很少的不同的检验p-value，可以使用下面的代码获取总共有多少不同的p-value。

length(unique(mypvalues))

为什么会获得这样的p-value呢？

自展或置换检验 (bootstrap or permutation test)的迭代次数太少。
数据集小的时候运行了非参数检验 (如Wilcoxon rank-sum test或Spearman correlation)，尝试扩大样本量或数据转换为可以进行参数检验。

不要做假阳性率控制，因为p-value的分布不是连续的。

悟空庙宇P-value (“What the…?!?”)

像不像孙悟空变的一座庙，尾巴做旗杆？中间的P-value有个凸起，在1附近有个峰。

最好的方式是求助于统计学家，当然在这之前，看下数据的分布，了解下所用的统计方法，先有个直观认识。

所以p-value不是算出来就可以用了，观察其分布，可以帮助我们判断数据分布是否合适，选用的统计检验方法是否合适，后期如何进行处理，对结果解释增强可信度。

参考

http://varianceexplained.org/statistics/interpreting-pvalue-histogram/
http://www.bioconductor.org/packages/release/bioc/vignettes/qvalue/inst/doc/qvalue.pdf
https://www.nature.com/articles/d41586-019-00857-9
https://stats.stackexchange.com/questions/10613/why-are-p-values-uniformly-distributed-under-the-null-hypothesis#

教程合集

生信宝典-Linux教程.pdf (微信公众号后台回复 生信宝典福利第一波)
生信宝典Py3_course.pdf
生信宝典-R学习教程.pdf

加拿大生信课程

国外生信教程免费领加拿大生信开源学习资源Bioinformatics.ca
Bioinformatics_for_Cancer_Genomics
Informatics_on_High-Throughput_Sequencing_Data
Informatics_for_RNA-Seq_Analysis
Analysis_of_Metagenomic_Data
Informatics_and_Statistics_for_Metabolomics
Bioinformatics_of_Genomic_Medicine
Epigenomic_Data_Analysis
Pathway_and_Network_Analysis_of_omics_Data
Infectious_Disease_Genomic_Epidemiology

Illumina测序应用手册

Illumina测序仪比较和各种测序应用模式图，助力了解高通量测序
RNA层面
DNA层面
单细胞层面

系列教程

生物信息之程序学习
关于编程学习的一些思考
该如何自学入门生物信息学
生信宝典视频教程
转录组分析的正确姿势
收藏你想要的生信学习系列教程-宝典在手，生信无忧
生信的系列书籍
文章用图的修改和排版 (1)
文章用图的修改和排版 (2)
简单强大的在线绘图
简单强大的在线绘图-升级版
简单强大的在线绘图-第3版
论文图表基本规范
学术图表的基本配色方法
数据可视化基本套路总结
英语写作常见错误总结和学习视频
教育部推出首批490门"国家精品在线开放课程"
你该知道的杂志分区和影响因子及最新表格下载
你和PPT高手之间，就只差一个iSlide
推荐 3 个超赞的 EXCEL 插件，让你 5 分钟从小白变大神
史上最全的图表色彩运用原理
生信宝典一周年福利第一波 - 电子书赠送
测序发展史：150年的风雨历程
生信老司机以中心法则为主线讲解组学技术的应用和生信分析心得
别再让投稿信耽误你发稿啦！（附cover letter模板）
生物信息学数据库分类概览 (第一版)
跟Cell editor学做scientific presentation (25个判断标准，18个不能做，8个建议)

你可能感兴趣的:(科研经验,生物信息)

Foldseek快速蛋白质结构比对
1.下载和安装Foldseek如果只是单个蛋白质结构的序列比对，我们只需要用Foldseek的网站服务https://search.foldseek.com/search上传我们的蛋白质结构并选择想要进行比对的数据库即可，这里不做重点讲解。做生物信息学研究，我们难免需要批量对多个目标蛋白进行大规模结构比对，这需要我们下载安装本地版软件。Foldseek有Linux和MacOS二个版本的本地软件（这
21、子图同构问题的深度解析 metal 子图同构图论算法
子图同构问题的深度解析1.子图同构问题概述子图同构问题是图论中的一个核心问题，广泛应用于社交网络分析、生物信息学、模式识别等领域。该问题的定义是：给定两个图，一个是较大的主图（HostGraph），另一个是较小的模式图（PatternGraph），判断主图中是否存在一个子图与模式图同构。简单来说，就是要找到主图中与模式图结构完全一致的子图。子图同构问题的难度在于它是一个NP完全问题，意味着在最坏情
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
在生信分析中，处理vcf 比较好用的python包推荐
在生物信息学分析中，处理VCF（VariantCallFormat）文件的Python包有很多，以下是一些常用且好用的Python包，适合不同的分析需求：PyVCF（推荐）简介：PyVCF是一个专门为解析和操作VCF文件设计的Python库，支持读取、过滤和修改VCF文件。优点：简单易用，API直观。支持VCF4.0及以上版本。可以轻松访问变体的信息（如染色体、位置、参考碱基、变异碱基等）。安装：
Conda安装与使用
目录一、软件安装及conda管理1.conda下载2.miniconda安装二、环境配置1.配置镜像：2.创建环境、移除环境：3.查看小环境4.进入、退出小环境5.查找并安装软件三、一步到位其他：参考资料：一、软件安装及conda管理conda可以来管理大量的生物信息学软件，或者想要复现一些文章中的实验结果需要不同环境的切换。1.conda下载（1）anacondaanaconda|镜像站使用帮助
富集分析——GO、KEGG ersanshi055 生信小菜鸟富集分析 GO kegg
一、富集分析的基础认知在生物信息学研究领域，基因功能解析及通路阐释是众多分析流程中的关键环节，富集分析（EnrichmentAnalysis）是将基因或蛋白列表按照功能进行分类的统计方法，目的是找出在特定基因集中显著富集的功能类别或通路。通过这种方法，研究人员可以理解一组基因（如差异表达基因）在哪些生物学过程、分子功能或通路中代表。1.富集分析分类基因本体论富集分析（GeneOntologyEnr
Rstudio：强大的R语言集成开发环境（IDE）简说基因-专业生信合作伙伴 r语言开发语言
Rstudio应该是R语言使用的标配，尽管Rstudio的母公司Posit推出了新一代的集成开发环境Positron，但其还处于开发阶段。作为用户不妨让其成熟后再使用，现阶段还是Rstudio更稳定。如果你在生物信息学或统计学领域工作，R语言几乎是必备的工具之一。而RStudio，作为R语言最流行的集成开发环境（IDE），为数据分析、可视化和编程提供了非常友好的平台。今天我们来介绍一下RStudi
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
大模型在生物信息学中的应用前景 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型在生物信息学中的应用前景关键词：大模型、生物信息学、基因组学、蛋白质组学、应用前景摘要：本文将深入探讨大模型在生物信息学中的应用前景。首先，我们将介绍大模型的基础知识，包括其定义、特点和优势。接着，我们将分析大模型在生物信息学中的问题背景和具体应用场景。然后，我们将详细讲解大模型在生物信息学中的数据处理与分析方法，以及其在基因组学和蛋白质组学中的应用案例。最后，我们将讨论大模型在生物信息学中
【深度学习】条件随机场（CRF）深度解析：原理、应用与前沿白熊188 深度学习深度学习人工智能
条件随机场（CRF）深度解析：原理、应用与前沿一、算法背景知识1.1序列标注的挑战1.2概率图模型演进二、算法理论与结构2.1基本定义2.2特征函数设计状态特征（节点特征）转移特征（边特征）2.3线性链CRF结构2.4训练与解码2.5前向-后向算法三、模型评估3.1评估指标3.2评估方法对比3.3性能基准（CoNLL-2003NER）四、应用案例4.1自然语言处理4.2生物信息学4.3计算机视觉五
最新期刊影响因子，基本包含全部期刊 Bioinfo科研生信筆記影响因子 2024年期刊影响因子期刊因子因子 IF
原文链接：2024年期刊最新影响因子（IF）2024年期刊最新影响因子（IF）BioinfoR生信筆記，注于分享生物信息学相关知识和R语言绘图教程。
向量检索中的 ANN（Approximate Nearest Neighbor）技术 XiaoQiong.Zhang AI 人工智能
向量检索中的ANN（ApproximateNearestNeighbor）技术是一种在高维空间中高效查找与查询向量q最相似的Top-K个向量的方法，其核心在于牺牲一定的精度（召回率）以换取比精确最近邻搜索（ExactNN）高数个数量级的查询速度。它广泛应用于图像/视频检索、自然语言处理（如语义搜索、问答）、推荐系统、生物信息学等场景。⸻一、基本问题定义目标：给定一个查询向量q，在一个庞大的向量集合
cd-hit安装与使用-cd-hit v4.8.1（bioinfomatics tools-005）让学习成为一种生活方式基因组多组学序列比对 github linux 论文阅读数据挖掘
01背景介绍CD-HIT(ClusterDatabaseatHighIdentitywithTolerance)是一种广泛使用的生物信息学工具，主要用于快速聚类生物序列数据，如蛋白质或核酸序列，以减少数据冗余和简化数据分析。其基本原理涉及比较序列之间的相似性，将高度相似的序列分组到同一个聚类中，从而减少数据集的复杂性。1.1算法原理CD-HIT的算法原理主要包括以下几个方面：序列比较和相似性评分：
基于 Java 的大数据分布式计算在基因编辑数据分析与精准医疗中的应用进展知识产权13937636601 计算机 java 分布式计算基因编辑
随着基因测序成本断崖式下降（单人类全基因组低于100）和CRISPR基因编辑技术成熟，全球日均产生超20PB基因数据。传统单机生物信息学工具难以应对海量多组学数据的整合、分析与临床转化。本文将系统阐述**Java技术栈如何构建新一代基因大数据计算中枢**：基于Hadoop+Spark的分布式架构实现千倍加速的基因组比对；通过Flink流式计算引擎支撑CRISPR脱靶效应实时预测；利用ApacheA
PostgreSQL 在生物信息学中的应用 belldeep PostgreSQL 生物信息学 postgresql 数据库生物信息学
PostgreSQL（简称PG）是一种强大的开源关系型数据库管理系统，因其高可靠性、扩展性和支持复杂查询的特性，在生物信息学领域得到广泛应用。以下是其核心应用场景及优势分析：一、生物数据存储与管理生物信息学涉及海量异构数据，PG的结构化存储能力和可扩展性使其成为理想选择。1.多类型数据存储基因组数据：存储DNA/RNA序列、基因注释（如GTF/GFF文件）、变异数据（VCF格式）等。例：将基因组序
一款适合程序员的流程图/思维导图利器 qq_21478261 #Python可视化 python 运维思维导图图论机器学习
首发地址：程序员必备流程图/思维导图利器本文介绍graphviz在Python中的接口。graphviz是在复杂网络、生物信息学、软件工程、数据库和网页设计、机器学习等领域使用广泛的图（Graph）可视化利器。graphviz支持Linux、Windows、Mac、Solaris等多个系统，拥有多种编程语言的API(perl、python、ruby、C#等)。graphviz功能先看看graphv
科研经验贴：AI领域的研究方向总结勤劳的进取家论文阅读人工智能机器学习算法
一、数据集（Dataset）定义：用于训练、验证和测试模型的样本集合，通常包含输入特征（如图像、文本）和对应标签（如类别、回归值）。关键作用：数据划分：训练集：用于模型参数学习。验证集：调整超参数（如学习率、正则化强度），防止过拟合。测试集：评估模型的泛化能力（需确保未参与训练或调参）。数据预处理：归一化/标准化（如图像像素值归一化到[0,1]）、分词（文本任务）、数据增强（如图像旋转、翻转）。数
支持向量机SVM：从数学原理到实际应用代码很孬写支持向量机算法机器学习语言模型自然语言处理 ai 人工智能
前言本篇文章全面深入地探讨了支持向量机（SVM）的各个方面，从基本概念、数学背景到Python和PyTorch的代码实现。文章还涵盖了SVM在文本分类、图像识别、生物信息学、金融预测等多个实际应用场景中的用法。一、引言背景支持向量机（SVM,SupportVectorMachines）是一种广泛应用于分类、回归、甚至是异常检测的监督学习算法。自从Vapnik和Chervonenkis在1995年首
7天掌握！MySQL vs 图数据库：混合架构下的复杂关系分析全揭秘墨瑾轩数据库学习数据库 mysql 架构
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣在当今的数据密集型世界中，处理和理解复杂的关系网络变得越来越重要。从社交网络到推荐系统，从生物信息学到金融风险评估，这些领域都需要一种能够高效处理高度互联数据的技术。传统的关系型数据库如MySQL，在处理这类问题时遇到了瓶颈。而图数据库则以其独特的结构优势脱颖
《机器学习导论（原书第3版）》下载 jiswordsman 机器学习机器学习人工智能
内容简介机器学习的目标是对计算机编程，以便使用样本数据或以往的经验来解决给定的问题。已经有许多机器学习的成功应用，包括分析以往销售数据来预测客户行为，优化机器人的行为以便使用较少的资源来完成任务，以及从生物信息数据中提取知识的各种系统。本书是关于机器学习的内容全面的教科书，其中有些内容在一般的在机器学习导论书中很少介绍。主要内容包括监督学习，贝叶斯决策理论，参数、半参数和非参数方法，多元分析，隐马
汉明距离（Hamming Distance）追逐此刻算法方法 python 算法开发语言
1.定义汉明距离是指两个等长字符串在相同位置上不同字符的个数。它常用于衡量两个字符串的相似度，广泛应用于编码理论、信息论、密码学、生物信息学等领域。2.数学表达给定两个等长的字符串x和y，汉明距离d(x,y)定义为：其中：n是字符串的长度，xi和yi分别是x和y的第i个字符，Ⅱ(⋅)是指示函数（当条件成立时返回1，否则返回0）。3.示例二进制字符串：x="10110",y="11110"比较每一位
时空图像算法：本文从时间序列光谱分析（TAS）的基础知识出发，详细阐述STIPS中TAS算法的原理和具体操作方法 AI天才研究院深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介时空图像（ST-images）是指对空间中的多维图像进行时间编码处理后得到的时间序列图像，它在人类活动、环境变化等场景下具有广泛的应用价值。随着人们对空间的认识的提升和对地球表面所含的微生物信息的获取能力的不断增强，传感器技术的发展给人类的生活带来了前所未有的便利。在这些条件下，利用地球表面的数据、各种传感器设备及相关软件，可以实现从微观到宏观层面的全方位、高速
Newcpgreport：CpG岛甲基化差异分析简说基因-专业生信合作伙伴
在人类基因组中，约60%的基因启动子区域都蕴藏着特殊的DNA序列——CpG岛。CpG岛（富含CpG二核苷酸的区域）被称为基因调控的“开关”，它们常位于基因启动子区域，与DNA甲基化、基因沉默等表观遗传现象密切相关。要精准定位这些区域，生物信息学家们开发了多种工具，其中newcpgreport凭借其独特的算法设计和可靠的检测性能，成为该领域的明星工具。功能特点核心功能与原理1.滑动窗口检测法newc
生物医学工程导论：学习笔记（四） Zodornus 生物医学工程学习笔记
生物信息学(Bioinformatics)狭义概念：应用信息科学的理论、方法和技术，来管理、分析和利用生物分子数据。广义概念：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存储、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息。（生命科学中的信息科学）目的：处理、归纳、总结海量的生物实验数据，并找到其中的规律。成果：基因测序等。研究内容基因组
探索生物信息学的未来：Rust-Bio 库富嫱蔷
探索生物信息学的未来：Rust-Bio库rust-bioThislibraryprovidesimplementationsofmanyalgorithmsanddatastructuresthatareusefulforbioinformatics.Allprovidedimplementationsarerigorouslytestedviacontinuousintegration.项目地址
2025.04.18【数据修复】DCA：高效缺失值插补工具解析穆易青单细胞信息可视化
文章目录1.DCA工具简介2.DCA的安装方法3.DCA常用命令1.DCA工具简介在生物信息学领域，数据分析是一个复杂且耗时的过程。DCA（DifferentialCorrelationAnalysis）工具是一个专门设计来识别和分析差异相关性的统计工具。它能够帮助研究者从大量的生物医学数据中，发现变量间的相关性变化，这对于理解复杂疾病的分子机制至关重要。DCA工具通过计算和比较不同样本或条件下变
2025.04.17【Stacked area】| 生信数据可视化：堆叠区域图深度解析穆易青信息可视化
文章目录生信数据可视化：堆叠区域图深度解析堆叠面积图简介为什么使用堆叠面积图如何使用R语言创建堆叠面积图安装和加载ggplot2包创建堆叠面积图的基本步骤示例代码解读堆叠面积图堆叠面积图的局限性实际应用案例示例：基因表达量随时间变化结论生信数据可视化：堆叠区域图深度解析在生物信息学领域，数据可视化是理解复杂数据集的关键。其中，堆叠面积图（StackedAreaChart）是一种展示多个群体随时间变
DNA、蛋白质、生物语义语言模型的介绍 bug开发工程师. 语言模型人工智能自然语言处理
主要模型概述ProtBERT：专注于蛋白质序列嵌入，支持多种下游任务如序列分类和功能预测。ProtGPT2：利用生成式模型生成高质量的蛋白质序列，适用于新蛋白质设计。AlphaFold：革命性地预测蛋白质三维结构，推动了结构生物学的发展。TAPE：提供统一的框架进行蛋白质序列表示学习，支持多种生物信息学任务。BioBERT：针对生物医学文本挖掘设计的模型，提升了生物信息处理能力。DNA-BERT：
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他