生信分析笔记

GWAS结果批量整理：升级版算法TidyGWAS

TidyGWAS

本篇笔记将分享一种基于R语言自动实现GWAS结果整理的升级版方法，通过优化关键步骤和算法，将代码量从2000行缩减到了400行，速度提高10倍以上。

关键词：GWAS、R语言、Tidyverse

GWAS分析关键结果之一是显著性SNP位点的P值，通常多年份多地点多模型的GWAS分析将会产生很多结果文件，如何对这些数据进行整理？

汇总这些结果，并将显著性的位点或区域找出来，更加清晰的展示关键信息。

今天介绍TidyGWAS结果整理新方法，前段时间曾发过一篇笔记（GWAS结果整理算法），但是有一些地方比较繁琐，仍有优化空间。

前期准备工作

软件安装

本次使用的R语言版本是R4.3.0，需要以下R包，如果没有安装需要提前安装。

# Install packages
install.packages("tidyverse")
install.packages("data.table")
install.packages("foreach")
install.packages("doParallel")
install.packages("stringr")

# Load libraries
library(tidyverse)
library(data.table)
library(foreach)
library(doParallel)
library(stringr)

项目文件

通常建议每个任务建立项目文件夹，请新建一个文件夹并设置为工作目录，然后创建如下文件结构。

其中Ref是参考基因组信息，data子文件夹存放原始的数据，可以包含很多个以txt结尾的文件，该文件内容如下所示：

主要信息是SNP、染色体、物理位置、显著性P值。每个文件的命名方式是“类型.年份环境.模型.P阈值.txt”

核心操作步骤

人工设置参数

# 参数设置-----
prefix <- "xxx" 
windows_near <- 300*1000 
#默认300kb内为连续显著区段 
id_list <- list.files("./data/",pattern = "*.txt") # 待整理的所有文件
Ref <- fread("./Ref.csv") # 参考基因组信息

其实，使用起来非常简单，只用设置一个项目输出结果前缀和窗口大小即可，这个窗口大小指的是在判定连续型显著区域时最大的阈值。

比如默认300Kb，假如某几个显著的SNP位点之间的物理距离都在300Kb之内，则把它们当做一个连续的显著区段。

之后的步骤都是全自动执行，不用再进行任何修改，如果您想使用此方法只需要直接运行一遍全部代码即可。

自动生成参数

id_df <- str_split(id_list,"[.]") %>% as.data.frame() %>% t() %>% as.data.frame()
type_list <- id_df$V1[!duplicated(id_df$V1)]
phe_list <- id_df$V2[!duplicated(id_df$V2)]
model_list <- id_df$V3[!duplicated(id_df$V3)]
p_value <- 1e-5 #显著性
suffix <- ".txt"
write.csv(id_df,str_c(prefix,"_parment.csv"),row.names = F)

这段代码的目的是将一个包含点号分隔字符串的列表（文件名称列表）分割成多个部分，转换为数据框，然后从每一列中提取出不重复的元素，分别存储在三个不同的列表中，这样就得到了所有待整理的信息清单。

这份文件将会自动输出保存，记录了所有待整理的文件信息和参数。

创建输出文件夹

out_dirs <- c("1_GWAS_Result_txt2csv",
              "2_SNP_Infomation",
              "3_Gene_Maping_Result",
              "4_Rebind_All_Output")
for (mydir in out_dirs){
    if (dir.exists(paste0("./out/",mydir))){
        cat(paste0("[check] ./out/",mydir," is exist !\n"))
    }else{
        dir.create(paste0("./out/",mydir))
        cat(paste0("[check] ./out/",mydir," create finished !\n"))
    }
}

这一步自动检测是否存在目标文件夹，如果不存在的话创建一个，后续的中间结果和文件将自动写入这些文件夹。

Step1：文件整理

for (id in id_list){
    file_name <- paste0("./data/",id)
    atom <- str_split(id,"[.]")
    type <- atom[[1]][1]
    phe <- atom[[1]][2]
    way <- atom[[1]][3] %>% str_replace("Farm","") # 将模型替换为CPU
    plast <- atom[[1]][4]
    # 特异性标注P值并将其装换为数字型
    if (plast == "1e-5"){plast <- 6}else{plast <- as.numeric(plast)}
    print(file_name)
    # 计算p值并筛选
    df <- read_delim(file_name,delim = " ",
                     col_types = cols(CHROM = col_character()))
    colnames(df)[9] <- way
    df %>% 
        mutate(log = round(-log10(!!sym(way)),1)) %>% 
        filter(log > plast) ->data
    # 转换染色体编号
    i <- 1
    new <- data.frame(matrix(ncol = 2))
    new <- new[-1,]
    for (x in c(1:7)){
        for (y in c("A","B","D")){
            chr <- paste0(x,y)
            # print(chr)
            new_add <- c(i,chr)
            new <- rbind(new,new_add)
            i <- i + 1
        }
    }
    colnames(new) <- c("CHROM","chr")
    # 替换染色体编号
    data %>% 
        left_join(new,by = "CHROM") ->data2
    data2$loc <- phe
    # 待标注的log值筛选
    data2$logwt <- ifelse(data2$log > 10,paste0('log=',data2$log,sep=""),NA)
    data2$MB <- data2$POS/1000000
    # 写出为中间结果
    write_csv(data2,paste0("./out/1_GWAS_Result_txt2csv/",type,".",phe,".",
                           way,".csv"))
}

这段代码主要用于处理基因组数据，涉及文件读取、数据分割、条件筛选、数据转换和导出等步骤。

Step2：统计显著位点

Ref_chr <- Ref
all_single <- list() #汇总单标记
all_near <- list() #汇总连续标记
id_list_step2 <- list.files("./out/1_GWAS_Result_txt2csv/")
for (id in id_list_step2){
    # 创建染色体
    chr_list <- list()
    for (tmp_chr in new$chr){
        chr_list[[tmp_chr]] <- filter(Ref_chr,chr == tmp_chr)
    }
    
    # 开始计算----
    file_name <- paste0("./out/1_GWAS_Result_txt2csv/",id)
    atom <- str_split(id,"[.]")
    # print(file_name)
    data <- read_csv(file_name,show_col_types = FALSE)
    loc <- data$loc[1] #
    job <- paste0(atom[[1]][1],"_",atom[[1]][2],"_",atom[[1]][3])
    way <- atom[[1]][3]
    
    ### 单标记筛选 ========================================================================
    # 计算基因位置间距
    data$longH <- NA
    data$longQ <- NA
    data$class <- NA
    # 显著位点小于3个的情况下跳过
    if (nrow(data) < 3){
        next
    }
    for (i in 2:nrow(data)){
        a <- data$POS[i]
        i <- i+1
        b <- data$POS[i]
        i <- i-2
        c <- data$POS[i]
        i <- i+1
        if(i == nrow(data)){
            data$class[i] <- "wei"
            break
        }
        if(a-c<0){
            data$class[i] <- "shou"
            next
        }
        if(b-a<0){
            data$class[i] <- "wei"
            next
        }
        data$longH[i] <- (b-a)
        data$longQ[i] <- (a-c)
    }
    data$class[1] <- "shou"
    
    # 对距离进行区分,按照windows_near为区分阈值
    
    for (i in 1:nrow(data)){
        if (is.na(data$longH[i]) | is.na(data$longQ[i])){
            next
        }
        if (data$longH[i]>windows_near & data$longQ[i]>windows_near){
            data$class[i] <- "single"
        }
    }
    
    
    # 单标记位点处理
    data$ws <- ifelse(is.na(data$logwt),
                      paste0(data$SNP,",Find in ",str_replace(id,".csv",""),sep=""),
                      paste0(data$SNP,",Find in ",str_replace(id,".csv",""),",",data$logwt,sep=""))
    ### 单标记信息位置注释 ===================================================================
    # 单标记位置信息写入single
    single <- data.frame(matrix(ncol = 4))
    single <- single[-1,]
    colnames(single) <- c("positon","info","chr","loc") 
    for (i in 1:nrow(data)){
        tem_class <- data$class[i]
        tem_add <- c(data$POS[i],data$ws[i],data$chr[i],data$loc[i])
        ifelse(tem_class == 'single',single <- rbind(single,tem_add),"1")
        ifelse(tem_class == 'shou',single <- rbind(single,tem_add),"2")
        ifelse(tem_class == 'wei',single <- rbind(single,tem_add),"3")
    }
    colnames(single) <- c("positon","info","chr","loc") 
    
    ### 连续区间筛选 ===================================================================
    
    near <- data.frame(matrix(ncol = 5)) #初始化矩阵
    near <- near[-1,]
    colnames(near) <- c("p1","p2","info","chr","number") 
    
    for (x in c(1:7)){
        for (y in c("A","B","D")){
            chr_id <- paste0(x,y,sep="")
            foot <- 0 # 步长，用于迭代计算阅读框
            for (i in which(data$chr==chr_id)){
                if (sum(data$chr==chr_id)<2){next} #若某个染色体的位点数小于3则跳过
                if (foot>0){ # 如果foot变量大于0，说明两个位点存在跨越关系，进行归零
                    foot <- foot - 1 # 
                    next
                }
                n_pos_1 <- data$POS[i]
                for (m in which(data$chr==chr_id)){
                    n_pos_2 <- data$POS[m]
                    if (n_pos_2 - n_pos_1 < 0){ # 后一个值小于前一个值时跳过
                        next
                    }
                    else{
                        if (n_pos_2 - n_pos_1 == 0){ # 两个值相等时跳过
                            next
                        }
                        else{
                            if (n_pos_2 - n_pos_1 < windows_near){ # 任意两个位点距离小于预设窗口大小
                                foot <- foot+1 # 向前进行一步，跨越一个位点
                                if (is.na(data$class[i])){
                                    data$class[i] <- "near" # 如果此时位点尚不属于single、shou、wei，则为near
                                }
                            }
                            else{
                                if (foot > 10){
                                    n_wn <- paste0(data$SNP[i],"-",data$SNP[m-1],", [",foot,"],Find in ",job)
                                }else{
                                    n_wn <- paste0(data$SNP[i],"-",data$SNP[m-1],",Find in ",job)
                                }
                                n_add <- c(n_pos_1,data$POS[m-1],n_wn,data$chr[i],foot)
                                if (is.na(data$class[i])){
                                    data$class[i] <- "near"
                                }
                                break
                            }
                        }
                    }
                }
                if (length(data$POS[m-1])>0){
                    if (n_pos_1 !=data$POS[m-1]){
                        
                        near <- rbind(near,n_add)
                        n_add <- c()
                    }
                }
            }
            
        }
    }
    colnames(near) <- c("p1","p2","info","chr","number")
    
    # 删除重复行
    near_new <- data.frame(matrix(ncol =5)) 
    near_new <- near_new[-1,]
    for (i in 1:nrow(near)){
        if (!identical(near$p1[i],near$p2[i])){
            new_add <- c(near$p1[i],near$p2[i],near$info[i],near$chr[i],near$number[i])
            near_new <- rbind(near_new,new_add)
        }
    }
    colnames(near_new) <- c("p1","p2","info","chr","number") 
    near <- near_new
    
    ### 连续标记回帖参考基因组----
    OK <- 0 #成功添加的个数
    for (chr in names(chr_list)){
        
        for (i in 1:nrow(near)){
            if (identical(near$chr[i],chr)){
                my_a <- which.min(abs(as.numeric(near$p1[i]) - as.numeric(chr_list[[chr]]$X3G.Start.1)))
                my_b <- which.min(abs(as.numeric(near$p2[i]) - as.numeric(chr_list[[chr]]$X3G.Start.1)))
                chr_list[[chr]]$out[my_a:my_b] <- near$info[i]
                OK <- OK + (my_b - my_a)
            }
        }
        cli::cli_alert_success(str_c("[Chromosomes are currently being processed]：",chr))
    }
    num_near <- OK
    
    ### 迭代添加单标记信息----
    OK <- 0 #成功添加的个数
    for (chr in names(chr_list)){
        
        for (i in 1:nrow(single)){
            if (identical(single$chr[i],chr)){
                index <- which.min(abs(as.numeric(single$positon[i]) - as.numeric(chr_list[[chr]]$X3G.Start.1)))
                chr_list[[chr]]$out[index] <- single$info[i]
                OK <- OK+1
            }
        }
        cli::cli_alert_success(str_c("[Chromosomes are currently being processed]：",chr))
    }
    num_single <- OK
    
    ### 迭代添加首尾标记 =====================================================================
    
    cat(paste0("[",str_sub(data$ws[1],nchar(data$ws[1])-2,nchar(data$ws[1])),
               "-",data$loc[1],"]   \t total near mark: ",num_near,"     \t total single mark: ",num_single,"\n"))
    
    all_near[[id]] <- near
    all_single[[id]] <- single
    
    write_excel_csv(single,paste0("./out/2_SNP_Infomation/",id,"_single.csv"))
    write_excel_csv(near,paste0("./out/2_SNP_Infomation/",id,"_near.csv"))
    write_excel_csv(data,paste0("./out/2_SNP_Infomation/",id,"_data.csv"),na = "near")
    
    out <- do.call(rbind,lapply(chr_list,function(x)x))
    write_excel_csv(out,paste0("./out/3_Gene_Maping_Result/",job,".snp.csv"),na = "")
}

这段R语言代码执行了一系列复杂的数据处理操作，主要用于处理基因组关联研究（GWAS）中的SNP（单核苷酸多态性）数据，包括识别显著的单个位点和连续区间，以及将这些信息映射到参考基因组上，这对于理解基因与特定表型之间的关系非常重要。

Step3：标注

id_list_step3 <- list.files("./out/3_Gene_Maping_Result/")
tem <- Ref[1:nrow(out),1:7] # 需要格外注意：tem和out文件必须一一对应
index <- 8 #从第8列开始标注
# 提取并标注注释信息
for (id in id_list_step3){
    now <- read.csv(paste0("./out/3_Gene_Maping_Result/",id))
    atom <- str_split(id,"[.]")
    job <- atom[[1]][1]
    tem <- bind_cols(tem,now[,8])
    colnames(tem)[index] <- job
    index <- index + 1
    # print(id)
}

# 将多列信息合并为一列（优化算法）
tem <- tem %>% as.data.frame()
tem$all <- NA
tem_rm_na <- tem[,colSums(is.na(tem)) < nrow(tem)]
tem_rm_na_info <- tem_rm_na[,9:ncol(tem_rm_na)-1]
tem_rm_na$all <- apply(tem_rm_na_info, 1, function(x){
    x <- na.omit(x) # 删除NA值
    x <- x[nchar(x) > 3] # 保留字符长度大于3的元素
    paste(x, collapse = " ; ") # 使用分号作为分隔符连接字符串
 }
)

这段代码的主要目的是将多个基因组映射结果文件中的注释信息提取出来，并合并到一个主数据框中。每个文件的特定列（通常是第8列）被提取并添加到tem数据框中，最后将这些信息合并，以便进一步的分析和解释。

结果保存与输出

final_out <- cbind(tem_rm_na[,1:7],tem_rm_na$all,tem_rm_na[,8:(ncol(tem_rm_na)-1)])
write_tsv(final_out,str_c("./out/4_Rebind_All_Output/",prefix,"_IT_DS_MLM_CPU.Output.final.tsv"))

这一步是为了将最终结果整理输出保存，自动根据项目名称建立结果文件。tsv文件可以直接选择以Excel打开，就是常规表格格式。

查看结果

正常情况下，运行完上述流程后，能够在out文件夹发现如上信息。

其中第一个文件夹储存了原始文件转换后的结果，第二个文件夹储存了每个SNP的详细信息，第三个文件夹是显著区域回帖到参考基因组的结果，第四个文件夹内是最终的一个结果文件。

其中最后一个结果文件很重要，包含了所有的显著信息，并对多环境同时共定位到的位点进行标注，可以用于后续研究。

补充：优化思路与方法

在写代码的时候，最开始并没有想到向量化编程的思路，因此在早期版本中采用for循环迭代，速度巨慢。

for (i in 1:nrow(tem)){
    var_add <- c()
    for (m in 8:(ncol(tem)-1)){
        if (tem[i,m] == ""){
            next
        }else{
            var_add <- c(var_add,tem[i,m])
        }
    }
    add_info <- str_c(var_add,sep = "",collapse = " ; ")
    tem$all[i] <- add_info
}

该流程中最耗时的步骤是对结果进行合并，也就是Step3中将不同年份、地点、类型、模型的显著性关键信息进行整合，合并为一列信息。

在实际计算中，这个数据维度大概是几十万行，每行进行依次迭代的速度很慢，由于计算过程中不需要考虑不同行之间的相互影响，因此考虑改成多线程并行计算，同时在CPU上计算多行数据。

num_cores <- parallel::detectCores() # 设置线程数
cl <- makeCluster(num_cores)
registerDoParallel(cl)
# 原始数据框为tem
n <- nrow(tem)
result <- foreach(i = 1:n, .combine = rbind) %dopar% {
    var_add <- c()
    for (m in 8:(ncol(tem)-1)){
        # 如果出现缺失则跳过
        if (is.na(tem[i,m])){next}
        # 如果出现空位则跳过
        if (tem[i,m] == ""){
            next
        } else {
            # 追加新结果
            var_add <- c(var_add, tem[i,m])
        }
    }
    add_info <- stringr::str_c(var_add, sep = "", collapse = " ; ")
    tem$all[i] <- add_info
    return(tem[i, ])
}
# 关闭并行计算
stopCluster(cl)
registerDoSEQ()

并行计算的速度能有一定提升，理论上64核心处理器的速度会比单纯for循环提高几十倍，但是缺陷也比较明显，这个在计算的过程中每个线程都会复制一份内存空间，导致内存占用量攀升。

最佳的方法是采用R语言向量化编程，使用apply函数直接按行应用函数，这个速度嘎嘎快，而且还节省内存空间。

tem_rm_na$all <- apply(tem_rm_na_info, 1, function(x){
    x <- na.omit(x) # 删除NA值
    x <- x[nchar(x) > 3] # 保留字符长度大于3的元素
    paste(x, collapse = " ; ") # 使用分号作为分隔符连接字符串
 }

这回看着比较优雅，运行速度也相对提升了一大截。

另外还有一个地方需要进行优化，在不同染色体的分界处需要考虑首尾位置，每条染色体之间是独立的，同一条染色体是按物理位置依次排序，因此确定边界很重要。

以下是原来计算首尾SNP的方法，逻辑是根据当前SNP物理位置与上一行SNP物理位置的大小来比较，如果是结束位置，那么当前SNP减去下一行的值为正值，否则为负值。

if(i == nrow(data)){
            data$class[i] <- "wei"
            break
        }
        if(a-c<0){
            data$class[i] <- "shou"
            next
        }
        if(b-a<0){
            data$class[i] <- "wei"
            next
        }

上述算法有个隐藏BUG，当SNP数量多的时候能够正常判断，但是当SNP数量只有几个的时候，有可能会出现某条染色体上最后一个显著的SNP恰好比下一条染色体的第一条SNP位置大，此时算法会将其认为是同一条染色体。

为了解决上述问题，重新修改了判定SNP首尾位置的算法，采用染色体信息直接判断：

# 更新判断SNP首尾位置的方法
        if (data$chr[i-1] != data$chr[i] &
            data$chr[i+1] == data$chr[i]){
            data$class[i] <- "shou"
            next
        }else{
            if (data$chr[i-1] == data$chr[i] &
                data$chr[i+1] != data$chr[i]){
                data$class[i] <- "wei"
                next
            }else{
                if (data$chr[i-1] != data$chr[i] &
                    data$chr[i+1] != data$chr[i]){
                    data$class[i] <- "single"
                    next
                }
            }
        }

本文由mdnice多平台发布

程序人生：技术人如何实现职业阶梯的跨越式发展 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据程序人生职场和发展 ai
程序人生：技术人如何实现职业阶梯的跨越式发展关键词：职业发展、技术领导力、T型人才、职业规划、跨领域能力、持续学习、技术管理摘要：本文针对技术从业者的职业发展痛点，构建了系统化的职业阶梯跨越模型。通过解析技术人才成长的核心阶段与能力模型，结合数学量化评估体系和实战案例，提供从技术深耕到领导力跃迁的完整路径。内容涵盖能力矩阵构建、项目实战策略、跨领域知识融合、个人品牌经营等关键模块，帮助技术人突破职
程序人生职业生涯学习成长，学历提升是秘诀？ AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据程序人生学习职场和发展 ai
程序人生职业生涯学习成长，学历提升是秘诀？关键词：程序员职业发展、学历提升、持续学习、技术能力、职业规划、终身学习、技能提升摘要：本文深入探讨程序员职业生涯中的学习成长路径，分析学历提升在职业发展中的实际作用。通过对比不同发展阶段的技术能力需求与学历要求，揭示程序员职业成长的核心要素。文章将提供系统化的学习框架、实用的技能提升策略，以及平衡学历教育与实战经验的方法论，帮助程序员在快速变化的技术行业
【Java实现AI抽奖解签系统：24签个性化运势解读】王大师王文峰 java 开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）【Java实现AI抽奖解签系统：24签个性化运势解读】学习教程（传送门）Java实现AI抽奖解签系统：24签个性化运势解读系统设
Java时间日期处理全攻略：多种写法、计算与获取方法王大师王文峰 java 开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）Java时间日期处理全攻略：多种写法、计算与获取方法学习教程（传送门）Java时间日期处理全攻略：多种写法、计算与获取方法**一
C#初学者指南：从零开始掌握基础语法王大师王文峰 c#开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）C#初学者指南：从零开始掌握基础语法学习教程（传送门）C#初学者指南：从零开始掌握基础语法环境搭建：准备你的第一个C#项目C#基
直击2025 C#架构师面试：分布式库存/大模型集成/热更新配置等企业级场景深度解析（含答案+性能优化技巧）王大师王文峰 c#面试分布式
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）直击2025C#架构师面试：分布式库存/大模型集成/热更新配置等企业级场景深度解析（含答案+性能优化技巧）学习教程（传送门）20
服务+货物混合合同订单的技术实现与结算逻辑（Java版）王大师王文峰 java 开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）服务+货物混合合同订单的技术实现与结算逻辑（Java版）学习教程（传送门）服务+货物混合合同订单的技术实现与结算逻辑（Java版
程序人生如何在技术会议中收获学习与成长 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据程序人生学习职场和发展 ai
程序人生：如何在技术会议中收获学习与成长关键词：技术会议、开发者成长、参会策略、知识获取、人脉拓展、职业发展、技术洞察摘要：技术会议是程序员提升技术视野、获取前沿知识、拓展职业网络的重要平台。本文从参会前的战略规划、参会中的高效吸收、会后的持续转化三个维度，系统解析如何通过科学的参会策略实现能力跃升。结合具体案例、工具方法和实战经验，阐述技术会议在职业发展中的杠杆作用，帮助开发者将会议价值最大化，
程序人生：腾讯面试背后的职业生涯学习与成长秘籍 AI天才研究院程序人生面试学习 ai
程序人生：腾讯面试背后的职业生涯学习与成长秘籍关键词：腾讯面试、技术深度、工程能力、系统思维、职业成长、软技能、刻意练习摘要：本文以腾讯面试为切入点，拆解顶级互联网公司对技术人才的核心考察逻辑，结合真实面试案例与程序员职业生涯发展阶段，总结“技术深度-工程能力-系统思维-软技能”四维成长模型。通过生活化的比喻、具体的面试场景还原与可落地的成长方法论，帮助开发者从“应对面试”升级为“终身成长”，找到
程序人生职业生涯，学习成长为薪酬谈判添砖加瓦 ChatGPT AI大模型应用入门实战与进阶程序人生学习微信小程序 ai
程序人生职业生涯：学习成长为薪酬谈判添砖加瓦关键词：程序员职业生涯、技术能力体系、薪酬谈判策略、职业成长模型、市场价值评估、学习路径规划、胜任力模型摘要：本文针对程序员群体，构建"学习成长-能力提升-薪酬谈判"的完整逻辑链条。通过解析技术人员职业发展的三阶段模型，建立包含硬技能/软技能/项目经验的三维能力评估体系，提供可量化的学习效果评估方法与薪酬谈判实战策略。结合Python代码实现能力自评工具
当 AI 能写代码修 bug，高考填报计算机专业是“火坑”还是“新机遇” ｜深度对话 6 位专家 CSDN 程序人生人工智能 bug 高考
作者|梦依丹出品丨CSDN程序人生一年一度的高考如期而至，今年，将有1335万名考生踏入考场，如果说考试是考生的战场，那么让无数家庭真正反复权衡、难以抉择的，其实是考后的另一道大题——「填什么专业」。从“高考志愿填报导师”张雪峰推出的17999元的高考志愿填报服务不到3分钟便被抢购一空可见有多火，而计算机和人工智能更是他经常推荐的专业。今年，在AI浪潮的席卷之下，这道选择题更添了几分迷思与变数：当
哈工大计算机系统大作业——程序人生-Hello’s P2P m0_72541769 课程设计
计算机系统大作业题目程序人生-Hello’sP2P专业信息安全学号2022112864班级2203201学生xxx指导教师史先俊计算机科学与技术学院2024年5月摘要本论文旨在详细探讨计算机系统中程序从源码到可执行文件的整个转换过程，具体分析了C语言程序`Hello.c`的编译、链接、运行等各个阶段。通过使用GCC编译器以及Ubuntu环境下的一系列工具，本文对预处理、编译、汇编、链接、加载和运行
哈工大计统大作业-hello的一生 YX030212 课程设计 p2p 网络
计算机系统大作业题目程序人生-Hello’sP2P专业人工智能学号2021113560班级WL026学生陈禹西指导教师吴锐计算机科学与技术学院2023年5月摘要本文以一个简单的hello.c程序开始，介绍了一个程序在Linux下运行的完整生命周期，包括预处理、编译、汇编、链接、进程管理、存储管理、I/O管理这几部分，一步步详细介绍了程序从被键盘输入、保存到磁盘，直到最后程序运行结束，程序变为僵尸进
2025年春哈工大计算机系统（CSAPP）课程大作业：程序人生 The_Skynet CSAPP 期末大作业
通过这个大作业稍微复习了一下课程知识，这只是按课程要求在这里发布的。我把文件的链接贴在这里了：https://github.com/Trappist-1st/HIT-CSAPP-big_homework
《深入理解计算机系统》期末大作业：程序人生-Hello’s P2P Reisen_Inaba
摘要输出Hello,world的程序，是所有人编程学习的第一步，也是最简单的程序。本文将以程序hello.c为例，分析一个具有一般性的程序在Linux环境下，从预处理到编译、汇编、链接等的完整过程。综合《计算机系统基础》科目所学，考察程序的生命周期，并分析程序作为进程，与内存及外部IO设备的交互过程。关键词：系统，周期，程序生成，进程，交互目录第1章概述......................
解锁程序人生学习成长密码，从目标设定开始 AI天才研究院 ChatGPT AI大模型应用入门实战与进阶程序人生学习微信小程序 ai
解锁程序人生学习成长密码，从目标设定开始关键词：程序员成长、目标设定、学习路径、技能提升、职业规划、刻意练习、反馈机制摘要：本文深入探讨程序员如何通过科学的目标设定方法实现职业成长。文章从目标设定的重要性出发，详细介绍了SMART原则、OKR方法等技术，并结合程序员职业特点，提供了可操作的学习路径规划、技能提升策略和反馈机制建立方法。通过实际案例和工具推荐，帮助程序员构建系统化的成长体系，实现从初
Stable Diffusion 2025新手全套安装教程零基础小白一键解锁AI绘图神器，轻松玩转AI绘画 AI设计酷卡 stable diffusion 人工智能 AI作画 AIGC
我们今天不谈编程，也不谈程序人生，就来唠一唠AI绘图~~StableDiffusion是什么♥️StableDiffusion，简称SD,是一种基于深度学习的图像处理技术!它属于称之为扩散模型diffusionmodel的深度学习AI，是生成模型的一种!这意味着SD的核心作用就是生成类似于其训练数据的新数据,对于SD来说，这个数据就是(图像)图片简单的说StableDiffusion就是一种使用A
程序人生：远程工作环境下的技术成长与职业发展 AI天才研究院 ChatGPT AI大模型企业级应用开发实战程序人生远程工作网络 ai
程序人生：远程工作环境下的技术成长与职业发展关键词：远程工作、技术成长、职业发展、程序员、协作工具、时间管理、自我驱动摘要：本文深入探讨了在远程工作环境下程序员如何实现技术成长与职业发展的策略和方法。文章从远程工作的特点出发，分析了技术成长的挑战与机遇，提出了系统化的解决方案，包括高效学习路径、技术栈规划、远程协作技巧、职业发展策略等核心内容。通过实际案例、工具推荐和具体实施步骤，为程序员在远程工
程序人生进阶指南：掌握这5种跨学科思维让你脱颖而出程序人生职场和发展 ai
程序人生进阶指南：掌握这5种跨学科思维让你脱颖而出关键词：程序员成长、跨学科思维、系统思维、设计思维、经济学思维、心理学思维、数学思维摘要：本文探讨了程序员如何通过培养5种关键跨学科思维（系统思维、设计思维、经济学思维、心理学思维和数学思维）实现职业突破。文章详细解析了每种思维的核心概念、应用场景和在编程中的具体实践方法，帮助技术人员拓宽视野、提升问题解决能力，最终在职业生涯中脱颖而出。1.背景介
程序人生--2005年(30) chilavert318 程序人生涉世之初软件生涯经历
82搬家年底我又一次的搬家了，工作5年了我搬过2次家，一次是藩后街，另一次是丝茅冲。而这次的意义不同，因为这个家是指真正意义上的家！很有归宿感和成就感！在公司单身宿舍生活了3年，其实这里条件真的还不错。有热水、有空调、有电视、可以上网，理想上的职业宿舍，他都具备了。可是总觉得他还缺少些什么，后来细细想想他总归不是属于自己的东西，他只是我生活旅途的一个小站，条件再好我也会离开这里的。搬家工作是在年底
学习型组织，让程序人生职业生涯学习成长不再迷茫 AI大模型应用之禅程序人生学习职场和发展 ai
学习型组织，让程序人生职业生涯学习成长不再迷茫关键词：学习型组织、程序员成长、职业发展、团队学习、个人-组织共进化摘要：本文从程序员职业发展的典型迷茫出发，结合"学习型组织"这一管理科学经典理论，用程序员熟悉的技术思维拆解其核心逻辑。通过"技术团队如何从’代码作坊’升级为’学习引擎’"的实战案例，讲解学习型组织的五大核心要素（自我超越、心智模式、共同愿景、团队学习、系统思考）如何具体落地，帮助程序
程序人生：自我驱动下的职业生涯学习与成长之路 AI天才研究院计算 AI大模型应用入门实战与进阶程序人生学习职场和发展 ai
程序人生：自我驱动下的职业生涯学习与成长之路关键词：程序人生、自我驱动、职业生涯、学习成长、技术发展摘要：本文聚焦于程序员在职业生涯中的学习与成长，强调自我驱动的重要性。通过对程序人生的多维度剖析，阐述了程序员职业生涯的不同阶段特点、学习的核心概念与方法、关键算法原理及实际操作步骤、数学模型在编程中的应用、项目实战案例、实际应用场景等内容。同时推荐了相关的工具和资源，分析了未来发展趋势与挑战，并对
【提升开发效率的秘密武器：IntelliJ IDEA 插件完全使用指南】依赖冲突检测，保存时自动优化代码，编译时智能错误修复王大师王文峰编程利器IDEA intellij-idea java ide
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）【提升开发效率的秘密武器：IntelliJIDEA插件完全使用指南】依赖冲突检测，保存时自动优化代码，编译时智能错误修复学习教程
【Python绘制创意爱心代码】多种技术手段实现动态、立体、交互式爱心效果，展示Python在创意编程中的技术魅力。所有代码可直接运行，需Python 3.6+环境。王大师王文峰 python 开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）【Python绘制创意爱心代码】多种技术手段实现动态、立体、交互式爱心效果，展示Python在创意编程中的技术魅力。所有代码可直
React中useEffect和useLayoutEffect的区别 CreatorRay 前端面试 react react.js 前端面试
在最近一次面试中被问到，我印象中好像从来没用过useLayoutEffect，就没答上来。但是看名字应该是跟布局相关的，而且跟useEffect会有类似的作用。在React中，useEffect和useLayoutEffect都是用于处理副作用的Hooks，但它们的执行时机和对渲染流程的影响有显著区别。以下是两者的核心差异及使用场景：公众号：Code程序人生，个人网站：https://creato
【程序人生】中年技术女性，什么是生活的重点？ JosieBook 程序人生生活职场和发展
文章目录⭐前言⭐一、明确“成功”的定义：先破后立警惕社会规训：价值观排序工具：⭐二、怎职业发展：聚焦长板，打造不可替代性30岁职场破局策略：职场可见度提升：⭐三、人际关系：构建支持系统关系断舍离：亲密关系选择：⭐四、身心健康：可持续成功的根基身体管理：情绪调节：⭐五、财务安全：抵御风险的核心防线30岁财务健康标准：投资优先级：⭐六、财务安长期主义：制定“3年跃迁计划”目标锚定法：复盘与迭代：⭐关键
JAVA从万级QPS到亿级吞吐，如何用非阻塞模型突破传统架构的性能瓶颈王大师王文峰 java 架构开发语言
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）JAVA从万级QPS到亿级吞吐，如何用非阻塞模型突破传统架构的性能瓶颈学习教程（传送门）引言：当线程池成为瓶颈——某视频平台春节
【C#】VS2019怎么能无论是Debug还是Release模式，生成路径都在Release文件夹下？ JosieBook #C#语言 vs
文章目录⭐问题⭐解决标题详情作者JosieBook头衔CSDN博客专家资格、阿里云社区专家博主、软件设计工程师博客内容开源、框架、软件工程、全栈（,NET/Java/Python/C++）、数据库、操作系统、大数据、人工智能、工控、网络、程序人生口号Tobeyourself，todowhatyouwant.联系方式q:1967473153欢迎三连点赞、✍评论、⭐收藏⭐问题正常情况下，是这样：怎么让
深挖JVM隐藏优化点与百万QPS系统调优【突破认知：JVM内存管理的9大反直觉真相】通过三个违背‘常识‘的调优策略，将GC停顿时间从1.2秒降至80ms，节省40%服务器成本王大师王文峰 jvm 服务器运维
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）深挖JVM隐藏优化点与百万QPS系统调优【突破认知：JVM内存管理的9大反直觉真相】通过三个违背'常识'的调优策略，将GC停顿时
Vue 技术博客：从零开始构建一个 Vue Markdown 编辑器王大师王文峰 Java基础到框架 vue.js 编辑器前端
本人详解作者：王文峰，参加过CSDN2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的Java开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（注明：作者：王文峰哦）学习教程（传送门）Vue技术博客：从零开始构建一个VueMarkdown编辑器前言环境准备实现步骤1.引入组件与库2.模板设计3
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f