嘛里嘛里哄

Kaggle数据科学竞赛使用GBDT、XGBoost、Lightgbm方法预测是否可以成功申请经费

数据科学与机器学习案例之客户的信用风险与预测

数据科学与机器学习案例之信用卡欺诈识别（严重类失衡数据建模)

数据科学与机器学习案例之汽车目标客户销售策略研究

数据科学与机器学习案例之WiFi定位系统的位置预测

数据科学与机器学习案例之Stacking集成方法对鸢尾花进行分类

数据科学案例之生存分析与二手车定价

Kaggle数据科学竞赛使用GBDT、XGBoost、Lightgbm方法预测是否可以成功申请经费

数据介绍
数据处理
GBDT算法
XGBoost算法

数据介绍

数据来源于Kaggle数据科学竞赛，数据下载地址为：Kaggle数据下载链接.
竞赛题目为：预测经费申请是否能够得到批准.

此数据集包括 249此数据集包括 249 个要素（或预测变量）。参与者应使用这些变量来预测目标变量（或结果）“授予状态”。授权状态 1 表示授权申请成功，而授权状态 0 表示申请不成功。
参与者用来构建模型的训练数据集unimelb_training.csv。它包含2005年底至2008年的8707份赠款申请。测试数据集unimelb_test.csv，包含从 2009 年到 2010 年中 2176 份拨款申请。从测试数据集中保留授予状态变量。
预测应采用与unimelb_example.csv相同的格式（一个包含 2176 行的 CSV 文件，第一列中有一个授予应用程序 ID，第二列中的成功概率介于 0 和 1 之间）。
该大学提供了以下功能：
赞助商代码：用于代表不同赞助商的ID
资助类别代码：赞助商的分类（例如澳大利亚竞争性资助，合作研究中心，行业）
合同价值范围：资助的价值（见下面的关键）
开始日期：提交资助申请的日期
RFD代码：研究领域，课程和学科分类（参见定义）
RFCD 百分比：如果有多个与项目
相关的 RFCD 代码 SEO 代码：社会经济目标分类（参见定义）
SEO 百分比：如果有多个与项目
相关的 SEO 代码人员 ID：调查人员的唯一 ID
角色：调查人员在研究中的角色
出生年份：调查员的出生年份（四舍五入到最接近的五年间隔）
出生国家：调查员的出生国（通常按大洲汇总）
母语：调查员的母语（分为英语和其他）
部门编号：调查员的部门
教师编号：调查员的教师
年级：调查员的资历级别
在Uni的年数：调查员在提出资助申请时在墨尔本大学的年数
成功授予的次数：调查员提出的成功资助申请的次数
不成功的资助次数：调查员提出的不成功的资助申请的次数
A*： A* 期刊文章数
A： A 期刊文章数
B： B 期刊文章数
C： C 期刊文章数.
参与者应使用这些变量来预测目标变量（此数据集包括249 个要素（或预测变量）。参与者应使用这些变量来预测目标变量（或结果）“授予状态”。授权状态 1 表示授权申请成功，而授权状态 0 表示申请不成功。

对于语言的选择这里使用的是R语言.

数据处理

构建模型的第一步需要对原始的数据进行处理，我们需要从原始的数据中提取出模型可以识别的特征，即特征工程.需要从原始的数据中抽取出合适的预测变量，从而选择出合适的模型进行预测.
分析步骤：

以下介于思维导图的篇幅原因只展示了部分预测变量的处理技术。

> library(plyr)
> library(caret)
> library(lubridate)
> library(doParallel)
> library(Hmisc)
> data.train = read.csv('unimelb_training.csv')
> describe(data.train[,1:15])
> table(data.train$Sponsor.Code,exclude = NULL)
> data.train$Sponsor.Code[data.train$Sponsor.Code == ''] = 'Unk'
> data.train$Sponsor.Code = factor(paste('Sponsor.Code',data.train$Sponsor.Code,
+                                   sep = ''))
> 
> table(data.train$Grant.Category.Code,exclude = NULL)
> data.train$Grant.Category.Code[data.train$Grant.Category.Code == ''] = 'Unk'
> data.train$Grant.Category.Code = factor(paste('Grant.Category.Code',data.train$Grant.Category.Code,
+                                   sep = ''))
> 
> table(data.train$Contract.Value.Band...see.note.A)
>data.train$Contract.Value.Band...see.note.A[data.train$Contract.Value.Band...see.note.A 
+       == ''] = 'Unk'
> data.train$Contract.Value.Band...see.note.A = factor(
+          paste('Contract.Value.Band...see.note.A',data.train$Contract.Value.Band...see.note.A,
+                sep = ''))
> 
> temp = grep('Role',names(data.train),value = F)
> A = vector(mode = 'list',length = length(temp))
> for(i in 1:length(temp)){
+      A[[i]] = table(data.train[,temp[i]])} # 每个Role中都有空值
> 
> data.train$Role.1[data.train$Role.1 == ''] = 'Unk' # 将Role.1中的空值进行了替换
> 
> birth.year = unique(do.call('c',
+               data.train[,grep('Year.of.Birth',names(data.train),value = F)]))
> birth.year = birth.year[! is.na(birth.year)] # 去重所有申请者的出生年月
> 
> dept.no = unique(do.call('c',
+               data.train[,grep('Dept.No',names(data.train),value = F)]))
> dept.no = dept.no[! is.na(dept.no)] # 去重所有申请者的部门编号
> 
> 
> A = vector(mode = 'list',length = 15)
> for(i in 1:length(A)){
+       a = data.train[,c('Grant.Application.ID',grep(paste('\\.',i,'$',sep = ''),names(
+                           data.train),value = T))] 
+       names(a) = gsub(paste('\\.',i,'$',sep = ''),'',names(a))
+       if(i == 1) name = names(a)
+       
+       if(all(names(a) != 'RFCD.Code')) a$RFCD.Code = NA
+       if(all(names(a) != 'RFCD.Percentage')) a$RFCD.Percentage = NA
+       if(all(names(a) != 'SEO.Code')) a$SEO.Code = NA
+       if(all(names(a) != 'SEO.Percentage')) a$SEO.Percentage = NA
+   
+       A[[i]] = a[,name]
+       rm(a)
+                       }
> 
> A[which(A$Role == '')[1:10],] # 查看Role为空值的数据框
> A2 = subset(A,Role != '')
> A = A2
> A$Role = factor(A$Role)
> A$Year.of.Birth = factor(A$Year.of.Birth,levels = sort(birth.year))
> 
> table(A$Country.of.Birth)
> A$Country.of.Birth[A$Country.of.Birth == ''] = NA
> A$Country.of.Birth = factor(A$Country.of.Birth)
> 
> table(A$Home.Language)
> A$Home.Language[A$Home.Language == ''] = NA
> A$Home.Language = factor(A$Home.Language)
> 
> table(A$Dept.No.,exclude = NULL)
> A$Dept.No. = paste('Dept.No.',A$Dept.No.,sep = '')
> A$Dept.No.[A$Dept.No. == 'Dept.No.NA'] = NA
> A$Dept.No. = factor(A$Dept.No.)
> 
> table(A$Faculty.No.,exclude = NULL)
> A$Faculty.No. = paste('Faculty.No.',A$Faculty.No.,sep = '')
> A$Faculty.No.[A$Faculty.No. == 'Faculty.No.NA'] = NA
> A$Faculty.No. = factor(A$Faculty.No.)
> A$RFCD.Code = paste('RFCD.Code.',A$RFCD.Code,sep = '')
> A$RFCD.Percentage[A$RFCD.Code == 'RFCD.Code.NA'] = NA
> A$RFCD.Percentage[A$RFCD.Code == 'RFCD.Code.0'] = NA
> A$RFCD.Percentage[A$RFCD.Code == 'RFCD.Code.999999'] = NA
> A$RFCD.Code[A$RFCD.Code == 'RFCD.Code.NA'] = NA
> A$RFCD.Code[A$RFCD.Code == 'RFCD.Code.0'] = NA
> A$RFCD.Code[A$RFCD.Code == 'RFCD.Code.999999'] = NA
> A$RFCD.Code = factor(A$RFCD.Code)
> 
> table(A$SEO.Code,exclude = NULL)
> A$SEO.Code = paste('SEO.Code.',A$SEO.Code,sep = '')
> A$SEO.Percentage[A$SEO.Code == 'SEO.Code.NA'] = NA
> A$SEO.Percentage[A$SEO.Code == 'SEO.Code.0'] = NA
> A$SEO.Percentage[A$SEO.Code == 'SEO.Code.999999'] = NA
> A$SEO.Code[A$SEO.Code == 'SEO.Code.NA'] = NA
> A$SEO.Code[A$SEO.Code == 'SEO.Code.0'] = NA
> A$SEO.Code[A$SEO.Code == 'SEO.Code.999999'] = NA
> A$SEO.Code = factor(A$RFCD.Code)
> 
> table(A$No..of.Years.in.Uni.at.Time.of.Grant,exclude = NULL)
> A$No..of.Years.in.Uni.at.Time.of.Grant[A$No..of.Years.in.Uni.at.Time.of.Grant == 
+      ''] = 'durationUnk'
> A$No..of.Years.in.Uni.at.Time.of.Grant[A$No..of.Years.in.Uni.at.Time.of.Grant == 
+      'Less than 0'] = 'durationLT0'
> A$No..of.Years.in.Uni.at.Time.of.Grant[A$No..of.Years.in.Uni.at.Time.of.Grant == 
+      'more than 15'] = 'durationGT15'
> A$No..of.Years.in.Uni.at.Time.of.Grant[A$No..of.Years.in.Uni.at.Time.of.Grant == 
+      '>5 to 10'] = 'duration5to10'
> A$No..of.Years.in.Uni.at.Time.of.Grant[A$No..of.Years.in.Uni.at.Time.of.Grant == 
+      '>=0 to 5'] = 'duration0to5'
> A$No..of.Years.in.Uni.at.Time.of.Grant[A$No..of.Years.in.Uni.at.Time.of.Grant == 
+      '>10 to 15'] = 'duration10to15'
> A$No..of.Years.in.Uni.at.Time.of.Grant = as.factor(
+                 A$No..of.Years.in.Uni.at.Time.of.Grant)
> 
> names.short = function(x,pre = ''){
+       x = gsub('EXT_CHIEF_INVESTIGATOR','ECI',x)
+       x = gsub('STUD_CHIEF_INVESTIGATOR','SCI',x)
+       x = gsub('CHIEF_INVESTIGATOR','CI',x)
+       x = gsub('DELEGATED_RESEARCHER','DR',x)
+       x = gsub('EXTERNAL_ADVISOR','EA',x)
+       x = gsub('HONVISIT','HV',x)
+       x = gsub('PRINCIPAL_SUPERVISOR','PS',x)
+       x = gsub('STUDRES','SR',x)
+       x = gsub('Unk','UNK',x)
+       other = x[x != 'Grant.Application.ID']
+       c('Grant.Application.ID',paste(other,sep = ''))} # 简化处理Role的字段
> 
> # 统计每个ID下的参与人数
> people = ddply(A,.(Grant.Application.ID),function(x){
+              numpeople = nrow(x)})
> people1 = ddply(A,.(Grant.Application.ID),function(x){
+               out = as.data.frame(t(as.matrix(table(x$Role))))
+               out})
> people2 = ddply(A,.(Grant.Application.ID),function(x){
+                out = as.data.frame(table(x$Role,x$Year.of.Birth))
+                out1 = data.frame(t(out$Freq))
+                names(out1) = paste(out$Var1,out$Var2,sep = '')
+                out1   })
> people3 = ddply(A,.(Grant.Application.ID),function(x){
+             out = as.data.frame(table(x$Role,x$Country.of.Birth))
+             out1 = data.frame(t(out$Freq))
+             names(out1) = paste(out$Var1,out$Var2,sep = '')
+             out1})
> people4 = ddply(A,.(Grant.Application.ID),function(x){
+             out = as.data.frame(table(x$Role,x$Home.Language))
+             out1 = data.frame(t(out$Freq))
+             names(out1) = paste(out$Var1,out$Var2,sep = '')
+             out1})
> people5 = ddply(A,.(Grant.Application.ID),function(x){
+              out = as.data.frame(table(x$Role,x$With.PHD))
+              out1 = data.frame(t(out$Freq))
+              names(out1) = paste(out$Var1,out$Var2,sep = '.')
+              out1})
> names(people5) = names.short(names(people5))
> people5 = people5[,-grep('\\.$',names(people5))]
> people5[is.na(people5)] = 0
> 
> # 统计每个角色以及ID下的申请成功率与不成功的频数
> people6 = ddply(A,.(Grant.Application.ID,Role),function(x){
+                 data.frame(Success = sum(x$Number.of.Successful.Grant),
+                      Unsuccess = sum(x$Number.of.Unsuccessful.Grant))  })
> 
> # 统计每个角色与部门所在的频数
> people6 = ddply(A,.(Grant.Application.ID),function(x){
+              out = as.data.frame(table(x$Role,x$Dept.No.))
+              out1 = data.frame(t(out$Freq))
+              names(out1) = paste(out$Var1,out$Var2,sep = '')
+              out1})
> names(people6) = names.short(names(people6))
> 
> # 统计每个角色与职业所在的频数
> people7 = ddply(A,.(Grant.Application.ID),function(x){
+             out = as.data.frame(table(x$Role,x$Faculty.No.))
+              out1 = data.frame(t(out$Freq))
+              names(out1) = paste(out$Var1,out$Var2,sep = '')
+              out1})
> names(people7) = names.short(names(people7))
> 
> # 统计每个ID下的工作年限
> people8 = ddply(A,.(Grant.Application.ID),function(x){
+              as.data.frame(t(as.matrix(
+          table(x$No..of.Years.in.Uni.at.Time.of.Grant)))) })
> 
> # 统计每个ID下的发表论文的数量
> people9 = ddply(A,.(Grant.Application.ID),function(x){
+             data.frame(AstarTotal = sum(x$A.,na.rm = T),
+                        ATotal = sum(x$A,na.rm = T),
+                        BTotal = sum(x$B,na.rm = T),
+                        CTotal = sum(x$C,na.rm = T),
+                        allTotal = sum(c(x$A.,x$A,x$B,x$C),na.rm = T))})
> # 统计每个ID和角色下的论文发表数量
> people10 = ddply(A,.(Grant.Application.ID,Role),function(x){
+                data.frame(Astar = sum(x$A.,na.rm = T),
+                        A = sum(x$A,na.rm = T),
+                        B = sum(x$B,na.rm = T),
+                        C = sum(x$C,na.rm = T),
+                        allTotal = sum(c(x$A.,x$A,x$B,x$C),na.rm = T)) })
> people10 = reshape(people10, direction = "wide", 
+         idvar = "Grant.Application.ID", timevar = "Role")
> # 统计每个ID下面的RFCD.Code
> people11 = ddply(A,.(Grant.Application.ID),function(x){
+             as.data.frame(t(as.matrix(table(x$RFCD.Code))))})
> # 统计每个ID下面的SEO.Code
> people12 = ddply(A,.(Grant.Application.ID),function(x){
+              as.data.frame(t(as.matrix(table(x$SEO.Code))))})
> 
> 
> # 移除每个数据框下的近邻方差变量
> near.zero = function(data){
+        keep = unlist(lapply(data,function(x)length(unique(x)) > 1))
+        return(data[,keep,drop = F])}
> 
> people1 = near.zero(people1)
> people2 = near.zero(people2)
> grantData <- data.train[, c("Sponsor.Code", "Contract.Value.Band...see.note.A", "Grant.Category.Code")]
> 
> startTime <- dmy(data.train$Start.date) # 对时间进行处理（选取来自05-08年的数据）
> 
> grantData$Month <- factor(as.character(month(startTime,label = T)))
> grantData$Weekday <- factor(as.character(wday(startTime,label = T)))
> grantData$Day <- day(startTime)
> grantYear <- year(startTime)
> 
> dummies <- dummyVars(~., data = grantData, levelsOnly = TRUE)
> grantData <- as.data.frame(predict(dummies, grantData))
> names(grantData) <- gsub(" ", "", names(grantData))
> 
> grantData$Grant.Application.ID <- data.train$Grant.Application.ID
> grantData$Class <- factor(ifelse(data.train$Grant.Status, "successful", "unsuccessful"))
> 
> grantData$is2008 <- year(startTime) == 2008
> grantData <- near.zero(grantData)
> 
> Summaried <- merge(people,people1)
> Summaried <- merge(Summaried,people2)
> Summaried <- merge(Summaried,people3)
> Summaried <- merge(Summaried,people4)
> Summaried <- merge(Summaried,people5)
> Summaried <- merge(Summaried,people6)
> Summaried <- merge(Summaried,people7)
> Summaried <- merge(Summaried,people8)
> Summaried <- merge(Summaried,people9)
> Summaried <- merge(Summaried,people10)
> Summaried <- merge(Summaried,people11)
> Summaried <- merge(Summaried,people12)
> Summaried1 <- merge(Summaried,grantData)
> Summaried <- Summaried1

以下是四种boosting方法的调参。GBDT、XGBoost在R语言caret框架下已经完备，调参过程可直接使用train函数进行训练。
lightgbm与catboost不在caret框架中，两种算法的调参手动实现。

GBDT算法

library(caret)

train.index = createDataPartition(Summaried$Class,p = .75,list = T)[[1]]
df.train = Summaried[train.index,]
df.test = Summaried[-train.index,]

corrplot::corrplot(cor(Summaried[,1:67]),order = 'hclust',type='full',
                   tl.cex = .3) # 可视化相关系数图

library(gbm)
help(package = 'gbm')


str(df.train)
df.train = df.train[,-(ncol(df.train) - 1)]
df.train$Class = ifelse(df.train$Class == 'successful',1,0)

gbm1 = gbm(Class ~.,data = df.train,
           distribution = 'bernoulli',
           interaction.depth = 9,
           n.trees = 1400,shrinkage = .01,
           verbose = F)
gbmTune = expand.grid(interaction.depth = c(1,3,5,7,9),
                      n.trees = c(500,1000,1500,2000),
                      shrinkage = c(.01,.1),
                      n.minobsinnode = c(10,20))

ctrl = trainControl(method = 'cv',number = 5,
                    summaryFunction = twoClassSummary,
                    classProbs = T,
                   savePredictions = TRUE)

df.train$Class = factor(ifelse(df.train$Class == 1,'successful','unsuccessful'))
set.seed(1230)
gbm.model = train(x = df.train[,1:67],
                  y = df.train$Class,
                  method = 'gbm',
                  tuneGrid = gbmTune,
                  metric = 'ROC',
                  verbose = F,trControl = ctrl)
  
summary(gbm.model)

attach(gbm.model)
bestTune
subset(results,n.trees == 2000 & interaction.depth == 9 & shrinkage == .01 &
     n.minobsinnode == 10)

plot(gbm.model)

df.test = df.test[,-(ncol(df.test) - 1)]

df.test.raw = predict(gbm.model,newdata = df.test[,1:(ncol(df.test) - 1)],
                type = 'raw')

df.test.prob = predict(gbm.model,newdata = df.test[,1:(ncol(df.test) - 1)],
                type = 'prob')

df.test.pre = data.frame(df.test.raw,df.test.prob)

gbdt.det.test = as.data.frame(caret::confusionMatrix(data = df.test.pre$df.test.raw,
                       reference = df.test$Class)$table) # 测试集中的混淆矩阵

df.train.raw = predict(gbm.model,newdata = df.train[,1:67],type = 'raw')
df.train.prob = predict(gbm.model,newdata = df.train[,1:67],type = 'prob')
df.train.pre = data.frame(df.train.raw,df.train.prob)

gbdt.det.train = as.data.frame(caret::confusionMatrix(data = df.train.pre$df.train.raw,
                       reference = df.train$Class)$table)

library(ggplot2)
ggplot(gbdt.det.test,aes(x = Prediction,y = Reference,fill = Freq))+
geom_tile()+
geom_text(aes(label = Freq))+
scale_fill_gradient(low = "green", high = "red")

XGBoost算法

xgboostTune = expand.grid(nrounds = c(10,25,50),
                          max_depth = c(5,7,9),
                          eta = c(.01,.05,.1),
                          gamma = c(0.01, 0.015, 0.025, 0.05, 0.1),
                          colsample_bytree = 1,
                          min_child_weight = c(.8,1),
                          subsample = 1  )

ctrl = trainControl(method = 'cv',number = 5,
                    summaryFunction = twoClassSummary,
                    classProbs = T,
                   savePredictions = TRUE,allowParallel = TRUE)

library(doParallel)
cl <- makePSOCKcluster(10)
registerDoParallel(cl)
set.seed(1900)
xgboost.model = train(Class ~.,data = df.train,
                      method = 'xgbTree',
                      tuneGrid = xgboostTune,
                      trControl = ctrl,
                      metric = 'ROC',
                      verbose = F)
stopCluster(cl)

plot(xgboost.model)

df.train.raw = predict(xgboost.model,newdata = df.train[,1:67],
                       type = 'raw')
df.train.prob = predict(xgboost.model,newdata = df.train[,1:67],
                       type = 'prob')

df.train.pre = data.frame(df.train.raw,df.train.prob)

df.test.raw = predict(xgboost.model,newdata = df.test[,1:67],
                      type = 'raw')
df.test.prob = predict(xgboost.model,newdata = df.test[,1:67],
                      type = 'prob')
df.test.pre = data.frame(df.test.raw,df.test.prob)

xgboost.det.train = as.data.frame(
        confusionMatrix(df.train.pre$df.train.raw,df.train$Class)$table)

xgboost.det.test = as.data.frame(
        confusionMatrix(df.test.pre$df.test.raw,df.test$Class)$table)

p1 = ggplot(xgboost.det.test,aes(x = Prediction,y = Reference,fill = Freq))+
geom_tile()+
geom_text(aes(label = Freq))+
scale_fill_gradient(low = "green", high = "red")

p2 = ggplot(xgboost.det.train,aes(x = Prediction,y = Reference,fill = Freq))+
geom_tile()+
geom_text(aes(label = Freq))+
scale_fill_gradient(low = "green", high = "red")


library(cowplot)
plot_grid(p1, p2, 
          labels = c("xgboost.det.test", "xgboost.det.train"),
          ncol = 2, nrow = 1)

以上就是关于GBDT、XGBoost在Kaggle数据科学竞赛中的应用，另外lightgbm方法在这里就不展示了，感兴趣的朋友可以参考以下链接：Lightgbm使用教程.

最后祝愿各位大佬1024节日快乐.

Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
专题：2025供应链数智化与效率提升报告|附100+份报告PDF、原数据表汇总下载拓端研究室 php 开发语言
全文链接：https://tecdat.cn/?p=42926在全球产业链重构与数字技术革命的双重驱动下，供应链正经历从传统经验驱动向数据智能驱动的范式变革。从快消品产能区域化布局到垂类折扣企业的效率竞赛，从人形机器人的成本优化到供应链金融对中小企业的赋能，技术创新与模式重构正在重塑行业价值网络。本报告洞察基于《灼识咨询：2025中国供应链金融科技行业蓝皮书》《中国银河证券：折扣业态供应链效率深度
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
Python 生态发展之路仓颉编程语言技术文章 python
目录#Python是如何炼成的##生态系统持续扩张##Python开发的开源社区运作#更加广义的Python社区#广泛应用##Web开发、数据科学##不得不提的人工智能#支持Python成长的商业公司#Python成功之路小结##附：Python生态发展大事记#参考Python是现今最受欢迎的编程语言之一，2021年8月的TIOBE编程语言排行榜中，Python排名第二，仅次于C[1]。2017年
Python生态全景图：8大主流框架优缺点及选型指南 Sammyyyyy python 开发语言 django fastapi flask
引言：Python的“万能”生态Python为何能成为当今最流行的编程语言之一？答案并非其语法本身，而在于其强大且多样化的框架生态。这个生态系统如同一片繁荣的大陆，覆盖了从Web后端到人工智能的几乎所有技术领域，让开发者能用一种语言胜任多种截然不同的任务。本文将化作一张“技术地图”，快速带你游览Python在Web开发、数据科学和网络爬虫三大领域的8个标志性框架。我们的目标是迅速掌握它们的精髓，让
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
使用Qlib基于LightGBM预测沪深300涨跌 DeepReinforce 量化投资
Qlib是一个专为量化金融和算法交易研究设计的开源库。本文配置一个基于LightGBM的梯度提升决策树（GBDT）模型，并使用金融数据集（包含158个技术指标特征）进行训练和预测。1.导入必要的模块pythonCollapseWrapRunCopyfromqlib.contrib.model.gbdtimportLGBModelfromqlib.contrib.data.handlerimport
芯片之后，AI之争的下一个战场是能源？在美的苦命程序员人工智能
在“AI大航海”时代，芯片不再是唯一的船票，能源，才是风浪背后的风向。谷歌智能体主管OmarShams在访谈中提出一个大胆观点：“真正制约AGI发展的，不是芯片，而是能源。”这句不经意的评论，或许正点破了中美AI竞赛的下一个战场。⚡️01.中美AI对决，从芯片转向能源底座在当前AI系统“狂飙”状态下，模型参数突破万亿、推理请求激增，数据中心用电量成倍上升。但在美国：电网扩容周期缓慢（约7年）新建数
【机器学习笔记Ⅰ】10 特征工程
特征工程（FeatureEngineering）详解特征工程是机器学习和数据科学中的核心环节，旨在通过对原始数据的转换、组合和提取，构建更适合模型的高质量特征。其质量直接决定模型性能上限（“数据和特征决定了模型的上限，而算法只是逼近这个上限”）。1.特征工程的核心目标提升模型性能：增强特征与目标变量的相关性。降低计算成本：减少冗余特征，加速训练。改善泛化能力：避免过拟合，提高鲁棒性。2.特征工程的
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
CASP 或将停办！蛋白质结构预测风向标大赛因 NIH 断供而前途未卜 hyperai
一项名为「蛋白质结构预测关键评估（CriticalAssessmentofproteinStructurePrediction）」的竞赛面临停办风险——正是那个AlphaFold亮剑夺魁的行业风向标大赛CASP。美东时间7月2日，Science发布独家报道称，美国国家卫生研究院（NIH）对CASP的资助已经消耗殆尽，而负责管理项目经费的加州大学戴维斯分校（UCDavis）虽然提供了紧急支持，但也将
Python爬虫抓取京东商品信息（价格、销量、评价）：从基础到高级技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化 c++
引言随着电子商务的迅速发展，爬虫技术逐渐成为数据科学、商业智能、市场分析等领域的基础工具之一。京东作为中国最大之一的电子商务平台，包含了大量的商品信息，如商品价格、销量、评价等，这些信息对市场分析、消费者行为预测等方面有着重要的意义。本篇博客将通过Python爬虫技术，详细讲解如何抓取京东商品页面的相关信息，并进一步探讨如何处理动态页面、反爬虫机制以及如何优化爬虫的性能和稳定性。1.Python爬
2022全国职业技能大赛-网络系统管理-Debian模块：Linux初始化环境搭建你可知这世上再难遇我 2022全国职业技能大赛网络系统管理-Debian linux debian
网络系统管理；debian目录前言一、竞赛简介二、初始化环境1.默认账号及密码2.操作系统配置前言网络系统管理-deban初始化网络环境一、竞赛简介1.请认真阅读以下指引！2.当比赛结束时，离开时请不要关机您的虚拟机。3.如果没有明确要求，请使用“Chinaskill21”作为默认密码。4.本模块所有的系统为已经安装的最基本的系统状态
蓝桥杯C++组算法知识点整理 · 考前突击（上）【小白适用】南星六月雪 C++学习笔记南星六月雪的手札 c++蓝桥杯开发语言算法数据结构
【背景说明】本文的作者是一名算法竞赛小白，在第一次参加蓝桥杯之前希望整理一下自己会了哪些算法，于是有了本文的诞生。分享在这里也希望与众多学子共勉。如果时间允许的话，这一系列会分为上中下三部分和大家见面，祝大家竞赛顺利！【文风说明】本文主要会用代码＋注释的方式来解释内容。相信学过编程的人都会发现程序比长篇大论更易理解！目录一、语言基础1.1编程基础1.2竞赛常用库函数1.2.1sort函数1.2.2
6.kaggle实战之房价预测温柔济沧海深度学习神经网络人工智能 python 深度学习
importhashlibimportosimporttarfileimportzipfileimportrequestsimportnumpyasnpimportpandasaspdimporttorchimportnumpyasnpfromtorchimportnnimportmatplotlib.pyplotaspltfromtorch.utils.dataimportDataLoader,
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
Python爬虫实战：研究pyparsing工具相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pyparsing 文本处理文本分析
1.引言在当今信息爆炸的时代，网络上存在着海量的非结构化文本数据。如何从这些数据中提取有价值的信息，成为了数据科学领域的一个重要研究方向。网络爬虫技术可以帮助我们自动获取这些数据，而Pyparsing则提供了强大的语法分析能力，可以将非结构化的文本转换为结构化的信息。本文将介绍一个完整的案例，展示如何使用Python的爬虫技术结合Pyparsing工具，构建一个网络内容分析系统。该系统可以爬取特定
【学无止境，每天一题】三倍子串请叫我小蜜蜂同学算法 c++
题目：三倍子串题目描述第三届上海青少年算法竞赛T4时间限制:1000ms空间限制:256mb给定一个十进制正整数n，请问可以从n中截取多少种不同的子串，使得子串构成的数字是3的倍数。例如：当n=1234，有且仅有3，12，123，234这四个子串是3的倍数。输入格式单个整数：表示输入的数字n输出格式单个整数：表示3的倍数的子串数量。数据范围对于20%的数据，1≤n≤10^9对于50%的数据，1≤n
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用
原文链接：https://tecdat.cn/?p=42891原文出处：拓端数据部落公众号分析师：ZiqiYe视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用作为数据科学领域的从业者，我们常面临这样的挑战：如何让机器真正“看懂”图像中的信息？在为客户完成服装零售行业的图像识别时，这一问题尤为突出。追溯图像识别技术的发展，早期依赖人工设计特征，如边缘检测、纹理分析等，效率低下且适
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
大模型开源与国产化突围：技术路径与产业机遇深度解析梦玄海开源架构 golang 开发语言后端大数据
引言：大模型时代的双轨竞速2023年全球大语言模型（LLM）参数量突破万亿级，GPT-4、LLaMA等模型引领技术浪潮。中国在这场竞赛中面临双重命题：既要融入全球开源生态，又要构建自主可控的技术体系。本文将从技术架构、训练范式、生态建设三个维度，深入剖析大模型开源与国产化的突围路径。一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Kaggle数据科学竞赛使用GBDT、XGBoost、Lightgbm方法预测是否可以成功申请经费

Kaggle数据科学竞赛使用GBDT、XGBoost、Lightgbm方法预测是否可以成功申请经费

数据介绍

数据处理

GBDT算法

XGBoost算法

你可能感兴趣的:(数据科学,1024程序员节,Kaggle数据科学竞赛,GBDT,xgboost,lightgbm)