医学和生信笔记

R语言倾向性评分：回归和分层

倾向性评分有4种应用，前面介绍了倾向性评分匹配及matchIt和cobalt包的使用：R语言倾向性评分：匹配

今天说一下倾向性评分回归和分层。使用了一个不是很成功的案例，并使用了大量purrr风格的代码实现。

演示数据

下面这个例子探讨不同学校对学生成绩的影响，这个数据一共有11078行，23列，我们只用其中一部分数据演示倾向性评分回归和分层。

我们用到以下几个变量：

catholic：是我们的处理因素，1是天主教（catholic）学校，0是公立（public）学校，
c5r2mtsc_std：结果变量（因变量），标准化之后的学生成绩，
race_white：是否是白人，1是0否，
w3momed_hsb：妈妈的教育水平，1高中及以下，0大学及以上，
p5hmage：妈妈的年龄，要控制的混杂因素，
w3momscr：妈妈的成绩，
w3dadscr：爸爸的成绩。

首先加载数据，已上传到QQ群，需要的加群下载即可。

library(tidyverse)

ecls <- read.csv("../000统计学/ecls.csv") %>% 
  dplyr::select(c5r2mtsc_std,catholic,race_white,w3momed_hsb,p5hmage,w3momscr,w3dadscr) %>%
  na.omit()

dim(ecls)

## [1] 5548    7

glimpse(ecls)

## Rows: 5,548
## Columns: 7
## $ c5r2mtsc_std  0.98175332, 0.59437751, 0.49061062, 1.45127793, 2.5956991…
## $ catholic      0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ race_white    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, …
## $ w3momed_hsb   0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, …
## $ p5hmage       47, 41, 43, 38, 47, 41, 31, 38, 26, 38, 27, 40, 33, 36, 4…
## $ w3momscr      53.50, 34.95, 63.43, 53.50, 61.56, 38.18, 34.95, 63.43, 3…
## $ w3dadscr      77.50, 53.50, 53.50, 53.50, 77.50, 53.50, 29.60, 33.42, 2…

原始数据的概况

首先看一下原始数据的情况。

ecls %>%
  group_by(catholic) %>%
  summarise(n_students = n(),
            mean_math = mean(c5r2mtsc_std),
            std_error = sd(c5r2mtsc_std) / sqrt(n_students))

## # A tibble: 2 × 4
##   catholic n_students mean_math std_error
##                      
## 1        0       4597     0.156    0.0144
## 2        1        951     0.221    0.0277

可以看到去公立学校的4597人，去天主教学校的才951人，并且去天主教的学校的学生成绩明显高于去公立学校的学生。

此时如果不控制混杂因素直接进行t检验，结果是有统计学意义的，但是由于基线资料不可比，一开始两组学生的各种情况就不一样，所以结果很难说明成绩不同到底是不同学校导致的还是混杂因素导致的。

with(ecls, t.test(c5r2mtsc_std ~ catholic))

## 
##  Welch Two Sample t-test
## 
## data:  c5r2mtsc_std by catholic
## t = -2.0757, df = 1508.1, p-value = 0.03809
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  -0.126029105 -0.003564746
## sample estimates:
## mean in group 0 mean in group 1 
##       0.1562757       0.2210727

我们可以看看不同组别间混杂因素的差异，首先是3个连续型变量在两组间的平均值，可以看到都是不一样的：

ecls %>%
  group_by(catholic) %>%
  select(p5hmage, w3momscr, w3dadscr) %>%
  summarise_all(list(~mean(., na.rm = T)))

## Adding missing grouping variables: `catholic`

## # A tibble: 2 × 4
##   catholic p5hmage w3momscr w3dadscr
##                 
## 1        0    37.8     43.8     42.6
## 2        1    39.8     47.5     45.8

可以看到不同组别间混杂因素明显是不同的，还可以分别对3个连续型变量做t检验，结果也显示这些混杂因素在一开始就是存在差异的。

ecls %>% 
  pivot_longer(cols = c(p5hmage,w3momscr,w3dadscr),
               names_to = "covs",
               values_to = "values"
               ) %>% 
  group_split(covs) %>% 
  map(~t.test(values ~ catholic, data = .x)) %>% 
  map_dbl("p.value")

## [1] 1.062659e-28 3.722314e-16 2.208513e-18

对于两个分类变量，我们可以看看分别在两组间的数量构成比有没有差异。

tab <- xtabs(~race_white+catholic,data = ecls)
tab

##           catholic
## race_white    0    1
##          0 1610  222
##          1 2987  729

chisq.test(tab,correct = F)

## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 48.596, df = 1, p-value = 3.145e-12

tab <- xtabs(~w3momed_hsb+catholic,data = ecls)
tab

##            catholic
## w3momed_hsb    0    1
##           0 2777  751
##           1 1820  200

chisq.test(tab,correct = F)

## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 117.24, df = 1, p-value < 2.2e-16

可以看到两个分类变量在两组间的差异是非常明显的！

所以我们现在要做的事就是控制混杂因素，让这些混杂因素变成可比的状态，不要影响我们的处理因素。

开头也说过，控制混杂因素的方法其实是很多的，比如分层、协方差分析、多因素分析等，每种情况都要具体分析，选择一种最合适的。

下面我们介绍倾向性评分回归和分层。

计算倾向性评分

倾向性评分就是倾向干预的概率，所以可以通过逻辑回归计算P，这个P就是倾向性评分，所以也不一定要用到专用的R包！

首先以处理因素（这里是catholic）为因变量，混杂因素为自变量构建逻辑回归模型：

m_ps <- glm(catholic ~ race_white+w3momed_hsb+p5hmage+w3momscr+w3dadscr,
            family = binomial(), data = ecls)

提取P，也就是倾向性评分：

prs_df <- data.frame(pr_score = predict(m_ps, type = "response"),
                     catholic = m_ps$model$catholic)
head(prs_df)

##    pr_score catholic
## 1 0.3755223        0
## 2 0.2340976        0
## 4 0.2990706        0
## 5 0.2394663        1
## 6 0.3920115        0
## 8 0.2391453        0

可以看一下不同处理因素间的P（倾向性评分）分布：

labs <- paste("Actual school type attended:", c("Catholic", "Public"))
prs_df %>%
  mutate(catholic = ifelse(catholic == 1, labs[1], labs[2])) %>%
  ggplot(aes(x = pr_score)) +
  geom_histogram(color = "white") +
  facet_wrap(~catholic) +
  xlab("Probability of going to Catholic school") +
  theme_bw()

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

plot of chunk unnamed-chunk-10

计算倾向性评分只是第一步，有了这个倾向性评分后，就可以进行下面的分析了，比如回归、匹配、加权、分层等。

可以看出我们这个PS是偏态的，其实是可以对PS做一些变换的，比如log，然后使用变换后的PS继续进行后面的分析。这里就不做变换了。

倾向性评分回归

此时如果直接把这个评分和catholic作为自变量进行回归分析，就是倾向性评分回归了（也叫协变量调整/倾向性评分矫正等）！应该是倾向性评分4种方法里面最简单的一种了。

# 计算倾向性评分
pr_score <- predict(m_ps, type = "response")

# 把倾向性评分加入到原数据中
ecls_ps <- ecls %>% 
  mutate(ps = pr_score)

# 把处理因素和倾向性评分作为自变量进行回归
psl <- lm(c5r2mtsc_std ~ catholic + ps, data = ecls_ps)
summary(psl)

## 
## Call:
## lm(formula = c5r2mtsc_std ~ catholic + ps, data = ecls_ps)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.0525 -0.5741  0.0462  0.6106  3.1468 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.58249    0.02929 -19.885  < 2e-16 ***
## catholic    -0.10772    0.03241  -3.324 0.000893 ***
## ps           4.48236    0.15873  28.239  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8934 on 5545 degrees of freedom
## Multiple R-squared:  0.1263, Adjusted R-squared:  0.126 
## F-statistic: 400.8 on 2 and 5545 DF,  p-value: < 2.2e-16

结果表明处理因素(分组变量)还是有意义的！

倾向性评分分层

顾名思义，根据PS值进行分层，然后在每层内进行分析。每一层的协变量分布可认为是同质或均衡的。先对每一层干预与结局之间的关联进行估算，然后对所有层的关联作加权平均，最后得出干预与结局之间的总的关联效应。

一般来说最好保证干预组和对照组两组的PS范围在差不多的范围内，如果相差很大，那分层效果肯定不好。比如干预组PS范围是0.5~0.9，对照组PS范围是0.01~0.4，这样两组PS完全没有交集，按照PS进行分层没啥意义。

首先看一下PS的范围：

ecls_ps %>% group_by(catholic) %>% 
  summarise(range = range(ps))

## `summarise()` has grouped output by 'catholic'. You can override
## using the `.groups` argument.

## # A tibble: 4 × 2
## # Groups:   catholic [2]
##   catholic  range
##        
## 1        0 0.0370
## 2        0 0.477 
## 3        1 0.0492
## 4        1 0.404

两组分别是0.037~0.477和0.049~0.404，范围基本一致，所以我们就直接按照总体PS的最大值和最小值进行分层，如果两组PS差很多，可以按照两组PS的交集进行分层。

文献一般建议分5-10层，可以根据PS进行平分，也可以按照百分位数进行分层，具体方法很多，大家自己看文献即可。

我们这里简单点，结合上面PS的分布图，分4层，切点就用0.1,0.2,0.3。

ecls_pslevel <- ecls_ps %>% 
  mutate(ps_level = case_when(ps<=0.1 ~ "level_1",
                              ps>0.1 & ps<=0.2 ~ "level_2",
                              ps>0.2 & ps<=0.3 ~ "level_3",
                              TRUE ~ "level_4"
                              ),
         #ps_level = factor(ps_level),
         p5hmage = as.double(p5hmage),
         across(where(is.integer), as.factor)
         )

glimpse(ecls_pslevel)

## Rows: 5,548
## Columns: 9
## $ c5r2mtsc_std  0.98175332, 0.59437751, 0.49061062, 1.45127793, 2.5956991…
## $ catholic      0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ race_white    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, …
## $ w3momed_hsb   0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, …
## $ p5hmage       47, 41, 43, 38, 47, 41, 31, 38, 26, 38, 27, 40, 33, 36, 4…
## $ w3momscr      53.50, 34.95, 63.43, 53.50, 61.56, 38.18, 34.95, 63.43, 3…
## $ w3dadscr      77.50, 53.50, 53.50, 53.50, 77.50, 53.50, 29.60, 33.42, 2…
## $ ps            0.37552233, 0.23409764, 0.29907061, 0.23946627, 0.3920115…
## $ ps_level      "level_4", "level_3", "level_3", "level_3", "level_4", "l…

分层后的数据

下面我们对每一层内的3个连续型协变量和我们的因变量进行t检验，其实这里可以直接用rstatix包解决，非常好用，但其实rstatix包就是基于purrr的，所以直接用purrr也可以。

ecls_pslevel %>% 
  pivot_longer(cols = c(1,5:7),names_to = "variates",values_to = "values") %>% 
  group_nest(ps_level,variates) %>% 
  dplyr::mutate(tt = map(data, ~ t.test(values ~ catholic,data = .x)),
                res = map_dfr(tt, broom::tidy)
                ) %>% 
  unnest(res)

## # A tibble: 16 × 14
##    ps_le…¹ varia…²        data tt      estimate estim…³ estim…⁴ statis…⁵ p.value
##                             
##  1 level_1 c5r2mt… [1,202 × 5]  -0.00108  -0.347 -0.346  -0.00973 9.92e-1
##  2 level_1 p5hmage [1,202 × 5]  -1.00     32.9   33.9    -1.66    1.02e-1
##  3 level_1 w3dads… [1,202 × 5]  -0.639    36.8   37.4    -0.886   3.79e-1
##  4 level_1 w3moms… [1,202 × 5]  -1.07     37.0   38.1    -1.40    1.67e-1
##  5 level_2 c5r2mt… [2,388 × 5]   0.0685    0.142  0.0737  1.54    1.24e-1
##  6 level_2 p5hmage [2,388 × 5]  -0.724    37.4   38.1    -2.92    3.57e-3
##  7 level_2 w3dads… [2,388 × 5]  -0.818    40.7   41.5    -1.73    8.47e-2
##  8 level_2 w3moms… [2,388 × 5]  -1.13     41.3   42.5    -2.21    2.76e-2
##  9 level_3 c5r2mt… [1,618 × 5]   0.171     0.533  0.361   3.46    5.62e-4
## 10 level_3 p5hmage [1,618 × 5]   0.00290  41.1   41.1     0.0141  9.89e-1
## 11 level_3 w3dads… [1,618 × 5]  -1.36     47.5   48.8    -2.17    3.02e-2
## 12 level_3 w3moms… [1,618 × 5]  -0.371    50.9   51.3    -0.573   5.67e-1
## 13 level_4 c5r2mt…   [340 × 5]   0.0580    0.728  0.670   0.548   5.84e-1
## 14 level_4 p5hmage   [340 × 5]   0.820    46.2   45.4     1.84    6.81e-2
## 15 level_4 w3dads…   [340 × 5]   0.868    59.6   58.7     0.582   5.62e-1
## 16 level_4 w3moms…   [340 × 5]  -0.739    60.0   60.7    -0.637   5.25e-1
## # … with 5 more variables: parameter , conf.low , conf.high ,
## #   method , alternative , and abbreviated variable names ¹ps_level,
## #   ²variates, ³estimate1, ⁴estimate2, ⁵statistic
## # ℹ Use `colnames()` to see all variable names

直接看p.value这一列，可以看到大部分都是大于0.05的，因变量c5r2mtsc_std只有在第3层是有差异的！

level_2中的p5hmage和w3momscr变量的P值是小于0.05的，level_3中的w3dadscr变量P值也是小于0.05的。

这说明我们的分层并没有很好的解决这几个混杂因素的影响，而且分层后每一层内（除了第3层）的因变量都没有差异了。。。理想的结果应该是分层后每一层内混杂因素在两组间都是没有差异的，而因变量都是有差异的！这样才能说明我们的分层很好地控制了混杂因素！

但我们的这个结果很明显很差劲！大家可以考虑不同的分层方法再重新尝试几次，或者这个数据并不适合使用这种方法，可以用其他方法试试看，比如匹配、回归等。

下面再看看分类变量，首先是race_white，在每一层内使用卡方检验，我们直接提取P值：

ecls_pslevel %>% 
  group_split(ps_level) %>% 
  map(~chisq.test(.$race_white,.$catholic,correct=F)) %>% 
  map_dbl("p.value")

## Warning in chisq.test(.$race_white, .$catholic, correct = F): Chi-squared
## approximation may be incorrect

## [1] 0.4755703 0.8423902 0.5696924 0.2667193

结果还不错，每一层内都没有差异了。

然后是w3momed_hsb这个变量，但是由于我们的分层有问题，导致level_4这一层中w3momed_hsb全都是0！

# level_4有问题
ecls_pslevel %>% 
  group_by(ps_level,w3momed_hsb,catholic) %>% 
  summarise(count=n())

## `summarise()` has grouped output by 'ps_level', 'w3momed_hsb'. You
## can override using the `.groups` argument.

## # A tibble: 14 × 4
## # Groups:   ps_level, w3momed_hsb [7]
##    ps_level w3momed_hsb catholic count
##                   
##  1 level_1  0           0           61
##  2 level_1  0           1            5
##  3 level_1  1           0         1082
##  4 level_1  1           1           54
##  5 level_2  0           0         1262
##  6 level_2  0           1          261
##  7 level_2  1           0          724
##  8 level_2  1           1          141
##  9 level_3  0           0         1192
## 10 level_3  0           1          407
## 11 level_3  1           0           14
## 12 level_3  1           1            5
## 13 level_4  0           0          262
## 14 level_4  0           1           78

所以我们就对前3层做一个统计检验吧。

ecls_pslevel %>% 
  filter(!ps_level == "level_4") %>% 
  group_split(ps_level) %>% 
  map(~chisq.test(.$w3momed_hsb,.$catholic,correct=F)) %>% 
  map_dbl("p.value")

## Warning in chisq.test(.$w3momed_hsb, .$catholic, correct = F): Chi-squared
## approximation may be incorrect

## Warning in chisq.test(.$w3momed_hsb, .$catholic, correct = F): Chi-squared
## approximation may be incorrect

## [1] 0.3022080 0.5994507 0.9316443

可以看到每一层内也是没有明显差别的。

说明我们的分层对2个分类变量的平衡效果还是可以的，但是对连续型变量的效果真是一言难尽！

总结

倾向性评分回归和分层的大致过程就是这样的，但其实很多细节我都忽略了，比如到底分几层？依据是什么？用PS还是log(PS)？

而且特地找了一个不是很成功的例子（可能不是很恰当），结果并不是很完美，还有很多可以调整测试的空间，大家可以适当修改其中的方法细节，最后得到一个比较好的结果。

实际使用时大家要根据自己的实际情况选择最合适的方法，多读文献，从文献中找灵感。

参考资料

https://sejdemyr.github.io/r-tutorials/statistics/tutorial8.html

你可能感兴趣的:(医学统计学,r语言,回归,开发语言)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
积食宝宝福音，试着坚持3件事，孩子脾胃好还消积！ MrWu_e989
许多宝妈由于第一次当父母，所以经验还是缺乏，宝宝突然不吃饭了，睡眠也变差了，还容易哭闹，有经验的家长朋友们都会说，这些都是孩子积食的表现，所以得注意了，孩子腹痛腹胀也是孩子积食的表现哦。一起了解孩子积食积食在中医学上，主要是小孩吃东西消化慢，堆积在体内，形成一种肠胃疾患，主要的表现就是腹胀、不吃饭、腹泻呕吐等等。宝宝积食危害大，长时间的积食容易影响营养的吸收，还会影响生长发育，甚至是智力发育的罪魁
2020年 12月3日渥太华阴一生守望一人
今天结课了。全面备战，准备期末考试了。最近看到纽约州立阿尔伯尼法学院和西奈山医学院有一个联合生命科学的硕士学位，有点心动，打算考完试以后找教授和相关负责人问一下。新闻方面，中国第一次实现了外太空运载器发射，嫦娥今天正式启程返家了。这也预示着我们面对载人登月又踏出了自己坚实的一步。同时，我们继美国之后在同一年制造出了量子计算机“九章”。“九章”量子计算机可以以200秒的速度计算出当前最强大超级计算机
内经简介（上）骆长珊
哈喽大家好我是骆长珊今天是2017年1月9日，今天是我每天一篇文章的第四十八篇。最近在重温《黄帝内经》，我在不断记颂原文的过程也不断的找相关资料来看。最终目的，以教为学，写出自己知道的，提神自己的觉悟。黄帝内经》是我国传统医学四大经典著作之一（《黄帝内经》、《伤寒论》、《金匮要略》、《温病条辨》），也是第一部冠以中华民族先祖“黄帝”之名的传世巨著，是我国医学宝库中现存成书最早的一部医学典籍。在理论
做事一定要认真地上的垚
大脑突然被惊醒，我猛然起身，接着发了下呆，灵魂回归后意识到：啊，今天上班要迟到了！我按了按手机发现手机已关机，略微一看，原来是昨晚充电器没插上。一件微不足道的事折射出我的粗心大意，反映了我对待事情漠不关心，草草了事的态度。许许多多的事情都需要认认真真的对待才能做好，认真是自我努力的表现。工作中，我总是不停的犯错误，我谴责自己：连这点小事都要犯错，你有什么用啊。同时也安慰自己：不过是一点小错误而已，
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
无人值守模式，自习室创业，真的那么赚钱吗？森屿旅人
“创业是一条不归路，不要拿自己亏不起的钱当赌注！”在和大家分享无人自习室创业经历前，先和大家强调上面这一句话，创过业的朋友，应该深有体会。因为，我们要深刻的认知市场规律，一个行业，如果利润很高，那必然趋之若鹜得涌入，所以在市场充分博弈以后，市场会回归价值本身，这个是市场的客观规律。因此，不要抓风口，抓风口，说实在的，和赌博无异，那些和你鼓吹风口的人，永远是把你当成一根韭菜，诚然，真正赚钱的项目，不
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
Github 2024-09-12 Go开源项目日报Top10 老孙正经胡说 github golang 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-09-12统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Go项目10C项目1Terraform：基础设施即代码的开源工具创建周期：3626天开发语言：Go协议类型：OtherStar数量：40393个Fork数量：9397次关注人数：40393人贡献人数：358人OpenIssues数量：1943个Git
只生欢喜不生愁花间星事
《只生欢喜不生愁》是我很喜欢的一本书，挺适合当下的环境阅读。作者林曦老师是位水墨画家，设计师。她1983年生于重庆，毕业于中央美术学院，年少成名，以手艺人自居。在她的这本艺术生活随笔集里，用自己的切身实践解析艺术美育的本质内涵。分享了艺术学习，写字的乐趣，专注心力的法门与修炼，用中式文人的视角观照当代生活的审美情趣及路径，讨论艺术之道与无用之美，让传统美学回归到现实生活践行中。林曦少年时办过不少画
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
认识世界陈陈_19b4
9月16日，雨。阅读书目:《真相》。作者:瑞典统计学家和医学教授汉斯·罗斯林，他的儿子奥拉·罗斯林，google公共数据团队的负责人。汉斯·罗斯林还是一位全球知名的教育家，是世界健康组织和联合国儿童基金会的顾问。他与儿子儿媳共同创办了Gapminder基金会，开发了Trendalyzer软件，将国际统计数据转化成交互式的生动有趣的图表，帮助人们以事实为基础来观察世界，被称为“可视化数据之父”。图片
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
【这里是新疆】（2）“有效光照理论”下的新疆美好生活…… 拈花老夏
图片发自App【这里是新疆】（2）“有效光照理论”下的新疆人，及新疆人们的生活……（这一篇，最好在读完上一篇后进行！前面谈“有效光照”下的植物与作物，本篇谈人，其实本为一整体，但是太长，发不出来[撇嘴]）老夏每年游学南方各省，经常听人这么说：新疆人个子就是高大，结实……其实人也与一棵植物，一棵庄稼没有根本区别！作为生命个体的代表，决定人生命的，其实一是具有能量的、高质量的食物（国际医学及科学普遍认
外卖霸王餐返利外卖会员卡小程序开发闹小艾 good506070 微信小程序小程序
外卖霸王餐返利外卖会员卡小程序开发"社交电商赋能下的外卖返利小程序"是专为商家与用户双赢而设计的创新平台。以下是其开发方案的详细步骤：一、需求梳理：首先，我们需要明确小程序的核心功能和特色。包括设定活动类型、返利策略，以及用户体验友好的界面设计。二、技术决策：技术选型是关键。我们采用小程序的开发框架，利用JavaScript作为前端开发语言，并结合微信提供的API进行后端接口调用与数据处理。三、账
【免费】springboot项目申报管理系统|毕业设计|Javaweb项目计算机学姐来啦 springboot ssm java spring boot 课程设计后端毕设毕业设计 java-ee
收藏点赞不迷路关注作者有好处编号：springboot375springboot项目申报管理系统开发语言：Java数据库：MySQL技术：Spring+SpringMVC+MyBatis工具：IDEA/Ecilpse、Navicat、Maven1.万字文档展示(部分)2.系统图片展示第5章系统详细设计5.1管理员功能模块的实现5.1.1项目列表如图5.1显示的就是项目列表页面，此页面提供给管理员的
《C++语言的设计和演化》读书感悟（一）依晴无旧 C\C++java 开发语言
写了一百多篇技术文章了，我突然想写一下和技术文搭一点关系的语言发展设计的文章，《C++语言的设计和演化》是我无聊翻自己库存电子书找到了，因为当年看这本书是C++之父写的，所以就保存下来，但是当时主要学习C++，这本书更多是C++之父从本身出发，对C++设计和演化的观点和感想，所以当时就被我扔去吃灰了。现在重拾起来，读起来别有风味。开发语言，虽然很多，但是万变不离其宗，学进去了，无非就是数据类型、控
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
因在船上做噩梦，他坚持中途下船，结果船上211人只有他幸存！三晋风云客
大家都知道，现代社会是讲究科学和逻辑的理性社会。不过依旧有一些科学无法解释的情况存在，比如英国一位神秘的巫婆，据悉她从小便有预言能力，在长大后更是预言了美国总统的人选。但是医学和科学方面并不能解释这种奇怪的现象。今天要向大家介绍的这个神秘事件，也是一个至今未能得到科学解释的谜题，它就是瓦拉塔赫失踪之谜。正文事情发生在英国，1908年，蓝猫航运公司将造船的任务委托给巴克利与柯尔公司。经过这家造船公司
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
百日共读｜Day4普济世人的中医药学 rzrzrz
01中医药学:中国人的生命科学中国传统思想文化是儒、道、释三种流派思想长期融合而来的。这三派思想，都对中医学的形成与发展影响深远，尤其是强调人与自然界协调统一的“天人合一”观，不仅是中国传统文化的精髓之一，也直接缔造了中医学的基本框架，为中医学的发展找到了出发点与归宿。02中医药风靡亚洲中医药学的传播与东医集成而自立:早在西汉时期中国与朝鲜之间就有了医药文化方面的交流，中医中药学在朝鲜半岛的传播主
十款青少年钙片产品排行榜学生生长发育钙片推荐优惠券高省
第一名：钙尔奇钙尔奇，首个进入中国的国际知名钙补充剂品牌，被众多中国医学专家和营养学专家推荐用于预防和治疗骨质疏松症，也是全球医生推荐比较多的钙制剂品牌。钙尔奇，国际知名钙补充剂品牌。来自于辉瑞中国健康药物部，前身为惠氏中国健康药物部，成立于1991年。辉瑞公司创建于1849年，是世界领先的以研发为基础的生物医学和制药公司。目前，分布于90个国家的大约80,000名辉瑞员工，致力于为全球带来更多健
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源