木舟笔记

《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下）

点击蓝字

关注我！

写在前面

本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说，本书一个很大的优势就是直接从实用的R包出发，来熟悉R及数据科学。更新过程中，读者朋友如发现错误，欢迎指正。如果有疑问，也可以在评论区留言或后台私信。希望各位读者朋友能学有所得！

BOOK

3.4

使用 select() 选择列

select() 函数对于航班数据不是特别有用，因为其中只有 19 个变量，但你还是可以通过这个数据集了解一下 select() 函数的大致用法：

1# 按名称选择列
2select(flights, year, month, day)

1# 选择“year”和“day”之间的所有列（包括“year”和“day”）
2select(flights, year:day)

1# 选择不在“year”和“day”之间的所有列（不包括“year”和“day”）
2select(flights, -(year:day))

还可以在 select () 函数中使用一些辅助函数。

• starts_with("abc") ：匹配以“abc”开头的名称。

• ends_with("xyz") ：匹配以“xyz”结尾的名称。

• contains("ijk") ：匹配包含“ijk”的名称。

• matches("(.)\\1") ：选择匹配正则表达式的那些变量。这个正则表达式会匹配名称中有重复字符的变量(后续会有正则表达式的知识)。

• num_range("x", 1:3) ：匹配 x1、x2 和 x3。

使用 ?select 命令可以获取更多信息。

select() 可以重命名变量，但我们很少这样使用它，因为这样会丢掉所有未明确提及的变量。我们应该使用 select() 函数的变体 rename() 函数来重命名变量，以保留所有未明确提及的变量：

1rename(flights, tail_num = tailnum)

另一种用法是将 select() 函数和 everything() 辅助函数结合起来使用。当想要将几个变量移到数据框开头时，这种用法非常奏效：

1select(flights, time_hour, air_time, everything())

 1> select(flights, time_hour, air_time, everything())
 2# A tibble: 336,776 x 19
 3   time_hour           air_time  year month   day dep_time sched_dep_time
 4                                     
 5 1 2013-01-01 05:00:00      227  2013     1     1      517            515
 6 2 2013-01-01 05:00:00      227  2013     1     1      533            529
 7 3 2013-01-01 05:00:00      160  2013     1     1      542            540
 8 4 2013-01-01 05:00:00      183  2013     1     1      544            545
 9 5 2013-01-01 06:00:00      116  2013     1     1      554            600
10 6 2013-01-01 05:00:00      150  2013     1     1      554            558
11 7 2013-01-01 06:00:00      158  2013     1     1      555            600
12 8 2013-01-01 06:00:00       53  2013     1     1      557            600
13 9 2013-01-01 06:00:00      140  2013     1     1      557            600
1410 2013-01-01 06:00:00      138  2013     1     1      558            600
15# ... with 336,766 more rows, and 12 more variables: dep_delay ,
16#   arr_time , sched_arr_time , arr_delay , carrier ,
17#   flight , tailnum , origin , dest , distance ,
18#   hour , minute

3.5

使用 mutate() 添加新变量

除了选择现有的列，我们还经常需要添加新列，新列是现有列的函数。这就是 mutate() 函数的作用。

mutate() 总是将新列添加在数据集的最后，因此我们需要先创建一个更狭窄的数据集，以便能够看到新变量。当使用 RStudio 时，查看所有列的最简单的方法就是使用 View()函数：

1flights_sml <- select(flights,
2                      year:day,
3                      ends_with("delay"),
4                      distance,
5                      air_time)
6
7mutate(flights_sml,
8       gain = arr_delay - dep_delay,
9       speed = distance / air_time * 60)

 1> mutate(flights_sml,
 2+        gain = arr_delay - dep_delay,
 3+        speed = distance / air_time * 60)
 4# A tibble: 336,776 x 9
 5    year month   day dep_delay arr_delay distance air_time  gain speed
 6                         
 7 1  2013     1     1         2        11     1400      227     9  370.
 8 2  2013     1     1         4        20     1416      227    16  374.
 9 3  2013     1     1         2        33     1089      160    31  408.
10 4  2013     1     1        -1       -18     1576      183   -17  517.
11 5  2013     1     1        -6       -25      762      116   -19  394.
12 6  2013     1     1        -4        12      719      150    16  288.
13 7  2013     1     1        -5        19     1065      158    24  404.
14 8  2013     1     1        -3       -14      229       53   -11  259.
15 9  2013     1     1        -3        -8      944      140    -5  405.
1610  2013     1     1        -2         8      733      138    10  319.
17# ... with 336,766 more rows

一旦创建，新列就可以立即使用：

 1> mutate(flights_sml,
 2+        gain = arr_delay - dep_delay,
 3+        hours = air_time / 60,
 4+        gain_per_hour = gain / hours)
 5# A tibble: 336,776 x 10
 6    year month   day dep_delay arr_delay distance air_time  gain hours
 7                         
 8 1  2013     1     1         2        11     1400      227     9 3.78 
 9 2  2013     1     1         4        20     1416      227    16 3.78 
10 3  2013     1     1         2        33     1089      160    31 2.67 
11 4  2013     1     1        -1       -18     1576      183   -17 3.05 
12 5  2013     1     1        -6       -25      762      116   -19 1.93 
13 6  2013     1     1        -4        12      719      150    16 2.5  
14 7  2013     1     1        -5        19     1065      158    24 2.63 
15 8  2013     1     1        -3       -14      229       53   -11 0.883
16 9  2013     1     1        -3        -8      944      140    -5 2.33 
1710  2013     1     1        -2         8      733      138    10 2.3  
18# ... with 336,766 more rows, and 1 more variable: gain_per_hour

如果只想保留新变量，可以使用 transmute() 函数：

 1> transmute(flights,
 2+           gain = arr_delay - dep_delay,
 3+           hours = air_time / 60,
 4+           gain_per_hour = gain / hours)
 5# A tibble: 336,776 x 3
 6    gain hours gain_per_hour
 7             
 8 1     9 3.78           2.38
 9 2    16 3.78           4.23
10 3    31 2.67          11.6 
11 4   -17 3.05          -5.57
12 5   -19 1.93          -9.83
13 6    16 2.5            6.4 
14 7    24 2.63           9.11
15 8   -11 0.883        -12.5 
16 9    -5 2.33          -2.14
1710    10 2.3            4.35
18# ... with 336,766 more rows

3.5.1

常用创建函数

创建新变量的多种函数可供你同 mutate() 一同使用。最重要的一点是，这种函数必须是向量化的：它必须接受一个向量作为输入，并返回一个向量作为输出，而且输入向量与输出向量具有同样数目的分量。下面是比较常用的函数。

算术运算符：+、-、*、/、^
模运算符：%/% 和 %%
%/%（整数除法）和 %%（求余）满足 x == y * (x %/% y) + (x %% y)。模运算可以拆分整数。例如，在航班数据集中，你可以根据 dep_time 计算出 hour 和 minute：

 1> transmute(flights,
 2+           dep_time,
 3+           hour = dep_time %/% 100,
 4+           minute = dep_time %% 100)
 5# A tibble: 336,776 x 3
 6   dep_time  hour minute
 7         
 8 1      517     5     17
 9 2      533     5     33
10 3      542     5     42
11 4      544     5     44
12 5      554     5     54
13 6      554     5     54
14 7      555     5     55
15 8      557     5     57
16 9      557     5     57
1710      558     5     58
18# ... with 336,766 more rows

对数函数：log()、log2() 和 log10()
偏移函数
lead() 和 lag() 函数可以返回一个序列的领先值和滞后值。它们可以计算出序列的移动差值（如 x – lag(x)）或发现序列何时发生了变化（x != lag(x)）。

1> (x <- 1:10)
2 [1]  1  2  3  4  5  6  7  8  9 10
3> lag(x)
4 [1] NA  1  2  3  4  5  6  7  8  9
5> lead(x)
6 [1]  2  3  4  5  6  7  8  9 10 NA

累加和滚动聚合
R 提供了计算累加和、累加积、累加最小值和累加最大值的函数：cumsum()、cumprod()、commin() 和 cummax()；dplyr 还提供了 cummean() 函数以计算累加均值。如果想要计算滚动聚合（即滚动窗口求和），那么可以尝试使用 RcppRoll 包：

1> x
2 [1]  1  2  3  4  5  6  7  8  9 10
3> cumsum(x)
4 [1]  1  3  6 10 15 21 28 36 45 55
5> cummean(x)
6 [1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

逻辑比较：<、<=、>、>= 和 !=
排秩
排秩函数有很多，最常用的是min_rank()函数。它可以完成最常用的排秩任务 (如第一、第二、第三、第四)。默认的排秩方式是，最小的值获得最前面的名次，使用desc(x) 可以让最大的值获得最前面的名次：

1> y <- c(1, 2, 2, NA, 3, 4)
2> min_rank(y)
3[1]  1  2  2 NA  4  5
4> min_rank(desc(y))
5[1]  5  3  3 NA  2  1

如果 min_rank() 无法满足需要，那么可以看一下其变体row_number()、dense_rank()、percent_rank()、cume_dist() 和 ntile()。可以查看它们的帮助页面以获得更多信息

1> row_number(y)
2[1]  1  2  3 NA  4  5
3> dense_rank(y)
4[1]  1  2  2 NA  3  4
5> percent_rank(y)
6[1] 0.00 0.25 0.25   NA 0.75 1.00
7> cume_dist(y)
8[1] 0.2 0.6 0.6  NA 0.8 1.0

3.6

使用 summarize() 进行分组摘要

最后一个核心函数是 summarize()，它可以将数据框折叠成一行：

1> summarize(flights, delay = mean(dep_delay, na.rm = TRUE))
2# A tibble: 1 x 1
3  delay
4  
51  12.6

group_by() 可以将分析单位从整个数据集更改为单个分组。接下来，在分组后的数据框上使用 dplyr 函数时，它们会自动地应用到每个分组。例如，如果对按日期分组的一个数据框应用与上面完全相同的代码，那么我们就可以得到每日平均延误时间：

 1> by_day <- group_by(flights, year, month, day)
 2> summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))
 3`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)
 4# A tibble: 365 x 4
 5# Groups:   year, month [12]
 6    year month   day delay
 7      
 8 1  2013     1     1 11.5 
 9 2  2013     1     2 13.9 
10 3  2013     1     3 11.0 
11 4  2013     1     4  8.95
12 5  2013     1     5  5.73
13 6  2013     1     6  7.15
14 7  2013     1     7  5.42
15 8  2013     1     8  2.55
16 9  2013     1     9  2.28
1710  2013     1    10  2.84
18# ... with 355 more rows

group_by() 和 summarize() 的组合构成了使用 dplyr 包时最常用的操作之一：分组摘要。

3.6.1

使用管道组合多种操作

例子：每个目的地的距离和平均延误时间之间的关系。

 1by_dest <- group_by(flights, dest) #按照目的地对航班进行分组
 2delay <- summarize(by_dest,
 3                   count = n(),
 4                   dist = mean(distance, na.rm = TRUE),
 5                   delay = mean(arr_delay, na.rm = TRUE)
 6) # 进行摘要统计，计算距离、平均延误时间和航班数量。
 7
 8delay <- filter(delay, count > 20, dest != "HNL") 
 9#通过筛选除去噪声点和火奴鲁鲁机场，因为到达该机场的距离几乎是到离它最近机场的
10#距离的 2 倍。
11ggplot(data = delay, mapping = aes(x = dist, y = delay)) +
12  geom_point(aes(size = count), alpha = 1/3) +
13  geom_smooth(se = FALSE) #画图并添加曲线

使用管道，%>%，可以使代码更加简洁：

1delays <- flights %>%
2 group_by(dest) %>%
3 summarize(
4 count = n(),
5 dist = mean(distance, na.rm = TRUE),
6 delay = mean(arr_delay, na.rm = TRUE)
7) %>%
8filter(count > 20, dest != "HNL")

你可以将其读作一串命令式语句：分组，然后摘要统计，然后进行筛选。在阅读代码时，%>% 最好读作“然后”。

使用这种方法时，x %>% f(y) 会转换为 f(x, y)，x %>% f(y) %>% g(z) 会转换为 g(f(x, y), z)，以此类推。

3.6.2

缺失值

我们在前面使用了参数 na.rm 。如果没有设置这个参数，会发生什么情况呢？

 1> flights %>%
 2+   group_by(year, month, day) %>%
 3+   summarize(mean = mean(dep_delay))
 4`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)
 5# A tibble: 365 x 4
 6# Groups:   year, month [12]
 7    year month   day  mean
 8      
 9 1  2013     1     1    NA
10 2  2013     1     2    NA
11 3  2013     1     3    NA
12 4  2013     1     4    NA
13 5  2013     1     5    NA
14 6  2013     1     6    NA
15 7  2013     1     7    NA
16 8  2013     1     8    NA
17 9  2013     1     9    NA
1810  2013     1    10    NA
19# ... with 355 more rows

我们会得到很多缺失值！这是因为聚合函数遵循缺失值的一般规则：如果输入中有缺失值，那么输出也会是缺失值。好在所有聚合函数都有一个 na.rm 参数，它可以在计算前除去缺失值。

 1> flights %>%
 2+   group_by(year, month, day) %>%
 3+   summarize(mean = mean(dep_delay, na.rm = TRUE))
 4`summarise()` regrouping output by 'year', 'month' (override with `.groups` argument)
 5# A tibble: 365 x 4
 6# Groups:   year, month [12]
 7    year month   day  mean
 8      
 9 1  2013     1     1 11.5 
10 2  2013     1     2 13.9 
11 3  2013     1     3 11.0 
12 4  2013     1     4  8.95
13 5  2013     1     5  5.73
14 6  2013     1     6  7.15
15 7  2013     1     7  5.42
16 8  2013     1     8  2.55
17 9  2013     1     9  2.28
1810  2013     1    10  2.84
19# ... with 355 more rows

当然，我们也可以通过先去除缺失值（本例为取消的航班）来解决缺失值问题。

1not_cancelled <- flights %>%
2 filter(!is.na(dep_delay), !is.na(arr_delay))

3.6.3

计数

聚合操作中包括一个计数（n()）或非缺失值的计数（sum(!is_na())）可以确保自己没有基于非常少量的数据作出结论。例如，我们查看一下具有最长平均延误时间的飞机（通过机尾编号进行识别）：

1delays <- not_cancelled %>% #去掉NA的数据
2  group_by(tailnum) %>%
3  summarize(
4    delay = mean(arr_delay)
5  )
6delays
7
8ggplot(data = delays, mapping = aes(x = delay)) +
9  geom_freqpoly(binwidth = 10)

我们可以画一张航班数量和平均延误时间的散点图：

1delays <- not_cancelled %>%
2  group_by(tailnum) %>%
3  summarize(
4    delay = mean(arr_delay, na.rm = TRUE),
5    n = n()
6  )
7ggplot(data = delays, mapping = aes(x = n, y = delay)) +
8  geom_point(alpha = 1/10)

结果并不出乎意料，当航班数量非常少时，平均延误时间的变动特别大。这张图的形状非常能够说明问题：当绘制均值（或其他摘要统计量）和分组规模的关系时，你总能看到随着样本量的增加，变动在不断减小。

3.6.4

常用的摘要函数

只使用均值、计数和求和是远远不够的，R 中还提供了很多其他的常用的摘要函数。

位置度量： mean(x)，median(x)
分散程度度量：sd(x)、IQR(x) 和 mad(x)
均方误差（又称标准误差，standard deviation，sd）是分散程度的标准度量方式。四分位距 IQR() 和绝对中位差 mad(x) 基本等价，更适合有离群点的情况。

 1# 为什么到某些目的地的距离比到其他目的地更多变？
 2not_cancelled %>%
 3  group_by(dest) %>%
 4  summarize(distance_sd = sd(distance)) %>%
 5  arrange(desc(distance_sd))
 6
 7> not_cancelled %>%
 8+   group_by(dest) %>%
 9+   summarize(distance_sd = sd(distance)) %>%
10+   arrange(desc(distance_sd))
11`summarise()` ungrouping output (override with `.groups` argument)
12# A tibble: 104 x 2
13   dest  distance_sd
14          
15 1 EGE         10.5 
16 2 SAN         10.4 
17 3 SFO         10.2 
18 4 HNL         10.0 
19 5 SEA          9.98
20 6 LAS          9.91
21 7 PDX          9.87
22 8 PHX          9.86
23 9 LAX          9.66
2410 IND          9.46
25# ... with 94 more rows

秩的度量：min(x)、quantile(x, 0.25) 和 max(x)
分位数是中位数的扩展。例如，quantile(x, 0.25) 会找出 x 中按从小到大顺序大于前 25% 而小于后 75% 的值
定位度量：first(x)、nth(x, 2) 和 last(x)
计数：
n() ，它不需要任何参数，并返回当前分组的大小。如果想要计算出非缺失值的数量，可以使用 sum(!is.na(x))。要想计算出唯一值的数量，可以使用 n_ distinct(x)：

1# 哪个目的地具有最多的航空公司？
2not_cancelled %>%
3 group_by(dest) %>%
4 summarize(carriers = n_distinct(carrier)) %>%
5 arrange(desc(carriers))

dplyr 提供了一个简单的辅助函数，用于只需要计数的情况：

1not_cancelled %>%
2 count(dest)

还可以选择提供一个加权变量。例如，你可以使用以下代码算出每架飞机飞行的总里程数（实际上就是求和）：

1not_cancelled %>%
2 count(tailnum, wt = distance)

逻辑值的计数和比例：sum(x > 10) 和 mean(y == 0)

1# 多少架航班是在早上5点前出发的？（这通常表明前一天延误的航班数量）
2not_cancelled %>%
3 group_by(year, month, day) %>%
4 summarize(n_early = sum(dep_time < 500))
5
6# 延误超过1小时的航班比例是多少？
7not_cancelled %>%
8 group_by(year, month, day) %>%
9 summarize(hour_perc = mean(arr_delay > 60))

3.6.5

按多个变量分组

当使用多个变量进行分组时，每次的摘要统计会用掉一个分组变量。这样就可以轻松地对数据集进行循序渐进的分析：

1daily <- group_by(flights, year, month, day)
2(per_day <- summarize(daily, flights = n()))
3
4(per_month <- summarize(per_day, flights = sum(flights)))
5
6(per_year <- summarize(per_month, flights = sum(flights)))

在循序渐进地进行摘要分析时，需要小心：使用求和与计数操作是没问题的，但如果想要使用加权平均和方差的话，就要仔细考虑一下，在基于秩的统计数据（如中位数）上是无法进行这些操作的。换句话说，对分组求和的结果再求和就是对整体求和，但分组中位数的中位数可不是整体的中位数。

3.6.6

取消分组

如果想要取消分组，并回到未分组的数据继续操作，那么可以使用 ungroup() 函数：

1daily %>%
2  ungroup() %>% # 不再按日期分组
3  summarize(flights = n()) # 所有航班

3.7

分组新变量（和筛选器)

虽然与 summarize() 函数结合起来使用是最有效的，但分组也可以与 mutate() 和 filter()函数结合，以完成非常便捷的操作。

找出每个分组中最差的成员：

1flights_sml %>%
2 group_by(year, month, day) %>%
3 filter(rank(desc(arr_delay)) < 10)

找出大于某个阈值的所有分组：

1popular_dests <- flights %>%
2 group_by(dest) %>%
3 filter(n() > 365)

对数据进行标准化以计算分组指标：

1popular_dests %>%
2 filter(arr_delay > 0) %>%
3 mutate(prop_delay = arr_delay / sum(arr_delay)) %>%
4 select(year:day, dest, arr_delay, prop_delay)

— END —

往期 · 推荐

《R数据科学》学习笔记|Note1:绪论

《R数据科学》学习笔记|Note2:使用ggplot2进行数据可视化(上）

《R数据科学》学习笔记|Note3:使用ggplot2进行数据可视化(下）

《R数据科学》学习笔记|Note4:使用dplyr进行数据转换(上）

零基础"机器学习"自学笔记|Note5:多变量线性回归

零基础"机器学习"自学笔记|Note6:正规方程及其推导(内附详细推导过程)

欢迎关注木舟笔记

你可能感兴趣的:(python,数据分析,人工智能,机器学习,数据挖掘)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1