R语言中文社区

时间序列分析工具箱—— h2o + timetk

作者：徐瑞龙，量化分析师，R语言中文社区专栏作者

博客专栏：

https://www.cnblogs.com/xuruilong100

本文翻译自《Demo Week: Time Series Machine Learning with h2o and timetk》

原文链接：https://www.business-science.io/code-tools/2017/10/28/demo_week_h2o.html

文字和代码略有删改

`h2o` 的用途

h2o 包是 H2O.ai 提供的产品，包含许多先进的机器学习算法，表现指标和辅助函数，使机器学习功能强大而且容易使用。h2o 的主要优点之一是它可以部署在集群上（今天不会讨论），从 R 的角度来看，有四个主要用途：

数据操作：拼接、分组、旋转、传输、拆分成训练 / 测试 / 验证集，等等。
机器学习算法：包含非常复杂的监督和非监督学习算法。监督学习算法包括深度学习（神经网络）、随机森林、广义线性模型、梯度增强机、朴素贝叶斯分析、模型堆叠集成和 xgboost；无监督算法包括广义低秩模型、k 均值模型和 PCA；还有 Word2vec 用于文本分析。最新的稳定版本还有 AutoML——自动机器学习，我们将在这篇文章中看到这个非常酷的功能！
辅助机器学习功能：表现分析和超参数网格搜索。
产品、MapReduce 和云：Java 环境下进行产品化；使用 Hadoop / Spark（Sparkling Water）进行集群部署；在云环境（Azure、AWS、Databricks 等）中部署。

我们将讨论如何将 h2o 用作时间序列机器学习的一种高级算法。我们将在本地使用 h2o，在先前关于 timetk 和 sweep 的教程中使用的数据集（beer_sales_tbl）上开发一个高精度的时间序列模型。这是一个监督学习的回归问题。

加载包

我们需要三个包：

h2o：机器学习算法包
tidyquant：用于获取数据和加载 tidyverse 系列工具
timetk：R 中的时间序列工具箱

安装 `h2o`

推荐在 ubuntu 环境下安装最新稳定版 h2o。

加载包

# Load libraries library(h2o) # Awesome ML Library library(timetk) # Toolkit for working with time series in R library(tidyquant) # Loads tidyverse, financial pkgs, used to get data

数据

我们使用 tidyquant 的函数 tq_get()，获取 FRED 的数据——啤酒、红酒和蒸馏酒销售。

# Beer, Wine, Distilled Alcoholic Beverages, in Millions USD beer_sales_tbl <- tq_get( "S4248SM144NCEN", get = "economic.data", from = "2010-01-01", to = "2017-10-27") beer_sales_tbl

## # A tibble: 92 x 2 ## date price ## ## 1 2010-01-01 6558 ## 2 2010-02-01 7481 ## 3 2010-03-01 9475 ## 4 2010-04-01 9424 ## 5 2010-05-01 9351 ## 6 2010-06-01 10552 ## 7 2010-07-01 9077 ## 8 2010-08-01 9273 ## 9 2010-09-01 9420 ## 10 2010-10-01 9413 ## # ... with 82 more rows

可视化是一个好主意，我们要知道我们正在使用的是什么数据，这对于时间序列分析和预测尤为重要，并且最好将数据分成训练、测试和验证集。

# Plot Beer Sales with train, validation, and test sets shown beer_sales_tbl %>% ggplot(aes(date, price)) + # Train Region annotate( "text", x = ymd("2012-01-01"), y = 7000, color = palette_light()[[1]], label = "Train Region") + # Validation Region geom_rect( xmin = as.numeric(ymd("2016-01-01")), xmax = as.numeric(ymd("2016-12-31")), ymin = 0, ymax = Inf, alpha = 0.02, fill = palette_light()[[3]]) + annotate( "text", x = ymd("2016-07-01"), y = 7000, color = palette_light()[[1]], label = "Validation\nRegion") + # Test Region geom_rect( xmin = as.numeric(ymd("2017-01-01")), xmax = as.numeric(ymd("2017-08-31")), ymin = 0, ymax = Inf, alpha = 0.02, fill = palette_light()[[4]]) + annotate( "text", x = ymd("2017-05-01"), y = 7000, color = palette_light()[[1]], label = "Test\nRegion") + # Data geom_line(col = palette_light()[1]) + geom_point(col = palette_light()[1]) + geom_ma(ma_fun = SMA, n = 12, size = 1) + # Aesthetics theme_tq() + scale_x_date( date_breaks = "1 year", date_labels = "%Y") + labs(title = "Beer Sales: 2007 through 2017", subtitle = "Train, Validation, and Test Sets Shown")

现在我们对数据有了直观的认识，让我们继续吧。

教程：`h2o` + `timetk`，时间序列机器学习

我们的时间序列机器学习项目遵循的工作流与之前 timetk + 线性回归文章中的类似。但是，这次我们将用 h2o.autoML() 替换 lm() 函数以获得更高的准确性。

时间序列机器学习

时间序列机器学习是预测时间序列数据的好方法，在开始之前，先明确教程的两个关键问题：

关键洞察：时间序列签名——将时间戳信息逐列扩展，成为特征集，用于执行机器学习算法。
目标：我们将用时间序列签名预测未来 8 个月的数据，并和先前教程中出现的两种方法（即 timetk + lm() 和 sweep + auto.arima()）的预测结果作对比。

下面，我们将经历一遍执行时间序列机器学习的工作流。

STEP 0：检查数据

作为分析的起点，先用 glimpse() 打印出 beer_sales_tbl，获得数据的第一印象。

# Starting point beer_sales_tbl %>% glimpse()

## Observations: 92 ## Variables: 2 ## $ date 2010-01-01, 2010-02-01, 2010-03-01, 2010-04-01, 20... ## $ price 6558, 7481, 9475, 9424, 9351, 10552, 9077, 9273, 94...

STEP 1：扩充时间序列签名

tk_augment_timeseries_signature() 函数将时间戳信息逐列扩展成机器学习所用的特征集，将时间序列信息列添加到原始数据框。再次使用 glimpse() 进行快速检查。现在有了 30 个特征，有些特征很重要，但并非所有特征都重要。

# Augment (adds data frame columns) beer_sales_tbl_aug <- beer_sales_tbl %>% tk_augment_timeseries_signature() beer_sales_tbl_aug %>% glimpse()

## Observations: 92 ## Variables: 30 ## $ date 2010-01-01, 2010-02-01, 2010-03-01, 2010-04-01... ## $ price 6558, 7481, 9475, 9424, 9351, 10552, 9077, 9273... ## $ index.num 1262304000, 1264982400, 1267401600, 1270080000,... ## $ diff NA, 2678400, 2419200, 2678400, 2592000, 2678400... ## $ year 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010,... ## $ year.iso 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010,... ## $ half 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1,... ## $ quarter 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 1, 1, 1, 2,... ## $ month 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3,... ## $ month.xts 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 0, 1, 2, ... ## $ month.lbl January, February, March, April, May, June, Jul... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ hour 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ minute 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ second 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ hour12 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ am.pm 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ wday 6, 2, 2, 5, 7, 3, 5, 1, 4, 6, 2, 4, 7, 3, 3, 6,... ## $ wday.xts 5, 1, 1, 4, 6, 2, 4, 0, 3, 5, 1, 3, 6, 2, 2, 5,... ## $ wday.lbl Friday, Monday, Monday, Thursday, Saturday, Tue... ## $ mday 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ qday 1, 32, 60, 1, 31, 62, 1, 32, 63, 1, 32, 62, 1, ... ## $ yday 1, 32, 60, 91, 121, 152, 182, 213, 244, 274, 30... ## $ mweek 5, 6, 5, 5, 5, 6, 5, 5, 5, 5, 6, 5, 5, 6, 5, 5,... ## $ week 1, 5, 9, 13, 18, 22, 26, 31, 35, 40, 44, 48, 1,... ## $ week.iso 53, 5, 9, 13, 17, 22, 26, 30, 35, 39, 44, 48, 5... ## $ week2 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1,... ## $ week3 1, 2, 0, 1, 0, 1, 2, 1, 2, 1, 2, 0, 1, 2, 0, 1,... ## $ week4 1, 1, 1, 1, 2, 2, 2, 3, 3, 0, 0, 0, 1, 1, 1, 1,... ## $ mday7 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...

STEP 2：为 `h2o` 准备数据

我们需要以 h2o 的格式准备数据。首先，让我们删除任何不必要的列，如日期列或存在缺失值的列，并将有序类型的数据更改为普通因子。我们推荐用 dplyr 操作这些步骤。

beer_sales_tbl_clean <- beer_sales_tbl_aug %>% select_if(~ !is.Date(.)) %>% select_if(~ !any(is.na(.))) %>% mutate_if(is.ordered, ~ as.character(.) %>% as.factor) beer_sales_tbl_clean %>% glimpse()

## Observations: 92 ## Variables: 28 ## $ price 6558, 7481, 9475, 9424, 9351, 10552, 9077, 9273... ## $ index.num 1262304000, 1264982400, 1267401600, 1270080000,... ## $ year 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010,... ## $ year.iso 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010,... ## $ half 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1,... ## $ quarter 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4, 1, 1, 1, 2,... ## $ month 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3,... ## $ month.xts 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 0, 1, 2, ... ## $ month.lbl January, February, March, April, May, June, Ju... ## $ day 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ hour 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ minute 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ second 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ hour12 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,... ## $ am.pm 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ wday 6, 2, 2, 5, 7, 3, 5, 1, 4, 6, 2, 4, 7, 3, 3, 6,... ## $ wday.xts 5, 1, 1, 4, 6, 2, 4, 0, 3, 5, 1, 3, 6, 2, 2, 5,... ## $ wday.lbl Friday, Monday, Monday, Thursday, Saturday, Tu... ## $ mday 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,... ## $ qday 1, 32, 60, 1, 31, 62, 1, 32, 63, 1, 32, 62, 1, ... ## $ yday 1, 32, 60, 91, 121, 152, 182, 213, 244, 274, 30... ## $ mweek 5, 6, 5, 5, 5, 6, 5, 5, 5, 5, 6, 5, 5, 6, 5, 5,... ## $ week 1, 5, 9, 13, 18, 22, 26, 31, 35, 40, 44, 48, 1,... ## $ week.iso 53, 5, 9, 13, 17, 22, 26, 30, 35, 39, 44, 48, 5... ## $ week2 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1,... ## $ week3 1, 2, 0, 1, 0, 1, 2, 1, 2, 1, 2, 0, 1, 2, 0, 1,... ## $ week4 1, 1, 1, 1, 2, 2, 2, 3, 3, 0, 0, 0, 1, 1, 1, 1,... ## $ mday7 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,...

让我们在可视化之前按照时间范围将数据分成训练、验证和测试集。

# Split into training, validation and test sets train_tbl <- beer_sales_tbl_clean %>% filter(year < 2016) valid_tbl <- beer_sales_tbl_clean %>% filter(year == 2016) test_tbl <- beer_sales_tbl_clean %>% filter(year == 2017)

STEP 3：`h2o` 模型

首先，启动 h2o。这将初始化 h2o 使用的 java 虚拟机。

h2o.init()# Fire up h2o

## Connection successful! ## ## R is connected to the H2O cluster: ## H2O cluster uptime: 46 minutes 4 seconds ## H2O cluster version: 3.14.0.3 ## H2O cluster version age: 1 month and 5 days ## H2O cluster name: H2O_started_from_R_mdancho_pcs046 ## H2O cluster total nodes: 1 ## H2O cluster total memory: 3.51 GB ## H2O cluster total cores: 4 ## H2O cluster allowed cores: 4 ## H2O cluster healthy: TRUE ## H2O Connection ip: localhost ## H2O Connection port: 54321 ## H2O Connection proxy: NA ## H2O Internal Security: FALSE ## H2O API Extensions: Algos, AutoML, Core V3, Core V4 ## R Version: R version 3.4.1 (2017-06-30)

h2o.no_progress() # Turn off progress bars

将数据转成 H2OFrame 对象，使得 h2o 包可以读取。

# Convert to H2OFrame objects train_h2o <- as.h2o(train_tbl) valid_h2o <- as.h2o(valid_tbl) test_h2o <- as.h2o(test_tbl)

为目标和预测变量命名。

# Set names for h2o y <- "price" x <- setdiff(names(train_h2o), y)

我们将使用 h2o.automl，在数据上尝试任何回归模型。

x = x：特征列的名字
y = y：目标列的名字
training_frame = train_h2o：训练集，包括 2010 - 2016 年的数据
validation_frame = valid_h2o：验证集，包括 2016 年的数据，用于避免模型的过度拟合
leaderboard_frame = test_h2o：模型基于测试集上 MAE 的表现排序
max_runtime_secs = 60：设置这个参数用于加速 h2o 模型计算。算法背后有大量复杂模型需要计算，所以我们以牺牲精度为代价，保证模型可以正常运转。
stopping_metric = "deviance"：把偏离度作为停止指标，这可以改善结果的 MAPE。

# linear regression model used, but can use any model automl_models_h2o <- h2o.automl( x = x, y = y, training_frame = train_h2o, validation_frame = valid_h2o, leaderboard_frame = test_h2o, max_runtime_secs = 60, stopping_metric = "deviance")

接着，提取主模型。

# Extract leader model automl_leader <- automl_models_h2o@leader

STEP 4：预测

使用 h2o.predict() 在测试数据上产生预测。

pred_h2o <- h2o.predict( automl_leader, newdata = test_h2o)

STEP 5：评估表现

有几种方法可以评估模型表现，这里，将通过简单的方法，即 h2o.performance()。这产生了预设值，这些预设值通常用于比较回归模型，包括均方根误差（RMSE）和平均绝对误差（MAE）。

h2o.performance( automl_leader, newdata = test_h2o)

## H2ORegressionMetrics: gbm ## ## MSE: 340918.3 ## RMSE: 583.8821 ## MAE: 467.8388 ## RMSLE: 0.04844583 ## Mean Residual Deviance : 340918.3

我们偏好的评估指标是平均绝对百分比误差（MAPE），未包括在上面。但是，我们可以轻易计算出来。我们可以查看测试集上的误差（实际值 vs 预测值）。

# Investigate test error error_tbl <- beer_sales_tbl %>% filter(lubridate::year(date) == 2017) %>% add_column( pred = pred_h2o %>% as.tibble() %>% pull(predict)) %>% rename(actual = price) %>% mutate( error = actual - pred, error_pct = error / actual) error_tbl

## # A tibble: 8 x 5 ## date actual pred error error_pct ## ## 1 2017-01-01 8664 8241.261 422.7386 0.048792541 ## 2 2017-02-01 10017 9495.047 521.9534 0.052106763 ## 3 2017-03-01 11960 11631.327 328.6726 0.027480989 ## 4 2017-04-01 11019 10716.038 302.9619 0.027494498 ## 5 2017-05-01 12971 13081.857 -110.8568 -0.008546509 ## 6 2017-06-01 14113 12796.170 1316.8296 0.093306142 ## 7 2017-07-01 10928 10727.804 200.1962 0.018319563 ## 8 2017-08-01 12788 12249.498 538.5016 0.042109915

为了比较，我们计算了一些残差度量指标。

error_tbl %>% summarise( me = mean(error), rmse = mean(error^2)^0.5, mae = mean(abs(error)), mape = mean(abs(error_pct)), mpe = mean(error_pct)) %>% glimpse()

## Observations: 1 ## Variables: 5 ## $ me 440.1246 ## $ rmse 583.8821 ## $ mae 467.8388 ## $ mape 0.03976961 ## $ mpe 0.03763299

STEP 6：可视化预测结果

最后，可视化我们得到的预测结果。

beer_sales_tbl %>% ggplot(aes(x = date, y = price)) + # Data - Spooky Orange geom_point(col = palette_light()[1]) + geom_line(col = palette_light()[1]) + geom_ma( n = 12) + # Predictions - Spooky Purple geom_point( aes(y = pred), col = palette_light()[2], data = error_tbl) + geom_line( aes(y = pred), col = palette_light()[2], data = error_tbl) + # Aesthetics theme_tq() + labs( title = "Beer Sales Forecast: h2o + timetk", subtitle = "H2O had highest accuracy, MAPE = 3.9%")

最终的胜利者是...

h2o + timetk 的 MAPE 优于先前两个教程中的方法：

timetk + h2o：MAPE = 3.9%（本教程）
timetk + linear regression：MAPE = 4.3%（时间序列分析工具箱——timetk）
sweep + ARIMA：MAPE = 4.3%（时间序列分析工具箱——sweep）

感兴趣的读者要问一个问题：对所有三种不同方法的预测进行平均时，准确度会发生什么变化？

请注意，时间序列机器学习的准确性可能并不总是优于 ARIMA 和其他预测技术，包括那些由 prophet（Facebook 开发的预测工具）和 GARCH 方法实现的技术。数据科学家有责任测试不同的方法并为工作选择合适的工具。

往期回顾

时间序列分析工具箱——timetk

时间序列分析工具箱——tidyquant

时间序列分析工具箱——sweep

时间序列分析工具箱——tibbletime

基于 Keras 用深度学习预测时间序列

基于 Keras 用 LSTM 网络做时间序列预测

时间序列深度学习：状态 LSTM 模型预测太阳黑子(一）

时间序列深度学习：状态 LSTM 模型预测太阳黑子(二）

时间序列深度学习：seq2seq 模型预测太阳黑子

R中的设计模式

理解 LSTM 及其图示

公众号后台回复关键字即可学习

回复爬虫         爬虫三大案例实战
回复 Python 1小时破冰入门

回复数据挖掘   R语言入门及数据挖掘
回复人工智能   三个月入门人工智能
回复数据分析师  数据分析师成长之路
回复机器学习      机器学习的商业应用
回复数据科学      数据科学实战
回复常用算法      常用数据挖掘算法

你可能感兴趣的:(时间序列分析工具箱—— h2o + timetk)

Python桌面应用程序中的自动化测试 master_chenchengg python python 办公效率 python开发 IT
Python桌面应用程序中的自动化测试一、自动化测试的魅力与Python的不解之缘为什么Python是自动化测试的首选？Python在桌面应用程序测试中的独特优势二、Python自动化测试工具箱：武装到牙齿Selenium与PyAutoGUI：双剑合璧的威力unittest与pytest：构建坚固的测试框架使用mock和fixture进行隔离测试三、实战演练：Python打造桌面应用自动化测试第一
Kutools：替代重复操作，搞定原生 Office 搞不定的事批量删空白行多功能小飞软件园电脑开源软件社交电子
各位办公打工人！今天给大家介绍个超厉害的办公神器——Kutools！它是专门给MicrosoftOffice设计的效率增强插件合集，里面有Excel、Word、Outlook这些组件工具包。它的核心功能老强大了，集成了好几百个一键式操作，能把那些复杂任务简单得不能再简单，办公效率直接起飞！下面给大家详细说说它的核心功能分类哈。软件下载地址安装包先说说Excel工具箱，这里面高级功能超过300项呢！
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
python 为什么推荐使用虚拟环境（如 venv）？它解决了什么问题？冰糖心书房 Python python 虚拟环境
简单来说，虚拟环境（VirtualEnvironment）是一个独立的、隔离的Python运行环境。我们可以把它想象成一个“项目专属工具箱”。你正在盖一栋房子（项目A），需要特定型号的螺丝刀和锤子（依赖库版本）。然后你又要去修一辆车（项目B），需要另一套完全不同的工具。你肯定不希望把所有工具都混在一个大箱子里，那样会造成混乱和冲突。虚拟环境就是为你的每个项目（房子、车）创建一个专属的、干净的工具箱
Google AI 刚刚开源 MCP 数据库工具箱，让 AI 代理安全高效地查询数据库新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/https://github.com/googleapis/genai-toolboxG
★★★【酷安精品，雪豹速清】 1.6.0.0 | 安卓11文件管理及清理工具★★★ weixin_48801999 人工智能
软件经过测试可用，时间9月4日，请勿更新，勿忘点个赞，因为为修改软件，华为等机型无法适用于，且时间久了不可以使用为正常现象！雪豹速清app，目前评分很高的一款安卓垃圾清理工具，特色功能自动扫全盘，扫描速度超快，智能文件分类，一建清理垃圾，支持安卓11/Android/data目录访问、文件复制、缓存垃圾扫描、文件管理等操作。2021.09.04v1.6.0【新增】工具箱新增M3U8视频合并功能，支
QGIS004:QGIS软件工具箱介绍 94_31762031 004-QGIS软件入门教程 QGIS软件工具箱 QGIS工具箱 QGIS工具介绍 QGIS工具说明 QGIS工具箱功能 QGIS算法说明
一、QGIS工具箱介绍QGIS（以V3.0版为例）除去线上插件外，共包含900多个地理处理工具。按工具箱类型统计为：QGIS工具箱（201个工具）、GDAL工具箱（50个工具）、GRASSGIS工具箱（298个工具）、SAGAGIS工具箱（361个工具），如下图所示。二、QGIS常用工具集介绍QGIS工具箱常用工具集包括矢量创建、矢量叠加、矢量分析、矢量几何图形、矢量属性表、矢量通用、矢量选择集、
Stirling-PDF 本地化部署，建立自己的专属PDF工具箱 wh3933 pdf
Stirling-PDF是一款功能强大的开源Web应用程序，它允许用户在完全私有的环境中对PDF文件执行超过50种不同的操作。作为一款备受赞誉的“免费AdobeAcrobat替代品”，它不仅获得了个人用户的青睐，还赢得了企业界的广泛信任，据称已有超过10%的财富500强公司在使用。该项目在GitHub上拥有超过58,000个星标，是同类开源项目中热度最高的，这充分证明了其卓越的品质和活跃的社区支持
Visual Studio 代码折叠快捷键（摘要）简单的绿竹 Visual Studio visual studio ide
https://www.likecs.com/show-205302341.html#sc=365.3333435058594代码编辑器的展开和折叠代码确实很方便和实用。以下是展开代码和折叠代码所用到的快捷键，很常用：Ctrl+M+O:折叠所有方法Ctrl+M+M:折叠或者展开当前方法Ctrl+M+L:展开所有方法工具箱的的不见的问题：按快捷键Ctrl+Alt+X全屏：Shift+Alt+Ente
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
Orange3机器学习建模和可视化分析数据预处理、特征工程、算法训练维度软件库测试工具开源软件电脑
各位数据挖掘爱好者们！今天给你们介绍一款超厉害的开源软件——Orange3。它就像一个神奇的工具箱，你只要通过拖放组件就能完成机器学习建模和可视化分析，软件下载地址安装包它支持数据预处理、特征工程、算法训练和评估整个流程，就像一个贴心的管家，把数据挖掘的事儿全给你安排得明明白白！它还内置了箱线图、决策树这些可视化工具，能直观地把数据分布和模型结构展示出来，就像给你开了个透视眼，让数据一目了然！这软
循环神经网络（RNN）：序列数据处理的强大工具 LNL13 rnn 人工智能深度学习
在人工智能和机器学习的广阔领域中，处理和理解序列数据一直是一个重要且具有挑战性的任务。循环神经网络（RecurrentNeuralNetwork，RNN）作为一类专门设计用于处理序列数据的神经网络，在诸多领域展现出了强大的能力。从自然语言处理中的文本生成、机器翻译，到时间序列分析中的股票价格预测、天气预测等，RNN都发挥着关键作用。本文将深入探讨RNN的工作原理、架构特点、训练方法、常见类型以及其
视频工具箱 1.1.1 |小而美的视频处理工具，支持多种常用功能星图软件库软件分享音视频软件工程
VideoTools是一款基于FFmpeg的小而美的视频处理工具，专为需要快速高效地进行视频编辑的用户设计。这款工具无需安装，体积仅约200KB，提供了视频压缩、格式转换、转GIF、修改分辨率、加速播放以及音频提取等多种常用功能。其用户界面简洁直观，上手即用，首次运行时可自动下载或手动指定FFmpeg路径。此外，VideoTools还支持GPU加速（兼容Intel、AMD、Nvidia显卡），让视
Laravel的瑞士军刀：Artisan命令行工具的多面用途 2401_85743969 laravel php
Laravel的瑞士军刀：Artisan命令行工具的多面用途LaravelArtisan命令行工具是Laravel框架的核心组件之一，它为开发者提供了一个强大而灵活的命令行界面，用于执行各种日常任务和自动化操作。从生成应用代码到管理数据库，Artisan工具箱中的命令几乎涵盖了Laravel开发的所有方面。本文将深入探讨LaravelArtisan命令行工具的多种用途，并通过实际代码示例，展示如何
进阶向:Django入门,从零开始构建一个Web应用 nightunderblackcat Python进阶 django python 后端
一、Django是什么？想象你建房子需要砖头、水泥、设计图...Django就是Python的Web框架工具箱，它帮你准备好了：数据库管理用户登录系统网页模板引擎安全防护（防黑客攻击）你只需专注"盖房子"（业务逻辑），不用从烧砖开始！二、环境准备（5分钟搞定）安装Python官网下载Python3.8+：python.org安装时勾选AddPythontoPATH安装Django打开命令行（Win
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
【matlab】报错：aerosharedicon 需要 Aerospace_Toolbox 许可证。王尼莫啊 matlab matlab 开发语言
找到你的’学习版‘matlab许可证所在位置打开.licenses文件将第二个许可证后缀Blockset改为Toolbox重启，即可正常使用Aerospace_Toolbox工具箱。
MATLAB代码实现了一个完整的ARIMA时间序列分析与预测流程神经网络697344 算法深度学习 MATLAB matlab 信息可视化开发语言
%%1.数据准备years=(2010:2024)';data=[11894,12277,12777,13262,13902,14524,15037,15961,16724,...17767,19064,20056,20978,21676,22023]';%创建时间序列对象ts=timeseries(data,years,'Name','65岁以上人口');ts.TimeInfo.Units='y
重塑音视频叙事：Premiere文本剪辑与Podcast AI降噪的革命性工作流
一、开篇的另一些心里话最近淘到个好东西，是来自奥地利Blueskyy艺术学院的Adobe教育版授权，深度体验下来，感觉就像是给我的创意工具箱做了一次“满配”升级，有些心得不吐不快，必须跟同路的设计师朋友们碰一碰。在分享那些让我拍案叫绝的技巧之前，依旧惯例，先聊聊这个订阅版最让我心动的几个地方。最直观的就是FireflyAI的积分，每周1500点，用“挥霍”来形容毫不过分，让我在AI创作时彻底告别了
全面提升游戏体验的雪域冰狐工具箱1.09 mater lai
本文还有配套的精品资源，点击获取简介：雪域冰狐工具箱1.09是一款专注于增强游戏玩家体验的实用工具集。它包含了诸如统一游戏菜单界面、自定义设置、性能优化、多种游戏辅助工具以及安全防护措施等功能。此外，工具箱提供良好的兼容性、用户友好的界面设计，并定期进行更新以满足用户需求。工具箱通过简化操作流程和提供安装与技术支持，旨在为用户提供安全、便捷的游戏辅助体验。1.游戏菜单界面设计的统一理念与实践1.1
学 Simulink：实时系统与嵌入式部署类场景ROS + Simulink 联合仿真的多传感器信号融合与滤波模块 amy_mhd simulink matlab
目录ROS+Simulink联合仿真的多传感器信号融合与滤波模块场景目标✅准备工作软件安装：硬件准备（可选）：步骤详解第一步：创建Simulink模型并配置ROS支持启用ROS工具箱支持：第二步：添加ROS输入接口（接收传感器数据）使用Subscribe模块接收ROSTopic数据：第三步：设计滤波与信号预处理模块方法一：IMU数据滤波（加速度+角速度）方法二：卡尔曼滤波器（KalmanFilte
PyEcharts教程（010）：天猫订单数据可视化项目文理棵 Python数据分析信息可视化 python 数据分析
文章目录1、读取数据2、数据处理3、重复值查看4、缺失值查看5、PyEcharts可视化5.1各个省份的订单量5.2时间序列分析5.3每天订单量统计可视化6、数据下载1、读取数据1️⃣读取数据：importpandasaspdfrompyechartsimportoptionsasoptsfrompyecharts.chartsimportMap,Timeline,Bar,Line,Piedata
nnv开源神经网络验证软件工具
一、软件介绍文末提供程序和源码下载用于神经网络验证的Matlab工具箱，该工具箱实现了可访问性方法，用于分析自主信息物理系统（CPS）领域中带有神经网络控制器的神经网络和控制系统。二、相关工具和软件该工具箱利用神经网络模型转换工具（nnmt）和闭环系统分析、混合系统模型转换和转换工具（HyST）以及CONTINUOUSReachabilityAnalyzer（CORA）三、无需安装即可执行NNV可
用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析 Code_Verse python 科研绘图
在数据可视化的工具箱里，3D图表总能带来眼前一亮的效果——它突破了二维平面的限制，用立体空间展示多维度数据关系，让复杂的数据层级一目了然。今天我们要解锁的「3D堆叠条形图」，就是一种能同时呈现类别、子类别、数值大小的强大可视化工具，特别适合展示具有分层结构的数据。无论是商业报表中的多维度业绩分析，还是科研数据中的多指标对比，它都能让你的数据呈现瞬间高级起来～为什么选择3D堆叠条形图？先聊聊这种图表
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
[特殊字符] Git团队协作实战指南真实的菜 git git elasticsearch 大数据
Git团队协作实战指南让多人开发不再是噩梦！从菜鸟到大神的团队协作进阶之路快速导航为什么团队协作这么重要？⚔️代码冲突？别慌！代码审查：让Bug无处遁形团队规范：统一江湖️神器推荐：工欲善其事沟通艺术：话说三分权限管理：该给的给，该收的收CI/CD：让机器替你干活问题追踪：一个都不能少新人培训：从零到英雄最佳实践：前人栽树常见坑点：踩坑指南实战案例：真刀真枪工具箱：装备升级为什么团队协作这么重要？
Flask入门基础1 浅清陌 Flask flask python 后端
1Flask简介Flask诞生于2010年，是Arminronacher（阿明·罗纳彻）用Python语言基于Werkzeug工具箱编写的轻量级Web开发框架。Flask本身相当于一个内核，其他几乎所有的功能都要用到扩展（邮件扩展Flask-Mail，用户认证Flask-Login，数据库Flask-SQLAlchemy），都需要用第三方的扩展来实现。比如可以用Flask扩展加入ORM、窗体验证工
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理