三只佩奇不结义

R语言实战——基于KNN聚类的时间序列分析预测

---
title: "Summary of Reading"
author: "ChenWei"
date: "2020/6/24"
output: word_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)

这一次我阅读的是Francisco Martinez等著的《Time Series Forecasting with KNN in R: the tsfknn Package》，这篇文章描述了如何使用 $k$ 最近邻回归的tsfknn软件包进行时间序列预测。

一、背景

传统上，使用统计方法(例如ARIMA模型或指数平滑)进行时间序列预测。但是，最近几十年出现了使用计算智能技术来预测时间序列。尽管人工神经网络是用于时间序列预测的最杰出的机器学习技术，但其他方法如高斯过程或KNN等也已应用。本文重点讲讲用KNN方法做时间序列预测。

KNN算法又称 $k$ 近邻分类(k-nearest neighbor classification)算法。它是根据不同特征值之间的距离来进行分类的一种简单的机器学习方法，它是一种简单但是懒惰的算法。他的训练数据都是有标签的数据，即训练的数据都有自己的类别。KNN算法主要应用领域是对未知事物进行分类，即判断未知事物属于哪一类，判断思想是，给出一个新的样本，KNN根据如欧氏距离等距离度量找到它最相似的 $k$ 个样本，称为最近的邻居，以这 $k$ 个样本中数目最多的类别作为新样本的归属类别。

二、原理分析

先讲一讲用KNN做预测的原理。假定第 $i$ 个训练样本的 $n$ 个特征向量为 $(f_1^i,f_2^i,\cdots,f_n^i)$ ，它们对应的 $m$ 维特征属性目标为 $(t_1^i,t_2^i,\cdots,t_n^i)$ 。当给定一个特征向量为 $(q_1,q_2,\cdots,q_n)$ 的新样本时，我们用其特征寻找 $k$ 个最相似的训练样本，近邻判定的标准为特征向量之间的欧式距离，新样本与第 $i$ 个训练样本之间的欧氏距离的计算公式如下：

$\sqrt{\sum_{x=1}^{n}\left(f_{x}^{i}-q_{x}\right)^{2}}$

假定找到的 $k$ 个最近邻训练样本的目标向量分别为 $(t^1,t^2,\cdots,t^k)$ ，以它们的平均值作为需要预测的新样本的目标向量：

$\sum_{i=1}^{k} \frac{t^{i}}{k}$

而KNN在时间序列中的应用方法为，以时间序列数据为目标值，目标值的滞后值为特征值，构造一个类似于自回归的模型。以12为滞后位数，得到的特征值与目标值如下：

Features	Target
x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12	x13
x2,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13	x14
x3,x4,x5,x6,x7,x8,x9,x10,x11,x12,x13,x14	x15
…	…
x120,x121,x122,x123,x124,x125,x126,x127,x128,x129,x130,x131	x132

三、单值预测实例分析

接下来讲讲如何用在R中用KNN做时间序列预测。在tsfknn包当中只需要使用 knn_forecasting() 函数即可做时间序列预测，非常方便。该函数的调用方法为

$pred=knn\_forecasting(time\_series,h=1,lags=1:12,k=2)$

其中time_series是时间序列数据，h为预测的数据，lags代表用以预测的数据个数(即滞后数)，k为KNN中用到的最近邻个数；返回的pred包含了KNN模型的信息以及预测值，我们可以用它来做预测或者可视化模型数据。

实例中使用的数据是包自带的nottem数据集，部分输入的特征数据及预测数据如下：

library(tsfknn)  # 载入包
timeS <- window(nottem,end=c(1930,12))  # 准备数据
pred <- knn_forecasting(timeS, h=1, lags=1:12, k=2) # 预测
head(knn_examples(pred))  # 展示前面的部分数据

将这些数据可视化，得：

plot(pred,lwd=1.5,type='b',pch=20)  # 可视化数据

如果需要查看预测数据，我们可以借助knnForecast对象pred实现：

pred$prediction

想要将预测数据可视化也很方便，只需要调用ggplot2绘图包里面的 auplot(pred) 即可。此时我们可以在图中清楚地看到原始数据、特征数据、标签数据、实例数据以及预测数据，不同类型的数据有不同的颜色及点的类型。使用 knn_prediction() 函数做预测，得到预测的值为37.4，对应下图中的红点：

# 高级可视化
library(ggplot2)
autoplot(pred, highlight="neighbors", faceting=FALSE)

此外，我们还可以用tsfknn这个包看到它是如何使用KNN做预测的，也就是说，我们可以使用 nearest_neighbors(pred) 函数清楚地看到被预测的数据对应的输入数据以及其对应的最近邻。其中的原理也很简单，我们使用1到12个特征数据做预测，而这些特征数据与所预测的数据之间是存在一定关联性的。

nearest_neighbors(pred)   # 最近邻

四、多值预测实例分析

论文中除了预测未来的一个数据之外，还可以预测多个数据，这种情况也是现实情况中最常见的。文中讲到了两种方法——MIMO策略与递归策略。调用的方法也很简单，只需要在knn_forecasting函数中添加一个 ”msas”参数，然后将参数取值为 “MIMO” 或者 “recursive” 即可。

4.1 MIMO策略

MIMO(Mutiple Input Mutiple Output) 策略在KNN中广泛使用。在该策略下，输入变量与输出变量的长度应当保持一致，并且它们在时间上应该是相邻的。

在本节中我们使用过去12个月因车祸丧生的司机数预测未来12个月的因同原因丧生的司机数，数据集的名称为USAccDeaths。原始数据与预测数据的可视化结果如下图所示：

# MIMO策略
timeS <- window(UKDriverDeaths, end=c(1979,12))
pred <- knn_forecasting(timeS, h=12, lags=1:12, k=2, msas = "MIMO")  # 预测
autoplot(pred, highlight = "neighbors", faceting=FALSE)

4.2 递归策略

递归策略常常用于ARIMA模型或者指数平滑预测模型。与MIMO策略不同的是，递归策略采用单步预测的方法。值得注意的是，当过去时间的特征数据不可用于新的实例的预测时，常常使用对应的过去的预测数据作为替代。

在本节中，我们使用USAccDeaths中的数据作为例，预测未来两个月的数据。同样的，仍然使用过去的12个数据作为特征数据做预测，预测的结果如下图的第一幅图所示。

pred <- knn_forecasting(USAccDeaths,h =2,lags=1:12,k=2,msas = "recursive")
autoplot(pred,highlight = "neighbors")

上图中，第二幅图向我们展示了已经预测过的数据也会被当做特征值用于预测未来的数据。

五、预测精度分析

既然KNN预测是一种预测方法，那么自然会相较真实值有所差距。而tsfknn包可以很方便地得到预测误差，只需要调用**ro=rolling_origin(pred,h)**即可。该函数将数据集分为训练集和测试集，并且在时间序列中测试集包含了最新的观测值。

当不采用滚动规则的时候，使用最新的六个值预测六个值。使用 rolling_origin 函数可以得到测试集数据(test_sets)、预测数据(predictions)以及误差(errors)等。同时也可获得其他的预测精度判别指标，如RMSE、MAE及MAPE等。在不采用滚动规则时得到的预测结果如下表：

	h=1	h=2	h=3	h=4	h=5	h=6
Test_sets	1461	1354	1333	1492	1781	1915
Predictions	1513.5	1363.5	1351.5	1567	1587.5	2392
Errors	-52.5	-9.5	-18.5	-75	193.5	-477
RMSE=213.6137, MAE=137.6667, MAPE=7.7472

当采用滚动规则的时候，得到的预测结果与不采用时一致，只是分为了 $h = 1, 2, \dots 6$ 六种情况。使用测试集预测得到的两个观察值如下图中红点所示。

# 滚动计算误差
pred <- knn_forecasting(ldeaths, h=12, lags=1:12, k=2) # 拟合模型
ro <- rolling_origin(pred, h=6, rolling=FALSE)   # 不带滚动的
print(ro$test_sets)   # 测试集，h=6因此测试集有6个数
print(ro$predictions)    # 测试集数据对应的预测数据
print(ro$errors)     # 测试数据与预测数据之间的误差
print(ro$global_accu)   # 主要为RMSE MAE MAPE
plot(ro)

ro <- rolling_origin(pred, h=6)   # 滚动预测
print(ro$test_sets)   # 测试集
print(ro$predictions)  # 预测值
print(ro$errors)   # 预测误差
print(ro$global_accu)  
print(ro$h_accu)  # 不同h对应的accu，精确度
plot(ro,h=6)

六、KNN参数设置

这一部分主要讲解一下包中与模型选择有关的几个特征参数，这几个特征参数主要为：

1、寻找最近邻的距离函数；
2、整合目标值的联合函数；
3、最近邻的个数，即参数 $k$ ；
4、自回归的外生变量，即作为输入的特征的个数；

6.1 距离和联合函数

包中默认使用的距离函数是欧氏距离，当然也可以使用其他的距离函数。

包中的联合函数默认为平均值函数，但是也可以用其他的联合函数。不久前该包已经可以从平均值函数(mean)、中值函数(median)、加权函数(weighted combination)。如果要修改整合函数，可以在knn_forecasting函数中添加cb参数即可。

接下来讲讲怎么使用加权函数作为联合函数，总体思想是距离新样本越近的点的权重越大。不妨设 $d_i$ 和 $t_i$ 依次为第 $i$ 个最近邻与新样本之间的距离和第 $i$ 个最近邻的标签值。接着，定义第 $i$ 个最近邻的权重为 $w_i=\frac{1}{d_{i}^{2}}$ ，则新样本的预测标签的形式如下所示：

$\frac{\sum\limits_{i=1}^{k}w_i t_i}{\sum\limits_{i=1}^{k} w_i}$

特别的，当新样本与训练样本的距离为0时，使用上式计算会出现问题。在这种情况下，新样本被判为与其距离为0的训练样本对应的标签类别。

6.2 最近邻数量 $k$

对于特定的KNN模型，如果 $k$ 很小，模型很容易受噪声的影响。相反的，如果 $k$ 很大，距离时间 $t$ 很遥远的样本仍然会影响到它的值。

一般来说有几种比较好的选择参数 $k$ 的方法。

第一种，也是最直白最快的方法，将 $k$ 设置为训练样本个数的平方根；
第二种方法，选择能使测试集达到最优的 $k$ ，即能够使得如MAPE等衡量预测准确度的统计量达到最小；
第三种方法，同时训练多个函数不同参数 $k$ 的模型，然后取所有模型的预测值的平均值作为最终的预测值。以下为该种方法的一个示例。

pred <- knn_forecasting(ldeaths,h=12,lags=1:12,k=c(2,4)) # 多个k参数的预测模型
pred$prediction  # 预测值

七、与其他时间序列包的比较

在R语言中有很多包可以做时间序列预测，比如GMDH、NTS等，在这其中forecast包算是做时间序列预测的最好的一个包。forecast包使用了stats包和其他许多包中所能找到的所有的方法，同时，里面还包含绘制季节性时间序列图像的函数以及做Box-Cox变换的函数。

在论文中，作者从是否能够使用任意的自回归滞后时间、是否只需要时间序列数据和预测水平、是否有绘制模型相关信息图像的函数、是否应用了滚动预测的方法、是否生成了预测间隔、是否使用外生变量做预测等方面对GMDH、tsDyn如下表所示。

	GMDH	tsDyn	nnfor	forecast	tsfknn
任意滞后期数	no	no	yes	no	yes
默认参数	yes	no	yes	yes	yes
绘图函数	no	yes	yes	yes	yes
滚动估计	no	no	yes	yes	yes
区间预测	yes	no	no	yes	no
外生变量	no	no	yes	yes	no

论文同时还从预测精度与运行时间两个方面比较了以上几个包中的预测方法。使用的数据集仍然为USAccDeaths数据集，当中包含111个月的工业数据，需要预测未来18个月的数据。此外，该数据集还有季节性和非季节性数据。

记NN3时间序列的预测数据为 $F$ ，真实值为 $X$ 。使用平均绝对误差百分比(MAPE)作为精度的衡量指标，其计算公式如下

$\mathrm{MAPE}=\frac{100}{18} \sum_{t=1}^{18}\left|\frac{X_{t}-F_{t}}{X_{t}}\right|$

在具体比较中，因为GMDH最多只能够预测5个数据，因此不再考虑。对于nnfor包而言，分别使用其中的elm和mlp函数做极限学习机与多层感知器时间序列预测。对于forecast包而言，则分别使用当中专门求解ARIMA模型的auto.arima和求解指数平滑模型的ets函数。以上函数说需要的参数都选择默认设置的。比较结果如下表所示

	elm	mlp	auto.arima	ets	tsfknn
MAPE	0.07744391	0.01523495	0.06068908	0.06748664	0.08383561
Time	2.79s	4.75s	5.31s	0.97s	0.02s

很明显，不同的包中不同的时间序列预测方法的预测结果显著不同，从时间角度来看tsfknn的性能在以上几种方法中属于最好的，但是从精度上来看存在一定的缺陷。

相关代码与结果(注：运行时间可能与上表不完全一致，上表取的某一次运行得到的时间)：

library(forecast)
library(nnfor)
library(greybox)   # 计算MAPE的包
t.start <- proc.time()   # 开始时间
ts.elm <- elm(ldeaths)   # 极限学习机
print(cat('极限学习机的运行时间为:',proc.time()-t.start,'\t'))  # 运行时间
print(cat('极限学习机的MAPE值为：',MAPE(ldeaths[13:length(ldeaths)],ts.elm$fitted),'\t'))  # MAPE值

t.start <- proc.time()   
ts.mlp <- mlp(ldeaths)   # 多层感知机
print(cat('多层感知器的运行时间为:',proc.time()-t.start,'\t'))  # 运行时间
print(cat('多层感知器的MAPE值为：',MAPE(ldeaths[13:length(ldeaths)],ts.mlp$fitted),'\t'))  # MAPE值

t.start <- proc.time()   
ts.arima <- auto.arima(ldeaths)   # arima时间序列
print(cat('arima模型的运行时间为:',proc.time()-t.start,'\t'))  # 运行时间
print(cat('arima模型的MAPE值为：',MAPE(ldeaths,ts.arima$fitted),'\t'))  # MAPE值

t.start <- proc.time()   
ts.ets <- ets(ldeaths)   # arima时间序列
print(cat('指数平滑模型的运行时间为:',proc.time()-t.start,'\t'))  # 运行时间
print(cat('指数平滑模型的MAPE值为：',MAPE(ldeaths,ts.ets$fitted),'\t'))  # MAPE值

library(tsfknn)  
t.start <- proc.time()  
ts.tsfknn <- knn_forecasting(ldeaths[1:60], h=12, lags=1:12)   # knn聚类
print(cat('k最近邻回归模型的运行时间为:',proc.time()-t.start,'\t'))  # 运行时间
print(cat('k最近邻回归模型的MAPE值为：',MAPE(ldeaths[61:72],ts.tsfknn$prediction),'\t'))  # MAPE值

R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
R语言学习笔记—删除对象 w1149033842 R语言
1.删除环境中的对象Arm(A)2.删除环境中的所有对象rm(list=is())3.删除除了A和B以外的所有对象allobj<-is()rm(list=allobj[which(allobj!="A"&allobj!="B")])
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
R语言开发记录，一 [email protected] R语言 r语言开发语言
1.清理环境rm(list=ls())gc()rm(list=ls())作用：删除当前R工作环境中所有的对象（变量、函数、数据框等）。解释：ls()：列出当前环境中所有对象的名字。list=ls()：将这些名字作为一个列表传给rm()函数。rm()：移除这些对象。效果：相当于“清空内存”，让工作空间恢复到干净状态。gc()作用：手动触发垃圾回收（garbagecollection）。效果：释放R不
从零到精通：Linux上的Conda环境详细教程
第一章：Conda简介Conda的定义Conda是一个开源的包管理系统和环境管理系统，可以在多个平台上安装、运行和更新软件包和依赖项。Conda最初是为Python和R语言的数据科学包创建的，但现在支持多种编程语言和工具。Conda的主要功能和优势包管理：Conda能够自动处理包的依赖关系，确保每个包所需的库和工具都被正确安装。它支持从各种渠道安装包，如CondaForge和Anaconda官方仓
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
Compython：在线Python代码托管与实时执行平台古斯塔夫歼星炮
本文还有配套的精品资源，点击获取简介：Compython是一个在线平台，允许用户在浏览器中托管、分享并运行Python代码，适合编程初学者、教育者和开发者快速测试。该服务提供了Web交互式编程环境，并支持Markdown和版本控制。同时，为了安全起见，采用了沙箱环境以及对上传代码的审查。此外，用户可以结合HTML和Python创建交互式网页应用，平台提供JupyterNotebook风格的界面。服
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python实用小脚本-127】基于 Python 的 Google 图片爬取工具：实现高效图片数据收集 Kyln.Wu Python python 开发语言
引言在数据科学、机器学习和多媒体应用中，图片数据的收集是一个常见且重要的任务。Google图片是一个丰富的图片资源库，能够为各种项目提供大量的图片数据。本文将介绍一个基于Python的Google图片爬取工具，它能够自动化地从Google图片搜索结果中下载图片。该工具主要利用了Python的selenium、BeautifulSoup、urllib和argparse库，结合了网页自动化和数据解析技
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
flask部署机器学习_如何开发端到端机器学习项目并使用Flask将其部署到Heroku cumichun6193 大数据 python 机器学习人工智能深度学习
flask部署机器学习There'sonequestionIalwaysgetaskedregardingDataScience:关于数据科学，我经常被问到一个问题：WhatisthebestwaytomasterDataScience?Whatwillgetmehired?掌握数据科学的最佳方法是什么？什么会雇用我？Myanswerremainsconstant:Thereisnoalterna
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【机器学习|学习笔记】类别特征（Categorical Features）处理方法，附代码。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记神经网络人工智能深度学习
【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。文章目录【机器学习|学习笔记】类别特征（CategoricalFeatures）处理方法，附代码。前言✅为什么要处理类别特征？原因1：大多数模型不能处理字符串原因2：避免“错误的顺序假设”原因3：方便模型泛化与特征交互✅
Python中使用Graphviz绘制决策树图解黃昱儒
本文还有配套的精品资源，点击获取简介：Graphviz是一款用于数据可视化和算法流程展示的图形绘制软件，特别适用于Python中绘制决策树和其他图形类型。本安装包包含Graphviz安装程序和配置指南，以及如何在Python中利用pydot库等第三方库进行图形绘制的详细步骤。通过配置环境变量和利用DOT语言，用户可以将决策树模型转换为可视化图形，加深对机器学习模型的理解和调试。1.Graphviz
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
【信号去噪】基于NLM时间序列心电信号去噪附matlab代码天天Matlab科研工作室信号处理 Matlab各类代码 matlab 开发语言 fpga开发
1简介作为一种信号预处理手段,信号去噪在众多信号处理应用中发挥着重要的作用.到目前为止,信号去噪问题被大量研究,并取得了许多重要成果,涌现出了包括非局部均值(NLM)去噪算法在内的一批优秀的去噪方法.值得一提的是,相比于传统的局部去噪算法,非局部均值去噪算法有着更好的去噪性能和更好的信号细节保留能力.2部分代码function[denoisedSig,debug]=NLM_1dDarbon(sig
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比