English Chan

ARIMA（p,d,q）模型原理及其实现 --------python

1.简介

ARIMA模型(Autoregressive Integrated Moving Average model)，差分整合移动平均自回归模型，又称整合移动平均自回归模型，时间序列预测分析方法之一。ARIMA(p,d,q)中，AR是"自回归"，p为自回归项数;MA为"滑动平均"，q为滑动平均项数，d为使之成为平稳序列所做的差分次数(阶数)。"差分"一词虽未出现在ARIMA的英文名称中，却是关键步骤。

2.模型原理

在描述ARIMA模型，那么就离不开AR、MA、ARMA模型，下面先阐述这两个模型。

2.1 AR模型(自回归)

自回归只适用于预测与自身前期相关的现象，数学模型表达式如下：

其中是当前值，是常数项，是阶数，是自相关系数，是误差，同时

要符合正态分布。

该模型反映了在t时刻的目标值值与前t-1~p个目标值之前存在着一个线性关系，即：

2.2 MA模型（移动平均）

移动平均模型关注的是自回归模型中的误差项的累加，数学模型表达式如下：

该模型反映了在t时刻的目标值值与前t-1~p个误差值之前存在着一个线性关系，即：

2.3 ARMA模型（自回归移动平均）

该模型描述的是自回归与移动平均的结合，具体数学模型如下：

2.4 ARIMA模型

基本原理：将数据通过差分转化为平稳数据，再将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

AR是自回归，p为自回归项；MA为移动平均，q为移动平均项数，d为时间序列成为平稳时所做的差分次数，一般做一阶差分，很少做二阶差分。

2.5 ACF

ACF 是一个完整的自相关函数，可为我们提供具有滞后值的任何序列的自相关值。简单来说，它描述了该序列的当前值与其过去的值之间的相关程度。时间序列可以包含趋势，季节性，周期性和残差等成分。ACF在寻找相关性时会考虑所有这些成分

2.6 PACF

偏自相关函数PACF 只描述观测值和其滞后项之间的直接关系，调整了其他较短滞后项的影响。

2.7 拖尾与截尾

截尾：在大于某个常数k后快速趋于0为k阶截尾

拖尾：始终有非零取值，不会在k大于某个常数后就恒等于零(或在0附近随机波动)

例子：

3.定阶（p,d,q)

3.1 定d

因为AR（自回归）建立必须具有平稳性，所以在建立ARIMA模型也需要平稳性，使数据平稳性的方法可以讲数据进行差分处理，如一阶差分即t与t-1的差值，二阶差分为一阶差分基础上再进行一次差分，使数据平稳后的差分次数即为我们要定的参数d。

3.2 方法① 定p，q

若PACFp阶段后截尾，则截尾的阶数即为模型所确定的参数p。
若ACFq阶段后截尾，则截尾的阶数即为模型所确定的参数q。

3.3 方法② 定p，q

采用AIC或BIC原则，模型中AIC或BIC值越小，模型就越好。

4.假设检验

下面介绍在用python实现ARIMA模型使用到的假设检验。

4.1单位根检验（ADF）

在建立ARIMA模型的前，要讲将数据平稳化，即需要对数据进行差分处理，一般进行一节差分即可，一般一节差分就可以通过检验，如果一阶不通过，就再进行一次差分，即二阶差分，但不是差分的次数越多越好，它可能会导致数据信息的损失。检验数据平不平稳，第一种方法可以通过直接观察差分后的折线图。第二种方法就是通过假设检验，即单位根检验：

注：这里没有详细描述检验原理，只是简单介绍其原假设与备择假设，感兴趣可查找相关资料。

4.2残差正态性检验

完成模型建立，需要对模型的残差进行正态性检验，python中scipy库中的stats类提供了一个 normaltest函数，用于检验数据是否符合正太性：

残差是否符合正态性不一定要用假设检验，也可以观察残差的qq图，当qq图的散点位于一条直线时候说明是符合正态分布，同时也可以绘制残差频数直方图，下面会介绍检验、qq图、频数直方图实现代码。

4.3残差序列独立性检验

一个较好的ARIMA模型，残差序列之间是独立性的，检验德宾-沃森（Durbin-Watson）检验简称D-W检验，是目前检验自相关性最常用的方法，但它只适用于检验一阶自相关性。先通过公式计算出DW值，再根据样本容量n和解释变量数目k查分布表，得到临界值dl和du，然后判断是否自相关，当DW值等于2左右时，模型不存在一阶自相关。

注：这里没有详细描述检验原理，只是简单介绍检验判别方法，感兴趣可查找相关资料。

5.建模基本流程

6.python实现ARIMA

这次建模所用到的库如下代码，若还没有安装，在cmd窗口输入 pip install 库名即可安装。

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import matplotlib
import seaborn as sns
from  statsmodels.tsa.arima_model  import  ARIMA
import statsmodels as sm
from scipy import stats

6.1数据展示

这是笔者的数据，只要构造好这个dataframe数据类型就可以继续下面的步骤，该数据用变量data接受，下面的代码针对data变量都是针对这个数据集。

6.2缺失值处理

data.info()

发现数据集存在缺失值，对于时间序列数据缺失值不能简单的使用全体数据均值、中位数、众数处理，最常用的方法有前后加权均值法、线性插值法、n最近邻均值法填充，本次采用n=2的n最近邻均值法填充，比如n取2，则用t-2,t-1，t+1,t+2时刻的平均值来填充缺失的t时刻的值，代码实现如下：

#找出有缺失值的行  data[["data"]].isnull().T.any().values
def knm(df,n):
    #找出缺失值的行
    temp = df.isnull().T.any().values
    temp_df = df.copy()
    for i in range(len(temp)):
        if temp[i] == True:
            if i < n-1:                  #前n个
                 temp_df.loc[i,"data"] = df.loc[i:i+n,"data"].mean()  
            elif i > len(temp) - 1 -n:     #后n个
                 temp_df.loc[i,"data"] = df.loc[i-n:i,"data"]
            else:
                 print(df.loc[i-n:i+n,"data"])
                 temp_df.loc[i,"data"] = df.loc[i-n:i+n,"data"].mean()  
                 print(i-n,i+n+1)
    return temp_df
not_miss = knm(data[["data"]],2)
data["data"] = not_miss.values

6.3数据可视化展示

plt.plot(data.iloc[:,1])
plt.hist(data.iloc[:,1],bins=20)

6.4数据平稳化

data["diff_1"] = data["data"].diff(1)  #一阶差分
data["diff_2"] = data["data"].diff(1)  #二阶差分

#分别画出ACF(自相关)和PACF（偏自相关）图像
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf

def diff(df,col):
    font = {"size":15,
       "family":"fangsong"}
    matplotlib.rc("font",**font)
    matplotlib.rcParams['axes.unicode_minus']=False
    
    df["diff_1"] = df[col].diff(1)  #一阶差分
    df["diff_2"] = df["diff_1"].diff(1)  #二阶差分
    
    #平稳数据折线图
    plt.figure(figsize=(12,8))
    plt.subplot(3,1,1)
    plt.plot(df[col].values,label="源数据")
    plt.xlim(0,120)
    plt.legend()
    plt.subplot(3,1,2)
    plt.plot(df["diff_1"].values,c="darkgreen",label="一阶差分")
    plt.plot([0,120],[0,0],"--",c = "grey")
    plt.xlim(0,120)
    plt.legend()
    plt.subplot(3,1,3)
    plt.plot(df["diff_2"].values,c="tomato",label="二阶差分")
    plt.plot([0,120],[0,0],"--",c = "grey")
    plt.xlim(0,120)
    plt.legend()
    plt.show()
    
    #ACF PACF
    print("-"*50,"未平稳数据ACF与PACF","-"*50)
    fig = plt.figure(figsize=(12,8))
    ax1 = fig.add_subplot(211)
    fig = plot_acf(df[col], lags=40,ax = ax1)
    ax2 = fig.add_subplot(212)
    plot_pacf(df[col], lags=40,ax = ax2)
    plt.show()
    
    #一阶差分后的ACF PACF
    print("-"*50,"一阶差分数据ACF与PACF","-"*50)
    fig = plt.figure(figsize=(12,8))
    ax1 = fig.add_subplot(211)
    fig = plot_acf(df["diff_1"][1:].values, lags=40,ax = ax1)
    ax2 = fig.add_subplot(212)
    plot_pacf(df["diff_1"][1:], lags=40,ax = ax2)
    plt.show()
    
diff(data,"data")

一阶自相关与偏相关图都呈现出拖尾现象，无法从这两图确定p与q。

6.5数据平稳性检验单位根检验

#未差分平稳性检测（ADF检验、单位根检验）
from  statsmodels.tsa.stattools  import  adfuller  as  ADF
print(u'原始序列的ADF检验结果为：',  ADF(data["data"]))
#返回值依次为adf、pvalue、usedlag、nobs、critical  values、icbest、regresults、resstore  p<0.05时表示稳定

#一阶差分平稳性检测（ADF检验、单位根检验）
from  statsmodels.tsa.stattools  import  adfuller  as  ADF
print(u'一阶差分序列的ADF检验结果为：',  ADF(data["diff_1"][1:]))
#返回值依次为adf、pvalue、usedlag、nobs、critical  values、icbest、regresults、resstore  p<0.05时表示稳定

一阶差分单位根检验p值<0.05，原始序列p值>0.05，于是ARIMA中的参数d定为1。

6.6根据bic/aic指标定p、q

#定阶
# pmax  =  int(len(df["失业率"])/10)  #一般阶数不超过length/10
# qmax  =  int(len(df["失业率"])/10)  #一般阶数不超过length/10
pmax = 5
qmax = 5
bic_matrix  =  []  #bic矩阵
for  p  in  range(pmax+1):
    tmp  =  []
    for  q  in  range(qmax+1):  #存在部分报错，所以用try来跳过报错。
        try:
            tmp.append(ARIMA(data["data"],order=(p,1,q)).fit().bic) 
        except:
            tmp.append(None)
    bic_matrix.append(tmp)
bic_matrix  =  pd.DataFrame(bic_matrix)  #从中可以找出最小值
p,q  =  bic_matrix.stack().idxmin()  
# #先用stack展平，然后用idxmin找出最小值位置。
print(u'BIC最小的p值和q值为：%s、%s'  %(p,q))

#定阶
# pmax  =  int(len(df["失业率"])/10)  #一般阶数不超过length/10
# qmax  =  int(len(df["失业率"])/10)  #一般阶数不超过length/10
pmax = 5
qmax = 5
aic_matrix  =  []  #bic矩阵
for  p  in  range(pmax+1):
    tmp  =  []
    for  q  in  range(qmax+1):  #存在部分报错，所以用try来跳过报错。
        try:
            tmp.append(ARIMA(data["data"],order=(p,1,q)).fit().aic) 
        except:
            tmp.append(None)
    aic_matrix.append(tmp)
aic_matrix  =  pd.DataFrame(bic_matrix)  #从中可以找出最小值
p,q  =  bic_matrix.stack().idxmin()  
# #先用stack展平，然后用idxmin找出最小值位置。
print(u'AIC最小的p值和q值为：%s、%s'  %(p,q))

根据aic/bic最小原则都筛选出p=5，q=3。

6.7模型拟合 AIRMA(5,1,3)

arima513 = ARIMA(data["data"],order=(5,1,3)).fit()
arima513.summary2()

6.7模型检验

resid=arima513.resid  #残差
plt.figure(figsize=(12,8))
plt.plot(resid)

6.7.1残差正态性检验

stats.normaltest(resid)#检验序列残差是否为正态分布    pvalue=0.00028625258929196876   <  0.05  拒绝原假设 认为残差符合正太分布

p<0.05,接受备择假设，认为残差具有正态性

stats.probplot(resid, dist="norm", plot=plt)
plt.show()
plt.hist(resid,bins=50)
plt.show()

qq图散点基本在直线上，同时直方图也呈现正态性。

6.7.2残差序列自相关（残差序列是否独立）

from statsmodels.stats.stattools import durbin_watson
durbin_watson(arima513.resid.values)     ##DW检验：靠近2——正常；靠近0——正自相关；靠近4——负自相关

DW值非常靠近2，说明序列不具有相关性。

7.绘制原数据和预测数据对比图

# 绘制原数据和预测数据对比图
arima513.plot_predict(dynamic=False)
plt.show()

通过观察预测值与实际值折线图，可以直观看出该模型拟合程度不怎么好，待优化

你可能感兴趣的:(python,机器学习)

深入解析：使用 Python 爬虫获取苏宁商品详情数据小爬虫@ python 爬虫开发语言
在当今数字化时代，电商数据已成为市场分析、用户研究和商业决策的重要依据。苏宁易购作为国内知名的电商平台，其商品详情页包含了丰富的信息，如商品价格、描述、评价等。这些数据对于商家和市场研究者来说具有极高的价值。本文将详细介绍如何使用Python爬虫获取苏宁商品的详细信息，并提供完整的代码示例。一、爬虫简介爬虫是一种自动化程序，用于从互联网上抓取网页内容。Python因其简洁的语法和强大的库支持，成为
【网络安全 | Python爬虫】URL、HTTP基础必知必会秋说爬虫 http 网络安全
文章目录URL概念及组成结构HTTP概念简述浏览器接收资源HTTP协议的结构请求结构请求行请求头请求体请求差异及参数说明响应结构状态行响应头响应体推广URL概念及组成结构在开始爬虫的开发实战前，需要了解的是URL的概念及组成结构，这具有基础性和必要性。URL（UniformResourceLocator，统一资源定位符）是用于在互联网上定位和标识资源的字符串。它提供了一种标准的方式来指示资源的位置
什么是网络爬虫？Python爬虫到底怎么学？糯米导航文末下载资源 python
最近我在研究Python网络爬虫，发现这玩意儿真是有趣，干脆和大家聊聊我的心得吧！咱们都知道，网络上的信息多得就像大海里的水，而网络爬虫就像一个勤劳的小矿工，能帮我们从这片浩瀚的信息海洋中挖掘出需要的内容。接下来，我就带你们一步步看看该怎么用Python搞定网络爬虫。为啥选择Python写爬虫？说到Python，简直是写爬虫的最佳选择！它有许多现成的库，就像拥有了各种好用的工具，使得我们的工作变得
《CPython Internals》阅读笔记：p329-p335 codists 读书笔记 python
《CPythonInternals》学习第16天，p329-p335总结，总计7页。一、技术总结1.debuggingp331,Therearetwotypesofdebugger,consoleandvisual——作者将debugger分为两类：(1)console：lldb(MAC系统使用),GDB(Linux系统使用))。(2)visual：VisualStudioDebugger,CLi
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
大模型：LangChain技术讲解玉成226 【大模型】langchain
一、什么是LangChain1、介绍LangChain是一个用于开发由大型语言模型提供支持的Python框架。它提供了一系列工具和组件，帮助我们将语言模型集成到自己的应用程序中。有了它之后，我们可以更轻松地实现对话系统、文本生成、文本分类、问答系统等功能。2、LangChain官网文档官网：https://python.langchain.com/docs/introduction/3、LangC
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
lisp语言与python_Lisp 语言优点那么多，为什么国内很少运用？特殊后勤小干事 lisp语言与python
为什么Lisp没有流行起来本文探讨的是为什么Lisp语言不再被广泛使用的。很久以前，这种语言站在计算机科学研究的前沿，特别是人工智能的研究方面。现在，它很少被用到，这一切并不是因为古老,类似古老的语言却被广泛应用.其他类似的古老的语言有FORTRAN,COBOL,LISP,BASIC,和ALGOL家族,这些语言的唯一不同之处在于,他们为谁设计,FORTRAN是为科学家和工程师设计的,他们在计算机上
CS书籍、代码资源下载网址 sun_kang CS Guide &&Links linux java tutorials debian documentation linux内核
CS网址收藏啄木鸟Pythonic开源社区：http://www.woodpecker.org.cn/中国IT实验室（游戏开发）：http://game.chinaitlab.com/游戏开发资源网：http://www.gameres.com/国内游戏开发论坛：http://bbs.gameres.com/国外的游戏开发站：http://www.gamedev.net/《问道》游戏开发论坛：ht
Python爬虫项目合集：200个Python爬虫项目带你从入门到精通人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析信息可视化爬虫项目大全 Python爬虫项目合集爬虫从入门到精通项目
适合人群无论你是刚接触编程的初学者，还是已经掌握一定Python基础并希望深入了解网络数据采集的开发者，这个专栏都将为你提供系统化的学习路径。通过循序渐进的理论讲解、代码实例和实践项目，你将获得扎实的爬虫开发技能，适应不同场景下的数据采集需求。专栏特色从基础到高级，内容体系全面专栏内容从爬虫的基础知识与工作原理开始讲解，逐渐覆盖静态网页、动态网页、API数据爬取等实用技术。后续还将深入解析反爬机制
FunASR语言识别的环境安装、推理山山而川_R FunASR r语言 xcode 开发语言
目录一、环境配置1、创建虚拟环境2、安装环境及pytorch官网：pytorch下载地址3、安装funasr之前，确保已经安装了下面依赖环境:python代码调用（推荐）4、模型下载5、启动funasr服务二、客户端连接2.1html连接三、推理识别模型1、实时语音识别2、非实时语音识别一、环境配置源码地址：FunASRFunASR/README_zh.mdatmain·alibaba-damo-
安装线程自由（无GIL锁）Python及Pytorch方法为什么每天的风都这么大 python pytorch 开发语言
参考资料：https://py-free-threading.github.io/installing_cpython/https://github.com/pytorch/pytorch/issues/130249https://download.pytorch.org/whl/torch/截至当前（2025.1.22），最新的线程自由Python版本为13.1，因此下面的方法适用于该版本安装P
如何使用python技术爬取下载百度文库文档？大懒猫软件 python 百度开发语言
使用Python爬取百度文库文档需要通过分析网页结构和接口请求来实现。以下是一个基于搜索结果的实现方法，适用于爬取百度文库中的文档内容：第一部分：获取百度文库文档实现步骤获取文档ID和基本信息通过文档的URL获取文档ID，并解析页面内容以获取文档的类型、标题等信息。请求文档信息接口使用getdocinfo接口获取文档的页数、MD5校验码等参数。请求文档正文内容根据文档类型（如txt、doc等），请
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
使用Motherduck构建云端DuckDB服务 GEAWfaacc oracle 数据库 python
技术背景介绍Motherduck是一种托管的DuckDB云端服务，它允许用户在云中轻松地管理和查询DuckDB数据库。DuckDB是一个内存内分析数据库，专为处理分析型工作负载而设计，与其在本地运行不同，Motherduck提供了一个云平台来管理和扩展这些数据库任务。在本文中，我们将深入探讨如何通过Python设置和使用Motherduck服务，包括具体的代码实现。核心原理解析通过Motherdu
Scheme语言的区块链程韵珂包罗万象 golang 开发语言后端
Scheme语言的区块链探索引言区块链技术自从比特币推出以来，已迅速成为全球瞩目的焦点。其去中心化、不易篡改的特点使得区块链在多个领域展现出了巨大的潜力。通常，区块链的实现主要依赖于多种编程语言，例如C++、Java、Python等。然而，Scheme语言以其独特的表达能力和强大的抽象特性，也为区块链的实现提供了新的视角。本文将深入探讨Scheme语言如何在区块链中发挥作用，并介绍如何使用Sche
Perl语言的软件开发工具 Code侠客行包罗万象 golang 开发语言后端
Perl语言的软件开发工具引言Perl是一种功能强大且灵活的高级编程语言，自1987年由拉里·沃尔（LarryWall）创建以来，就广泛应用于文本处理、系统管理、网络编程、Web开发等多个领域。作为一种脚本语言，Perl以其简洁的语法和强大的正则表达式处理能力而受到开发者的青睐。在实际开发过程中，虽然没有像Java或Python那样广泛流行，但Perl也有着自己独特的生态系统，其中包括许多强大的开
【Python实战】元组！编程小白的必修课！努力学习的耶耶 python
想对大家说的话：大家好呀，耶耶最近打算开一起新的专栏，带着大家敲代码，让大家在了解python理论的基础上学会实操，真正做到大彻大悟！在这里，我会将Python代码像拆解精密玩具一样，一步步剖析，确保每一步的来龙去脉都清晰可见。我会详细解释为什么选择特定的关键字和结构，通过对比不同类型的代码片段，让你不仅知其然，更知其所以然！！！拜托大家给我点一个关注！让我们一起进步吧！！！上期本期学习了如何处理
Python酷库之旅-第三方库Pandas(056) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲211、pandas.Series.truncate方法211-1、语法211-2、参数211-3、功能211-4、返回值211-5、说明211-6、用法211-6-1、数据准备211-6-2、代码示例211-6-3、结果输出212、pandas.Series.where方法212-1、语法212-2、参数212-3、功能212-4、返回值212-5、说明212-6、用法212-6
2025年01月18日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：MiniCPM-o项目地址url：https://github.com/OpenBMB/MiniCPM-o项目语言：Python历史star数：15141今日star数：736项目维护者：yiranyyu,iceflame89,yaoyuanTHU,LDLINGLINGLING,tc-mb项目简介：MiniCPM-o2.6：适用于手机上视觉、语音和多模式直播的GPT-4o级多模态大规模语
pycharm无法创建python file_pycharm无法导入本地模块的解决方式 weixin_39873356 file
最近学习python的django，需要导入本地的view模块，参考一些别人导入包的方法importsyssys.path.append('C:\\Users\\hhua\\Desktop')#括号中的内容为A所在的目录importA.Demo1#不能加.py否则会报错(错误为没有这个文件A.Demo1.py)但是不论用相对路径导入还是绝对路径导入，运行都会出错，但是我又用命令行试了一遍，发现命令
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
GitHub Actions是什么 ZhangJiQun&MXP 2021 论文教学 github workflow
目录GitHubActions是什么GitHubActions的使用方法示例注意事项GitHubActions配置文件中-工作流的：Workflow一、自动化任务执行二、规范团队协作三、灵活配置和定制四、提高开发效率五、集成GitHub生态六、可复用性和共享性仓库中的“Actions”部分，特别是聚焦于在M1Mac上执行Python测试的工作流程。以下是对界面上各个部分的详细解释：顶部导航栏：包含
python字符串处理函数汇总程序媛小本 python 开发语言
Python是一种充满活力的编程语言，其用途范围广泛，其中包括字符串处理。Python提供了许多强大的字符串处理函数库，可以方便地对字符串进行各种操作。在本文中，我们将讨论Python字符串处理函数的各种用途和方法，以及如何利用这些函数来解决常见的字符串处理问题。一、字符串的基本操作字符串是Python中最常用的数据类型之一，它们可以用单引号或双引号来表示。Python字符串处理函数可以处理许多字
python字符串函数忠言睿长 Python 地信GIS python
对于月份不足两位补零操作如下：strYearMonth=str(year)+str(month).zfill(2)#不足两位补充0生成字符串变量str='pythonStringfunction'字符串长度获取：len(str)例：print'%slength=%d'%(str,len(str))连接字符串sStr1='strcat'sStr2='append'sStr1+=sStr2prints
使用Airbyte实现数据集成的详细指南 dagGAIYD python
Airbyte是一个功能强大的数据集成平台，专门用于从API、数据库和文件构建到仓库和数据湖的ELT（Extract,Load,Transform）管道。凭借庞大的ELT连接器目录，Airbyte为数据仓库和数据库提供了广泛的支持。本文将详细介绍如何安装和使用Airbyte，特别是在Python环境中利用langchain-airbyte库进行数据集成。技术背景介绍在现代数据驱动的应用中，数据集成
Level2逐笔成交逐笔委托毫秒记录：今日分享优质股票数据20250122 2401_89140926 python 金融数据库大数据
逐笔委托逐笔成交下载链接:https://pan.baidu.com/s/1WP6eGLip3gAbt7yFKg4XqA?pwd=7qtx提取码:7qtxLevel2逐笔成交逐笔委托数据分享下载通过Level2逐笔成交和逐笔委托这种每一笔的毫秒级别的数据可以分析出很多有用的点，包括主力意图，虚假动作，让任何操作无所遁形。适合交易大师来分析主力规律，也适合人工智能领域的机器学习，数据量大且精准。以下
机器学习-分类算法评估标准赛丽曼机器学习机器学习分类人工智能
一.准确率accuracy将预测结果和测试集的目标值比较，计算预测正确的百分比准确率越高说明模型效果越好fromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.neighborsimportKNeighborsClassifier#加载鸢尾花数据X,y=datasets.load_i
Python常见字符串函数流着口水看上帝 python
1.字符串基本操作函数-len()：-功能：返回字符串的长度，即字符的个数。-示例：string="Hello"print(len(string))输出结果为5。-str()：-功能：将其他数据类型转换为字符串类型。-示例：num=123string_num=str(num)print(type(string_num))输出结果为，说明num被成功转换为字符串类型。2.字符串查找函数-find()
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他