watermelon12138

数据挖掘笔记(6)-时间序列分析

参考博客有：https://blog.csdn.net/WMN7Q/article/details/70174300

一、时间序列的概念
按时间顺序排列的 n 个随机变量X₁,X₂,…,X_n称为随机变量X的时间序列，简记为{X_n}，而x₁,x₂,…,x_n代表随机变量 X 的时间序列的n个有序观察值。
比如某饭店在1月1号到1月10号所有菜品的日销量数据如下图所示：

则称3023,3039,3056,3138,3188,3224,3226,3029,2859,2870为销量这一随机变量的时间序列的10个有序观察值。

二、时间序列的预处理
在拿到随机变量的时间序列对应的观察值序列后，首先要检验观察值序列的平稳性和纯随机性。
平稳性检验：
(1)时序图法
平稳时间序列的均值和方差都为常数，所以平稳时间序列的时序图应该呈现出序列值(观察值)在某一常数附近随机波动，而且波动的范围有限。如果时序图有明显的趋势性或周期性，则不是平稳序列。
例：对某饭店1月份和2月份所有菜品的日销量数据绘制时序图
部分数据展示如下：

时序图：

可见销量随着天数处于增长趋势，所以销量的时间序列不是平稳序列。

(2)自相关系数图法
平稳序列具有短期相关性，也就是对于平稳序列而言只有近期的序列值会对当前序列值产生的影响比较明显，间隔越远的序列值对当前值的影响越小。所以随着延迟(滞后)期数k的增加，平稳序列的自相关系数ρ_k会较快的衰减趋向于零，并在零附近波动。而非平稳序列的自相关系数则衰减的比较缓慢。

自相关系数：
为什么叫自相关系数，简单来说因为计算该相关系数的值都来自同一个变量。因为它是用来衡量同一个随机变量在两个不同时间段内的观察值的相关程度，也就是衡量自己过去的行为对现在造成影响。
假设某一随机变量X的时间序列的观察值序列如下：
x₁, x₂, x₃, x₄, x₅, x₆, x₇, x₈, x₉, x₁₀
延迟或滞后3期将观察值序列分为两组：
(x₁滞后3期为x₄，以此类推)
第一组：x1,x2,x3,x4,x5,x6,x7
第二组：x4,x5,x6,x7,x8,x9,x10
所以滞后3期得到随机变量X的时间序列的自相关系数ρ₃为：

经扩展可得任一随机变量X的时间序列滞后k期的自相关系数ρ_k:

偏自相关系数：
计算一个随机变量X的时间序列滞后k期的自相关系数ρ_k，实际上我们得到是
x₁,x₂,…x_n-k和x_k+1,x_k+2,…,x_n的相关关系，并没有直接衡量x₁与x_k+1，x₂与x_k+2，…，x_n-k与x_n之间的相关关系。对于x_n-k与x_n来说，滞后k期的自相关系数ρ_k里面掺杂了x_n-k到x_n之间的k-1个值对x_n的影响，而偏自相关系数就是用来衡量x_n-k和x_n之间的直接相关关系。
公式如下：

上式中E^X_t = E [X_t, X_t-k | X_t-1,…,X_t-k+1]指的是在剔除了X_t-1,…,X_t-k+1的干扰后求得的期望，那么ρ 指的就是在剔除了X_t-1,…,X_t-k+1的干扰后求得的相关系数。可见这只是一种理想的状况，在实际情况中剔除k-1个变量的干扰非常不易。
但是可以利用Yule-Walker方程式求解偏自相关系数，求解方法见下面的博客：
https://blog.csdn.net/WMN7Q/article/details/70174300

知道了什么是自相关系数，接下来就可以绘制一个随机变量X的时间序列的自相关系数图，数据还是用上文中提到的销量数据。

自相关系数图如下：

由上图可知销量的时间序列的自相关系数长期不为0，也就是该序列存在长期相关性，并且衰减速度缓慢，所以该序列是不平稳序列。

(3)单位根检验
单位根检验是指检验序列中是否存在单位根，如果存在单位根该序列就是不平稳时间序列。

# 平稳性检验(单位根检验)
# 若pvalue大于显著水平(一般为0.05)则拒绝原假设，认为它是不平稳的
# from statsmodels.tsa.stattools import adfuller as ADF
# print(u'时间序列的ADF检验结果为：', ADF(时间序列))
# 返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore

纯随机性检验(白噪声检验)
如果一个序列是纯随机性序列，那么该序列的序列值之间应没有任何关系，也就是该序列任一滞后期的自相关系数都为0。但在实际情况中它们并不等于0，只是接近0并在0的周围波动。
一般是构造检验统计量来检验序列的纯随机性，常用的统计量有Q统计量和LB统计量。

# 白噪声检验
# 若pvalue大于显著水平(0.05)则认为它是白噪声序列(或纯随机性序列)
from statsmodels.stats.diagnostic import acorr_ljungbox
#  Ljung-Box test for no autocorrelation，Ljung-Box是进行无自相关性的检验(也称之为纯随机性检验和白噪声检验)
# 检验某时间序列在滞后1期时是否是白噪声()
# print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(时间序列, lags=1))  # 返回统计量和p值

三、时间序列分析
1.如果时间序列是白噪声序列则放弃分析。

2.如果序列是平稳非白噪声序列，则可用AR模型、MA模型或ARMA模型来进行序列分析。

AR模型(Autoregressive Model)：
具有如下结构的模型称为p阶自回归模型，简记为AR（p）。

其中 X_t 是随机变量在 t 时刻的取值，AR模型认为该取值和它前p期的取值X_t-1,X_t-2,…,X_t-p有关，所以要建立它们之间的多元线性回归。误差项 ε_t 是当前 t 时刻的随机干扰，属于零均值白噪声序列。
由AR模型的公式可以推出以下信息：

均值

所以能够使用AR模型的时间序列的均值必须是常数，既然满足了平稳性，那该时间序列的均值肯定是常数。
方差
对模型方程两边同时求方差，则可得能够使用AR模型的时间序列的方差必须也是常数。
自相关系数
能够使用AR模型的时间序列要求它的自相关性系数呈指数衰减，并且始终有非零取值，不会出现当滞后期k取大于某个常数时它的自相关性为零，也就是说能够使用AR模型的时间序列要求它的自相关性系数ρk满足拖尾性(接近0但就是不为0)。
偏自相关系数
能够使用AR模型的时间序列要求它的偏自相关性系数满足截尾性(一下就为0了)。

总结：能够使用AR模型的时间序列应该满足如下性质

MA模型(Moving Average Model)

MA模型也称滑动平均模型，具有如下结构的就称为q阶滑动平均模型，简记为MA(q)。

其中X_t是随机变量在 t 时刻的取值，μ为随机变量均值，ε_t 为当前时刻的随机扰动属于零均值白噪声序列。该模型认为随机变量在 t 时刻的取值和前q期的随机扰动有关，所以建立它们的多元线性回归。
总结：能够使用MA模型的时间序列应该满足如下性质

ARMA模型(Autoregressive Moving Average Model)

具有如下结构的模型称为自回归移动平均模型，简记为ARMA(p,q)。

可见ARMA模型认为当前时刻t的取值与前p期的取值和前q期的随机扰动有关。特别的，当q=0时ARMA模型等于AR模型，当p=0时ARMA模型等于MA模型。

总结：能够使用ARMA模型的时间序列应该满足如下性质

平稳非白噪声序列选择模型的步骤：
(1)计算时间序列的自相关系数(ACF)和偏自相关系数(PACF)
(2)模型定阶。根据AR模型、MA模型和ARMA模型的自相关性系数和偏自相关性系数的性质选择适合该时间序列的模型。

3.如果时间序列是非平稳序列，则可以选择ARIMA模型进行分析。
ARIMA模型
差分运算：
一阶差分运算为相距一期的两个序列值之间的减法运算。
同理k阶差分运算为相距k期的两个序列值之间的减法运算。
(Series格式和DataFrame格式的数据可直接调用diff()求差分序列)

# df为dataframe格式
>>> df
           a  b   c
        0  1  1   1
        1  2  1   4
        2  3  2   9
        3  4  3  16
        4  5  5  25
        5  6  8  36
# periods默认为1，代表1阶差分运算
>>> df.diff()
             a    b     c
        0  NaN  NaN   NaN
        1  1.0  0.0   3.0
        2  1.0  1.0   5.0
        3  1.0  1.0   7.0
        4  1.0  2.0   9.0
        5  1.0  3.0  11.0
# periods=3，代表3阶差分运算
 >>> df.diff(periods=3)
             a    b     c
        0  NaN  NaN   NaN
        1  NaN  NaN   NaN
        2  NaN  NaN   NaN
        3  3.0  2.0  15.0
        4  3.0  4.0  21.0
        5  3.0  6.0  27.0

ARIMA模型的实质是差分运算和ARMA模型的结合，因为许多非平稳序列差分后变为平稳序列。当某个时间序列是非平稳序列，我们求它的k阶平稳序列(k从1开始取)，这样得到的平稳序列也叫差分平稳序列，对差分平稳序列可以使用ARMA模型进行拟合。
差分平稳序列的建模步骤如下：

例子：对菜品日销量的时间序列进行建模，并预测未来几天内菜品的日销量数据
部分数据展示如下：

(1)检验该序列的平稳性

时序图如下：

自相关系数图如下：

单位根检验如下：

从上图可以看出，该序列有明显的递增趋势，并且有长期的相关性，单位根检验统计量的p值大于0.05，最终判定该序列为非平稳序列。

(2)差分运算。
对上面的非平稳序列进行k阶差分，对差分后的序列再次进行平稳性检验。
从一阶差分开始，接下来对一阶差分后的序列进行平稳性检验：
时序图如下：

自相关系数图如下：

单位根检验：

从上图可以看出，经过一阶差分后的序列的取值围绕某一常数上下波动，大部分自相关系数都为0，可见它有短期相关性，并且单位根检验p值小于0.05，最终判定一阶差分后的序列为平稳序列，那就不用再继续进行差分运算了。

(3)白噪声检验
使用LB(Ljung-Box )统计量来检验一阶差分后的序列是否为白噪声序列。
检验结果如下：

可见一阶差分后的序列是非白噪声序列。

(4)模型定阶(确定ARMA模型的p和q)
方法一：人为识别
一阶差分后的序列的偏自相关系数图如下：

可见一阶差分后的序列的自相关系数图显示出截尾，而偏自相关系数图显示出拖尾(0的周围上下波动，就是不为0)，所以根据AR模型、MA模型和ARMA模型的性质我们应该选择MA模型，即确定p=0，q=1。

方法二：
取p，q都小于等于3的所有组合计算BIC信息量，取BIC信息量达到最小的那一对组合。
计算出的BIC矩阵如下：

可见BIC的最小值为422.520082，此时p=0，q=1。

(5)建立ARIMA(0,1,1)并进行预测

# -*- coding: utf-8 -*-
# arima时序模型

import pandas as pd

# 参数初始化
path = 'F:/DataMining/chapter5/arima_data.xls'
forecastnum = 5

# 读取数据，指定日期列为指标，Pandas自动将“日期”列识别为Datetime格式
data = pd.read_excel(path, index_col=u'日期')
# print('data: \n', data)

# # 时序图
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
# data.plot()
# plt.show()

# 自相关图
# from statsmodels.graphics.tsaplots import plot_acf
# plot_acf(data)
# plt.show()


# 平稳性检验(单位根检验)
# 若pvalue大于显著水平(一般为0.05)则拒绝原假设，认为它是不平稳的
# from statsmodels.tsa.stattools import adfuller as ADF
# # print('data[销量]: \n', data['销量'])
# print(u'原始序列的ADF检验结果为：', ADF(data[u'销量']))
# 返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore


# # 差分后的结果
# diff()为pandas中计算差分的函数，默认为1阶差分
# dropna()为去掉结果中的NAN
D_data = data.diff().dropna()
D_data.columns = [u'销量差分']
# print('D_data: \n', D_data)
# D_data.plot()  # 时序图
# from statsmodels.graphics.tsaplots import plot_acf
# plot_acf(D_data)  # 自相关图
# from statsmodels.graphics.tsaplots import plot_pacf
# plot_pacf(D_data)  # 偏自相关图
# from statsmodels.tsa.stattools import adfuller as ADF
# print(u'差分序列的ADF检验结果为：', ADF(D_data[u'销量差分']))  # 平稳性检测
# plt.show()

# 白噪声检验
# 若pvalue大于显著水平(0.05)则认为它是白噪声序列(或纯随机性序列)
# from statsmodels.stats.diagnostic import acorr_ljungbox
# # Ljung-Box test for no autocorrelation，Ljung-Box是进行无自相关性的检验(也称之为纯随机性检验和白噪声检验)
# # 检验D_data在滞后1期时是否是白噪声()
# print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(D_data, lags=1))  # 返回统计量和p值


from statsmodels.tsa.arima_model import ARIMA
data[u'销量'] = data[u'销量'].astype(float)

# 定阶
pmax = int(len(D_data)/10)  # 一般阶数不超过length/10
qmax = int(len(D_data)/10)  # 一般阶数不超过length/10
bic_matrix = []  # bic矩阵
for p in range(pmax+1):
    tmp = []
    for q in range(qmax+1):
        try:  # 存在部分报错，所以用try来跳过报错。
            # order=(p, d, q)，其中p，q为arima模型中的阶数，d代表差分的阶数
            # 因为data的一阶差分序列是平稳非白噪声序列，所以这里是对data的一阶差分序列建模即d=1
            tmp.append(ARIMA(data, order=(p, 1, q)).fit().bic)
        except Exception as e:
            print(e)
            tmp.append(None)
    bic_matrix.append(tmp)

bic_matrix = pd.DataFrame(bic_matrix)  # 从中可以找出最小值
print('bic_matrix: \n', bic_matrix)
print('bic_matrix_stack: \n', type(bic_matrix.stack()))
# 以元组形式返回行索引
p, q = bic_matrix.stack().idxmin()  # 先用stack展平，然后用idxmin找出最小值位置。
print(u'BIC最小的p值和q值为：%s,%s' % (p, q))

model = ARIMA(data, (p, 1, q)).fit()  # 建立ARIMA(0, 1, 1)模型
print('模型报告: \n', model.summary2())  # 给出一份模型报告
# steps=5表示从样本的末尾再往后预测5个
# # model.forecast()依次返回的是(预测值数组,预测值的标准差数组，预测值的置信区间)
print('预测结果: \n', model.forecast(steps=5))  # 作为期5天的预测，返回预测结果、标准误差、置信区间。

进行为期5天的预测结果为：

[4873.9665477 , 4923.92261622, 4973.87868474, 5023.83475326, 5073.79082178]

预测结果仍然处于上升趋势，还是比较靠谱的。

4.时间序列算法中应用到的相关函数

石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
用户行为路径分析（Google Analytics数据挖掘）闲人编程 Python数据分析实战精要数据挖掘人工智能用户行为路径分析 Analytics 数据分析用户习惯
目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU加速5.用户行为路径分析方法5.1用户行为路径构建5.2行为路径挖掘与模式分析5.3常用指标计算6.数据可视化与指标展示7.PyQtGUI设计与实现8.GPU加速与性能优化9.系统
数据挖掘：第二章、认识数据 initial- - - 数据挖掘数据挖掘人工智能
第二章认识数据2.1数据类型与统计汇总数据集与数据对象一个数据集由多个数据对象组成，每个数据对象代表一个实体。例如，在销售数据库中，数据对象可以是客户、商品、销售额等；在医疗数据库中，数据对象可以是患者、治疗信息等；在大学数据库中，数据对象可以是学生、教授、课程信息等。数据对象也被称为样品、示例、实例、数据点、对象、元组。数据对象所描述的属性即数据集中的列，而数据对象则是数据库中的行。属性属性是数
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
数据挖掘中的数据预处理：填充与主成分分析阿什么名字不会重复呢数据挖掘人工智能
数据挖掘中的数据预处理：填充与主成分分析在数据挖掘中，数据预处理是非常重要的一步。现实世界中的数据通常是不完整的，包含噪声、缺失值或异常值，因此在进行模型训练或分析前，我们需要对数据进行清理和转换。本文将介绍数据预处理中的两种常见填充方法（01填充和均值填充），以及一种用于降维的技术——主成分分析（PCA）。一、数据填充数据填充是处理缺失值的常见方法。在实际场景中，数据集可能会因为各种原因出现缺失
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
OLAP与OLTP：数据处理系统的两种核心架构思静鱼 #Mysql-数据库架构
文章目录OLAP和OLTP的主要区别OLAP常见数据库和OLTP常见数据库OLAP是英文OnlineAnalyticalProcessing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。OLAP技术通常涉及到预计算、缓存和查询优化等方面的技术，可用于构建在线分析系统（OLAP系统）。该系统将大量的
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

数据挖掘笔记(6)-时间序列分析

你可能感兴趣的:(数据挖掘)