brucewong0516

时间序列学习笔记之python详细实践（二）

上一篇文章讲了时间序列的理论基础，对于时间序列数据的分析，总的来说就是以下几点：

1、一般不需要进行白噪声检验，直接观测是否是平稳的时间序列，即平稳性检验。如时序图检验、自相关图检验、单位根ADF检验。
2、对于非平稳的时间序列数据，进一步做处理，使之变为平稳。包括差分方法、对数变换方法、移动平均或者指数平均方法等。
3、经过第二步处理，已经得到平稳时间序列。要对平稳时间序列分别求得其自相关系数ACF 和偏自相关系数PACF ，通过对自相关图和偏自相关图的分析，得到最佳的阶层 p 和阶数 q
4、检验模型的有效性。如果拟合模型通不过检验，转向步骤3，重新选择模型再拟合。
5、模型优化。如果拟合模型通过检验，仍转向步骤2，充分考虑各种可能，建立多个拟合模型，从所有通过检验的拟合模型中选择最优模型。
6、利用拟合模型，预测序列的将来走势。

接下来以详细的实例进行分析：

一、导入数据【AirPassengers.csv】

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from datetime import datetime
import matplotlib.pylab as plt
from matplotlib.pylab import rcParams
from statsmodels.tsa.stattools import adfuller

plt.rcParams['font.sans-serif']=['SimHei']
rcParams['figure.figsize'] = 10, 5

#data = pd.read_csv('AirPassengers.csv',index_col = [0],header = 0)
data = pd.read_csv('AirPassengers.csv', index_col='Month')
ts = data['Passengers']

二、查看导入的数据

ts.head()  #查看时间序列的内容
Out[6]: 
Month
Jan-49    112
Feb-49    118
Mar-49    132
Apr-49    129
May-49    121
Name: Passengers, dtype: int64

type(ts.index.values[0])   #查看索引是否是时序
Out[7]: str

#可以得知当前的索引非时序类型，通过to_datetime进行转换
ts.index = pd.to_datetime(ts.index)

type(ts.index.values[0])
Out[10]: numpy.datetime64

#转换成功，进一步看一下我们的ts数据
ts.head()
Out[11]: 
Month
2049-01-01    112
2049-02-01    118
2049-03-01    132
2049-04-01    129
2049-05-01    121
Name: Passengers, dtype: int64

#查看某日的值既可以使用字符串作为索引，又可以直接使用时间对象作为索引
ts['2049-01-01']
Out[12]: 112

ts[datetime(2049,1,1)]
Out[13]: 112

#查看某年的数据
ts['2049']
Out[15]: 
Month
2049-01-01    112
2049-02-01    118
2049-03-01    132
2049-04-01    129
2049-05-01    121
2049-06-01    135
2049-07-01    148
2049-08-01    148
2049-09-01    136
2049-10-01    119
2049-11-01    104
2049-12-01    118
Name: Passengers, dtype: int64

三、平稳性检验

1、查看时序图

from pylab import *
plt.plot(ts)
plt.title('Passengers')
show()

从时序图可以明显的看出它具有年周期成分和长期趋势成分，所以可认为是非平稳序列。

2、查看自相关图

from statsmodels.graphics.tsaplots import plot_pacf,plot_acf
plot_acf(ts)
show()

自相关系数并木有很快衰减向0，且具有较大的变化，所以可认为是非平稳序列

3、单位根ADF检验

import statsmodels as sm
temp = np.array(ts)
t = sm.tsa.stattools.adfuller(temp)  # ADF检验
output=pd.DataFrame(index=['Test Statistic Value', "p-value", "Lags Used", "Number of Observations Used","Critical Value(1%)","Critical Value(5%)","Critical Value(10%)"],columns=['value'])
output['value']['Test Statistic Value'] = t[0]        #t值
output['value']['p-value'] = t[1]                     #p值
output['value']['Lags Used'] = t[2]                   #阶数
output['value']['Number of Observations Used'] = t[3]
output['value']['Critical Value(1%)'] = t[4]['1%']
output['value']['Critical Value(5%)'] = t[4]['5%']
output['value']['Critical Value(10%)'] = t[4]['10%']
output

t   #
Out[23]: 
(0.8153688792060506,
 0.991880243437641,
 13,
 130,
 {'1%': -3.4816817173418295,
  '10%': -2.578770059171598,
  '5%': -2.8840418343195267},
 996.692930839019)

Out[22]: 
                                value
Test Statistic Value         0.815369
p-value                       0.99188
Lags Used                          13
Number of Observations Used       130
Critical Value(1%)           -3.48168
Critical Value(5%)           -2.88404
Critical Value(10%)          -2.57877

单位根检验：ADF是一种常用的单位根检验方法，他的原假设为序列具有单位根，即非平稳，对于一个平稳的时序数据，就需要在给定的置信水平上显著，拒绝原假设。以下为检验结果，其p值大于0.99，说明并不能拒绝原假设。

4、对于上述检验方法，可以总结为一个类，如下。

import numpy as np
import pandas as pd
from datetime import datetime
import matplotlib.pylab as plt
from matplotlib.pylab import rcParams
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from pylab import *

plt.rcParams['font.sans-serif']=['SimHei']
rcParams['figure.figsize'] = 10, 5

#data = pd.read_csv('AirPassengers.csv',index_col = [0],header = 0)
data = pd.read_csv('AirPassengers.csv', index_col='Month')

ts = data['Passengers'] 
ts.index = pd.to_datetime(ts.index)

# 移动平均图
def draw_trend(timeSeries, size):
    f = plt.figure(facecolor='white')
    # 对size个数据进行移动平均
    rol_mean = timeSeries.rolling(window=size).mean()
    # 对size个数据进行加权移动平均
    rol_weighted_mean = pd.ewma(timeSeries, span=size)

    timeSeries.plot(color='blue', label='Original')
    rol_mean.plot(color='red', label='Rolling Mean')
    rol_weighted_mean.plot(color='black', label='Weighted Rolling Mean')
    plt.legend(loc='best')
    plt.title('Rolling Mean')
    plt.show()

def draw_ts(timeSeries):
    f = plt.figure(facecolor='white')
    plt.plot(timeSeries,color='blue')
    plt.title('Passengers')
    plt.show()


def testStationarity(timeSeries):
    dftest = adfuller(timeSeries)
    # 对上述函数求得的值进行语义描述
    dfoutput = pd.Series(dftest[0:4], index=['Test Statistic','p-value','#Lags Used','Number of Observations Used'])
    for key,value in dftest[4].items():
        dfoutput['Critical Value (%s)'%key] = value
    return dfoutput

# 自相关和偏相关图，默认阶数为31阶
def draw_acf_pacf(ts, lags=31):
    f = plt.figure(facecolor='white')
    ax1 = f.add_subplot(211)
    plot_acf(ts, lags=31, ax=ax1)
    ax2 = f.add_subplot(212)
    plot_pacf(ts, lags=31, ax=ax2)
    plt.show()

四、平稳性处理

由前面的分析可知，该序列是不平稳的，然而平稳性是时间序列分析的前提条件，故我们需要对不平稳的序列进行处理将其转换成平稳的序列。

1、对数变换

对数变换主要是为了减小数据的振动幅度，使其线性规律更加明显。对数变换相当于增加了一个惩罚机制，数据越大其惩罚越大，数据越小惩罚越小。这里强调一下，变换的序列需要满足大于0，小于0的数据不存在对数变换。

ts_log = np.log(ts)
draw_ts(ts_log)

2、平滑法

根据平滑技术的不同，平滑法具体分为移动平均法和指数平均法。移动平均即利用一定时间间隔内的平均值作为某一期的估计值，而指数平均则是用变权的方法来计算均值。

draw_trend(ts_log, 12)

从上图可以发现窗口为12的移动平均能较好的剔除年周期性因素，而指数平均法是对周期内的数据进行了加权，能在一定程度上减小年周期因素，但并不能完全剔除，如要完全剔除可以进一步进行差分操作。

3、差分

时间序列最常用来剔除周期性因素的方法当属差分了，它主要是对等周期间隔的数据进行线性求减。ARIMA模型相对ARMA模型，仅多了差分操作，ARIMA模型几乎是所有时间序列软件都支持的，差分的实现与还原都非常方便。而statsmodel中，对差分的支持不是很好，它不支持高阶和多阶差分。我们可以先用pandas将序列差分好，然后在对差分好的序列进行ARIMA拟合。

diff_14 = ts_log.diff(14)
diff_14.dropna(inplace=True)
testStationarity(diff_14)

Out[52]: 
Test Statistic                  -3.849033
p-value                          0.002444
#Lags Used                      13.000000
Number of Observations Used    116.000000
Critical Value (1%)             -3.488022
Critical Value (5%)             -2.886797
Critical Value (10%)            -2.580241
dtype: float64

从上面的统计检验结果可以看出，经过14阶差分后，该序列满足平稳性的要求了。

4、分解

所谓分解就是将时序数据分离成不同的成分。statsmodels使用的X-11分解过程，它主要将时序数据分离成长期趋势、季节趋势和随机成分。与其它统计软件一样，statsmodels也支持两类分解模型，加法模型和乘法模型，这里我只实现加法，乘法只需将model的参数设置为”multiplicative”即可。

from statsmodels.tsa.seasonal import seasonal_decompose
decomposition = seasonal_decompose(ts_log, model="additive")
f = plt.figure(facecolor='white')
trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid
ax1 = f.add_subplot(311)
ax1.plot(trend)
ax2 = f.add_subplot(312)
ax2.plot(seasonal)
ax3 = f.add_subplot(313)
ax3.plot(residual)

五、模型识别

在前面的分析可知，该序列具有明显的年周期与长期成分。对于年周期成分我们使用窗口为12的移动平进行处理，对于长期趋势成分我们采用1阶差分来进行处理。

rol_mean = ts_log.rolling(window=12).mean()
rol_mean.dropna(inplace=True)
ts_diff_1 = rol_mean.diff(1)
ts_diff_1.dropna(inplace=True)
testStationarity(ts_diff_1)

Out[57]: 
Test Statistic                  -2.709577
p-value                          0.072396
#Lags Used                      12.000000
Number of Observations Used    119.000000
Critical Value (1%)             -3.486535
Critical Value (5%)             -2.886151
Critical Value (10%)            -2.579896
dtype: float64

观察其统计量发现该序列在置信水平为95%的区间下并不显著，我们对其进行再次一阶差分。

ts_diff_2 = ts_diff_1.diff(1)
ts_diff_2.dropna(inplace=True)

testStationarity(ts_diff_2)
Out[60]: 
Test Statistic                  -4.443325
p-value                          0.000249
#Lags Used                      12.000000
Number of Observations Used    118.000000
Critical Value (1%)             -3.487022
Critical Value (5%)             -2.886363
Critical Value (10%)            -2.580009

再次差分后的序列其自相关具有快速衰减的特点，t统计量在99%的置信水平下是显著的。

查看自相关和偏自相关的图：

draw_acf_pacf(ts_diff_2, lags=1)

数据平稳后，需要对模型定阶，即确定p、q的阶数。观察上图，发现自相关和偏相系数都存在拖尾的特点，并且他们都具有明显的一阶相关性，所以我们设定p=1, q=1。下面就可以使用ARMA模型进行数据拟合了。

from statsmodels.tsa.arima_model import ARMA
model = ARMA(ts_diff_2, order=(1, 1)) 
result_arma = model.fit( disp=-1, method='css')

六、样本拟合

模型拟合完后，我们就可以对其进行预测了。由于ARMA拟合的是经过相关预处理后的数据，故其预测值需要通过相关逆变换进行还原。

predict_ts = result_arma.predict()
# 一阶差分还原
diff_shift_ts = ts_diff_1.shift(1)
diff_recover_1 = predict_ts.add(diff_shift_ts)
# 再次一阶差分还原
rol_shift_ts = rol_mean.shift(1)
diff_recover = diff_recover_1.add(rol_shift_ts)
# 移动平均还原
rol_sum = ts_log.rolling(window=11).sum()
rol_recover = diff_recover*12 - rol_sum.shift(1)
# 对数还原
log_recover = np.exp(rol_recover)
log_recover.dropna(inplace=True)

我们使用均方根误差（RMSE）来评估模型样本内拟合的好坏。利用该准则进行判别时，需要剔除“非预测”数据的影响。

ts = ts[log_recover.index]  # 过滤没有预测的记录
plt.figure(facecolor='white')
log_recover.plot(color='blue', label='Predict')
ts.plot(color='red', label='Original')
plt.legend(loc='best')
plt.title('RMSE: %.4f'% np.sqrt(sum((log_recover-ts)**2)/ts.size))
plt.show()

七、完善ARIMA模型

前面提到statsmodels里面的ARIMA模块不支持高阶差分，我们的做法是将差分分离出来，但是这样会多了一步人工还原的操作。基于上述问题，我将差分过程进行了封装，使序列能按照指定的差分列表依次进行差分，并相应的构造了一个还原的方法，实现差分序列的自动还原。

# 差分操作
def diff_ts(ts, d):
    global shift_ts_list
    #  动态预测第二日的值时所需要的差分序列
    global last_data_shift_list
    shift_ts_list = []
    last_data_shift_list = []
    tmp_ts = ts
    for i in d:
        last_data_shift_list.append(tmp_ts[-i])
        print last_data_shift_list
        shift_ts = tmp_ts.shift(i)
        shift_ts_list.append(shift_ts)
        tmp_ts = tmp_ts - shift_ts
    tmp_ts.dropna(inplace=True)
    return tmp_ts

# 还原操作
def predict_diff_recover(predict_value, d):
    if isinstance(predict_value, float):
        tmp_data = predict_value
        for i in range(len(d)):
            tmp_data = tmp_data + last_data_shift_list[-i-1]
    elif isinstance(predict_value, np.ndarray):
        tmp_data = predict_value[0]
        for i in range(len(d)):
            tmp_data = tmp_data + last_data_shift_list[-i-1]
    else:
        tmp_data = predict_value
        for i in range(len(d)):
            try:
                tmp_data = tmp_data.add(shift_ts_list[-i-1])
            except:
                raise ValueError('What you input is not pd.Series type!')
        tmp_data.dropna(inplace=True)
    return tmp_data

现在我们直接使用差分的方法进行数据处理，并以同样的过程进行数据预测与还原。

diffed_ts = diff_ts(ts_log, d=[12, 1])
model = arima_model(diffed_ts)
model.certain_model(1, 1)
predict_ts = model.properModel.predict()
diff_recover_ts = predict_diff_recover(predict_ts, d=[12, 1])
log_recover = np.exp(diff_recover_ts)

发现这里的预测结果和上一篇的使用12阶移动平均的预测结果一模一样。这是因为12阶移动平均加上一阶差分与直接12阶差分是等价的关系，后者是前者数值的12倍，这个应该不难推导。

对于个数不多的时序数据，我们可以通过观察自相关图和偏相关图来进行模型识别，倘若我们要分析的时序数据量较多，例如要预测每只股票的走势，我们就不可能逐个去调参了。这时我们可以依据BIC准则识别模型的p, q值，通常认为BIC值越小的模型相对更优。这里我简单介绍一下BIC准则，它综合考虑了残差大小和自变量的个数，残差越小BIC值越小，自变量个数越多BIC值越大。个人觉得BIC准则就是对模型过拟合设定了一个标准。

def proper_model(data_ts, maxLag):
    init_bic = sys.maxint
    init_p = 0
    init_q = 0
    init_properModel = None
    for p in np.arange(maxLag):
        for q in np.arange(maxLag):
            model = ARMA(data_ts, order=(p, q))
            try:
                results_ARMA = model.fit(disp=-1, method='css')
            except:
                continue
            bic = results_ARMA.bic
            if bic < init_bic:
                init_p = p
                init_q = q
                init_properModel = results_ARMA
                init_bic = bic
    return init_bic, init_p, init_q, init_properModel

相对最优参数识别结果：BIC: -1090.44209358 p: 0 q: 1 ， RMSE:11.8817198331。我们发现模型自动识别的参数要比我手动选取的参数更优。

八、滚动预测

所谓滚动预测是指通过添加最新的数据预测第二天的值。对于一个稳定的预测模型，不需要每天都去拟合，我们可以给他设定一个阀值，例如每周拟合一次，该期间只需通过添加最新的数据实现滚动预测即可。基于此我编写了一个名为arima_model的类，主要包含模型自动识别方法，滚动预测的功能，详细代码可以查看附录。数据的动态添加：

from dateutil.relativedelta import relativedelta
def _add_new_data(ts, dat, type='day'):
if type == 'day':
        new_index = ts.index[-1] + relativedelta(days=1)
    elif type == 'month':
        new_index = ts.index[-1] + relativedelta(months=1)
    ts[new_index] = dat

def add_today_data(model, ts,  data, d, type='day'):
    _add_new_data(ts, data, type)  # 为原始序列添加数据
    # 为滞后序列添加新值
    d_ts = diff_ts(ts, d)
    model.add_today_data(d_ts[-1], type)

def forecast_next_day_data(model, type='day'):
    if model == None:
        raise ValueError('No model fit before')
    fc = model.forecast_next_day_value(type)
    return predict_diff_recover(fc, [12, 1])

现在我们就可以使用滚动预测的方法向外预测了，取1957年之前的数据作为训练数据，其后的数据作为测试，并设定模型每第七天就会重新拟合一次。这里的diffed_ts对象会随着add_today_data方法自动添加数据，这是由于它与add_today_data方法中的d_ts指向的同一对象，该对象会动态的添加数据。

ts_train = ts_log[:'1956-12']
ts_test = ts_log['1957-1':]

diffed_ts = diff_ts(ts_train, [12, 1])
forecast_list = []

for i, dta in enumerate(ts_test):
    if i%7 == 0:
        model = arima_model(diffed_ts)
        model.certain_model(1, 1)
    forecast_data = forecast_next_day_data(model, type='month')
    forecast_list.append(forecast_data)
    add_today_data(model, ts_train, dta, [12, 1], type='month')

predict_ts = pd.Series(data=forecast_list, index=ts['1957-1':].index)
log_recover = np.exp(predict_ts)
original_ts = ts['1957-1':]

动态预测的均方根误差为：14.6479，与前面样本内拟合的均方根误差相差不大，说明模型并没有过拟合，并且整体预测效果都较好。

九、模型序列化

在进行动态预测时，我们不希望将整个模型一直在内存中运行，而是希望有新的数据到来时才启动该模型。这时我们就应该把整个模型从内存导出到硬盘中，而序列化正好能满足该要求，使用pickle模块建模型存入和导出。

import pickle
#将对象model_arma保存到文件file中去
with open('model_arma.pkl','wb') as f:
    model_arma = pickle.dump(result_arma,f,-1)
#从file中读取原来的python对象model_arma；
with open('model_arma.pkl','rb') as f:
    model_arma = pickle.load(f)

Python 潮流周刊#89：Python 3.14 的新型解释器！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论以下是本期摘要：文章&教程①Python3.14新特性：一种新型解释器②高效扩展Python：PyO3与Rust实战③使用uv开发和安装PythonC
python后端调用Deep Seek API YY_oot python ai 语言模型
python后端调用DeepSeekAPI需要依次下载●Ollama●DeepseekR1LLM模型●嵌入模型nomic-embed-text/bge-m3●AnythingLLM参考教程：DeepseekR1打造本地化RAG知识库:安装部署使用详细教程手把手教你：deepseekR1基于AnythingLLMAPI调用本地知识库python调用anythingllm的APIimportreque
多python环境配置搞不定看这篇就够了 Nothi.C python 环境 python 开发语言 linux windows
环境配置一直都是难倒无数入门选手的关键问题。如何在一台电脑中运行多个版本？本文章以virtualenv构建虚拟环境为例子首先，下载相对应的Python，windows版本下载完成后如若遇到PYTHON和PIP已安装却系统无法执行：此电脑高级设置—>环境变量->系统PATH->新建->粘贴PYTHON路径（为指定Python）和PYTHON\Scripts（为指定pip）或者执行命令setPATH=
下载多个python如何配置环境彪悍的高校 python 开发语言
多环境Python配置方案在数据科学和软件开发的领域，Python因其简单易用而广受欢迎。然而，随着项目的不断增多，我们常常需要在同一台机子上安装多个版本的Python及其依赖。为了解决这个问题，我们可以采用虚拟环境管理工具。本文将介绍如何通过venv和pyenv来配置多个Python环境，并提供相关的代码示例。一、环境准备在开始前，请确保你的计算机上已安装了以下软件：Python：确保安装了Py
【python学习】深度解析 Python 的 .env配置与最佳实践：温格高的环境变量配置之道 NLP仙人 python python 学习开发语言人工智能
1.文章简介在开发和部署Python项目时，环境变量配置对于管理敏感信息如数据库连接字符串、API密钥至关重要。本文将以温格高（2023年环法冠军）的项目为例，详细介绍如何通过.env文件简化环境配置，并分享多环境管理、Docker集成等热门功能。我们还将覆盖一些小技巧和常见错误，帮助你避免开发中的踩坑。2.使用.env文件的好处温格高团队正在开发一个记录自行车赛事的应用，涉及多个开发环境和敏感信
Python爬虫获取股市数据，有哪些常用方法？股票程序化交易接口量化交易股票API接口 Python股票量化交易 python爬虫股市数据网页抓取 api 股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>网页直接抓取法Python中有许多库可用于解析HTML页面来获取股市数据。例如BeautifulSoup，它能够轻松地从网页的HTML结构中提取出想要的数据。当我们定位到包含股市数据的网页时，利用BeautifulSoup可以根据HT
Python 爬虫实战：在东方财富网抓取股票行情数据，辅助投资决策西攻城狮北 python 爬虫实战案例东方财富网
目录一、引言二、准备工作1.环境搭建2.获取目标网址三、分析网页结构1.查看HTML结构2.分析请求方式四、编写爬虫代码1.导入必要的库2.设置请求头3.获取股票行情数据4.保存数据到CSV文件5.主函数五、数据分析与可视化1.加载数据2.数据清洗3.数据分析4.数据可视化六、总结一、引言在金融投资领域，股票行情数据是投资者做出决策的重要依据。东方财富网作为国内领先的金融信息平台，提供了丰富的股票
深度学习（1)-简单神经网络示例 yyc_audio 深度学习人工智能
我们来看一个神经网络的具体实例：使用Python的Keras库来学习手写数字分类。在这个例子中，我们要解决的问题是，将手写数字的灰度图像（28像素×28像素）划分到10个类别中（从0到9）。我们将使用MNIST数据集，图2-1给出了MNIST数据集的一些样本。在机器学习中，分类问题中的某个类别叫作类（class），数据点叫作样本（sample），与某个样本对应的类叫作标签（label）。你不需要现
python创建sqlite3数据库_SQLite – Python | 菜鸟教程 weixin_39683144
SQLite-Python安装SQLite3可使用sqlite3模块与Python进行集成。sqlite3模块是由GerhardHaring编写的。它提供了一个与PEP249描述的DB-API2.0规范兼容的SQL接口。您不需要单独安装该模块，因为Python2.5.x以上版本默认自带了该模块。为了使用sqlite3模块，您首先必须创建一个表示数据库的连接对象，然后您可以有选择地创建光标对象，这将
Python根据日历算排班表装小蜜监理王志峰 python 开发语言
Python,开发者相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python根据日历算排班表简介作为一名经验丰富的开发者，我将教你如何用Python根据日历来算排班表。这是一个常见且实用的功能，在很多公司和组织都有类似的需求。在这篇文章中，我将通过步骤
Python爬虫——网站基本信息 IT·小灰灰 python 爬虫开发语言网络
在智能时代，数据是新的石油。Python爬虫技术赋予了我们成为数据猎人的能力，让我们能够在网络的广袤土地上狩猎，为机器学习和人工智能的发展提供燃料目录一、介绍——Python二、介绍——Python爬虫1.请求库2.解析库3.数据存储4.多线程/多进程5.异步编程6.代理和反爬虫7.爬虫框架8.爬虫的法律和道德问题9.异常处理10.日志记录三、爬虫示例代码一、介绍——PythonPython是一种
Python 自动排班表格（代码分享）趣享先生 Python案例分享专栏 python 开发语言
✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。个人主页：JavaFans的博客个人信条：不迁怒，不贰过。小知识，大智慧。当前专栏：Java案例分享专栏✨特色专栏：国学周更-心性养成之路本文内容：Python自动排班表格（代码分享）前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录前言问题描述解决步骤1
Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图（Correllogram） Data+Science+Insight 数据科学从0到1 python 机器学习数据挖掘数据分析人工智能
Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图（Correllogram）目录Python使用matplotlib可视化相关性分析热力图图heatmap、使用seaborn中的heatmap函数可视化相关性热力图（Correllogram）#导入需要的包和库、matplotlib和seaborn可视化图像的全局
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
python如何将数据生成excel_Python如何将数据导出excel的技巧分享 weixin_39528697
本篇文章主要介绍了python技能之导出excel的实例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧本文介绍了python技能之导出excel的实例代码，正好能用到，写出来分享给大家作为一个数据分析师，下面的需求是经常会遇到的。从数据库或者现有的文本文件中提取符合要求的数据，做一个二次处理，处理完成后的数据最终存储到excel表格中供其他部门的人继续二次分析。在
Python数据处理之导入导出Excel数据 master_chenchengg python 能力提升面试宝典技术 IT信息化
Python数据处理之导入导出Excel数据开启数据之旅：为什么Python是Excel数据处理的最佳拍档？准备工作：让Python与Excel握手言欢数据入境：把Excel表格里的宝藏带入Python世界数据出境：将Python分析结果优雅地送回Excel家园玩转数据：用Python对Excel数据进行清洗、转换和分析自动化魔法：编写Python脚本实现Excel数据处理自动化跨界合作：整合其他
第一天：爬虫介绍朱剑君 Python爬虫训练营爬虫 python
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
第三天：爬取数据-urllib库. 朱剑君 Python爬虫训练营 python 爬虫
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
使用Seaborn绘制相关性热力图认真写代码i python 开发语言 Python
使用Seaborn绘制相关性热力图相关性热力图是一种常用的可视化工具，用于显示变量之间的相关性。在Python中，Seaborn是一个功能强大且易于使用的数据可视化库，可以轻松地创建相关性热力图。在本文中，我们将学习如何使用Seaborn的heatmap函数来绘制相关性热力图。首先，我们需要安装Seaborn库。你可以使用以下命令通过pip安装Seaborn：pipinstallseaborn安装
python编程入门学习（3）——自用笔记徐少19 python入门 python
目录第五章：if语句一个简单的示例条件测试if语句使用if语句处理列表第六章：字典一个简单的字典使用字典遍历字典嵌套在列表中存储字典在字典中存储列表在字典中存储字典第五章：if语句一个简单的示例#if语句示例cars=['bmw','audi','toyota','subaru']forcarincars:ifcar=='bmw':print(car.upper())else:print(car.
《一文吃透！NLTK与SpaCy，自然语言处理的神兵利器》人工智能深度学习
在人工智能的璀璨星空中，自然语言处理（NLP）无疑是最为耀眼的领域之一。它让机器能够理解、处理和生成人类语言，极大地推动了智能交互的发展。而在Python的NLP工具库中，NLTK和SpaCy就像两把锋利的宝剑，各自散发着独特的光芒。今天，就让我们深入探究这两款工具的使用技巧与优势，为你的NLP之旅增添强大助力。一、NLTK：自然语言处理的瑞士军刀NLTK（NaturalLanguageToolk
Python 第三方库 PyQt5 的安装狐凄实例学习开发语言
目录前言PyQt5安装不同操作系统PyQt5安装一、Windows系统二、macOS系统三、Linux系统（以Ubuntu为例）安装PyQt5可能会遇到的问题一、环境相关问题二、依赖问题三、网络问题四、安装工具问题五、运行时问题六、环境配置问题七、安装源问题八、检查错误信息九、运行时错误十、尝试不同的安装方法问题解决环境相关问题一、Python版本兼容性问题二、操作系统特定问题三、依赖库问题四、环
opencv全面详解教程听忆. 机器学习深度学习计算机视觉人工智能
opencv全面详解教程1.OpenCV简介2.安装OpenCV2.1使用pip安装（适用于Python）2.2通过conda安装2.3从源码编译（高级）3.OpenCV基本操作3.1读取和显示图像3.2保存图像3.3视频处理4.图像处理操作4.1调整大小和裁剪4.2颜色空间转换4.3图像平滑（滤波）4.4边缘检测5.形态学操作6.特征检测与匹配6.1角点检测（Harris）6.2SIFT、SUR
ta-lib使用 lvming-elena C++大数据
ta-lib介绍TA-Lib，全称“TechnicalAnalysisLibrary”,即技术分析库，是Python金融量化的高级库，涵盖了150多种股票、期货交易软件中常用的技术分析指标，如MACD、RSI、KDJ、动量指标、布林带等等。TA-Lib可分为10个子板块：OverlapStudies(重叠指标)，MomentumIndicators(动量指标)，VolumeIndicators(交
利用Python进行数据清洗与预处理：Pandas的高级用法步入烟尘 python 数据库开发语言
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Python Pandas数据清洗之缺失数据处理 python慕遥 Pandas python pandas 开发语言
大家好，在数据分析和处理过程中，缺失数据是常见且不可避免的现象。无论是在数据收集、传输或存储的过程中，数据集可能会出现部分丢失。缺失数据的存在不仅会影响数据的完整性，还可能对后续的数据分析和建模造成不利影响。为了保证数据质量，合理处理缺失数据至关重要。Python的Pandas库提供了强大的工具，能够高效处理数据中的缺失值，特别是通过插值和填充技术来弥补数据的缺失。本文将介绍如何使用Pandas处
TA-Lib：Python金融分析核心库使用指南一筐猪的头发丝
本文还有配套的精品资源，点击获取简介：TA-Lib是一个广泛应用于金融分析领域的库，它包含多种技术分析指标，适用于股票、期货和外汇等金融产品的技术分析。通过这个库，开发者可以利用Python编程语言进行历史市场数据的技术分析，包括趋势指标、振荡器、成交量分析以及形态识别等。TA-Lib还支持自动化交易系统的开发、投资组合优化和风险管理，是金融专业人士和数据分析师不可或缺的工具。1.TA-Lib库概
利用Python pandas 数据清洗详细教程小白教程 python 运维数据库 python pandas 开发语言
文章目录前言一、环境搭建1.下载Python2.安装Python3使用pip安装Pandas二、使用步骤1.读取数据2.处理缺失值3.处理重复值4.处理异常值5.数据类型转换6.处理不一致的数据前言pandas是Python数据处理与分析的得力工具，功能强大，是数据从业者进行数据清洗的首选。本教程将系统介绍用pandas进行数据清洗，涵盖数据读取、缺失值与重复值处理、异常值修正、数据类型转换等要点
预测股票走势的ai模型 roxxo AI模型人工智能深度学习金融
AI股票走势预测模型用深度学习+时间序列分析来构建一个股票预测AI，基于历史数据预测未来走势。1.关键功能✅AI选股（基于财务数据+技术指标）✅股票走势预测（LSTM/Transformer）✅智能筛选高增长潜力股✅可视化分析2.关键技术数据来源：YahooFinance/AlphaVantage财务分析：PE、EPS、ROE、PB、成交量机器学习选股：随机森林/XGBoost深度学习预测：LST
Python 报错分析：IndexError: list index out of range 小馒头学python 问题 python 开发语言
在Python编程中，IndexError:listindexoutofrange是一个常见的错误，通常发生在我们尝试访问超出列表（或其他可迭代对象）有效范围的索引时。这个错误通常会让初学者感到困惑，但实际上它是很直观的，只要理解了列表的索引机制，我们就能轻松避免它。本文将带你深入了解这个错误的原因，并展示如何通过几个实际的例子来解决它。1.什么是IndexError:listindexoutof
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟