阡之尘埃

Python数据分析案例37——基于分位数神经网络(QRNN)的汇率预测

案例背景

我导师的研究方向是少有的做"分位数回归"方向，作为研究机器学习深度学习方向的我自然就继承了这个特色，改进出了很多特殊结合方法，我会结合各种机器学习方法和各种分位数回归的方法。

之前写过分位数随机森林，分位数XGboost，分位数Lightgbm的文章：

Xgboost和Lightgbm结合分位数回归(机器学习与传统统计学结合)

本次带来一个小案例，分位数神经网络，神经网络是最简单的MLP架构，也就是很多外行论文里面所说的BP神经网络，结合分位数回归，就变成了'QRNN'。

数据介绍

本次做的是汇率的预测，即使用这样一个数据集：“汇率外汇储备 M2 美国CPI 国债利率贸易顺差”。用后面五个变量预测汇率。

需要本次案例演示的数据和全部代码的同学可以参考：汇率数据

方法流程

一般我不会写这个版块的，一般都是跟着代码走，但是由于这次做的模型较为复杂，不仅是QRNN模型，更是涉及到分位数的参数，不同的分位水平 $\tau$ ，然后进行不同 $\tau$ 条件分布下的X对y的参数估计，形成了一个分布，然后再根据这个数据分布，进行包含留一交叉验证选择的带宽，再根据这个最优带宽进行核密度估计。然后再将核密度估计转化为不同情况下的（众数，中位数，均值）点估计。然后再去和真实值做对比，计算误差评价指标。(区间估计就不弄了，没必要....)

这个流程对于一般的同学来说复杂了，虽然对我来说只是一个研究之余随便搞点代码写的小案例....但很多不了解这些技术和方法的同学肯定看不懂。因为一般的同学做预测都是点估计，机器学习估计出来的都是一个点，一个具体数值，他们不懂啥是概率密度估计。我不打算介绍我这些东西的原理，因为大部分做这个方面的论文里面都有，我自己都是看论文学的(当然都是SCI论文)，真的想研究的同学应该是明白我在做什么的，可以借鉴我这个小案例，然后推广到更多的数据和方法上。

简而言之就是基于QRNN模型做的概率密度估计。

并且我还会使用线性回归，线性分位数回归，普通神经网络，分位数神经网络去做一个预测误差的对比。

代码实现

开始写代码！导入包：

import os ,io
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei'] 
plt.rcParams['axes.unicode_minus']=False

import tensorflow as tf
import keras
from keras.models import Model, Sequential
from keras.models import Sequential
from keras.layers import LSTM, Dense,Flatten
from keras.callbacks import EarlyStopping
from sklearn.preprocessing import MinMaxScaler
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import train_test_split
#from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

from sklearn.neighbors import KernelDensity
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import LeaveOneOut

定义随机数种子，固定所有的包里面的随机数种子。

def set_my_seed():
    os.environ['PYTHONHASHSEED'] = '0'
    np.random.seed(1)
    tf.random.set_seed(66)
set_my_seed()

准备数据

读取数据，设置日期为时间索引：

data=pd.read_csv('data.csv',parse_dates=['date'],index_col='date',encoding='utf-8')
data.index =data.index.to_period('M') 
data.head()

手工划分训练集和测试集

X=data.iloc[:,1:] ; y=np.log(data.iloc[:,0])
X_train=X[:'2023-05'] ; X_test=X['2023-06':]
y_train=y[:'2023-05'] ; y_test=y['2023-06':]
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

只留下6个点作为测试集。小案例嘛，数据量不多，只是演示方法。

归一化，神经网络太需要归一化了

#归一化
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
##准备储存的数据框
df_preds_all=pd.DataFrame(index=y_test.index)
df_preds_all['真实值']=y_test
df_preds_all

由于我要做很多模型对比，我要把不同模型的预测效果储存起来，就弄一个数据框准备好。

线性回归

#线性回归
from sklearn.linear_model import LinearRegression
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
y_pred_linear = linear_model.predict(X_test)
df_preds_all['线性回归预测']=y_pred_linear

线性回归很简单，训练储存就行。

BP神经网络

#bp神经网络回归
bp_nn_model = MLPRegressor(hidden_layer_sizes=(20,18), activation='relu', solver='adam', max_iter=1000, random_state=0)
bp_nn_model.fit(X_train_scaled, y_train)
y_pred_bpnn = bp_nn_model.predict(X_test_scaled)
df_preds_all['BP网络预测']=y_pred_bpnn
df_preds_all

外行论文都喜欢叫BP神经网络。。其实就是最普通的多层感知机，MLP架构的神经网络，sklearn库就能实现，也很简单，训练拟合然后预测就行。

分位数回归

下面进行线性的分位数回归：

#分位数
from statsmodels.regression.quantile_regression import QuantReg
quantiles = np.around(np.linspace(0, 1, 51), decimals=2)[1:-1]
predictions = []

for q in quantiles:
    model_quantile = QuantReg(y_train,X_train_scaled).fit(q=q)
    pred = model_quantile.predict(X_test_scaled)
    predictions.append(pred)

prediction_QR = pd.DataFrame(predictions,index=[r'$\tau$='+str(i) for i in quantiles],columns=df_preds_all.index).T
prediction_QR

不同的分位数水平下的预测结果，我这里取的是间隔为0.02一个点的 $\tau$ ，也可以取0.05或者0.01，都可以，看你自己。

然后估计出来的是很多值嘛，我们需要做留一交叉验证的概率密度估计，然后构造为点估计：

df_alltau=prediction_QR.copy()
df_alltau_kde=pd.DataFrame()
set_my_seed()
bandwidths_lis=[]
for col in df_alltau.columns:
    X1=df_alltau[col].to_numpy().reshape(-1,1)
    grid = GridSearchCV(KernelDensity(kernel='gaussian'),{'bandwidth': np.linspace(0.01,0.2,21)},cv=LeaveOneOut())
    grid.fit(X1)
    best_KDEbandwidth = grid.best_params_['bandwidth']
    #print(best_KDEbandwidth)
    bandwidths_lis.append(best_KDEbandwidth)
    kde = KernelDensity(kernel="gaussian", bandwidth=best_KDEbandwidth).fit(X1)
    truth_density=pd.DataFrame(kde.score_samples(X1),columns=[col],index=df_alltau.index)
    df_alltau_kde=pd.concat([df_alltau_kde,truth_density],axis=1)
df_alltau_kde=np.exp(df_alltau_kde)

row_sums = df_alltau_kde.sum(axis=1)
df_alltau_kde_s = df_alltau_kde.div(row_sums, axis=0)
df_eval_point_QR=pd.DataFrame(columns=['众数','中位数','均值'])
for col in df_alltau_kde_s.T.columns:
    pros=df_alltau_kde_s.T[col].to_numpy()
    values=df_alltau.T[col].to_numpy()
    #print(pros.shape,values.shape)
    max_values=values[np.argmax(pros)]
    median_values=np.median(values)
    mean_values=(pros*values).sum()
    df_eval_point_QR.loc[col,:]=[max_values,median_values,mean_values]
df_eval_point_QR

这就是普通的线性分位数回归的预测的三种情况的预测值了。

分位数神经网络QRNN

这里使用Keras框架，听说Keras现在也支持pytorch了。

def QRNN(X_train,hidden_dim=[64,32],tau=0.5):
    model = Sequential()
    model.add(Dense(hidden_dim[0],input_shape=(X_train_scaled.shape[1],)))
    model.add(Dense(hidden_dim[1]))
    model.add(Dense(1))
    set_my_seed()
    def loss_func(y_true, y_pred):   
        loss_01 = tf.constant(tau,dtype=tf.float32)
        loss_02 = tf.constant(1-tau,dtype=tf.float32)
        loss_ = (tf.reduce_sum(tf.where(tf.greater(y_true, y_pred),
                                            (abs(y_true-y_pred))*loss_01,(abs(y_true-y_pred))*loss_02)))/y_train.shape[0]          
        return loss_ 
    model.compile(optimizer='Adam', loss=loss_func ,metrics=[tf.keras.metrics.RootMeanSquaredError(),"mape","mae"])
    return model

分位数神经网络最大的区别在于损失函数，其实也是线性分位数回归和线性回归的最大区别。他们损失函数不一样而已。这里自定义了分位数的损失函数，然后传入，若只想借鉴QRNN代码，不想搞什么概率密度估计的同学看这个就可以了。

不同分位数水平下的预测：

predictions =np.zeros((quantiles.shape[0],y_test.shape[0]))
for i,q in enumerate(quantiles):
    set_my_seed()
    model=QRNN(X_train,hidden_dim=[9,7],tau=q)
    earlystop = EarlyStopping(monitor='loss', min_delta=0, patience=5)
    hist=model.fit(X_train_scaled,y_train,batch_size=4,epochs=50,callbacks=[earlystop],verbose=0)
    y_pred_QRNN = model.predict(X_test_scaled)
    predictions[i,:]=y_pred_QRNN.reshape(-1,)
prediction_QRNN = pd.DataFrame(predictions,index=[r'$\tau$='+str(i) for i in quantiles],columns=prediction_QR.index).T
prediction_QRNN

一样，使用留一交叉验证的概率密度估计

#构建为概率密度估计
df_alltau=prediction_QRNN.copy()
df_alltau_kde=pd.DataFrame()
set_my_seed()
bandwidths_lis=[]
for col in df_alltau.columns:
    X1=df_alltau[col].to_numpy().reshape(-1,1)
    grid = GridSearchCV(KernelDensity(kernel='gaussian'),{'bandwidth': np.linspace(0.01,0.2,21)},cv=LeaveOneOut())
    grid.fit(X1)
    best_KDEbandwidth = grid.best_params_['bandwidth']
    #print(best_KDEbandwidth)
    bandwidths_lis.append(best_KDEbandwidth)
    kde = KernelDensity(kernel="gaussian", bandwidth=best_KDEbandwidth).fit(X1)
    truth_density=pd.DataFrame(kde.score_samples(X1),columns=[col],index=df_alltau.index)
    df_alltau_kde=pd.concat([df_alltau_kde,truth_density],axis=1)
df_alltau_kde=np.exp(df_alltau_kde)
df_alltau_kde

这里就是不同分位数水平下的概率密度，画图看就知道了：

dis_cols = 3                   #一行几个
dis_rows = 2
off=0
plt.figure(figsize=(2.8 * dis_cols, 2.8 * dis_rows),dpi=400)
for i in range((dis_cols*dis_rows)):
    plt.subplot(dis_rows,dis_cols,i+1)
    sns.kdeplot(df_alltau.iloc[i,:],bw_adjust=0.3,fill=True,alpha=0.2,common_norm=True,label='预测值')
    plt.axvline(y_test[i+off],color='r',linestyle='--',label='真实值')
    plt.title(f'{df_alltau_kde.index[i+off]}',fontsize=14)
    plt.xlabel('汇率/对数',fontsize=10)
    plt.ylabel('条件密度',fontsize=10)
    plt.legend()
plt.tight_layout()
#plt.savefig('概率密度.png')
plt.show()

这图已经很明显了，我们的概率密度预测的峰值附近基本都是真实值，大概就是这样意思。

转为点估计

### 转为点估计
row_sums = df_alltau_kde.sum(axis=1)
df_alltau_kde_s = df_alltau_kde.div(row_sums, axis=0)
df_eval_point=pd.DataFrame(columns=['众数','中位数','均值'])
for col in df_alltau_kde_s.T.columns:
    pros=df_alltau_kde_s.T[col].to_numpy()
    values=df_alltau.T[col].to_numpy()
    #print(pros.shape,values.shape)
    max_values=values[np.argmax(pros)]
    median_values=np.median(values)
    mean_values=(pros*values).sum()
    df_eval_point.loc[col,:]=[max_values,median_values,mean_values]
df_eval_point

评价指标

基本都预测完了，现在就是把预测结果放一起然后进行评价了，构建一个多层索引，这样数据一目了然

tuples_li=[('真实值','真实值'),('线性回归', '预测值'), ('BP神经网络', '预测值')]
tuples_qr = [('分位数回归', '众数预测值'), ('分位数回归', '中位数预测值'), ('分位数回归', '均值预测值')]
tuples_qrnn = [('分位数神经网络', '众数预测值'), ('分位数神经网络', '中位数预测值'), ('分位数神经网络', '均值预测值')]
multi_index_li=pd.MultiIndex.from_tuples(tuples_li, names=['Model', 'Statistic'])
multi_index_qr = pd.MultiIndex.from_tuples(tuples_qr, names=['Model', 'Statistic'])
multi_index_qrnn = pd.MultiIndex.from_tuples(tuples_qrnn, names=['Model', 'Statistic'])

df_preds_all.columns=multi_index_li
df_eval_point_QR.columns = multi_index_qr
df_eval_point.columns = multi_index_qrnn

df_alls= pd.concat([df_preds_all,df_eval_point_QR, df_eval_point], axis=1)
df_alls

计算误差：

for col in df_alls.columns:
    if any('预测值' in part for part in col):
        error_percentage = (df_alls[col] - df_alls[('真实值', '真实值')]) / df_alls[('真实值', '真实值')] 
        new_col_name = (col[0], f'{col[1]}误差')
        df_alls.insert( df_alls.columns.get_loc(col) + 1, new_col_name, error_percentage)
df_alls

这种表就可以进论文了，存为excel复制一下进word就可以。

df_alls.to_excel('结果.xlsx')

来看看某gpt对这个结果怎么分析的：

这段数据展示了对美元兑人民币汇率的不同模型预测，包括线性回归、BP神经网络、分位数回归和分位数神经网络，每个模型都给出了从2023年6月至11月的预测值及其误差。这些预测值是对汇率对数的估计，可以从中洞察到预测模型对未来汇率走势的看法。

预测误差的解读：

所有模型在大部分月份的预测值都略低于实际值，表示模型普遍预测人民币相对于美元将会有更强的表现。
然而，实际的汇率并没有像模型预测的那样表现出强势，这可能意味着存在一些未被模型考虑的因素或市场动态。

模型比较：

线性回归和BP神经网络在大多数情况下的预测误差较为接近，这可能表明在这个特定的预测任务中，简单的线性模型和更复杂的神经网络模型有相似的表现。
分位数回归和分位数神经网络在一些月份的预测误差较大，特别是在对极端值的预测上可能不够准确。

汇率走势分析：

预测结果普遍偏低,可能反映了模型对人民币强势的一种乐观预期。这种乐观可能基于对中国经济的正面评估或其他国际货币政策的预期。
但是人民币实际走势的表现不如模型的训练数据那样强势，可能是受到了这段时间国内外经济压力、政策和市场情绪的多重影响。

误差画图

一堆字，其实我自己都懒得看。。。把误差拿来画个图就知道那种模型预测效果好了：

df_alls.loc[:,  df_alls.columns.get_level_values(1).str.contains("误差")]

df=df_alls.loc[:,  df_alls.columns.get_level_values(1).str.contains("误差")].abs().sum()
df

把这个数据拿出来画柱状图：

methods = ["线性回归", "BP神经网络", "分位数回归 众数", "分位数回归 中位数", "分位数神经网络 众数", "分位数神经网络 中位数"]
values = [0.132949, 0.068474, 0.102138, 0.101512,  0.08581, 0.050486]
#"分位数回归 均值", , "分位数神经网络 均值"  0.044599  , 0.091162
plt.figure(figsize=(7, 3),dpi=128)
sns.barplot(x=methods, y=values)
plt.xticks(rotation=35)
plt.ylabel("误差百分比")
plt.title("不同模型误差总和")
plt.show()

这就一目了然了，明显神经网络的效果会好，误差会低一点，

1.相比线性回归模型，无论普通线性回归还是分位数线性回归，都不如非线性的神经网络的误差低。

2.带分位数的模型，效果普遍比普通的模型效果好，分位数神经网络的中位数构建的点估计效果是最好的。

创作不易，看官觉得写得还不错的话点个关注和赞吧，本人会持续更新python数据分析领域的代码文章~(需要定制类似的代码可私信)

PyTorch torch.no_grad() 指南（笔记）拉拉拉拉拉拉拉马 pytorch 人工智能 python 笔记深度学习
PyTorchtorch.no_grad()权威在PyTorch深度学习框架中，高效的显存管理对于训练复杂模型和执行大规模推理任务至关重要。显存不足（OutOfMemory,OOM）错误是开发者经常面临的挑战之一。torch.no_grad()作为PyTorch提供的一个核心工具，能够在推理（inference）和验证（validation）阶段显著优化显存使用并提升计算速度。本报告旨在全面、深入
【深度学习基础】PyTorch中model.eval()与with torch.no_grad()以及detach的区别与联系？
目录1.核心功能对比2.使用场景对比3.区别与联系4.典型代码示例(1)模型评估阶段(2)GAN训练中的判别器更新(3)提取中间特征5.关键区别总结6.常见问题与解决方案(1)问题：推理阶段显存爆掉(2)问题：Dropout/BatchNorm行为异常(3)问题：中间张量意外参与梯度计算7.最佳实践8.总结以下是PyTorch中model.eval()、withtorch.no_grad()和.d
性能优化在实际案例中的使用渴死的鱼仔 javascript 前端 html
案例：电商网站购物车功能优化问题描述：电商网站的购物车功能存在性能瓶颈，当用户添加大量商品时，页面响应变慢，甚至出现卡顿现象。需要通过优化代码和数据结构提升性能。原始代码（未优化）//购物车数据以数组存储，每次操作都遍历整个数组letcart=[];functionaddToCart(product){letfound=false;for(leti=0;i{constitemElement=doc
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
网络爬虫-07 YEGE学AI算法 Python-网络爬虫
网络爬虫-07）**Spider06回顾****scrapy框架****完成scrapy项目完整流程****我们必须记住****爬虫项目启动方式****数据持久化存储****Spider07笔记****分布式爬虫****scrapy_redis详解****腾讯招聘分布式改写****机器视觉与tesseract****补充-滑块缺口验证码案例****豆瓣网登录****Fiddler抓包工具****移
量子计算与AI融合的技术突破与实践路径
量子计算与人工智能的融合正开启一个全新的技术纪元，这种"量智融合"不是简单的技术叠加，而是多领域、多学科的横向连接，通过协同创新实现非线性增长。本文将深入探讨这一领域的最新进展、技术实现路径以及行业应用案例。电子-光子-量子一体化芯片：硬件基础突破2025年7月，美国波士顿大学、加州大学伯克利分校和西北大学团队联合开发出全球首个电子-光子-量子一体化芯片系统。这一突破性成果发表在《自然·电子学》杂
Django项目运行报错：ModuleNotFoundError: No module named ‘MySQLdb‘
解决方法：在__init__.py文件下，新增下面这段代码importpymysqlpymysql.install_as_MySQLdb()注意：确保你的python有下载pymysql库，没有的话可以使用pipinstallpymysql安装原理：用pymysql来代替mysqlLab__init__.py文件大致位置在：
[Py026]Snakefile灵活传递param 安哥生个信
snakemake是用python编写的，最近串流程用的比较频繁，所以也归纳在python实用技巧里面。现在需要实现的一个功能是——根据每一个input自身的特点，返回一个值（可能是固定，也可能是随机）；然后将这个返回值传递给下面的运行代码。举例：现在有两个fastq文件20192.fastq.gz20193.fastq.gz，需要通过seqkit转换为fasta文件；如果文件名是奇数，则转换出来
Python日志终极指南：深入探索logging日志管理模块 c01dkit python python 开发语言
在任何一个严谨的软件开发项目中，日志（Logging）都是不可或缺的一环。它不仅是调试代码的利器，更是线上问题追踪、性能分析和数据监控的重要依据。相比于随处可见的print()语句，Python内置的logging模块提供了更为强大、灵活且标准化的解决方案。[1][2]这篇博客将带你由浅入深，全面掌握logging模块的使用，从基础配置到高级技巧，再到企业级项目的最佳实践。一、告别print()：
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
React Native iOS 全栈开发：跨平台开发的最佳实践 AI天才研究院 ChatGPT 计算 AI人工智能与大数据 react native ios react.js ai
ReactNativeiOS全栈开发：跨平台开发的最佳实践关键词：ReactNative、iOS开发、跨平台开发、全栈开发、最佳实践摘要：本文围绕ReactNativeiOS全栈开发展开，详细探讨了跨平台开发的最佳实践。从核心概念入手，介绍了ReactNative和iOS开发相关知识，阐述它们之间的联系。深入讲解核心算法原理和具体操作步骤，通过数学模型和公式进一步剖析。提供项目实战案例，包含开发环
【Python爬虫(26)】Python爬虫进阶：数据清洗与预处理的魔法秘籍奔跑吧邓邓子 Python爬虫 python 爬虫开发语言数据清洗预处理
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、数据清洗的重要性二、数据清洗的常见任务2.1去除噪声数据2.2
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
如何通过linux黑窗口实现对远程服务器的操作
①选择合适的云平台进行设备的租用并复制好远程设备的IP地址②使用管理员权限打开黑窗口③输入命令连接远程的设备：ssh用户名@服务器IP地址，此时得到的是一个什么都没有的设备④由于该设备什么都没有，故先：sudoaptupdate，然后安装gcc编译器：sudoaptinstallbulid-essential，再然后安装python：sudoaptinstallpython-3.8，再然后安装mi
Redis——API的理解和使用莫问以
一、全局命令1、查看所有键keys*下面插入了3对字符串类型的键值对：127.0.0.1:6379>sethelloworldOK127.0.0.1:6379>setjavajedisOK127.0.0.1:6379>setpythonredis-pyOKkeys*命令会将所有的键输出：127.0.0.1:6379>keys*1)"python"2)"java"3)"hello"2、键总数dbsi
PYTHON对接第三方验证码短信接口短信接口开发
PYTHON短信接口对接demo#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://user.ihuyi.com/?DKimmu#注意事项：#（1）调试期间，请使用用系统默认的短信内容：您的验证码是：【变量】。请不要把验证码泄露给其他人。#（2）请使用APIID及APIKEY来调用接口，可在会员中心获取；#（3）该代码仅供接入互亿无线
第二十四篇 Requests+BeautifulSoup，秒抓网站信息！你的智能信息收集器！爱分享的飘哥日常效率自动化 beautifulsoup Python爬虫 Requests 数据抓取办公自动化信息收集
python爬虫序言：手动复制粘贴网页数据？效率太低了1.网页数据抓取基础：HTTP请求与网页结构速览1.1HTTP请求：浏览器如何和网页交互？1.2网页结构：HTML，信息的载体2.Requests库：发送网络请求的利器2.1安装与基础用法：你的第一个HTTP请求2.2处理请求头与参数：模拟浏览器访问3.BeautifulSoup：解析网页的利器3.1安装与基础用法：快速解析HTML内容3.2精
Redis 安全加固：从密码保护到高级安全配置 Seal^_^ 数据库专栏 #数据库--Redis redis 安全数据库 Redis 安全加固
Redis安全加固：从密码保护到高级安全配置一、Redis安全概述二、密码认证配置1.设置Redis密码临时设置（重启后失效）永久设置（修改配置文件）2.密码认证流程3.Python连接示例三、网络层安全加固1.绑定内网IP2.修改默认端口3.防火墙配置四、危险命令禁用1.禁用敏感命令2.命令禁用前后对比五、高级安全配置1.TLS加密传输2.客户端证书认证3.ACL细粒度权限控制（Redis6.0
【python库对比】路径专题 os.path和pathlib对比尚未想好 python高频库对比 python 开发语言 vscode
专栏收录：python高频库对比本专栏将持续更新在工程领域高频使用的python库之间的对比文章概览：简单介绍路径处理常用的python库及特点对比os.path和pathlib的异同结合代码示例说明两个库的差异.补充：os.path和pathlib高频使用接口见os.path和pathlib高频使用接口及示例1.简介Python中处理路径的库有很多，其中一些常用的包括：os.path模块：os.
如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题万粉变现经纪人全栈Bug解决方案专栏 pip flask python pycharm scrapy pandas 后端
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在使用PyCharm进行Python开发时，常常需要通过pip安装第三方包以满足项目依赖。但在控制台执行pipinstallflask后，依旧可能出现ModuleNotFoundError:Nomodulenamed
如何解决pip安装报错ModuleNotFoundError: No module named ‘sqlalchemy’问题万粉变现经纪人全栈Bug解决方案专栏 pip pandas python pycharm scipy beautifulsoup numpy
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘sqlalchemy’问题摘要在使用PyCharm控制台执行pipinstallsqlalchemy后，仍然在代码中提示ModuleNotFoundError:Nomodulenamed'sqlalchemy'，让许多开发者头疼。本文将
法国诺曼底疫情指数超警戒线！网红专家神预测有无第2波疫情法国话事姐
近日，德国威斯特法伦地区肉类联合加工厂Tönnies爆发集中感染事件。目前已接受新冠病毒检测的1160名员工中，约有730人检测结果呈阳性，感染比例高达三分之二！英国威尔士一处鸡肉加工厂18日也出现聚集性疫情，已有近百人确诊感染。不仅如此，法国诺曼底地区疫情也出现了反复。这一系列事件引发不少“第二波疫情”是否来临的担忧。法国是不是有点太松懈？法国卫生部门6月19日发布统计数据称，自5月启动“解封”
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
前端 Vue.js 动画效果实现技巧大厂前端小白菜前端 vue.js javascript ai
前端Vue.js动画效果实现技巧关键词：Vue.js、动画、过渡、CSS动画、JavaScript动画、性能优化、交互设计摘要：本文将深入探讨Vue.js中实现动画效果的多种技巧，从基础的CSS过渡到复杂的JavaScript动画，涵盖过渡组件使用、动画性能优化、第三方库集成等实用内容。通过丰富的代码示例和实际案例，帮助开发者掌握在Vue应用中创建流畅、吸引人的动画效果。背景介绍目的和范围本文旨在
乐观锁的介绍想躺平的咸鱼干 redis java 数据库大数据 intellij-idea
乐观锁乐观锁是一种并发控制机制，如果多种事务并发冲突的概率比较低，所以在数据操作的时候布里吉加锁，在提交时检查数据是否被其他事务修改过，通过版本号（version）或时间戳（Timestamp）实现，确保数据一致性。乐观锁通过版本控制+冲突检测实现高效并发管理，适用于低冲突，高并发的互联网，优势在于无锁设计与高吞吐。时间戳：用于记录某个事件具体时间的数值或字符串，它的核心作用是唯一标识某一时刻。时
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
卖掉EOS后竟然淡定了许多（日更价值感知训练366天之第37天）赤脚哥
昨天EOS一路下跌，跌的我有点坐不住劲了。人的行动都是在恐惧情绪中产生的，正好看到蓝起星球里说9月份比特币大概率要大跌到4200美金左右，我当时神操作就把EOS在4.7美金都换成ustd了。其实我没看到他说的9月份，我以为马上就要变盘似的。因为他是玩大钱的，我心里也有一些相信。没想到今天一路上飙，涨到36块多，我心里虽然没有感觉太踏空，但也隐隐觉得昨天操作有点鲁莽了。人总是在自己坚持不住的时候割肉
Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）筏.k gRPC c++rpc 服务器
gRPC核心技术详解：Proto文件从入门到精通——现代分布式系统通信的基石（含实战案例）更新时间：2025年7月18日️标签：gRPC|ProtocolBuffers|Proto文件|微服务|分布式系统|RPC通信|接口定义文章目录前言一、基础概念：Proto文件究竟是什么？1.什么是Proto文件？2.传统通信vsProto通信二、语法详解：Proto文件的构成要素1.基本语法结构2.数据类型
GEV/POT/Markov/点过程/贝叶斯极值全解析；基于R语言的极值统计学
极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的统计建模及分析方法；在水文、气象、环境、生态、保险和金融等领域都有着广泛的应用。专题一、独立假设下的极值统计建模主要内容包括：1.广义极值模型.2.极小值的处理.3.广义Pareto模型.4.第r大次序统计量建模.5.R语言中极值统计学包.6.实例操作1-2.(提供案例数据及代码)专题二、平稳时间序列的极值统计建
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod