weixin_39634132

python线性回归预测pm2.5_线性回归--PM2.5预测--李宏毅机器学习

一、说明

给定训练集train.csv，要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量。

训练集介绍：

(1)、CSV文件，包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集，12月X20天=240天，每月后10天数据用于测试，对学生不可见);

(2)、每天的监测时间点为0时，1时......到23时，共24个时间节点;

(3)、每天的检测指标包括CO、NO、PM2.5、PM10等气体浓度，是否降雨、刮风等气象信息，共计18项；

二、数据处理

根据要求，要用前9个小时的数据，来预测第10个小时的PM2.5值。一笔训练数据如下图所示：

数据中存在一定量的空数据NR，且多存在于RAINFALL一项。对于空数据，常规的处理方法无非就是删除法和补全法两种。

RAINFALL表示当天对应时间点是否降雨，因此可以采用补全法处理空数据：将空数据NR全部补为0即可。

#将NR替换成 0

data = data.replace(['NR'], [0.0])

我们先将数据进行预处理，得到每笔训练数据和对应的结果label。

1. 由于每个月前20天的数据检测是连续24小时进行的，所以为了得到多笔数据，先将每个月20天数据 “连起来”，如下图示：

每个月的数据就是18行480(24*20)列,一共12个月的数据。

#将每个月20天数据连成一大行

month_data =[]for month in range(12):#每个月的数据

sub_data = np.empty([18, 20*24])for day in range(20):#每一天的数据

sub_data[:, day*24:(day+1)*24] = data[(month*18*20+day*18):(month*18*20+(day+1)*18), :]

month_data.append(sub_data)

2. 对于连续的10个小时，可以取一笔 9小时训练数据(输入) 和第10小时对应PM2.5值(结果)。

每个月20天，20*24=480小时， 480-9=471，每个月可以取471笔数据。

#将每个月中20天，相邻9个小时生成一笔数据，第10个小时的pm2.5值，生成一个label

for i in range(12):

sub_data=month_data[i]for j in range(20*24-9):#相邻9小时的数据

x_list.append(sub_data[:, j:j+9])#第10小时的 pm2.5

y_list.append(sub_data[9, j+9])

完整数据处理代码：

defdata_process(data):

x_list , y_list=[], []#将NR替换成 0

data = data.replace(['NR'], [0.0])#astype() 转换为float

data =np.array(data).astype(float)#将每个月20天数据连成一大行

month_data =[]for month in range(12):#每个月的数据

sub_data = np.empty([18, 20*24])for day in range(20):#每一天的数据

sub_data[:, day*24:(day+1)*24] = data[(month*18*20+day*18):(month*18*20+(day+1)*18), :]

month_data.append(sub_data)#将每个月中20天，相邻9个小时生成一笔数据，第10个小时的pm2.5值，生成一个label

for i in range(12):

sub_data=month_data[i]for j in range(20*24-9):#相邻9小时的数据

x_list.append(sub_data[:, j:j+9])#第10小时的 pm2.5

y_list.append(sub_data[9, j+9])

x=np.array(x_list)

y=np.array(y_list)return x, y, month_data

View Code

二、模型建立

如题所说，使用的是最简单的线性回归模型，作为课程作业没有那么难,但也从中学到不少东西。

2.1 线性回归模型

如果把b作为w0，加到权值向量前面，可以得到向量运算的形式，如下：

h(X) = WTX #W为权值， X为输入。

2.2 损失函数

用预测值与label之间的平均欧式距离来衡量预测的准确程度，并充当损失函数。

这里的损失指的是平均损失；乘1/2是为了在后续求梯度过程中保证梯度项系数为1，方便计算。

为了防止过拟合，加入正则项：

完整的损失函数：

2.3 梯度下降

对参数 w 和 b 求偏导：

对参数进行更新：

ηw、ηb为学习率。

2.4 学习率更新

为了在不影响模型效果的前提下提高学习速度，可以对学习率进行实时更新：即让学习率的值在学习初期较大，之后逐渐减小。

这里采用比较经典的adagrad算法来更新学习率：

根号下为梯度的累加值。

2.5 矩阵加速计算推导

因为python中使用矩阵的计算速度非常快，远远快于循环计算，所以这里我们推导一下利用矩阵计算梯度值的写法。

前文提到过，如果把b作为w0，加到权值向量前面可以得到如下形式：

h(X) = WTX # W为权值， X为输入。 W = [b, w0, w1, ...]

对于损失函数的转化改造：

对于

1. 将平方求和改造成向量模的平方：

假设我们有个向量

所以有

将平方项展开：

对W进行求偏导：与上面展开对应

所以我们要求的梯度就是：

*这里将分子的2去掉是因为与的损失函数分母抵消。

#计算梯度 W = X转置.(XW-Y)

w_1 = np.dot(X.transpose(), X.dot(W)-y_train)

三、训练模型

3.0 数据转化

将训练数据分成两部分(8：2)，一部分用来训练，一部分用来验证效果。

#8:2 cross validation

x_train = x[:(int)(x.shape[0]*0.8)]

y_train= y[:(int)(x.shape[0]*0.8)]

x_val= x[(int)(x.shape[0]*0.8+0.5):]

y_val= y[(int)(y.shape[0]*0.8+0.5):]

由于参数太多，也可以取其中的几类进行训练，比如下文中将选取NO、NO2、NOx、O3、PM10、PM2.5作为输入。

其中的一笔数据如下：

首先将每笔数据的输入转化成一行，并在前面加上 1，对应于bias项。

#定义参数 b，w b作为w0

W = np.ones(1+9*6)#将训练数据转化成每一笔数据一行，并且前面添加 1，作为b的权值 [[1, ...], [1, ...],...,[1, ...]]

X = np.empty([n, W.size-1])for i inrange(n):

X[i]= x_train[i][4:10].reshape(1, -1)#添加 1

X = np.concatenate((np.ones([n, 1]), X), axis=1)

3.1 训练函数

完整的训练函数代码如下，具体请看注释：

deftrain(x_train, y_train, times):#定义参数 b，w b作为w0

W = np.ones(1+9*6)#多少笔数据

n =y_train.size#学习率

learning_rate = 100

#正则项大小

reg_rate = 0.011

#将训练数据转化成每一笔数据一行，并且前面添加 1，作为b的权值 [[1, ...], [1, ...],...,[1, ...]]

X = np.empty([n, W.size-1])for i inrange(n):

X[i]= x_train[i][4:10].reshape(1, -1)#添加 1

X = np.concatenate((np.ones([n, 1]), X), axis=1)

# 累加正则项

adagrad=0#正则项的选择矩阵，去掉bias部分

reg_mat=np.concatenate((np.array([0]), np.ones([9*6,])), axis=0)for t inrange(times):#计算梯度 W = X转置.(XW-Y)

w_1 = np.dot(X.transpose(), X.dot(W)-y_train)#加正则项

w_1 += reg_rate * W *reg_mat#正则项参数更新

adagrad += sum(w_1**2)**0.5

#梯度下降

W -= learning_rate/adagrad *w_1#每200次迭代输出一次

if t%200==0:

loss=0for j inrange(n):

loss+= (y_train[j]-X[j].dot(W))**2

print(t)print('times', loss/n)return W

3.2 验证

defvalidate(x_val, y_val, w):

n=y_val.size#转化成一行，并加一列 1

X = np.empty([n, w.size - 1])for i inrange(n):

X[i]= x_val[i][4:10].reshape(1, -1)

X= np.concatenate((np.ones([n, 1]), X), axis=1)

loss=0#计算loss

for j inrange(n):

loss+= (y_val[j] - X[j].dot(W)) ** 2

return loss/n

四、结果分析

运行输出的结果看，loss还是挺大的，还有改进的空间。

改进思路：

1. 分割训练集和验证集时，应该按照比例随机抽取数据帧作为训练集和验证集，选取loss最小的模型。

2. 充分考虑其他参数对空气PM2.5的影响，加入更加复杂的高次项。

五、预测结果

对test集的数据进行结果预测

## 计算预测值 ##

Y =X_test.dot(W)#预测值写入

data_test =np.array(data_test)

data_test= np.concatenate((data_test, np.zeros([n, 1])), axis=1)for j in range(0, n, 18):

data_test[j+9, 11] = int(Y[int(j/18)]+0.5)

为了方便查看，将数据写回源文件格式。

#保存结果

data_test =pd.DataFrame(data_test)

data_test.to_csv('test_res.csv')

第一笔数据的预测值：

六、程序代码

**在项目根目录存放‘train.csv’、'test.csv'

**每次训练后会保存参数，下次训练时请事先删除根目录文件‘weight_2.npy’

importpandas as pdimportnumpy as npdefdata_process(data):

x_list , y_list=[], []#将NR替换成 0

data = data.replace(['NR'], [0.0])#astype() 转换为float

data =np.array(data).astype(float)#将每个月20天数据连成一大行

month_data =[]for month in range(12):#每个月的数据

sub_data = np.empty([18, 20*24])for day in range(20):#每一天的数据

sub_data[:, day*24:(day+1)*24] = data[(month*18*20+day*18):(month*18*20+(day+1)*18), :]

month_data.append(sub_data)#将每个月中20天，相邻9个小时生成一笔数据，第10个小时的pm2.5值，生成一个label

for i in range(12):

sub_data=month_data[i]for j in range(20*24-9):#相邻9小时的数据

x_list.append(sub_data[:, j:j+9])#第10小时的 pm2.5

y_list.append(sub_data[9, j+9])

x=np.array(x_list)

y=np.array(y_list)returnx, y, month_datadeftrain(x_train, y_train, times):#定义参数 b，w b作为w0

W = np.ones(1+9*6)#多少笔数据

n =y_train.size#学习率

learning_rate = 100

#正则项大小

reg_rate = 0.011

#将训练数据转化成每一笔数据一行，并且前面添加 1，作为b的权值 [[1, ...], [1, ...],...,[1, ...]]

X = np.empty([n, W.size-1])for i inrange(n):

X[i]= x_train[i][4:10].reshape(1, -1)#添加 1

X = np.concatenate((np.ones([n, 1]), X), axis=1)#data_X = pd.DataFrame(X)

#data_X.to_csv('data.csv')

adagrad=0#正则项的选择矩阵，去掉bias部分

reg_mat=np.concatenate((np.array([0]), np.ones([9*6,])), axis=0)for t inrange(times):#计算梯度 W = X转置.(XW-Y)

w_1 = np.dot(X.transpose(), X.dot(W)-y_train)#加正则项

w_1 += reg_rate * W *reg_mat#正则项参数更新

adagrad += sum(w_1**2)**0.5

#梯度下降

W -= learning_rate/adagrad *w_1#每200次迭代输出一次

if t%200==0:

loss=0for j inrange(n):

loss+= (y_train[j]-X[j].dot(W))**2

print('After', t,'times loss=', loss/n)returnWdefvalidate(x_val, y_val, w):

n=y_val.size#转化成一行，并加一列 1

X = np.empty([n, w.size - 1])for i inrange(n):

X[i]= x_val[i][4:10].reshape(1, -1)

X= np.concatenate((np.ones([n, 1]), X), axis=1)

loss=0#计算loss

for j inrange(n):

loss+= (y_val[j] - X[j].dot(W)) ** 2

return loss/nif __name__ == '__main__':

data= pd.read_csv('./train.csv', encoding='big5')#去掉前三列

data = data.iloc[:, 3:]

[x, y, month_data]=data_process(data)#8:2 cross validation

x_train = x[:(int)(x.shape[0]*0.8)]

y_train= y[:(int)(x.shape[0]*0.8)]

x_val= x[(int)(x.shape[0]*0.8+0.5):]

y_val= y[(int)(y.shape[0]*0.8+0.5):]try:

W= np.load('weight_2.npy')except:#迭代次数

times = 10000W=train(x_train, y_train, times)

np.save('weight_2.npy', W)## 计算在val上的loss ##

loss =validate(x_val, y_val, W)print('validate loss=', loss)## 在test上进行验证 ##

#header=None 无表头读入

data_test = pd.read_csv('./test.csv', header=None, encoding='big5')#去掉前两列

test = data_test.iloc[:, 2:]

test= test.replace(['NR'], [0.0])#处理数据

test =np.array(test).astype(float)

[n, m]=test.shape#读出参数值

X_test = np.empty([int(n/18), 9*6])for i in range(0, n, 18):

X_test[int(i/18), :] = test[i+4:i+10, :].reshape(1, -1)

[n_test, m_test]=X_test.shape#加一列 1

X_test = np.concatenate((np.ones([n_test, 1]), X_test), axis=1)## 计算预测值 ##

Y =X_test.dot(W)#预测值写入

data_test =np.array(data_test)

data_test= np.concatenate((data_test, np.zeros([n, 1])), axis=1)for j in range(0, n, 18):

data_test[j+9, 11] = int(Y[int(j/18)]+0.5)#保存结果

data_test =pd.DataFrame(data_test)

data_test.to_csv('test_res.csv')

View Code

感谢阅读，如有错误欢迎留言指正。

ps：本文实现参照以下两篇博客：

【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

python线性回归预测pm2.5_线性回归--PM2.5预测--李宏毅机器学习

你可能感兴趣的:(python线性回归预测pm2.5_线性回归--PM2.5预测--李宏毅机器学习)