准备写个系列博客介绍机器学习实战中的部分公开项目。首先从初级项目开始。
本文为初级项目第三篇:利用MNIST数据集训练手写数字分类。
项目原网址为:Stock Price Prediction – Machine Learning Project in Python。
第一篇为:机器学习实战 | emojify 使用Python创建自己的表情符号(深度学习初级)
第二篇为:机器学习实战 | MNIST手写数字分类项目(深度学习初级)
项目构想:
机器学习在股票价格预测中具有重要应用。在这个机器学习项目中,我们将讨论预测股票价格。这是一项非常复杂的任务,并且具有不确定性。
我们将学习如何使用 LSTM 神经网络
预测股票价格。
import matplotlib
matplotlib.use('Qt5Agg') # 防止画图时画图软件崩溃
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 20, 10 # 设置画板尺寸
from keras.models import Sequential
from keras.layers import LSTM, Dropout, Dense
from sklearn.preprocessing import MinMaxScaler
项目中主要用了pandas
、sklearn
、Keras
和TensorFlow
包,pandas
和sklearn
安装命令为:
pip install pandas
pip install scikit-learn
Keras
和TensorFlow
的安装命令为:
pip install keras==2.10.0
pip install TensorFlow==2.10.0
在最后输出结果的时候发现每次画图软件都崩溃导致程序中断,解决办法就是在前面加上这句话:matplotlib.use('Qt5Agg')
,防止画图时画图软件崩溃。
df = pd.read_csv("NSE-TATA.csv") # 读取.csv文件
df.head() # 默认只读取dataframe数据表中前5行内容
为了构建股票价格预测模型,我们将使用 NSE-TATA数据集。这是来自印度国家证券交易所塔塔全球饮料有限公司的塔塔饮料数据集,官方网址可能不好下载,这里给出了数据集下载地址:NSE-TATA数据集。
df["Date"] = pd.to_datetime(df.Date, format="%Y-%m-%d") # 将一个字符串解析为时间,并指定字符串的格式
df.index = df['Date']
plt.figure(figsize=(8, 4)) # 指定图片大小
plt.plot(df["Close"], label='Close Price history') # 绘图展示历史数据
data = df.sort_index(ascending=True, axis=0) # 索引排序:默认按行从小到大
new_dataset = pd.DataFrame(index=range(0, len(df)), columns=['Date', 'Close']) # 创建新的数据集
for i in range(0, len(data)):
new_dataset["Date"][i] = data['Date'][i]
new_dataset["Close"][i] = data["Close"][i]
final_dataset = new_dataset.values # 读取新数据的数值
train_data = final_dataset[0:987, :]
valid_data = final_dataset[987:, :]
new_dataset.index = new_dataset.Date
new_dataset.drop("Date", axis=1, inplace=True) # 删除Date行头,只保留数据
scaler = MinMaxScaler(feature_range=(0, 1)) # 数据归一化,创建MinmaxScaler实例,归一化区间[0,1]
scaled_data = scaler.fit_transform(new_dataset) # 执行数据归一化操作,输出归一化后的数据
x_train_data, y_train_data = [], []
for i in range(60, len(train_data)):
x_train_data.append(scaled_data[i - 60:i, 0])
y_train_data.append(scaled_data[i, 0])
x_train_data, y_train_data = np.array(x_train_data), np.array(y_train_data)
x_train_data = np.reshape(x_train_data, (x_train_data.shape[0], x_train_data.shape[1], 1))
lstm_model = Sequential()
lstm_model.add(LSTM(units=50, return_sequences=True, input_shape=(x_train_data.shape[1], 1)))
lstm_model.add(LSTM(units=50))
lstm_model.add(Dense(1))
lstm_model.compile(loss='mean_squared_error', optimizer='adam')
lstm_model.fit(x_train_data, y_train_data, epochs=1, batch_size=1, verbose=2)
lstm_model.save("saved_model.h5")
经过机器学习实战初级项目第一课和第二课后,这段话就很好看懂了:编译-训练-保存权重的过程。输入参数细节这里就不再介绍了,下面只简单描述一下编译、训练和保存函数。
saved_model.h5
文件,即为权重文件。inputs_data = new_dataset[len(new_dataset) - len(valid_data) - 60:].values
inputs_data = inputs_data.reshape(-1, 1)
inputs_data = scaler.transform(inputs_data)
X_test = []
for i in range(60, inputs_data.shape[0]):
X_test.append(inputs_data[i - 60:i, 0])
X_test = np.array(X_test)
X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))
predicted_closing_price = lstm_model.predict(X_test)
predicted_closing_price = scaler.inverse_transform(predicted_closing_price)
这段话的意思是首先筛选/构建测试数据集,保存在X_test
中,接着利用predict
函数对测试数据进行预测,预测结果保存在predicted_closing_price
中。
train_data = new_dataset[:987]
valid_data = new_dataset[987:]
valid_data['Predictions'] = predicted_closing_price
plt.plot(train_data["Close"])
plt.plot(valid_data[['Close', "Predictions"]])
plt.show()
将训练数据和测试数据画到一幅图中,同时展示股票预测结果和真实结果。
train.py: 训练程序,输出结果saved_model.h5
保存在项目源目录下。
"""
stock price prediction
"""
"""
1. imports
"""
import matplotlib
matplotlib.use('Qt5Agg') # 防止画图时画图软件崩溃
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 20, 10 # 设置画板尺寸
from keras.models import Sequential
from keras.layers import LSTM, Dropout, Dense
from sklearn.preprocessing import MinMaxScaler
"""
2. read the dataset
"""
df = pd.read_csv("NSE-TATA.csv") # 读取.csv文件
df.head() # 默认只读取dataframe数据表中前5行内容
"""
3. analyze the closing prices from dataframe
"""
df["Date"] = pd.to_datetime(df.Date, format="%Y-%m-%d") # 将一个字符串解析为时间,并指定字符串的格式
df.index = df['Date']
plt.figure(figsize=(8, 4)) # 指定图片大小
plt.plot(df["Close"], label='Close Price history') # 绘图展示历史数据
"""
4. sort the dataset on data time and filter "data" and "close" columns
"""
data = df.sort_index(ascending=True, axis=0) # 索引排序:默认按行从小到大
new_dataset = pd.DataFrame(index=range(0, len(df)), columns=['Date', 'Close']) # 创建新的数据集
for i in range(0, len(data)):
new_dataset["Date"][i] = data['Date'][i]
new_dataset["Close"][i] = data["Close"][i]
"""
5. normalize the new filtered dataset
"""
final_dataset = new_dataset.values # 读取新数据的数值
train_data = final_dataset[0:987, :]
valid_data = final_dataset[987:, :]
new_dataset.index = new_dataset.Date
new_dataset.drop("Date", axis=1, inplace=True) # 删除Date行头,只保留数据
scaler = MinMaxScaler(feature_range=(0, 1)) # 数据归一化,创建MinmaxScaler实例,归一化区间[0,1]
scaled_data = scaler.fit_transform(new_dataset) # 执行数据归一化操作,输出归一化后的数据
x_train_data, y_train_data = [], []
for i in range(60, len(train_data)):
x_train_data.append(scaled_data[i - 60:i, 0])
y_train_data.append(scaled_data[i, 0])
x_train_data, y_train_data = np.array(x_train_data), np.array(y_train_data)
x_train_data = np.reshape(x_train_data, (x_train_data.shape[0], x_train_data.shape[1], 1))
"""
6. build and train the LSTM model
"""
lstm_model = Sequential()
lstm_model.add(LSTM(units=50, return_sequences=True, input_shape=(x_train_data.shape[1], 1)))
lstm_model.add(LSTM(units=50))
lstm_model.add(Dense(1))
lstm_model.compile(loss='mean_squared_error', optimizer='adam')
lstm_model.fit(x_train_data, y_train_data, epochs=1, batch_size=1, verbose=2)
lstm_model.save("saved_model.h5") # save the LSTM model
"""
7. take a sample of a dataset to make stock price predictions using the LSTM model
"""
inputs_data = new_dataset[len(new_dataset) - len(valid_data) - 60:].values
inputs_data = inputs_data.reshape(-1, 1)
inputs_data = scaler.transform(inputs_data)
X_test = []
for i in range(60, inputs_data.shape[0]):
X_test.append(inputs_data[i - 60:i, 0])
X_test = np.array(X_test)
X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))
predicted_closing_price = lstm_model.predict(X_test)
predicted_closing_price = scaler.inverse_transform(predicted_closing_price)
"""
8. visualize the predicted stock costs with actual stock costs
"""
train_data = new_dataset[:987]
valid_data = new_dataset[987:]
valid_data['Predictions'] = predicted_closing_price
plt.plot(train_data["Close"])
plt.plot(valid_data[['Close', "Predictions"]])
plt.show()
运行后测试结果为:
该图中左侧黄色曲线表示训练数据,右侧红色曲线和绿色曲线分别表示股票价格真实结果和预测结果。
从图中可以看出, LSTM 预测股票价格与实际股票价格基本一致。
如有问题,欢迎指出和讨论。