数量技术宅

股指期货高频数据机器学习预测

更多精彩内容，欢迎关注公众号：数量技术宅。想要获取本期分享的完整策略代码，请加技术宅微信：sljsz01

问题描述

通过对交易委托账本（订单簿）中数据的学习，给定特定一只股票10个时间点股票的订单簿信息，预测下20个时间点中间价的均值。

评价标准为均方根误差。

交易时间为工作日9:30-11:30,13:00-15:00，快照频率3秒。

股价的形成分为集合竞价和连续竞价– 集合竞价：9:15-9:25，开盘集合竞价，确定开盘价

– 连续竞价：9:30之后，根据买卖双方的委托形成的价格

竞价原则：价格优先，时间优先。

交易委托账本具体信息：– Date - 日期– Time - 时间– MidPrice - 中间价（买入价与卖出价的平均值）– LastPirce - 最新成交价– Volume - 当日累计成交数量– BidPrice1 - 申买最高价– BidVolume1 - 申买最高价对应的量– AskPrice1 - 申卖最高价

– AskVolume1 - 申卖最高价对应的量

问题分析

在这个问题中，我们利用10个时间点股票的订单簿信息，预测特定一只股票下20个时间点中间价的均值，来判断其在一分钟内的价格变化特征，以便于高频交易。高频交易的意义在于，对于人类来说，很难在一分钟之内判断出股价变化情况，并完成交易。因此，只能利用计算机进行自动化交易。对于无信息无模型预测，即利用订单簿中最后一个价格“预测”，得到的均方根误差为0.00155。试图通过分析数据、建立模型，做出高于此误差的预测。

数据分析

数据集

训练集（raw training data，train_data.csv）：430039条订单簿信息测试集（test data, test_data.csv）：1000条（100组）订单簿信息为了避免概念的混淆，下文中如果特别说明，“测试集”均指public board所依赖的数据。此外，这里的“训练集”下文中包含经过数据清理和预处理的训练集（training data）和验证集（development data）。

数据清洗

为了将训练集转换为测试集的格式，即通过10个间隔3秒的订单簿记录，来预测后20个间隔3秒的订单簿记录中中间价的均值，必须对数据清洗。将训练集集中连续的nGiven+(nPredict平方)条数据作为一组数据。

检查每一组数据，去掉含有时间差不为3秒的连续两条数据的组。这样可以跳过跨天的以及不规整的数据。

数据预处理

归一化

给定的数据特征（日期、时间、价格、成交量等）的量纲不同，并且数据绝对值差的较大。如测试集第一条数据：

MidPrice和Volume差6个数量级。首先，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确地收敛到最优解。其次，在支持向量机(SVM)等不具有伸缩不变性的模型中，大数量级的数据会掩盖小数量级的数据。这是因为随机进行初始化后，各个数据拥有同样的或近似的缩放比例，相加之后小数量级的数据便被大数量级的数据“吃掉了”。此外，对于具有伸缩不变性的模型，如逻辑回归，进行归一化也有助于模型更快地收敛。综上所述，对模型进行归一化是十分有必要的。

Prices

训练集MidPrice分布：

测试集MidPrice分布：

从上面两张图片中可以看出，训练集和测试集中最重要的特征以及待遇测量——中间价只有约三分之一重合。这意味着如果按照数值直接进行归一化，可能会有较差的结果。

我采取的第一种方式是预测差值——+即每组数据待预测量——下20条数组中MidPrice的均值与最后一个MidPrice的差值，并将各个价格减去最后一个MidPriced的值，这样可以使训练集和验证集分布更为接近，但是这样造成的问题是，在量纲存在的情况下，最后一个MidPriced的值仍是有价值的，将它直接消去不合适。

第二种方式是完全消除量纲，将预测任务变为变化率的预测。即将所有与Price相关的变量都减去并除以最后一条数组的中间价。这样就可以将量纲完全消除。

last_mp = x_cur[nGiven-1,0]
for axis in [0,1,3,5]: # MidPrice, LastPrice, BidPrice1, AskPrice1
    x_cur[:,axis] -= last_mp
    x_cur[:,axis] /= last_mp
...
y.append((sum(mid_price[k+nGiven:k+nGiven+nPredict])/
  nPredict-mid_price[k+nGiven-1])/mid_price[k+nGiven-1])

Volume

Volume是指当日累计成交数量。在每组数据中，Volume的大小差别很大，这主要是因为每组数据开始的时间不同。开始，我试图保留时间信息和Volume，来更好地利用Volume信息。事实上，虽然一天中的Volume是相关的，但是几乎不可能通过时间信息来估计Volume，何况高频交易簿的精度很高。因此，通过加入时间信息避免对Volume的归一化是不可行的。

第二个尝试是利用类似于对Prices的处理，将每组数据中的Volume减去该组数据中第一条数据的Volume。但这样效果并不好，这是因为Volume在一组中是递增的，将它们进行如上处理后仍是递增的，利用普通的归一化手段无法将它们映射在同一尺度上。

第三种尝试是利用变化量。将每一组Volume数据减去上一条信息的Volume，将这个特征转化为：3秒内累计成交数量。至此，每组/条数据的Volume便为同一分布了。此外，对于第一条数据，没有办法得知它与上一条数据（没有给出）的差值，只能用均值填充。具体方法是利用迄“今”（这条数据）为止得到的Volume插值的均值。

for i in range(9,0,-1):
    x_cur[i,2]-=x_cur[i-1,2]
    volume_sum+=x_cur[i,2]
    volume_len+=1
x_cur[0,2]=volume_sum/volume_len

时间信息

由于时间是递增的，可以通过将它们映射在每一天（即，删除日期，保留时间），然后进行预测。但是由于数据只有约120天，将它们映射在每一个时间点会导致这部分数据过于稀疏。因此，在保证每组数据中，每连续两条数据的时间差值为3秒的情况下，可以直接将时间信息删除。

此外，我发现在多种模型的实验中，是否将时间信息加入并不会有太大的改变。

对于预测值的处理

在前文中提到过，将预测数值任务改变为预测变化率的任务。这样做除了为了消除量纲，更主要的原因是加快收敛。若果不进行这样的处理，对于CNN/DNN/RNN等基于神经网络的模型，需要大约20epoch才能收敛到baseline RMSE=0.00155，但是如果采取变化率预测，只需要一个epoch就可以收敛到RMSE=0.00149.4

因此，如果不进行这样的处理，将会极度增加训练的时间，对调参和模型分析造成很大困难。

噪声

加入噪声。对于某些数据而言——尤其是Price相关的数据，由于有很多组相同或相似的数组以及线性映射的不变性，导致处理后结果是离散的。因此，我在每个值中加入±1%的噪声，以提高模型的泛化能力。

降低噪声。在固定模型的情况下，我发现改变任务为预测下15条数据的中间价均值，亦或是下10条数据的中间价均值，得到的leaderboard成绩要优于预测下20条的数据的中间价均值。我想这是因为通过跨度为30秒的10条数据可能无法预测到更远的时间点，如跨度为60秒的20条数据中的后几条数据。在没有更多信息的情况下，很可能之后的数值对于预测来说是噪声。在实验中也证明了这一点，后文将会详细说明。在下文中将这个nPredict“超参数”视为MN（Magic Number）。

模型探索

基于LSTM的RNN模型

这个模型是我所实现最优的模型，采取这个模型的主要原因是基于LSTM的RNN模型具有很好的处理时间序列的能力。

递归神经网络(RNN)

循环神经网络（Recurrent Neural Network，RNN）是一类具有短期记忆能力的神经网络。在循环神经网络中，神经元不但可以接受其它神经元的信息，也可以接受自身的信息，形成具有环路的网络结构。和前馈神经网络相比，循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过随时间反向传播算法 [Werbos, 1990] 来学习。随时间反向传播算法即按照时间的逆序将错误信息一步步地往前传递。当输入序列比较长时，会存在梯度爆炸和消失问题[Bengio et al., 1994, Hochreiter and Schmidhuber, 1997, Hochreiteret al., 2001]，也称为长期依赖问题。为了解决这个问题，人们对循环神经网络进行了很多的改进，其中最有效的改进方式引入门控机制。

长短期记忆（LSTM）网络

长短期记忆（long short-term memory，LSTM）网络 [Gers et al., 2000, Hochreiter and Schmidhuber, 1997]是循环神经网络的一个变体，可以有效地解决简单循环神经网络的梯度爆炸或消失问题。在公式(6.48)的基础上，LSTM网络主要改进在以下两个方面：新的内部状态 LSTM网络引入一个新的内部状态（internal state）ct专门进行线性的循环信息传递，同时（非线性）输出信息给隐藏层的外部状态ht。
在每个时刻t，LSTM网络的内部状态ct记录了到当前时刻为止的历史信息。
循环神经网络中的隐状态h存储了历史信息，可以看作是一种记忆（memory）。在简单循环网络中，隐状态每个时刻都会被重写，因此可以看作是一种短期记忆（short-term memory）。在神经网络中，长期记忆（long-term memory）可以看作是网络参数，隐含了从训练数据中学到的经验，并更新周期要远远慢于短期记忆。而在LSTM网络中，记忆单元c可以在某个时刻捕捉到某个关键信息，并有能力将此关键信息保存一定的时间间隔。记忆单元c中保存信息的生命周期要长于短期记忆h，但又远远短于长期记忆，因此称为长的短期记忆（long short-term memory）

模型实现

利用Keras框架，实现基于LSTM的RNN模型。具体结构为两层LSTM网络和两层Dense层网络。试图利用LSTM网络提取时间序列中的特征信息，并利用Dense层将提取出的特征信息进行回归。

model = Sequential()
model.add(LSTM(input_shape=(None, nFeature),activation='softsign',dropout=0.5, units=256, return_sequences=True))
model.add(LSTM(units=256,activation='softsign',dropout=0.5, return_sequences=False))
model.add(Dense(64,kernel_initializer="glorot_normal",activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1,kernel_initializer="uniform",activation='linear'))
model.compile(loss='mean_squared_error', optimizer='Adam')

在这个较大的模型中，为了防止过拟合训练集和验证集，我采取了以下的措施：

在全连接(Dense)层和LSTM层中，加入Dropout。在训练中，dropout掉近似50%的参数，可以将网络模型减小至一半。在实验发现，减小至该网络一半的网络更不容易出现过拟合的情况（下文中会详细说明）。

提前结束训练(Early-stopping)。在两个相同的网络中，改变MN(即nPredict)的值，得到如下的测试集RMSE~epochs。由此可见，Early-stopping是非常有必要的。

注：MN=20的同样模型RMSE最好达到0.00148。

参数调整

我没有进行大规模的网格搜索以确定最好的超参数，我主要调整了网络的规模。基本想法是先选择一个较大的网络，训练至过拟合，判断其有足够拟合数据的能力，然后减小网络规模或进行正则化，消除过拟合以保留足够的泛化能力。

大网络（units = 256）：

中网络（units = 128）：

小网络（units = 64）：

在实验中发现，三个网络均会产生过拟合的问题。但是很明显小网络的拟合能力不足（在更大的RSME开始出现过拟合），而大网络的拟合能力极其严重。于是我选择了中网络规模的网络——大网络+50%dropout。

卷积神经网络

采取这个模型的主要原因是卷积神经网络模型可以通过共享(1,nFeature)卷积核减少参数，并将一组中每条数据进行同样地处理。

卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。

模型实现

利用Keras框架，实现卷积神经网络模型。具体结构为两层卷积网络和三层Dense层网络。其中两层卷积网络分别为1 ∗ 7卷积核和10 ∗ 1卷积核。

model = Sequential()
model.add(Conv2D(input_shape=(10,7,1),filters = 256, kernel_size = (1,7), strides=(1, 1), padding='valid',activation='relu'))
model.add(Dropout(0.5))
model.add(Conv2D(filters = 256, kernel_size = (10,1), strides=(1, 1), padding='valid',activation='relu'))
model.add(Dropout(0.5))
model.add(Flatten())
model.add(Dense(512,kernel_initializer="glorot_normal",activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(256,kernel_initializer="glorot_normal",activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1,kernel_initializer="uniform",activation='linear'))
model.compile(loss='mean_squared_error', optimizer='Adam')

全链接的神经网络模型

神经网络模型的主要优点是具有极强的近似能力：模型可以以任意精度拟合一切连续函数。同时，进行这个模型的尝试，也可以判断卷积神经网络是否比朴素的全链接神经网络模型更好。

人工神经网络（英语：Artificial Neural Network，ANN），简称神经网络（Neural Network，NN）或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统，通俗的讲就是具备学习功能。现代神经网络是一种非线性统计性数据建模工具。

模型实现

利用Keras框架，实现卷积神经网络模型。具体结构为两层卷积网络和三层Dense层网络。其中两层卷积网络分别为1 ∗ 7卷积核和10 ∗ 1卷积核。

model = Sequential()
model.add(Flatten(input_shape=(10,7,1)))
model.add(Dense(1024,kernel_initializer="glorot_normal",activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(512,kernel_initializer="glorot_normal",activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(256,kernel_initializer="glorot_normal",activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1,kernel_initializer="uniform",activation='linear'))
model.compile(loss='mean_squared_error', optimizer='Adam')

利用XGBoost创建的模型

XGBoost介绍

XGBoost代表“Extreme Gradient Boosting”，其中术语“Gradient Boosting”源于弗里德曼的贪婪函数逼近：梯度增强机。

XGBoost实质上是Gradient boosting Decision Tree(GBDT)的高效实现，如果使用最常用gbtree作为学习器，那么它基本相当于CART分类树。CART分类回归树是一种典型的二叉决策树，可以做分类或者回归。如果待预测结果是离散型数据，则CART生成分类决策树；如果待预测结果是连续型数据，则CART生成回归决策树。数据对象的属性特征为离散型或连续型，并不是区别分类树与回归树的标准，例如表1中，数据对象xixi的属性A、B为离散型或连续型，并是不区别分类树与回归树的标准。作为分类决策树时，待预测样本落至某一叶子节点，则输出该叶子节点中所有样本所属类别最多的那一类（即叶子节点中的样本可能不是属于同一个类别，则多数为主）；作为回归决策树时，待预测样本落至某一叶子节点，则输出该叶子节点中所有样本的均值。

模型实现

利用xgboost库，实现XGB模型。

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
cv_params = {'n_estimators': [600,800,1000,1200,1400,1600]}
other_params = {'learning_rate': 0.1, 'n_estimators': 100, 'max_depth': 4, 'min_child_weight': 5, 'seed': 0,
                    'subsample': 0.6, 'colsample_bytree': 0.9, 'gamma': 0.4, 'reg_alpha': 0, 'reg_lambda': 1}
model = XGBRegressor(**other_params)
optimized_GBM = GridSearchCV(estimator=model, param_grid=cv_params,
                             scoring='neg_mean_squared_error', cv=3, verbose=3, n_jobs=5)
optimized_GBM.fit(X_train_70, y_train)

参数调整

利用上述GridSearchCV函数以及类似于Gibbs采样算法的思想，逐步调整参数。具体方法为：首先设置每个参数的取值区间。然后选取某个参数，将其设置为取值区间中等间距的几个点，进行训练模型进行验证，将最好的点设置为这个参数的值，然后选取其他参数，重复这一步，直到参数稳定。但实验中，由于过拟合情况严重，n_estimators越大会导致近似情况更好，但同时会导致模型的泛化能力降低。于是我通过提交结果，选定了n_estimator=200。然后调整其他参数。

随机回归森林模型

简单来说，随机森林就是多个回归树的融合。随机森林的优势在于

1.在没有验证数据集的时候，可以计算袋外预测误差（生成树时没有用到的样本点所对应的类别可由生成的树估计，与其真实类别比较即可得到袋外预测）。
2.随机森林可以计算变量的重要性。
3.计算不同数据点之间的距离，从而进行非监督分类。

模型实现

利用sklearn库提供的RandomForestRegressor。

from sklearn.ensemble import RandomForestRegressor
clf = RandomForestRegressor(
    oob_score = True,
    max_depth = 20,
    min_samples_split=20,
    min_samples_leaf=10,
    n_estimators=20,
    random_state=0,
    verbose=3)
clf.fit(X_train.reshape(-1,70),y_train.reshape((-1,)))

结果与讨论

model	public leader board score

*private leader board = 0.00140

讨论：模型CNN vs DNN。利用卷积没有取得更好的结果，这很大原因是数据特征只有7维，没有必要进行降维，因此CNN模型中的池化层(Pooling Layer)无法使用，降低了卷积模型能力。DNN vs RNN。RNN在epoch = 20开始lb = 0.00149，而DNN在较长区间[4,30+] epoches 中一直保持lb = 0.00148，这说明了RNN有更好的拟合时间序列的能力，但同样有着更差的拟合能力，因此必须进行early-stopping防止过拟合。XGB。XGB有着很好的数据拟合能力，但由于调参需要较多的时间（每个模型拟合需要约40分钟），而我没有足够的计算资源，只能放弃更细粒度的调参。

Random Forest。和XGB类似，它们对于多维数据的处理可能会比神经网络模型更好，但是在7维的数据中，表现并不如神经网络模型。

讨论：模型之外特征工程的重要性远远超过模型的选取以及调参。在最初的尝试中，我只是简单的进行了数据归一化，得到的结果并不理想，很多次训练的RNN模型有RMSE>0.00155的情况。在认真探索每个数据特征的意义并根据它们的意义进行数据处理后，采取的模型几乎全部RMSE<0.00150。我想，思考特征的特点并思考如何利用是十分关键的。毕竟说白了，这些模型只是泛用函数拟合器。未来的工作丰富订单簿信息。可以获得AskPrice2, AskPrice3,… 以及AskVolumn2,AskVolumn3等丰富信息。采取更多的输入时间点。毕竟过去的数据是“免费”的，我们可以采用如过去一分钟的数据进行预测。但可能结果和MN的情况一样——再多的数据只是噪声。丰富数据集。用更多股票和更长时间的数据。RNN模型的泛化能力没有被完全利用，我想通过更多的数据可以达到更好的效果。尝试XGboost的精细调参。

模型融合。如XGBoost+LightGBM+LSTM。

如果你想要本次分享Pine语言策略的文本代码，欢迎加小编微信，与我交流。

往期干货分享推荐阅读

如何使用TradingView（TV）回测数字货币交易策略

如何投资股票型基金？什么时间买？买什么？

【数量技术宅|量化投资策略系列分享】基于指数移动平均的股指期货交易策略

AMA指标原作者Perry Kaufman 100+套交易策略源码分享

【数量技术宅 | 期权系列分享】期权策略的“独孤九剑”

【数量技术宅|金融数据系列分享】套利策略的价差序列计算，恐怕没有你想的那么简单

【数量技术宅|量化投资策略系列分享】成熟交易者期货持仓跟随策略

如何获取免费的数字货币历史数据

【数量技术宅|量化投资策略系列分享】多周期共振交易策略

【数量技术宅|金融数据分析系列分享】为什么中证500（IC）是最适合长期做多的指数

商品现货数据不好拿？商品季节性难跟踪？一键解决没烦恼的Python爬虫分享

【数量技术宅|金融数据分析系列分享】如何正确抄底商品期货、大宗商品

【数量技术宅|量化投资策略系列分享】股指期货IF分钟波动率统计策略

【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫

Kotlin Bootcamp 自学（2）：Kotlin基础 EdwardW@ng kotlin java android
KotlinBootcamp自学（2）：Kotlin基础目录KotlinBootcamp自学（2）：Kotlin基础前言运算符与数据类型(OperatorsandTypes)数值类型（NumericalType）练习使用数据类型字符串(String)比较条件和布尔值(Boolean)比较符号if...else...关于空值(Nullability)关于array,list,和loopListArr
REITs运营与资金流动关系图数据可视化
使用图形天下提供的关系数据可视化工具。我们清晰地看到REITs（房地产投资信托）如何与投资者、房地产资产、物业管理公司及租户紧密相连。REITs作为资金池，投资于房地产，通过物业管理公司维护运营，产生租金收入并分配给投资者。图形天下的可视化技术，让这一复杂的关系数据变得直观易懂，展现了REITs生态的全貌。 REITs运作机制概览图 REITs通过集合投资者
Flume 简介01 作用核心概念事务机制安装配置入门实战湖中屋 Flume flume
Flume1.业务系统为什么会产生用户行为日志，怎么产生的用户行文日志：每一次访问的行为（访问、搜索）产生的日志记录用户行为日志的目的：1.商家会精准的给你呈现符合你的个人界面2.商家会给你个人添加用户标签，更加精准的分析埋点等2.flume用来做什么的（采集传输数据的，分布式的，可靠的）ApacheFlume是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来
ORB-SLAM2：四、地图点、关键帧、图结构】 KeyPan ORB-SLAM2 计算机视觉人工智能机器学习深度学习算法
地图点、关键帧和图结构是ORB-SLAM系统的核心组成部分，它们共同构建了SLAM系统的空间表示与数据组织方式。本章将详细讨论这些模块及其在系统中的作用和实现方式。4.1地图点4.1.1什么是地图点地图点（MapPoint）是SLAM系统中用来表示环境中三维特征点的抽象概念。这些点是通过相机观测和三角测量得到的，是地图构建的基础。三维位置每个地图点存储其在世界坐标系中的三维坐标P(X,Y,Z)P(
PID控制器闭环系统工作原理数据可视化
关系图通过图形天下展示了PID控制器闭环系统的运作流程，实现了关系以数据可视化。从设定点到目标值的输入，再到传感器测量的实际输出值，整个系统通过比较器计算误差，并利用PID控制器（包含比例、积分和微分项）生成控制动作。执行器根据这些动作调整被控对象的状态，新状态再次被传感器测量并反馈，形成闭环控制。这一图形化的描述清晰地展现了闭环系统中各组件之间的互动关系。
低延迟更灵活，开发者怎能不爱分布式云
为了努力部署和管理复杂的数据密集型应用程序，从而满足客户不断变化的需求，我们需要一种方法让这些应用程序和工作负载更接近位于全球任意一个角落的客户。过去多年来，云计算满足了这种需求。不过这就够了吗？适合过去的东西，就一定适合将来吗？未必！根据重点关注开发者想法的研究公司SlashData的一项新研究，全球开发者正越来越多地将分布式云计算视为保障最佳客户体验的方法。根据Akamai的委托，这项名为“开
全新4.2版本多功能社交兴趣爱好圈子系统涵盖APP、小程序和H5三个端口，圈子系统小程序成品源码前端后端小程序数据库
圈子系统通常指的是社交平台或论坛中的一种功能模块，用于创建和管理兴趣小组或讨论群组。这种系统的源码会涉及到后端数据库设计、用户认证授权、消息传递、群组管理等多个模块。适用于多种场景语音匹配：（主要是匹配当前在线的异性，会主动发送弹窗，对方同意后，进入1v1双方语聊，默认6分钟，如果双方点喜欢按钮，可延长到30分钟。时间到了后，双方私聊即可）每次话费虚拟币。灵魂匹配：是根据采集的用户更多数据和心理测
相约深圳，个推与你共寻AI时代下的数据价值和数智增长机会运营产品经理
抓住AI风口，共探变革机遇。12月7日-8日，AI产品经理大会将在深圳召开。每日互动（个推）将在7日上午场带来《AI时代下的数据价值体现和数智增长机会》主题演讲，并在当天举办“数据驱动运营增长”专题闭门会。同时，在两天的会期中，个推在大会展区也将为现场观众带来数智化运营增长的实战案例与创新产品，助力各位产品官、运营官在AI产品飞速迭代的时代洞察发展趋势，稳抓增长曲线。本次产品经理大会聚焦AI时代的
一款前端开源的，在线电子表格univer介绍
Univer是一款颠覆性的在线电子表格解决方案，为数据输入和协作带来了全新的方式。作为一款开源、免费的平台，Univer专注于在线电子表格管理，为用户提供了处理数据、创建动态报告和高效协作的无缝体验。具体可以看他们的官网univer.ai.Excel作为广受欢迎的电子表格软件，Univer的兼容性和功能性使其成为Excel爱好者的理想选择。用户可以体验到与Excel相关的功能，并且能够轻松使用带公
中医津液代谢过程关系图解数据可视化
关系图通过图形天下展现了复杂的关系以数据可视化，清晰地呈现了人体内津液代谢的关键环节及其相互作用，涵盖了从饮食入口直至废物排出的全过程。它不仅突显了胃、脾、肺、肾等主要器官在津液生成与分配中的协作关系，同时也强调了身体如何通过排汗和排泄来维持内部平衡。使得抽象的生命科学概念变得易于理解。津液代谢过程这张关系图展示了津液从食物和饮料进入人体后的代谢过程，包
生态系统中磷循环的关系图数据可视化
关系图通过图形天下展示了磷循环的关键过程，清晰地呈现了磷在岩石、土壤、水体及生物体之间的流动。利用关系数据可视化技术，详细描绘了磷通过风化、吸收、摄取、排泄、分解等环节在不同环境介质中的转化，揭示了生态系统中磷元素动态平衡的重要性。这一可视化工具使复杂的磷循环变得直观易懂。磷循环关系图磷循环展示了磷在岩石、土壤、水体及生物体之间的流动过程，反映了生态系统
问题 E: 指针练习-1 我就是南山 C++题目算法数据结构
时间限制:1.000sec内存限制:128MB题目描述编写一个函数myMove，其功能是将一个数组中的所有为0的元素移至数组末尾，并保持数组非0元素的相对顺序不变。函数原型可参考如下：voidmyMove(int*p,intlen);其中，p为指向数组首元素的指针，len为数组中的元素个数。如，数组中的原始数据为:1，0，3，4，0，2，5。则经过函数处理后的数组元素为:1，3，4，2，5，0，0
Axios封装一款前端项目网络请求实用插件 smart_ljh 前端 vue.js vuejs axios 网络
前端项目开发非常经典的插件axios大家都很熟悉，它是一个Promise网络请求库，可以用于浏览器和node.js支持的项目中。像一直以来比较火的Vue.js开发的几乎所有项目网络请求用的都是axios。那么我们在实际的项目中，有时候为了便于维护、请求头信息统一处理、统一拦截器设置以及响应数据统一处理，需要在项目中针对axios封装一个网络请求插件。接下来就介绍一下针对以上这些输出具体的解决方案和
游戏业者必看！从中心化到分布式，分布式架构对游戏业带来的优势与收益
游戏行业在全球范围内的蓬勃增长引发了从技术到架构的飞速革新与演变。推动技术发展的重要因素是玩家的体验，任何一个游戏行业的参与者都将玩家的体验是为业务的核心服务目标，而在优化玩家体验的道路上，游戏业者仍有很长的旅程。尤其是对于在线游戏商来说，全球复杂的网络环境让延迟变得更加难以控制。在线游戏可以说是所有行业中对延迟最敏感的行业，这使得它特别容易受到传统集中式云计算架构的缺点的影响，在这种架构中，数据
vue3开发：项目添加mitt
项目中遇到一个场景：类似于app.vue页面获取某一个页面组件的数据，因为进入那个组件是通过router-view进入，不是通过组件注入到app.vue,所以使用常规的组件通信获取不到数据，我使用了mitt实现了这个功能。Vue2中我们使用EventBus来实现跨组件之间的一些通信，它依赖于Vue自带的on/on/on/emit/$off等方法，而Vue3中移除了这些相关方法，这意味着EventB
STM32 FreeRTOS 事件标志组雁过留声花欲落 STM32 FreeRTOS stm32 嵌入式硬件单片机
目录事件标志组简介基本概念1、事件位（事件标志）2、事件组事件组和事件位数据类型事件标志组和信号量的区别事件标志组相关API函数介绍事件标志组简介基本概念当在嵌入式系统中运行多个任务时，这些任务可能需要相互通信，协调其操作。FreeRTOS中的事件标志组（EventFlagsGroup）提供了一种轻量级的机制，用于在任务之间传递信息和同步操作。事件标志组就像是一个共享的标志牌集合，每个标志位都代表
torch.utils.data.Dataset()和torch.utils.data.DataLoader() 我叫罗泽南深度学习 python
torch.utils.data.Dataset()和torch.utils.data.DataLoader()是Pytorch中处理数据集和批量加载数据的重要工具。下面将详细介绍它们的作用、用法，并通过一个简单的例子来演示如何使用它们。torch.utils.data.Dataset()Dataset是Pytorch数据加载的基类，用于表示一个数据集。用户可以继承Dataset类并实现其两个方法
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
操作系统之输入输出管理 DKPT #操作系统开发语言学习 c语言笔记算法
操作系统中的输入输出（I/O）管理主要涉及I/O设备的分配、控制以及数据的传输。以下是对操作系统中I/O管理的详细解释：一、I/O设备I/O设备是计算机中用于数据输入和输出的外部设备，如键盘、鼠标、显示器、打印机等。这些设备按照不同的分类标准可以分为多种类型，如按使用特性分为人机交互类设备、存储设备和网络通信设备；按传输速率分为低速设备、中速设备和高速设备；按信息交换的单位分为块设备和字符设备等。
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
什么时候需要分表分库？ fajianchen IT架构系列 IT架构高性能分库分表
目录背景什么时候要分表分库？如何分表分库？系列文章背景对于一个日活用户在百万数量级的商城来说，每天产生的订单数量可能在百万级，特别在一些活动促销期间，甚至上千万。假设我们基于单表来实现，每天产生上百万的数据量，不到一个月的时间就要承受上亿的数据，这时单表的性能将会严重下降。因为MySQL在InnoDB存储引擎下创建的索引都是基于B+树实现的，所以查询时的I/O次数很大程度取决于树的高度，随着B+树
04、Redis从入门到放弃之数据持久化RDB和AOF 跳跳的向阳花 Redis redis bootstrap 数据库
Redis从入门到放弃之数据持久化RDB和AOFRedis强大的功能很大部分是由于他把数据缓存在内存中，为了使Redis在重启的时候，数据不丢失，就需要已某种方式把数据持久化到磁盘中。Redis持久化的方式有俩种，RDB和AOF。RDB==>RedisDatabaseAOF====>AppendOnlyFile1、RDB①、RDB是以快照的方式对内存中的数据进行存储。即在“”制定的时间间隔内“”将
Redis 持久化机制：RDB 和 AOF maply Redis redis 数据库缓存 RDB AOF
Redis持久化机制：RDB和AOFRedis主要提供了两种持久化方式：**RDB（RedisDatabase）**和AOF（Append-OnlyFile）。它们各自的实现原理、优缺点以及适用场景如下。1.RDB（RedisDatabase）原理1.1RDB机制RDB采用快照（Snapshotting）方式定期将内存中的数据持久化到磁盘。Redis会在特定时间点创建数据的二进制快照并存储到.rd
MySQL 搭建MHA架构部署 m0_50854537 mysql manager
文章目录MAH一：MAH架构介绍二：适用场景三：MHA工作原理四：MHA的组成1：Manager工具包2：Node工具包五：MHA特点MHA架构部署一：拓扑图二：数据库安装三：数据库配置主从同步四：安装MHA软件五：配置无密码认证六：配置MHA七：健康检查八：查看master1的VIP地址九：启动MHA并查看状态故障模拟与修复一：故障模拟二：故障修复MAH一：MAH架构介绍MHA(MasterHi
读零信任网络：在不可信网络中构建安全系统14流量信任躺柒网络安全网络安全计算机安全系统安全零信任
1.流量信任1.1.网络流的验证和授权是零信任网络至关重要的机制1.2.零信任并非完全偏离已知的安全机制，传统的网络过滤机制在零信任网络中仍然扮演着重要的角色2.加密和认证2.1.加密和认证通常是紧密相关的，尽管其目的截然不同2.1.1.加密提供机密性，用于确保只有接收者才能读取发送的数据2.1.2.认证则用于确保接收者可以验证消息确实是由所声称的对象发送的2.2.认证还有另外一个有趣的特性，为了
新手安装Arkime不求人 OpenSource SIM 开源 Arkime
Arkime（原名Moloch）是一个开源数据包捕获软件，它可以收集到PCAP数据并对其索引，用于浏览和搜索捕获的并建立索引的网络流量。虽说可以在Arkime官方（https://arkime.com/）下载适用于CentOS（rpm）和Ubuntu（deb）的安装包安装。官网也有非常详细的文档资料（https://arkime.com/learn）。然而项目的压力使得我们无法充分学习技术，而且对
JS宏进阶：Map与Object jackispy JS宏进阶 javascript 开发语言 ecmascript
Object是JavaScript中最基本的数据类型之一，用于创建对象实例。newObject()是创建空对象的一种常见方式。而Map只是一种用于存储键值对的数据结构。相对于Object而言，他没有原型（也就是不能通过原型链的方式添加方法），但也存在自身的优势，某些场景，newMap可能比newObject更好用。下面是其内置方法的详细介绍：一、newMap1、创建新的Map对象，只能使用newM
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
MySQL 核心知识全面解析：从事务到索引的深度探索 guihong004 java面试题 mysql 数据库
1.事务隔离级别有哪些?MySQL的默认隔离级别是?事务隔离级别是数据库系统中用于控制不同事务之间的交互和可见性的机制。SQL标准定义了四个隔离级别，按照从低到高的顺序分别是：读未提交（ReadUncommitted）：在这个级别，一个事务可以读取另一个尚未提交的事务的数据更改。这会导致脏读（DirtyRead），即读取到未提交的数据。读已提交（ReadCommitted）：这个级别确保一个事务只
MATLAB 路径管理鱼弦人工智能时代 matlab 算法数据库
MATLAB路径管理MATLAB路径管理是MATLAB中非常重要的功能，它决定了MATLAB如何查找和加载函数、脚本、数据文件等资源。合理的路径管理可以提高代码的可维护性和执行效率。1.介绍MATLAB路径管理主要包括以下内容：路径：MATLAB查找文件的目录列表。当前文件夹：MATLAB当前工作目录。路径操作：添加、删除、保存和加载路径。路径函数：addpath,rmpath,genpath,s
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

股指期货高频数据机器学习预测

问题描述

问题分析

数据分析

数据预处理

归一化

Prices

对于预测值的处理

噪声

模型探索

基于LSTM的RNN模型

递归神经网络(RNN)

长短期记忆（LSTM）网络

模型实现

参数调整

卷积神经网络

模型实现

全链接的神经网络模型

模型实现

XGBoost介绍

模型实现

参数调整

随机回归森林模型

模型实现

结果与讨论

往期干货分享推荐阅读

你可能感兴趣的:(股指期货高频数据机器学习预测)