华尔街的幻觉

2022 社会计算创新大赛--交通量预测

2022 社会计算创新大赛 https://momodel.cn/competition

任务描述：
城市是社会的重要组成，时序模型是深度学习中影响广泛的模型，该赛题目的在于加深对时序模型的理解和运用，以及对空间信息的利用。利用城市前两个小时的历史交通流量（每个交通结点每五分钟记录一次车流量）预测下一个五分钟的交通流量，数据给出了结点之间的无向图数据。

任务要求：
A、任务提供包括数据读取、基础模型、模型训练等基本代码
B、参赛选手需完成核心模型构建代码，并尽可能将模型调到最佳状态

评分方式：
评分指标为误差和的评分表映射值。

1. 赛题介绍

1.1 大赛背景

时序模型是深度学习中影响广泛的模型，该赛题目的在于加深对时序模型的理解和运用，以及对空间信息的利用。

1.2 大赛要求

利用城市前两个小时的历史交通流量（每个交通结点每五分钟记录一次车流量）预测下一个五分钟的交通流量，数据给出了结点之间的无向图数据。

1.3 大赛环境

可以使用基于 Python 的 Pandas、Numpy、Scikit-learn 等库进行相关特征处理，使用 Keras、Tensorflow、Pytorch 等框架建立深度学习模型，使用过程中请注意 Python 包（库）的版本。

1.4 评估指标

评分指标为误差和的评分表映射值。其中
误差和(error_score)=均方根误差(RMSE)+平均绝对误差(MAE)

1.5 大赛事项

使用平台的注意事项
该平台的 Notebook 在 CPU 上运行，故尽量不要尝试在 Notebook 上做希望让 GPU 做的工作。

训练模型的注意事项
如果想要线下训练模型，请保证线下的环境与该平台一致，否则可能无法在该平台运行，可以在该平台的 terminal 输入pip list查看对应包版本。

该作业的注意事项
该作业目的在于加深对空间和时序模型的理解和运用，理论上作品的预测相关指标不应低于基本模型。

1.6 参考资料

相关框架的文档
scikit-learn: https://scikit-learn.org/stable/

tensorflow: https://tensorflow.google.cn/tutorials?hl=zh_cn

pytorch: https://pytorch.org/tutorials/

该领域的论文
[NIPS2015]ConvLSTM https://papers.nips.cc/paper/5955-convolutional-lstm-network-a-machine-learning-approach-for-precipitation-nowcasting.pdf

[ICML2016]vertex domain(spatial domain) http://proceedings.mlr.press/v48/niepert16.pdf

[ICLR2018]DCRNN https://arxiv.org/pdf/1707.01926.pdf

[AAAI2019]STDN https://www.aaai.org/ojs/index.php/AAAI/article/view/4511/4389

框架的学习教程
《动手学深度学习》(Pytorch版): https://tangshusen.me/Dive-into-DL-PyTorch/

《深度学习框架PyTorch：入门与实战》: https://github.com/chenyuntc/pytorch-book

2. 赛题内容

2.1 数据集

数据集是 2018 年一月和二月的某高速公路上节选了 307 个结点的车流量统计，通过大量的传感器每五分钟统计一次。由 train_data.csv 给出。其中，行代表一个时间点，从第一行表示 2018/01/01 00:00:00-2018/01/01 00:04:59 的车流量，逐五分钟递推，给出了前 50 天的信息。列代表一个结点。某个位置上的值代表了该时间段该结点的车流量。

数据集已经经过预处理，对于缺失值以线性插值填充。

测试和评估集不在上述给出的时间范围内，是在该区域相距不远的其他时间段。

另一文件 graph.csv 给出了高速公路相互直达的结点之间的无向边和其距离。节选之后的传感器保证相距至少有 3.5 英里。

# 首先先 import 一些主要的包
import numpy as np
import pandas as pd
import time
import matplotlib.pyplot as plt

# 画图使用
%matplotlib inline

# 数据文件夹
base_path = 'datasets/60843339ef0b1353a25d0e2a-momodel/'
# 读入数据文件
data = pd.read_csv(base_path + 'train_data.csv')

# 输出数据的形状
print(data.shape)

# 输出数据的前三行
print(data.head(3))

使用统计信息，可以看到每个结点的数量、平均值等信息。

# 输出数据的统计信息
data.describe()

也可以对具体某几个结点绘制图像，这样可以更清晰地感受到数据。下图中可以感受到结点 5 和结点 154 的流量有明显的相似性，即使在下面的无向图中，两个结点事实上相距 347.2 英里。

# 新建一个图像
plt.figure(figsize=(16,8))

# 绘画某些结点第一天的情况（即前 288 个结点）
plt.plot(data.iloc[:288,73].values.reshape(-1),c='blue')

plt.plot(data.iloc[:288,5].values.reshape(-1),c='red')

plt.plot(data.iloc[:288,154].values.reshape(-1),c='green')

# 展示图像
plt.show()

注意到数值较大处和较小处相比差距还是巨大的，为了深度模型更好的工作，我们使用 MinMaxScaler 进行归一化。当然，用户也可以自行选择其他的预处理方式。

这里我们选用 sklearn 的 Scaler ，如果有兴趣，也可以使用 torchvision 或者自己实现相关内容。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(-1, 1))
data = np.array(data)
data_scaled = scaler.fit_transform(data.reshape(-1, 1)).reshape(data.shape)

本数据集提供了空间信息，并要求利用空间和时间信息预测未来的流量。

空间信息利用表格提供一张双向图，其中 cost 表示点与点之间的距离，单位是英里。

对于图（ Graph ）提取特征，目前常见的是图卷积网络（ GCN ），也有一些简单的方法，比如精心挑选某些结点，抽取相邻结点构成子图，获取子图的邻接矩阵，然后利用 CNN 的方法提取特征等。

# 读入图文件
edges = pd.read_csv(base_path + 'graph.csv')

# 查看图的大小
print(edges.shape)

# 输出前十条边
print(edges.head(10))

2.2 数据处理

首先需要生成题目所需的训练集合。

# 生成题目所需的训练集合
def generate_data(data):
    # 先将目标数据转换成 numpy 类型
    data = np.array(data)
    
    # 目标是生成可直接用于训练和测试的 x 和 y
    x = []
    y = []
    
    # 每 24 行组成一个 x ， 第 25 行为需要预测的值 y
    for i in range(data.shape[0]-25):
        curr_x = data[i:i+24]
        curr_y = data[i+24:i+25]
        x.append(curr_x)
        y.append(curr_y)
        
    return x,y

然后对数据集合进行分割，其中训练集用于训练，校验集用于检验模型训练情况，测试集合用于测试模型效果。

# 生成 train valid test 集合，以供训练所需
def generate_training_data(x,y):
    # 样本总数
    num_samples = x.shape[0]
    # 测试集大小
    num_test = round(num_samples * 0.2)
    # 训练集大小
    num_train = round(num_samples * 0.7)
    # 校验集大小
    num_val = num_samples - num_test - num_train
    
    # 训练集拥有从 0 起长度为 num_train 的样本
    x_train, y_train = x[:num_train], y[:num_train]
    # 校验集拥有从 num_train 起长度为 num_val 的样本
    x_val, y_val = (
        x[num_train: num_train + num_val],
        y[num_train: num_train + num_val],
    )
    # 测试集拥有尾部 num_test 个样本
    x_test, y_test = x[-num_test:], y[-num_test:]
    
    # 返回这些集合
    return x_train, y_train, x_val, y_val, x_test, y_test

下面尝试整理空间信息，为了简化问题，我们忽略边权，用户可以自由选用，先根据表格构造出邻接矩阵。

邻接矩阵 G[a][b] 表示从 a 到 b 是否存在直接的边

# 结点个数
n_nodes = data.shape[1]
# 建立一个空的邻接矩阵
G = np.zeros(shape = (n_nodes,n_nodes))
# 输出 G 的大概外观
print(G)

# 为了方便，将 edges 转为 numpy
edges = np.array(edges,dtype=np.int32)
# 将表格中的边加入邻接矩阵
for i in range(edges.shape[0]):
    # 取一条边的两个结点
    u = edges[i][0]
    v = edges[i][1]
    # 将正向边和反向边赋值为 1
    G[u][v] = G[v][u] = 1
    
print(G)

下面研究分析一下该图的情况。

# 结点连接计数
nodes_connected_count = {}

for i in range(n_nodes):
    # 计数
    key = np.sum(G[i,:])
    
    # 如果记录过该数字，则加 1
    if key in nodes_connected_count:
        nodes_connected_count[key] += 1
    
    # 否则，则加入该元素，并赋值为 1
    else:
        nodes_connected_count[key] = 1
        
# 输出统计情况
print(nodes_connected_count)

{2.0: 194, 6.0: 3, 3.0: 29, 1.0: 50, 4.0: 20, 5.0: 10, 7.0: 1}
可以看到，该图大部分结点都仅拥有较小的度数。

2.3 建立一个简单的模型

选用一种框架，告诉其创建模型的常用方式以及常用的接口
建立一个简单模型并进行训练保存
分析模型训练过程以及模型概况
加载模型并对模型进行评估
加载模型并预测输入数据的结果

2.3.1 处理数据

该赛题示范使用 Pytorch 完成。也可以选用其他框架进行训练并预测结果。

# 加载 pytorch
import torch

# 处理数据，并将其转化为 Pytorch 的形式。
# 获取数据中的 x, y
x,y = generate_data(data_scaled)

# 将 x,y 转换乘 tensor ， Pytorch 模型默认的类型是 float32
x = torch.tensor(x,dtype=torch.float32)
y = torch.tensor(y,dtype=torch.float32)

print(x.shape,y.shape)

# 将 y 的中间维度转化掉
y = y.view(y.shape[0],-1)

print(x.shape,y.shape)

torch.Size([14375, 24, 307]) torch.Size([14375, 1, 307])
torch.Size([14375, 24, 307]) torch.Size([14375, 307])

# 处理出训练集，校验集和测试集
x_train, y_train, x_val, y_val, x_test, y_test = generate_training_data(x,y)

为了方便使用 DataLoader ，我们需要自定义一个 Dataset ，自定义的 Dataset 只需要继承后实现下面三个函数。

# 建立一个自定 Dataset
class MyDataset(torch.utils.data.Dataset):
    def __init__(self, x, y):
        self.x = x
        self.y = y
 
    def __getitem__(self, item):
        return self.x[item], self.y[item]
 
    def __len__(self):
        return len(self.x)

# 建立训练数据集、校验数据集和测试数据集
train_data = MyDataset(x_train,y_train)
valid_data = MyDataset(x_val,y_val)
test_data = MyDataset(x_test,y_test)

# 规定批次的大小
batch_size = 64

# 创建对应的 DataLoader
train_iter = torch.utils.data.DataLoader(train_data, batch_size=batch_size, shuffle=True)

# 校验集和测试集的 shuffle 是没有必要的，因为每次都会全部跑一遍
valid_iter = torch.utils.data.DataLoader(valid_data, batch_size=batch_size, shuffle=False)
test_iter = torch.utils.data.DataLoader(test_data, batch_size=batch_size, shuffle=False)

2.3.2 建立模型

下面展示如何建立模型， Pytorch 的建立模型较为简单，只需要完成 forward ，即前向传播函数即可进行训练。这里展示建立一个简单的线性模型。参数 Pytorch 会自动初始化，具体请查看官方文档。

# 输入的数量是 120分钟 除以 5分钟 = 24个时间段，每个时间段有307个结点的车流量数据。
num_inputs = 120 // 5 * 307
# 输出是后 5 分钟的车流量数据
num_outputs = 307

# 建立一个简单的线性模型
class LinearNet(torch.nn.Module):
    def __init__(self, num_inputs, num_outputs):
        super(LinearNet, self).__init__()
        # 一个线性层
        self.linear = torch.nn.Linear(num_inputs, num_outputs)
        
    # 前向传播函数
    def forward(self, x): # x shape: (batch, 24, 307)
        # 这里暗含了将 x 的 shape 改变的操作
        y = self.linear(x.view(x.shape[0], -1))
        return y

下面建立一个复杂但可能不是很有效的 LSTM 模型，仅供理解 Pytorch 的运行方式而使用。

# 隐藏层的个数
num_hiddens = 128 
# 建立一个稍微复杂的 LSTM 模型
class LSTMNet(torch.nn.Module):
    def __init__(self, num_hiddens, num_outputs):
        super(LSTMNet, self).__init__()
        self.hidden_size = num_hiddens
        # RNN 层，这里的 batch_first 指定传入的是 (批大小，序列长度，序列每个位置的大小)
        # 如果不指定其为 True，传入顺序应当是 (序列长度，批大小，序列每个位置的大小)
        self.rnn = torch.nn.LSTM(input_size=num_inputs//24, hidden_size=num_hiddens,batch_first=True)
        # 线性层
        self.dense = torch.nn.Linear(self.hidden_size*24, 256)
        self.dense2 = torch.nn.Linear(256,num_outputs)
        # dropout 层，这里的参数指 dropout 的概率
        self.dropout = torch.nn.Dropout(0.3)
        self.dropout2 = torch.nn.Dropout(0.5)
        # ReLU 层
        self.relu = torch.nn.ReLU()
    
    # 前向传播函数，这是一个拼接的过程，使用大量变量是为了避免混淆，不做过多讲解
    def forward(self, x): # x shape: (batch_size, 24, 307)
        # LSTM 层会传出其参数，这里用 _ 将其舍弃
        h, _ = self.rnn(x)
        # LSTM 层会传出 (batch_size, 24, num_hiddens) 个参数，故需要 reshape 后丢入全连接层
        h_r = h.reshape(-1,self.hidden_size*24)
        h_d = self.dropout(h_r)
        y = self.dense(h_d)
        drop_y = self.dropout2(y)
        a = self.relu(drop_y)
        y2 = self.dense2(a)
        return y2

可以看到，Pytorch建立一个模型较为清楚简单，具体使用可以参考文档。

Pytorch 在使用 GPU 和 CPU 上的写法有所不同。在需要将保存在内存中的数据在 GPU 上运行时，需要主动将数据和模型拷贝到显存。

为了简化差异，我们使用一个布尔值：use_gpu 来判断是否可用 GPU ，从而淡化差异。这样就不需要写两份代码。

# 判断 gpu 是否可用
use_gpu = torch.cuda.is_available()

# 另一种写法是固定 device，每次调用数据都 to(device)即可
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

2.3.3 评估函数建立

这里给出了评估使用的函数，可以自测以获得信息。

评估指标为误差和的评分表映射值。其中
误差和(error_score)=均方根误差(RMSE)+平均绝对误差(MAE)

我们可以根据建立误差和的评估函数

def compute_mae(y_hat, y):
    '''
    :param y: 标准值
    :param y_hat: 用户的预测值
    :return: MAE 平均绝对误差 mean(|y*-y|)
    '''
    return torch.mean(torch.abs(y_hat - y))


def compute_rmse(y_hat, y):
    '''
    :param y: 标准值
    :param y_hat: 用户的预测值
    :return: RMSE 均方根误差 sqrt(mean((y*-y)^2))
    '''
    return torch.sqrt(torch.mean(torch.pow(y_hat - y, 2)))

下面描绘评估函数，输入 DataLoader 和用户的模型，返回对应的 MAE 和 RMSE 。

def evaluate_accuracy(data_iter, model):
    '''
    :param data_iter: 输入的 DataLoader
    :param model: 用户的模型
    :return: 对应的 MAE 和 RMSE
    '''
    # 初始化参数
    mae_sum, rmse_sum, n = 0.0, 0.0, 0
    
    # 对每一个 data_iter 的每一个 x,y 进行计算
    for x, y in data_iter:
        
        # 如果运行在 GPU 上，需要将内存中的 x 拷贝到显存中
        if (use_gpu):
            x=x.cuda()
            
        # 计算模型得出的 y_hat
        y_hat = model(x)
        
        # 将 y_hat 逆归一化，这里逆归一化需要将数据转移到 CPU 才可以进行
        y_hat_real = torch.from_numpy(scaler.inverse_transform(np.array(y_hat.detach().cpu()).reshape(y_hat.shape)))
        y_real = torch.from_numpy(scaler.inverse_transform(np.array(y).reshape(y.shape)))
        
        # 计算对应的 MAE 和 RMSE 对应的和，并乘以 batch 大小
        mae_sum += compute_mae(y_hat_real,y_real) * y.shape[0]
        rmse_sum += compute_rmse(y_hat_real,y_real) * y.shape[0]
        
        # n 用于统计 DataLoader 中一共有多少数量
        n += y.shape[0]
        
    # 返回时需要除以 batch 大小，得到平均值
    return mae_sum / n, rmse_sum / n

2.3.4 模型训练

首先我们需要选取优化器和损失函数。

Pytorch 使用的优化器和损失函数可以选用其提供的，也可以自己写。一般来说， Pytorch 自带的具有更好的数值稳定性，这里给出参考。

# 使用均方根误差
loss = torch.nn.MSELoss()

# 自定义的损失函数，可以直接调用
def my_loss_func(y_hat, y):
    return compute_mae(y_hat, y)

Pytorch 的优化器需要提供 model 的 parameters ，故需要先定义网络。

# 使用上面描述的线性网络
model = LinearNet(num_inputs,num_outputs)

# 使用 Adam 优化器， learning rate 调至 0.0001
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

# 也可选用 SGD 或其他优化器
# optimizer = torch.optim.SGD(model.parameters(), lr=1e-4, momentum=0.9, weight_decay=0.1)

下面是训练函数。用于模型的直接训练。

def train_model(model, train_iter, test_iter, loss, num_epochs,
          params=None, optimizer=None):
    
    # 用于绘图用的信息
    train_losses, valid_losses, train_maes, train_rmses, valid_maes, valid_rmses = [], [], [], [], [], []
    
    # 循环 num_epochs 次
    for epoch in range(num_epochs):
        # 初始化参数
        train_l_sum, n = 0.0, 0
        # 初始化时间
        start = time.time()
        # 模型改为训练状态，如果使用了 dropout, batchnorm 之类的层时，训练状态和评估状态的表现会有巨大差别
        model.train()
        
        # 对训练数据集的每个 batch 执行
        for x, y in train_iter:
            
            # 如果使用了 GPU 则拷贝进显存
            if (use_gpu):
                x,y = x.cuda(),y.cuda()
            
            # 计算 y_hat
            y_hat = model(x)
            
            # 计算损失
            l = loss(y_hat, y).mean()

            # 梯度清零
            optimizer.zero_grad()
            
            # L1 正则化
            # for param in params:
            #     l += torch.sum(torch.abs(param))
            
            # L2 正则化可以在 optimizer 上加入 weight_decay 的方式加入

            # 求好对应的梯度
            l.backward()

            # 执行一次反向传播
            optimizer.step()

            # 对 loss 求和（在下面打印出来）
            train_l_sum += l.item() * y.shape[0]
            
            # 计数一共有多少个元素
            n += y.shape[0]
            
        # 模型开启预测状态
        model.eval()
        
        # 同样的，我们可以计算验证集上的 loss
        valid_l_sum, valid_n = 0, 0
        for x, y in valid_iter:
            # 如果使用了 GPU 则拷贝进显存
            if (use_gpu):
                x,y = x.cuda(),y.cuda()
            
            # 计算 y_hat
            y_hat = model(x)
            
            # 计算损失
            l = loss(y_hat, y).mean()

            # 对 loss 求和（在下面打印出来）
            valid_l_sum += l.item() * y.shape[0]
            
            # 计数一共有多少个元素
            valid_n += y.shape[0]
        
        # 对验证集合求指标
        # 这里训练集其实可以在循环内高效地直接算出，这里为了代码的可读性牺牲了效率
        train_mae, train_rmse = evaluate_accuracy(train_iter, model)
        valid_mae, valid_rmse = evaluate_accuracy(valid_iter, model)
        print('epoch %d, train loss %.4f, valid loss %.4f, train mae,rmse %.3f,%.3f, valid mae,rmse %.3f,%.3f, time %.2f sec'
              % (epoch + 1, train_l_sum / n, valid_l_sum / valid_n, train_mae, train_rmse, valid_mae, valid_rmse, time.time() - start))
        
        # 记录绘图有关的信息
        train_losses.append(train_l_sum / n)
        valid_losses.append(valid_l_sum / valid_n)
        train_maes.append(train_mae)
        train_rmses.append(train_rmse)
        valid_maes.append(valid_mae)
        valid_rmses.append(valid_rmse)
        
    # 返回一个训练好的模型和用于绘图的集合
    return model, (train_losses, valid_losses, train_maes, train_rmses, valid_maes, valid_rmses)

下面进行正式的模型训练，但是这里的模型训练在这里的 Notebook(CPU) 上要耗费非常长的时间（单 epoch 约 200 秒），建议使用离线任务中的 GPU 完成该步骤。将对应的数据保存到 results 文件夹中，在 Notebook 中读取并绘图。

# 训练模型
model, (train_losses, valid_losses, train_maes, train_rmses, valid_maes, valid_rmses) = train_model(model, train_iter, test_iter, loss , 5, model.parameters(), optimizer)

epoch 1, train loss 0.0261, valid loss 0.0117, train mae,rmse 31.207,44.126, valid mae,rmse 34.629,48.522, time 5.62 sec
epoch 2, train loss 0.0082, valid loss 0.0096, train mae,rmse 27.859,39.609,valid mae,rmse 31.206,43.775, time 5.60 sec
epoch 3, train loss 0.0071, valid loss 0.0090, train mae,rmse 27.217,38.310, valid mae,rmse 30.621,42.526, time 5.37 sec
epoch 4, train loss 0.0066,valid loss 0.0085, train mae,rmse 26.380,37.085, valid mae,rmse 29.856,41.387, time 5.70 sec
epoch 5, train loss 0.0062, valid loss 0.0083, train mae,rmse 26.166,36.545, valid mae,rmse 29.635,40.989, time 5.19 sec

可以直接使用 numpy 保存并读取。

# 为了方便储存与读取，建立成一个元组
draw_data = (train_losses, valid_losses, train_maes, train_rmses, valid_maes, valid_rmses)

# 记录保存路径
save_path = 'results/datas.npz'
# 保存到硬盘
np.savez(save_path, draw_data=draw_data)

# 读取数据
draw_data = np.load(save_path)['draw_data']

# 提取其中的数据
(train_losses, valid_losses, train_maes, train_rmses, valid_maes, valid_rmses) = draw_data

2.3.5 模型的评估

首先绘制训练图像，以供观测，下面绘制 loss 图像。

# 新建一个图像
plt.figure(figsize=(16,8))

# 绘制 train_loss 曲线
plt.plot(train_losses, label='train_loss')

# 绘制 valid_loss 曲线
plt.plot(valid_losses, label='valid_loss')

# 展示带标签的图像
plt.legend();

下面绘制 MAE 与 RMSE 在 epoch 中的变化。

# 新建一个图像
plt.figure(figsize=(16,8))

# 绘画结点
plt.plot(train_maes, c='blue', label='train_mae')

plt.plot(train_rmses, c='red', label='train_rmse')

plt.plot(valid_maes, c='green', label='valid_mae')

plt.plot(valid_rmses, c='orange', label='valid_rmse')

# 展示图像
plt.legend();

下面绘制结点 5 在校验集中与真实值的差距。这里仅考虑 Notebook(CPU) ， GPU 版本的需要稍加修改。

# 新建一个图像
plt.figure(figsize=(16,8))

# 预测结果
y_hat = model(x_test).detach()

# 取前288个测试集
num_for_draw = 288

# 绘画某些结点第一天的情况
plt.plot(scaler.inverse_transform(y_test[:num_for_draw,5].reshape(-1,1)).reshape(-1), c='blue', label='y_test')

plt.plot(scaler.inverse_transform(y_hat[:num_for_draw,5].reshape(-1,1)).reshape(-1), c='red', label='y_hat')

# 展示图像
plt.legend();

当在校验集上取得较为满意的结果的时候，可以来到测试集一试。

# 获得测试集的数据
test_mae, test_rmse = evaluate_accuracy(test_iter, model)

print('test mae,rmse: %.3f,%.3f' % (test_mae,test_rmse))

在测试集也能取得满意结果的时候，可以在平台上测试并提交。

2.3.6 保存和读取模型

下面介绍保存和读取模型。模型应当保存在results文件夹下。

# 设计目录
model_path = 'results/mymodel.pt'
# 保存模型
torch.save(model.state_dict(), model_path)

读取模型

# 指定目录
model_path = 'results/mymodel.pt'
# 选用使用的模型类
model = LinearNet(num_inputs,num_outputs)
# 读入对应的参数
model.load_state_dict(torch.load(model_path))
# 
model.eval()

3.模型训练与提交

3.1 训练模型

模型训练时请主要在 GPU 上训练，在平台上可以使用离线任务 GPU 完成，并将模型保存到 results 文件夹中，并在模型预测时读取。

def train():
    '''训练模型
    :return: model 一个训练好的模型
    '''
    
    model = None
    # --------------------------- 此处下方加入训练模型相关代码 -------------------------------
    
    
    
    
    
    # 如果使用的不是 pytorch 框架，还需要改动下面的代码
    # 模型保存的位置
    model_path = 'results/mymodel.pt'
    # 保存模型
    torch.save(model.state_dict(), model_path)
    # --------------------------- 此处上方加入训练模型相关代码 -------------------------------
    
    
    
    return model

本赛题并不严格限定使用的框架，可以使用 Pytorch , Tensorflow 或其他框架。只需训练好模型并保存，并在下文中写入合适的读取模型并实现预测即可。测试和评估程序会直接调用 predict(test_x) 函数
注意，模型预测 x.shape[0]==288 的数据不能超过 5 分钟，否则将被记为超时。
模型返回的类型必须是 numpy 数组类型。

# 这里提供了 torch 和 numpy 的互转

x_torch = torch.empty(3,5)
print(type(x_torch))

# torch to numpy
x_numpy = x_torch.numpy()
x_numpy_v2 = np.array(x_torch)
print(type(x_numpy))
print(type(x_numpy_v2))

# numpy to torch
x_torch_v2 = torch.from_numpy(x_numpy)
print(type(x_torch_v2))

3.2 模型提交

在下方规定区域内写入加载模型的方式，该函数是在被测试和评估时调用的预测函数。注意，为了便于用户使用各种框架，输出的数组必须为 numpy 数组。

在测试和评估时为 CPU 运行环境。

注意：

点击左侧栏提交结果后点击生成文件则只需勾选定义模型 class 和实例化模型的 cell，即【模型预测代码答题区域】的 cell。
请导入必要的包和第三方库 (包括此文件中曾经导入过的)。
请加载你认为训练最佳的模型，并按要求填写模型路径。
请不要改动 predict 函数的输入输出格式与类型，并将所有需要提交的文件勾选上。
作业测试时记得填写你的模型路径及名称, 如果采用离线任务请将模型保存在 results 文件夹下。

#######################################################################
## 此处为需要提交的代码的cell，请参考下列流程实现你自己模型的 predict 函数，
## 请不要修改 predict 函数的输入输出格式、类型！！
#######################################################################
def predict(test_x):
    '''对于给定的 x 预测未来的 y 。
    :param test_x: 给定的数据集合 x ，对于其中的每一个元素需要预测对应的 y 。
    :return: test_y 对于每一个 test_x 中的元素，给出一个对后五分钟流量情况的预测。
    '''
    # test 的数目
    n_test = test_x.shape[0]
    
    test_y = None
    
    model = None
    # 模型保存的位置
    model_path = 'results/mymodel.pt'
    # --------------------------- 此处下方加入读入模型和预测相关代码 -------------------------------
    # 读取模型
    model = LinearNet(num_inputs,num_outputs)
    model.load_state_dict(torch.load(model_path))
    model.eval()
    # 如果使用的不是 pytorch 框架，还需要改动上面的代码
    
    
    # --------------------------- 此处上方加入读入模型和预测相关代码 -------------------------------
    
    # 保证输出的是一个 numpy 数组
    assert(type(test_y) == np.ndarray)
    
    # 保证 test_y 的 shape 正确
    assert(test_y.shape == (n_test,307))
    
    return test_y

jupter和数据集

你可能感兴趣的:(python,机器学习,数据挖掘)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f