weixin_38754123

Python王牌加速库2：深度学习下的障碍期权定价

标星★置顶公众号 爱你们♥

作者：Yi Dong 编译：1+1=6

前言

上一期推文中，我们使用了Numba和CuPy来运行蒙特卡罗模拟来确定亚式障碍期权的价格。

Python王牌加速库1：奇异期权定价的利器

蒙特卡罗模拟需要数以百万计的路径来得到精确的答案，这需要大量的计算。Ryan等人得研究表明，可以训练深度学习模型对衍生品进行估值。深度学习模型是准确和快速的，能够产生比传统模型快一百万倍的估值。在今天的推文中，我们将使用一个全连接网络来学习亚式障碍期权的定价模式。采用蒙特卡罗模拟作为训练的定价依据。我们使用与上一篇文章相同的亚式障碍期权模型，参数如下：

T：到期如（年）
S：现货（美元）
K：Strike（美元）
sigma：波动率（per）
r：无风险利率（per）
mu：Drift Rate（per）
B：Barrier（美元）

下面的内容主要包括两个主题：

使用蒙特卡罗定价动态数据集训练期权定价神的经网络模型。
使用蒙特卡罗定价静态数据集训练期权定价神经网络模型并进行推断。

批处理数据生成

数据集是深度学习训练的重要组成部分。我们将修改之前的单一亚式障碍期权定价代码来处理一批障碍期权定价。

加载库：

import cupy
import numpy as np
import math
import time
import torch
cupy.cuda.set_allocator(None)
from torch.utils.dlpack import from_dlpack

批量障碍期权定价模拟的CuPy版本如下：

cupy_batched_barrier_option = cupy.RawKernel(r'''
extern "C" __global__ void batched_barrier_option(
    float *d_s,
    const float T,
    const float * K,
    const float * B,
    const float * S0,
    const float * sigma,
    const float * mu,
    const float * r,
    const float * d_normals,
    const long N_STEPS,
    const long N_PATHS,
    const long N_BATCH)
{
  unsigned idx =  threadIdx.x + blockIdx.x * blockDim.x;
  unsigned stride = blockDim.x * gridDim.x;
  unsigned tid = threadIdx.x;
  const float tmp3 = sqrt(T/N_STEPS);


  for (unsigned i = idx; iK[batch_id] ? running_average-K[batch_id] : 0.f); 
    d_s[i] = tmp2 * payoff;
  }
}

''', 'batched_barrier_option')

注意，参数（K, B, S0, sigma, mu, r）以批处理长度的数组形式传入。输出数组是一个1-D 的二维数组。第一个维度用于 Batch，第二个维度用于 Path。。

通过输入两组选项参数进行测试：

N_PATHS = 2048000
N_STEPS = 365
N_BATCH = 2
T = 1.0

K = cupy.array([110.0, 120.0], dtype=cupy.float32)
B = cupy.array([100.0, 90.0], dtype=cupy.float32)
S0 = cupy.array([120.0, 100.0], dtype=cupy.float32)
sigma = cupy.array([0.35, 0.2], dtype=cupy.float32)
mu = cupy.array([0.15, 0.1], dtype=cupy.float32)
r =cupy.array([0.05, 0.05], dtype=cupy.float32)

把这一切放进一个简单的函数来启动1GPU内核。每个Path的期权价格是相应路径terminal值的平均值。这可以很容易地通过Cupy函数平均值（axis=1）计算出来

def batch_run():
    number_of_threads = 256
    number_of_blocks = (N_PATHS * N_BATCH - 1) // number_of_threads + 1
    randoms_gpu = cupy.random.normal(0, 1, N_BATCH*N_PATHS * N_STEPS, dtype=cupy.float32)
    output = cupy.zeros(N_BATCH*N_PATHS, dtype=cupy.float32)
    cupy.cuda.stream.get_current_stream().synchronize()
    s = time.time()
    cupy_batched_barrier_option((number_of_blocks,), (number_of_threads,),
                       (output, np.float32(T), K, B, S0, sigma, mu, r,
                        randoms_gpu, N_STEPS, N_PATHS, N_BATCH))
    v = output.reshape(N_BATCH, N_PATHS).mean(axis=1)
    cupy.cuda.stream.get_current_stream().synchronize()
    e = time.time()
    print('time', e-s, 'v',v)
batch_run()

time 0.013919591903686523 v [21.22405 0.8480416]

这将为66ms中的这两组期权参数生成21.22和0.848的期权价格。

它的工作效率很高，因此我们将构造一个OptionDataSet类来包装上面的代码，以便我们可以在Pytorch中使用它。对于每个下一个元素，生成指定范围内的均匀分布随机期权参数，启动GPU内核计算期权价格，通过DLPack将CuPy数组转换为带有zero-copy的Pytorch张量。请注意我们是如何实现iterable Dataset接口的：

class OptionDataSet(torch.utils.data.IterableDataset):
    
    def __init__(self, max_len=10, number_path = 1000, batch=2, threads=256,seed=15):
        self.num = 0
        self.max_length = max_len
        self.N_PATHS = number_path
        self.N_STEPS = 365
        self.N_BATCH = batch
        self.T = np.float32(1.0)
        self.output = cupy.zeros(self.N_BATCH*self.N_PATHS, dtype=cupy.float32) 
        self.number_of_blocks = (self.N_PATHS * self.N_BATCH - 1) // threads + 1
        self.number_of_threads = threads
        cupy.random.seed(seed)
        
    def __len__(self):
        return self.max_length
        
    def __iter__(self):
        self.num = 0
        return self
    
    def __next__(self):
        if self.num > self.max_length:
            raise StopIteration
        X = cupy.random.rand(self.N_BATCH, 6, dtype=cupy.float32)
        X = X * cupy.array([200.0, 0.99, 200.0, 0.4, 0.2, 0.2], dtype=cupy.float32)
        X[:, 1] = X[:, 0] * X[:, 1]
        randoms = cupy.random.normal(0, 1, self.N_BATCH * self.N_PATHS * self.N_STEPS, dtype=cupy.float32)
        cupy_batched_barrier_option((self.number_of_blocks,), (self.number_of_threads,), (self.output, self.T, cupy.ascontiguousarray(X[:, 0]), 
                              cupy.ascontiguousarray(X[:, 1]), cupy.ascontiguousarray(X[:, 2]), cupy.ascontiguousarray(X[:, 3]), cupy.ascontiguousarray(X[:, 4]), cupy.ascontiguousarray(X[:, 5]), randoms, self.N_STEPS, self.N_PATHS, self.N_BATCH))
        Y = self.output.reshape(self.N_BATCH, self.N_PATHS).mean(axis=1)
        self.num += 1
        return (from_dlpack(X.toDlpack()), from_dlpack(Y.toDlpack()))

将所有与Pytorch数据集相关的内容都放到一个名为cupy_dataset.py的文件中：

%%writefile cupy_dataset.py 
import cupy
import numpy as np
import torch
from torch.utils.dlpack import from_dlpack
cupy.cuda.set_allocator(None)

cupy_batched_barrier_option = cupy.RawKernel(r'''
extern "C" __global__ void batched_barrier_option(
    float *d_s,
    const float T,
    const float * K,
    const float * B,
    const float * S0,
    const float * sigma,
    const float * mu,
    const float * r,
    const float * d_normals,
    const long N_STEPS,
    const long N_PATHS,
    const long N_BATCH)
{
  unsigned idx =  threadIdx.x + blockIdx.x * blockDim.x;
  unsigned stride = blockDim.x * gridDim.x;
  unsigned tid = threadIdx.x;
  const float tmp3 = sqrt(T/N_STEPS);


  for (unsigned i = idx; iK[batch_id] ? running_average-K[batch_id] : 0.f); 
    d_s[i] = tmp2 * payoff;
  }
}

''', 'batched_barrier_option')

class OptionDataSet(torch.utils.data.IterableDataset):
    
    def __init__(self, max_len=10, number_path = 1000, batch=2, threads=256,seed=15):
        self.num = 0
        self.max_length = max_len
        self.N_PATHS = number_path
        self.N_STEPS = 365
        self.N_BATCH = batch
        self.T = np.float32(1.0)
        self.output = cupy.zeros(self.N_BATCH*self.N_PATHS, dtype=cupy.float32) 
        self.number_of_blocks = (self.N_PATHS * self.N_BATCH - 1) // threads + 1
        self.number_of_threads = threads
        cupy.random.seed(seed)
        
    def __len__(self):
        return self.max_length
        
    def __iter__(self):
        self.num = 0
        return self
    
    def __next__(self):
        if self.num > self.max_length:
            raise StopIteration
        X = cupy.random.rand(self.N_BATCH, 6, dtype=cupy.float32)
        X = X * cupy.array([200.0, 0.99, 200.0, 0.4, 0.2, 0.2], dtype=cupy.float32)
        X[:, 1] = X[:, 0] * X[:, 1]
        randoms = cupy.random.normal(0, 1, self.N_BATCH * self.N_PATHS * self.N_STEPS, dtype=cupy.float32)
        cupy_batched_barrier_option((self.number_of_blocks,), (self.number_of_threads,), (self.output, self.T, cupy.ascontiguousarray(X[:, 0]), 
                              cupy.ascontiguousarray(X[:, 1]), cupy.ascontiguousarray(X[:, 2]), cupy.ascontiguousarray(X[:, 3]), cupy.ascontiguousarray(X[:, 4]), cupy.ascontiguousarray(X[:, 5]), randoms, self.N_STEPS, self.N_PATHS, self.N_BATCH))
        Y = self.output.reshape(self.N_BATCH, self.N_PATHS).mean(axis=1)
        self.num += 1
        return (from_dlpack(X.toDlpack()), from_dlpack(Y.toDlpack()))

覆盖cupy_dataset.py

这里是一个测试代码样本，有10个数据点、batch为16：

ds = OptionDataSet(10, number_path=100000, batch=16, seed=15)
for i in ds:
    print(i[1])

我们可以实现相同的代码使用Numba加速计算在GPU：

import numba
from numba import cuda

@cuda.jit
def batch_barrier_option(d_s, T, K, B, S0, sigma, mu, r, d_normals, N_STEPS, N_PATHS, N_BATCH):
    ii = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x
    stride = cuda.gridDim.x * cuda.blockDim.x
    tmp3 = math.sqrt(T/N_STEPS)
    for i in range(ii, N_PATHS * N_BATCH, stride):
        batch_id = i // N_PATHS
        path_id = i % N_PATHS
        tmp1 = mu[batch_id]*T/N_STEPS
        tmp2 = math.exp(-r[batch_id]*T)
        running_average = 0.0
        s_curr = S0[batch_id]
        for n in range(N_STEPS):

            s_curr += tmp1 * s_curr + sigma[batch_id]*s_curr*tmp3*d_normals[path_id + batch_id * N_PATHS + n * N_PATHS * N_BATCH]
            running_average = running_average + 1.0/(n + 1.0) * (s_curr - running_average)
            if i==0 and batch_id == 2:
                print(s_curr)
            if running_average <= B[batch_id]:
                break
        payoff = running_average - K[batch_id] if running_average > K[batch_id] else 0
        d_s[i] = tmp2 * payoff

class NumbaOptionDataSet(object):
    
    def __init__(self, max_len=10, number_path = 1000, batch=2, threads=512, seed=15):
        self.num = 0
        self.max_length = max_len
        self.N_PATHS = number_path
        self.N_STEPS = 365
        self.N_BATCH = batch
        self.T = np.float32(1.0)
        self.output = cupy.zeros(self.N_BATCH*self.N_PATHS, dtype=cupy.float32) 
        self.number_of_blocks = (self.N_PATHS * self.N_BATCH - 1) // threads + 1
        self.number_of_threads = threads
        cupy.random.seed(seed)
        
    def __len__(self):
        return self.max_length
        
    def __iter__(self):
        self.num = 0
        return self
    
    def __next__(self):
        if self.num > self.max_length:
            raise StopIteration
        X = cupy.random.rand(self.N_BATCH, 6, dtype=cupy.float32)
        X = X * cupy.array([200.0, 0.99, 200.0, 0.4, 0.2, 0.2], dtype=cupy.float32)
        X[:, 1] = X[:, 0] * X[:, 1]
        randoms = cupy.random.normal(0, 1, self.N_BATCH * self.N_PATHS * self.N_STEPS, dtype=cupy.float32)
        batch_barrier_option[(self.number_of_blocks,), (self.number_of_threads,)](self.output, self.T, X[:, 0], 
                              X[:, 1], X[:, 2], X[:, 3], X[:, 4], X[:, 5], randoms, self.N_STEPS, self.N_PATHS, self.N_BATCH)
        o = self.output.reshape(self.N_BATCH, self.N_PATHS)
        Y = o.mean(axis = 1) 
        self.num += 1
        return (from_dlpack(X.toDlpack()), from_dlpack(Y.toDlpack()))
ds = NumbaOptionDataSet(10, number_path=100000, batch=16, seed=15)
for i in ds:
    print(i[1])

模型

为了将期权参数映射到价格，我们使用了6层全连接神经网络，其隐含维度为512。将此DL价格模型写入model.py：

%%writefile model.py
import torch.nn as nn
import torch.nn.functional as F
import torch

class Net(nn.Module):

    def __init__(self, hidden=1024):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(6, hidden)
        self.fc2 = nn.Linear(hidden, hidden)
        self.fc3 = nn.Linear(hidden, hidden)
        self.fc4 = nn.Linear(hidden, hidden)
        self.fc5 = nn.Linear(hidden, hidden)
        self.fc6 = nn.Linear(hidden, 1)
        self.register_buffer('norm',
                             torch.tensor([200.0,
                                           198.0,
                                           200.0,
                                           0.4,
                                           0.2,
                                           0.2]))

    def forward(self, x):
        x = x / self.norm
        x = F.elu(self.fc1(x))
        x = F.elu(self.fc2(x))
        x = F.elu(self.fc3(x))
        x = F.elu(self.fc4(x))
        x = F.elu(self.fc5(x))
        return self.fc6(x)

覆盖model.py

输入参数首先通过除以（200.0,198.0,200.0,0.4,0.2,0.2）缩小到0-1范围。然后在ELu激活函数后，将其5次隐射到隐藏维度512。选择ELu是因为我们需要计算参数的二阶微分。如果使用ReLu，二阶微分总是0。最后一层是线性层，它将隐藏维度映射到预测的期权价格。

在训练方面，我们使用了一个高级库Ignite来训练PyTorch中的神经网络：

https://github.com/pytorch/ignite

我们使用MSELoss作为损失函数，Adam作为优化器，CosineAnnealingScheduler作为学习率调度器。下面的代码将随机期权数据提供给定价模型进行训练。

from ignite.engine import Engine, Events
from ignite.handlers import Timer
from torch.nn import MSELoss
from torch.optim import Adam
from ignite.contrib.handlers.param_scheduler import CosineAnnealingScheduler
from ignite.handlers import ModelCheckpoint
from model import Net
from cupy_dataset import OptionDataSet
timer = Timer(average=True)
model = Net().cuda()
loss_fn = MSELoss()
optimizer = Adam(model.parameters(), lr=1e-3)
dataset = OptionDataSet(max_len=10000, number_path = 1024, batch=4800)

def train_update(engine, batch):
    model.train()
    optimizer.zero_grad()
    x = batch[0]
    y = batch[1]
    y_pred = model(x)
    loss = loss_fn(y_pred[:,0], y)
    loss.backward()
    optimizer.step()
    return loss.item()

trainer = Engine(train_update)
log_interval = 100

scheduler = CosineAnnealingScheduler(optimizer, 'lr', 1e-4, 1e-6, len(dataset))
trainer.add_event_handler(Events.ITERATION_STARTED, scheduler)
timer.attach(trainer,
             start=Events.EPOCH_STARTED,
             resume=Events.ITERATION_STARTED,
             pause=Events.ITERATION_COMPLETED,
             step=Events.ITERATION_COMPLETED)    
@trainer.on(Events.ITERATION_COMPLETED)
def log_training_loss(engine):
    iter = (engine.state.iteration - 1) % len(dataset) + 1
    if iter % log_interval == 0:
        print('loss', engine.state.output, 'average time', timer.value())
        
trainer.run(dataset, max_epochs=100)

损失在不断减少，这意味着定价模型可以更好地预测期权价格。平均计算一个批大小（mini-batch）量需要花费大约12ms，在接下的文章中，我们将尝试挖掘GPU的全部潜力来加速训练。

TensorCore混合精度训练

V100 GPU有640个张量核，可以加速半精度矩阵乘法运算，这是DL模型的核心运算。由NVIDIA开发的Apex库（https://github.com/NVIDIA/apex）使Pytorch中的混合精度和分布式训练变得容易。通过改变3行代码，可以利用张量核加速训练。

from apex import amp
from ignite.engine import Engine, Events
from torch.nn import MSELoss
from ignite.handlers import Timer
from torch.optim import Adam
from ignite.contrib.handlers.param_scheduler import CosineAnnealingScheduler
from ignite.handlers import ModelCheckpoint
from model import Net
from cupy_dataset import OptionDataSet
timer = Timer(average=True)
model = Net().cuda()
loss_fn = MSELoss()
optimizer = Adam(model.parameters(), lr=1e-3)
opt_level = 'O1'
model, optimizer = amp.initialize(model, optimizer, opt_level=opt_level)
dataset = OptionDataSet(max_len=10000, number_path = 1024, batch=4800)

def train_update(engine, batch):
    model.train()
    optimizer.zero_grad()
    x = batch[0]
    y = batch[1]
    y_pred = model(x)
    loss = loss_fn(y_pred[:,0], y)
    with amp.scale_loss(loss, optimizer) as scaled_loss:
        scaled_loss.backward()
    optimizer.step()
    return loss.item()

trainer = Engine(train_update)
log_interval = 100
timer.attach(trainer,
             start=Events.EPOCH_STARTED,
             resume=Events.ITERATION_STARTED,
             pause=Events.ITERATION_COMPLETED,
             step=Events.ITERATION_COMPLETED)    
scheduler = CosineAnnealingScheduler(optimizer, 'lr', 1e-4, 1e-6, len(dataset))
trainer.add_event_handler(Events.ITERATION_STARTED, scheduler)
    
@trainer.on(Events.ITERATION_COMPLETED)
def log_training_loss(engine):
    iter = (engine.state.iteration - 1) % len(dataset) + 1
    if iter % log_interval == 0:
        print('loss', engine.state.output, 'average time', timer.value())
        
trainer.run(dataset, max_epochs=100)

它改进了以8ms计算每个mini-batch。为了获得更好的性能，我们将模型权值降低到半精度，因此需要调整损失以确保半精度动态范围与计算结果一致。它是猜测什么是正确的损失比例因子，并自动调整，如果梯度溢出。最后，在保持模型预测精度的前提下，获得最佳的硬件加速性能。

多个GPU训练

Apex让多GPU训练变得容易。在同一个训练脚本中，我们需要注意一些额外的步骤：

1、添加参数——local_rank，该参数将由分布式启动程序自动设置。

2、初始化进程组。

3、根据数据集中的进程id生成独立的批处理数据。

4、包装模型和优化器来处理分布式计算。

5、衡量损失和优化。

为了启动分布式训练，我们需要将所有内容都放到一个Python文件中。以下是一个例子：

%%writefile distributed_train.py 
import cupy
import numpy as np
import math
import time
import os
import torch
from torch.utils.dlpack import from_dlpack
import torch.nn as nn
import torch.nn.functional as F
import torch
from apex import amp
from ignite.engine import Engine, Events
from torch.nn import MSELoss
from torch.optim import Adam
from ignite.contrib.handlers.param_scheduler import CosineAnnealingScheduler
from ignite.handlers import ModelCheckpoint
from apex.parallel import DistributedDataParallel 
import argparse
from model import Net
from cupy_dataset import OptionDataSet

parser = argparse.ArgumentParser()
parser = argparse.ArgumentParser()
parser.add_argument("--local_rank", default=0, type=int)
args = parser.parse_args()

args.distributed = False
if 'WORLD_SIZE' in os.environ:
    args.distributed = int(os.environ['WORLD_SIZE']) > 1

if args.distributed:
    torch.cuda.set_device(args.local_rank)
    torch.distributed.init_process_group(backend='nccl',
                                         init_method='env://')

torch.backends.cudnn.benchmark = True


model = Net().cuda()
loss_fn = MSELoss()
optimizer = Adam(model.parameters(), lr=1e-3)
opt_level = 'O1'
model, optimizer = amp.initialize(model, optimizer, opt_level=opt_level)
if args.distributed:
    model = DistributedDataParallel(model)
dataset = OptionDataSet(max_len=10000, number_path = 1024, batch=10240, seed=args.local_rank)

def train_update(engine, batch):
    model.train()
    optimizer.zero_grad()
    x = batch[0]
    y = batch[1]
    y_pred = model(x)
    loss = loss_fn(y_pred[:,0], y)
    with amp.scale_loss(loss, optimizer) as scaled_loss:
        scaled_loss.backward()
    optimizer.step()
    return loss.item()

trainer = Engine(train_update)
log_interval = 100

scheduler = CosineAnnealingScheduler(optimizer, 'lr', 1e-4, 1e-6, len(dataset))
trainer.add_event_handler(Events.ITERATION_STARTED, scheduler)
    
@trainer.on(Events.ITERATION_COMPLETED)
def log_training_loss(engine):
    iter = (engine.state.iteration - 1) % len(dataset) + 1
    if iter % log_interval == 0:
        print('loss', engine.state.output)
        
trainer.run(dataset, max_epochs=100)

覆盖distributed_train.py

要启动多进程训练，我们需要运行以下命令：

%reset -f

!python -m torch.distributed.launch --nproc_per_node=4 distributed_train.py

所有的GPU都在训练这个网络。然而，它有几个问题：

1、由于没有模型序列化，因此不会保存经过训练的模型；

2、没有验证数据集来检查训练进度；

3、大部分时间都花在蒙特卡罗模拟上，因此训练速度较慢；

4、我们使用几个路径（1024）作为每个期权参数集，这些参数集是噪声的，并且模型不能收敛到一个低成本值。

解决方案是将蒙特卡罗仿真数据保存在磁盘上。这允许我们：

1、为不同的模型使用相同的数据集，节省蒙特卡罗仿真时间

2、通过增加路径数量来生成更精确的定价数据

我们将使用CuPy来运行蒙特卡罗仿真，因为它是最有效的方法。使用前面文章中定义的OptionDataSet：

from cupy_dataset import OptionDataSet

为保存的数据文件和模型检查点创建目录：

!mkdir -p datafiles
!mkdir -p check_points

定义一个函数来生成数据集文件：

def gen_data(n_files = 630, options_per_file = 10000, seed=3):
    counter = 0
    ds = OptionDataSet(max_len=n_files * options_per_file, number_path=8192000, batch=1,
                   seed=seed)
    x = []
    y = []
    for i in ds:
        if counter!=0 and counter % options_per_file == 0:
            filename = 'datafiles/'+str(seed) + '_' + str(counter//options_per_file) + '.pth'
            state = (torch.cat(x, 0), torch.cat(y, 0))
            torch.save(state, filename)
            x = []
            y = []
        x.append(i[0].cpu())
        y.append(i[1].cpu())
        counter += 1
    return seed

它将为每个文件生成包含 x 和 y 大小矩阵选项的文件，文件名采用seed_group.pth，我们可以测试运行n_files = 5 和options_per_file = 16。

gen_data(n_files=5, options_per_file = 16, seed=3)
X, Y = torch.load('datafiles/3_1.pth')
print(X)
print(Y)

在本文中，我们将使用DASK在多核 GPU上生成数据集：

import dask
import dask_cudf
from dask.delayed import delayed
from dask_cuda import LocalCUDACluster
cluster = LocalCUDACluster()
from dask.distributed import Client
client = Client(cluster)
client

下面的代码是一个在4个GPU上生成100x5x16个数据点示例。对于真正的深度学习模型训练，我们需要数以百万计的数据点。大家可以尝试将n_files和options_per_file更改为较大的数字。

futures = []
for i in range(0, 100):
    future = client.submit(gen_data, 5, 16, i)
    futures.append(future)
results = client.gather(futures)

一旦生成了数百万个数据点，我们就可以将这些数据点组合在一起，并将它们拆分为训练和验证数据集。

import pathlib

files = list(pathlib.Path('datafiles/').glob('*.pth'))
trn_size = int(len(files)*0.7)
trn_files = files[:trn_size]
val_files = files[trn_size:]

trn_x = []
trn_y = []
count = 0

for i in trn_files:
    tensor = torch.load(i)
    if count % 10 == 0:
        print(count,'/',len(trn_files))
    trn_x.append(tensor[0])
    trn_y.append(tensor[1])
    count += 1

X = torch.cat(trn_x)
Y = torch.cat(trn_y)
torch.save((X,Y), 'trn.pth')

val_x = []
val_y = []
count = 0

for i in val_files:
    tensor = torch.load(i)
    if count % 10 == 0:
        print(count,'/',len(val_files))
    val_x.append(tensor[0])
    val_y.append(tensor[1])
    count += 1

X = torch.cat(val_x)
Y = torch.cat(val_y)
torch.save((X,Y), 'val.pth')

我们创建了两个用于训练和验证的数据文件trn.pth和valn .pth。我们可以定义一个新的PyTorch数据集来从文件加载数据并将其写入文件。该数据集采用rank和world_size参数进行分布式训练。它将整个数据集加载到GPU内存中，并根据rank id对数据点进行采样，使得不同rank_id的数据集给出不同的数据。

%%writefile filedataset.py
import torch


class OptionDataSet(torch.utils.data.Dataset):
    def __init__(self, filename, rank=0, world_size=5):
        tensor = torch.load(filename)
        self.tensor = (tensor[0].cuda(), tensor[1].cuda())
        self.length = len(self.tensor[0]) // world_size
        self.world_size = world_size
        self.rank = rank

    def __getitem__(self, index):
        index = index * self.world_size + self.rank
        return self.tensor[0][index], self.tensor[1][index]

    def __len__(self):
        return self.length

写入filedataset.py

在训练深度学习模型时，防止过拟合的一个有效方法是使用单独的验证数据集来监控样本外的性能。当验证数据集的性能下降时，这意味着发生了过拟合，因此我们可以停止训练。我们把所有的东西放在一个脚本，可以在多个GPU有效地训练模型：

%%writefile distributed_training.py
import torch
from ignite.engine import Engine, Events
from torch.nn import MSELoss
from ignite.contrib.handlers.param_scheduler import CosineAnnealingScheduler
from apex import amp
import argparse
import os
from apex.parallel import DistributedDataParallel
import apex
from apex.optimizers import FusedLAMB
from model import Net
from filedataset import OptionDataSet
from ignite.metrics import MeanAbsoluteError
import ignite
import shutil
import torch.distributed as dist

parser = argparse.ArgumentParser()
parser.add_argument("--local_rank", default=0, type=int)
parser.add_argument("--path", default=None)
parser.add_argument("--mae_improv_tol", default=0.002, type=float)
args = parser.parse_args()

args.distributed = False
if 'WORLD_SIZE' in os.environ:
    args.distributed = int(os.environ['WORLD_SIZE']) > 1

if args.distributed:
    torch.cuda.set_device(args.local_rank)
    torch.distributed.init_process_group(backend='nccl',
                                         init_method='env://')

torch.backends.cudnn.benchmark = True

trn_dataset = OptionDataSet(filename='./trn.pth',
                            rank=dist.get_rank(),
                            world_size=int(os.environ['WORLD_SIZE']))
trn_dataset = torch.utils.data.DataLoader(trn_dataset,
                                          batch_size=1024,
                                          shuffle=True,
                                          num_workers=0)

val_dataset = OptionDataSet(filename='./val.pth',
                            rank=dist.get_rank(),
                            world_size=int(os.environ['WORLD_SIZE']))
val_dataset = torch.utils.data.DataLoader(val_dataset,
                                          batch_size=1024,
                                          shuffle=False,
                                          num_workers=0)

model = Net().cuda()
optimizer = FusedLAMB(model.parameters(), lr=1e-3)
loss_fn = MSELoss()


model = apex.parallel.convert_syncbn_model(model, channel_last=True)
model, optimizer = amp.initialize(model, optimizer, opt_level='O1')


best_mae = 100000

if args.path is not None:
    def resume():
        global best_mae
        checkpoint = torch.load(args.path)
        best_mae = checkpoint['best_mae']
        model.load_state_dict(checkpoint['state_dict'])
        amp.load_state_dict(checkpoint['amp'])
        optimizer.load_state_dict(checkpoint['optimizer'])
    resume()


if args.distributed:
    model = DistributedDataParallel(model)
    

def train_update(engine, batch):
    model.train()
    optimizer.zero_grad()
    x = batch[0]
    y = batch[1]
    y_pred = model(x)
    loss = loss_fn(y, y_pred[:, 0])
    with amp.scale_loss(loss, optimizer) as scaled_loss:
        scaled_loss.backward()
    optimizer.step()
    return loss.item()

trainer = Engine(train_update)
log_interval = 500

scheduler = CosineAnnealingScheduler(optimizer, 'lr', 1e-5, 5e-6,
                                     len(trn_dataset),
                                     start_value_mult=0.999, end_value_mult=0.999,
                                     save_history=False
                                     )
trainer.add_event_handler(Events.ITERATION_STARTED, scheduler)


def save_checkpoint(state, is_best, filename='checkpoint.pth.tar'):
    torch.save(state, filename)
    if is_best:
        shutil.copyfile(filename, 'check_points/model_best.pth.tar')


@trainer.on(Events.ITERATION_COMPLETED)
def log_training_loss(engine):
    iter = (engine.state.iteration - 1) % len(trn_dataset) + 1
    if iter % log_interval == 0:
        print('loss', engine.state.output, 'iter', engine.state.iteration,
              'lr', scheduler.get_param())


metric = MeanAbsoluteError()
loss_m = ignite.metrics.Loss(loss_fn)

def eval_update(engine, batch):
    model.eval()
    x = batch[0]
    y = batch[1]
    y_pred = model(x)
    return y, y_pred[:, 0]
evaluator = Engine(eval_update)
metric.attach(evaluator, "MAE")
loss_m.attach(evaluator, "loss")
        
@trainer.on(Events.EPOCH_COMPLETED)
def log_evalnumber(engine):
    global best_mae
    mae_improv_tol = args.mae_improv_tol  
    evaluator.run(val_dataset, max_epochs=1)
    metrics = evaluator.state.metrics
    average_tensor = torch.tensor([metrics['MAE'], metrics['loss']]).cuda()
    torch.distributed.reduce(average_tensor, 0, op=torch.distributed.ReduceOp.SUM)
    torch.distributed.broadcast(average_tensor, 0)
    average_tensor = average_tensor/int(os.environ['WORLD_SIZE'])

    mae = average_tensor[0].item()
    is_best = False
    if (1 - mae / best_mae) >= mae_improv_tol or \
            (engine.state.epoch == engine.state.max_epochs and
             mae < best_mae):
        best_mae = mae
        is_best = True

    # print("RANK {}   Val Results - Epoch: {}  Avg MAE: {:.5f} loss: {:.5f} BEST MAE: {:.5f}"
    #      .format(dist.get_rank(), trainer.state.epoch, metrics['MAE'], metrics['loss'], best_mae))

    if dist.get_rank() == 0:
        print('Epoch {}/{}'.format(engine.state.epoch, engine.state.max_epochs))
        print('Best MAE Improvement Tolerance for checkpointing: {}%'.format(100 * mae_improv_tol))
        print("RANK {} AVG {} NGPUs, best-mae: {:.5f} mae: {:.5f} loss: {:.5f}".format(
            dist.get_rank(),
            int(os.environ['WORLD_SIZE']),
            best_mae,
            average_tensor[0].item(),
            average_tensor[1].item()))
        fname = 'check_points/current_pth.tar'
        if is_best:
            save_checkpoint({'epoch': trainer.state.epoch,
                             'state_dict': model.module.state_dict(),
                             'best_mae': best_mae,
                             'optimizer': optimizer.state_dict(),
                             'amp': amp.state_dict()
                             }, is_best,
                            filename=fname)
        inputs = torch.tensor([[110.0, 100.0, 120.0, 0.35, 0.1, 0.05]]).cuda()
        res = model(inputs)
        print('test one example:', res.item())

trainer.run(trn_dataset, max_epochs=2000)

覆盖distributed_training.py

与前面的代码相比，它有点复杂，因为：

它处理验证数据集的评估
它将模型序列化到一个文件中，并根据MAE跟踪执行得最好的模型
它从文件中恢复训练

我们可以通过以下命令来启动分布式训练：

ngpus=!echo $(nvidia-smi -L | wc -l)
!python -m torch.distributed.launch --nproc_per_node={ngpus[0]} distributed_training.py

我们需要一些耐心来训练定价模型，直到它收敛。

推断和Greeks

一旦训练被聚合，执行得最好的模型就被保存到check_points/目录中。

为了得到一个好的模型，我们需要数百万个数据点来训练模型，直到它收敛。通常在一台8个GPU的DGX-1机器上需要10-20个小时。我们使用1000万个训练数据点和500万个验证数据点对模型进行训练。我们没有研究训练样本的最小数量是多少，只是简单地使用了大量的数据样本。大家可以通过使用更少的数据点来进行训练。

为了节省时间，可以运行以下命令下载权重并使用它们进行推断：

! ((test ! -f './check_points/model_best.pth.tar' ||  test ! -f './check_points/512/model_best.pth.tar') && \
  bash ./download_data.sh) || echo "Dataset is already present. No need to re-download it."

数据集已经存在。不需要重新下载。

我们可以加载模型参数并使用它进行推断。

from model import Net
import torch
checkpoint = torch.load('check_points/model_best.pth.tar')
model = Net().cuda()
model.load_state_dict(checkpoint['state_dict'])
inputs = torch.tensor([[110.0, 100.0, 120.0, 0.35, 0.1, 0.05]]).cuda()
model(inputs)

tensor([[18.7140]], device='cuda:0', grad_fn=)

建立深度学习模型的好处之一是可以很容易地计算出Greeks。我们只需要利用Pytorch中的auto-grad特征。下面是一个计算多元多项式函数一阶微分的例子。

import torch
from torch.autograd import grad
'''
z = (xy)^2
x = 3, y =2

first order deriv [24 36]
'''
inputs = torch.tensor([3.0,2.0], requires_grad=True)
z = (inputs[0]*inputs[1])**2
first_order_grad = grad(z, inputs, create_graph=True)
print(first_order_grad)
(tensor([24., 36.], grad_fn=),)

我们可以使用grad函数来计算参数：K, B, S0, sigma, mu, r的一阶差分：

inputs = torch.tensor([[110.0, 100.0, 120.0, 0.35, 0.1, 0.05]]).cuda()
inputs.requires_grad = True
x = model(inputs)
x.backward()
first_order_gradient = inputs.grad
first_order_gradient

tensor([[-6.7092e-01, -2.1257e-02,  7.8896e-01,  1.9219e+01,  4.8331e+01,
         -1.8419e+01]], device='cuda:0')

画出函数曲线：

%matplotlib inline
import pylab
import numpy as np
def compute_delta(S):
    inputs = torch.tensor([[110.0, 100.0, S, 0.35, 0.1, 0.05]]).cuda()
    inputs.requires_grad = True
    x = model(inputs)
    x.backward()
    first_order_gradient = inputs.grad
    return first_order_gradient[0][2]
prices = np.arange(10, 200, 0.1)
deltas = []
for p in prices:
    deltas.append(compute_delta(p).item())
fig = pylab.plot(prices, deltas)
pylab.xlabel('prices')
pylab.ylabel('Delta')
fig

在PyTorch中计算二阶导数也很简单。我们只需要应用两次grad函数。下面是计算同一多项式函数的二阶导数的例子:

import torch
from torch.autograd import grad
'''
z = (xy)^2
x = 3, y =2

first order deriv [24 36]
d2z/dx2 = 8
d2z/dxdy = 24
d2z/dy2 = 18
'''

inputs = torch.tensor([3.0,2.0], requires_grad=True)
z = (inputs[0]*inputs[1])**2
first_order_grad = grad(z, inputs, create_graph=True)
second_order_grad_x, = grad(first_order_grad[0][0], inputs, retain_graph=True) #
second_order_grad_y, = grad(first_order_grad[0][1], inputs)
print(second_order_grad_x)
print(second_order_grad_y)
tensor([ 8., 24.])
tensor([24., 18.])

利用这个机制，我们可以在下面的例子中计算二阶导数：

, , , , ,

import torch
from torch import Tensor
from torch.autograd import Variable
from torch.autograd import grad
from torch import nn

inputs = torch.tensor([[110.0, 100.0, 120.0, 0.35, 0.1, 0.05]]).cuda()
inputs.requires_grad = True
x = model(inputs)

loss_grads = grad(x, inputs, create_graph=True)
drv = grad(loss_grads[0][0][2], inputs)
drv
Out[9]:
(tensor([[-0.0143,  0.0039,  0.0098, -0.3183,  1.1455, -0.7876]],
        device='cuda:0'),)

Gamma是S的二阶差分。我们可以把Gamma曲线画成股票价格的函数：

import pylab
import numpy as np
def compute_gamma(S):
    inputs = torch.tensor([[110.0, 100.0, S, 0.35, 0.1, 0.05]]).cuda()
    inputs.requires_grad = True
    x = model(inputs)
    loss_grads = grad(x, inputs, create_graph=True)
    drv = grad(loss_grads[0][0][2], inputs)
    return drv[0][0][2]

prices = np.arange(10, 200, 0.1)
deltas = []
for p in prices:
    deltas.append(compute_gamma(p).item())
fig2 = pylab.plot(prices, deltas)
pylab.xlabel('prices')
pylab.ylabel('Gamma')
fig2

隐含波动率是基于期权报价对标的资产的预测波动率。给出的模型是价格与期权参数的反向映射，用蒙特卡罗模拟法很难做到这一点。但如果我们有深度学习定价模型，这是一个简单的任务。我们可以先画出波动率和期权价格之间的关系：

import pylab
import numpy as np
def compute_price(sigma):
    inputs = torch.tensor([[110.0, 100.0, 120.0, sigma, 0.1, 0.05]]).cuda()
    x = model(inputs)
    return x.item()
sigmas = np.arange(0, 0.5, 0.1)
prices = []
for s in sigmas:
    prices.append(compute_price(s))
fig3 = pylab.plot(sigmas, prices)
pylab.xlabel('Sigma')
pylab.ylabel('Price')
fig3

给定价格P，隐含波动率是compute_price函数的根。我们可以用二分法求根。

def bip_root(small, large, fun, target, EPS=1e-6):
    if fun(large) - target < 0:
        print('upper bound is too small')
        return None
    if fun(small) - target > 0:
        print('lower bound is too large')
        return None
    while large - small > EPS:
        mid = (large + small) / 2.0
        if fun(mid) - target >= 0:
            large = mid
        else:
            small = mid
    mid = (large + small) / 2.0
    return mid, abs(fun(mid) - target)
quoted_price = 16.0
sigma, err = bip_root(0, 0.5, compute_price, quoted_price)
print('implied volativity', sigma, 'error', err)

implied volativity 0.18517351150512695 error 4.76837158203125e-06

2020年第82篇文章

量化投资与机器学习微信公众号，是业内垂直于Quant、MFE、Fintech、AI、ML等领域的量化类主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险资管、海外等众多圈内18W+关注者。每日发布行业前沿研究成果和最新量化资讯。

你点的每个“在看”，都是对我们最大的鼓励

你可能感兴趣的:(Python王牌加速库2：深度学习下的障碍期权定价)

Python 分支语句，分支语句嵌套，三目运算龙技术 Python语法 python
1、分支语句单一条件判断if条件：条件成立时执行的代码#格式:'''if条件:条件成立时执行的代码'''age=int(input('请输入你的年龄:'))#上网ifage>=18:print('小帅哥快来玩啊')print('回家睡觉')对立条件判断if条件：条件成立时执行的代码else：条件不成立时执行的代码#if...else...'''if条件:条件成立时执行的代码else:条件不成立时执
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
算法堆与堆排序
堆的定义与分类堆是一种特殊的完全二叉树，通常分为两种类型：大顶堆（大根堆）：每个节点的值都大于或等于其子节点的值。小顶堆（小根堆）：每个节点的值都小于或等于其子节点的值。堆的性质结构性：堆是一棵完全二叉树，即除了最后一层外，其他层的节点都是满的，且最后一层的节点从左到右填充。有序性：堆中每个节点的值都满足特定的顺序关系（大于或小于子节点）。堆的存储数组索引0通常作为堆的根节点。对于索引为i的节点，
会话对象 Cookie 四、Cookie的路径 best_virtuoso 会话前端前端
1.Cookie的path属性Cookie还有一个path属性，可以通过Cookie#setPath(String)方法来设置。你可以使用HttpWatch查看响应中的Set-Cookie中是否存在路径。下面是通过Chrome查看Cookie信息。也就是说，就算你不设置Cookie的path，Cookie也是有路径的。这个路径就是请求的路径。例如在请求:http://localhost:8080/
SQL某个字段的所有值都拼接一个值
某个字段的所有值都拼接一个值updatetableName(表名)set"字段"=RTRIM(字段)||'（增加的值）'WHEREtype='0'比如（user表）：idnamegender1张三男2玛丽亚女3康康男………修改gender为男人/女人SQL语句updateuserset"gender"=RTRIM(gender)||'人'结果（user表）idnamegender1张三男人2玛丽亚
Python分支语句注意事项乔代码嘚 python 开发语言 github
一、单分支语句：if语句1.语法:if：语句块2.注意事项:1）if语句首先判断的结果值，如果结果为True，则执行语句块里的语句序列。如果结果为False，语句块里的语句会被跳过；2）语句块是if条件满足后执行的一个或多个语句序列；3）语句块中语句通过与if所在行形成缩进表达包含关系。4）if判断语句还可以简写：iftag:print("True")当x为0、0.0、0j、None或者空的字符串
python函数
四、函数定义P.1函数定义把一段实现某个功能的完整代码，用一个函数封装，后期可以通过调用函数名，实现依次编写，多次调用的目的函数，可以等价于我们初高中学过的f(x)，f是运算法则，也就是代码函数中对应的代码执行块，每有一个x对应经过f运算之后得到一个值，如f(x)对应的是让x乘3加2，每有一个x进入f中便会得到一个值。高中对应的函数三要素是，定义域、运算法则、值域，而编程中的函数也有三要素，分别为
一秒四次！高频Tick五档期货Level2分析
一秒四次！高频Tick五档期货Level2分析国内期货level2高频数据（一秒四次）下载链接:https://pan.baidu.com/s/144ewl4T0dQvrAedhLz8uJw?pwd=c33h提取码:c33h通过历史Level2一秒四次高频数据深层次分析交易可以分析出比较活跃的品种一：m2505(1)在11:12:36.158的瞬间，一笔引人注目的大单投入市场，3606份订单被安排
React——基础贵沫末 react.js 前端前端框架
文章目录React基础一、基础概念二、组件化三、状态四、属性五、项目初始化六、jsx七、创建React组件的两种方式函数式组件（推荐）类组件（不推荐）八、常用的hooks1、useState：用来修改状态值2、useReducer：用来修改状态值，比useState更适合处理复杂逻辑3、useContext：传递数据4、useMemo:缓存计算结果5、useCallback：缓存函数6、useEf
前端开发常见问题（从布局到性能优化）白仑色前端系列前端开发 HTML CSS JavaScript 性能优化响应式布局跨域
前端开发作为连接用户与产品的重要桥梁，涉及HTML、CSS和JavaScript的综合运用。但在实际开发过程中，开发者常常会遇到各种“坑”，比如页面布局异常、跨域请求失败、性能瓶颈、浏览器兼容性差等问题。本文将围绕前端开发中常见的十大问题展开讲解：页面布局相关问题（盒模型、浮动、Flex布局）CSS样式冲突与继承JavaScript异步处理（Promise、async/await）跨域问题及解决方
【LeetCode 热题 100】48. 旋转图像——转置+水平翻转 xumistore LeetCode leetcode 算法职场和发展 java
Problem:48.旋转图像题目：给定一个n×n的二维矩阵matrix表示一个图像。请你将图像顺时针旋转90度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。文章目录整体思路完整代码时空复杂度时间复杂度：O(N^2)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的矩阵问题：旋转图像(RotateImage)。问题要求将一个NxN的二维矩阵顺时针
Vulkan工厂论：高性能渲染架构的终极秘密你一身傲骨怎能输渲染管线架构
文章摘要Vulkan通过"现代自动化工厂"模式打造高性能渲染引擎：多线程并行处理(多个工头)、批量提交指令(批量订单)、自主资源管理(智能仓库)、灵活管线配置(可调流水线)和高效同步机制。相比传统API"老式工厂"的单线程指挥模式，Vulkan让CPU(工头)和GPU(工人)协同更高效，消除等待时间，充分发挥硬件性能，实现极致渲染效率。这套平台无关的设计适用于各种系统环境，为高质量实时渲染提供基础
使用 C++/Faiss 加速海量 MFCC 特征的相似性搜索 whoarethenext c++faiss 开发语言
使用C++/Faiss加速海量MFCC特征的相似性搜索引言在现代音频处理应用中，例如大规模声纹识别(SpeakerRecognition)、音乐信息检索(MusicInformationRetrieval)或音频事件检测(AudioEventDetection)，我们通常需要从海量的音频库中快速找到与给定查询音频最相似的样本。这个过程的核心技术是对音频内容进行特征提取和高效的相似性搜索。MFCC(
sql USING 简化 JOIN 操作 best_virtuoso sql sql 数据库
在SQL中，USING是一种用于简化JOIN操作的语法糖，它允许你明确指定连接表时所依据的列名。与传统的ON子句相比，USING提供了更简洁的语法1.基本语法与作用table1JOINtable2USING(column_name);将table1和table2中column_name值相同的行连接在一起例：假设有两个表：Orders（包含order_id,cust_id）和OrderItems（
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
mac 安装HomeBrew并且使用nvm管理node 一只小忆白 macos linux 运维
1.安装Homebrew：如果您还没有安装Homebrew，首先需要安装它。打开终端（Terminal.app）并运行以下命令：（官网地址：brew.sh/zh-cn/）http://brew.shbrew.sh/zh-cn/）安装指令：1.官网提供的链接（没有的话执行不成功）/bin/bash-c"$(curl-fsSLhttps://raw.githubusercontent.com/Home
LangChain核心组件全解析北辰alk AI langchain
文章目录一、核心架构组件1.模型I/O(ModelI/O)2.检索(Retrieval)3.记忆(Memory)4.链(Chains)5.代理(Agents)二、关键支持组件1.回调系统(Callbacks)2.文档加载器(DocumentLoaders)3.文本分割器(TextSplitters)4.向量存储(VectorStores)三、高级架构组件1.工具集成(Tools)2.工作流(Wor
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
前端上传解析Excel；前端解析excel i_am_a_div_日积月累_ yarn安装和插件前端 excel 前端上传Excel文件前端解析Excel xlsx
注意：这里是前端使用xlsx插件，将前端上传的.xls、.xlsx文件，解析得到原始列表数据我的是vue3项目文章目录1.安装依赖2.组件封装3.子组件使用1.安装依赖[email protected].组件封装src/components/MyExcelData/index.vue{{props.msg}}import{defineProps}from'vue'import{UploadFi
OpenHarmony解读之设备认证：Pake协议详解与实战陈乔布斯鸿蒙开发 HarmonyOS OpenHarmony harmonyos 分布式鸿蒙开发软总线 openHarmony 嵌入式硬件
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述在设备认证过程中，pake协议用于认证会话密钥协商，基于该会话密钥，双方可以安全地交换各自的
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
uniapp、微信小程序使用sm2加密解密，国密sm2
login.js为登录页面js，request.js为公共请求封装js。详细使用方法及文件请前往资源绑定地址下载倒入即可，其中公私要密钥自己生成
1、uniapp开发微信小程序遭遇的那些事（持续收集中）打不着的大喇叭微信小程序 uniapp uni-app 微信小程序小程序前端
可恶，我用了开发h5思维去开发小程序1、插槽加了slot-scope就不显示？？什么情况时间{{slotProps.time}}时间{{slotProps2.time2}}发现这样写，插槽是不会显示的，原因是包裹slot必须直接作为组件的子节点，不能被template包裹，否则微信小程序端slot机制会失效。slot必须直接作为自定义组件的子节点，不能被template/v-if包裹。修正后写法：
php协程处理报表,php 协程 yield weixin_39857876 php协程处理报表
什么是协程理解协程之前最好要理解进程和线程，这里不过多解释，简单来说，进程是资源分配的最小单位，线程是进程中一个单一的执行流，线程共享进程资源，每个线程都有自己独立的栈空间。线程相对于进程而言更加轻量，操作系统调度进程切换的代价很大，需要保存当前进程的各种信息，PCB进程控制块。线程切换相对更加容易，线程同属于一个进程，只需要切换栈空间。多线程更能利用多核的cpu，发挥性能。协程呢，可以说是断点，
php协程,PHP协程刘保池 php协程
1.什么是协程先搞清楚，什么是协程。你可能已经听过『进程』和『线程』这两个概念。进程就是二进制可执行文件在计算机内存里的一个运行实例，就好比你的.exe文件是个类，进程就是new出来的那个实例。进程是计算机系统进行资源分配和调度的基本单位(调度单位这里别纠结线程进程的)，每个CPU下同一时刻只能处理一个进程。所谓的并行，只不过是看起来并行，CPU事实上在用很快的速度切换不同的进程。进程的切换需要进
php协程关键字,php +go关键字实现协程土萌柚 php协程关键字
今天在知乎浏览时忽然发现了一个有趣的东西，php竟然可以实现协程的实现，而且还是通过go关键字实现，顿时感觉php现在发展的好迅速，竟然把go里的东西都借鉴去。只不过这是在一个叫Swoole的框架中实现的。Swoole4为PHP语言提供了强大的CSP协程编程模式。底层提供了3个关键词，可以方便地实现各类功能。Swoole4提供的PHP协程语法借鉴自Golang，在此向GO开发组致敬PHP+Swoo
MybatisPlus - QueryMapper分页查询出来total=0 BACKLS java mysql 数据库 mybatis spring boot
通过QueryMapper.selectPage,查询的时候，发现Records是正常的，但是total为0，未能正常分页、是因为、SpirngBoot没有读取到PaginationInnerInterceptor这个Bean解决办法：新建一个MybatisPlasConfig@EnableTransactionManagement@ConfigurationpublicclassMybatisP
Ubuntu磁盘空间清理 BACKLS ubuntu linux 运维
这个错误消息表示你的Ubuntu系统上没有足够的磁盘空间来启动MySQL。你可以按照以下步骤来解决这个问题：检查磁盘使用情况：使用df-h命令检查你的磁盘使用情况，找出哪些分区已经满了。df-h清理不必要的文件：清理一些不必要的文件和目录来释放空间。常见的目录包括/var/log/，/tmp/，以及用户目录下的大文件。sudoapt-getcleansudoapt-getautoremovesud
Linux Vim 如何使用 BACKLS gradle vim
LinuxVim最全面教程目录介绍安装Vim基本操作启动与退出插入模式移动光标删除、复制和粘贴撤销与重做高级操作查找与替换多文件编辑宏与自动化插件管理配置Vim编辑vimrc常用配置示例总结介绍Vim是一个高度可配置的文本编辑器，适用于从日常文本编辑到复杂的编程任务。它的前身是vi编辑器，具有强大的文本处理能力和灵活的扩展性。安装Vim在不同的Linux发行版上安装Vim的方法略有不同。以下是一些
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多