冲冲冲(ಡωಡ)

Python深度学习-基于pytorch-2

day5（10月17日）

今日关键词：机器学习基础 视觉处理基础 CIFAR-10代码实现

机器学习的基本任务

机器学习基本任务一般分为四类：监督学习、无监督学习、半监督学习以及强化学习。

监督学习的任务特点是给定学习目标，整个学习目标就是围绕着如何使预测与目标更接近而来的。其过程图如下：

机器学习一般流程

常见问题类型最后一层激活函数和损失函数的对应关系：

常见的评估方法：
过拟合与欠拟合

模型确定后，开始训练模型，然后对模型进行评估和优化，这个过程往往是循环往复的。在训练模型过程中，经常会出现刚开始训练时，训练和测试精度不高（或损失值较大），然后通过增加迭代次数或通过优化，训练精度和测试精度继续提升，如果出现这种情况，当然最好。但随着我们训练迭代次数的增加或不断优化，也有可能会出现训练精度或损失值继续改善，但测试精度或损失值不降反升的情况。出现这种情况，说明我们的优化过头了，把训练数据中一些无关紧要甚至错误的模式也学到了。这就是通常说的出现过拟合了。那如何解决这类问题？机器学习中有很多解决方法，这些方法又统称为正则化，接下来我们介绍一些常用的正则化方法。
1、权重正则化
该方法是解决过拟合问题的一个有效方法。直观感受：

如果要降低模型的复杂度，可以通过缩减它们的系数来实现，如把第3次、4次项的系数3、04缩减到接近于0即可。
那在算法中如何实现呢？这个得从其损失函数或目标函数着手。

这里取10000只是用来代表它是一个大值”。现在，如果要最小化这个新的损失函数，应要让，和04尽可能的小。因为如果你在原有损失函数的基础上加上10000乘以，这一项，那么这个新的损失函数将变得很大，所以，当要最小化这个新的损失函数时，将使。的值接近于0，同样a的值也接近于0，就像我们所忽略的这两个值一样。如果做到这一点（；和04接近于0），那么将得到一个近似的二次函数。
PyTorch如何实现正则化呢？
这里以实现L2为例，神经网络的L2正则化称为权重衰减（Weight Decay）。
torch.optim集成了很多优化器，如SGD、Adadelta、Adam、Adagrad、RMSprop等，这些优化器自带的一个参数weight decay，用于指定权值衰减率。

2、Dropout正则化

Dropout在训练阶段和测试阶段是不同的，一般在训练中使用，测试时不使用。不过在测试时，为了平衡（因训练时舍弃了部分节点或输出），一般将输出按Dropout Rate比例缩小。

3、批量正则化

4、权重初始化
初始化对训练有哪些影响？初始化能决定算法是否收敛，如果算法的初始化不适当，初始值过大可能会在前向传播或反向传播中产生爆炸的值；如果太小将导致丢失信息。对收敛的算法适当的初始化能加快收敛速度。初始值的选择将影响模型收敛局部最小值还是全局最小值，如图5-10所示，因初始值的不同，导致收敛到不同的极值点。另外，初始化也可以影响模型的泛化。
如何对权重、偏移量进行初始化？初始化这些参数是否有一般性原则？常见的参数初始化有零值初始化、随机初始化、均匀分布初始、正态分布初始和正交分布初始等。一般采用正态分布或均匀分布的初始值，实践表明正态分布、正交分布、均匀分布的初始值能带来更好的效果。
继承nm.Module的模块参数都采取了较合理的初始化策略，一般情况使用其缺省初始化策略就足够了。当然，如果想要修改，PyTorch也提供了nm.init模块，该模块提供了常用的初始化策略，如xavier、kaiming等经典初始化策略，使用这些初始化策略有利于激活值的分布呈现出更有广度或更贴近正态分布。xavier一般用于激活函数是S型（如 sigmoid、tanh）的权重初始化，而kaiming则更适合于激活函数为ReLU类的权重初始化。

选择合适激活函数
常见的激活函数：

在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1，尤其是sigmoid的导数在[0，1/4]之间，多层叠加后，根据微积分链式法则，随着层数增多，导数或偏导将指数级变小。所以层数较多的激活函数需要考虑其导数不宜小于1当然也不能大于1，大于1将导致梯度爆炸，导数为1最好，而激活函数relu正好满足这个条件。所以，搭建比较深的神经网络时，一般使用relu激活函数，当然一般神经网络也可使用。此外，激活函数softmax常用于多分类神经网络输出层。
选择合适的损失函数
损失函数（Loss Function）在机器学习中非常重要，因为训练模型的过程实际就是优化损失函数的过程。损失函数对每个参数的偏导数就是梯度下降中提到的梯度，防止过拟合时添加的正则化项也是加在损失函数后面。损失函数用来衡量模型的好坏，损失函数越小说明模型和参数越符合训练样本。任何能够衡量模型预测值与真实值之间的差异的函数都可以叫作损失函数。在机器学习中常用的损失函数有两种，即交叉熵（Cross Entropy）和均方误差（Mean squared error，MSE），分别对应机器学习中的分类问题和回归问题。
pytorch中两个经典的损失函数：
1、torch.nn.MSELoss

import torch
import torch.nn as nn
import torch.nn.functional as F
torch.manual_seed(10)
loss = nn.MSELoss(reduction='mean')
input = torch.randn(1,2,requires_grad=True)
print(input)
target = torch.randn(1,2)
print(target)
output = loss(input,target)
print(output)
output.backward()

2、torch.nn.CrossEntropyLoss

import torch 
import torch.nn as nn
torch.manual_seed(10)
1oss=nn.CrossEntropyLoss()
#假设类别数为5
input=torch.randn(3，5，requires grad=True)
#每个样本对应的类别索引，其值范围为[0，4]
target=torch.empty(3，dtype=torch.1ong).random_(5)
output=loss(input，target)
output.backward()

选择合适优化器
1、传统梯度优化的不足
传统梯度优化的不足对参数学习率比较敏感，其更新策略可表示为：

2、动量算法

3、AdaGrad算法、
AdaGrad算法是一种自适应算法，其通过参数来调整合适的学习率，是能独立地自动的调整模型采纳数的学习率，对稀疏参数进行大幅更新和对频繁参数进行小幅更新。
4、RMSProp算法

5、Adam算法
GPU加速
卷积神经网络简介
卷积神经网络（CNN）是一种前馈神经网络。

代码定义该卷积神经网络示意图：

import torch
import torch.nn as nn
import torch.nn.functional as F
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

class CNNNet(nn.Module):
    def __init__(self):
        super(CNNNet, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=3,out_channels=16,kernel_size=5,stride=1)
        self.pool1 = nn.MaxPool2d(kernel_size=2,stride=2)
        self.conv2 = nn.Conv2d(in_channels=16,out_channels=36,kernel_size=3,stride=1)
        self.pool2 = nn.MaxPool2d(kernel_size=2,stride=2)
        self.fc1 = nn.Linear(1296,128)
        self.fc2 = nn.Linear(128,10)
    def forward(self,x):
        x = self.pool1(F.relu(self.conv1(x)))
        x = self.pool2(F.relu(self.conv2(x)))

        x = x.view(-1,36*6*6)
        x = F.relu(self.fc2(F.relu(self.fc1(x))))
        return x
net = CNNNet()
net = net.to(device)

卷积层
卷积层是卷积神经网络的核心层，而卷积又是卷积层的核心。对卷积直观的理解，就是两个函数的一种运算，这种运算就称为卷积运算。二维卷积运算示例如下：

卷积宛如特征提取，卷积核十分重要。卷积核内所有元素和一般为1。一种卷积核一般只能提取一种特征。
池化层
池化操作后的结果相比其输入缩小了。池化层的引入是仿照人的视觉系统对视觉输入对象进行降维和抽象。
常见的池化层：
（1）最大池化、平均池化、全局平均池化、全局最大池化。

平均池化（average pooling）：计算图像区域的平均值作为该区域池化后的值。

最大池化（max pooling）:选图像区域的最大值作为该区域池化后的值。

（2）重叠池化（OverlappingPooling）：

重叠池化就是，相邻池化窗口之间有重叠区域，此时一般sizeX > stride。
视频讲解：点击就送

现代经典网络
pytorch实现CIFAR-10多分类

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
from torch import optim

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")



def imshow(img):
    img = img /2 + 0.5
    npimg = img.numpy()
    # tensor --> numpy
    # print(type(npimg))
    plt.imshow(np.transpose(npimg,(1,2,0)))
    plt.show()

    pass
class CNNNet(nn.Module):
    def __init__(self):
        super(CNNNet, self).__init__()
        # 特征图尺寸的计算公式为：（原图片尺寸 - 卷积核尺寸）/步长 + 1
        self.conv1 = nn.Conv2d(in_channels=3,out_channels=6,kernel_size=5,stride=1)
        #卷积层1 输入是32*32*3 计算（32-5）/1 + 1 = 28 那么通过conv1输出的结果是28*28*6
        self.pool1 = nn.MaxPool2d(kernel_size=2,stride=2)
        # 池化层1 输入是28*28*6 窗口是2*2 计算28/2=14 那么通过调用之后变成14*14*6
        self.conv2 = nn.Conv2d(in_channels=6,out_channels=16,kernel_size=5,stride=1)
        # 卷积层2 输入是14*14*6 计算（14-5）/1 + 1 =10 那么通过conv2输出的结果为10*10*16
        self.pool2 = nn.MaxPool2d(kernel_size=2,stride=2)
        # 池化层2 输入是10*10*16 窗口是2*2 计算10/2=5 那么通过调用之后变成5*5*16
        self.fc1 = nn.Linear(16*5*5,120)
        # self.fang = nn.Linear(128,10)
        # self.fc3 = nn.Linear(1290,10)
        self.fc2 = nn.Linear(120,84)
        self.fc3 = nn.Linear(84,10)
    def forward(self,x):

        x = self.pool1(F.relu(self.conv1(x)))
        x = self.pool2(F.relu(self.conv2(x)))

        x = x.view(-1,16*5*5)
        x = F.relu(self.fc2(F.relu(self.fc1(x))))
        return x
if __name__ == '__main__':
    transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
    # 模型归一化 使数据到达【-1,1】之间 使模型训练更加的快速 提高准确率
    trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=False, transform=transform)
    trainloader = torch.utils.data.DataLoader(trainset, batch_size=16, shuffle=True, num_workers=2)
    testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=False, transform=transform)
    testloader = torch.utils.data.DataLoader(testset, batch_size=16, shuffle=False, num_workers=2)
    classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
    # dataiter = iter(trainloader)
    # images,labels = dataiter.next()
    # imshow(torchvision.utils.make_grid(images))
    # print(' '.join('%5s' % classes[labels[j]] for j in range(4)))
    net = CNNNet()
    net = net.to(device)
    # print(net)
    # nn.Sequential(*list(net.children())[:4])
    # for m in net.modules():
    #     if isinstance(m, nn.Conv2d):
    #         nn.init.normal_(m.weight)
    #         nn.init.xavier_normal_(m.weight)
    #         nn.init.kaiming_normal_(m.weight)
    #         nn.init.constant_(m.bias, 0)
    #     elif isinstance(m, nn.Linear):
    #         nn.init.normal_(m.weight)
    criterion = nn.CrossEntropyLoss()
    # SGD 梯度下降算法
    optimizer = optim.SGD(net.parameters(),lr=0.001,momentum=0.9)
    for epoch in range(15):
        running_loss = 0.0
        for i, data in enumerate(trainloader, 0):
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)
            # 梯度置零
            optimizer.zero_grad()
            # 训练
            outputs = net(inputs)
            # 计算损失
            loss = criterion(outputs, labels)
            # 反向传播
            loss.backward()
            # 参数更新
            optimizer.step()
            # 累计损失
            running_loss += loss.item()
            if i % 2000 == 1999:
                print('[%d,%5d] loss:%.3f' % (epoch + 1, i + 1, running_loss / 2000))
                running_loss = 0.0
    print("Finished Training")
    # 保存模型
    # torch.save(net.state_dict(),'./fang')
    # 加载模型
    # model =CNNNet()
    # model.load_state_dict(torch.load('./fang'))
    correct = 0
    total = 0
    with torch.no_grad():
        for data in testloader:
            images,labels = data
            images,labels = images.to(device),labels.to(device)
            outputs = net(images)
            _,predicted = torch.max(outputs.data,1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print('Accuracy of the network on the 10000 test images:%d %%' %(100*correct/total))
pass

day6（10月18日）

今日关键词：自然语言处理基础
卷积神经网络利用卷积核的方式来共享参数，这使得参数量大大降低的同时还可以利用位置信息，不过其输入大小是固定的。但是，在语言处理、语音识别等方面，文档中每句话的长度是不一样的，且一句话的前后是有关系的，类似这样的数据还有很多，如语音数据、翻译的语句等。像这样与先后顺序有关的数据被称之为序列数据。处理这样的数据就不是卷积神经网络的特长了。对于序列数据，可以使用循环神经网络（Recurrent Natural Network，RNN），它特别适合处理序列数据，RNN是一种常用的神经网络结构，已经成功应用于自然语言处理（Neuro-Linguistic Programming，NLP）、语音识别、图片标注、机器翻译等众多时序问题中。

循环神经网络基本结构

太过于抽象，点击讲解视频
LSTM
GRU
Bi-RNN
循环神经网络的PyTorch实现
- RNN实现
  
  这是一个典型的RNN网络，使用pytorch实现这个神经网络

import torch
import torch.nn as nn
class RNN(nn.Module):
    # 定义一种循环神经网络
    def __init__(self,input_size,hidden_size,output_size):
        super(RNN,self).__init__()
        self.hidden_size = hidden_size
        self.i2h = nn.Linear(input_size + hidden_size,hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size,output_size)
        self.softmax = nn.LogSoftmax(dim=1)
    def forword(self,input,hidden):
        combined = torch.cat((input,hidden),1)
        hidden = self.i2h(combined)
        output = self.i2o(combined)
        output = self.softmax(output)
        return output,hidden
    def initHidden(self):
        return torch.zeros(1,self.hidden_size)

文本数据处理

def text_processing():
    raw_test = """我爱上海
                  她喜欢北京"""
    stoplist = [' ','\n'] #停用词包括空格 回车符'\n'
    words = list(jieba.cut(raw_test))
    # 利用jieba进行分词
    words=[i for i in words if i not in stoplist]
    print(words)
    # 去重，然后对每个词加上索引或给一个整数
    word_to_ix = {i:word for i,word in enumerate(set(words))}
    print(word_to_ix)
    # 把整数转换成向量 参数为（词总数，向量长度）
    embeds = nn.Embedding(6,8)
    lists = []
    for k,v in word_to_ix.items():
        tensor_value = torch.tensor(k)
        lists.append((embeds(tensor_value).data))
    print(lists)

词性判别主要步骤

import torch
import torch.nn as nn
import jieba
import torch.nn.functional as F
class RNN(nn.Module):
    # 定义一种循环神经网络
    def __init__(self,input_size,hidden_size,output_size):
        super(RNN,self).__init__()
        self.hidden_size = hidden_size
        self.i2h = nn.Linear(input_size + hidden_size,hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size,output_size)
        self.softmax = nn.LogSoftmax(dim=1)
    def forword(self,input,hidden):
        combined = torch.cat((input,hidden),1)
        hidden = self.i2h(combined)
        output = self.i2o(combined)
        output = self.softmax(output)
        return output,hidden
    def initHidden(self):
        return torch.zeros(1,self.hidden_size)
def text_processing():
    raw_test = """我爱上海
                  她喜欢北京"""
    stoplist = [' ','\n'] #停用词包括空格 回车符'\n'
    words = list(jieba.cut(raw_test))
    # 利用jieba进行分词
    words=[i for i in words if i not in stoplist]
    print(words)
    # 去重，然后对每个词加上索引或给一个整数
    word_to_ix = {i:word for i,word in enumerate(set(words))}
    print(word_to_ix)
    # 把整数转换成向量 参数为（词总数，向量长度）
    embeds = nn.Embedding(6,8)
    lists = []
    for k,v in word_to_ix.items():
        tensor_value = torch.tensor(k)
        lists.append((embeds(tensor_value).data))
    print(lists)
class LSTMTagger(nn.Module):
    def __init__(self,embedding_dim,hidden_dim,vocab_size,tagset_size):
        super(LSTMTagger, self).__init__()
        self.hidden_dim = hidden_dim
        self.word_embeddings = nn.Embedding(vocab_size,embedding_dim)
        self.lstm = nn.LSTM(embedding_dim,hidden_dim)
        self.hidden2tag = nn.Linear(hidden_dim,tagset_size)
        self.hidden = self.init_hidden()
    # 初始化隐含状态state及C
    def init_hidden(self):
        return (torch.zeros(1,1,self.hidden_dim),torch.zeros(1,1,self.hidden_dim))
    def forward(self,sentence):
        # 获得词嵌入矩阵embeds
        embeds = self.word_embeddings(sentence)
        # 按LSTM格式 修改embeds的形状
        lstm_out,self.hidden = self.lstm(embeds.view(len(sentence),1,-1),self.hidden)
        # 修改隐含状态的形状 作为全连接层的输入
        tag_space = self.hidden2tag(lstm_out.view(len(sentence),-1))
        # 计算每个单词属于各词性的概率
        tag_scores = F.log_softmax(tag_space,dim=1)
        return tag_scores
        pass
def prepare_sequence(seq,to_ix):
    idxs = [to_ix[w] for w in seq]
    tensor = torch.LongTensor(idxs)
    return tensor
def fun1():
    # 定义训练数据
    training_data = [("The cat ate the fish".split(),["DET","NN","V","DET","NN"]),("They read that book".split(),["NN","V","DET","NN"])]
    # 定义测试数据
    testing_data = [("They ate the fish".split())]
    word_to_ix = {}
    for sent,tags in training_data:
        for word in sent:
            if word not in word_to_ix:
                word_to_ix[word] = len(word_to_ix)
    print(word_to_ix)
    tag_to_ix = {"DET":0,"NN":1,"V":2}
    EMBEDDING_DIM = 10
    HIDDEN_DIM = 3
    model = LSTMTagger(EMBEDDING_DIM, HIDDEN_DIM, len(word_to_ix), len(tag_to_ix))
    loss_function = nn.NLLLoss()
    optimizer = torch.optim.SGD(model.parameters(),lr=0.1)

    # inputs = prepare_sequence(training_data[0][0],word_to_ix)
    # tag_scores = model(inputs)
    # print(training_data[0][0])
    # print(inputs)
    # print(tag_scores)
    # print(torch.max(tag_scores,1))
    for epoch in range(400):
        for sentence,tags in training_data:
            model.zero_grad()
            model.hidden = model.init_hidden()
            sentence_in = prepare_sequence(sentence,word_to_ix)
            targets = prepare_sequence(tags,tag_to_ix)
            tag_scorex = model(sentence_in)
            loss = loss_function(tag_scorex,targets)
            loss.backward()
            optimizer.step()
    inputs = prepare_sequence(training_data[0][0],word_to_ix)
    tag_scorex = model(inputs)
    print(training_data[0][0])
    print(tag_scorex)
    print(torch.max(tag_scorex,1))

    pass
if __name__ == '__main__':
    # text_processing()
    fun1()
    # EMBEDDING_DIM = 10
    # HIDDEN_DIM = 3
    # model = LSTMTagger(EMBEDDING_DIM,HIDDEN_DIM,len(word_to_ix),len(tag_to_ix))

用LSTM预测股票行情

部分代码如下：

# 1.导入数据
import datetime

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import torch
import tushare as ts
from torch.utils.data import DataLoader
import torch.nn as nn
# 建立连接
cons = ts.get_apis()
#获取沪深指数（000300）的信息，包括交易日期（datetime）、开盘价（open）、收盘价（close），
#最高价（high）、最低价（1ow）、成交量（vo1）、成交金额（amount）、涨跌幅（p_change）
df = ts.bar('000300',conn=cons,asset='INDEX',start_date='2010-01-01',end_date='')
# 删除有null值的行
df = df.dropna()
# 把df保存到目前目录下的sh300.csv文件中 以便后续使用
df.to_csv('sh300.csv')
#查看df涉及的列名
# df.columns
#Index（['code'，'open'，'close'，'high'，'1ow'，'vol'，‘amount'，'p_change]，
#dtype='object'）
#查看df的统计信息
df.describe()
# print(df)

# 预处理数据
# 通过一个序列来生成一个31*(count(*)-train_end)矩阵
# 其中最后一列维标签数据 就是把当天的前n天作为参数 当天的数据作为label
def generate_data_by_n_days(series,n,index=False):
    if len(series) <= n:
        raise Exception("The Length of series is %d,while affect by (n=%d)."%(len(series),n))
    df = pd.DataFrame()
    for i in range(n):
        df['c%d'%i] = series.tolist()[i:-(n-i)]
    df['y'] = series.tolist()[n:]
    if index:
        df.index = series.index[n:]
    return df
# 参数n与上相同 train_end表示的是后面多少个数据作为数据集。
def readData(column='high',n=30,all_too=True,index=False,train_end=-500):
    df = pd.read_csv("sh300.csv",index_col=0)
    df.index = list(map(lambda x: datetime.datetime.strptime(x,"%Y-%m-%d"),df.index))
    df_column = df[column].copy()
    df_column_train,df_column_test = df_column[:train_end],df_column[train_end - n:]
    df_generate_train = generate_data_by_n_days(df_column_train,n,index=index)
    if  all_too:
        return df_generate_train,df_column,df.index.tolist()
    return df_generate_train

# 规范化数据
# 对数据进行预处理 规范化及转换为Tensor
# df_numpy = np.array(df)
# df_numpy_mean = np.mean(df_numpy)
# df_numpy_std = np.std(df_numpy)
# df_numpy = (df_numpy - df_numpy_mean)/df_numpy_std
# df_tensor = torch.Tensor(df_numpy)
# trainset = mytrainset(df_tensor)
# trainloader = DataLoader(trainset,batch_size=batch_size,shuffle=False)

# # 可视化最高价数据
# from pandas.plotting import register_matplotlib_converters
# register_matplotlib_converters()
# # # 获取训练数据 原始数据 索引数据信息
# df,df_all,df_index = readData('high',n=30,train_end=500)
# df_all = np.array(df_all.tolist())
# plt.plot(df_index,df_all,label='real-data')
# plt.legend(loc='upper right')

# 定义模型
class RNN(nn.Module):
    def __init__(self,input_size):
        super(RNN,self).__init__()
        self.rnn = nn.LSTM(
            input_size = input_size,
            hidden_size=64,
            num_layers = 1,
            batch_size = True
        )
        self.out = nn.Sequential(
            nn.Linear(64,1)
        )
    def forward(self,x):
        r_out,(h_n,h_c) = self.rnn(x,None)
        out = self.out(r_out)
        return out

# 训练模型
from tensorboardX import SummaryWriter
writer = SummaryWriter(log_dir='logs')
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
rnn = RNN(nn).to(device)
optimizer = torch.optim.Adam(rnn.parameters(),lr=0.001)
loss_func = nn.MSELoss()

day7

今日关键词：生成式深度学习

用变分自编码器（VAE）生成图像
定义以下VAE模型：

class VAE(nn.Module):
    def __init__(self,image_size=784,h_dim=400,z_dim=20):
        super(VAE,self).__init__()
        self.fc1 = nn.Linear(image_size,h_dim)
        self.fc2 = nn.Linear(h_dim,z_dim)
        self.fc3 = nn.Linear(z_dim,h_dim)
        self.fc4 = nn.Linear(z_dim,h_dim)
        self.fc5 = nn.Linear(h_dim,image_size)
    def encode(self,x):
        h = F.relu(self.fc1(x))
        return self.fc2(h),self.fc3(h)
    def reparameterize(self,mu,log_var):
        std = torch.exp(log_var/2)
        eps = torch.randn_like(std)
        return mu+eps*std
    def decode(self,z):
        h = F.relu(self.fc4(z))
        return torch.sigmoid(self.fc5(h))
    def forward(self,x):
        mu,log_var = self.encode(x)
        z = self.reparameterize(mu,log_var)
        x_reconst = self.decode(z)
        return x_reconst,mu,log_var

day8（10月21日）

优化器
BGD在训练的时候选用所有的训练集进行计算，SGD在训练的时候只选择一个数据进行训练，而MBGD在训练的时候只选择小部分数据进行训练。
这种梯度更新算法简洁，当学习率取值恰当时，可以收敛到全面最优点(凸函数)或局部最优点(非凸函数)。但其还有很大的不足点：
对超参数学习率比较敏感（过小导致收敛速度过慢，过大又越过极值点）。
学习率除了敏感，有时还会因其在迭代过程中保持不变，很容易造成算法被卡在鞍点的位置。
在较平坦的区域，由于梯度接近于0，优化算法会因误判，在还未到达极值点时，就提前结束迭代，陷入局部极小值。
conv2d（卷积）

conv2d(input,wight,bias=None,stride=1,padding=0,diladion=1,groups=1)
input:表示输入形式 输入形式一般为：N*C*H*W
	N:表示批量大小
	C:为通道数
	H：为图片高度
	W:为图片的宽度
weight：就是卷积核 其一般为 D*C*h*w
	D:表示输出的特征图的通道数 等于卷积核的个数
	其它均为上述一样
bias：表示偏置值 大小等于D
最终输出结果的维度为：N*D*(H-h+1)*(W-w+1)
stride:指的是在输入信号上移动卷积核的步幅大小
padding：指的是输入信号周围填充多少维度的零 其目的就是为了改变输入的形状

nn.Conv2d(in_channels，out_channels，kernel_size)
in_channels：
这个很好理解，就是输入的四维张量[N, C, H, W]中的C了，即输入张量的channels数。这个形参是确定权重等可学习参数的shape所必需的。
out_channels：
也很好理解，即期望的四维输出张量的channels数，不再多说。
kernel_size：
卷积核的大小，一般我们会使用5x5、3x3这种左右两个数相同的卷积核，因此这种情况只需要写kernel_size = 5这样的就行了。如果左右两个数不同，比如3x5的卷积核，那么写作kernel_size = (3, 5)，注意需要写一个tuple，而不能写一个列表（list）。

池化层（Pooling）

池化是进一步降低数据维度及提取主要特征的步骤
它实际上是一种形式的降采样。有多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。
它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效地原因在于，
在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。
池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，
这在一定程度上也控制了过拟合。通常来说，CNN的卷积层之间都会周期性地插入池化层。
其维度计算公式为：N*C*（H/h）*（W/w） 此处全为向下取整

MNIST分类实战（基于全连接层）

import torch
import torch.nn as nn
from torch import optim
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision import transforms
import torch.nn.functional as F



class MNISTNet(nn.Module):
    def __init__(self):
        super(MNISTNet, self).__init__()
        self.layer1 = nn.Linear(784,100)
        self.layer2 = nn.Linear(100,10)
    def forward(self,x):
        # 输入层到隐藏层 激活函数为tanh
        x = self.layer1(x.reshape(-1,784))
        x = torch.tanh(x)
        # 隐藏层到输出层 使用relu激活函数
        x = self.layer2(x)
        x = F.relu(x)
        # 使用F.log_softmax激活函数 最后计算损失值时要使用NLLLoss负对数似然损失函数
        x = F.log_softmax(x,dim=1)
        return x
# 定义训练方法
def train_model(model,device,train_loader,optimizer,epoch):
    model.train()
    # pytorch 自带的训练方法
    for batch_index,(data,label) in enumerate(train_loader):
        # 部署到device
        data,label = data.to(device),label.to(device)
        # 梯度初始化为0
        optimizer.zero_grad()
        # 训练后的后果
        output = model(data)
        # 计算损失（针对多分类任务交叉熵 二分类用sigmoid）
        loss = F.cross_entropy(output,label)
        # 找到最大概率的下标
        pred = output.argmax(dim=1)
        # 反向传播Backpropagation 计算梯度
        loss.backward()
        # 参数的优化 更新梯度
        optimizer.step()
        if batch_index % 1000 == 0:
            print("Train Epoch : {} \t Loss : {:.6f}".format(epoch, loss.item()))



def tet_model(model,device,test_loader):
    # 模型验证
    model.eval()
    # 统计正确率
    correct = 0.0
    # 测试损失
    test_loss = 0.0
    with torch.no_grad():   # 不计算梯度 不反向传播
        for data,label in test_loader:
            data,label = data.to(device),label.to(device)
            # 测试数据
            output = model(data)
            # 计算测试损失
            test_loss += F.cross_entropy(output,label).item()
            # 找到概率值最大的下标
            pred = output.argmax(dim=1)
            # 累计正确率
            correct += pred.eq(label.view_as(pred)).sum().item()
        test_loss /= len(test_loader.dataset)
        print("Test —— Average loss : {:.4f}, Accuracy : {:.3f}\n".format(test_loss, 100.0 * correct / len(test_loader.dataset)))

if __name__ == '__main__':
    transforms = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,),(0.3081,))])
    train_data = datasets.MNIST('./data',train=True,download=False,transform=transforms)
    test_data = datasets.MNIST('./data', train=False, download=False, transform=transforms)
    # data_loader = torch.utils.data.DataLoader(mnist_dataset,batch_size=32,shuffle=True,num_workers=10)
    batch_size = 32
    train_loader = DataLoader(train_data,batch_size=batch_size,shuffle=True)
    test_loader = DataLoader(test_data, batch_size=batch_size, shuffle=True)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model = MNISTNet().to(device)
    optimizer = optim.Adam(model.parameters())
    for epoch in range(1,21):
        train_model(model,device,train_loader,optimizer,epoch)
        tet_model(model,device,test_loader)
    print("end...")

训练结果后，效果能够达到97%。

MNIST实战（基于卷积神经网络）

import torch
import torch.nn as nn
from torch import optim
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision import transforms
import torch.nn.functional as F

class CNN_Net(nn.Module):
    def __init__(self):
        super(CNN_Net, self).__init__()
        self.conv1 = nn.Conv2d(1,8,kernel_size=7)
        self.pool1 = nn.MaxPool2d(kernel_size=2)
        self.conv2 = nn.Conv2d(8,32,kernel_size=5)
        self.conv2_drop = nn.Dropout2d()
        self.fc1 = nn.Linear(288,100)
        self.fc2 = nn.Linear(100,10)
    def forward(self,x):
        x = self.pool1(F.relu(self.conv1(x)))
        x = self.pool1(F.relu(self.conv2(x)))
        x = x.view(-1,288)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return F.log_softmax(x,dim=1)
# 定义训练方法
def train_model(model,device,train_loader,optimizer,epoch):
    model.train()
    # pytorch 自带的训练方法
    for batch_index,(data,label) in enumerate(train_loader):
        # 部署到device
        data,label = data.to(device),label.to(device)
        # 梯度初始化为0
        optimizer.zero_grad()
        # 训练后的后果
        output = model(data)
        # 计算损失（针对多分类任务交叉熵 二分类用sigmoid）
        loss = F.cross_entropy(output,label)
        # 找到最大概率的下标
        pred = output.argmax(dim=1)
        # 反向传播Backpropagation 计算梯度
        loss.backward()
        # 参数的优化 更新梯度
        optimizer.step()
        if batch_index % 1000 == 0:
            print("Train Epoch : {} \t Loss : {:.6f}".format(epoch, loss.item()))



def tet_model(model,device,test_loader):
    # 模型验证
    model.eval()
    # 统计正确率
    correct = 0.0
    # 测试损失
    test_loss = 0.0
    with torch.no_grad():   # 不计算梯度 不反向传播
        for data,label in test_loader:
            data,label = data.to(device),label.to(device)
            # 测试数据
            output = model(data)
            # 计算测试损失
            test_loss += F.cross_entropy(output,label).item()
            # 找到概率值最大的下标
            pred = output.argmax(dim=1)
            # 累计正确率
            correct += pred.eq(label.view_as(pred)).sum().item()
        test_loss /= len(test_loader.dataset)
        print("Test —— Average loss : {:.4f}, Accuracy : {:.3f}\n".format(test_loss, 100.0 * correct / len(test_loader.dataset)))

if __name__ == '__main__':
    transforms = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,),(0.3081,))])
    train_data = datasets.MNIST('./data',train=True,download=False,transform=transforms)
    test_data = datasets.MNIST('./data', train=False, download=False, transform=transforms)
    # data_loader = torch.utils.data.DataLoader(mnist_dataset,batch_size=32,shuffle=True,num_workers=10)
    batch_size = 32
    train_loader = DataLoader(train_data,batch_size=batch_size,shuffle=True)
    test_loader = DataLoader(test_data, batch_size=batch_size, shuffle=True)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model = CNN_Net().to(device)
    optimizer = optim.SGD(model.parameters(),lr=0.01,momentum=0.9)
    for epoch in range(1,21):
        train_model(model,device,train_loader,optimizer,epoch)
        tet_model(model,device,test_loader)
    print("end...")

训练后准确率能够达到99%。注意模型是如何定义的以及优化器的选择。

你可能感兴趣的:(python深度学习,深度学习,python,pytorch)

《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
2024年Python最新Python二级考试试题汇总（史上最全）_计算机二级python真题 2301_82243979 程序员 python 开发语言前端
表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留字的选项是：AdelBpassCnotDstring正确答案：D表达式eval(‘500/10’)的结果是：A‘500/10’B500/10C50D50.0正确答案：D表达式type(eval(‘45’))的结果是：ABCNoneD正确答案：D表达式divmod(20,3)的
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
Python点名器代码及打包教程羽落惊鸿TQ python 开发语言
接下来再写一个功能性齐全稍微复杂一点的Python点名器程序，在原简易版的基础上增加历史记录功能、支持多种名单格式（CSV/Excel）、增加点名统计功能，并详细说明了将该程序打包成exe可执行文件的方法，以下是源代码，仅供学习参考：importtkinterastkfromtkinterimportttk, messagebox, filedialogimportrandomimportcsvi
基于python+django的旅游信息网站-旅游景点门票管理系统源码+运行步骤冷琴1996 Python系统设计 python django 旅游
该系统是基于python+django开发的旅游景点门票管理系统。是给师弟做的课程作业。大家学习过程中，遇到问题可以在github咨询作者。学习过程问题可以留言哦演示地址前台地址：http://travel.gitapp.cn后台地址：http://travel.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name