DL_fan

RNN知识+LSTM知识＋encoder-decoder+基于pytorch的crnn网络结构

一．基础知识：

下图是一个循环神经网络实现语言模型的示例，可以看出其是基于当前的输入与过去的输入序列，预测序列的下一个字符．

序列特点就是某一步的输出不仅依赖于这一步的输入，还依赖于其他步的输入或输出．

其中n为批量大小，d为词向量大小

1.RNN:

xt不止与该时刻输入有关还与上一时刻的输出状态有关，而第t层的误差函数跟输出Ot直接相关，而Ot依赖于前面每一层的xi和si，?≤?i≤t，故存在梯度消失或梯度爆炸的问题，对于长时序很难处理．所以可以进行改造让第t层的误差函数只跟该层{si,xi}有关．

RNN代码简单实现：

def one_hot(x, n_class, dtype=torch.float32):
    result = torch.zeros(x.shape[0], n_class, dtype=dtype, device=x.device)  # shape: (n, n_class)
    result.scatter_(1, x.long().view(-1, 1), 1)  # result[i, x[i, 0]] = 1
    return result

def to_onehot(X, n_class):
    return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]

def get_parameters(num_inputs, num_hiddens,num_outputs):
    def init_parameter(shape):
        param = torch.zeros(shape, device=device,dtype=torch.float32)
        nn.init.normal_(param, 0, 0.01)
        return torch.nn.Parameter(param)
    #权重参数
    w_xh = init_parameter((num_inputs, num_hiddens))
    w_hh = init_parameter((num_hiddens, num_hiddens))
    b_h = torch.nn.Parameter(torch.zeros(num_hiddens,device=device))
    #输出层参数
    w_hq = init_parameter((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(num_outputs,device=device))
    return (w_xh, w_hh, b_h, w_hq, b_q)

def rnn(inputs,state,params):
    w_xh, w_hh, b_h, w_hq, b_q = params
    H = state
    outputs = []
    for x in inputs:
        print('===x:', x)        #(batch_size,vocab_size) (vocab_size, num_hiddens)
        H = torch.tanh(torch.matmul(x, w_xh)+torch.matmul(H, w_hh)+b_h)
                                                    # (batch_size,num_hiddens) (num_hiddens, num_hiddens)
        Y = torch.matmul(H, w_hq)+b_q
                        # (batch_size,num_hiddens) (num_hiddens, num_outputs)
        outputs.append(Y)
    return outputs, H

def init_rnn_state(batch_size, num_hiddens,device):
    return torch.zeros((batch_size, num_hiddens),device=device)

def test_one_hot():

    X = torch.arange(10).view(2, 5)
    print('==X:', X)
    inputs = to_onehot(X, 10)
    print(len(inputs))
    print('==inputs:', inputs)
    # print('==inputs:', inputs[-1].shape)

def test_rnn():
    X = torch.arange(5).view(1, 5)
    print('===X:', X)
    num_hiddens = 256
    vocab_size = 10#词典长度

    num_inputs, num_hiddens, num_outputs = vocab_size, num_hiddens, vocab_size

    state = init_rnn_state(X.shape[0], num_hiddens, device)
    inputs = to_onehot(X.to(device), vocab_size)
    print('===len(inputs), inputs', len(inputs), inputs)

    params = get_parameters(num_inputs, num_hiddens, num_outputs)
    outputs, state_new = rnn(inputs, state, params)

    print('==len(outputs), outputs[0].shape:', len(outputs), outputs[0].shape)
    print('==state.shape:', state.shape)
    print('==state_new.shape:', state_new.shape)

if __name__ == '__main__':
    # test_one_hot()
    test_rnn()

2.LSTM:

传统RNN每个模块内只是一个简单的tanh层：

遗忘门:控制上一时间步的记忆细胞;

输入门:控制当前时间步的输入;
输出门:控制从记忆细胞到隐藏状态;
记忆细胞：⼀种特殊的隐藏状态的信息的流动,表示的是长期记忆;

h 是隐藏状态，表示的是短期记忆;

LSTM每个循环的模块内又有4层结构:3个sigmoid层，1个tanh层

细胞状态Ct，类似short cut信息流通畅顺，故可以解决梯度消失或爆炸的问题．

遗忘层，决定信息保留多少

更新层，这里要注意的是用了tanh,值域在－１，１，起到信息加强和减弱的作用．

输出层，上述两层的信息相加流通到这里以后，经过tanh函数得到输出值候选项，而候选项中的哪些部分最终会被输出由一个sigmoid层来决定．这时就得到了输出状态和输出值，下一时刻也是如此．

LSTM简单实现代码:

def one_hot(x, n_class, dtype=torch.float32):
    result = torch.zeros(x.shape[0], n_class, dtype=dtype, device=x.device)  # shape: (n, n_class)
    result.scatter_(1, x.long().view(-1, 1), 1)  # result[i, x[i, 0]] = 1
    return result

def to_onehot(X, n_class):
    return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]

def get_parameters(num_inputs, num_hiddens,num_outputs):
    def init_parameter(shape):
        param = torch.zeros(shape, device=device,dtype=torch.float32)
        nn.init.normal_(param, 0, 0.01)
        return torch.nn.Parameter(param)
    def final_init_parameter():
        return (init_parameter((num_inputs, num_hiddens)),init_parameter((num_hiddens, num_hiddens)),
                torch.nn.Parameter(torch.zeros(num_hiddens,device=device,dtype=torch.float32,requires_grad=True)))


    w_xf, w_hf, b_f = final_init_parameter()#遗忘门参数
    w_xi, w_hi, b_i = final_init_parameter()#输入门参数
    w_xo, w_ho, b_o = final_init_parameter()#输出门参数
    w_xc, w_hc, b_c = final_init_parameter()#记忆门参数

    w_hq = init_parameter((num_hiddens, num_outputs))#输出层参数
    b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device, dtype=torch.float32, requires_grad=True))

    return nn.ParameterList([w_xi, w_hi, b_i, w_xf, w_hf, b_f, w_xo, w_ho, b_o, w_xc, w_hc, b_c, w_hq, b_q])

def init_lstm_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device),
            torch.zeros((batch_size, num_hiddens), device=device))

def lstm(inputs, states, params):
    [w_xi, w_hi, b_i, w_xf, w_hf, b_f, w_xo, w_ho, b_o, w_xc, w_hc, b_c, w_hq, b_q] = params
    [H, C] = states
    outputs = []
    for x in inputs:
        print('===x:',x)
        I = torch.sigmoid(torch.matmul(x, w_xi) + torch.matmul(H, w_hi) + b_i)#输入门数据
        F = torch.sigmoid(torch.matmul(x, w_xf) + torch.matmul(H, w_hf) + b_f)#遗忘门数据
        O = torch.sigmoid(torch.matmul(x, w_xo) + torch.matmul(H, w_ho) + b_o)#输出门数据
        C_tila = torch.tanh(torch.matmul(x, w_xc) + torch.matmul(H, w_hc) + b_c)#C冒数据
        C = F*C + I*C_tila
        H = torch.tanh(C)*O
        # print('H.shape', H.shape)
        # print('w_hq.shape', w_hq.shape)
        # print('b_q.shape:', b_q.shape)
        Y = torch.matmul(H, w_hq)+b_q

        outputs.append(Y)
    return outputs, (H,C)

def test_lstm():
    batch_size = 1
    X = torch.arange(5).view(batch_size, 5)
    print('===X:', X)

    num_hiddens = 256
    vocab_size = 10  # 词典长度

    inputs = to_onehot(X.to(device), vocab_size)
    print('===len(inputs), inputs', len(inputs), inputs)

    num_inputs, num_hiddens, num_outputs = vocab_size, num_hiddens, vocab_size
    states = init_lstm_state(batch_size, num_hiddens, device='cpu')
    params = get_parameters(num_inputs, num_hiddens, num_outputs)
    outputs, new_states = lstm(inputs, states, params)
    H, C = new_states
    print('===H.shape', H.shape)
    print('===C.shape', C.shape)
    print('===len(outputs), outputs[0].shape:', len(outputs), outputs[0].shape)
if __name__ == '__main__':
    # test_one_hot()
    # test_rnn()
    test_lstm()

3.Seq2seq模型在于，encoder层，由双层lstm实现隐藏状态编码信息，decoder层由双层lstm将encode层隐藏状态编码信息解码出来，这样也造成了decoder依赖最终时间步的隐藏状态，且RNN机制实际中存在长程梯度消失的问题，对于较长的句子，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降，也就引入后面的attention。与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。例如，当把“Hello world”翻译成“Bonjour le monde”时，“Hello”映射成“Bonjour”，“world”映射成“monde”。 # 在seq2seq模型中，解码器只能隐式地从编码器的最终状态中选择相应的信息。然而，注意力机制可以将这种选择过程显式地建模。

Seq2seq代码案例，batch为4，单词长度为7，每个单词对应的embedding向量为8，lstm为两层

import torch.nn as nn
import d2l
import torch
import math

#由于依赖最终时间步的隐藏状态，RNN机制实际中存在长程梯度消失的问题，对于较长的句子，
# 我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息，
# 所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。
#与此同时，解码的目标词语可能只与原输入的部分词语有关，而并不是与所有的输入有关。
# 例如，当把“Hello world”翻译成“Bonjour le monde”时，“Hello”映射成“Bonjour”，“world”映射成“monde”。
# 在seq2seq模型中，
# 解码器只能隐式地从编码器的最终状态中选择相应的信息。然而，注意力机制可以将这种选择过程显式地建模。

#双层lstm实现隐藏层编码信息encode
class Seq2SeqEncoder(d2l.Encoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqEncoder, self).__init__(**kwargs)
        self.num_hiddens = num_hiddens
        self.num_layers = num_layers
        self.embedding = nn.Embedding(vocab_size, embed_size)#每个字符编码成一个向量
        self.rnn = nn.LSTM(embed_size, num_hiddens, num_layers, dropout=dropout, batch_first=False)

    def begin_state(self, batch_size, device):#(H, C)
        return [torch.zeros(size=(self.num_layers, batch_size, self.num_hiddens), device=device),
                torch.zeros(size=(self.num_layers, batch_size, self.num_hiddens), device=device)]

    def forward(self, X, *args):
        X = self.embedding(X)  # X shape: (batch_size, seq_len, embed_size)
        print('===encode X.shape', X.shape)
        X = X.transpose(0, 1)  # (seq_len, batch_size, embed_size)
        print('===encode X.shape', X.shape)
        state = self.begin_state(X.shape[1], device=X.device)
        out, state = self.rnn(X,state)
        print('===encode out.shape:', out.shape)#(seq_len, batch_size, num_hiddens)
        H, C = state
        print('===encode H.shape:', H.shape)#(num_layers, batch_size, num_hiddens)
        print('===encode C.shape:', C.shape)#(num_layers, batch_size, num_hiddens)

        return out, state

#双层lstm将encode层隐藏层信息解码出来
class Seq2SeqDecoder(d2l.Decoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqDecoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.LSTM(embed_size, num_hiddens, num_layers, dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, *args):
        return enc_outputs[1]

    def forward(self, X, state):
        X = self.embedding(X).transpose(0, 1)
        print('==decode X.shape', X.shape)# (seq_len, batch_size, embed_size)
        out, state = self.rnn(X, state)
        print('==decode out.shape:', out.shape)# (seq_len, batch_size, num_hiddens)
        H, C = state
        print('==decode H.shape:', H.shape)  # (num_layers, batch_size, num_hiddens)
        print('==decode C.shape:', C.shape)  # (num_layers, batch_size, num_hiddens)
        # Make the batch to be the first dimension to simplify loss computation.
        out = self.dense(out).transpose(0, 1)# (batch_size, seq_len, vocab_size)
        print('==decode final out.shape', out.shape)
        return out, state


def SequenceMask(X, X_len,value=0):
    print(X)
    print(X_len)
    print(X_len.device)

    maxlen = X.size(1)
    print('==torch.arange(maxlen)[None, :]:', torch.arange(maxlen)[None, :])
    print('==X_len[:, None]:', X_len[:, None])
    mask = torch.arange(maxlen)[None, :] < X_len[:, None]
    print(mask)
    X[~mask] = value
    print('X:', X)
    return X


def masked_softmax(X, valid_length):
    # X: 3-D tensor, valid_length: 1-D or 2-D tensor
    softmax = nn.Softmax(dim=-1)
    if valid_length is None:
        return softmax(X)
    else:
        shape = X.shape
        if valid_length.dim() == 1:
            try:
                valid_length = torch.FloatTensor(valid_length.numpy().repeat(shape[1], axis=0))  # [2,2,3,3]
            except:
                valid_length = torch.FloatTensor(valid_length.cpu().numpy().repeat(shape[1], axis=0))  # [2,2,3,3]
        else:
            valid_length = valid_length.reshape((-1,))
        # fill masked elements with a large negative, whose exp is 0
        X = SequenceMask(X.reshape((-1, shape[-1])), valid_length)

        return softmax(X).reshape(shape)
class MLPAttention(nn.Module):
    def __init__(self, ipt_dim, units, dropout, **kwargs):
        super(MLPAttention, self).__init__(**kwargs)
        # Use flatten=True to keep query's and key's 3-D shapes.
        self.W_k = nn.Linear(ipt_dim, units, bias=False)
        self.W_q = nn.Linear(ipt_dim, units, bias=False)
        self.v = nn.Linear(units, 1, bias=False)
        self.dropout = nn.Dropout(dropout)

    def forward(self, query, key, value, valid_length):
        query, key = self.W_k(query), self.W_q(key)
        print("==query.size, key.size::", query.size(), key.size())
        # expand query to (batch_size, #querys, 1, units), and key to
        # (batch_size, 1, #kv_pairs, units). Then plus them with broadcast.
        print('query.unsqueeze(2).shape', query.unsqueeze(2).shape)
        print('key.unsqueeze(1).shape', key.unsqueeze(1).shape)
        features = query.unsqueeze(2) + key.unsqueeze(1)
        #print("features:",features.size())  #--------------开启
        scores = self.v(features).squeeze(-1)
        print('===scores:', scores.shape)
        attention_weights = self.dropout(masked_softmax(scores, valid_length))
        return torch.bmm(attention_weights, value)

def test_encoder():
    encoder = Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
    X = torch.zeros((4, 7), dtype=torch.long)  # (batch_size, seq_len)
    output, state = encoder(X)

def test_decoder():
    X = torch.zeros((4, 7), dtype=torch.long)  # (batch_size, seq_len)
    encoder = Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
    decoder = Seq2SeqDecoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
    state = decoder.init_state(encoder(X))
    out, state = decoder(X, state)

def test_loss():
    X = torch.FloatTensor([[1, 2, 3], [4, 5, 6]])
    SequenceMask(X, torch.FloatTensor([2, 3]))


def test_dot():
    keys = torch.ones((2, 10, 2), dtype=torch.float)
    values = torch.arange((40), dtype=torch.float).view(1, 10, 4).repeat(2, 1, 1)
    print('==values.shape:', values.shape)
    # print(values)

    atten = MLPAttention(ipt_dim=2, units=8, dropout=0)
    atten(torch.ones((2, 1, 2), dtype=torch.float), keys, values, torch.FloatTensor([2, 6]))

if __name__ == '__main__':
    test_encoder()
    # test_decoder()

encode输出：

decode输出：

二．基于pytorch的crnn网络结构

地址：https://github.com/zonghaofan/crnn_pytorch

首先卷积提取特征以后再用两层双向lstm提取时序特征

import torch.nn as nn
import torch.nn.functional as F
import torch

class BiLSTM(nn.Module):
    def __init__(self,nIn,nHidden,nOut):
        super(BiLSTM,self).__init__()
        self.lstm=nn.LSTM(input_size=nIn,hidden_size=nHidden,bidirectional=True)
        self.embdding=nn.Linear(nHidden*2,nOut)
                     #Sequence batch channels (W,b,c)
    def forward(self, input):
        recurrent,_=self.lstm(input)
        S,b,h=recurrent.size()
        S_line = recurrent.view(S*b,h)
        output=self.embdding(S_line)#[S*b,nout]
        output=output.view(S,b,-1)
        return output


class CRNN(nn.Module):
    def __init__(self,imgH,imgC,nclass,nhidden):
        assert imgH==32
        super(CRNN,self).__init__()
        cnn = nn.Sequential()
        cnn.add_module('conv{}'.format(0), nn.Conv2d(imgC, 64, 3, 1, 1))
        cnn.add_module('relu{}'.format(0), nn.ReLU(True))
        cnn.add_module('pooling{}'.format(0),nn.MaxPool2d(2,2))

        cnn.add_module('conv{}'.format(1), nn.Conv2d(64, 128, 3, 1, 1))
        cnn.add_module('relu{}'.format(1), nn.ReLU(True))
        cnn.add_module('pooling{}'.format(1), nn.MaxPool2d(2, 2))

        cnn.add_module('conv{}'.format(2), nn.Conv2d(128, 256, 3, 1, 1))
        cnn.add_module('relu{}'.format(2), nn.ReLU(True))
        cnn.add_module('conv{}'.format(3), nn.Conv2d(256, 256, 3, 1, 1))
        cnn.add_module('relu{}'.format(3), nn.ReLU(True))
        cnn.add_module('pooling{}'.format(3), nn.MaxPool2d((1,2), 2))

        cnn.add_module('conv{}'.format(4), nn.Conv2d(256, 512, 3, 1, 1))
        cnn.add_module('relu{}'.format(4), nn.ReLU(True))
        cnn.add_module('BN{}'.format(4), nn.BatchNorm2d(512))
        cnn.add_module('conv{}'.format(5), nn.Conv2d(512, 512, 3, 1, 1))
        cnn.add_module('relu{}'.format(5), nn.ReLU(True))
        cnn.add_module('BN{}'.format(5), nn.BatchNorm2d(512))
        cnn.add_module('pooling{}'.format(5), nn.MaxPool2d((1, 2), 2))

        cnn.add_module('conv{}'.format(6), nn.Conv2d(512, 512, 2, 1, 0))
        cnn.add_module('relu{}'.format(6), nn.ReLU(True))
        self.cnn=cnn

        self.rnn=nn.Sequential(
            BiLSTM(512,nhidden,nhidden),
            BiLSTM(nhidden, nhidden, nclass)
        )


    def forward(self,input):
        conv = self.cnn(input)
        print('conv.size():',conv.size())
        b,c,h,w=conv.size()
        assert h==1
        conv=conv.squeeze(2)#b ,c w
        conv=conv.permute(2,0,1) #w,b,c
        rnn_out=self.rnn(conv)
        print('rnn_out.size():',rnn_out.size())
        out=F.log_softmax(rnn_out,dim=2)
        print('out.size():',out.size())
        return out
def lstm_test():
    print('===================LSTM===========================')
    model = BiLSTM(512, 256, 5600)
    print(model)
    x = torch.rand((41, 32, 512))
    print('input:', x.size())
    out = model(x)
    print(out.size())
def crnn_test():
    print('===================CRNN===========================')
    model = CRNN(32, 1, 3600, 256)
    print(model)
    x = torch.rand((32, 1, 32, 200))  # b c h w
    print('input:', x.size())
    out = model(x)
    print(out.size())
if __name__ == '__main__':
    lstm_test()
    crnn_test()

lstm输出：

#crnn输出

最后两层pooling设置为h=1,w=2的矩形，是因为文本大多数是高小而宽长，这样就可以不丢失宽度信息，利于区分i和L.

如果数字过小，那就可以让横向长度不变，pool可以换成如下，这样横向长度基本不变，纵向减少两倍。

pool2 = nn.MaxPool2d((2, 2), (2, 1), (0, 1))

x=torch.rand((32,1,32,100))
print('=========input========')
print(x.shape)
print('=========output========')
pool = nn.MaxPool2d(kernel_size=(2,2),stride=(2,2))
y = pool(x)
print(y.shape)
#                   (h-2)/2+1          (w-1)/1+1
pool = nn.MaxPool2d(kernel_size=(2,1),stride=(2,1))
y = pool(x)
print(y.shape)

#                   (h-2)+2*p/2+1          (w-2)+2*p/1+1
pool = nn.MaxPool2d(kernel_size=(2,2),stride=(2,1),padding=(1,0))
y = pool(x)
print(y.shape)

参考：https://www.cnblogs.com/zhangchaoyang/articles/6684906.html

rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用原野AI 大模型部署 pdf ocr 深度学习 open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库，基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。缘起：百度paddle工程化不是太好，为了方便大家在各种端上进行ocr推理，我们将它转换为onnx格式，使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源：轻快好省并智能。基于深度学
RapidOCRPDF 项目教程侯深业Dorian
RapidOCRPDF项目教程RapidOCRPDFBasedonRapidOCR,extractthePDFcontent.项目地址:https://gitcode.com/gh_mirrors/ra/RapidOCRPDF1.项目介绍RapidOCRPDF是一个基于RapidOCR的开源项目，旨在快速提取PDF文件中的文字内容。该项目支持多种类型的PDF，包括扫描版PDF、加密版PDF以及可直
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
仅仅使用pytorch来手撕transformer架构(3)：编码器模块和编码器类的实现和向前传播 KangkangLoveNLP 手撕系列 #transformer pytorch transformer 人工智能深度学习架构机器学习 python
仅仅使用pytorch来手撕transformer架构(2)：编码器模块和编码器类的实现和向前传播往期文章：仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播#Transformer编码器模块
模型可解释性：基于博弈论的SHAP值计算与特征贡献度分析（附PyTorch/TensorFlow实现）燃灯工作室 Ai pytorch tensorflow 人工智能
一、技术原理与数学推导（含典型案例）1.1Shapley值基础公式SHAP值基于合作博弈论中的Shapley值，计算公式为：ϕi=∑S⊆F∖{i}∣S∣!(∣F∣−∣S∣−1)!∣F∣![f(S∪{i})−f(S)]\phi_i=\sum_{S\subseteqF\setminus\{i\}}\frac{|S|!(|F|-|S|-1)!}{|F|!}[f(S\cup\{i\})-f(S)]ϕi=S
pytorch训练权重转化为tensorflow模型的教训小枫小疯深度学习部署模型转移 pytorch tensorflow 人工智能
模型构建时候有时候在工程量比较大的时候，不可避免使用迭代算法，迭代算法本身会让错误的追踪更加困难，因此掌握基本的框架之间的差异非常重要。以下均是在模型转换过程中出现的错误。shuffleoperation(shuffle操作)这个操作原本是用来将各个通道之间的信息进行打乱后，此时面临重要的问题就是，如果将通道打乱，在pytorch里面与tensorflow中间，两种通道排序是不一样的，是采用不同的
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
【DuodooTEKr】基于Python+OCR+DeepSeek的英国购物小票识别系统开发实战邹工拆解甲方需求风吟九宵 Odoo18开源 Duodoo开源人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月11日本方案从甲方信息化负责人视角，分析梳理现状，并给出代码开发案例。一、行业现状与痛点分析1.英国零售业数字化现状根据英国零售协会（BRC）2023年度报告显示：英国年均纸质小票签发量达78亿张87%的企业仍采用人工录入方式处理小票数据零售业每年因小票管理产生的直接成本超12亿英镑2.传统小票管理痛点数据孤岛问题：门店POS系统、财务系
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
PyTorch 中的维度操作详解萝卜小白 pytorch 人工智能 python
在PyTorch中，维度（dimension）是描述张量形状的一种方式。维度操作是PyTorch中非常重要的功能，常用于调整张量的形状以适配各种计算需求。以下是常见的维度操作及其示例。1.维度的概念回顾一个二维张量（矩阵）的形状是(行数,列数)。一个三维张量的形状是(深度,行数,列数)。维度的索引从0开始，最外层是axis=0，向内依次递增。2.维度的操作(1)求和（Sum）sum(dim)的作用
torch.logical_and()方法 CodeWang_NC pytorch 深度学习 python
torch.logical_and()计算给定输入张量的元素逻辑AND。零被视为False，非零被视为True官方文档说明:https://pytorch.org/docs/stable/generated/torch.logical_and.html#torch.logical_andtorch.logical_and(input，other，*，out=None）→返回张量input（张量）–
[Pytorch] Error:module ‘torch‘ has no attribute ‘logical_and‘ 江南蜡笔小新杂记 pytorch 深度学习神经网络
最近学习的模型用到了这个逻辑与的操作，Pytorch1.3.x报错。查阅官方文档，只有logical_not和logical_xor的实现。但在1.9的文档中有logical_and遂查阅相关更新，得知logical_and在1.5之后的新功能，pytorch更新到>=1.5即可解决问题。1.3.1搜索结果1.5.1搜索结果
Orin NX 安装Jetpack 6.2 及部署pytorch tips MYVision_ MY视界 Python pytorch 人工智能 python
刷机tips:刷完系统之后，如果需要安装其它软件，这个时候不需要跳线，然后输入真实的IP，确保你的x86ubuntu能ping通OrinNX.其它安装环境时遇到的问题如下：1.GPUenable=False-installtorch-2.3.0-cp310-cp310-linux_aarch64.whl2.ImportError:/home/platform/miniconda3/envs/cel
一文讲清楚CUDA与PyTorch、GPU之间的关系平凡而伟大. 编程语言人工智能架构设计 pytorch 人工智能 python
CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA开发的一个并行计算平台和编程模型。它允许软件开发人员和研究人员利用NVIDIA的GPU（图形处理单元）进行高性能计算。CUDA提供了一系列API和工具，使得开发者能够编写和优化在GPU上运行的计算密集型任务。CUDA与PyTorch、GPU之间的关系可以这样理解：1.CUDA与GPU：GPU：是一种专门用于
ROS2基础——Linux A_lvvx ROS2 linux ROS2
Ctrl+Alt+T:打开一个新终端1.查看终端目录命令$pwd#查看终端当前目录---/home/lvvx2.切换终端目录到根目录$cd/#从当前进入根目录$pwd---/3.查看当前目录下文件$ls#查看当前目录下文件---bindevhomeliblib64lost+foundmntprocrunsnapsysusrbootectinitlib32libx32mediaoptrootsbin
【Transformer-Hugging Face手册 07/10】微调预训练模型无水先生人工智能高级阶段人工智能综合 transformer 深度学习人工智能
微调预训练模型-目录一、说明二、在本机PyTorch中微调预训练模型。2.1加载数据2.2训练2.2.1使用PyTorchTrainer进行训练2.3训练超参数2.4评价2.5训练类三、使用Keras训练TensorFlow模型3.1为Keras加载数据3.2将数据加载为tf.data.Dataset3.3数据加载器3.4优化器和学习率调度器3.5训练循环3.6评价四、结论一、说明使用预训练模
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
【python error】cannot import name ‘TorchDispatchMode‘ from ‘torch.utils._python_dispatch‘ Eternal-Student Jetson Orin NX Python python 开发语言
报错：cannotimportname‘TorchDispatchMode’from‘torch.utils._python_dispatch’(/home/nvidia/.conda/envs/pytorch/lib/python3.8/site-packages/torch/utils/_python_dispatch.py)File“/media/nvidia/Ubuntu/xxxxx/ev
文献阅读 | PNAS | 经验和发育中的前额叶皮层程序员
:::block-1文献介绍文献题目：经验和发育中的前额叶皮层\研究团队：BryanKolb（加拿大莱斯布里奇大学）\发表时间：2012-10-08\发表期刊：PNAS\影响因子：9.4\DOI：10.1073/pnas.1121251109:::摘要前额叶皮层（PFC）接收来自所有其他皮层区域的输入，并负责规划和指导跨时间的运动、认知、情感和社会行为。它具有较长的发育过程，这使得它能够通过经验获
RV1126笔记三十七：PaddleOCR检测模型训练殷忆枫 RV1126项目实战笔记
若该文为原创文章，转载请注明原文出处。PaddleOCR检测模型训练及验证测试1、准备数据集在PaddleOCR目录下新建文件夹：train_data,这个文件夹用于存放数据集的。使用的是网上大佬提供的车牌识别数据集，下载后，解压到train_data目录下。可以自己网上找，了可以找我要数据集，或自己标注数据集。2、配置文件在PaddleOCR主目录下：configs/det/ch_ppocr_v
安装cpu版本的paddleocr NO1212 python
1.CPU版的PaddlePaddlepython-mpipinstallpaddlepaddle==2.6.1-ihttps://mirror.baidu.com/pypi/simple2、验证安装安装完成后您可以使用python进入python解释器，输入importpaddle，再输入paddle.utils.run_check()如果出现PaddlePaddleisinstalledsuc
梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
【PyTorch】torch.nn.functional.log_softmax() 函数：计算 log(softmax)，用于多分类任务彬彬侠 PyTorch基础 log_softmax 多分类交叉熵损失分类 pytorch python 深度学习
torch.nn.functional.log_softmaxtorch.nn.functional.log_softmax是PyTorch提供的用于计算log(softmax)的函数，通常用于多分类任务和计算交叉熵损失，可以提高数值稳定性并防止数值溢出。1.log_softmax的数学公式对于输入张量XXX，softmax计算如下：softmax(Xi)=eXi∑jeXj\text{softma
【PyTorch】torch.nn.functional.cross_entropy() 函数：分类任务的交叉熵损失函数彬彬侠 PyTorch基础 cross_entropy 交叉熵损失函数分类 pytorch python 深度学习
torch.nn.functional.cross_entropytorch.nn.functional.cross_entropy是PyTorch中用于分类任务的交叉熵损失函数，用于衡量预测概率分布与真实类别分布之间的差异，常用于多分类任务（multi-classclassification）。1.交叉熵损失的数学公式对于单个样本，交叉熵损失的计算公式为：L=−∑i=1Cyilog⁡(yi^)\
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

RNN知识+LSTM知识＋encoder-decoder+基于pytorch的crnn网络结构

一．基础知识：

二．基于pytorch的crnn网络结构

你可能感兴趣的:(pytorch,OCR,文献阅读)