RUOLAN_TJ

深度学习d2：文本预处理、语言模型、循环神经网络基础

文本预处理

步骤

读入文本
代码：

import collections
import re
def read_time_machine():
#打开文本文件，创建文本对象f
with open('/Users/wuruolan/Downloads/35-0.txt', 'r') as f: 
 #每次处理文件的一行，strip函数去掉前缀、后缀的空格字符，lower函数把所有大写字母变成小写
#re.sub为正则表达式的替换函数，由a-z构成的至少为1的字符串，+代表是闭包
    lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]
return lines

分词

#setences是个列表，列表元素是字符串
#token是标志，标志要做哪个级别的分词
def tokenize(sentences, token='word'):
"""Split sentences into word or char tokens"""
if token == 'word': #用空格做分隔符
    return [sentence.split(' ') for sentence in sentences]
elif token == 'char': #直接把字符串转换为列表即可
    return [list(sentence) for sentence in sentences]
else:
    print('ERROR: unkown token type '+token)

建立字典，将每个词映射到一个唯一的索引（index）

class Vocab(object): #把词映射到索引编号
def __init__(self, tokens, min_freq=0, use_special_tokens=False):
    #先去重，再筛掉一些词，接着还有可能增加一些特殊的标记
    counter = count_corpus(tokens)  #counter是个字典， <词,词频>
    self.token_freqs = list(counter.items()) #将counter变成列表。
    self.idx_to_token = [] #记录最终需要维护的token
    if use_special_tokens:
        # padding, begin of sentence, end of sentence, unknown
        self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
        self.idx_to_token += ['', '', '', '']
        #上述token分别表示padding，begin of sentence，end of sentence，unkown
        #pad的用处：同一个batch的句子，长度不一定是一样的，这些句子中短的就要补充到长的那么长
        #bos、eos的用处：标记一个句子的开始和结束
        #unk：有些词是不在语料库中的
    else:
        self.unk = 0
        self.idx_to_token += ['unk']
    self.idx_to_token += [token for token, freq in self.token_freqs
                    if freq >= min_freq and token not in self.idx_to_token]
    #词频大于设置的最小值，且不再语料库中（pad、bos、eos、unk）
    #idx_to_token就天然是从下标->词语的映射
    #下面建立词语->下标的映射
    self.token_to_idx = dict()
    for idx, token in enumerate(self.idx_to_token):
        self.token_to_idx[token] = idx
#返回长度
def __len__(self):
    return len(self.idx_to_token)
#返回词语对应的序号
def __getitem__(self, tokens):
    if not isinstance(tokens, (list, tuple)):
        return self.token_to_idx.get(tokens, self.unk)
    return [self.__getitem__(token) for token in tokens]
#返回序号对应的词语
def to_tokens(self, indices):
    if not isinstance(indices, (list, tuple)):
        return self.idx_to_token[indices]
    return [self.idx_to_token[index] for index in indices]
#把二维列表sentence变成一维的token 
def count_corpus(sentences):
	tokens = [tk for st in sentences for tk in st] 
	return collections.Counter(tokens)  # 返回一个字典，记录每个词的出现次数

将文本从词的序列转换为索引的序列，方便输入模型

for i in range(8, 10): #输出第八行~第九行的单词及其对应的序列
    print('words:', tokens[i])
    print('indices:', vocab[tokens[i]])

存在缺点及改进

标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了
类似“shouldn’t", "doesn’t"这样的词会被错误地处理
类似"Mr.", "Dr."这样的词会被错误地处理

spaCy

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])

NLTK:

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
print(word_tokenize(text))

语言模型

语言模型简单来说，就是给定一段序列，判断这段序列是否合理（概率是多少）。
即给定一个长度为 的词的序列 1,2,…, ，语言模型将计算该序列的概率：
(1,2,…,)，其中为时间步t的输出或标签。
在语音识别中，可通过前面的语义预测后面的单词是什么。

计算

(1,2,…,)=∏ (∣1,…,−1) (∈[1, ])
(1∣2)= (1,2) / (2)
n元语法

n元语法通过n阶马尔可夫假设简化了语言模型的计算。即一个词的出现只与前面个词相关。如果基于 −1 阶马尔可夫链，则可将n元语法语言模型改写成：
(1,2,…,)≈∏(∣−(−1),…,−1) (∈[1, ])
如3元语法为：
(1,2,3,4)=(1)(2∣1)(3∣1,2)(4∣2,3)
缺点：
- 参数空间过大（所需空间与n是指数关系）
- 数据稀疏（齐夫定律，算出来大部分词的词频都是0）

实例

  预处理语言模型数据集，并将其转换成字符级循环神经网络所需的输入格式。

1. 读取字符集
2. 建立字符索引
3. 时序数据的采样

样本中需包含连续的字符，标签就是这些连续字符下一个连续字符可能是什么。（n个 --> n个，如1234->2345），故序列长度为T，时间步数为n，则共用T-n个样本，但样本太多了，要用下面两种方法进行采样。
连续采样
在随机采样中，每个样本是原始序列上任意截取的一段序列。相邻的两个随机小批量在原始序列上的位置不一定相毗邻。因此，我们无法用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。在训练模型时，每次随机采样前都需要重新初始化隐藏状态。
代码：

# 本函数已保存在d2lzh包中方便以后使用
#batch_size为批量大小，即行数；num_steps为时间步长，即列数
def data_iter_random(corpus_indices, batch_size, num_steps, ctx=None):
# 减1是因为输出的索引是相应输入的索引加1
num_examples = (len(corpus_indices) - 1) // num_steps #可以有多少个样本个数
epoch_size = num_examples // batch_size #总共要有多少个周期，总的样本数÷一批要的样本数
example_indices = list(range(num_examples)) #每个样本的第一个字符在整体 序列中的下标
random.shuffle(example_indices)  #随机采样

# 返回从pos开始的长为num_steps的序列
def _data(pos):
    return corpus_indices[pos: pos + num_steps]

for i in range(epoch_size):
    # 每次读取batch_size个随机样本
    i = i * batch_size
    batch_indices = example_indices[i: i + batch_size] #当前batch，各个样本首字符的下标
    X = [_data(j * num_steps) for j in batch_indices]  #样本
    Y = [_data(j * num_steps + 1) for j in batch_indices] #样本对应的标签
    yield nd.array(X, ctx), nd.array(Y, ctx)

相邻采样
令相邻的两个随机小批量在原始序列上的位置相毗邻。故只需在每一个迭代周期开始时初始化隐藏状态。但模型参数的梯度计算将依赖所有串联起来的小批量序列，从而在同一迭代周期中，随着迭代次数的增加，梯度的计算开销会越来越大。
代码：

 # 本函数已保存在d2lzh包中方便以后使用
def data_iter_consecutive(corpus_indices, batch_size, num_steps, ctx=None):
corpus_indices = nd.array(corpus_indices, ctx=ctx)
data_len = len(corpus_indices) 
batch_len = data_len // batch_size #每个批量的长度
 #把序号reshape成一个二维矩阵，第一个维度（行）是批量大小，第二个维度（列）是批量长度
 #该矩阵的每一列，就是一个batch
indices = corpus_indices[0: batch_size*batch_len].reshape((
    batch_size, batch_len))
#循环周期 = 批量长度 / 步长 ，即每个批量中有多少个样本
# batch_len -1 的原因是，他不能包含最后一个字符
epoch_size = (batch_len - 1) // num_steps
for i in range  (epoch_size):
    i = i * num_steps #当前批量首个字符对应的下标
    X = indices[:, i: i + num_steps] #样本（取的都是列）
    Y = indices[:, i + 1: i + num_steps + 1] #标签 （取的都是列）
    yield X, Y

循环神经网络基础

并非刚性记忆所有固定长度的序列，而是通过隐藏状态来存储之前时间步的信息。利用多层感知机添加隐藏状态来将它变成循环神经网络。

不含隐藏状态的神经网络

即之前含但隐藏层的多层感知机。
=(ℎ+ℎ)，=ℎ+
含隐藏状态的循环神经网络
- 考虑输入数据存在时间相关性。则有：
  =(ℎ+−1ℎℎ+ℎ)
  ∈ℝ× 是序列中时间步的小批量输入
  ∈ℝ×ℎ是该时间步的隐藏变量，故-1是上一时间步的隐藏变量，隐藏变量也称隐藏状态。
  ℎℎ∈ℝℎ×ℎ用来描述在当前时间步如何使用上一时间步的隐藏变量
  ℎ∈ℝ×ℎ是隐藏层的权重
  循环神经网络模型参数的数量不随时间步的增加而增长。
  上述计算是循环的，即计算出前一项才能得到后一项，故叫循环神经网络。
- 输出层的输出为：（即预测的结果）
  =ℎ+
- 如下图，Ht+1依赖于Ht ，Ht依赖于Ht-1，故t+1相当于依赖于前面所有字符。
  
  隐藏状态中 ℎ+−1ℎℎ 计算等价于与 −1 连结后的矩阵乘以 ℎ 与 ℎℎ 连结后的矩阵
应用：基于字符级循环神经网络的语言模型
从零开始实现

one-hot向量
词 -> 向量，为了获得神经网络的输入。
若共有N个字符，那么索引为 i 的字符对应的向量就是：
[ 0, 0, … , 1 , … , 0 ] （即除了第 i 个为1之外，其他都是0

初始化模型参数

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
ctx = d2l.try_gpu()
print('will use', ctx)

def get_params():
def _one(shape): #给定一个shape，会返回一个随机初始化好的形状为shape的参数
    return nd.random.normal(scale=0.01, shape=shape, ctx=ctx)

# 隐藏层参数
W_xh = _one((num_inputs, num_hiddens))
W_hh = _one((num_hiddens, num_hiddens))
b_h = nd.zeros(num_hiddens, ctx=ctx) #初始化为0 
# 输出层参数
W_hq = _one((num_hiddens, num_outputs))
b_q = nd.zeros(num_outputs, ctx=ctx) #初始化为0  
# 附上梯度
params = [W_xh, W_hh, b_h, W_hq, b_q]
for param in params:
    param.attach_grad()
return params

定义模型

def rnn(inputs, state, params):
# inputs和outputs皆为num_steps个形状为(batch_size, vocab_size)的矩阵
W_xh, W_hh, b_h, W_hq, b_q = params #模型的参数
H, = state # 状态的初始值 ，包含了隐藏状态等。 
outputs = []  #维护输出
for X in inputs:
    #各个时间步的隐藏状态
    H = nd.tanh(nd.dot(X, W_xh) + nd.dot(H, W_hh) + b_h) 
    #输出
    Y = nd.dot(H, W_hq) + b_q
    outputs.append(Y)
return outputs, (H,) #返回状态，方便后面训练

定义预测函数

#给定前缀prefix，去预测下num_chars个字符
def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state,
            num_hiddens, vocab_size, ctx, idx_to_char, char_to_idx):
#构造并初始化状态
state = init_rnn_state(1, num_hiddens, ctx) 
#output记录prefix和预测的num_chars个字符 
output = [char_to_idx[prefix[0]]]
for t in range(num_chars + len(prefix) - 1):
    # 将上一时间步的输出作为当前时间步的输入
    X = to_onehot(nd.array([output[-1]], ctx=ctx), vocab_size)
    # 计算输出和更新隐藏状态
    (Y, state) = rnn(X, state, params)
    # 下一个时间步的输入是prefix里的字符或者当前的最佳预测字符
    if t < len(prefix) - 1:
        output.append(char_to_idx[prefix[t + 1]])
    else:
        output.append(int(Y[0].argmax(axis=1).asscalar()))
return ''.join([idx_to_char[i] for i in output]) #把字符索引都转换成字符

裁剪梯度
梯度是一个幂的形式，指数就是时间步数。
假设我们把所有模型参数梯度的元素拼接成一个向量，并设裁剪的阈值是。裁剪后的梯度 min( / ‖‖,1)，其2范数不超过。

# 本函数已保存在d2lzh包中方便以后使用
def grad_clipping(params, theta, ctx): #theta是预设的阈值
norm = nd.array([0], ctx) #g的L2范数，即所有梯度的平方和
for param in params: 
    norm += (param.grad ** 2).sum() 
norm = norm.sqrt().asscalar() #梯度开根号 
if norm > theta: #即 theta / norm < 1  
    for param in params:
        param.grad[:] *= theta / norm #

困惑度
用以评价语言模型的好坏。
指对交叉熵损失函数做指数运算后得到的值。特别的情况（如概率为1、0、相等），相当于取倒数了。
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；

定义模型训练函数

# 本函数已保存在d2lzh包中方便以后使用
def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                      vocab_size, ctx, corpus_indices, idx_to_char,
                      char_to_idx, is_random_iter, num_epochs, num_steps,
                      lr, clipping_theta, batch_size, pred_period,
                      pred_len, prefixes):
#判断数据采样方法
if is_random_iter: 
    data_iter_fn = d2l.data_iter_random
else:
    data_iter_fn = d2l.data_iter_consecutive
    
params = get_params()
loss = gloss.SoftmaxCrossEntropyLoss() #交叉熵损失函数

for epoch in range(num_epochs):
    if not is_random_iter:  # 如使用相邻采样，在epoch开始时初始化隐藏状态
        state = init_rnn_state(batch_size, num_hiddens, ctx)
    l_sum, n, start = 0.0, 0, time.time() #用于输出训练过程中信息的变量
    #data_iter是个生成器
    data_iter = data_iter_fn(corpus_indices, batch_size, num_steps, ctx)
    for X, Y in data_iter:
        if is_random_iter:  # 如使用随机采样，在每个小批量更新前初始化隐藏状态
            state = init_rnn_state(batch_size, num_hiddens, ctx)
        else:  # 否则需要使用detach函数从计算图分离隐藏状态
            for s in state:
                s.detach() #分离 
        with autograd.record(): #梯度记录
            #input是num_steps个形状为(Batch_size,vocab_size)的矩阵
            inputs = to_onehot(X, vocab_size)
            # outputs有num_steps个形状为(batch_size, vocab_size)的矩阵
            (outputs, state) = rnn(inputs, state, params)
            # 拼接之后形状为(num_steps * batch_size, vocab_size)
            outputs = nd.concat(*outputs, dim=0)
            # Y的形状是(batch_size, num_steps)，转置后再变成长度为
            # batch * num_steps 的向量，这样跟输出的行一一对应
            y = Y.T.reshape((-1,))
            # 使用交叉熵损失计算平均分类误差， y是标签
            l = loss(outputs, y).mean()
        l.backward() #梯度计算
        grad_clipping(params, clipping_theta, ctx)  # 裁剪梯度
        d2l.sgd(params, lr, 1)  # 因为误差已经取过均值，梯度不用再做平均
        l_sum += l.asscalar() * y.size
        n += y.size

    if (epoch + 1) % pred_period == 0:
        print('epoch %d, perplexity %f, time %.2f sec' % (
            epoch + 1, math.exp(l_sum / n), time.time() - start))
        for prefix in prefixes:
            print(' -', predict_rnn(
                prefix, pred_len, rnn, params, init_rnn_state,
                num_hiddens, vocab_size, ctx, idx_to_char, char_to_idx))

实际运用
其实就是定义参数，然后传到train_and_predict_rnn这个函数里就可。

num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']
train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                  vocab_size, ctx, corpus_indices, idx_to_char,
                  char_to_idx, True, num_epochs, num_steps, lr,
                  clipping_theta, batch_size, pred_period, pred_len,
                  prefixes)

简洁实现
运用Gluon
1.读取数据集

定义模型
下面构造一个含单隐藏层、隐藏单元个数为256的循环神经网络层rnn_layer，并对权重做初始化。

num_hiddens = 256
rnn_layer = rnn.RNN(num_hiddens)
rnn_layer.initialize()	
batch_size = 2
#begin_state返回初始化的隐藏状态列表，有一个形状为(隐藏层个数, 批量大小, 隐藏单元个数)的元素。
state = rnn_layer.begin_state(batch_size=batch_size) 
state[0].shape 
#大小为（1，批量大小，隐藏单元个数）
#1的大小是固定的，以后复杂的神经网络就不是1了
num_steps = 35
# rnn_layer的输入形状为3个了！
X = nd.random.uniform(shape=(num_steps, batch_size, vocab_size))
Y, state_new = rnn_layer(X, state)
Y.shape, len(state_new), state_new[0].shape

用Block类来定义一个完整的循环神经网络

class RNNModel(nn.Block):
    def __init__(self, rnn_layer, vocab_size, **kwargs):
        super(RNNModel, self).__init__(**kwargs)
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.dense = nn.Dense(vocab_size) #定义线性层

    def forward(self, inputs, state):
        # 将输入转置成(num_steps, batch_size)后获取one-hot向量表示
        X = nd.one_hot(inputs.T, self.vocab_size)
        Y, state = self.rnn(X, state)
        # 全连接层会首先将Y的形状变成(num_steps * batch_size, num_hiddens)，它的输出
        # 形状为(num_steps * batch_size, vocab_size)
        output = self.dense(Y.reshape((-1, Y.shape[-1])))
        return output, state

    def begin_state(self, *args, **kwargs):
        return self.rnn.begin_state(*args, **kwargs)

预测函数

def predict_rnn_gluon(prefix, num_chars, model, vocab_size, ctx, idx_to_char,
                  char_to_idx):
# 使用model的成员函数来初始化隐藏状态
state = model.begin_state(batch_size=1, ctx=ctx)
output = [char_to_idx[prefix[0]]]
for t in range(num_chars + len(prefix) - 1):
    X = nd.array([output[-1]], ctx=ctx).reshape((1, 1))
    (Y, state) = model(X, state)  # 前向计算不需要传入模型参数
    if t < len(prefix) - 1:
        output.append(char_to_idx[prefix[t + 1]])
    else:
        output.append(int(Y.argmax(axis=1).asscalar()))
return ''.join([idx_to_char[i] for i in output])

实际预测

ctx = d2l.try_gpu()
model = RNNModel(rnn_layer, vocab_size)
model.initialize(force_reinit=True, ctx=ctx)
predict_rnn_gluon('分开', 10, model, vocab_size, ctx, idx_to_char, char_to_idx)

训练函数

# 本函数已保存在d2lzh包中方便以后使用
def train_and_predict_rnn_gluon(model, num_hiddens, vocab_size, ctx,
                            corpus_indices, idx_to_char, char_to_idx,
                            num_epochs, num_steps, lr, clipping_theta,
                            batch_size, pred_period, pred_len, prefixes):
loss = gloss.SoftmaxCrossEntropyLoss()
model.initialize(ctx=ctx, force_reinit=True, init=init.Normal(0.01))
trainer = gluon.Trainer(model.collect_params(), 'sgd',
                        {'learning_rate': lr, 'momentum': 0, 'wd': 0})

for epoch in range(num_epochs):
    l_sum, n, start = 0.0, 0, time.time()
    data_iter = d2l.data_iter_consecutive(
        corpus_indices, batch_size, num_steps, ctx)
    state = model.begin_state(batch_size=batch_size, ctx=ctx)
    for X, Y in data_iter:
        for s in state:
            s.detach() #用detach从计算图分离隐藏状态
        with autograd.record():
            (output, state) = model(X, state)
            y = Y.T.reshape((-1,))
            l = loss(output, y).mean() #损失
        l.backward() 
        # 梯度裁剪
        params = [p.data() for p in model.collect_params().values()]
        d2l.grad_clipping(params, clipping_theta, ctx)
        trainer.step(1)  # 因为已经误差取过均值，梯度不用再做平均
        l_sum += l.asscalar() * y.size
        n += y.size

    if (epoch + 1) % pred_period == 0:
        print('epoch %d, perplexity %f, time %.2f sec' % (
            epoch + 1, math.exp(l_sum / n), time.time() - start))
        for prefix in prefixes:
            print(' -', predict_rnn_gluon(
                prefix, pred_len, model, vocab_size, ctx, idx_to_char,
                char_to_idx))

调用方法

```python
num_epochs, batch_size, lr, clipping_theta = 250, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']
train_and_predict_rnn_gluon(model, num_hiddens, vocab_size, ctx,
                        corpus_indices, idx_to_char, char_to_idx,
                        num_epochs, num_steps, lr, clipping_theta,
                        batch_size, pred_period, pred_len, prefixes)
```

Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
AlphaGPT通过国家AIGC生成式算法备案，为法律专业人士提供更加合规可靠的ai技术支持资讯分享周 AIGC 人工智能
在当前互联网信息时代,大模型算法已成各行业不可或缺的核心,不仅改善生活和工作,也在创新中展现巨大潜力。然而,随着算法应用的普及,如何合规管理算法,保护用户权益和隐私,确保公正运行,成为重要议题。日前,国内领先的法律科技企业iCourt宣布,其自主研发的法律垂类领域大模型AlphaGPT成功通过国家生成式模型深度学习合成算法备案。本次备案的通过,彰显了iCourt在法律AI领域有迈向了一个新的里程碑
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第1-11个视频笔记）胡说八道的Dr. Zhu 深度学习 pytorch 学习
本学习笔记源自于B站up主【我是土堆】的视频教程：PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】本博客是该视频教程中第1-11个视频的详细学习笔记，第12-22个视频、第23-33个视频的详细学习笔记链接如下：PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第12-22个视频笔记）PyTorch深度学习快速入门教程【小土堆】详细学习笔记（第23-33个视频笔记）目录1、P
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
PyTorch深度学习优化实战：从理论到实践的现代化技能指南智算菩萨深度学习 pytorch 人工智能
引言：现代PyTorch开发的核心思维在深度学习技术日新月异的今天，掌握PyTorch不仅仅意味着能够搭建和训练神经网络，更重要的是理解如何高效地利用现代硬件资源、优化模型性能并构建可扩展的AI系统。随着PyTorch2.x系列的成熟，特别是最新2.7版本的发布，框架为开发者提供了前所未有的优化工具和性能潜力。本文将深入探讨现代PyTorch开发中的核心优化技能，从编译器优化到注意力机制革新，从内
AI原生应用：多模态交互技术的5大核心应用场景解析 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AI-native ai
#AI原生应用：多模态交互技术的5大核心应用场景解析>关键词：多模态交互、AI原生应用、人机交互、深度学习、应用场景>摘要：本文将深入解析多模态交互技术的核心原理，通过智能家居、医疗诊断、自动驾驶、教育创新和虚拟助手五大应用场景，揭示AI如何像人类感官协同工作般理解世界。文章包含技术原理图解、真实案例代码和未来趋势预测。##背景介绍###目的和范围解析多模态交互技术在AI原生应用中的落地实践，涵盖
PyTorch 2.7深度技术解析：新一代深度学习框架的革命性演进智算菩萨深度学习 pytorch 人工智能
引言：站在AI基础设施变革的历史节点在2025年这个充满变革的年份，PyTorch团队于4月23日正式发布了2.7.0版本，随后在6月4日推出了2.7.1补丁版本，标志着这个深度学习领域最具影响力的框架再次迎来了重大突破。这不仅仅是一次常规的版本更新，而是一次面向未来计算架构和AI应用场景的全面重构。从底层硬件支持到上层API设计，从编译器优化到注意力机制革新，PyTorch2.7展现出了前所未有
Boltz-2：革命性生物分子模型，加速药物发现的新引擎花生糖@ AIGC学习资料库 Boltz-2 生物模型 AI
在药物研发领域，预测蛋白质与其他分子间的结合强度（BindingAffinity）始终是核心挑战之一。传统方法如自由能微扰法（FEP）虽然精确，但计算成本极高，难以大规模应用。如今，Boltz-2的诞生打破了这一瓶颈——这是首个开源的深度学习模型，其结合强度预测准确度接近FEP方法，却将速度提升了1000倍，成为药物早期筛选的“加速器”。项目简介Boltz-2是由jwohlwend团队开发的生物分
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
深度学习微调中的优化器全景解析：从理论到实践北辰alk AI 深度学习人工智能
文章目录一、基础优化器：深度学习微调的基石1.1随机梯度下降（SGD）1.2AdaGrad（自适应梯度算法）二、自适应优化器：现代深度学习的标配2.1RMSProp2.2Adam（自适应矩估计）三、大模型微调专用优化器3.1LAMB（Layer-wiseAdaptiveMoments）3.2Sophia（二阶优化启发）四、优化器性能对比研究4.1在GLUE基准上的表现（BERT-base微调）4.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

深度学习d2：文本预处理、语言模型、循环神经网络基础

文本预处理

步骤

存在缺点及改进

语言模型

计算

n元语法

实例

循环神经网络基础

不含隐藏状态的神经网络

含隐藏状态的循环神经网络

应用：基于字符级循环神经网络的语言模型

从零开始实现

简洁实现

你可能感兴趣的:(深度学习,深度学习)