点名好运

关于神经网络深度学习的几个实验

前言

一、MNIST-全连接

二、CNN卷积神经网络

三、RNN-文本分类

四、CGAN-MNIST-数字识别

五、ResNet-残差神经网络

六、Stack-AE AutoEncoder

七、机器翻译

八、目标检测

总结

前言

都是在paddlepaddle上的aistudio上完成的，感觉很有意义，没有嚼完记录下来以后想深入学习 T T

一、MNIST-全连接

#导入相关依赖（包）
import paddle
import numpy as np
import matplotlib.pyplot as plt
import paddle.vision.transforms as T

#进行数据的加载以及预处理
transform = T.Normalize(mean = [127.5], std = [127.5]) # mean 和 std参数是用于将数据归一化到[-1, 1]的

#数据集的训练
train_dataset = paddle.vision.datasets.MNIST(mode = 'train', transform = transform)

#数据集的评估
eval_dataset = paddle.vision.datasets.MNIST(mode = 'test', transform = transform)

#打印训练集样本量和验证集样本量
print('训练集样本量：{}，验证集样本量{}'.format(len(train_dataset),len(eval_dataset)))

#模型的选择与封装(784 - 512 - 10)
network = paddle.nn.Sequential(
    paddle.nn.Flatten(),       #拉平，将（28，28）=>（784）
    paddle.nn.Linear(784,512), #隐藏层：线性变换层
    paddle.nn.ReLU(),          #激活函数，这里使用的是Relu函数，激活函数通常还可以使用sigmoid
    paddle.nn.Linear(512,10)   #输出层
)

model = paddle.Model(network)

model.prepare (
    paddle.optimizer.Lamb(learning_rate = 0.001, parameters = network.parameters()), # 这里设置的学习率为0.001
    paddle.nn.CrossEntropyLoss(),
    paddle.metric.Accuracy()
)

#进行模型的训练
model.fit(
    train_dataset,#训练数据集
    eval_dataset,#评估数据集
    epochs = 5,#训练的总轮次
    batch_size = 64,#训练使用的批大小
    verbose = 1 )#日志展示形式

#评估模型
result = model.evaluate(eval_dataset, verbose = 1)
print(result)

#预测与可视化
result = model.predict(eval_dataset)

#定义画图方法
def show_img(img,predict):
    plt.figure
    plt.title('predict:{}'.format(predict))
    plt.imshow(img.reshape([28,28]),cmap=plt.cm.binary)
    plt.show()

#抽样显示
indexs = [2,15,38,211] #定义下标
for idx in indexs:
    show_img(eval_dataset[idx][0], np.argmax(result[0][idx]))

二、CNN卷积神经网络

# 进行文件的解压
!unzip -d work data/data75768/food-11.zip
!rm -rf work/__MACOSX

# 一、导入相关库
import os
import paddle
import paddle.vision.transforms as T
import numpy as np
from PIL import Image
import paddle
import paddle.nn.functional as F
import cv2
from sklearn.utils import shuffle

#二、读取数据
data_path = 'work/food-11/'  # 设置初始文件地址
character_folders = os.listdir(data_path)  # 查看地址下文件夹

# 每次运行前删除txt，重新新建标签列表
if(os.path.exists('./training_set.txt')):  # 判断有误文件
    os.remove('./training_set.txt')  # 删除文件
if(os.path.exists('./validation_set.txt')):
    os.remove('./validation_set.txt')
if(os.path.exists('./testing_set.txt')):
    os.remove('./testing_set.txt')

for character_folder in character_folders:  #循环文件夹列表
    with open(f'./{character_folder}_set.txt', 'a') as f_train:  # 新建文档以追加的形式写入
        character_imgs = os.listdir(os.path.join(data_path,character_folder))  # 读取文件夹下面的内容
        count = 0
        if character_folder in 'testing':  # 检查是否是测试集
            for img in character_imgs:  # 循环列表
                f_train.write(os.path.join(data_path,character_folder,img) + '\n')  # 把地址写入文档
                count += 1
            print(character_folder,count)
        else:
            for img in character_imgs:  # 检查是否是训练集和测试集
                f_train.write(os.path.join(data_path,character_folder,img) + '\t' + img[0:img.rfind('_', 1)] + '\n')  # 写入地址及标签
                count += 1
            print(character_folder,count)
#三、数据预处理
#下面使用paddle.vision.transforms.Compose做数据预处理，主要是这几个部分：
#1、以RGB格式加载图片 
#2、将图片resize，从224x224变成100x100 
#3、进行transpose操作，从HWC格式转变成CHW格式 
#4、将图片的所有像素值进行除以255进行归一化 
#5、对各通道进行减均值、除标准差

img_h, img_w = 100, 100   #进行参数的设置
means, stdevs = [], []
img_list = [] # 开辟图片列表空间
imgs_path = 'work/food-11/training' # 图片路径
imgs_path_list = os.listdir(imgs_path)
len_ = len(imgs_path_list)

i = 0
for item in imgs_path_list:
    img = cv2.imread(os.path.join(imgs_path,item))
    img = cv2.resize(img,(img_w,img_h))
    img = img[:, :, :, np.newaxis]
    img_list.append(img)
    i += 1
    # print(i,'/',len_)

imgs_path = 'work/food-11/testing'
imgs_path_list = os.listdir(imgs_path)
 
len_ = len(imgs_path_list)
i = 0
for item in imgs_path_list:
    img = cv2.imread(os.path.join(imgs_path,item))
    img = cv2.resize(img,(img_w,img_h))
    img = img[:, :, :, np.newaxis]
    img_list.append(img)
    i += 1

imgs = np.concatenate(img_list, axis=3)
imgs = imgs.astype(np.float32) / 255.

for i in range(3):
    pixels = imgs[:, :, i, :].ravel()  # 拉成一行
    means.append(np.mean(pixels))
    stdevs.append(np.std(pixels))

# BGR --> RGB ， CV读取的需要转换，PIL读取的不用转换
means.reverse()
stdevs.reverse()

print("normMean = {}".format(means))
print("normStd = {}".format(stdevs))

# 只需要执行一次代码记录住数据即可

# normMean = [0.5560434, 0.4515875, 0.34473255]

# normStd = [0.27080873, 0.2738704, 0.280732]


normMean = [0.5560434, 0.4515875, 0.34473255]

normStd = [0.27080873, 0.2738704, 0.280732]
# 定义数据预处理
data_transforms = T.Compose([
    T.Resize(size=(100, 100)),
    T.RandomHorizontalFlip(100),
    T.RandomVerticalFlip(100),
    T.RandomRotation(90),
    T.CenterCrop(100),
    T.Transpose(),    # HWC -> CHW

    # 使用Batch Norm
    T.Normalize(
        mean=[0.5560434, 0.4515875, 0.34473255],      #归一化 上个模块所求的均值与标准差 
        std=[0.27080873, 0.2738704, 0.280732],
        to_rgb=True)    
        #计算过程：output[channel] = (input[channel] - mean[channel]) / std[channel]
])
#四、继承dataset类

class FoodDataset(paddle.io.Dataset):

    '''数据集类的定义

    '''
    def __init__(self,mode='training_set'):  #进行初始化
        '''
        初始化函数
        '''
        self.data=[]
        with open(f'{mode}_set.txt')as f:
            for line in f.readlines():
                info=line.strip().split('\t')
                if len(info) > 0:
                    self.data.append([info[0].strip(),info[1].strip() ])

    def __getitem__(self,index):   #对图片数据进行获取

        '''
        读取图片，对图片进行归一化处理，返回图片和标签
        '''

        image_file,label=self.data[index] #获取数据

        img=Image.open(image_file).convert('RGB') #读取图片

        return data_transforms(img).astype('float32'),np.array(label,dtype='int64')

    def __len__(self):

        '''获取样本'''

        return len(self.data)

train_dataset=FoodDataset(mode='training')    

train_loader=paddle.io.DataLoader(train_dataset,places=paddle.CPUPlace(),batch_size=64,shuffle=True,num_workers=0)  #定义数据集和数据集的专用工具

eval_dataset=FoodDataset(mode='training')

eval_loader=paddle.io.DataLoader(eval_dataset,places=paddle.CPUPlace(),batch_size=64,shuffle=True,num_workers=0)
#五、搭建模型

#继承paddle.nn.Layer类，用于搭建模型

class MyCNN(paddle.nn.Layer):

    def __init__(self):

        super(MyCNN,self).__init__()

        self.conv0 = paddle.nn.Conv2D(in_channels=3,out_channels=20,kernel_size=5,padding=0) #二维卷积层
        self.pool0 = paddle.nn.MaxPool2D(kernel_size=2,stride=2)   #最大池化层
        self._batch_norm_0 = paddle.nn.BatchNorm2D(num_features =20)    #归一层


        self.conv1 = paddle.nn.Conv2D(in_channels=20,out_channels=50,kernel_size=5,padding=0) #二维卷积层
        self.pool1 = paddle.nn.MaxPool2D(kernel_size=2,stride=2)   #最大池化层
        self._batch_norm_1 = paddle.nn.BatchNorm2D(num_features =50)    #归一层


        self.conv2 = paddle.nn.Conv2D(in_channels=50,out_channels=50,kernel_size=5,padding=0) #二维卷积层
        self.pool2 = paddle.nn.MaxPool2D(kernel_size=2,stride=2)   #最大池化层

        self.fc1 = paddle.nn.Linear(in_features=4050,out_features=218)# 线性层 - 全连接层
        self.fc2 = paddle.nn.Linear(in_features=218,out_features=100)
        self.fc3 = paddle.nn.Linear(in_features=100,out_features=11)


    def forward(self,input):

        #将输入数据的样子改变成[1,3,100,100]
        input = paddle.reshape(input,shape=[-1,3,100,100]) #转换维度
        #print(input.shape)

        x=self.conv0(input) #数据输入卷积层

        x=F.relu(x) #激活层
        x=self.pool0(x) #池化层
        x=self._batch_norm_0(x) #归一层

        x=self.conv1(x)
        x=F.relu(x)
        x=self.pool1(x)
        x=self._batch_norm_1(x)

        x=self.conv2(x)
        x=F.relu(x)
        x=self.pool2(x)
        x=paddle.reshape(x,[x.shape[0],-1])
        #print(x,shape)
        x=self.fc1(x) #线性层 - 全连接层
        x=F.relu(x)
        x=self.fc2(x)
        x=F.relu(x)
        x=self.fc3(x)

        #y=F.softmax(x) #分类器

        return x


network=MyCNN() #模拟实例化

#模拟训练相关配置，准备损失计算方法，优化器和精度计算方法

#定义优化器
scheduler=paddle.optimizer.lr.LinearWarmup(
        learning_rate=0.001,warmup_steps=100,start_lr=0,end_lr=0.001,verbose=True)
optim=paddle.optimizer.SGD(learning_rate=scheduler,parameters=model.parameters())

#配置模型
model.prepare(
    optim,
    paddle.nn.CrossEntropyLoss(),
    paddle.metric.Accuracy()
    )

visualdl=paddle.callbacks.VisualDL(log_dir='visualdl_log')
#模型训练与评估

model.fit( 

    train_loader, #训练数据集
    eval_loader, #评估数据集
    epochs=5, #训练使用的批大小
    verbose=1, #日志展示形式
    callbacks=[visualdl]) #设置可视化

#模型评估
model.evaluate(eval_dataset,batch_size=128,verbose=1)
#七、保存模型
model.save('finetuning/mnist')  # 保存模型
#八、测试

def opening():  # 读取图片函数
    with open(f'testing_set.txt') as f:  #读取文件夹
        test_img = []
        txt =  []

        for line in f.readlines():  # 循环读取每一行
            img = Image.open(line[:-1])  # 打开图片
            img = data_transforms(img).astype('float32')
            txt.append(line[:-1])  # 生成列表
            test_img.append(img)
        return txt,test_img

img_path, img = opening()  # 读取列表
from PIL import Image
model_state_dict = paddle.load('finetuning/mnist.pdparams') # 读取模型

model = MyCNN()   # 实例化模型
model.set_state_dict(model_state_dict)
model.eval()

site = 10  # 读取图片位置
ceshi = model(paddle.to_tensor(img[site]))  # 测试
print('预测的结果为:', np.argmax(ceshi.numpy()))  # 获取值

value = ["面包","乳制品","甜点","鸡蛋","油炸食品","肉类","面条/意大利面","米饭","海鲜","汤","蔬菜/水果"]
print('           ', value[np.argmax(ceshi.numpy())])
Image.open(img_path[site])  # 显示图片

三、RNN-文本分类

代码如下（示例）：

!unzip -oq /home/aistudio/data/data113551/RumorClassification-GRU.zip
!rm -rf work/__MACOSX
#一、导入相关的包
import numpy as np
import paddle
from paddle.io import Dataset, DataLoader
import pandas as pd
import paddle.nn as nn

#二、加载、处理数据集

# 读取数据集（这里的路径需要进行一定的更改）
all_data = pd.read_csv("RumorClassification-GRU/all_data.tsv", sep="\t")

# 转成字符串
all_str = all_data["text"].values.tolist()

dict_set = set() # 保证每个字符只有唯一的对应数字

for content in all_str:
    for s in content:
        dict_set.add(s)

# 添加未知字符
dict_set.add("")

# 把元组转换成字典，一个字对应一个数字（用于计算机的处理）
dict_list = []
i = 0
for s in dict_set:
    dict_list.append([s, i])
    i += 1
dict_txt = dict(dict_list)

# 字典保存到本地
with open("dict.txt", 'w', encoding='utf-8') as f:
    f.write(str(dict_txt))

# 获取字典的长度
def get_dict_len(dict_path):
    with open(dict_path, 'r', encoding='utf-8') as f:
        line = eval(f.readlines()[0])
    return len(line.keys())

print(get_dict_len("dict.txt"))

#三、划分训练集、验证集以及测试集

all_data_list = all_data.values.tolist() # 首先将数据结果转成list
train_length = len(all_data) // 10 * 7  # 测试集的长度
dev_length = len(all_data) // 10 * 2 # 验证集的长度

train_data = [] # 开辟训练集空间
dev_data = []  # 开辟测试集空间
test_data = [] # 开辟测试集空间

# 进行训练集的数据填充
for i in range(train_length):
    text = ""
    for s in all_data_list[i][1]:
        text = text + str(dict_txt[s]) + ","
    text = text[:-1]
    train_data.append([text, all_data_list[i][0]])

# 进行验证集数据填充
for i in range(train_length, train_length+dev_length):
    text = ""
    for s in all_data_list[i][1]:
        text = text + str(dict_txt[s]) + ","
    text = text[:-1]
    dev_data.append([text, all_data_list[i][0]])

# 进行测试集数据填充
for i in range(train_length+dev_length, len(all_data)):
    text = ""
    for s in all_data_list[i][1]:
        text = text + str(dict_txt[s]) + ","
    text = text[:-1]
    test_data.append([text, all_data_list[i][0]])

print(len(train_data))
print(len(dev_data))
print(len(test_data))

# DataFram是一种二维表
df_train = pd.DataFrame(columns=["text", "label"], data=train_data)
df_dev = pd.DataFrame(columns=["text", "label"], data=dev_data)
df_test = pd.DataFrame(columns=["text", "label"], data=test_data)

# 这里应该是转成csv文件的作用
df_train.to_csv("train_data.csv", index=False)
df_dev.to_csv("dev_data.csv", index=False)
df_test.to_csv("test_data.csv", index=False)

#四、继承Dataset类
class MyDataset(Dataset):
    """
    步骤一：继承paddle.io.Dataset类
    """
    def __init__(self, mode='train'):
        """
        步骤二：实现构造函数，定义数据读取方式，划分训练和测试数据集
        """
        super(MyDataset, self).__init__()
        self.label = True
        if mode == 'train':
            text = pd.read_csv("train_data.csv")["text"].values.tolist()
            label = pd.read_csv("train_data.csv")["label"].values.tolist()
            self.data = []
            for i in range(len(text)):
                self.data.append([])
                self.data[-1].append(np.array([int(i) for i in text[i].split(",")]))
                self.data[-1][0] = self.data[-1][0][:256].astype('int64')if len(self.data[-1][0])>=256 else np.concatenate([self.data[-1][0], np.array([dict_txt[""]]*(256-len(self.data[-1][0])))]).astype('int64')
                self.data[-1].append(np.array(int(label[i])).astype('int64'))
        elif mode == 'dev':
            text = pd.read_csv("dev_data.csv")["text"].values.tolist()
            label = pd.read_csv("dev_data.csv")["label"].values.tolist()
            self.data = []
            for i in range(len(text)):
                self.data.append([])
                self.data[-1].append(np.array([int(i) for i in text[i].split(",")]))
                self.data[-1][0] = self.data[-1][0][:256].astype('int64')if len(self.data[-1][0])>=256 else np.concatenate([self.data[-1][0], np.array([dict_txt[""]]*(256-len(self.data[-1][0])))]).astype('int64')
                self.data[-1].append(np.array(int(label[i])).astype('int64'))
        else:
            text = pd.read_csv("test_data.csv")["text"].values.tolist()
            label = pd.read_csv("test_data.csv")["label"].values.tolist()
            self.data = []
            for i in range(len(text)):
                self.data.append([])
                self.data[-1].append(np.array([int(i) for i in text[i].split(",")]))
                self.data[-1][0] = self.data[-1][0][:256].astype('int64')if len(self.data[-1][0])>=256 else np.concatenate([self.data[-1][0], np.array([dict_txt[""]]*(256-len(self.data[-1][0])))]).astype('int64')
                self.data[-1].append(np.array(int(label[i])).astype('int64'))
            self.label = False
    def __getitem__(self, index):
        """
        步骤三：实现__getitem__方法，定义指定index时如何获取数据，并返回单条数据（训练数据，对应的标签）
        """
        text_ =  self.data[index][0]
        label_ = self.data[index][1]

        if self.label:
            return text_, label_
        else:
            return text_

    def __len__(self):
        """
        步骤四：实现__len__方法，返回数据集总数目
        """
        return len(self.data)

train_data = MyDataset(mode='train')
dev_data = MyDataset(mode='dev')
test_data = MyDataset(mode='test')

BATCH_SIZE = 128

train_loader = DataLoader(train_data, batch_size=BATCH_SIZE, shuffle=True)
dev_loader = DataLoader(dev_data, batch_size=BATCH_SIZE, shuffle=True)
test_loader = DataLoader(test_data, batch_size=BATCH_SIZE, shuffle=True)

# 五 配置封装模型
inputs_dim = get_dict_len("dict.txt")

class myGRU(nn.Layer):
    def __init__(self):
        super(myGRU, self).__init__()
        self.embedding = nn.Embedding(inputs_dim, 256)
        self.gru = nn.GRU(256, 256, num_layers=2,
                         direction='bidirectional', dropout=0.5)
        self.linear = nn.Linear(in_features=256*2, out_features=2)
        self.dropout = nn.Dropout(0.5)


    def forward(self, inputs):

        emb = self.dropout(self.embedding(inputs))

        output, hidden = self.gru(emb)
        #把前向的 hidden与后向的 hidden合并在一起
        hidden = paddle.concat((hidden[-2,:,:], hidden[-1,:,:]), axis = 1)
        hidden = self.dropout(hidden)

        return self.linear(hidden)


GRU_model = paddle.Model(myGRU())

GRU_model.prepare(paddle.optimizer.Adam(learning_rate=0.001,parameters=GRU_model.parameters()),
                                        paddle.nn.CrossEntropyLoss(),
                                        paddle.metric.Accuracy())


# 六、训练模型
GRU_model.fit(train_loader,
             dev_loader,
             epochs=10,
             batch_size=BATCH_SIZE,
             verbose=1,
             save_dir="work/GRU")

# 模型预测
result = GRU_model.predict(test_loader)

四、CGAN-MNIST-数字识别

# 导入数据集 !unzip -d work data/data114246/output.zip
# 首先导入相关依赖库
## 定义数据读取
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph import Conv2D, Pool2D, Linear, Conv2DTranspose
import numpy as np
import matplotlib.pyplot as plt

# 噪声维度
Z_DIM = 100
BATCH_SIZE = 128
# BATCH_SIZE = 3 # debug

# 噪声生成，通过由噪声来生成假的图片数据输入。
def z_reader():
    while True:
        yield np.random.normal(0.0, 1.0, (Z_DIM, 1, 1)).astype('float32')

# 生成真实图片reader
mnist_generator = paddle.batch(
    paddle.reader.shuffle(paddle.dataset.mnist.train(), 30000), batch_size=BATCH_SIZE)

# 生成假图片的reader
z_generator = paddle.batch(z_reader, batch_size=BATCH_SIZE)

## import matplotlib.pyplot as plt
%matplotlib inline

data_tmp = next(mnist_generator())
print('一个batch图片数据的形状：batch_size =', len(data_tmp), ', data_shape =', data_tmp[0][0].shape, ', num = ', data_tmp[0][1])

plt.imshow(data_tmp[0][0].reshape(28, 28))
plt.show()

z_tmp = next(z_generator())
print('一个batch噪声z的形状：batch_size =', len(z_tmp), ', data_shape =', z_tmp[0].shape)

## 定义CGAN
# 定义特征图拼接
def conv_concatenate(x, y):
    # print('---', x.shape, y.shape)
    # y = fluid.dygraph.to_variable(y.numpy().astype('float32'))
    if len(x.shape) == 2: # 给全连接层输出的特征图拼接噪声
        y = fluid.layers.reshape(y, shape=[x.shape[0], 1])
        ones = fluid.layers.fill_constant(y.shape, dtype='float32', value=1.0)
    elif len(x.shape) == 4: # 给卷积层输出的特征图拼接噪声
        y = fluid.layers.reshape(y, shape=[x.shape[0], 1, 1, 1])
        ones = fluid.layers.fill_constant(x.shape, dtype='float32', value=1.0)
    x = fluid.layers.concat([x, ones * y], axis=1)
    # print(ones.shape, x.shape, y.shape, '---')

    return x

# 通过重写Layer,生成不同功能的网络
# 定义生成器（生成网络)
class G(fluid.dygraph.Layer):
    def __init__(self, name_scope):
        super(G, self).__init__(name_scope)
        name_scope = self.full_name()
        # 第一组全连接和BN层
        self.fc1 = Linear(input_dim=100+1, output_dim=1024)
        self.bn1 = fluid.dygraph.BatchNorm(num_channels=1024, act='relu')
        # 第二组全连接和BN层
        self.fc2 = Linear(input_dim=1024+1, output_dim=128*7*7)
        self.bn2 = fluid.dygraph.BatchNorm(num_channels=128*7*7, act='relu')
        # 第一组转置卷积运算
        self.convtrans1 = Conv2DTranspose(256, 64, 4, stride=2, padding=1)
        self.bn3 = fluid.dygraph.BatchNorm(64, act='relu')
        # 第二组转置卷积运算
        self.convtrans2 = Conv2DTranspose(128, 1, 4, stride=2, padding=1, act='relu')
        
    def forward(self, z, label):
        z = fluid.layers.reshape(z, shape=[-1, 100])
        z = conv_concatenate(z, label) # 拼接噪声和label
        y = self.fc1(z)
        y = self.bn1(y)
        y = conv_concatenate(y, label) # 拼接特征图和label
        y = self.fc2(y)
        y = self.bn2(y)
        y = fluid.layers.reshape(y, shape=[-1, 128, 7, 7])
        y = conv_concatenate(y, label) # 拼接特征图和label
        y = self.convtrans1(y)
        #print('G第一次transpose：',y.shape)
        y = self.bn3(y)
        y = conv_concatenate(y, label) # 拼接特征图和label
        y = self.convtrans2(y)
        #print('G第2次transpose：',y.shape)
        return y

# 定义判别器(分类网络）
# 定义判别器
class D(fluid.dygraph.Layer):
    def __init__(self, name_scope):
        super(D, self).__init__(name_scope)
        name_scope = self.full_name()
        # 第一组卷积池化
        self.conv1 = Conv2D(num_channels=2, num_filters=64, filter_size=3)
        self.bn1 = fluid.dygraph.BatchNorm(num_channels=64, act='leaky_relu')
        self.pool1 = Pool2D(pool_size=2, pool_stride=2)
        # 第二组卷积池化
        self.conv2 = Conv2D(num_channels=128, num_filters=128, filter_size=3)
        self.bn2 = fluid.dygraph.BatchNorm(num_channels=128, act='leaky_relu')
        self.pool2 = Pool2D(pool_size=2, pool_stride=2)
        # 全连接输出层
        self.fc1 = Linear(input_dim=128*5*5+1, output_dim=1024)
        self.bnfc1 = fluid.dygraph.BatchNorm(num_channels=1024, act='leaky_relu')
        self.fc2 = Linear(input_dim=1024+1, output_dim=1)

    def forward(self, img, label):
        y = conv_concatenate(img, label) # 拼接输入图片和label
        y = self.conv1(y)
        y = self.bn1(y)
        y = self.pool1(y)
        y = conv_concatenate(y, label) # 拼接特征图和label
        y = self.conv2(y)
        y = self.bn2(y)
        y = self.pool2(y)
        y = fluid.layers.reshape(y, shape=[-1, 128*5*5])
        y = conv_concatenate(y, label) # 拼接特征图和label
        y = self.fc1(y)
        #print('D第一次transpose：',y.shape)
        y = self.bnfc1(y)
        y = conv_concatenate(y, label) # 拼接特征图和label
        y = self.fc2(y)
        #print('D第2次transpose：',y.shape)

        return y

## 测试生成网络G和判别网络D
with fluid.dygraph.guard():
    g_tmp = G('G')
    l_tmp = fluid.dygraph.to_variable(np.array([x[1] for x in data_tmp]).astype('float32'))
    tmp_g = g_tmp(fluid.dygraph.to_variable(np.array(z_tmp)), l_tmp).numpy()
    print('生成器G生成图片数据的形状：', tmp_g.shape)
    plt.imshow(tmp_g[0][0])
    plt.show()

    d_tmp = D('D')
    tmp_d = d_tmp(fluid.dygraph.to_variable(tmp_g), l_tmp).numpy()
    print('判别器D判别生成的图片的概率数据形状：', tmp_d.shape)

    
# 定义显示图片的函数，构建一个18*n大小(n=batch_size/16)的图片阵列，把预测的图片打印到note中。
# 辅助函数
## 定义显示图片的函数，构建一个18*n大小(n=batch_size/16)的图片阵列，把预测的图片打印到note中。
## import matplotlib.pyplot as plt
%matplotlib inline

def show_image_grid(images, batch_size=128, pass_id=None):
    fig = plt.figure(figsize=(8, batch_size/32))
    fig.suptitle("Pass {}".format(pass_id))
    gs = plt.GridSpec(int(batch_size/16), 16)
    gs.update(wspace=0.05, hspace=0.05)

    for i, image in enumerate(images):
        ax = plt.subplot(gs[i])
        plt.axis('off')
        ax.set_xticklabels([])
        ax.set_yticklabels([])
        ax.set_aspect('equal')
        plt.imshow(image[0], cmap='Greys_r')
    
    plt.show()

show_image_grid(tmp_g, BATCH_SIZE)

## 训练CGAN
from visualdl import LogWriter
import time
import random

def train(mnist_generator, epoch_num=10, batch_size=128, use_gpu=True, load_model=False):
    # with fluid.dygraph.guard():
    place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()
    with fluid.dygraph.guard(place):
        # 模型存储路径（这里要修改）
        model_path = './work/home/aistudio/output/'

        d = D('D')
        d.train()
        g = G('G')
        g.train()

        # 创建优化方法
        g_optimizer = fluid.optimizer.SGDOptimizer(learning_rate=2e-4, parameter_list=g.parameters())
        d_optimizer = fluid.optimizer.SGDOptimizer(learning_rate=2e-4, parameter_list=d.parameters())
        
        # 读取上次保存的模型
        if load_model == True:
            g_para, g_opt = fluid.load_dygraph(model_path+'g')
            d_para, d_opt = fluid.load_dygraph(model_path+'d')
            g.load_dict(g_para)
            g_optimizer.set_dict(g_opt)
            d.load_dict(d_para)
            d_optimizer.set_dict(d_opt)

        iteration_num = 0
        print('Start time :', time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), 'start step:', iteration_num + 1)
        for epoch in range(epoch_num):
            for i, real_data in enumerate(mnist_generator()):
                # 丢弃不满整个batch_size的数据
                if(len(real_data) != BATCH_SIZE):
                    continue
                
                iteration_num += 1
                
                '''
                判别器d通过最小化输入真实图片时判别器d的输出与真值标签ones的交叉熵损失，来优化判别器的参数，
                以增加判别器d识别真实图片real_image为真值标签ones的概率。
                '''
                # 将MNIST数据集里的图片读入real_image，将真值标签ones用数字1初始化
                ri = np.array([x[0] for x in real_data]).reshape(-1, 1, 28, 28)
                rl = np.array([x[1] for x in real_data]).astype('float32')
                real_image = fluid.dygraph.to_variable(np.array(ri))
                real_label = fluid.dygraph.to_variable(rl)
                ones = fluid.dygraph.to_variable(np.ones([len(real_image), 1]).astype('float32'))
                # 计算判别器d判断真实图片的概率
                p_real = d(real_image, real_label)
                # 计算判别真图片为真的损失
                # real_cost = fluid.layers.sigmoid_cross_entropy_with_logits(p_real, ones)
                real_cost = (p_real - ones) ** 2 #lsgan
                real_avg_cost = fluid.layers.mean(real_cost)

                '''
                判别器d通过最小化输入生成器g生成的假图片g(z)时判别器的输出与假值标签zeros的交叉熵损失，
                来优化判别器d的参数，以增加判别器d识别生成器g生成的假图片g(z)为假值标签zeros的概率。
                '''
                # 创建高斯分布的噪声z，将假值标签zeros初始化为0
                z = next(z_generator())
                z = fluid.dygraph.to_variable(np.array(z))
                zeros = fluid.dygraph.to_variable(np.zeros([len(real_image), 1]).astype('float32'))
                # 判别器d判断生成器g生成的假图片的概率
                p_fake = d(g(z, real_label), real_label)
                # fl = rl
                # for i in range(batch_size):
                #     fl[i] = random.randint(0, 9)
                # fake_label = fluid.dygraph.to_variable(fl)
                # p_fake = d(g(z, fake_label), fake_label)
                # 计算判别生成器g生成的假图片为假的损失
                # fake_cost = fluid.layers.sigmoid_cross_entropy_with_logits(p_fake, zeros)
                fake_cost = (p_fake - zeros) ** 2 #lsgan
                fake_avg_cost = fluid.layers.mean(fake_cost)
                
                # 更新判别器d的参数
                d_loss = real_avg_cost + fake_avg_cost
                d_loss.backward()
                d_optimizer.minimize(d_loss)
                d.clear_gradients()

                '''
                生成器g通过最小化判别器d判别生成器生成的假图片g(z)为真的概率d(fake)与真值标签ones的交叉熵损失，
                来优化生成器g的参数，以增加生成器g使判别器d判别其生成的假图片g(z)为真值标签ones的概率。
                '''
                # 生成器用输入的高斯噪声z生成假图片
                fake = g(z, real_label)
                # 计算判别器d判断生成器g生成的假图片的概率
                p_fake = d(fake, real_label)
                # 使用判别器d判断生成器g生成的假图片的概率与真值ones的交叉熵计算损失
                # g_cost = fluid.layers.sigmoid_cross_entropy_with_logits(p_fake, ones)
                g_cost = (p_fake - ones) ** 2 #lsgan
                g_avg_cost = fluid.layers.mean(g_cost)
                # 反向传播更新生成器g的参数
                g_avg_cost.backward()
                g_optimizer.minimize(g_avg_cost)
                g.clear_gradients()
                
                if(iteration_num % 100 == 0):
                    print('epoch =', epoch, ', batch =', i, ', d_loss =', d_loss.numpy(), 'g_loss =', g_avg_cost.numpy())
                    show_image_grid(fake.numpy(), BATCH_SIZE, epoch)

        print('End time :', time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), 'End Step:', iteration_num)
        # 存储模型
        fluid.save_dygraph(g.state_dict(), model_path+'g')
        fluid.save_dygraph(g_optimizer.state_dict(), model_path+'g')
        fluid.save_dygraph(d.state_dict(), model_path+'d')
        fluid.save_dygraph(d_optimizer.state_dict(), model_path+'d')

# train(mnist_generator, epoch_num=1, batch_size=BATCH_SIZE, use_gpu=True)

train(mnist_generator, epoch_num=1, batch_size=BATCH_SIZE, use_gpu=True, load_model=True)
# train(mnist_generator, epoch_num=20, batch_size=BATCH_SIZE, use_gpu=True, load_model=True) #11m
# train(mnist_generator, epoch_num=800, batch_size=BATCH_SIZE, use_gpu=True, load_model=True) #440m



## 使用CGAN分别生成数字0～9
def infer(batch_size=128, num=0, use_gpu=True):
    place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()
    with fluid.dygraph.guard(place):
        # 模型存储路径(这里要修改）
        model_path = './work/home/aistudio/output/'

        g = G('G')
        g.eval()

        
        # 读取上次保存的模型
        g_para, g_opt = fluid.load_dygraph(model_path+'g')
        g.load_dict(g_para)
        # g_optimizer.set_dict(g_opt)

        z = next(z_generator())
        z = fluid.dygraph.to_variable(np.array(z))
        
        label = fluid.layers.fill_constant([batch_size], dtype='float32', value=float(num))
        fake = g(z, label)
        show_image_grid(fake.numpy(), batch_size, -1)                

for i in range(10):
    infer(batch_size=BATCH_SIZE, num=i)

五、ResNet-残差神经网络

数据集：


# 导入相关的库
import paddle
import paddle.nn.functional as F
import numpy as np
from paddle.vision.transforms import Compose, Resize, Transpose, Normalize

# 数据的加载和预处理
t = Compose([Resize(size=96),Normalize(mean=[127.5, 127.5, 127.5], std=[127.5, 127.5, 127.5], data_format='HWC'),Transpose()])

# 训练数据集
cifar10_train = paddle.vision.datasets.cifar.Cifar10(mode='train', transform=t, backend='cv2')

# 测试数据集
cifar10_test = paddle.vision.datasets.cifar.Cifar10(mode="test", transform=t, backend='cv2')

#
print('训练集样本量: {}，验证集样本量: {}'.format(len(cifar10_train), len(cifar10_test)))

# 残差网络网络中Residual的构建
class Residual(paddle.nn.Layer):
    def __init__(self, in_channel, out_channel, use_conv1x1=False, stride=1):
        super(Residual, self).__init__()
        self.conv1 = paddle.nn.Conv2D(in_channel, out_channel, kernel_size=3, padding=1, stride=stride)
        self.conv2 = paddle.nn.Conv2D(out_channel, out_channel, kernel_size=3, padding=1)
        if use_conv1x1:         #使用1x1卷积核
            self.conv3 = paddle.nn.Conv2D(in_channel, out_channel, kernel_size=1, stride=stride)
        else:
            self.conv3 = None
        self.batchNorm1 = paddle.nn.BatchNorm2D(out_channel)
        self.batchNorm2 = paddle.nn.BatchNorm2D(out_channel)

    def forward(self, x):
        y = F.relu(self.batchNorm1(self.conv1(x)))
        y = self.batchNorm2(self.conv2(y))
        if self.conv3:
            x = self.conv3(x)
        out = F.relu(y+x)   #核心代码
        return out


# 依靠上面的Residual进行ResNetBlock的构建
def ResNetBlock(in_channel, out_channel, num_layers, is_first=False):
    if is_first:
        assert in_channel == out_channel
    block_list = []
    for i in range(num_layers):
        if i == 0 and not is_first:
            block_list.append(Residual(in_channel, out_channel, use_conv1x1=True, stride=2))
        else:
            block_list.append(Residual(out_channel, out_channel))
    resNetBlock = paddle.nn.Sequential(*block_list)       #用*号可以把list列表展开为元素
    return resNetBlock

class ResNetModel(paddle.nn.Layer):
    def __init__(self):
        super(ResNetModel, self).__init__()
        self.b1 = paddle.nn.Sequential(
                    paddle.nn.Conv2D(3, 64, kernel_size=7, stride=2, padding=3),
                    paddle.nn.BatchNorm2D(64), 
                    paddle.nn.ReLU(),
                    paddle.nn.MaxPool2D(kernel_size=3, stride=2, padding=1))
        self.b2 = ResNetBlock(64, 64, 2, is_first=True)
        self.b3 = ResNetBlock(64, 128, 2)
        self.b4 = ResNetBlock(128, 256, 2)
        self.b5 = ResNetBlock(256, 512, 2)
        self.AvgPool = paddle.nn.AvgPool2D(2)
        self.flatten = paddle.nn.Flatten()
        self.Linear = paddle.nn.Linear(512, 10)
        
    def forward(self, x):
        x = self.b1(x)
        x = self.b2(x)
        x = self.b3(x)
        x = self.b4(x)
        x = self.b5(x)
        x = self.AvgPool(x)
        x = self.flatten(x)
        x = self.Linear(x)
        return x
epoch_num = 5
batch_size = 512
learning_rate = 0.001

val_acc_history = []
val_loss_history = []

def train(model):
    #开启训练模式
    model.train()
    #优化器
    opt = paddle.optimizer.Adam(learning_rate=learning_rate, parameters=model.parameters())
    #数据小批量加载器
    train_loader = paddle.io.DataLoader(cifar10_train, shuffle=True, batch_size=batch_size)
    valid_loader = paddle.io.DataLoader(cifar10_test, batch_size=batch_size)

    for epoch in range(epoch_num):
        for batch_id, data in enumerate(train_loader()):
            x_data = paddle.cast(data[0], 'float32')
            y_data = paddle.cast(data[1], 'int64')
            y_data = paddle.reshape(y_data, (-1, 1))
            y_predict = model(x_data)
            loss = F.cross_entropy(y_predict, y_data)
            loss.backward()
            opt.step()
            opt.clear_grad()
        print("训练轮次: {}; 损失: {}".format(epoch, loss.numpy()))

        #启动评估模式
        model.eval()
        accuracies = []
        losses = []
        for batch_id, data in enumerate(valid_loader()):
            x_data = paddle.cast(data[0], 'float32')
            y_data = paddle.cast(data[1], 'int64')
            y_data = paddle.reshape(y_data, (-1, 1))
            y_predict = model(x_data)
            loss = F.cross_entropy(y_predict, y_data)
            acc = paddle.metric.accuracy(y_predict, y_data)
            accuracies.append(np.mean(acc.numpy()))
            losses.append(np.mean(loss.numpy()))

        avg_acc, avg_loss = np.mean(accuracies), np.mean(losses)
        print("评估准确度为：{}；损失为：{}".format(avg_acc, avg_loss))
        val_acc_history.append(avg_acc)
        val_loss_history.append(avg_loss)
        model.train()

model = ResNetModel()
train(model)

六、Stack-AE AutoEncoder

测试集：

# 首先导入相关依赖库
import paddle
import paddle.fluid as fluid
import numpy as np
import sys, os, math
import paddle.fluid.layers as F
import matplotlib.pyplot as plt
from PIL import Image

# 模型搭建
class AutoEncoder(fluid.dygraph.Layer):
    def __init__(self):
        super(AutoEncoder, self).__init__()
        self.encoder = fluid.dygraph.Linear(784, 512, act='relu') # encoder层
        self.decoder = fluid.dygraph.Linear(512, 784, act='relu')  # decoder层
    def loss(self, x, lable):
        # 传入参数: lable是原始图像，x是解码之后的图像
        # 输出结果: 原始图像和解码图像之间的【欧氏距离】
        return F.square(x - lable)
    def forward(self, x):
        self.input_imgs = x
        x = self.encoder(x)
        x = self.decoder(x)
        return x

# 可视化处理
def show_array2img(array,title):
    rebuilded_img = Image.fromarray(array.astype('uint8')).convert('RGB')
    plt.imshow(rebuilded_img)
    plt.title(title)
    plt.show()

def draw_train_process(iters,loss):
    '''
    训练可视化
    '''
    plt.title('training',fontsize=24)
    plt.xlabel('iters',fontsize=20)
    plt.ylabel('loss',fontsize=20)
    plt.plot(iters,loss,color='green',label='loss')
    plt.legend()
    plt.grid()
    plt.show()

def fix_value(img_pixs):#像素拉伸
        '''
        img_pixs:featuremap的像素矩阵
        '''
        pix_max=np.max(img_pixs)# 取最大像素
        pix_min=np.min(img_pixs)# 取最小像素
        pix_range=np.abs(pix_max)+np.abs(pix_min)# 获取像素距离
        if(pix_range==0): # 如果所有值都是零则直接返回（下面不能除以零）
            return img_pixs
        pix_rate = 255/pix_range# 获取像素缩放倍率
        pix_left = pix_min*pix_rate# 获取最小还原像素值
        img_pixs = img_pixs*pix_rate-pix_left# 整体像素值平移
        img_pixs[np.where(img_pixs<0)]=0. # 增加鲁棒性，检查超出区间的像素值，np.where(a255)]=255.
        return img_pixs

# 模型训练

# 设置参数
train_params = {
    'save_model_name' : 'AutoEnconder',
    'epoch_num' : 40000,
    'batch_size' : 32,
    'learning_rate' : 0.00001
}

# 训练，同时展示结果
with fluid.dygraph.guard():
    print('start training')
    # 数据读入器
    train_reader = paddle.batch(reader=paddle.reader.shuffle(\
        paddle.dataset.mnist.train(),buf_size=512),batch_size=train_params['batch_size'])

    # 读取【32 × 78】的输入, 用于迭代时使用
    for i, data in enumerate(train_reader()):
        temp_images = []
        for i in range(32):
            temp_images.append(np.reshape(data[i][0],(784)))
        # 从ndarray中创建一个variable
        temp_images = fluid.dygraph.to_variable(np.asarray(temp_images).reshape(32, 784))
        # 原数据区间:[-1,1] → 现数据区间:[0,1]
        temp_images = (temp_images + 1) / 2
        break
    model = AutoEncoder()
    # 下面进行模型的训练
    model.train()
    all_iter = 0
    # loss数组
    all_loss = []
    # 迭代数组
    all_iters = []
    # 准确率数组
    all_accs = []
    # 优化器
    opt = fluid.optimizer.AdamOptimizer(learning_rate=train_params['learning_rate'], parameter_list=model.parameters())
    for pass_num in range(train_params['epoch_num']):
        # 预测模型
        predict = model(temp_images)
        # 计算平均损失
        avg_loss = F.mean(model.loss(predict, temp_images))
        # 反向传播
        avg_loss.backward()
        # 求解局部最优
        opt.minimize(avg_loss)
        # 清空
        opt.clear_gradients()
        # 迭代次数 + 1
        all_iter += 1
        # 设置每5000次保存，打印一次结果
        if all_iter % 5000 == 0:
            all_loss.append(avg_loss.numpy()[0])
            all_iters.append(all_iter)
            print('pass_epoch:{}, iters:{}, loss:{}'.format(pass_num, all_iter, avg_loss.numpy()[0]))
    # 保存模型参数
    fluid.save_dygraph(model.state_dict(), train_params['save_model_name'])
    # 绘制训练过程
    draw_train_process(all_iters,all_loss)
    predict = fix_value(predict.numpy())
    print(type(model.input_imgs))
    imput_imgs = fix_value(model.input_imgs.numpy())
    print('finished training')

    # 图像重构显示
    for i in range(10):
        show_array2img(np.reshape(imput_imgs[i], (28, 28)), 'input_img')
        show_array2img(np.asarray(np.reshape(predict[i], (28, 28))), 'rebuild_img')

七、机器翻译

#一、导入相关库
import paddle
import paddle.nn.functional as F
import re
import numpy as np

#二、读取数据
MAX_LEN = 20


# 1.准备数据
def read_data():
    # 用于读取数据
    data = []
    lines = open('./work/cmn.txt', encoding='utf-8').read().strip().split('\n')  # 用open来读取数据
    words_re = re.compile(r'\w+')  # 用于把英文句子分解成单词的正则匹配项
    for each in lines:
        en_sent, cn_sent, _ = each.split('\t')
        data.append((words_re.findall(en_sent.lower()), list(cn_sent)))

    data_filtered = []
    for each in data:
        # 选取中英文句子长度均小于20的样本
        if len(each[0]) < MAX_LEN and len(each[1]) < MAX_LEN:
            data_filtered.append(each)
    return data_filtered


def build_vocab(data):
    # 用于构建词典
    eng_vocab = {}  # 英文词典
    chn_vocab = {}  # 中文词典
    # 分别在词典中添加:代表填充词，代表开始词，代表结束词
    eng_vocab[''], eng_vocab[''], eng_vocab[''] = 0, 1, 2
    chn_vocab[''], chn_vocab[''], chn_vocab[''] = 0, 1, 2
    # 迭代data,一旦发现新词便加进词典里
    eng_idx, chn_idx = 3, 3
    for eng, chn in data:
        for word in eng:
            if word not in eng_vocab:
                eng_vocab[word] = eng_idx
                eng_idx += 1
        for word in chn:
            if word not in chn_vocab:
                chn_vocab[word] = chn_idx
                chn_idx += 1
    return eng_vocab, chn_vocab


data = read_data()  # 读取数据
eng_vocab, chn_vocab = build_vocab(data)  # 根据数据构建词典

#三、数据预处理
# 填充句子
padded_eng_sents = []
padded_chn_sents = []
padded_chn_label_sents = []
for eng, chn in data:
    # 给每个英文句子结尾加上,并且把不足MAX_LEN单词数量的英文句子填充
    padded_eng_sent = eng + [''] + [''] * (MAX_LEN - len(eng))
    # 给每个中文句子开头加上、结尾加上,并且把不足MAX_LEN个词数量的句子填充
    padded_chn_sent = [''] + chn + [''] + [''] * (MAX_LEN - len(chn))
    padded_chn_label_sent = chn + [''] + [''] * (MAX_LEN - len(chn) + 1)
    # 根据字典，把句子中的单词转成字典中相对应的数字
    padded_eng_sents.append([eng_vocab[w] for w in padded_eng_sent])
    padded_chn_sents.append([chn_vocab[w] for w in padded_chn_sent])
    padded_chn_label_sents.append([chn_vocab[w] for w in padded_chn_label_sent])

train_eng_sents = np.array(padded_eng_sents).astype('int64')
train_chn_sents = np.array(padded_chn_sents).astype('int64')
train_chn_label_sents = np.array(padded_chn_label_sents).astype('int64')

#四、构建模型
embedding_size = 128
hidden_size = 256
epochs = 50
batch_size = 64
eng_vocab_size = len(list(eng_vocab))
chn_vocab_size = len(list(chn_vocab))


# 编码器
class Encoder(paddle.nn.Layer):
    def __init__(self):
        super(Encoder, self).__init__()
        # 词向量层
        self.embed = paddle.nn.Embedding(eng_vocab_size, embedding_size)
        # 长短期记忆网络层
        self.lstm = paddle.nn.LSTM(input_size=embedding_size, hidden_size=hidden_size, num_layers=1)

    def forward(self, x):
        # 输入数据形状大小为[批量数,时间步长]
        x = self.embed(x)
        # 经过词嵌入层,输出形状大小为[批量数,时间步长,词向量维度(embedding_size)].其中，时间步长=MAX_LEN+1
        x, (_, _) = self.lstm(x)
        # 经过长短期记忆网络层，输出形状大小为：[批量数,时间步长,隐藏层维度(hidden_size)].其中，时间步长=MAX_LEN+1
        return x


# 解码器
class Decoder(paddle.nn.Layer):
    def __init__(self):
        super(Decoder, self).__init__()
        # 词嵌入层
        self.embed = paddle.nn.Embedding(chn_vocab_size, embedding_size)
        # 长短期记忆网络层
        self.lstm = paddle.nn.LSTM(input_size=embedding_size + hidden_size, hidden_size=hidden_size)
        # 注意力计算函数
        self.attention_linear1 = paddle.nn.Linear(hidden_size * 2, hidden_size)
        self.attention_linear2 = paddle.nn.Linear(hidden_size, 1)
        self.linear = paddle.nn.Linear(hidden_size, chn_vocab_size)

    def forward(self, x, previous_hidden, previous_cell, encoder_outputs):
        # 输入数据x的形状大小为[批量数, 1]
        # 上个时间步的隐藏层previous_hidden形状大小为[批量数, 1, 隐藏层维度(hidden_size)]
        # 上个时间步的单元previous_cell形状大小为[批量数, 1, 隐藏层维度(hidden_size)]
        # 编码器在各时间步隐藏状态encoder_outputs形状大小为[批量数，时间步长，隐藏层维度(hidden_size)]
        # 输入编码器的是英文句子，每句的长度为MAX_LEN+1，加了一个结束符
        x = self.embed(x)
        # 经过词嵌入层，输出形状大小为[批量数,1,词向量维度(embedding_size)]
        # 把编码器在各个时间部的隐藏状态与解码器的上一时间步的隐藏状态拼接起来
        # 编码器在各时间步隐藏状态encoder_outputs形状大小为[批量数，时间步长，隐藏层维度(hidden_size)]
        # 而解码器在上个时间步的隐藏层previous_hidden的形状大小为[批量数, 1, 隐藏层维度(hidden_size)]
        # 需要用paddle.tile方法对previous_hidden在时间步维度进行复制扩展
        # 之后，用paddle.concat方法把encoder_outputs和扩展后的previous_hidden在最后一个维度进行拼接
        # 输出attention_inputs的形状大小变为[批量数,时间步长，隐藏层维度*2]
        attention_inputs = paddle.concat(
            (encoder_outputs, paddle.tile(previous_hidden, repeat_times=[1, MAX_LEN + 1, 1])), axis=-1)
        # 采用单隐藏层的多层感知机进行变换
        attention_hidden = self.attention_linear1(attention_inputs)
        attention_hidden = F.tanh(attention_hidden)
        attention_logits = self.attention_linear2(attention_hidden)
        # 此时的输出形状大小为[批量数，时间步长，1]
        attention_logits = paddle.squeeze(attention_logits)  # 删除输入Tensor的Shape中尺寸为1的维度
        # 此时的输出形状大小为[批量数，时间步长]
        # 利用softmax运算得到注意力权重，形状大小为[批量数，时间步长]，每个取值在0至1之间，它是在时间维取权重。
        attention_weights = F.softmax(attention_logits)
        # 编码器在各时间步隐藏状态encoder_outputs形状大小为[批量数，时间步长，隐藏层维度(hidden_size)]
        # 而注意力权重的形状大小为[批量数，时间步长]，因此需要用paddle.unsqueeze方法对注意力权重增加一个维度
        # 接着，使用paddle.expand_as方法把注意力权重扩展成encoder_outputs的形状
        attention_weights = paddle.expand_as(paddle.unsqueeze(attention_weights, -1), encoder_outputs)
        # 逐元素相乘得到背景向量
        context_vector = paddle.multiply(encoder_outputs, attention_weights)
        # 此时的背景向量形状大小为[批量数，时间步长，隐藏层维度]
        # 接着对背景向量在时间步求和
        context_vector = paddle.sum(context_vector, 1)
        # 此时的背景向量形状大小为[批量数，隐藏层维度]
        context_vector = paddle.unsqueeze(context_vector, 1)  # 在第1维插入尺寸为1的维度
        # 此时的背景向量形状大小为[批量数，1，隐藏层维度]
        # 经过词嵌入层，输出x形状大小为[批量数,1,词向量维度(embedding_size)]
        # 把x与背景向量在最后一个维度上拼接起来，得到形状大小为[批量数，1，词向量维度+隐藏层维度]
        lstm_input = paddle.concat((x, context_vector), axis=-1)
        # 上个时间步的隐藏层previous_hidden形状大小转变为[1,批量数, 隐藏层维度(hidden_size)]
        previous_hidden = paddle.transpose(previous_hidden, [1, 0, 2])
        # 上个时间步的单元previous_cell形状大小转变为[1,批量数, 隐藏层维度(hidden_size)]
        previous_cell = paddle.transpose(previous_cell, [1, 0, 2])
        # 数据输入长短期记忆网络层
        x, (hidden, cell) = self.lstm(lstm_input, (previous_hidden, previous_cell))
        hidden = paddle.transpose(hidden, [1, 0, 2])
        cell = paddle.transpose(cell, [1, 0, 2])
        # 经过上述转置，当前时间步隐藏层输出形状大小为[批量数,1,隐藏层维度]
        output = self.linear(hidden)
        # 此时，输出形状大小为[批量数,1,中文词典大小]
        output = paddle.squeeze(output)  # 删除输入Tensor的Shape中尺寸为1的维度
        # 此时，输出形状大小为[批量数, 中文词典大小]
        return output, (hidden, cell)


#五、训练模型
encoder = Encoder()  # 生成编码器实例
decoder = Decoder()  # 生成解码器实例
# 优化器
optimizer = paddle.optimizer.Adam(learning_rate=0.001, parameters=encoder.parameters() + decoder.parameters())
# 进行训练
for epoch in range(epochs):
    print("第{}轮训练开始...".format(epoch))
    # 打乱数据顺序
    order = np.random.permutation(len(train_eng_sents))
    train_eng_sents_shuffled = train_eng_sents[order]
    train_chn_sents_shuffled = train_chn_sents[order]
    train_chn_label_sents_shuffled = train_chn_label_sents[order]

    for iteration in range(train_eng_sents_shuffled.shape[0] // batch_size):
        eng_sentence = train_eng_sents_shuffled[(batch_size * iteration):(batch_size * (iteration + 1))]
        eng_sentence = paddle.to_tensor(eng_sentence)

        encoder_outputs = encoder(eng_sentence)

        x_chn_data = train_chn_sents_shuffled[(batch_size * iteration):(batch_size * (iteration + 1))]
        x_chn_label_data = train_chn_label_sents_shuffled[(batch_size * iteration):(batch_size * (iteration + 1))]

        # shape: (batch,  num_layer(=1 here) * num_of_direction(=1 here), hidden_size)
        hidden = paddle.zeros([batch_size, 1, hidden_size])
        cell = paddle.zeros([batch_size, 1, hidden_size])

        loss = paddle.zeros([1])
        # 循环调用解码器,每次喂入一个时间步的批量数据
        for i in range(MAX_LEN + 2):
            chn_word = paddle.to_tensor(x_chn_data[:, i:i + 1])
            chn_word_label = paddle.to_tensor(x_chn_label_data[:, i])

            logits, (hidden, cell) = decoder(chn_word, hidden, cell, encoder_outputs)
            step_loss = F.cross_entropy(logits, chn_word_label)
            loss += step_loss

        loss = loss / (MAX_LEN + 2)
        if (iteration % 200 == 0):
            print("iter {}, loss:{}".format(iteration, loss.numpy()))

        loss.backward()
        optimizer.step()
        optimizer.clear_grad()

#六、模型预测
encoder.eval()
decoder.eval()

num_of_exampels_to_evaluate = 10

indices = np.random.choice(len(train_eng_sents), num_of_exampels_to_evaluate, replace=False)
x_data = train_eng_sents[indices]
sent = paddle.to_tensor(x_data)
en_repr = encoder(sent)

word = np.array([[chn_vocab['']]] * num_of_exampels_to_evaluate)
word = paddle.to_tensor(word)

hidden = paddle.zeros([num_of_exampels_to_evaluate, 1, hidden_size])
cell = paddle.zeros([num_of_exampels_to_evaluate, 1, hidden_size])

decoded_sent = []
for i in range(MAX_LEN + 2):
    logits, (hidden, cell) = decoder(word, hidden, cell, en_repr)
    word = paddle.argmax(logits, axis=1)
    decoded_sent.append(word.numpy())
    word = paddle.unsqueeze(word, axis=-1)

results = np.stack(decoded_sent, axis=1)
for i in range(num_of_exampels_to_evaluate):
    en_input = " ".join(data[indices[i]][0])
    ground_truth_translate = "".join(data[indices[i]][1])
    model_translate = ""
    for k in results[i]:
        w = list(chn_vocab)[k]
        if w != '' and w != '':
            model_translate += w
    print(en_input)
    print("true: {}".format(ground_truth_translate))
    print("pred: {}".format(model_translate))

八、目标检测

- -

总结

有趣的实验记录下来- -

你可能感兴趣的:(机器学习,人工智能)

Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Manus演示案例：英伟达财务估值建模解锁投资洞察的深度剖析 ylfhpy Manus 深度学习人工智能机器学习机器翻译 Manus
在当今瞬息万变的金融投资领域，精准剖析企业价值是投资者决胜市场的关键。英伟达（NVIDIA），作为科技行业的耀眼明星，其在人工智能和半导体领域的卓越表现备受瞩目。Manus凭借专业的财务估值建模能力，深入挖掘英伟达的潜在价值，为投资者提供了一份极具价值的分析报告。Manus在接到为英伟达进行详细财务估值建模的任务后，迅速且有条不紊地开展工作。数据收集是建模的基石，其重要性不言而喻。在收集英伟达公司
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
新的一年，新的感受和成长是小天才哦 #高职生闲谈服务器
本人现在是工作快2年的打工人，我是前年7月份毕业的大专生。其实我在大学刚开始的时候因为体验过社会的毒打，所以发誓一定要好好学习，而我也的确好好学习了，在学校2年时间里，大部分时间都是在图书馆里面看书，主要为啥天天在图书馆很大原因是本专业的课程自己不是非常喜欢（我是人工智能专业，人工智能专业大专学历出来基本也是打框的无聊活）所以我就自己学习了系统运维方向，这个过程也考取了RHCE认证，也是因为这个认
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
【漫话机器学习系列】130.主成分（Principal Components） IT古董漫话机器学习系列专辑机器学习人工智能 python
主成分（PrincipalComponents）详解1.什么是主成分？主成分（PrincipalComponents，PCs）是数据集中方差最大的线性组合，它是主成分分析（PrincipalComponentAnalysis，PCA）中的核心概念。主成分可以看作是对原始特征的新表述方式，它通过数学变换找到一组新的正交坐标轴，使得数据的主要变化方向与这些轴对齐。简单来说：主成分是数据集中信息量（方差
通义万相2.1：AI视频生成迎来“质变”，运镜、文字、物理规律全面突破 that's boy 人工智能通义万象2.1 chatgpt openai qwen AI作画 AI编程
AI视频生成，从“能看”到“惊艳”的跨越在人工智能的浪潮中，AI视频生成无疑是最受瞩目的领域之一。从最初的简单动画到如今的逼真模拟，AI视频生成技术正在快速发展，不断刷新人们的认知。近日，阿里云旗下通义万相视频生成模型宣布了2.1版本的重磅升级，不仅在性能上实现了全面提升，更在运镜、文字生成、物理规律模拟等方面取得了突破性进展，让AI视频生成真正进入了“质变”的新阶段。通义万相2.1的出现，不仅是
C++开源库大全大王算法 C/C++开发实战365 C++入门及项目实战宝典 c++开源
程序员要站在巨人的肩膀上，C++拥有丰富的开源库，这里包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++StandardLibrary：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。
基于PyTorch的深度学习——机器学习3 Wis4e 深度学习机器学习 pytorch
激活函数在神经网络中作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。在搭建神经网络时，如何选择激活函数？如果搭建的神经网络层数不多，选择sigmoid、tanh、relu、softmax都可以；而如果搭建的网络层次较多，那就需要小心，选择不当就可导致梯度消失问题。此时一般不宜选择sigmoid、tanh激活函数，因它们的导数都小于1
LangChain大模型应用开发指南-大模型Memory不止于对话喝不喝奶茶丫 langchain 人工智能大模型大模型应用 AI大模型 Memory 大语言模型
上节课，我我为您介绍了LangChain中最基本的链式结构，以及基于这个链式结构演化出来的ReAct对话链模型。今天我将由简入繁，为大家拆解LangChain内置的多种记忆机制。本教程将详细介绍这些记忆组件的工作原理、特性以及使用方法。【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习
llama.cpp框架下GGUF格式及量化参数全解析 Black_Rock_br 人工智能
前言：在人工智能领域，语言模型的高效部署和推理一直是研究热点。随着模型规模的不断扩大，如何在有限的硬件资源上实现快速、高效的推理，成为了一个关键问题。`llama.cpp`框架以其出色的性能和灵活性，为这一问题提供了有效的解决方案。其中，GGUF格式和模型量化参数是实现高效推理的重要技术手段。本文将对`llama.cpp`框架下的GGUF格式及量化参数进行详细解析，帮助读者更好地理解和应用这些技术
AI 驱动的软件测试革命：从自动化到智能化的进阶之路綦枫Maple AI+软件测试人工智能自动化运维
引言：软件测试的智能化转型浪潮在数字化转型加速的今天，软件产品的迭代速度与复杂度呈指数级增长。传统软件测试依赖人工编写用例、执行测试的模式，已难以应对快速交付与高质量要求的双重挑战。人工智能技术的突破为测试领域注入了新动能，通过机器学习、深度学习、自然语言处理等技术，测试流程正从“被动验证”向“主动预防”演进。本文将深入探讨AI与软件测试的融合路径，结合技术原理、工具实践与行业趋势，为读者呈现一幅
XGBClassifiler函数介绍浊酒南街 #算法机器学习 XGB
目录前言函数介绍示例前言XGBClassifier是XGBoost库中用于分类任务的类。XGBoost是一种高效且灵活的梯度提升决策树（GBDT）实现，它在多种机器学习竞赛中表现出色，尤其擅长处理表格数据。函数介绍XGBClassifiler(max_depth=3,learning_rate=0.1,n_estimators=100,objective='binary:logistic',boo
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
Ubuntu22.04安装CP2K最新版2025.1 jhonwyyc 机器学习深度学习 ubuntu
CP2K教程CP2K系列之一安装文章目录CP2K教程前言一、安装依赖库1.引入库二、下载并解压缩1.下载链接2.解压缩三、安装1.安装cp2k_toolchain2.安装cp2k3.指定根目录4.修改环境变量四、测试总结前言CP2K是一款开源的第一性原理计算软件，采用Fortran98编写。近年来结合机器学习与lammps，已成为热度逐年增加的软件。但是目前使用它仍存在不少难点。本文讲解在Ubun
Azure AI Document Intelligence 使用指南 scaFHIO azure 人工智能 flask python
AzureAIDocumentIntelligence使用指南AzureAIDocumentIntelligence（原名AzureFormRecognizer）是一项基于机器学习的服务，可以从数字或扫描PDF、图像、Office和HTML文件中提取文本（包括手写）、表格、文档结构（如标题、节标题等）和键值对。它支持多种格式，包括PDF、JPEG/JPG、PNG、BMP、TIFF、HEIF、DOC
鸢尾花数据集的四个特征具体是什么？学术乙方 Python 人工智能
鸢尾花数据集（IrisDataset）是机器学习领域中最经典的数据集之一，它包含150个样本，每个样本有4个特征，分别是：1.花萼长度（SepalLength）描述：花萼（花的外部绿色部分）的长度，单位为厘米。取值范围：通常为4.3cm到7.9cm。2.花萼宽度（SepalWidth）描述：花萼的宽度，单位为厘米。取值范围：通常为2.0cm到4.4cm。3.花瓣长度（PetalLength）描述：
大语言模型原理基础与前沿挑战与机遇 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿挑战与机遇1.背景介绍大语言模型（LargeLanguageModels,LLMs）是近年来人工智能领域的一个重要突破。它们通过深度学习技术，特别是基于变换器（Transformer）架构的模型，能够在自然语言处理（NLP）任务中表现出色。大语言模型的出现不仅推动了学术研究的发展，也在实际应用中展现了巨大的潜力。1.1大语言模型的起源大语言模型的起源可以追溯到早期的统计语言
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不