云曦智划

【机器学习】数据科学基础——神经网络基础实验

活动地址：[CSDN21天学习挑战赛](https://marketing.csdn.net/p/bdabfb52c5d56532133df2adc1a728fd)

作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建设专家委员会（TIPCC）志愿者，以及编程爱好者，期待和大家一起学习，一起进步~
.
博客主页：ぃ灵彧が的学习日志
.
本文专栏：机器学习
.
专栏寄语：若你决定灿烂，山无遮，海无拦
.

文章目录

【机器学习】数据科学基础——神经网络基础实验
前言
- - 什么是神经网络？
一、基于全连接神经网络实型房价预测
- (一)、数据加载及预处理
- (二)、模型配置
- (三)、模型训练
- (四)、模型评估
- 小结
二、基于全连接神经网络实现宝石分类
- (一)、数据加载及预处理
- (二)、模型配置
- (三)、模型训练
- (四)、模型评估
- (五)、模型预测
三、基于高层API实现宝石分类
- (一)、准备数据
- (二)、配置网络
- (三)、训练网络
- (四)、模型评估
- (五)、模型预测：
总结

前言

什么是神经网络？

神经网络是一门重要的机器学习技术，它是目前人工智能领域内最为火热的研究方向——深度学习技术的基础。神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型，也是我们后续学习自然语言处理和视觉图像处理的基础

一、基于全连接神经网络实型房价预测

(一)、数据加载及预处理

导入相关包：

# import paddle.fluid as fluid
import paddle
import numpy as np
import os
import matplotlib.pyplot as plt

设置paddle默认的全局数据类型为float64

#设置默认的全局dtype为float64
paddle.set_default_dtype("float64")
#下载数据
print('下载并加载训练数据')
train_dataset = paddle.text.datasets.UCIHousing(mode='train')
eval_dataset = paddle.text.datasets.UCIHousing(mode='test')
train_loader = paddle.io.DataLoader(train_dataset, batch_size=32, shuffle=True)
eval_loader = paddle.io.DataLoader(eval_dataset, batch_size = 8, shuffle=False)

(二)、模型配置

线性回归本质上是一层不带激活函数的全连接层，因此本实验使用

paddle.nn.Linear(in_features,out_features,weight_attr=None,nias_attr=None,name=None)

来实现线性变换，其中，in_features为输入特征的维度，out_features为输出特征的维度，weight_attr指定权重参数的属性，表示使用默认的权值参数属性，将权重参数初始化为0，bias_attr指定偏置参数的属性，设置为False时，表示不会为该层添加偏置，name用于网络层输出的前缀标识，在自定义网络模型时，应当继承paddle.nn.Layer类，该类属于基于OOD实现的动态图，实现了训练模式与验证模式，训练模型会执行反向传播，而验证模式不包含反向传播，同时也为dropout等训练，验证时不同的操作提供了支持。在神经网络中，从输入到输出的过程称为网络的前向计算，在飞浆中，可用forward关键字标识，forward()函数定义函数从前到后的完整计算过程，是实现网络框架最重要的环节。

定义全连接网络：

# 定义全连接网络
class Regressor(paddle.nn.Layer):
    def __init__(self):
        super(Regressor, self).__init__()
        # 定义一层全连接层，输出维度是1，激活函数为None，即不使用激活函数
        self.linear = paddle.nn.Linear(13, 1, None)
    
    # 网络的前向计算函数
    def forward(self, inputs):
        x = self.linear(inputs)
        return x

(三)、模型训练

本实验中使用

paddle.optimizer.SGD(learning_rate=0.001,parameters=None,weight_decay=None,grad_clip=None,name=None)

进行优化，其中learning_rate为学习率，也就是参数梯度的更新步长，parameters指定优化器需要优化的参数，weight_decay为权重衰减系数，grad_clip为梯度裁减的策略，支持三种裁剪策略：paddle.nn.ClipGradByGlobalNorm、paddle.nn.ClipGradByNorm、paddle.nn.ClipGradByValue，梯度裁剪将梯度值阶段约束在一个范围内，防止使用深度网络时出现梯度爆炸的情况，默认值为None，此时将不进行梯度裁剪。定义好模型、损失函数和优化器之后，将数据分批送入模型中，并执行梯度反向传播更新参数（loss.backward()），达到训练目的，模型训练结束后，调用paddle.save()保存模型，后续进行预测时，只需要将训练好的模型参数加载到模型中，便可利用训练数据提取到的规律对测试数据进行预测。

代码如下：

Batch=0
Batchs=[]
all_train_accs=[]
def draw_train_acc(Batchs, train_accs):
    title="training accs"
    plt.title(title, fontsize=24)
    plt.xlabel("batch", fontsize=14)
    plt.ylabel("acc", fontsize=14)
    plt.plot(Batchs, train_accs, color='green', label='training accs')
    plt.legend()
    plt.grid()
    plt.show()

all_train_loss=[]
def draw_train_loss(Batchs, train_loss):
    title="training loss"
    plt.title(title, fontsize=24)
    plt.xlabel("batch", fontsize=14)
    plt.ylabel("loss", fontsize=14)
    plt.plot(Batchs, train_loss, color='red', label='training loss')
    plt.legend()
    plt.grid()
    plt.show()

model=Regressor() # 模型实例化
model.train() # 训练模式
mse_loss = paddle.nn.MSELoss()
opt=paddle.optimizer.SGD(learning_rate=0.0005, parameters=model.parameters())

epochs_num=200 #迭代次数
for pass_num in range(epochs_num):
    for batch_id,data in enumerate(train_loader()):
        image = data[0]
        label = data[1]
        predict=model(image) #数据传入model
        # print(predict)
        # print(np.argmax(predict,axis=1))
        loss=mse_loss(predict,label)
        # acc=paddle.metric.accuracy(predict,label.reshape([-1,1]))#计算精度
        # acc = np.mean(label==np.argmax(predict,axis=1))
        
        if batch_id!=0 and batch_id%10==0:
            Batch = Batch+10
            Batchs.append(Batch)
            all_train_loss.append(loss.numpy()[0])
            # all_train_accs.append(acc.numpy()[0]) 
            print("epoch:{},step:{},train_loss:{}".format(pass_num,batch_id,loss.numpy()[0])  )      
        loss.backward()       
        opt.step()
        opt.clear_grad()   #opt.clear_grad()来重置梯度
paddle.save(model.state_dict(),'Regressor')#保存模型
draw_train_loss(Batchs,all_train_loss)

模型训练过程中部分输出如下图1-1所示：

(四)、模型评估

模型训练结束后，根据保存的损失值的中间结果，绘制损失值随模型迭代次数的变化过程：

def draw_train_acc(Batchs,train_accs):
	title="training accs"
	plt.title(title,fontsize=24)
	plt.xlabel("batch",fontsize=14)
	plt.ylabel("acc",fontsize=14)
	plt.plot(Batchs,train_accs,color='green',label='training accs')
	plt.legend()
	plt.grid()
	plt.show()
draw_train_loss(Batchs,all_train_loss)

模型损失值随迭代次数变化趋势如下图1-2所示：

为了判断上述模型的性能，可在验证集上进行验证。首先将前面步骤保存的训练好的参数加载到新实例化的模型中，然后启动验证模型，将验证数据批量输入到网络中进行损失值计算，并输出模型在验证集上的损失值：

#模型评估
para_state_dict = paddle.load("Regressor") 
model = Regressor()
model.set_state_dict(para_state_dict) #加载模型参数
model.eval() #验证模式

losses = []
infer_results=[]
groud_truths=[]
for batch_id,data in enumerate(eval_loader()):#测试集
    image=data[0]
    label=data[1] 
    groud_truths.extend(label.numpy())    
    predict=model(image) 
    infer_results.extend(predict.numpy())      
    loss=mse_loss(predict,label)
    losses.append(loss.numpy()[0])
    avg_loss = np.mean(losses)
print("当前模型在验证集上的损失值为:",avg_loss)

输出结果如下图1-3所示：

绘制模型预测结果与真实值之间的差异，当模型的预测值等于真实值时，模型的预测效果是最优的，但是这种情况几乎不可能出现，因此作为对照，可以观察预测值与真实值构成的坐标点位于y=x直线的位置，判断模型性能的好坏，代码实现及图示如下：

#绘制真实值和预测值对比图
def draw_infer_result(groud_truths,infer_results):
    title='Boston'
    plt.title(title, fontsize=24)
    x = np.arange(1,20) 
    y = x
    plt.plot(x, y)
    plt.xlabel('ground truth', fontsize=14)
    plt.ylabel('infer result', fontsize=14)
    plt.scatter(groud_truths, infer_results,color='green',label='training cost') 
    plt.grid()
    plt.show()

draw_infer_result(groud_truths,infer_results)

真实值和预测值对比图如下图1-4所示：

小结

上述方法获得模型的拟合能力并没有达到最优，仍然具有很大的优化空间。线性回归算法只能处理线性可分的数据，对于线性不可分数据，在传统机器学习算法中，需要使用对数线性回归、广义线性回归或者其它回归算法，但是在神经网络中，可以通过添加激活函数、加深网络深度，实现任意函数的拟合。

二、基于全连接神经网络实现宝石分类

(一)、数据加载及预处理

加载必要的包：

import os
import zipfile
import random
import json
import cv2
import numpy as np
from PIL import Image
import paddle
import matplotlib.pyplot as plt
from paddle.io import Dataset

参数配置：

'''
参数配置
'''
train_parameters = {
    "input_size": [3, 224, 224],                           #输入图片的shape
    "class_dim": 25,                                     #分类数
    "src_path":"data/data55032/archive_train.zip",       #原始数据集路径
    "target_path":"/home/aistudio/data/dataset",        #要解压的路径 
    "train_list_path": "./train.txt",              #train_data.txt路径
    "eval_list_path": "./eval.txt",                  #eval_data.txt路径
    "label_dict":{},                                    #标签字典
    "readme_path": "/home/aistudio/data/readme.json",   #readme.json路径
    "num_epochs": 40,                                    #训练轮数
    "train_batch_size": 32,                             #批次的大小
    "learning_strategy": {                              #优化函数相关的配置
        "lr": 0.0001                                     #超参数学习率
    } 
}

定义解压函数，解压数据集：

def unzip_data(src_path,target_path):

    '''
    解压原始数据集，将src_path路径下的zip包解压至data/dataset目录下
    '''

    if(not os.path.isdir(target_path)):    
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()
    else:
        print("文件已解压")

生成数据列表：读取每个文件夹下的图片，将绝对路径统一保存于文件中：

def get_data_list(target_path,train_list_path,eval_list_path):
    '''
    生成数据列表
    '''
    #存放所有类别的信息
    class_detail = []
    #获取所有类别保存的文件夹名称
    data_list_path=target_path
    class_dirs = os.listdir(data_list_path)
    if '__MACOSX' in class_dirs:
        class_dirs.remove('__MACOSX')
    # #总的图像数量
    all_class_images = 0
    # #存放类别标签
    class_label=0
    # #存放类别数目
    class_dim = 0
    # #存储要写进eval.txt和train.txt中的内容
    trainer_list=[]
    eval_list=[]
    #读取每个类别
    for class_dir in class_dirs:
        if class_dir != ".DS_Store":
            class_dim += 1
            #每个类别的信息
            class_detail_list = {}
            eval_sum = 0
            trainer_sum = 0
            #统计每个类别有多少张图片
            class_sum = 0
            #获取类别路径 
            path = os.path.join(data_list_path,class_dir)
            # 获取所有图片
            img_paths = os.listdir(path)
            for img_path in img_paths:                                  # 遍历文件夹下的每个图片
                if img_path =='.DS_Store':
                    continue
                name_path = os.path.join(path,img_path)                       # 每张图片的路径
                if class_sum % 15 == 0:                                 # 每10张图片取一个做验证数据
                    eval_sum += 1                                       # eval_sum为测试数据的数目
                    eval_list.append(name_path + "\t%d" % class_label + "\n")
                else:
                    trainer_sum += 1 
                    trainer_list.append(name_path + "\t%d" % class_label + "\n")#trainer_sum测试数据的数目
                class_sum += 1                                          #每类图片的数目
                all_class_images += 1                                   #所有类图片的数目
            
            # 说明的json文件的class_detail数据
            class_detail_list['class_name'] = class_dir             #类别名称
            class_detail_list['class_label'] = class_label          #类别标签
            class_detail_list['class_eval_images'] = eval_sum       #该类数据的测试集数目
            class_detail_list['class_trainer_images'] = trainer_sum #该类数据的训练集数目
            class_detail.append(class_detail_list)  
            #初始化标签列表
            train_parameters['label_dict'][str(class_label)] = class_dir
            class_label += 1
            
    #初始化分类数
    train_parameters['class_dim'] = class_dim
    print(train_parameters)
    #乱序  
    random.shuffle(eval_list)
    with open(eval_list_path, 'a') as f:
        for eval_image in eval_list:
            f.write(eval_image) 
    #乱序        
    random.shuffle(trainer_list) 
    with open(train_list_path, 'a') as f2:
        for train_image in trainer_list:
            f2.write(train_image) 

    # 说明的json文件信息
    readjson = {}
    readjson['all_class_name'] = data_list_path                  #文件父目录
    readjson['all_class_images'] = all_class_images
    readjson['class_detail'] = class_detail
    jsons = json.dumps(readjson, sort_keys=True, indent=4, separators=(',', ': '))
    with open(train_parameters['readme_path'],'w') as f:
        f.write(jsons)
    print ('生成数据列表完成！')

调用前面的功能函数，生成数据列表，用于后面的训练与验证：

'''
参数初始化
'''
src_path=train_parameters['src_path']
target_path=train_parameters['target_path']
train_list_path=train_parameters['train_list_path']
eval_list_path=train_parameters['eval_list_path']
batch_size=train_parameters['train_batch_size']
'''
解压原始数据到指定路径
'''
unzip_data(src_path,target_path)

'''
划分训练集与验证集，乱序，生成数据列表
'''
#每次生成数据列表前，首先清空train.txt和eval.txt
with open(train_list_path, 'w') as f: 
    f.seek(0)
    f.truncate() 
with open(eval_list_path, 'w') as f: 
    f.seek(0)
    f.truncate() 
    
#生成数据列表   
get_data_list(target_path,train_list_path,eval_list_path)

为训练模型，需要定义一个数据集类将数据进行封装，该类需要继承paddle.io.Dataset抽象类，Dataset抽象了数据集的方法和行为，须实现以下方法：

__ getitem__：根据给定索引获取数据集中指定样本，在paddle.io.DataLoader中需要使用此函数通过下标获取样本；

__ len__：返回数据集样本个数，paddle.io.BatchSampler中需要样本个数生成下标序列。

本实验中自定义Reader(命名可自定义)类继承Dataset，然后再使用paddle.io.DataLoader进行批量数据处理，获取可批量迭代的数据加载器：

class Reader(Dataset):
    def __init__(self, data_path, mode='train'):
        """
        数据读取器
        :param data_path: 数据集所在路径
        :param mode: train or eval
        """
        super().__init__()
        self.data_path = data_path
        self.img_paths = []
        self.labels = []

        if mode == 'train':
            with open(os.path.join(self.data_path, "train.txt"), "r", encoding="utf-8") as f:
                self.info = f.readlines()
            for img_info in self.info:
                img_path, label = img_info.strip().split('\t')
                self.img_paths.append(img_path)
                self.labels.append(int(label))

        else:
            with open(os.path.join(self.data_path, "eval.txt"), "r", encoding="utf-8") as f:
                self.info = f.readlines()
            for img_info in self.info:
                img_path, label = img_info.strip().split('\t')
                self.img_paths.append(img_path)
                self.labels.append(int(label))


    def __getitem__(self, index):
        """
        获取一组数据
        :param index: 文件索引号
        :return:
        """
        # 第一步打开图像文件并获取label值
        img_path = self.img_paths[index]
        img = Image.open(img_path)
        if img.mode != 'RGB':
            img = img.convert('RGB') 
        img = img.resize((224, 224), Image.BILINEAR)
        img = np.array(img).astype('float32')
        img = img.transpose((2, 0, 1)) / 255
        label = self.labels[index]
        label = np.array([label], dtype="int64")
        return img, label

    def print_sample(self, index: int = 0):
        print("文件名", self.img_paths[index], "\t标签值", self.labels[index])

    def __len__(self):
        return len(self.img_paths)
    
	train_dataset = Reader('/home/aistudio/',mode='train')

	eval_dataset = Reader('/home/aistudio/',mode='eval')

#训练数据加载
train_loader = paddle.io.DataLoader(train_dataset, batch_size=16, shuffle=True)

#测试数据加载
eval_loader = paddle.io.DataLoader(eval_dataset, batch_size = 8, shuffle=False)

打印观察数据集的组成情况，构造的数据集中，训练集包含730条样本，测试集包含81条样本：

train_dataset.print_sample(200)
print(train_dataset.__len__())
eval_dataset.print_sample(0)
print(eval_dataset.__len__())
print(eval_dataset.__getitem__(10)[0].shape)
print(eval_dataset.__getitem__(10)[1].shape)

输出结果如图2-1所示：

(二)、模型配置

数据处理完毕后，需要设计模型实现宝石分类，本实验使用简单的深度全连接网络来实现宝石分类，在定义神经网络模型时，需要继承paddle.nn.Layer，然后实现继承类的初始化函数__init__(self, args)。在该初始化函数中，通常会定义网络中的子模块操作，全连接神经网络包含线性模块与激活模块，本实验使用paddle.nn.Linear与paddle.nn.ReLU实现网络的构建，paddle.nn.ReLU的激活方式为f(x)=max(x,0)，也就是若单元值为负数时，其激活值为0，否则激活值仍为本身：

#定义DNN网络
class MyDNN(paddle.nn.Layer):
    def __init__(self):
        super(MyDNN,self).__init__()
        self.linear1 = paddle.nn.Linear(in_features=3*224*224, out_features=1024)
        self.relu1 = paddle.nn.ReLU()

        self.linear2 = paddle.nn.Linear(in_features=1024, out_features=512)
        self.relu2 = paddle.nn.ReLU()

        self.linear3 = paddle.nn.Linear(in_features=512, out_features=128)
        self.relu3 = paddle.nn.ReLU()

        self.linear4 = paddle.nn.Linear(in_features=128, out_features=25)

    def forward(self,input):        # forward 定义执行实际运行时网络的执行逻辑
        # input.shape (16, 3, 224, 224)
        x = paddle.reshape(input, shape=[-1,3*224*224]) #-1 表示这个维度的值是从x的元素总数和剩余维度推断出来的，有且只能有一个维度设置为-1
        # print(x.shape)
        x = self.linear1(x)
        x = self.relu1(x)
        # print('1', x.shape)
        x = self.linear2(x)
        x = self.relu2(x)
        # print('2',x.shape)
        x = self.linear3(x)
        x = self.relu3(x)
        # print('3',x.shape)
        y = self.linear4(x)
        # print('4',y.shape)
        return y

(三)、模型训练

创建好模型之后，下一步就是模型的训练。在训练模型之前，先定义两个函数draw_train_acc(Batchs,train_accs)与draw_train_loss(Batchs,train_loss)，用来可视化训练过程中损失函数值与训练集准确率随迭代步数的变化趋势：

Batch=0
Batchs=[]
all_train_accs=[]
def draw_train_acc(Batchs, train_accs):
    title="training accs"
    plt.title(title, fontsize=24)
    plt.xlabel("batch", fontsize=14)
    plt.ylabel("acc", fontsize=14)
    plt.plot(Batchs, train_accs, color='green', label='training accs')
    plt.legend()
    plt.grid()
    plt.show()

all_train_loss=[]
def draw_train_loss(Batchs, train_loss):
    title="training loss"
    plt.title(title, fontsize=24)
    plt.xlabel("batch", fontsize=14)
    plt.ylabel("loss", fontsize=14)
    plt.plot(Batchs, train_loss, color='red', label='training loss')
    plt.legend()
    plt.grid()
    plt.show()

模型的训练包括模型实例化、开启训练模式、定义损失函数、定义优化器、循环前向迭代与反向参数更新等过程，本实验使用paddle.metric.accuracy(input,label,k=1,correct=None,total=None,name=None)直接计算分类的准确率，如果正确的标签在top k个预测值里，则计算结果加1，其中，input为预测分类的概率分布，shape为[sample_number,class_dim]，label为数据集的标签，shape为[sample_number,1]，k代表取每个类别中k个预测值用于计算，默认值为1，correct为正确预测值的个数，默认值为None，total为总共的预测值，默认值为None:

model=MyDNN() #模型实例化
model.train() #训练模式
cross_entropy = paddle.nn.CrossEntropyLoss()
opt=paddle.optimizer.SGD(learning_rate=0.001, parameters=model.parameters())

epochs_num=train_parameters['num_epochs'] #迭代次数
for pass_num in range(train_parameters['num_epochs']):
    for batch_id,data in enumerate(train_loader()):
        image = data[0]
        label = data[1]

        predict=model(image) #数据传入model

        loss=cross_entropy(predict,label)
        acc=paddle.metric.accuracy(predict,label)#计算精度
        
        if batch_id!=0 and batch_id%5==0:
            Batch = Batch+5 
            Batchs.append(Batch)
            all_train_loss.append(loss.numpy()[0])
            all_train_accs.append(acc.numpy()[0])
            
            print("train_pass:{},batch_id:{},train_loss:{},train_acc:{}".format(pass_num,batch_id,loss.numpy(),acc.numpy()))
        
        loss.backward()       
        opt.step()
        opt.clear_grad()   #opt.clear_grad()来重置梯度

paddle.save(model.state_dict(),'MyDNN')#保存模型

draw_train_acc(Batchs,all_train_accs)
draw_train_loss(Batchs,all_train_loss)

模型训练过程中部分输出及变化曲线如下图2-2所示：

绘制迭代次数-准确率/损失函数值曲线如图2-3和2-4所示

(四)、模型评估

模型训练完成后，需要对模型的泛化性能进行评估，在前面步骤划分数据集时预留的测试集上进行模型性能的评估，并输出其准确率，首先加载保存的模型参数，然后将参数值赋值给实例化的模型，调用model.eval()函数开启模型的验证模式，分批将测试数据输入到网络中进行预测：

#模型评估
para_state_dict = paddle.load("MyDNN")
model = MyDNN()
model.set_state_dict(para_state_dict) #加载模型参数
model.eval() #验证模式

accs = []

for batch_id,data in enumerate(eval_loader()):#测试集
    image=data[0]
    label=data[1]     
    predict=model(image)       
    acc=paddle.metric.accuracy(predict,label)
    accs.append(acc.numpy()[0])
    avg_acc = np.mean(accs)
print("当前模型在验证集上的准确率为:",avg_acc)

输出结果如图2-5所示：

(五)、模型预测

对于训练好的模型，可将其应用于实际场景的图像类型进行推理，因此，对于给定条或多条预测样本，需要首先定义基本的图像处理函数，对输入图像进行预处理，然后加载训练好的模型，在验证模式下进行预测：

import os
import zipfile

def unzip_infer_data(src_path,target_path):
    '''
    解压预测数据集
    '''
    if(not os.path.isdir(target_path)):     
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()


def load_image(img_path):
    '''
    预测图片预处理
    '''
    img = Image.open(img_path) 
    if img.mode != 'RGB': 
        img = img.convert('RGB') 
    img = img.resize((224, 224), Image.BILINEAR)
    img = np.array(img).astype('float32') 
    img = img.transpose((2, 0, 1))  # HWC to CHW 
    img = img/255                # 像素值归一化 
    return img


infer_src_path = '/home/aistudio/data/data55032/archive_test.zip'
infer_dst_path = '/home/aistudio/data/archive_test'
unzip_infer_data(infer_src_path,infer_dst_path)

'''
模型预测
'''
para_state_dict = paddle.load("MyDNN")
model = MyDNN()
model.set_state_dict(para_state_dict) #加载模型参数
model.eval() #训练模式

#展示预测图片
infer_path='data/archive_test/alexandrite_3.jpg'
img = Image.open(infer_path)
plt.imshow(img)          #根据数组绘制图像
plt.show()               #显示图像

#对预测图片进行预处理
infer_imgs = []
infer_imgs.append(load_image(infer_path))
infer_imgs = np.array(infer_imgs)

label_dic = train_parameters['label_dict']

for i in range(len(infer_imgs)):
    data = infer_imgs[i]
    dy_x_data = np.array(data).astype('float32')
    dy_x_data=dy_x_data[np.newaxis,:, : ,:]
    img = paddle.to_tensor (dy_x_data)
    out = model(img)
    lab = np.argmax(out.numpy())  #argmax():返回最大数的索引

    print("第{}个样本,被预测为：{},真实标签为：{}".format(i+1,label_dic[str(lab)],infer_path.split('/')[-1].split("_")[0]))
        
print("结束")

输出结果如图2-6所示：

三、基于高层API实现宝石分类

飞桨高层API面向从深度学习小白到资深开发者的所有人群，对于AI初学者来说，使用高层API可以简单快速地构建深度学习项目，对于资深开发者来说，可以快速完成算法迭代。

飞桨高层API具有以下特点：

（1）易学易用：高层API是对普通动态图API的进一步封装和优化，同时保持与普通API的兼容性，高层API使用更加易学易用，同样的实现使用高层API可以节省大量的代码；

（2）低代码开发：使用飞桨高层API的一个明显特点时编程代码量大大缩减；

（3）动静转换：高层API支持动静转换，只需要改一行代码即可实现动态图代码在静态图模式下训练，既方便使用动态图调整模型，又提高了训练效率。

在功能增强与使用方式上，高层API有以下升级：

（1）模型训练方式升级：高层API中封装了Model类，继承了Model类的神经网络可以仅用几行代码完成模型的训练；

（2）新增图像处理模块transform：飞桨新增了图像预处理模块，其中包含数十种数据处理函数，基本涵盖了常用的数据处理、数据增强方法；

（3）提供常用的神经网络模型可供调用：高层API中集成了计算机视觉领域和自然语言处理领域常用模型，包括但不限于mobilenet、resnet、yolov3、cyclegan、bert、transformer、seq2seq等。同时发布了对应模型的预训练模型，可以直接使用这些模型或者在此基础上完成二次开发。

(一)、准备数据

导入所需的包

#导入所需的包
import os
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import paddle
import paddle.nn as nn

生成图像列表

# 生成图像列表
data_path = './data/data54865/train'
test_path = './data/data54865/test'
character_folder = os.listdir(data_path)
img_size = 225
print(character_folder,len(character_folder))
if(os.path.exists('./train_data.txt')):
    os.remove('./train_data.txt')
if(os.path.exists('./test_data.txt')):
    os.remove('./test_data.txt')
label2id = {label:i for i,label in enumerate(character_folder)}  
labels_number=len(list(label2id))
for character_folder in label2id.keys():
    with open('./train_data.txt', 'a') as f_train:
        with open('./test_data.txt', 'a') as f_test:
            if character_folder == '.DS_Store':
                continue
            character_imgs = os.listdir(os.path.join(data_path,character_folder))
            count = 0 
            for img in character_imgs:
                if img == '.DS_Store':
                    continue
                if count%10 == 0:
                    f_test.write(os.path.join(data_path,character_folder,img) + '\t' + str(label2id[character_folder]) + '\n')
                else:
                    f_train.write(os.path.join(data_path,character_folder,img) + '\t' + str(label2id[character_folder]) + '\n')
                count +=1
print('--- 列表已生成')

通过继承paddle.io.Dataset 对数据集进行定义

import paddle
import paddle.vision.transforms as T
import numpy as np
from PIL import Image


class FoodDataset(paddle.io.Dataset):
    """
    数据集类的定义
    """
    def __init__(self, mode='train_data'):
        """
        初始化函数
        """
        self.data = []
        with open(f'{mode}.txt') as f:
            lines = f.readlines()
            np.random.shuffle(lines)
            for line in lines:
                info = line.strip().split('\t')
                if len(info) > 0:
                    self.data.append([info[0].strip(), info[1].strip()])  
                      
    def __getitem__(self, index):
        """
        根据索引获取单个样本
        """
        image_file, label = self.data[index]
        img = Image.open(image_file) 
        img = img.resize((img_size, img_size), Image.ANTIALIAS)
        img = np.array(img).astype('float32')
        # img = img[:,:,:]
        img = img.transpose((2, 0, 1))[:3,:,:]     #读出来的图像是rgb,rgb,rbg..., 转置为 rrr...,ggg...,bbb...
        # print(img.shape)
        img = img[:,:,:]/255.0
        # if img.size!=img_size*img_size*3:
        #     print('error-----------------------',img.size,img.shape)
        return img, np.array(label, dtype='int64')

    def __len__(self):
        """
        获取样本总数
        """
        return len(self.data)

# 训练的数据提供器
train_dataset = FoodDataset(mode='train_data')
# 测试的数据提供器
eval_dataset = FoodDataset(mode='test_data')

# 查看训练和测试数据的大小
print('train大小：', train_dataset.__len__())
print('eval大小：', eval_dataset.__len__())

# 查看图片数据、大小及标签
# for data, label in train_dataset:
#     print(data)
#     print(np.array(data).shape)
#     print(label)
#     break

(二)、配置网络

代码如下：

from paddle.nn import Linear
import paddle.nn.functional as F
import paddle

#定义DNN网络
class MyDNN(paddle.nn.Layer):
    def __init__(self):
        super(MyDNN,self).__init__()
        self.hidden1 = Linear(img_size,512)
        self.hidden2 = Linear(512,256)
        self.hidden3 = Linear(256,128)
        self.hidden4 = Linear(3*img_size*128,labels_number)
    
    def forward(self,input): 
        x = self.hidden1(input) 
        x =F.relu(x) 
        x = self.hidden2(x)
        x = F.relu(x) 
        x = self.hidden3(x)
        x = F.relu(x) 
        x = paddle.reshape(x, shape=[-1,3*img_size*128])  
        x = self.hidden4(x)
        y = F.softmax(x) 
        return y

network = MyDNN()
model = paddle.Model(network)  # 模型封装

# 配置优化器、损失函数、评估指标
model.prepare(paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters()), 
              paddle.nn.CrossEntropyLoss(), 
              paddle.metric.Accuracy())

# 可视化模型结构
# paddle.summary(network, (3,225,225))

(三)、训练网络

代码如下：

# 训练可视化VisualDL工具的回调函数
visualdl = paddle.callbacks.VisualDL(log_dir='visualdl_log')   

# 启动模型全流程训练
model.fit(train_dataset,  # 训练数据集
          eval_dataset,   # 评估数据集
          epochs=20,       # 训练的总轮次
          batch_size=64,  # 训练使用的批大小
          verbose=1,      # 日志展示形式
          callbacks=[visualdl])  # 设置可视化

训练部分过程如下图3-1所示：

(四)、模型评估

代码如下：

# 模型评估，根据prepare接口配置的loss和metric进行返回
result = model.evaluate(eval_dataset, verbose=1)
print(result)

# 保存模型
model.save('finetuning/model')

结果如下图3-2所示：

(参数有误，导致了准确率过低，不过大体方法和思路是没有问题的)

(五)、模型预测：

代码如下(模型准确率太低，此处不再进行预测图展示)：

# 读取图片
def load_image(path):
    img = Image.open(path)
    img = img.resize((img_size, img_size), Image.ANTIALIAS)
    img = np.array(img).astype('float32')
    img = img.transpose((2, 0, 1))
    img = img/255.0
    print(img.shape)
    return img

# 读取模型准备预测
model_state_dict = paddle.load('finetuning/model.pdparams')
model = MyDNN()
model.set_state_dict(model_state_dict) 
model.eval()

# 读取图片并预测
data = load_image('data/data55032/test/Alexandrite/alexandrite_18.jpg')
ceshi = model(paddle.to_tensor(data))
id2label = {v:k for k,v in label2id.items()}
print('预测的结果为:',id2label[np.argmax(ceshi.numpy())])

总结

本系列文章内容为根据清华社初版的《机器学习实践》所作的相关笔记和感悟，其中代码均为基于百度飞浆开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

最后，引用本次活动的一句话，来作为文章的结语～(￣▽￣～)~：

【学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。】

你可能感兴趣的:(机器学习,机器学习,神经网络,深度学习,python,云曦)

Python软件包中的__init__.py文件的作用 python_136 python
当然可以，我会尽量用更详细和易懂的方式来说明Python软件包中的__init__.py文件的作用。一、__init__.py文件的基本作用在Python中，一个包含__init__.py文件的目录被视为一个Python包。这个文件的存在告诉Python解释器，这个目录应该被当作一个整体来对待，里面的Python文件（.py文件）可以被当作模块（module）来导入。二、__init__.py文件
Python自动化运维：一键掌控服务器的高效之道蒙娜丽宁 Python杂谈运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在互联网和云计算高速发展的今天，服务器数量的指数增长使得手动运维和管理变得异常繁琐。Python凭借其强大的可读性和丰富的生态系统，成为实现自动化运维的理想语言。本文以“Python自动化运维：编写自动化脚本进行服务器管理”为主题，深入探讨了如何利用Py
蓝桥杯Python组最后几天冲刺———吐血总结,练题总结,很管用我学会了晚风时亦鹿学习笔记 Python算法笔记 python
一、重要知识要点1、穷举法2、枚举法3、动态规划4、回溯法5、图论6、深度优先搜索（DFS）7、广度优先搜索（BFS）8、二叉树9、递归10、分治法、矩阵法11、排列组合12、素数、质数、水仙花数13、欧几里得定理gcd14、求最大公约数、最小公倍数15、海伦公式（求三角形面积）16、博弈论17、贪心18、二分查找法19、hash表20、日期计算21、矩形快速幂22、树形DP23、最短路径24、最
Python二叉树用法介绍很酷的站长编程笔记 python 开发语言
二叉树是一种非常重要的数据结构，它在计算机科学中得到了广泛应用，例如在搜索算法、图形渲染和游戏AI等领域。本文将以Python二叉树为中心，从多个角度对其进行详细阐述，包括二叉树定义、二叉树遍历、二叉搜索树、平衡二叉树等内容。一、二叉树定义二叉树是一种有根树，它满足以下条件：每个节点最多有两个子节点每个节点只有一个父节点左子节点是其父节点的左子树，而右子节点是其父节点的右子树按照这个定义，我们可以
在VSCode中更改专用终端的Conda环境小白也有IT梦 python vscode
步骤打开VSCode：启动VSCode并打开你需要的工作目录。打开命令面板：使用快捷键Ctrl+Shift+P（Windows/Linux）或Cmd+Shift+P（macOS）打开命令面板。选择Conda环境：在命令面板中输入Python:SelectInterpreter并选择该选项。在出现的列表中选择你需要的Conda环境。这个步骤会改变当前工作目录下Python解释器的环境。打开终端：使用
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
Python 最最最使用的动态规划入门教程 + 10道经典例题我是阿核 Python 动态规划算法 python leetcode
不多废话，直接开讲动态规划三大步骤动态规划是一种将问题分解为若干个子问题，并存储这些子问题的解（通常使用数组或矩阵等数据结构），以便在后续计算中重复使用，从而避免了重复计算，提高了算法的效率。需要注意的是，动态规划并非一种特定的算法，而是一种解决问题的思想和方法。在实际应用中，需要根据具体问题的特点来设计合适的动态规划算法。动态规划的根本在于用已知项的求出未知项，并再次调用已经求出的未知项来解决更
Python : CCF-CSP真题——坐标变换（其一）我是阿核 Python 算法 leetcode python 经验分享
试题编号：202309-1试题名称：坐标变换（其一）时间限制：1.0s内存限制：512.0MB问题描述：问题描述对于平面直角坐标系上的坐标(x,y)，小P定义了一个包含n个操作的序列T=(t1,t2,⋯,tn)。其中每个操作ti（1≤i≤n）包含两个参数dxi和dyi，表示将坐标(x,y)平移至(x+dxi,y+dyi)处。现给定m个初始坐标，试计算对每个坐标(xj,yj)（1≤j≤m）依次进行T
C++ 数据结构——二叉树（最最最最最实用的二叉树教程）我是阿核 C++算法 c++数据结构 leetcode 笔记经验分享
本文章以实用为主，所以不多废话直接开整本文所介绍的二叉树是最基础的二叉树，不是二叉搜索树，也不是平衡二叉树，就基本的二叉树若需要Python版，请跳转到Python数据结构——二叉树（最最最最最实用的二叉树教程）二叉树的构建二叉树为一个父节点连接到两个子节点，若还要加入新的节点，那么此时的子节点将会变成新加入节点的父节点，以此类推，每一个父节点最多只有两个节点（所以叫二叉树）structTreeN
AttributeError: ‘NoneType‘ object has no attribute ‘xxx‘ Mad Soycat 常见BUG详见数据仓库大数据运维 centos linux
AttributeError:‘NoneType‘objecthasnoattribute‘xxx‘错误分析：AttributeError:'NoneType'objecthasnoattribute'xxx'AttributeError:'NoneType'objecthasnoattribute'xxx'错误通常出现在Python中，表示你尝试访问一个NoneType对象的属性或方法，但Non
如何查看和终止正在运行的Python进程 weixin_48705841 python 开发语言
如何查看和终止正在运行的Python进程无论是在开发过程中测试脚本，还是在生产环境中运行数据分析任务，了解如何查看和控制正在运行的Python进程对于维护系统状态和资源利用率至关重要。本文将介绍在两个主要操作平台（Unix/Linux/macOS和Windows）上执行这些任务的方法。在Unix/Linux/macOS上查看Python进程打开你的终端应用程序。输入以下命令并执行：ps-ef|gr
在亚马逊云科技上用AI提示词优化功能写出漂亮提示词（下）佛州小李哥人工智能 aws 亚马逊云科技云计算语言模型 ai 科技
提示工程（PromptEngineering）对各位小伙伴们来说是再熟悉不过了，提示词工程技术是通过编写指令词，指导开发者们调用AI基础模型（FMs）获得期望的响应。但是经常写提示词的朋友们会知道，为了获取理想的输出，我们可能需要花费数月时间不断进行实验和调整才能得到最优的提示词，同时不同基础模型的提示词最佳实践也不尽相同，这意味着我们要设计兼容不同模型类别的提示词。此外提示词通常是与特定模型和特
Python 数据结构——二叉树（最最最最最实用的二叉树教程）我是阿核 Python 数据结构算法 python
本文章以实用为主，所以不多废话直接开整本文所介绍的二叉树是最基础的二叉树，不是二叉搜索树，也不是平衡二叉树，就基本的二叉树二叉树的创建基本二叉树的创建其实比链表还要简单，只需创建一个节点的类即可，随后用指针将其串起来。不同于链表的是，二叉树为一个父节点连接到两个子节点，若还要加入新的节点，那么此时的子节点将会变成新加入节点的父节点，以此类推，每一个父节点最多只有两个节点（所以叫二叉树）我们将上述图
python3.6遇到Unicode编码字符串比较问题：\u672a\u4f7f\u7528与同样内容的变量比较总是false[已解决] xiaobailx python问题 Python3 Unicode 字符串比较编码转换解码
我的state变量值是一个unicode编码的字符串，需求是和一个unicode编码的字符串比较state==’\u672a\u4f7f\u7528‘//结果是false原因及解决方法：当将unicode编码字符串输出时会直接转换为utf8格式即变成正常的中文。但变量state中存储的仍然是Unicode编码字符串所以不一致。且由于python3.6去除了字符串的decode方法，所以无法将变量中
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
使用 Python结合ffmpeg 实现单线程和多线程推流浪浪山小白兔 python ffmpeg opencv
一、引言在本文中，我们将详细介绍如何使用Python进行视频的推流操作。我们将通过两个不同的实现方式，即单线程推流和多线程推流，来展示如何利用cv2（OpenCV）和subprocess等库将视频帧推送到指定的RTMP地址。这两种方式都涉及到从摄像头读取视频帧，以及使用ffmpeg命令行工具将视频帧进行编码和推流的过程。二、单线程推流以下是单线程推流的代码：importcv2ascvimports
计算1+2+3+4+5+6...+100用python_100个Python练手小程序，学习python的很好的资料 weixin_39879881
原标题：100个Python练手小程序，学习python的很好的资料100个Python练手小程序，学习python的很好的资料，覆盖了python中的每一部分，可以边学习边练习，更容易掌握python。本文附带基础视频教程：私信回复【基础】就可以获取的【程序1】题目：有1、2、3、4个数字，能组成多少个互不相同且无重复数字的三位数？都是多少？1.程序分析：可填在百位、十位、个位的数字都是1、2、
计算1+2+3+4+5+6...+100用python_循环 - 廖雪峰的官方网站 weixin_39809140
循环要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=['Michael','Bob','Tr
编写五子棋的完整python代码_Python 大作业之五子棋游戏(附代码) weixin_39656513
Python大作业——五子棋游戏姓名：吴欣学号：姓名：张雨清学号：一游戏介绍：我们设计的是五子棋游戏，支持两人一个鼠标对下，黑方用左键单击，白方用右键单击，谁先下均可，落子无悔，下过的棋子对方点击后不会变色，程序可自行判断输赢并在五子连珠时弹出结果对话框，游戏双方需遵守不在空地点击和一次下一子的规则。二游戏代码设计：代码均为原创，没有借鉴和抄袭，首先是用户GUI界面设计，点击start进入游戏界面
华为OD机试E卷 --快递投放问题 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述有N个快递站点用字符串标识，某些站点之间有道路连接。每个站点有一些包裹要运输，每个站点间的包裹不重复，路上有检查站Q会导致部分货物无法通行，计算哪些货物无法正常投递?输入描述第一行输入MN，M个包裹N个道路信息…O<=M,N<=100,检查站禁止通行的包裹如果有多个以空格分开输出描述输出不
Python 3 编程教程 - Tkinter 事件处理 sentdex python
这段文字主要讲解了在使用Tkinter构建GUI窗口时，如何为按钮添加事件处理功能，具体来说是：创建窗口和按钮:这段代码首先创建了一个简单的GUI窗口，并添加了一个按钮。添加事件处理功能:为了让按钮点击后执行特定操作，需要为按钮添加command属性，该属性的值是一个函数名，当按钮被点击时，该函数会被调用。定义事件处理函数:这段代码定义了一个名为client_exit的函数，该函数将作为按钮点击后
python保留字符串中数字，去除字母，再转化为Int类型操作梦云澜 python python 开发语言
现在我们有一个这样的分类列表：categories=['Layer1','Layer2','Layer3','Layer4','Layer5','Layer6','WM']我们想保留其中的分类的数字，去除字母，该怎么做呢？首先第一步：importpandasaspdimportre#原始分类数据categories=['Layer1','Layer2','Layer3','Layer4','Lay
pythonAI算法中使用ffmpeg推流记录脱僵的的野码 ffmpeg 网络
首先呢需求是这样的需要在远端播放检测的画面这个事情解决的思路1.用的网络摄像头，将摄像头的流推到rtmp1流地址2.项目中的输入流就是rtmp1的地址视频流3.开始对视频各种检测，检测后将帧的frame推到rtmp24.随便找个播放器去播放rtmp2的流期间遇到了一些问题就是推上去的流在远端播放就直接裂开了大概4秒一卡顿，后来发现是ffmpg-r参数默认值是25我的frame推上去的流fps才11
多张图片读入后组成一个矩阵。怎么读取图片，可以让其读入的形式是：ndarray（a,b,c）分别的含义：a为多少张图片，b*c为图片大小洛水微寒矩阵线性代数
不显示通道数：要将多张图片读取为一个NumPy数组（ndarray），其中a表示图片数量，b和c分别表示每张图片的高度和宽度（不显示通道数），你可以使用Python中的PIL（Pillow）库和NumPy库。下面是一个示例代码，展示了如何实现这一点：代码示例importnumpyasnpfromPILimportImageimportosdefload_images_from_folder(fol
conv2former模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能 python 神经网络 conda
模型背景在Conv2Former模型提出之前，视觉识别领域的研究主要集中在两个方向：传统卷积神经网络（ConvNets）新兴的视觉Transformer（ViTs）ConvNets通过堆叠基本模块和采用金字塔结构取得了显著进展，但往往忽略了全局上下文信息的显式建模。ViTs则通过自注意力机制有效捕捉全局依赖关系，在多个视觉任务中展现出优异性能。然而，ViTs在处理高分辨率图像时面临计算成本过高的问
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
华为OD机试E卷 - 螺旋数字矩阵（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od 矩阵 java 华为OD机试E卷 python javascript C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述疫情期间，小明隔离在家，百无聊赖，在纸上写数字玩。他发明了一种写法：给出数字个数n和行数m（0
R语言机器学习算法实战系列（十九）特征选择之Monte Carlo算法（Monte Carlo Feature Selection）生信学习者1 R语言机器学习实战 r语言机器学习算法数据分析数据挖掘数据可视化人工智能
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理步骤下载数据加载R包导入数据数据预处理数据分割MCFS运行MCFS-ID过程混淆矩阵重要特征的RI最小阈值距离与共同部分收敛特征重要性排序选择重要特征构建特征依赖图提取重要特征基于重要特征构建随机森林模型混淆矩阵评估模型AUC曲线刻画模型在训练和测试数据集的表现总结系统信息介绍特征选择（FeatureSel
F#语言的图形用户界面沈霁晨包罗万象 golang 开发语言后端
F#语言的图形用户界面开发引言随着软件开发的日益复杂化，图形用户界面（GUI）在现代应用程序中的重要性不可忽视。它提供了一种直观的方式，使用户能够与应用程序进行交互。F#语言作为一种函数式编程语言，近年来在开发领域越来越受到关注，尤其是在数据分析和机器学习领域。但F#同样能够用于图形用户界面的开发，尤其是结合.NET平台及其丰富的库。本文将深入探讨F#语言在图形用户界面开发中的应用，包括常用的框架
深入探讨Web应用开发：从前端到后端的全栈实践禁默前端
目录引言1.Web应用开发的基本架构2.前端开发技术HTML、CSS和JavaScript前端框架与库响应式设计与移动优先3.后端开发技术Node.js（JavaScript后端）Python（Flask和Django）RubyonRailsJava（SpringBoot）4.数据库选择与管理关系型数据库（SQL）非关系型数据库（NoSQL）5.API设计与开发RESTfulAPIGraphQL6
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文