夜雨飘零1

《我的PaddlePaddle学习之路》笔记四——自定义图像数据集的识别

原文博客：Doi技术团队
链接地址：https://blog.doiduoyi.com/authors/1584446358138
初心：记录优秀的Doi技术团队学习经历

*本篇文章基于 PaddlePaddle 0.11.0、Python 2.7

数据集介绍

如果我们要训练自己的数据集的话,就需要先建立图像列表文件,下面的代码是Myreader.py读取图像数据集的一部分,从这些代码中可以看出,图像列表中,图像的路径和标签是以\t来分割的,所以我们在生成这个列表的时候,使用\t就可以了.

def train_reader(self,train_list, buffered_size=1024):
    def reader():
        with open(train_list, 'r') as f:
            lines = [line.strip() for line in f]
            for line in lines:
                img_path, lab = line.strip().split('\t')
                yield img_path, int(lab)

    return paddle.reader.xmap_readers(self.train_mapper, reader,
                                      cpu_count(), buffered_size)

生成的图像列表的结构是这样的:

../images/vegetables/lotus_root/1515827057517.jpg	2
../images/vegetables/lotus_root/1515827057582.jpg	2
../images/vegetables/lotus_root/1515827057616.jpg	2
../images/vegetables/lettuce/1515827015922.jpg	1
../images/vegetables/lettuce/1515827015983.jpg	1
../images/vegetables/lettuce/1515827016045.jpg	1
../images/vegetables/cuke/1515827008337.jpg	0
../images/vegetables/cuke/1515827008370.jpg	0
../images/vegetables/cuke/1515827008402.jpg	0

生成图像列表

所以我们要编写一个CreateDataList.py程序可以为我们生成这样的图像列表
在这个程序中,我们只要把一个大类的文件夹路径传进去就可以了,该程序会把里面的每个小类别都迭代,生成固定格式的列表.比如我们把蔬菜类别的根目录传进去../images/vegetables

# coding=utf-8
import os
import json

class CreateDataList:
    def __init__(self):
        pass

    def createDataList(self, data_root_path):
        # # 把生产的数据列表都放在自己的总类别文件夹中
        data_list_path = ''
        # 所有类别的信息
        class_detail = []
        # 获取所有类别
        class_dirs = os.listdir(data_root_path)
        # 类别标签
        class_label = 0
        # 获取总类别的名称
        father_paths = data_root_path.split('/')
        while True:
            if father_paths[father_paths.__len__() - 1] == '':
                del father_paths[father_paths.__len__() - 1]
            else:
                break
        father_path = father_paths[father_paths.__len__() - 1]

        all_class_images = 0
        # 读取每个类别
        for class_dir in class_dirs:
            # 每个类别的信息
            class_detail_list = {}
            test_sum = 0
            trainer_sum = 0
            # 把生产的数据列表都放在自己的总类别文件夹中
            data_list_path = "../data/%s/" % father_path
            # 统计每个类别有多少张图片
            class_sum = 0
            # 获取类别路径
            path = data_root_path + "/" + class_dir
            # 获取所有图片
            img_paths = os.listdir(path)
            for img_path in img_paths:
                # 每张图片的路径
                name_path = path + '/' + img_path
                # 如果不存在这个文件夹,就创建
                isexist = os.path.exists(data_list_path)
                if not isexist:
                    os.makedirs(data_list_path)
                # 每10张图片取一个做测试数据
                if class_sum % 10 == 0:
                    test_sum += 1
                    with open(data_list_path + "test.list", 'a') as f:
                        f.write(name_path + "\t%d" % class_label + "\n")
                else:
                    trainer_sum += 1
                    with open(data_list_path + "trainer.list", 'a') as f:
                        f.write(name_path + "\t%d" % class_label + "\n")
                class_sum += 1
                all_class_images += 1
            class_label += 1
            # 说明的json文件的class_detail数据
            class_detail_list['class_name'] = class_dir
            class_detail_list['class_label'] = class_label
            class_detail_list['class_test_images'] = test_sum
            class_detail_list['class_trainer_images'] = trainer_sum
            class_detail.append(class_detail_list)
        # 获取类别数量
        all_class_sum = class_dirs.__len__()
        # 说明的json文件信息
        readjson = {}
        readjson['all_class_name'] = father_path
        readjson['all_class_sum'] = all_class_sum
        readjson['all_class_images'] = all_class_images
        readjson['class_detail'] = class_detail
        jsons = json.dumps(readjson, sort_keys=True, indent=4, separators=(',', ': '))
        with open(data_list_path + "readme.json",'w') as f:
            f.write(jsons)


if __name__ == '__main__':
    createDataList = CreateDataList()
    createDataList.createDataList('../images/vegetables')

运行这个程序之后,会生成在data文件夹中生成一个单独的大类文件夹,比如我们这次是使用到蔬菜类,所以我生成一个vegetables文件夹,在这个文件夹下有3个文件:

文件名	作用
trainer.list	用于训练的图像列表
test.list	用于测试的图像列表
readme.json	该数据集的json格式的说明,方便以后使用

readme.json文件的格式如下,可以很清楚看到整个数据的图像数量,总类别名称和类别数量,还有每个类对应的标签,类别的名字,该类别的测试数据和训练数据的数量:

{
    "all_class_images": 3300,
    "all_class_name": "vegetables",
    "all_class_sum": 3,
    "class_detail": [
        {
            "class_label": 1,
            "class_name": "cuke",
            "class_test_images": 110,
            "class_trainer_images": 990
        },
        {
            "class_label": 2,
            "class_name": "lettuce",
            "class_test_images": 110,
            "class_trainer_images": 990
        },
        {
            "class_label": 3,
            "class_name": "lotus_root",
            "class_test_images": 110,
            "class_trainer_images": 990
        }
    ]
}

读取数据

通过MyReader.py这个程序可以将上一部分的图像列表读取,生成训练和测试使用的reader,在生成reader前,要传入一个图像的大小,PaddlePaddle会帮我们按照这个大小随机裁剪一个方形的图像,这是种随机裁剪也是数据增强的一种方式.

from multiprocessing import cpu_count
import paddle.v2 as paddle

class MyReader:
    def __init__(self,imageSize):
        self.imageSize = imageSize

    def train_mapper(self,sample):
        '''
        map image path to type needed by model input layer for the training set
        '''
        img, label = sample
        img = paddle.image.load_image(img)
        img = paddle.image.simple_transform(img, 70, self.imageSize, True)
        return img.flatten().astype('float32'), label

    def test_mapper(self,sample):
        '''
        map image path to type needed by model input layer for the test set
        '''
        img, label = sample
        img = paddle.image.load_image(img)
        img = paddle.image.simple_transform(img, 70, self.imageSize, False)
        return img.flatten().astype('float32'), label

    def train_reader(self,train_list, buffered_size=1024):
        def reader():
            with open(train_list, 'r') as f:
                lines = [line.strip() for line in f]
                for line in lines:
                    img_path, lab = line.strip().split('\t')
                    yield img_path, int(lab)

        return paddle.reader.xmap_readers(self.train_mapper, reader,
                                          cpu_count(), buffered_size)

    def test_reader(self,test_list, buffered_size=1024):
        def reader():
            with open(test_list, 'r') as f:
                lines = [line.strip() for line in f]
                for line in lines:
                    img_path, lab = line.strip().split('\t')
                    yield img_path, int(lab)

        return paddle.reader.xmap_readers(self.test_mapper, reader,
                                          cpu_count(), buffered_size)

定义神经网络

编写一个vgg.py来定义VGG神经网络，这里使用的是VGG神经网络,跟上一篇文章用到的VGG又有一点不同,这里可以看到conv_with_batchnorm=False，我是把BN关闭了，这是因为启用BN层的同时，也会使用Dropout层，因为数据集比较小，再使用Dropout就更小了，导致模型无法收敛。如果读者一定要启动BN层的话，可以单独关闭Dropout，把drop_rate全部设置为0。如果数据集大的话，就可以不用这样处理。

# coding:utf-8
import paddle.v2 as paddle

def vgg_bn_drop(datadim, type_size):
    # 获取输入数据模式
    image = paddle.layer.data(name="image",
                              type=paddle.data_type.dense_vector(datadim))

    def conv_block(ipt, num_filter, groups, dropouts, num_channels=None):
        return paddle.networks.img_conv_group(
            input=ipt,
            num_channels=num_channels,
            pool_size=2,
            pool_stride=2,
            conv_num_filter=[num_filter] * groups,
            conv_filter_size=3,
            conv_act=paddle.activation.Relu(),
            conv_with_batchnorm=False,
            conv_batchnorm_drop_rate=dropouts,
            pool_type=paddle.pooling.Max())

    conv1 = conv_block(image, 64, 2, [0.3, 0], 3)
    conv2 = conv_block(conv1, 128, 2, [0.4, 0])
    conv3 = conv_block(conv2, 256, 3, [0.4, 0.4, 0])
    conv4 = conv_block(conv3, 512, 3, [0.4, 0.4, 0])
    conv5 = conv_block(conv4, 512, 3, [0.4, 0.4, 0])

    drop = paddle.layer.dropout(input=conv5, dropout_rate=0.5)
    fc1 = paddle.layer.fc(input=drop, size=512, act=paddle.activation.Linear())
    bn = paddle.layer.batch_norm(input=fc1,
                                 act=paddle.activation.Relu(),
                                 layer_attr=paddle.attr.Extra(drop_rate=0.5))
    fc2 = paddle.layer.fc(input=bn, size=512, act=paddle.activation.Linear())
    # 通过Softmax获得分类器
    out = paddle.layer.fc(input=fc2,
                          size=type_size,
                          act=paddle.activation.Softmax())
    return out

使用PaddlePaddle开始训练

编写train.py文件训练模型。

导入依赖包

首先要先导入依赖包,其中有PaddlePaddle的V2包和上面定义的Myreader.py读取数据的程序

# coding:utf-8
import os
import sys
import paddle.v2 as paddle
from MyReader import MyReader
from vgg import vgg_bn_drop

初始化Paddle

然后我们创建一个类,再在类中创建一个初始化函数,在初始化函数中来初始化我们的PaddlePaddle

class PaddleUtil:
    def __init__(self):
        # 初始化paddpaddle,只是用CPU,把GPU关闭
        paddle.init(use_gpu=False, trainer_count=2)

获取参数

该函数可以通过输入是否是参数文件路径,或者是损失函数,如果是参数文件路径,就使用之前训练好的参数生产参数.如果不传入参数文件路径,那就使用传入的损失函数生成参数

def get_parameters(self, parameters_path=None, cost=None):
    if not parameters_path:
        # 使用cost创建parameters
        if not cost:
            raise NameError('请输入cost参数')
        else:
            # 根据损失函数创建参数
            parameters = paddle.parameters.create(cost)
            print "cost"
            return parameters
    else:
        # 使用之前训练好的参数
        try:
            # 使用训练好的参数
            with open(parameters_path, 'r') as f:
                parameters = paddle.parameters.Parameters.from_tar(f)
            print "使用parameters"
            return parameters
        except Exception as e:
            raise NameError("你的参数文件错误,具体问题是:%s" % e)

创建训练器

创建训练器要3个参数,分别是损失函数,参数,优化方法.通过图像的标签信息和分类器生成损失函数.参数可以选择是使用之前训练好的参数,然后在此基础上再进行训练,又或者是使用损失函数生成初始化参数.然后再生成优化方法.就可以创建一个训练器了.

# datadim 数据大小
def get_trainer(self, datadim, type_size, parameters_path):
    # 获得图片对于的信息标签
    label = paddle.layer.data(name="label",
                              type=paddle.data_type.integer_value(type_size))

    # 获取全连接层,也就是分类器
    out = vgg_bn_drop(datadim=datadim, type_size=type_size)

    # 获得损失函数
    cost = paddle.layer.classification_cost(input=out, label=label)

    # 获得参数
    if not parameters_path:
        parameters = self.get_parameters(cost=cost)
    else:
        parameters = self.get_parameters(parameters_path=parameters_path)

    '''
    定义优化方法
    learning_rate 迭代的速度
    momentum 跟前面动量优化的比例
    regularzation 正则化,防止过拟合
    '''
    optimizer = paddle.optimizer.Momentum(
        momentum=0.9,
        regularization=paddle.optimizer.L2Regularization(rate=0.0005 * 128),
        learning_rate=0.001 / 128,
        learning_rate_decay_a=0.1,
        learning_rate_decay_b=128000 * 35,
        learning_rate_schedule="discexp", )

    '''
    创建训练器
    cost 分类器
    parameters 训练参数,可以通过创建,也可以使用之前训练好的参数
    update_equation 优化方法
    '''
    trainer = paddle.trainer.SGD(cost=cost,
                                 parameters=parameters,
                                 update_equation=optimizer)
    return trainer

开始训练

要启动训练要4个参数,分别是训练数据,训练的轮数,训练过程中的事件处理,输入数据和标签的对应关系.
训练数据:这次的训练数据是我们自定义的数据集.
训练轮数:表示我们要训练多少轮,次数越多准确率越高,最终会稳定在一个固定的准确率上.不得不说的是这个会比MNIST数据集的速度慢很多
事件处理:训练过程中的一些事件处理,比如会在每个batch打印一次日志,在每个pass之后保存一下参数和测试一下测试数据集的预测准确率.
输入数据和标签的对应关系:说明输入数据是第0维度,标签是第1维度

# ***********************开始训练***************************************
def start_trainer(self, trainer, num_passes, save_parameters_name, trainer_reader, test_reader):
    # 获得数据
    reader = paddle.batch(reader=paddle.reader.shuffle(reader=trainer_reader,
                                                       buf_size=50000),
                          batch_size=128)
    # 保证保存模型的目录是存在的
    father_path = save_parameters_name[:save_parameters_name.rfind("/")]
    if not os.path.exists(father_path):
        os.makedirs(father_path)

    # 指定每条数据和padd.layer.data的对应关系
    feeding = {"image": 0, "label": 1}

    # 定义训练事件
    def event_handler(event):
        if isinstance(event, paddle.event.EndIteration):
            if event.batch_id % 100 == 0:
                print "\nPass %d, Batch %d, Cost %f, Error %s" % (
                    event.pass_id, event.batch_id, event.cost, event.metrics['classification_error_evaluator'])
            else:
                sys.stdout.write('.')
                sys.stdout.flush()

        # 每一轮训练完成之后
        if isinstance(event, paddle.event.EndPass):
            # 保存训练好的参数
            with open(save_parameters_name, 'w') as f:
                trainer.save_parameter_to_tar(f)

            # 测试准确率
            result = trainer.test(reader=paddle.batch(reader=test_reader,
                                                      batch_size=128),
                                  feeding=feeding)
            print "\nTest with Pass %d, Classification_Error %s" % (
            event.pass_id, result.metrics['classification_error_evaluator'])

    '''
    开始训练
    reader 训练数据
    num_passes 训练的轮数
    event_handler 训练的事件,比如在训练的时候要做一些什么事情
    feeding 说明每条数据和padd.layer.data的对应关系
    '''
    trainer.train(reader=reader,
                  num_passes=num_passes,
                  event_handler=event_handler,
                  feeding=feeding)

然后在main中调用相应的函数,开始训练,可以看到通过myReader.train_reader来生成一个reader

if __name__ == '__main__':
    # 类别总数
    type_size = 3
    # 图片大小
    imageSize = 64
    # 总的分类名称
    all_class_name = 'fruits'
    # 保存的model路径
    parameters_path = "../model/model.tar"
    # 数据的大小
    datadim = 3 * imageSize * imageSize
    paddleUtil = PaddleUtil()
    myReader = MyReader(imageSize=imageSize)
    # parameters_path设置为None就使用普通生成参数,
    trainer = paddleUtil.get_trainer(datadim=datadim, type_size=type_size, parameters_path=None)
    trainer_reader = myReader.train_reader(train_list="../data/%s/trainer.list" % all_class_name)
    test_reader = myReader.test_reader(test_list="../data/%s/test.list" % all_class_name)

    paddleUtil.start_trainer(trainer=trainer, num_passes=100, save_parameters_name=parameters_path,
                             trainer_reader=trainer_reader, test_reader=test_reader)

输出日志如下:’

Pass 0, Batch 0, Cost 1.162887, Error 0.6171875
.....................
Test with Pass 0, Classification_Error 0.353333324194

**提示：**如果报以下错误：

  File "/usr/local/lib/python2.7/dist-packages/paddle/v2/image.py", line 159, in load_image
    im = cv2.imread(file, flag)
AttributeError: 'NoneType' object has no attribute 'imread'

解决办法如下，首先升级以下CV2：

sudo pip install opencv-python -U

然后安装CV2的库：

sudo apt install libopencv-dev

使用PaddlePaddle预测

编写一个infer.py来预测我们的数据。
先定义一个获取模型参数的函数：

def get_parameters(parameters_path):
    with open(parameters_path, 'r') as f:
        parameters = paddle.parameters.Parameters.from_tar(f)
    return parameters

定义预测函数，该函数需要输入3个参数,
第一个是需要预测的图像,图像传入之后,会经过load_image函数处理,大小会变成32*32大小,训练是输入数据的大小一样.
第二个就是训练好的参数
第三个是通过神经模型生成的分类器

def to_prediction(image_paths, parameters, out, imageSize):

    # 获得要预测的图片
    test_data = []
    for image_path in image_paths:
        test_data.append((paddle.image.load_and_transform(image_path, 70, imageSize, False)
                          .flatten().astype('float32'),))

    # 获得预测结果
    probs = paddle.infer(output_layer=out,
                         parameters=parameters,
                         input=test_data)
    # 处理预测结果
    lab = np.argsort(-probs)
    # 返回概率最大的值和其对应的概率值
    all_result = []
    for i in range(0, lab.__len__()):
        all_result.append([lab[i][0], probs[i][(lab[i][0])]])
    return all_result

然后在main中调用相应的函数，开始预测,这个可以同时传入多个数据，可以同时预测，最后别忘了在使用PaddlePaddle前初始化PaddlePaddle。

if __name__ == '__main__':
    paddle.init(use_gpu=False, trainer_count=2)
    # 类别总数
    type_size = 3
    # 图片大小
    imageSize = 64
    # 保存的model路径
    parameters_path = "../model/model.tar"
    # 数据的大小
    datadim = 3 * imageSize * imageSize

    # 添加数据
    image_path = []
    image_path.append("../images/vegetables/cuke/1515826971850.jpg")
    image_path.append("../images/vegetables/lettuce/1515827012863.jpg")
    image_path.append("../images/vegetables/lotus_root/1515827059200.jpg")
    out = vgg_bn_drop(datadim=datadim, type_size=type_size)
    parameters = get_parameters(parameters_path=parameters_path)
    all_result = to_prediction(image_paths=image_path, parameters=parameters,
                                          out=out, imageSize=imageSize)
    for i in range(0, all_result.__len__()):
        print '预测结果为:%d,可信度为:%f' % (all_result[i][0], all_result[i][1])

输出的结果是:

预测结果为:0,可信度为:0.699004
预测结果为:0,可信度为:0.546674
预测结果为:2,可信度为:0.756389

所有代码

train.py，训练代码：

# coding:utf-8
import os
import sys
import paddle.v2 as paddle
from MyReader import MyReader
from vgg import vgg_bn_drop


class PaddleUtil:
    # ***********************初始化操作***************************************
    def __init__(self):
        # 初始化paddpaddle,只是用CPU,把GPU关闭
        paddle.init(use_gpu=False, trainer_count=2)

    # **********************获取参数***************************************
    def get_parameters(self, parameters_path=None, cost=None):
        if not parameters_path:
            # 使用cost创建parameters
            if not cost:
                raise NameError('请输入cost参数')
            else:
                # 根据损失函数创建参数
                parameters = paddle.parameters.create(cost)
                print "cost"
                return parameters
        else:
            # 使用之前训练好的参数
            try:
                # 使用训练好的参数
                with open(parameters_path, 'r') as f:
                    parameters = paddle.parameters.Parameters.from_tar(f)
                print "使用parameters"
                return parameters
            except Exception as e:
                raise NameError("你的参数文件错误,具体问题是:%s" % e)

    # ***********************获取训练器***************************************
    # datadim 数据大小
    def get_trainer(self, datadim, type_size, parameters_path):
        # 获得图片对于的信息标签
        label = paddle.layer.data(name="label",
                                  type=paddle.data_type.integer_value(type_size))

        # 获取全连接层,也就是分类器
        out = vgg_bn_drop(datadim=datadim, type_size=type_size)

        # 获得损失函数
        cost = paddle.layer.classification_cost(input=out, label=label)

        # 获得参数
        if not parameters_path:
            parameters = self.get_parameters(cost=cost)
        else:
            parameters = self.get_parameters(parameters_path=parameters_path)

        '''
        定义优化方法
        learning_rate 迭代的速度
        momentum 跟前面动量优化的比例
        regularzation 正则化,防止过拟合
        '''
        optimizer = paddle.optimizer.Momentum(
            momentum=0.9,
            regularization=paddle.optimizer.L2Regularization(rate=0.0005 * 128),
            learning_rate=0.001 / 128,
            learning_rate_decay_a=0.1,
            learning_rate_decay_b=128000 * 35,
            learning_rate_schedule="discexp", )

        '''
        创建训练器
        cost 分类器
        parameters 训练参数,可以通过创建,也可以使用之前训练好的参数
        update_equation 优化方法
        '''
        trainer = paddle.trainer.SGD(cost=cost,
                                     parameters=parameters,
                                     update_equation=optimizer)
        return trainer

    # ***********************开始训练***************************************
    def start_trainer(self, trainer, num_passes, save_parameters_name, trainer_reader, test_reader):
        # 获得数据
        reader = paddle.batch(reader=paddle.reader.shuffle(reader=trainer_reader,
                                                           buf_size=50000),
                              batch_size=128)
        # 保证保存模型的目录是存在的
        father_path = save_parameters_name[:save_parameters_name.rfind("/")]
        if not os.path.exists(father_path):
            os.makedirs(father_path)

        # 指定每条数据和padd.layer.data的对应关系
        feeding = {"image": 0, "label": 1}

        # 定义训练事件
        def event_handler(event):
            if isinstance(event, paddle.event.EndIteration):
                if event.batch_id % 100 == 0:
                    print "\nPass %d, Batch %d, Cost %f, Error %s" % (
                        event.pass_id, event.batch_id, event.cost, event.metrics['classification_error_evaluator'])
                else:
                    sys.stdout.write('.')
                    sys.stdout.flush()

            # 每一轮训练完成之后
            if isinstance(event, paddle.event.EndPass):
                # 保存训练好的参数
                with open(save_parameters_name, 'w') as f:
                    trainer.save_parameter_to_tar(f)

                # 测试准确率
                result = trainer.test(reader=paddle.batch(reader=test_reader,
                                                          batch_size=128),
                                      feeding=feeding)
                print "\nTest with Pass %d, Classification_Error %s" % (
                event.pass_id, result.metrics['classification_error_evaluator'])

        '''
        开始训练
        reader 训练数据
        num_passes 训练的轮数
        event_handler 训练的事件,比如在训练的时候要做一些什么事情
        feeding 说明每条数据和padd.layer.data的对应关系
        '''
        trainer.train(reader=reader,
                      num_passes=num_passes,
                      event_handler=event_handler,
                      feeding=feeding)


if __name__ == '__main__':
    # 类别总数
    type_size = 3
    # 图片大小
    imageSize = 64
    # 总的分类名称
    all_class_name = 'vegetables'
    # 保存的model路径
    parameters_path = "../model/model.tar"
    # 数据的大小
    datadim = 3 * imageSize * imageSize
    paddleUtil = PaddleUtil()

    # *******************************开始训练**************************************
    myReader = MyReader(imageSize=imageSize)
    # # parameters_path设置为None就使用普通生成参数,
    trainer = paddleUtil.get_trainer(datadim=datadim, type_size=type_size, parameters_path=None)
    trainer_reader = myReader.train_reader(train_list="../data/%s/trainer.list" % all_class_name)
    test_reader = myReader.test_reader(test_list="../data/%s/test.list" % all_class_name)

    paddleUtil.start_trainer(trainer=trainer, num_passes=100, save_parameters_name=parameters_path,
                             trainer_reader=trainer_reader, test_reader=test_reader)

infer.py，预测代码：

# coding:utf-8
import numpy as np
import paddle.v2 as paddle

from vgg import vgg_bn_drop


# **********************获取参数***************************************
def get_parameters(parameters_path):
    with open(parameters_path, 'r') as f:
        parameters = paddle.parameters.Parameters.from_tar(f)
    return parameters


# ***********************使用训练好的参数进行预测***************************************
def to_prediction(image_paths, parameters, out, imageSize):
    # 获得要预测的图片
    test_data = []
    for image_path in image_paths:
        test_data.append((paddle.image.load_and_transform(image_path, 70, imageSize, False)
                          .flatten().astype('float32'),))

    # 获得预测结果
    probs = paddle.infer(output_layer=out,
                         parameters=parameters,
                         input=test_data)
    # 处理预测结果
    lab = np.argsort(-probs)
    # 返回概率最大的值和其对应的概率值
    all_result = []
    for i in range(0, lab.__len__()):
        all_result.append([lab[i][0], probs[i][(lab[i][0])]])
    return all_result


if __name__ == '__main__':
    paddle.init(use_gpu=False, trainer_count=2)
    # 类别总数
    type_size = 3
    # 图片大小
    imageSize = 64
    # 保存的model路径
    parameters_path = "../model/model.tar"
    # 数据的大小
    datadim = 3 * imageSize * imageSize

    # *******************************开始预测**************************************
    # 添加数据
    image_path = []
    image_path.append("../images/vegetables/cuke/1515826971850.jpg")
    image_path.append("../images/vegetables/lettuce/1515827012863.jpg")
    image_path.append("../images/vegetables/lotus_root/1515827059200.jpg")
    out = vgg_bn_drop(datadim=datadim, type_size=type_size)
    parameters = get_parameters(parameters_path=parameters_path)
    all_result = to_prediction(image_paths=image_path, parameters=parameters,
                                          out=out, imageSize=imageSize)
    for i in range(0, all_result.__len__()):
        print '预测结果为:%d,可信度为:%f' % (all_result[i][0], all_result[i][1])

DownloadImages.py,下载图片的代码：
这个程序可以从百度图片中下载图片,可以多个类别一起下载,还可以指定下载数量

# -*- coding:utf-8 -*-
import re
import uuid
import requests
import os


class DownloadImages:
    def __init__(self,download_max,key_word):
        self.download_sum = 0
        self.download_max = download_max
        self.key_word = key_word
        self.save_path = '../images/download/' + key_word

    def start_download(self):
        self.download_sum = 0
        gsm = 80
        str_gsm = str(gsm)
        pn = 0
        if not os.path.exists(self.save_path):
            os.makedirs(self.save_path)
        while self.download_sum < self.download_max:
            str_pn = str(self.download_sum)
            url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&' \
                  'word=' + self.key_word + '&pn=' + str_pn + '&gsm=' + str_gsm + '&ct=&ic=0&lm=-1&width=0&height=0'
            print url
            result = requests.get(url)
            self.downloadImages(result.text)
        print '下载完成'

    def downloadImages(self,html):
        img_urls = re.findall('"objURL":"(.*?)",', html, re.S)
        print '找到关键词:' + self.key_word + '的图片，现在开始下载图片...'
        for img_url in img_urls:
            print '正在下载第' + str(self.download_sum + 1) + '张图片，图片地址:' + str(img_url)
            try:
                pic = requests.get(img_url, timeout=50)
                pic_name = self.save_path + '/' + str(uuid.uuid1()) + '.' + str(img_url).split('.')[-1]
                with open(pic_name, 'wb') as f:
                    f.write(pic.content)
                self.download_sum += 1
                if self.download_sum >= self.download_max:
                    break
            except  Exception, e:
                print '【错误】当前图片无法下载，%s' % e
                continue


if __name__ == '__main__':
    key_word_max = input('请输入你要下载几个类别:')
    key_words = []
    for sum in range(key_word_max):
        key_words.append(raw_input('请输入第%s个关键字:' % str(sum+1)))
    max_sum = input('请输入每个类别下载的数量:')
    for key_word in key_words:
        downloadImages = DownloadImages(max_sum, key_word)
        downloadImages.start_download()

上一章：《我的PaddlePaddle学习之路》笔记三——CIFAR彩色图像识别

下一章：《我的PaddlePaddle学习之路》笔记五——验证码的识别

项目代码

GitHub地址:https://github.com/yeyupiaoling/LearnPaddle

参考资料

http://paddlepaddle.org/

实用主义学Python（小白也容易上手的Python实用案例）

你可能感兴趣的:(PaddlePaddle)

大数据集群Spark-on-Yarn+Paddle深度学习模型部署 jqtree #大数据开发大数据 spark paddle
背景：因数据量较大，想要将模型部署到大数据集群上进行计算。测试环境：Spark版本：2.4.0Python版本：2.6.XPaddlePaddle版本：2.4.2处理器：CPU过程记录:1.python运行环境准备本人使用Anaconda管理虚拟环境。关于虚拟环境的准备：模型需要什么第三方库就安装哪些库，最后可以使用conda-pack打包虚拟环境。1.1conda-pack打包记录在虚拟环境里下
自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测 sirius12345123 paddlepaddle 逻辑回归人工智能
importnumpyasnpimportpaddleimportpaddle.nnasnnseed=1paddle.seed(seed)data=[[-0.5,7.7],[1.8,98.5],[0.9,57.8],[0.4,39.2],[-1.4,-15.7],[-1.4,-37.3],[-1.8,-49.1],[1.5,75.6],[0.4,34.0],[0.8,62.3]]data=np.a
深度学习篇---深度学习框架图像预处理&各部分组件 Ronin-Lotus 深度学习篇程序代码篇深度学习人工智能 Python 机器学习 pytorch paddlepaddle 深度学习框架
文章目录前言第一部分：图像预处理PaddlePaddle图像预处理PyTorch图像预处理第二部分：框架各部分组件PaddlePaddle1.卷积层(ConvolutionalLayer)2.池化层(PoolingLayer)3.全连接层(FullyConnectedLayer)4.激活函数(ActivationFunction)5.优化器(Optimizer)6.归一化(Normalizatio
超级好用、超准文字识别框架----飞浆PaddlePaddleOCR（文件检测+识别）实战篇数虫深度学习人工智能 ocr 飞桨
目录简介项目介绍安装难点问题解决办法参数介绍模型推理调用简介飞桨（PaddlePaddle）OCR（OpticalCharacterRecognition）是一个开源的深度学习框架，用于文字识别任务。它提供了一系列强大的工具和模型，可以用于实现各种文本识别应用。飞桨OCR主要包括以下几个方面的功能和特点：文字检测（TextDetection）：通过检测图像中的文本区域，确定文本的位置和边界框。文字
自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测辞落山逻辑回归
1.引言在这篇博客中，我们将使用PaddlePaddle框架实现一个逻辑回归模型，利用NumPy自定义数据集进行训练，并保存模型。最后，我们将演示如何加载保存的模型并进行预测。2.环境设置首先，确保已安装PaddlePaddle和NumPy：pipinstallpaddlepaddlenumpy3.数据集准备我们使用NumPy自定义一个简单的二分类数据集：importnumpyasnp#生成简单数
深度学习-笔记2 深度学习神经网络
paddlepaddle安装(使用cpu)：dockerpullregistry.baidubce.com/paddlepaddle/paddle:2.6.2查看下paddlepaddle的镜像层次和安装目录结构(没有看到dockerbuild文件，先感受一下目录结构吧)：dockerinspectregistry.baidubce.com/paddlepaddle/paddle:2.6.2|gr
使用PaddlePaddle实现逻辑回归：从训练到模型保存与加载 Luzem0319 paddlepaddle 逻辑回归人工智能
1.引入必要的库首先，需要引入必要的库。PaddlePaddle用于构建和训练模型，pandas和numpy用于数据处理，matplotlib用于结果的可视化。importpaddleimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt2.加载自定义数据集假设有一个CSV文件custom_dataset.csv，其中包含特征（自变量
【机器学习】自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测加德霍克机器学习 paddlepaddle 逻辑回归 python 作业
一、使用paddlepaddle框架实现逻辑回归1.数据部分：首先自定义了一个简单的数据集，特征X是100个随机样本，每个样本一个特征，目标值y基于线性关系并添加了噪声。将numpy数转换为Paddlepaddle张量，方便后续在模型中使用。2.模型定义部分：方案1：使用nn.Sequential组网代码解释①数据生成与转换：生成自定义的特征矩阵X和目标值向量y，并添加高斯噪声模拟真实数据。使用p
深度学习-笔记1 深度学习神经网络
刚开始接触深度学习相关内容，在这儿做一个笔记：网址：https://gitee.com/paddlepaddle/PaddleNLPpaddle-nlp是一个自然语言处理NLP方面的工具包(代码库)ERNIEERNIE是百度基于BERT改进的预训练大模型，结合了Transformer架构和知识增强机制。整体上可以分为预训练模型层和任务适配层，预训练模型层负责学习通用的语言知识和语义表示，任务适配层
深度学习篇---深度学习框架 Ronin-Lotus 深度学习篇深度学习人工智能 python Pytorch TensorFlow paddlepaddle
文章目录前言第一部分：框架简介1.PyTorch简介特点动态计算图易于上手强大的社区支持与Python的集成度高核心组件2.TensorFlow简介特点静态计算图跨平台强大的生态系统Keras集成核心组件3.PaddlePaddle简介特点易于使用高性能工业级应用丰富的预训练模型核心组件第二部分：基本操作PyTorch基本操作TensorFlow基本操作PaddlePaddle基本操作总结前言以上
PaddleSeg 从配置文件和模型 URL 自动化运行预测任务如若123 自动化运维人工智能深度学习
gitclonehttps://github.com/PaddlePaddle/PaddleSeg.git#在ipynb里面运行cdPaddleSegimportsyssys.path.append('/home/aistudio/work/PaddleSeg')importos#配置文件夹路径folder_path="/home/aistudio/work/PaddleSeg/configs"#
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
【Python】已解决：ModuleNotFoundError: No module named ‘paddle‘ 屿小夏 python paddle 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例步骤1：安装PaddlePaddle库步骤2：验证安装五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘paddle‘一、分析问题背景在使用Python进行深度学习开发时，开发者可能会选择使用PaddlePaddle作为深度学习框架。然而，有时在导入PaddlePaddle库时，可能会遇
Python包的安装 weixin_38778542 Python 包 python anaconda
只是在包装paddlepaddle包的时候，使用官方推荐的命令使用安装失败。大概看了一下，是其他的一些支持的包安装失败，要么是找不到，要么是版本问题，要么是自己网速差……自己又看不明白，或者是静不下心来仔细去查找问题，所以开了这个帖子，希望来记录一下学习Python中，在关于一些包的安装使用上的问题。同时也欢迎大家参与讨论。现在正在安装paddlepaddle以及其支持的包，主要学习https:/
震惊！PaddlePaddle竟然支持Python 3.7了！高斯纯牛奶
震惊！****PaddlePaddle****竟然支持****Python3.7****了！image这个2018，如果你还不知道这件事情，你就真的OUT了！几天之前，一条PaddlePaddle版本发布的消息，让开发者QQ群里的成员又惊又喜：PaddlePaddle支持了Python3.7。在外人看来，PaddlePaddle就像一位用情专一的“钢铁直男“，长久以来一直钟情于Python2.7，
PaddleOCR超大分辨率文本检测代码教程 LEILEI18A Python 深度学习 paddle paddleocr ppocr 超大分辨率文本检测
PaddleOCR超大分辨率文本检测代码教程目录1.前提2.PaddleOCR部署（win10下）3.解决思路和代码1.前提这是我提的issue：https://github.com/PaddlePaddle/PaddleOCR/issues/11888很多问题可以看：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/do
百度飞浆目标检测PPYOLOE模型在PC端、Jetson上的部署（python）代码能跑就可以百度目标检测 python 学习计算机视觉笔记
部署目标检测模型前，需要配置好paddlepaddle的环境：开始使用_飞桨-源于产业实践的开源深度学习平台(paddlepaddle.org.cn)PC端和Jetson板卡端的部署方法相同，如下（直接放置部署和测试代码）：importpaddle.inferenceimportcv2importnumpyasnpimporttimefrompaddle.inferenceimportConfig
百度飞桨教程（一）怎么这么多名字都被占了百度 paddlepaddle 人工智能
百度飞桨（paddle），是一个开源的深度学习平台百度飞桨的安装pipinstallpaddlepaddle-ihttps://mirror.baidu.com/pypi/simple手写数字识别案例我们来通过一个案例，大概了解paddle的使用importpaddleimportnumpyasnpfrompaddle.vision.transformsimportNormalizetransfo
Python，Nuitka，打包Paddle和Paddleocr，test.dist\\paddle\\fluid\\..\\libs‘；飞天小女警出击 python paddle 开发语言
Python版本3.9，Nuitka版本1.8.6，paddleocr版本2.6.1.3，paddlepaddle版本2.5.2Nuitka打包后提示报错File"C:\Users\Administrator\Desktop\XXX\XXX\test.dist\os.py",line1111,inadd_dll_directoryFileNotFoundError:[WinError2]系统找不到
ubuntu18.04+cuda11.4+nccl安装袁泽斌的学习记录 ubuntu
本文参考自，但更加详细的介绍了安装方法，避免走弯路ubuntu下安装nccl具体教程_ubuntu安装nccl-CSDN博客文章浏览阅读1w次，点赞5次，收藏12次。使用paddlepaddle框架进行多卡训练时报错：Traceback(mostrecentcalllast):File"train.py",line210,indo_train()File"train.py",line91,indo
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
TechDay公开课实录:PaddlePaddle车牌识别实战和心得 PaddleWeekly
车牌识别作为一种常见的图像识别的应用场景，已经是一个非常成熟的业务了，在传统的车牌识别中，可以使用字符分割+字符识别的方式来进行车牌识别，而深度学习兴起后，出现了很多端到端的车牌识别模型，不用分割字符，直接输入车牌图片即可识别出车牌字符。2019年1月5日百度深度学习线下技术公开课PaddlePaddleTechDay第一期演讲则邀请了百度认证布道师胡晓曼老师分享基于PaddlePaddle最新版
基于Python的paddleocr推理环境列表博观而约取,厚积而薄发 PaddlePaddle python 开发语言
基于Python的paddleocr推理环境列表，#Python==3.9.13，安装目录名不能太长#单独导入python-mpipinstallpaddlepaddle-gpu==2.6.0.post120-fhttps://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.htmlopencv-pythonlmdbimgaugscikit-i
pip安装paddlepaddle报错ERROR: Could not install packages due to an OSError 博观而约取,厚积而薄发 PaddlePaddle pip
ERROR:CouldnotinstallpackagesduetoanOSError:[Errno2]Nosuchfileordirectory:'C:\\Users\\yang\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\\LocalCache\\local-packages\\Pyt
paddlepaddle 2.6版本在WSL2环境中如何使用NVIDIA显卡运行神经网络 kampoo paddlepaddle 神经网络人工智能
paddlepaddle2.6版本发布后，官网上可以使用NVIDIAcuda12.x进行机器学习了，训练神经网络的效率大为提升。因为是在wsl2环境中安装，不是纯正的linux环境，其中一些小问题需要注意。使用conda安装飞浆，wsl2中安装了cuda12.x，跟飞浆2.6兼容，按照官网指令即可：condacreate-npp2cudapython=3.11condaactivatepp2cud
概率论与数理统计实验附源码及实验报告可打包为exe 货又星概率论经验分享笔记 python 开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
【新手必看】解决GitHub打不开问题，亲测有效货又星 github 笔记经验分享 python 开源开源软件
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
使用ssh链接GitHub，附GitHub命令货又星 ssh github 运维笔记经验分享开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
NSsimulation：使用python模拟Navier-Stokes equations（ns方程），附项目GitHub地址，亲测可用。（2023 apmcm、2024美赛）货又星 python github 开发语言笔记数学建模开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
PaddleNLP 自然语言处理知识图谱 uie-x-base,uie-m-large,uie-m-base模型使用时，报错Out of memory error on GPU 0 gpu内存不够货又星自然语言处理语言模型人工智能运维知识图谱 nlp gpt-3
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…️I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084Git
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。