DeepHao

Tensorflow 笔记 XIII——“百无聊赖”：深挖 mnist 数据集与 fashion-mnist 数据集的读取原理，经典数据的读取你真的懂了吗？

文章目录

数据集简介

Mnist

出门右转

Fashion-Mnist

数据集制作需求来源
写给专业的机器学习研究者
获取数据
类别标注

读取原理

原理获取

TRAINING SET LABEL FILE (train-labels-idx1-ubyte)
TRAINING SET IMAGE FILE (train-images-idx3-ubyte)
TEST SET LABEL FILE (t10k-labels-idx1-ubyte)
TRAINING SET IMAGE FILE (train-images-idx3-ubyte)

gzip使用
字节存储顺序

源码开干

文件列表说明
模块导入
gzip 使用
数据读取方式一
数据获取方式二

获取整个Mnist训练集、测试集与验证集
获取整个 Fashion-Mnist 训练集、测试集与验证集

数据获取方式三

读取整个 Mnist 数据集
读取整个 Fashion-Mnist 数据集

数据集简介

介绍两种深度学习极其经典的数据集，每一个深耕深度学生的“玩家”都一定有所耳闻，但是我们往往深耕神经网络的算法原理，前向传播与反向传播，那么这些优秀的数据集是如何集成出来，又如何被读取的呢，知道菜的味道，却不闻饭香太不公平了吧，数据集制作也是一大学问，已经封脚，今天就来会会这被忽略的数据集

Mnist

出门右转

放个图，以免此块太空虚，简单来说就是一个“多人运动”，多人手写阿拉伯0~10的数据集，里面包含图片与标签，详情点击这里【Tensorflow 笔记 Ⅳ——mnist手写数字识别】瞧一波，不亏的，当然强中强，归官网，猛戳这里 THE MNIST DATABASE of handwritten digits

Fashion-Mnist

名如其集，肯定要比 Mnist Fashion 一些，多达几万件的衣服裤子，能不 Fashion 都难，具体的数据集描述与其他信息参见 Fashion-MNIST，这里多有摘抄。【哎越来越懒了，毕竟这种介绍的东西不是我们的心头菜┗|｀O′|┛ 嗷~~】

Fashion-MNIST是一个替代MNIST手写数字集的图像数据集。它是由Zalando（一家德国的时尚科技公司）旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。Fashion-MNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分，28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能，且不需要改动任何的代码。

这个数据集的样子大致如上图，embeding 动图在此

数据集制作需求来源

经典的MNIST数据集包含了大量的手写数字。十几年来，来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议，期刊的论文中发现这个数据集的身影。实际上，MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道：“如果一个算法在MNIST不work, 那么它就根本没法用；而如果它在MNIST上work, 它在其他数据上也可能不work！”

Fashion-MNIST的目的是要成为MNIST数据集的一个直接替代品。作为算法作者，你不需要修改任何的代码，就可以直接使用这个数据集。Fashion-MNIST的图片大小，训练、测试样本数及类别数与经典MNIST完全相同。

写给专业的机器学习研究者

我们是认真的。取代MNIST数据集的原因由如下几个：

MNIST太简单了。 很多深度学习算法在测试集上的准确率已经达到99.6%！不妨看看我们基于scikit-learn上对经典机器学习算法的评测和这段代码： “Most pairs of MNIST digits can be distinguished pretty well by just one pixel”（翻译：大多数MNIST只需要一个像素就可以区分开！）
MNIST被用烂了。 参考：“Ian Goodfellow wants people to move away from mnist”（翻译：Ian Goodfellow希望人们不要再用MNIST了。）
MNIST数字识别的任务不代表现代机器学习。 参考：“François Cholle: Ideas on MNIST do not transfer to real CV” （翻译：在MNIST上看似有效的想法没法迁移到真正的机器视觉问题上。）

获取数据

很多的机器学习库已经内置了Fashion-MNIST数据或接口，方便你直接使用。

你可以使用以下链接下载这个数据集。Fashion-MNIST的数据集的存储方式和命名与经典MNIST数据集完全一致。

名称	描述	样本数量	文件大小	链接	MD5校验和
`train-images-idx3-ubyte.gz`	训练集的图像	60,000	26 MBytes	下载	`8d4fb7e6c68d591d4c3dfef9ec88bf0d`
`train-labels-idx1-ubyte.gz`	训练集的类别标签	60,000	29 KBytes	下载	`25c81989df183df01b3e8a0aad5dffbe`
`t10k-images-idx3-ubyte.gz`	测试集的图像	10,000	4.3 MBytes	下载	`bef4ecab320f06d8554ea6380940ec79`
`t10k-labels-idx1-ubyte.gz`	测试集的类别标签	10,000	5.1 KBytes	下载	`bb300cfdad3c16e7a12a480ee83cd310`

或者，你可以直接克隆这个代码库。数据集就放在data/fashion下。这个代码库还包含了一些用于评测和可视化的脚本。

git clone [email protected]:zalandoresearch/fashion-mnist.git

类别标注

每个训练和测试样本都按照以下类别进行了标注：

标注编号	描述
0	T-shirt/top（T恤）
1	Trouser（裤子）
2	Pullover（套衫）
3	Dress（裙子）
4	Coat（外套）
5	Sandal（凉鞋）
6	Shirt（汗衫）
7	Sneaker（运动鞋）
8	Bag（包）
9	Ankle boot（踝靴）

读取原理

从上面给的 Mnist 官网地址进入，这里的信息都从官网地址所获取而来
Mnist 数据集与 Fashion-Mnist 数据集的命名规范，格式，压缩类型等等，基本除了大小不一样，内部存储的数据不同，其它基本是一样的，包括内存地址中一些关键数据的相对地址都是相同的，所以它们两个数据集的读取方式基本一致【简直完全一致好不好】，所以我们可以从 mnist 数据集读取原理来读取 fashion-mnist 数据集

香吗？象

原理获取

一共有四个文件

train-images-idx3-ubyte: training set images
train-labels-idx1-ubyte: training set labels
t10k-images-idx3-ubyte: test set images
t10k-labels-idx1-ubyte: test set labels

训练集 60000，测试集 10000
官网对这 4 个文件列举了如下信息，目的就是说明如何读取这些数据

TRAINING SET LABEL FILE (train-labels-idx1-ubyte)

[offset]	[type]	[value]	[description]
0000	32 bit integer	0x00000801(2049)	magic number (MSB first)
0004	32 bit integer	60000	number of items
0008	unsigned byte	??	label
0009	unsigned byte	??	label
…	…	…	…
xxxx	unsigned byte	??	label

TRAINING SET IMAGE FILE (train-images-idx3-ubyte)

[offset]	[type]	[value]	[description]
0000	32 bit integer	0x00000803(2051)	magic number
0004	32 bit integer	60000	number of images
0008	32 bit integer	28	number of rows
0012	32 bit integer	28	number of columns
0016	unsigned byte	??	pixel
0017	unsigned byte	??	pixel
…	…	…	…
xxxx	unsigned byte	??	pixel

TEST SET LABEL FILE (t10k-labels-idx1-ubyte)

[offset]	[type]	[value]	[description]
0000	32 bit integer	0x00000801(2049)	magic number (MSB first)
0004	32 bit integer	10000	number of items
0008	unsigned byte	??	label
0009	unsigned byte	??	label
…	…	…	…
xxxx	unsigned byte	??	label

TRAINING SET IMAGE FILE (train-images-idx3-ubyte)

[offset]	[type]	[value]	[description]
0000	32 bit integer	0x00000803(2051)	magic number
0004	32 bit integer	10000	number of images
0008	32 bit integer	28	number of rows
0012	32 bit integer	28	number of columns
0016	unsigned byte	??	pixel
0017	unsigned byte	??	pixel
…	…	…	…
xxxx	unsigned byte	??	pixel

四个表格中的 [offset] 就是数据的偏移量，我们发现图像数据与标签数据的 magic number 分别是 0x00000801 与 0x00000803，译成十进制就是 2049 与 2051，并且在 [offset] 的数据可以发现，图像数据与标签数据存储的位置分别是 0016 与 0008【例如对于训练的图像数据 [offset]=0004 的位置存储为数据量即 60000 张图】，因此 2049，2051，8，16就成了读取数据的关键，在代码中我们将应用 2049 与 2051 作为读取判断的先决条件，从 8，16 的 [offset] 处读取数据

最后官网还有一段对魔法函数的说明：

English	Chinese
The magic number is an integer (MSB first). The first 2 bytes are always 0. The third byte codes the type of the data: 0x08: unsigned byte 0x09: signed byte 0x0B: short (2 bytes) 0x0C: int (4 bytes) 0x0D: float (4 bytes) 0x0E: double (8 bytes)	magic number是整数（MSB在前）。前2个字节始终为0。第三个字节编码数据的类型： 0x08：无符号字节 0x09：有符号字节 0x0B：short 类型（2个字节） 0x0C：整型 int（4个字节） 0x0D：浮点型 float（4个字节） 0x0E：双精度 double 型（8个字节）

gzip使用

由于压缩格式为 .gz 格式，所以我们需要使用 gzip 来管理压缩包，因此我们需要解压文件，再从解压的文件中获取偏移量 [offset]，魔法数字 magic number 来获取数据。gzip示例如下：
demo 内容为 how to use gzip，是一个去掉后缀的文本文件，当然加上后缀也无所谓
压缩

import gzip

with open('gzip_demo/demo', 'rb') as plain_file:
    with gzip.open('gzip_demo/demo.gz', 'wb') as zip_file:
        zip_file.writelines(plain_file)

解压

with gzip.open('gzip_demo/demo.gz') as g:
    print('读取 gz 文件:', g.read().decode('utf-8'))

字节存储顺序

字节存放顺序分为大尾存储（big endian）与小尾存储（little endian），定义如下：

大尾存储	小尾存储
数据的高字节存放在低地址就是大尾	数据的高字节存放在高地址的就是小尾
大尾存放时：偏移地址存放内容 0x0000 0x12 0x0001 0x34	小尾存放：偏移地址存放内容 0x0000 0x34 0x0001 0x12

在 numpy 中由此函数 numpy.dtype.newbyteorder 可以管理存储顺序，官网说明参见这里【English Version，中文版本】

•'S'-将数据类型从当前端切换到另一端
•'<'，'L'-小尾数
•“>”，“B”-大尾数法
•'='，'N'-本机顺序
•''，'I'-忽略（不更改字节顺序）
从上面四个 gz 文件的表格可知 [offset] 越小，存储的 [type] 越大，所以采用大尾存放机制，所以在文件读取代码中，我们将采取 np.dtype(np.uint32).newbyteorder('>') 进行控制

源码开干

文件列表说明

在父目录 dataset_download 文件夹下存在如下两个文件加，里面分别存放 mnist 数据集与 fashion-mnist 数据集

模块导入

import tensorflow as tf
import gzip
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data
import matplotlib.pyplot as plt
import os

tf.__version__

'1.15.2'

gzip 使用

with open('gzip_demo/demo', 'rb') as plain_file:
    with gzip.open('gzip_demo/demo.gz', 'wb') as zip_file:
        zip_file.writelines(plain_file)

with gzip.open('gzip_demo/demo.gz') as g:
    print('读取 gz 文件:', g.read().decode('utf-8'))

读取 gz 文件: how to use gzip

数据读取方式一

官网读取方式

mnist = input_data.read_data_sets('./dataset_download/mnist/', one_hot=False)

print('train images shape:', mnist.train.images.shape,
      '\ntrain labels shape:', mnist.train.labels.shape)

plt.imshow(mnist.train.images[0].reshape(28, 28), cmap='binary')
plt.title(str(mnist.train.labels[0]))

plt.show()

Extracting ./dataset_download/mnist/train-images-idx3-ubyte.gz
Extracting ./dataset_download/mnist/train-labels-idx1-ubyte.gz
Extracting ./dataset_download/mnist/t10k-images-idx3-ubyte.gz
Extracting ./dataset_download/mnist/t10k-labels-idx1-ubyte.gz
train images shape: (55000, 784) 
train labels shape: (55000,)

可以利用 fake_data=True 来返回空列表数据

mnist = input_data.read_data_sets('./dataset_download/mnist/', fake_data=True, one_hot=False)
print('train images:', mnist.train.images,
      '\ntrain labels:', mnist.train.labels,
      '\nvalidation images:', mnist.validation.images,
      '\nvalidation labels:', mnist.validation.labels,
      '\ntest images:', mnist.test.images,
      '\ntest labels:', mnist.test.labels)

train images: [] 
train labels: [] 
validation images: [] 
validation labels: [] 
test images: [] 
test labels: []

数据获取方式二

定义大尾（big endian）存放方式

def read32(bytestream):
    dt = np.dtype(np.uint32).newbyteorder('>')
    
    return np.frombuffer(bytestream.read(4), dtype=dt)[0]

将 magic number=2051 作为图像文件在读取时的判断条件，读取的数据通过 data = np.frombuffer(buf, dtype=np.uint8) 转换成 numpy 数组，这是只有一个维度的数据，通过 data = data.reshape(num_images, rows, cols, 1) 获取 28×28 形式的数据

def extract_images(f):

    print('Extracting', f.name)
    with gzip.GzipFile(fileobj=f) as bytestream:
        magic = read32(bytestream)
        if magic != 2051:
            raise ValueError('Invalid magic number %d in MNIST image file: %s' %
                             (magic, f.name))
        num_images = read32(bytestream)
        rows = read32(bytestream)
        cols = read32(bytestream)
        buf = bytestream.read(rows * cols * num_images)
        data = np.frombuffer(buf, dtype=np.uint8)
        data = data.reshape(num_images, rows, cols, 1)

        return data

one_hot 编码
dense_to_one_hot() 是官网使用的独热编码函数，one_hot() 则是重新定义的独热编码函数

def dense_to_one_hot(labels_dense, num_classes):
    num_labels = labels_dense.shape[0]
    index_offset = np.arange(num_labels) * num_classes
    labels_one_hot = np.zeros((num_labels, num_classes))
    labels_one_hot.flat[index_offset + labels_dense.ravel()] = 1

    return labels_one_hot

from sklearn.preprocessing import OneHotEncoder

def one_hot(labels):
    encoder = OneHotEncoder(sparse=False)

    one_hot = [[0],[1],[2],[3],[4],[5],[6],[7],[8],[9]]
    encoder.fit(one_hot)
    labels_reshape = labels.reshape(-1, 1)
    labels_onehot = encoder.transform(labels_reshape)
    
    return labels_onehot

将 magic number=2049 作为标签文件在读取时的判断条件
这里在 if not_hot: 判定中使用 one_hot() 函数代替 dense_to_one_hot()

def extract_labels(f, one_hot=False):

    print('Extracting', f.name)
    with gzip.GzipFile(fileobj=f) as bytestream:
        magic = read32(bytestream)
        if magic != 2049:
            raise ValueError('Invalid magic number %d in MNIST label file: %s' %
                             (magic, f.name))
        num_items = read32(bytestream)
        buf = bytestream.read(num_items)
        labels = np.frombuffer(buf, dtype=np.uint8)

        if one_hot:
            return one_hot(labels)

        return labels

读取单个图像文件与单个标签文件
也可以不导入 gfile 包，将下面的 with 结构如下调换也能运转

with open(local_file, 'rb') as f:
train_images = extract_images(f)

from tensorflow.python.framework import dtypes
from tensorflow.python.platform import gfile

def read_data_sets(one_hot=False,
                   dtype=dtypes.float32,
                   reshape=True,
                   seed=None):

    local_image_file = 'dataset_download/mnist/train-images-idx3-ubyte.gz'
    with gfile.Open(local_image_file, 'rb') as f:
        train_images = extract_images(f)
    
    local_label_file = 'dataset_download/mnist/train-labels-idx1-ubyte.gz'
    with gfile.Open(local_label_file, 'rb') as f:
        train_labels = extract_labels(f)

    return train_images, train_labels

train_images, train_labels = read_data_sets()

Extracting dataset_download/mnist/train-images-idx3-ubyte.gz
Extracting dataset_download/mnist/train-labels-idx1-ubyte.gz

plt.imshow(train_images[0].reshape(28, 28), cmap='gray')
plt.title(train_labels[0], fontsize=20)
plt.axis('off')

plt.show()

train_labels_onehot = one_hot(train_labels)
train_labels_onehot

array([[0., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.]])

train_labels_dense_to_one_hot = dense_to_one_hot(train_labels, 10)
train_labels_dense_to_one_hot

array([[0., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 1., 0.]])

获取整个Mnist训练集、测试集与验证集

def get_dataset(one_hot=False,
                dtype=dtypes.float32,
                reshape=True,
                validation_size=5000,
                seed=None):

    train_image_file = 'dataset_download/mnist/train-images-idx3-ubyte.gz'
    with gfile.Open(train_image_file, 'rb') as f:
        train_images = extract_images(f)
    
    train_label_file = 'dataset_download/mnist/train-labels-idx1-ubyte.gz'
    with gfile.Open(train_label_file, 'rb') as f:
        train_labels = extract_labels(f)
        
    test_image_file = 'dataset_download/mnist/t10k-images-idx3-ubyte.gz'
    with gfile.Open(test_image_file, 'rb') as f:
        test_images = extract_images(f)    
        
    test_label_file = 'dataset_download/mnist/t10k-labels-idx1-ubyte.gz'
    with gfile.Open(test_label_file, 'rb') as f:
        test_labels = extract_labels(f)    
    
    validation_images = train_images[:validation_size]
    validation_labels = train_labels[:validation_size]
    train_images = train_images[validation_size:]
    train_labels = train_labels[validation_size:]

    return (train_images, train_labels), (test_images, test_labels), (validation_images, validation_labels)

(train_images, train_labels), (test_images, test_labels), (validation_images, validation_labels) = get_dataset()

Extracting dataset_download/mnist/train-images-idx3-ubyte.gz
Extracting dataset_download/mnist/train-labels-idx1-ubyte.gz
Extracting dataset_download/mnist/t10k-images-idx3-ubyte.gz
Extracting dataset_download/mnist/t10k-labels-idx1-ubyte.gz

fig = plt.figure(figsize=(20, 5))
image_list = [train_images[0].reshape(28, 28),
              test_images[0].reshape(28, 28),
              validation_images[0].reshape(28, 28)]

label_list = [str(train_labels[0]),
              str(test_labels[0]),
              str(validation_labels[0])]

for i in range(3):
    plt.subplot(1, 3, i + 1)
    plt.imshow(image_list[i], cmap='gray')
    plt.title(label_list[i], fontsize=20)
    plt.axis('off')

plt.show()

获取整个 Fashion-Mnist 训练集、测试集与验证集

def get_dataset(one_hot=False,
                dtype=dtypes.float32,
                reshape=True,
                validation_size=5000,
                seed=None):

    train_image_file = 'dataset_download/fashion_mnist/train-images-idx3-ubyte.gz'
    with gfile.Open(train_image_file, 'rb') as f:
        train_images = extract_images(f)
    
    train_label_file = 'dataset_download/fashion_mnist/train-labels-idx1-ubyte.gz'
    with gfile.Open(train_label_file, 'rb') as f:
        train_labels = extract_labels(f)
        
    test_image_file = 'dataset_download/fashion_mnist/t10k-images-idx3-ubyte.gz'
    with gfile.Open(test_image_file, 'rb') as f:
        test_images = extract_images(f)    
        
    test_label_file = 'dataset_download/fashion_mnist/t10k-labels-idx1-ubyte.gz'
    with gfile.Open(test_label_file, 'rb') as f:
        test_labels = extract_labels(f)    
    
    validation_images = train_images[:validation_size]
    validation_labels = train_labels[:validation_size]
    train_images = train_images[validation_size:]
    train_labels = train_labels[validation_size:]

    return (train_images, train_labels), (test_images, test_labels), (validation_images, validation_labels)

(train_images, train_labels), (test_images, test_labels), (validation_images, validation_labels) = get_dataset()

Extracting dataset_download/fashion_mnist/train-images-idx3-ubyte.gz
Extracting dataset_download/fashion_mnist/train-labels-idx1-ubyte.gz
Extracting dataset_download/fashion_mnist/t10k-images-idx3-ubyte.gz
Extracting dataset_download/fashion_mnist/t10k-labels-idx1-ubyte.gz

标注编号	描述
0	T-shirt/top（T恤）
1	Trouser（裤子）
2	Pullover（套衫）
3	Dress（裙子）
4	Coat（外套）
5	Sandal（凉鞋）
6	Shirt（汗衫）
7	Sneaker（运动鞋）
8	Bag（包）
9	Ankle boot（踝靴）

class_dict = {0:'T-shirt', 1:'Trouser', 2:'Pullover', 3:'Dress', 4:'Coat',
              5:'Sandal', 6:'Shirt', 7:'Sneaker', 8:'Bag', 9:'Ankle boot'}

fig = plt.figure(figsize=(20, 5))
image_list = [train_images[0].reshape(28, 28),
              test_images[0].reshape(28, 28),
              validation_images[0].reshape(28, 28)]

label_list = [train_labels[0],
              test_labels[0],
              validation_labels[0]]

for i in range(3):
    plt.subplot(1, 3, i + 1)
    plt.imshow(image_list[i], cmap='gray')
    plt.title(class_dict[label_list[i]], fontsize=20)
    plt.axis('off')

plt.show()

数据获取方式三

本次直接将所有数据串在一起，为后期做 GAN 与 CGAN 做数据读取处理用，直接在函数内部将文件夹定位到 dataset_download，在定义解压函数中，并未使用 magic number 获取数据的方式，而是使用 head_size 即 [offset] 0008 与 0016 的方式获取

def extract_data(filename, num_data, head_size, data_size):
    with gzip.open(filename) as bytestream:
        bytestream.read(head_size)
        buf = bytestream.read(data_size * num_data)
        data = np.frombuffer(buf, dtype=np.uint8).astype(np.float)
    return data

获取 mnist 图像数据，与上面相同，获取的数据只有一个维度，我们需要将其 reshape 成 28×28 的形式

dataset_name = 'mnist'
data_dir = os.path.join("./dataset_download", dataset_name)
train_images_data = extract_data(data_dir + '/train-images-idx3-ubyte.gz', 60000, 16, 28 * 28)

print('train_images_data shape:', train_images_data.shape)

train_images_data shape: (47040000,)

train_images = train_images_data.reshape(-1, 28, 28, 1)
print('train_images shape:', train_images.shape)

train_images shape: (60000, 28, 28, 1)

解析下方 load_data() 创建 one_hot 的方法，以 10 个类别为例，先创建一个暂存的零矩阵，在遍历修改零矩阵的值

a = np.array([5, 4, 8, 6, 3, 2, 4, 7, 8, 1])
a_one_hot = np.zeros((len(a), 10), dtype=float)

for i, label in enumerate(a):
    a_one_hot[i, label] = 1.0

print('a:\n', a,
      '\na_one_hot:', a_one_hot)

a:
 [5 4 8 6 3 2 4 7 8 1] 
a_one_hot: [[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]]

def load_data(dataset_name, onehot=False):
    data_dir = os.path.join("./dataset_download", dataset_name)

    data = extract_data(data_dir + '/train-images-idx3-ubyte.gz', 60000, 16, 28 * 28)
    train_images = data.reshape((-1, 28, 28, 1))

    data = extract_data(data_dir + '/train-labels-idx1-ubyte.gz', 60000, 8, 1)
    train_labels = data.reshape((-1))

    data = extract_data(data_dir + '/t10k-images-idx3-ubyte.gz', 10000, 16, 28 * 28)
    test_images = data.reshape((-1, 28, 28, 1))

    data = extract_data(data_dir + '/t10k-labels-idx1-ubyte.gz', 10000, 8, 1)
    test_labels = data.reshape((-1))

    train_images = np.asarray(train_images)
    test_labels = np.asarray(test_labels)

    X = np.concatenate((train_images, test_images), axis=0)
    y = np.concatenate((train_labels, test_labels), axis=0).astype(np.int)

    seed = 547
    np.random.seed(seed)
    np.random.shuffle(X)
    np.random.seed(seed)
    np.random.shuffle(y)
    
    if onehot== True:
        y_vec = np.zeros((len(y), 10), dtype=np.float)
        for i, label in enumerate(y):
            y_vec[i, y[i]] = 1.0
        
        return X, y_vec

    return X, y

读取整个 Mnist 数据集

images, labels = load_data('mnist')
plt.imshow(images[520].reshape(28, 28), cmap='gray')
plt.title(str(labels[520]), fontsize=20)
plt.axis('off')
plt.show()

读取整个 Fashion-Mnist 数据集

class_dict = {0:'T-shirt', 1:'Trouser', 2:'Pullover', 3:'Dress', 4:'Coat',
              5:'Sandal', 6:'Shirt', 7:'Sneaker', 8:'Bag', 9:'Ankle boot'}

images, labels = load_data('fashion_mnist')
plt.imshow(images[1314].reshape(28, 28), cmap='gray')
plt.title(class_dict[labels[1314]], fontsize=20)
plt.axis('off')
plt.show()

你可能感兴趣的:(TensorFlow基础笔记)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
深度学习之基于Tensorflow卷积神经网络水果蔬菜分类识别系统 qq1744828575 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与目标背景：在现代农业、智能零售等领域，自动化分类与识别技术对于提高效率、优化供应链管理具有重要意义。为了响应这一需求，本项目旨在构建一个基于深度学习技术的水果蔬菜分类识别系统。目标：构建一个准确率高、性能稳定的水果蔬菜分类识别模型，利用Tensorflow框架
ImportError: cannot import name ‘conv_utils‘ from ‘keras.utils‘ CheCacao keras 深度学习 python tensorflow tensorflow2 人工智能
将fromkeras.utilsimportconv_utils改为fromtensorflow.python.keras.utilsimportconv_utilsImportError:nomodulenamed'tensorflow.keras.engine将fromkeras.engine.topologyimportLayer改为fromtensorflow.python.keras.l
jupyter出错ImportError: cannot import name ‘np_utils‘ from ‘keras.utils‘ ，怎么解决？七月初七淮水竹亭～人工智能 python jupyter keras 深度学习
文章前言此篇文章主要是记录一下我遇到的问题以及我是如何解决的，希望下次遇到类似问题可以很快解决。此外，也希望能帮助到大家。遇到的问题出错：ImportError:cannotimportname'np_utils'from'keras.utils'，如图：如何解决首先我根据网上文章的一些提示，将fromkeras.utilsimportnp_utils换成了fromtensorflow.keras
tensorflow和python不兼容_tensorflow与numpy的版本兼容性问题的解决 weixin_39727934
在Python交互式窗口导入tensorflow出现了下面的错误：ox8免费资源网root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowas
numpy python 兼容_tensorflow与numpy的版本兼容性问题 weixin_39761822 numpy python 兼容
在Python交互式窗口导入tensorflow出现了下面的错误：root@ubuntu:~#python3Python3.6.8(default,Oct72019,12:59:55)[GCC8.3.0]onlinuxType"help","copyright","credits"or"license"formoreinformation.>>>importtensorflowastf;/usr/
安装tensorflow2.5.0 发现 tensorflow 和 numba 两者对应Numpy版本冲突 GJK_ tensorflow numpy 人工智能
问题：python3.8安装tensorflow2.5.0发现tensorflow和numba两者对应Numpy版本冲突tensorflow-gpu2.5.0requiresnumpy~=1.19.2numba0.58.1requiresnumpy=1.22解决方法：将numba降低版本为0.53pipinstallnumba==0.53再将numpy版本改为1.19.2pipinstallnum
python3.7安装keras教程_python 3.7 安装 sklearn keras(tf.keras) weixin_39641103
#1sklearn一般方法网上有很多教程，不再赘述。注意顺序是numpy+mkl，然后scipy的环境，scipy，然后sklearn#2anocondaanaconda原始的环境已经自带了sklearn，这里说一下新建环境（比如创建了一个tensorflow的环境），activatetensorflow2.0，然后condainstallsklearn即可，会帮你把各种需要的库都安装。#kera
Python高层神经网络 API库之Keras使用详解 Rocky006 python keras 开发语言
概要随着深度学习在各个领域的广泛应用，许多开发者开始使用各种框架来构建和训练神经网络模型。Keras是一个高层神经网络API，使用Python编写，并能够运行在TensorFlow、CNTK和Theano之上。Keras旨在简化深度学习模型的构建过程，使得开发者能够更加专注于实验和研究。本文将详细介绍Keras库，包括其安装方法、主要特性、基本和高级功能，以及实际应用场景，帮助全面了解并掌握该库的
将本地已有的项目上传到新建的git仓库的方法 10676
将本地已有的一个非git项目上传到新建的git仓库的方法一共有两种。一、克隆+拷贝第一种方法比较简单，直接用把远程仓库拉到本地，然后再把自己本地的项目拷贝到仓库中去。然后push到远程仓库上去即可。此方法适用于本地项目不是一个git仓库的情况。1、首先克隆[email protected]:yuanmingchen/tensorflow_study.git2、然后复制自己项目的所有文件到
Python(PyTorch和TensorFlow)图像分割卷积网络导图(生物医学) 亚图跨际交叉知识 Python 生物医学脑肿瘤图像皮肤病变多模态医学图像多尺度特征生物医学腹部胰腺图像病灶边界气胸图像
要点语义分割图像三层分割椭圆图像脑肿瘤图像分割动物图像分割皮肤病变分割多模态医学图像多尺度特征生物医学肖像多类和医学分割通用图像分割模板腹部胰腺图像分割分类注意力网络病灶边界分割气胸图像分割Python生物医学图像卷积网络该网络由收缩路径和扩展路径组成，收缩路径是一种典型的卷积网络，由重复应用卷积组成，每个卷积后跟一个整流线性单元(ReLU)和一个最大池化操作。在收缩过程中，空间信息减少，而特征信
一口气了解大模型相关通识，基础笔记！ AI小白熊笔记数据库架构面试职场和发展 transformer ai
一、大模型生态有哪些语言类大模型:GPT-3、GPT-3.5、GPT-4系列模型。并且，OpenAl在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型(基座模型)，用于不同场景的应用;其中，A、B、C、D模型的全称分别是ada、babbage、curie(居里)和davinci（达芬奇），四个模型并不是GPT-3的微调模型，而是独立训练的四个模型;四个模型的参数规模和复
AttributeError: ‘tuple‘ object has no attribute ‘shape‘ 晓胡同学 keras 深度学习 tensorflow
AttributeError:‘tuple’objecthasnoattribute‘shape’在将keras代码改为tensorflow2代码的时候报了如下错误AttributeError:'tuple'objecthasnoattribute'shape'经过调查发现，损失函数写错了原来的是这样model.compile(loss=['binary_crossentropy'],optimi
Autoencoder chuange6363 人工智能 python
自编码器Autoencoder稀疏自编码器SparseAutoencoder降噪自编码器DenoisingAutoencoder堆叠自编码器StackedAutoencoder本博客是从梁斌博士的博客上面复制过来的，本人利用Tensorflow重新实现了博客中的代码深度学习有一个重要的概念叫autoencoder，这是个什么东西呢，本文通过一个例子来普及这个术语。简单来说autoencoder是一
OSError: libnccl.so.2: cannot open shared object file: No such file or directory 王小葱鸭 python
linux安装完torch或者tensorflow的gpu版本，安装没问题，但是import就有问题，报错OSError:libnccl.so.2:cannotopensharedobjectfile:Nosuchfileordirectory，是缺少nvidia的ncll，下面介绍解决方法：1安装ncll下载链接https://developer.nvidia.com/nccl/nccl-dow
深度学习框架人工智能操作系统训练&前向推理 PyTorch Tensorflow MindSpore caffe 张量加速引擎TBE 深度学习编译器多面体 polyhedral AI集群框架 EwenWanW 深度学习人工智能 pytorch 深度学习编译器
深度学习框架人工智能操作系统训练&前向推理深度学习框架发展到今天，目前在架构上大体已经基本上成熟并且逐渐趋同。无论是国外的Tensorflow、PyTorch，亦或是国内最近开源的MegEngine、MindSpore，目前基本上都是支持EagerMode和GraphMode两种模式。AI嵌入式框架OneFlow&清华计图Jittor&华为深度学习框架MindSpore&旷视深度学习框架MegEn
Tensorflow中Keras搭建神经网络六步法及参数详解 -- Tensorflow自学笔记12 青瓷看世界 tensorflow 笔记人工智能深度学习神经网络
一.tf.keras搭建神经网络六步法1.import相关模块如importtensorflowastf。2.指定输入网络的训练集和测试集如指定训练集的输入x_train和标签y_train，测试集的输入x_test和标签y_test。3.逐层搭建网络结构model=tf.keras.models.Sequential()。4.在model.compile()中配置训练方法选择训练时使用的优化器、
MacBook Air M1 使用 miniconda 安装python3.11.7 和 tensorflow2.16.1详细 - TensorFlow自学笔记1 青瓷看世界 tensorflow tensorflow 人工智能 mac python 深度学习
1m1mac安装xcode命令工具在Terminal终端执行以下代码：xcode-select--install2下载支持m1芯片arm64的miniconda在miniconda官网，找到下图中保护AppleM1的bash安装包，Miniconda—Anacondadocumentation3安装miniconda在Terminal执行下列代码：1）cd"miniconda下载目录"2）bash
机器学习框架巅峰对决：TensorFlow vs. PyTorch vs. Scikit-Learn实战分析 @sinner 技术选型机器学习 tensorflow pytorch scikit-learn
1.引言1.1机器学习框架的重要性在机器学习的黄金时代，框架的选择对于开发高效、可扩展的模型至关重要。合适的框架可以极大地提高开发效率，简化模型的构建和训练过程，并支持大规模的模型部署。因此，了解和选择最合适的机器学习框架对于研究人员和工程师来说是一个关键的步骤。1.2三大框架概览：TensorFlow、PyTorch、Scikit-Learn目前，最流行的机器学习框架主要有TensorFlow、
Tensorflow2.16中的Keras包含哪些层(layers)?层的功能及参数详细解释 -- TensorFlow自学笔记6 青瓷看世界 tensorflow tensorflow keras 人工智能
在Keras中，层（Layer）是构建神经网络的基本组件。Keras提供了多种类型的层，用于处理不同类型的输入数据和执行特定的数学操作。英文版可参考TensorFlow官方文档：Module:tf.keras.layers|TensorFlowv2.16.1一.层的分类‌1.基本网络层‌1.1.Dense层用于执行全连接操作；1.2.卷积层Conv1D、Conv2D、Conv3D层，用于执行一维、
Tensorflow2 如何扩展现有数据集(缩放、随机旋转、水平翻转、平移等)，从而提高模型的准确率 -- Tensorflow自学笔记14 青瓷看世界 tensorflow 人工智能 python
实际生活中的数据集，往往不是标准的数据，而是有倾斜角度、有旋转、有偏移的数据，为了提高数据集的真实性，提高模型预测的准确率，可以用ImageDataGenerator函数来扩展数据集importtensorflowastffromtensorflow.keras.preprocessing.imageimportImageDataGeneratorimage_gen_train=ImageData
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数