ClFH

TensorFlow2.0入门到进阶系列——2_TensorFlow-Keras实战

2_TensorFlow-Keras实战

1、内容结构
2、理论部分
- 2.1、Tensorflow-keras简介
- - 2.1.1、keras是什么
  - 2.1.2、Tensorflow-keras是什么
  - 2.1.3、Tensorflow-keras和keras的联系
  - 2.1.4、Tensorflow-keras和keras的区别
  - 2.1.5、Tensorflow-keras和keras如何选择
- 2.2、分类问题、回归问题、损失函数
- - 2.2.1、分类问题、回归问题
  - 2.2.2、目标函数
3、实战部分
- 3.1、Keras搭建分类模型
- - 3.1.1、数据读取与展示
  - 3.1.2、模型构建
  - 3.1.3、模型训练参数查看
  - 3.1.4、数据归一化处理
- 3.2、Keras回调函数
- 3.3、Keras搭建回归模型
- 3.4、Keras搭建深度神经网络
- - 3.4.1、实战深度神经网络
  - 3.4.2、实战批归一化、激活函数、dropout
- 3.5、Keras实现wide&deep模型
- - 3.5.1 wide&deep模型
  - 3.5.2 实战
- 3.6、Keras与scikit-learn实现超参数搜索

1、内容结构

内容如何安排
- 实战与理论并存，实战为主，理论为辅
- 小知识点第一次遇见会讲
- 大知识点独立为一个小节
代码的TensorFlow版本
- 大部分都是tf2.0
- 课程以tf.keras API为主，因而部分代码可以在tf1.3+运行
- 另有少量tf1.*版本代码（方便大家读懂老代码）

2、理论部分

Tensorflow-keras简介；
分类问题、回归问题、损失函数；
神经网络、激活函数、批归一化、Dropout;
Wide & deep 模型；
超参数搜索

2.1、Tensorflow-keras简介

2.1.1、keras是什么

基于python的高级神经网络API；
Francois Chollet于2014-2015年编写keras；
以Tensorflow、CNTK或者Theano为后端运行，keras必须有后端才可以运行；
- 后端可以切换，现在多用TensorFlow
极方便于快速实验，帮助用户以最少的时间验证自己的想法；

2.1.2、Tensorflow-keras是什么

Tensorflow对keras API规范的实现；
相对于以Tensorflow为后端的keras，Tensorflow-keras与Tensorflow结合更加紧密；
实现在tf.keras空间下；

2.1.3、Tensorflow-keras和keras的联系

基于同一套API
- keras程序可以通过改导入方式轻松转为tf.keras程序；
- 反之可能不成立，因为tf.keras有其他特性；
相同的JSON和HDF5模型序列化格式和语义；

2.1.4、Tensorflow-keras和keras的区别

Tf.keras全面支持eager mode
- 只是用keras.Sequential和keras.Model时没影响
- 自定义Model内部运算逻辑的时候会有影响
  - Tf低层API可以使用keras的model.fit等抽象
  - 适用于研究人员
Tf.keras支持基于tf.data的模型训练；
Tf.keras支持TPU训练；
Tf.keras支持tf.distribution中的分布式策略；
其他特性
- Tf.keras可以与Tensorflow中的estimator集成
- Tf.keras可以保存为SavedModel

2.1.5、Tensorflow-keras和keras如何选择

如果想用tf.keras的任何一个特性，那么选tf.keras；
如果后端互换性很重要，那么选择keras；
如果都不重要，那就随便。

2.2、分类问题、回归问题、损失函数

2.2.1、分类问题、回归问题

分类问题预测的是类别，模型的输出是概率分布
- 三分类问题输出例子：[0.2,0.7,0.1]
回归问题预测的是值，模型的输出是一个实数值

2.2.2、目标函数

为什么需要目标函数？

参数是逐步调整的
目标函数可以帮助衡量模型的好坏
- Model A:[0.1,0.4,0.5]
- Model B:[0.1,0.2,0.7]

分类问题：

需要衡量目标类别与当前预测的差距
- 三分类问题输出例子：[0.2,0.7,0.1] (1 ->one_hot -> [0,1,0])
- 三分类真实类别：2 -> one_hot -> [0,0,1]
One-hot编码，把正整数变为向量表达
- 生成一个长度不小于正整数的向量，只有正整数的位置处为1，其余位置都为0
分类问题损失函数
- 平方差损失；
- 交叉熵损失；
平方差损失举例
- 预测值：[0.2,0.7,0.1]
- 真实值：[0,0,1]
- 损失函数值：[(0.2-0)^2 + (0.7-0) ^2 + (0.1-1) ^2 ] * 0.5 = 0.67

回归问题：

预测值与真实值的差距
平方差损失
绝对值损失

模型的训练就是调整参数，使得目标函数逐渐变小的过程

3、实战部分

Keras搭建分类模型；
Keras回调函数；
Keras搭建回归模型；
Keras搭建深度神经网络；
Keras实现wide&deep模型；
Keras与scikit-learn实现超参数搜索。

3.1、Keras搭建分类模型

3.1.1、数据读取与展示

先导入各种需要的库

import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import sklearn
import pandas as pd
import os
import sys
import time
import tensorflow as tf
from tensorflow import keras
#import keras

查看导入的库的版本信息

print(tf.__version__)
print(sys.version_info)
for module in mpl,np,pd,sklearn,tf,keras:
    print(module.__name__,module.__version__)

查看使用的数据集的结构

fashion_mnist = keras.datasets.fashion_mnist
(x_train_all,y_train_all),(x_test,y_test) = fashion_mnist.load_data()
x_valid,x_train = x_train_all[:5000],x_train_all[5000:]     #前5000张做验证集  后55000做训练集
y_valid,y_train = y_train_all[:5000],y_train_all[5000:]     #前5000张做验证集  后55000做训练集

print(x_valid.shape,y_valid.shape)
print(x_train.shape,y_train.shape)
print(x_test.shape,y_test.shape)

看一下数据集里面的图片是什么样的（了解数据集是机器学习很重要的一部分）

#定义一个函数，可以显示一张图像
def show_single_image(img_arr):
    plt.imshow(img_arr,cmap="binary")   #这里是灰度图，其他图像具体参数请百度imshow()函数
    plt.show()
    
show_single_image(x_train[0])

查看多张照片

#显示很多张图片
def show_image(n_rows, n_cols, x_data, y_data, class_names):
    assert len(x_data) == len(y_data)       #验证x样本数和y样本数一样
    assert n_rows * n_cols < len(x_data)    #验证行和列的乘积不能大于样本数
    plt.figure(figsize = (n_cols * 1.4, n_rows * 1.6))   #定义一张大图1.4   1.6  就是缩放的图片
    for row in range(n_rows):
        for col in range(n_cols):
            index = n_cols * row + col      #计算当前位置图片的索引
            plt.subplot(n_rows, n_cols, index + 1)     #大图上画子图（之前index是从0开始的，这里要从1开始）
            plt.imshow(x_data[index], cmap="binary", interpolation='nearest')    #interpolation缩放图片时，插值的方法
            plt.axis('off')    #坐标系关掉
            plt.title(class_names[y_data[index]])   #给每一张小图都加上title
    plt.show()
    
class_names = ['T-shirt', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

show_image(3, 5, x_train, y_train, class_names)

3.1.2、模型构建

#tf.keras.models.Sequential()

'''
#构建模型
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28, 28]))
model.add(keras.layers.Dense(300, activation = "relu"))
model.add(keras.layers.Dense(100, activation = "relu"))
model.add(keras.layers.Dense(10, activation = "softmax"))
'''

#模型构建的另一种等价写法
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape = [28, 28]),  #将输入为28 * 28的图像展开（28*28的二维矩阵展成784的一维向量）
    keras.layers.Dense(300, activation = "relu"),
    keras.layers.Dense(100, activation = "relu"),
    keras.layers.Dense(10, activation = "softmax")
])

# relu: y = max(0, x)
# softmax: 将变量变成概率分布。  x = [x1,x2,x3],
#           y = [e^x1/sum, e^x2/sum, e^x3/sum, sum = e^x1 + e^x2 + e^x3]

# reason for sparse: y->index. y->one_hot->[]
model.compile(loss = "sparse_categorical_crossentropy",     #如果y已经是向量了就用categorical_crossentropy",如果是数字就用sparse_
             optimizer = "adam",
             metrics = ["accuracy"])

查看模型层数

model.layers

查看模型概况

model.summary()

训练模型

'''
[None, 784] * w + b -> [None, 300]   其中，w.shape->[784,300], b = [300]

'''

history = model.fit(x_train, y_train, epochs=10, validation_data = (x_valid, y_valid))

3.1.3、模型训练参数查看

history.history       #查看history里面存储的一些值

绘图查看history中的变量变化过程

def plot_learning_curves(history):
    pd.DataFrame(history.history).plot(figsize = (8,5))   #将数据转换成DataFrame，然后调用plot实现
    plt.grid(True)      #绘制网格
    plt.gca().set_ylim(0, 1)       #设定y坐标的范围
    plt.show()
    
plot_learning_curves(history)

3.1.4、数据归一化处理

归一化分两种，数据归一化，批归一化
查看归一化之前数据的最大值最小值

print(np.max(x_train), np.min(x_train))

数据归一化

#数据归一化
# x = (x - u) / std

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
# x_train:[None, 28, 28] -> [None, 784]
x_train_scaler = scaler.fit_transform(
    x_train.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)  #之前数据是int的，因为要做除法，所以先转换成float32的
                                                                 #scaler.fit_transform()函数要求输入参数是二维数据，
                                                                 #所以先变成二维数据，然后再变回三维数据
#scaler.fit_transform()函数有fit功能，记录训练的均值和方差（因为后面验证集和测试集数据归一化的时候，都要使用训练集的均值和方差）

#验证集和测试集归一化,用scaler.transform()即可
x_valid_scaled = scaler.transform(
    x_valid.astype(np.float32).reshape(-1,1)).reshape(-1,28,28) 
x_test_scaled = scaler.transform(
    x_test.astype(np.float32).reshape(-1,1)).reshape(-1,28,28)

查看归一化之后数据的最大值最小值

print(np.max(x_train_scaler), np.min(x_train_scaler))

重新训练模型

history = model.fit(x_train_scaler, y_train, epochs=10, validation_data = (x_valid_scaled, y_valid))

绘图查看history中的变量变化过程

def plot_learning_curves(history):
    pd.DataFrame(history.history).plot(figsize = (8,5))   #将数据转换成DataFrame，然后调用plot实现
    plt.grid(True)      #绘制网格
    plt.gca().set_ylim(0, 1)       #设定y坐标的范围
    plt.show()
    
plot_learning_curves(history)

由结果可以看出对数据进行归一化处理之后，模型的精度有所提升（87.1%->89.2%）

#在测试集上进行测试
model.evaluate(x_test_scaled, y_test)

3.2、Keras回调函数

callbacks(回调函数)是在训练过程中做一些监听，所以要添加到fit函数中
修改训练模型为

#这里演示，使用三个常用的callbaks：TensorBoard, EarlyStopping, ModelCheckpoint
#对于Tensorboard需要一个文件夹，对于ModelCheckpoint来说需要一个文件名
#定义一个文件夹，和文件名
logdir = './callbacks'
#logdir = os.path.join("callbacks")
if not os.path.exists(logdir):
    os.mkdir(logdir)
output_model_file = os.path.join(logdir, "fashion_mnist_model.h5")
 
callbacks = [
    keras.callbacks.TensorBoard(logdir),
    keras.callbacks.ModelCheckpoint(output_model_file,save_best_only = True),
    keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-3),
]
#callbacks是在训练过程中做一些监听，所以要添加到fit函数中
history = model.fit(x_train_scaler, y_train, epochs=10, 
                    validation_data = (x_valid_scaled, y_valid), 
                    callbacks = callbacks)

在根目录下，生成callbacks文件夹。

打开Anaconda Powershell Prompt

在命令行中输入：tensorboard --logdir=callbacks，会得到一个网址

用浏览器打开网址，就打开tensorboard了
SCALARS：显示训练趋势图

GRAPHS：显示模型结构

PROFILE：记录内存和CPU的使用量

3.3、Keras搭建回归模型

加载数据库，并显示版本信息

import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import sklearn
import pandas as pd
import os
import sys
import time
import tensorflow as tf

from tensorflow import keras
#import keras

print(tf.__version__)
print(sys.version_info)
for module in mpl,np,pd,sklearn,tf,keras:
    print(module.__name__,module.__version__)

加载加福利尼亚房价数据集

from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()
print(housing.DESCR)
print(housing.data.shape)
print(housing.target.shape)

输出前5个数据查看，这里使用pprint()函数输出，他是一种标准、格式化输出方式。

import pprint
pprint.pprint(housing.data[0:5])
pprint.pprint(housing.target[0:5])

切分数据集

#切分数据集
from sklearn.model_selection import train_test_split

#切分出测试集
x_train_all,x_test,y_train_all,y_test = train_test_split(
    housing.data, housing.target, random_state = 7, test_size = 0.25)  
#总体数据按照3:1的比例划分,可以通过添加test_size参数调整比例  （不写，默认就是0.25） 

#切分出训练集和验证集
x_train, x_valid, y_train, y_valid = train_test_split(
    x_train_all, y_train_all, random_state = 11)
print(x_train.shape, y_train.shape)
print(x_valid.shape, y_valid.shape)
print(x_test.shape, y_test.shape)

数据归一化

#数据归一化
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_valid_scaled = scaler.transform(x_valid)
x_test_scaled = scaler.transform(x_test)

构建模型

#构建模型
model = keras.models.Sequential([
    keras.layers.Dense(30,activation='relu',input_shape=x_train.shape[1:]),   #这里取8(读取第二维的长度)，因为x_train.shape -> (11610,8)
    keras.layers.Dense(1),
])
model.summary()    #打印model的信息
model.compile(loss="mean_squared_error",optimizer="sgd")   #编译
callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-3)]

训练模型

#训练模型
history = model.fit(x_train_scaled, y_train, 
                    validation_data = (x_valid_scaled, y_valid), 
                    epochs = 100,
                    callbacks = callbacks)

这里训练到18轮就停止训练了，因为损失进度的变换已经小于设定的1e-3，提前停止了训练。
绘图显示

#绘图显示
def plot_learning_curves(history):
    pd.DataFrame(history.history).plot(figsize = (8,5))
    plt.grid(True)
    plt.gca().set_ylim(0,1)
    plt.show()

plot_learning_curves(history)

测试集验证模型

model.evaluate(x_test_scaled,y_test)

3.4、Keras搭建深度神经网络

激活函数
归一化与批归一化
批归一化就是，从对输入数据进行归一化，扩展到网络的每层的激活值上。
Dropout

3.4.1、实战深度神经网络

修改构造模型部分即可

#tf.keras.models.Sequential()

'''
#构建模型(浅层神经网络)
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28, 28]))
model.add(keras.layers.Dense(300, activation = "relu"))
model.add(keras.layers.Dense(100, activation = "relu"))
model.add(keras.layers.Dense(10, activation = "softmax"))
'''

#深度神经网络
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28,28]))
for _ in range(20):
    model.add(keras.layers.Dense(100, activation="relu"))
model.add(keras.layers.Dense(10, activation="softmax"))

model.compile(loss = "sparse_categorical_crossentropy",     #如果y已经是向量了就用categorical_crossentropy",如果是数字就用sparse_
             optimizer = "sgd",
             metrics = ["accuracy"])

model.summary()

3.4.2、实战批归一化、激活函数、dropout

加入批归一化，只需修改模型构建部分代码

#tf.keras.models.Sequential()

'''
#构建模型(浅层神经网络)
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28, 28]))
model.add(keras.layers.Dense(300, activation = "relu"))
model.add(keras.layers.Dense(100, activation = "relu"))
model.add(keras.layers.Dense(10, activation = "softmax"))
'''

#深度神经网络
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28,28]))
for _ in range(20):
    model.add(keras.layers.Dense(100, activation="relu"))
    #加 批归一化 层
    model.add(keras.layers.BatchNormalization())
    '''
    #激活函数放在批归一化BN的后面
    model.add(keras.layers.Dense(100))
    model.add(keras.layers.BatchNormalization())
    model.add(keras.layers.Activation('relu'))
    '''
model.add(keras.layers.Dense(10, activation="softmax"))

model.compile(loss = "sparse_categorical_crossentropy",     #如果y已经是向量了就用categorical_crossentropy",如果是数字就用sparse_
             optimizer = "sgd",
             metrics = ["accuracy"])

model.summary()

训练模型

#这里演示，使用三个常用的callbaks：TensorBoard, EarlyStopping, ModelCheckpoint
#对于Tensorboard需要一个文件夹，对于ModelCheckpoint来说需要一个文件名
#定义一个文件夹，和文件名
#logdir = './dnn-callbacks'
logdir = os.path.join("dnn-bn-callbacks")
if not os.path.exists(logdir):
    os.mkdir(logdir)
output_model_file = os.path.join(logdir, "fashion_mnist_model.h5")
 
callbacks = [
    keras.callbacks.TensorBoard(logdir),
    keras.callbacks.ModelCheckpoint(output_model_file,save_best_only = True),
    keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-3),
]
#callbacks是在训练过程中做一些监听，所以要添加到fit函数中
history = model.fit(x_train_scaler, y_train, epochs=10, 
                    validation_data = (x_valid_scaled, y_valid), 
                    callbacks = callbacks)

加入批归一化BN层，准确率有所提升。

修改激活函数：relu -> selu(自带批归一化功能的激活函数)
修改模型构建部分代码


#深度神经网络
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28,28]))
for _ in range(20):
    model.add(keras.layers.Dense(100, activation="selu"))  #selu函数自带批归一化功能。所以，这里就不需要批归一化处理了。
#     #加 批归一化 层
#     model.add(keras.layers.BatchNormalization())
#     '''
#     #激活函数放在批归一化BN的后面
#     model.add(keras.layers.Dense(100))
#     model.add(keras.layers.BatchNormalization())
#     model.add(keras.layers.Activation('relu'))
#     '''
model.add(keras.layers.Dense(10, activation="softmax"))

model.compile(loss = "sparse_categorical_crossentropy",     #如果y已经是向量了就用categorical_crossentropy",如果是数字就用sparse_
             optimizer = "sgd",
             metrics = ["accuracy"])

添加Dropout层

#深度神经网络
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape = [28,28]))
for _ in range(20):
    model.add(keras.layers.Dense(100, activation="selu"))  #selu函数自带批归一化功能
#     #加 批归一化 层
#     model.add(keras.layers.BatchNormalization())
#     '''
#     #激活函数放在批归一化BN的后面
#     model.add(keras.layers.Dense(100))
#     model.add(keras.layers.BatchNormalization())
#     model.add(keras.layers.Activation('relu'))
#     '''
model.add(keras.layers.AlphaDropout(rate=0.5))  #更加强大的Dropout（常用）
'''
AlphaDropout强大之处:
    1、均值和方差不变
    2、归一化性质不变
'''
#model.add(keras.layers.Dropout(rate=0.5))  #rate丢掉的比例

model.add(keras.layers.Dense(10, activation="softmax"))

model.compile(loss = "sparse_categorical_crossentropy",     #如果y已经是向量了就用categorical_crossentropy",如果是数字就用sparse_
             optimizer = "sgd",
             metrics = ["accuracy"])

model.summary()

3.5、Keras实现wide&deep模型

3.5.1 wide&deep模型

google在16年发布，用于分类和回归
这个算法已经应用到了Google play中的应用推荐

稀疏特征

离散值特征（eg:性别）
One-hot表示（离散值用One-hot表示的时候，就认为是稀疏特征）
eg:专业={计算机，人文，其他}。人文=[0,1,0]
eg:词表={人工智能，你，他，慕课网，…}。他=[0,0,1,0,…]
稀疏特征可以进行叉乘={（计算机，人工智能），（计算机，你），…}
叉乘之后
- 稀疏特征做叉乘获取共现信息
- 实现记忆的效果
优点
- 有效，广泛用于工业界（推荐算法等）
缺点
- 需要人工设计
- 可能过拟合，所有特征都叉乘，相当于记住每一个样本

密集特征

向量表达
- eg：词表={人工智能，你，他，慕课网}
- 他=[0.3,0.2,0.6,(n维向量)]
Word2vec工具（将词语转换为向量的工具，通过向量之间的距离可以得到成语之间的距离）
优点
- 带有语义信息，不同向量之间有相关性
- 兼容没有出现过的特征组合
- 更少人工参与
缺点
- 过度泛化，推荐不怎么相关的产品

wide&deep模型结构

3.5.2 实战

wide&deep模型
- 功能API（函数式API）
- 子类API
- 多输入与多输出

代码实现
- 功能API（函数式API）

#构建模型
# model = keras.models.Sequential([
#     keras.layers.Dense(30,activation='relu',input_shape=x_train.shape[1:]),   #这里取8(读取第二维的长度)，因为x_train.shape -> (11610,8)
#     keras.layers.Dense(1),
# ])

#使用函数式API（功能API）
input = keras.layers.Input(shape=x_train.shape[1:]) #这里取8(读取第二维的长度)，因为x_train.shape -> (11610,8)
hidden1 = keras.layers.Dense(30,activation='relu')(input)  #函数式API       本层30个单元
hidden2 = keras.layers.Dense(30,activation='relu')(hidden1) 
#这样的结构，更像是复合函数的结构：f(x) = h(g(x))

concat = keras.layers.concatenate([input,hidden2])       #hidden2是deep模型的输出，input是wide模型的输入
output = keras.layers.Dense(1)(concat)

#将函数式API定义的模型固化下来
model = keras.models.Model(inputs = [input],
                           outputs = [output])

model.summary()    #打印model的信息
model.compile(loss="mean_squared_error",optimizer="sgd")   #编译
callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-2)]

- 子类API

#构建模型
#子类API实现模型
class WideDeepModel(keras.models.Model):
    def __init__(self):
        super(WideDeepModel,self).__init__()
        '''定义模型的层次'''
        self.hidden1_layer = keras.layers.Dense(30,activation='relu')
        self.hidden2_layer = keras.layers.Dense(30,activation='relu')
        self.output_layer = keras.layers.Dense(1)
        
    def call(self,input):
        '''完成模型的正向计算'''
        hidden1 = self.hidden1_layer(input)
        hidden2 = self.hidden2_layer(hidden1)
        concat = keras.layers.concatenate([input,hidden2])
        output = self.output_layer(hidden2)
        return output

model = WideDeepModel()
model.build(input_shape=(None,8))

model.summary()    #打印model的信息
model.compile(loss="mean_squared_error",optimizer="sgd")   #编译
callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-2)]

多输入

#多输入
input_wide = keras.layers.Input(shape=[5])
input_deep = keras.layers.Input(shape=[6])
hidden1 = keras.layers.Dense(30,activation='relu')(input_deep)
hidden2 = keras.layers.Dense(30,activation='relu')(hidden1)
concat = keras.layers.concatenate([input_wide,hidden2])
output = keras.layers.Dense(1)(concat)
model = keras.model.Model(inputs = [input_wide,input_deep],outputs = [output])

model.summary()    #打印model的信息
model.compile(loss="mean_squared_error",optimizer="sgd")   #编译
callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-2)]

x_train_scaled_wide = x_train_scaled[:,:5]  #输入前5个特征
x_train_scaled_deep = x_train_scaled[:,2:]  #输入后6个特征（一共8个特征）
x_valid_scaled_wide = x_valid_scaled[:,:5]
x_valid_scaled_deep = x_valid_scaled[:,2:]
x_test_scaled_wide = x_test_scaled[:,:5]
x_test_scaled_deep = x_test_scaled[:,2:]

#训练模型
history = model.fit([x_train_scaled_wide,x_train_scaled_deep], y_train, 
                    validation_data = ([x_valid_scaled_wide,x_valid_scaled_deep], y_valid), 
                    epochs = 100,
                    callbacks = callbacks)

多输出(针对多任务学习)

#构建模型
#多输入+多输出
input_wide = keras.layers.Input(shape=[5])
input_deep = keras.layers.Input(shape=[6])
hidden1 = keras.layers.Dense(30,activation='relu')(input_deep)
hidden2 = keras.layers.Dense(30,activation='relu')(hidden1)
concat = keras.layers.concatenate([input_wide,hidden2])
output = keras.layers.Dense(1)(concat)
output2 = keras.layers.Dense(1)(hidden2)
model = keras.models.Model(inputs = [input_wide,input_deep],outputs = [output,output2])

model.summary()    #打印model的信息
model.compile(loss="mean_squared_error",optimizer="sgd")   #编译
callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-2)]

x_train_scaled_wide = x_train_scaled[:,:5]  #输入前5个特征
x_train_scaled_deep = x_train_scaled[:,2:]  #输入后6个特征（一共8个特征）
x_valid_scaled_wide = x_valid_scaled[:,:5]
x_valid_scaled_deep = x_valid_scaled[:,2:]
x_test_scaled_wide = x_test_scaled[:,:5]
x_test_scaled_deep = x_test_scaled[:,2:]

#训练模型
history = model.fit([x_train_scaled_wide,x_train_scaled_deep], [y_train, y_train], 
                    validation_data = ([x_valid_scaled_wide,x_valid_scaled_deep], [y_valid, y_valid]), 
                    epochs = 100,
                    callbacks = callbacks)

model.evaluate([x_test_scaled_wide,x_test_scaled_deep],[y_test,y_test])

3.6、Keras与scikit-learn实现超参数搜索

为什么要超参数搜索

神经网络有很多训练过程中不变的参数
- 网络结构参数：几层，每层宽度，每层激活函数等；
- 训练参数：batch_size，学习率，学习率衰减算法等。
手工去试耗费人力

搜索策略

网格搜索；
随机搜索；
- 参数的生成方式为随机
- 可探索的空间更大
遗传算法搜索；
- 对自然界的模拟；
- A.初始化候选参数集合 -> 训练 -> 得到模型指标作为生存概率；
- B.选择 -> 交叉 -> 变异 -> 产生下一代集合；
- C.重新到A。
启发式搜索。
- 研究热点-AutoML
- 使用循环神经网络来生成参数
- 使用强化学习来进行反馈，使用模型来训练生成参数。

实战

超参数搜索

import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import sklearn
import pandas as pd
import os
import sys
import time
import tensorflow as tf

from tensorflow import keras
#import keras

print(tf.__version__)
print(sys.version_info)
for module in mpl,np,pd,sklearn,tf,keras:
    print(module.__name__,module.__version__)

from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing()
print(housing.DESCR)
print(housing.data.shape)
print(housing.target.shape)

#切分数据集
from sklearn.model_selection import train_test_split

#切分出测试集
x_train_all,x_test,y_train_all,y_test = train_test_split(
    housing.data, housing.target, random_state = 7, test_size = 0.25)  
#总体数据按照3:1的比例划分,可以通过添加test_size参数调整比例  （不写，默认就是0.25） 

#切分出训练集和验证集
x_train, x_valid, y_train, y_valid = train_test_split(
    x_train_all, y_train_all, random_state = 11)
print(x_train.shape, y_train.shape)
print(x_valid.shape, y_valid.shape)
print(x_test.shape, y_test.shape)

#数据归一化
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)    #归一化的同时，可以算出均值和方差
x_valid_scaled = scaler.transform(x_valid)        #利用在训练集得到的均值和方差来归一化
x_test_scaled = scaler.transform(x_test)

重点

#learning_rate:[1e-4,3e-4,1e-3,3e-3,1e-2,3e-2]
# w = w + grad * learning_rate
learning_rates = [1e-4,3e-4,1e-3,3e-3,1e-2,3e-2]
histories = []
for lr in learning_rates:
    #构建模型
    model = keras.models.Sequential([
        keras.layers.Dense(30,activation='relu',input_shape=x_train.shape[1:]),   #这里取8(读取第二维的长度)，因为x_train.shape -> (11610,8)
    keras.layers.Dense(1),
    ])
    
    optimizer = keras.optimizers.SGD(lr)

    model.compile(loss="mean_squared_error",optimizer=optimizer)   #编译
    callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-3)]
    #训练模型
    history = model.fit(x_train_scaled, y_train, 
                        validation_data = (x_valid_scaled, y_valid), 
                        epochs = 100,
                        callbacks = callbacks)
    histories.append(history)

#绘图显示
def plot_learning_curves(history):
    pd.DataFrame(history.history).plot(figsize = (8,5))
    plt.grid(True)
    plt.gca().set_ylim(0,1)
    plt.show()
for lr,history in zip(learning_rates,histories):
    print("Learning rate:",lr)
    plot_learning_curves(history)

上述方法实现了lr的超参数搜索，但是有两个很明显的缺点：
1、实际超参数远远不止一个，所以需要使用20层或者更多层的for循环来实现超参数搜索；
2、这里使用for循环来实现超参数搜索，这样就导致只能等上一个模型训练完成之后，后面的模型才能开始训练，没有一个并行化的处理，增加了模型实现的时间复杂度，很费时间。

所以，我们需要会用一些现有的库来实现超参数搜索。

使用scikit实现超参数搜索
将tf.keras的model转化为sklearn支持的model
封装函数可以在Tensorflow官网API查到

#RandomizedSearchCV
#1.将tf.keras的model转化为sklearn支持的的model （sklearn_model = keras.wrappers.scikit_learn.KerasRegressor(build_model)）
#2.定义参数集合
#3.搜索参数（hidden_layers、layer_size、learning_rate）

def build_model(hidden_layers = 1,layer_size = 30,learning_rate = 3e-3):    #中间层的层数、每一层的单元数、学习率
    model = keras.models.Sequential()     #定义model
    model.add(keras.layers.Dense(layer_size,activation='relu',input_shape = x_train.shape[1:]))   
    #上面这一层单独拿出来，不放在for里面，因为第一层需要指定输入的数据大小
    for _ in range(hidden_layers - 1):
        model.add(keras.layers.Dense(layer_size,activation='relu'))    #全连接层
    model.add(keras.layers.Dense(1))                                   #输出层
    optimizer = keras.optimizers.SGD(learning_rate)                    #学习率可变，所以自定义optimizer
    model.compile(loss = 'mse',optimizer = optimizer)                  #mse是mean_squared_error的缩写
    return model

#将model转换为sklearn_model
sklearn_model = keras.wrappers.scikit_learn.KerasRegressor(build_model)

callbacks = [keras.callbacks.EarlyStopping(patience = 5, min_delta = 1e-2)]

history = sklearn_model.fit(x_train_scaled,y_train,epochs = 100,
                            validation_data = (x_valid_scaled,y_valid),
                            callbacks = callbacks)

#绘图显示
def plot_learning_curves(history):
    pd.DataFrame(history.history).plot(figsize = (8,5))
    plt.grid(True)
    plt.gca().set_ylim(0,1)
    plt.show()

plot_learning_curves(history)

model.evaluate(x_test_scaled,y_test)
sklearn中没有evaluate这个函数

from scipy.stats import reciprocal
#reciprocal分布的分布函数   f(x) = 1/(x*log(b/a))  a <= x <= b

#定义搜索空间
param_distribution = {
     
    "hidden_layers":[1,2,3,4],
    "layer_size":np.arange(1,100),
    "learning_rate":reciprocal(1e-4,1e-2),        #使用reciprocal分布生成数据 
}

#搜索参数
from sklearn.model_selection import RandomizedSearchCV

random_search_cv = RandomizedSearchCV(sklearn_model,
                                      param_distribution,      #参数空间
                                      n_iter = 10,             #从param_distribution中生成多少参数集合
                                      #n_jobs = 5，            #有多少任务在并行处理
                                      cv = 3,                  #默认就是3
                                      n_jobs = 1)              #现在还不能并行化（所以，改成1）

#运行搜索算法
random_search_cv.fit(x_train_scaled,y_train,epochs = 100,
                     validation_data = (x_valid_scaled,y_valid),
                     callbacks = callbacks)

注：查看reciprocal分布生成的数据

'''
在超参数搜索的过程中每个epoch遍历7740个样本，而不是之前的11000多个。
这是因为，在做超参数搜索的时候用了cross_validation。
cross_validation:把训练集平均分成n份，用n-1份去训练，最后一份验证。（交叉验证）
默认n=3
'''

#查看最好的参数和最好的分值都是多少
print(random_search_cv.best_params_)        #最好参数
print(random_search_cv.best_score_)         #最好分值
print(random_search_cv.best_estimator_)     #最好的model

#获取最好的model
model = random_search_cv.best_estimator_.model
model.evaluate(x_test_scaled,y_test)

你可能感兴趣的:(TensorFlow入门到进阶,tensorflow,深度学习,人工智能,python)

快速排序_详解快速排序算法网站推广优化yetaoaiueo 排序算法算法
快速排序（Quicksort），计算机科学词汇，适用领域Pascal，c++等语言，是对冒泡排序算法的一种改进。快速排序的排序流程快速排序算法通过多次比较和交换来实现排序，其排序流程如下：(1)首先设定一个分界值，通过该分界值将数组分成左右两部分。(2)将大于或等于分界值的数据集中到数组右边，小于分界值的数据集中到数组的左边。此时，左边部分中各元素都小于分界值，而右边部分中各元素都大于或等于分界值
Flink 源码笔记03—StreamGraph到JobGraph 董嘻嘻 Flink源码笔记 flink java big data
文章目录简介入口函数traverseStreamGraphAndGenerateHashesgenerateDeterministicHashgenerateUserSpecifiedHashsetChainingisChainable简介JobGraph可以认为是StreamGraph的优化图，它将一些符合特定条件的operators合并成一个operatorchain，以减少数据在节点之间序列
Python 函数-调用函数赔罪 Python 系统学习 python 开发语言
目录抽象调用函数数据类型转换练习小结我们知道圆的面积计算公式为：S=πr2当我们知道半径r的值时，就可以根据公式计算出面积。假设我们需要计算3个不同大小的圆的面积：r1=12.34r2=9.08r3=73.1s1=3.14*r1*r1s2=3.14*r2*r2s3=3.14*r3*r3当代码出现有规律的重复的时候，你就需要当心了，每次写3.14*x*x不仅很麻烦，而且，如果要把3.14改成3.14
Python数据容器（dict字典、set集合）张小生180 python 开发语言
dic字典dict全称dictionary，在其他语言中也称为map，使用键-值（key-value）存储，具有极快的查找速度。字典的创建使用大括号{}包含键值对，并用冒号:分隔键和值，形成键:值对。字典的特性唯一键：字典中的每个键都必须是唯一的。值可以取任何数据类型，如字符串，数字，元组。无序（Python3.6之前的版本）：在Python3.6之前的版本中，字典是无序的。但从Python3.7
Agent组件入门示例三月七꧁ ꧂ langchain+llm 前端语言模型 javascript microsoft 人工智能 gpt llama
文章目录Agent组件的类型Agent组件的应用Agent组件的多功能性安装openai和LangChain库。pip-qinstallopenaipipinstallLangChain 设置谷歌搜索的API密钥，以及设置OpenAI的密钥。os.environ["OPENAIAPIKEY"]="填人你的密钥"os.environ["SERPAPIAPIKEY"]="填人你的谷歌搜索
java实现数据上传到接口,Java 导入数据到Excel并提供文件下载接口梨漾 java实现数据上传到接口
依赖net.sourceforge.jexcelapijxl2.6.12复制代码我们需要用到jxl包的类，而jxl.jar正是操作excel表格的工具类库，除了jxl以外，poi包也是一个操作excel的类库。而对比两个包，jxl更适用与数据量大的情况，而poi在数据量不高(大约5000以内)时，效率较高，但占用内存大，更容易内存溢出。测试数据privateintid;privateStringn
批量更新 AWS ECS Fargate 服务：自动化平台版本升级 ivwdcwso 开发运维 aws 自动化云计算 Fargate ecs
在使用AWSECSFargate时，我们经常会收到平台版本更新的通知。为了确保我们的服务运行在最新的平台版本上，我们需要更新所有受影响的任务。本文将介绍如何使用Python和AWSSDK(boto3)来批量更新ECSFargate服务，自动化这一过程。背景AWSFargate会定期发布新的平台版本，以提供新功能和进行例行维护。当新版本发布时，AWS会通知用户在特定日期之前更新他们的任务。虽然AWS
【学习笔记】Python基础-字典Dict和Set和List与Str扩展法迪 Python基础 python hashmap Dict set list
Dict使用大括号围起来，这里提供一种键值对的list表示方法1.Dict{}2.List[]3.turple()实例代码#!/usr/bin/envpython3#-*-coding:utf-8-*-#字典dict类似Java的HashMap#Dict{}#List[]#turple()mDict={"Lava":90,"Huawei":100,"Sony":60}print(mDict['La
百问网imx6ullpro调试记录（linux+qt）嵌入式修炼师 linux驱动 linux qt
调试记录文章目录调试记录进展1.开发板相关1.1百问网乌班图密码1.2换设备开发环境搭建串口调试网络互通nfs文件系统挂载1.3网络问题1.4系统启动1.5进程操作2.QT2.1tslib1.获取源码2.安装依赖文件3.编译2.2qt移植1.获取qt源码2.配置编译器3.编译2.3拷贝到开发板1.拷贝2.修改开发板配置文件qttslib3.验证是否生效2.4安装QtCreator1.获取安装包2.
CHRONOS - 新闻时间线摘要小众AI AI开源服务器人工智能 AI编程
CHRONOS是一种新颖的基于检索的时间线摘要（TLS）方法，通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。为开放域TLS构建了一个最新的数据集，它在大小和时间线持续时间方面都超过了现有的公共数据集。⚗️OPEN-TLS数据集我们发布了用于开放域时间线摘要的Open-TLS数据集。目标新闻查询以以下格式显示，地面实况时间线按以下格式显示：news_keywords.pydat
6种MySQL高可用方案对比分析 m0_74823595 mysql adb android
大家好，我是V哥，关于MySQL高可用方案，在面试中频频出现，有同学在字节面试就遇到过，主要考察你在高可用项目中是如何应用的，V哥整理了6种方案，供你参考。V哥推荐：2024最适合入门的JAVA课程MySQL的高可用方案有多种，常见的包括以下几种：1.主从复制（Master-SlaveReplication）原理：主库进行写操作，数据通过异步或半同步复制到从库。可以通过从库进行读操作，实现读写分离
python中的dict与set “光光” python
python内置字典：dict支持key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取出来的时候才能根据key拿到value。由于一个key只能对应一个value,所以，多次对一个key放入value,后面的值会将前面的值覆盖掉。如果key不存在，dict就会报错要避免key不存在的错误，有两种方法：1）通过in判断key是否存在>>>d=｛'a':'1'｝>
推荐文章：md2pptx - Markdown到PowerPoint转换神器，让文档制作更简单！邬情然Harley
推荐文章：md2pptx-Markdown到PowerPoint转换神器，让文档制作更简单！项目地址:https://gitcode.com/gh_mirrors/md/md2pptx在快节奏的工作和学习环境中，高效地整理和展示信息变得至关重要。今天，我们来聊聊一个开源宝藏工具——md2pptx，它能将简洁的Markdown格式文本轻松转化为专业的PowerPoint演示文稿。对于那些喜欢Mark
Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
探索未来云部署：Spring Boot、Docker与AWS Fargate的完美融合秦贝仁Lincoln
探索未来云部署：SpringBoot、Docker与AWSFargate的完美融合去发现同类优质开源项目:https://gitcode.com/在这个日益数字化的时代，【DeploySpringBootandDockerMicroservicestoAWSusingECSandAWSFargate】项目为我们提供了一个创新的方式来部署Java微服务到亚马逊云。该项目不仅涵盖了SpringBoot
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
无人机遥感技术：从植被监测到生理参数反演的进阶之路 KY_chenzhao 无人机植被遥感参数反演
在当今的生态学和农林业研究中，无人机遥感技术已经成为获取植被信息的重要手段。它不仅能够快速覆盖大面积区域，还能提供高分辨率的多光谱和高光谱数据，为植被健康监测、生长状况评估和生理参数反演提供了强大的技术支持。今天，我们就来深入了解一下无人机遥感技术在植被定量监测中的应用。一、无人机遥感：为何备受青睐？无人机遥感技术结合了无人机的灵活性和遥感传感器的高精度，能够快速获取植被的多维度信息。与传统的卫星
设计模式之适配模式是什么？以及在Spring AOP中的拦截器链的使用源码解析。一个儒雅随和的男子设计模式 spring 设计模式 spring java
前言本文涉及到适配模式的基本用法，以及在SpringAOP中如何使用，首先需要了解适配模式的工作原理，然后结合SpringAOP的具体实现来详细详细解析源码。首先，适配模式，也就是AdapterPattern，属于结构型设计模式，主要用于让不兼容的接口能够一起工作。要了解它的定义、结构、应用场景以及优缺点。然后，可能需要一个具体的例子来说明，比如电压适配器，这样用户更容易理解。接下来是
【微服务】Nacos Discovery--服务治理 SoftwareDevOps 微服务分布式 Nacos 微服务注册中心服务治理
NacosDiscovery--服务治理前言服务治理常见的注册中心ZookeeperEurekaConsulNacosNacos入门搭建nacos环境将商品微服务注册到nacos将订单微服务注册到nacos总结前言上一章中，我们利用用户–订单–商品，实现了三个简单的微服务，实现了微服务之间的调用。但不知道大家有没有发现，我们是通过硬编码的方式，把服务者，消费者的服务Url，写到了代码中，这样做肯定
Redis Cluster入门指南：原来分布式缓存可以这么简单！ weixin_42587823 数据库缓存 redis 分布式
RedisCluster入门指南：原来分布式缓存可以这么简单！一、当Redis单机顶不住了怎么办？想象你经营着一家网红奶茶店，最初只有1个收银员（单机Redis），每天能处理500杯订单。但突然有一天订单量暴涨到5000杯，收银员手忙脚乱，队伍排到马路对面——这就是单机Redis遇到高并发时的真实写照。这时聪明的店长会怎么做？不是让收银员007加班，而是：增加多个收银台（分片存储）每个收银台配备备
python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
2024年AI虚拟伴侣应用趋势深度剖析：技术前沿与社会影响花生糖@ 技术科普 AIGC学习资料库人工智能 AI数字人 aigc 产品经理
随着人工智能技术的飞速发展，AI虚拟伴侣市场在2024年迎来了前所未有的繁荣期。这一新兴领域不仅验证了产品与市场的高度契合（Product-MarketFit,PMF），而且正逐步成为连接用户、流量与商业价值的桥梁。本文旨在深入探讨驱动AI伴侣行业爆炸性增长的关键趋势，并分析背后的技术动向及社会心理因素，为创业者和开发者提供一份全面的参考指南。一、市场概览：AI伴侣的崛起近年来，以Characte
AI与育儿领域的融合——探索未来的可能性花生糖@ AIGC学习资料库人工智能 AI创业点创意点
在当今快速发展的社会中，育儿成为了众多家庭面临的重大挑战。随着人工智能（AI）技术的不断进步，AI在育儿领域的应用逐渐展现出巨大的潜力，不仅能够为父母提供及时有效的支持，还能在很大程度上改善育儿体验。本文旨在探讨AI技术如何与育儿领域相结合，创造新的商业机会，以及未来的发展趋势。一、AI解决育儿的核心痛点育儿是一项复杂的工作，涉及广泛的知识和技能。然而，专业的育儿服务通常价格昂贵，许多家庭无法承担
【人工智能】AI现状分析 || 神经网络的数学基础 || 人工智能交叉领域的发展和技术应用 || 附：小白入门人工智能学习步骤追光者♂ Python从入门到人工智能百题千解计划(项目实战案例）人工智能交叉领域神经网络的数学基础 AI现状分析
声明：仅学习使用~资料整理分析不易，点个赞吧！目录1.AI现状分析（人工智能基础入门概念）1.1人工智能基础概念1.2人工智能的技术发展路线1.3产业发展的驱动因素1.4人工智能薪资岗位介绍2.神经网络的数学基础2.1神经网络的生物表示2.2神经网络的数学表示2.3神经网络必备的一些数学基础2.3.1Sigmoid函数2.3.2偏置2.4总结3.人工智能交叉领域的发展和技术应用3.1人工智能应用交
LVS高性能原因揭秘天亮i
请你做好思考的准备，跟着我的思路，去一点一点，把这么一个知识的历程，把它研究透彻，你会受益匪浅。OSI网络分层我们都应该知道，有OSI网络分层模型这么一个概念。此外，由于我们学的是软件工程学，为什么有一个工程这俩字在里面，那就说明了不是纯学术上的一个研究，是有具体的工程去做的。那么就涉及到分层解耦这么一个思想，任何一个层，只需要关心它这一层的事，而不用去管其它层具体是怎么做的。那么，对于每一层，就
EasyX学习笔记1：线条 ͨৡۚۨC++ۨۚ࿐๊ C++游戏开发【EasyX】c++
目录一、线条颜色1.`setlinecolor`-设置当前线条颜色2.`getlinecolor`-获取当前线条颜色二、线条样式1.`setlinestyle`-设置线条样式（宽度、类型等）三、绘制线条1.`line`-绘制两点间直线2.`lineto`-从当前位置画线到指定点3.`linerel`-相对当前位置画线4.`polyline`-绘制多段线四、其他函数1.`getlinestyle`-
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
Kafka日志文件探秘：从数据解析到故障排查的完整指南磐基Stack专业服务团队 Kafka kafka 分布式
#作者：猎人文章目录1、查看Log文件基本数据信息2、index文件健康性检查(--index-sanity-check)3、转储文件(--max-message-size)4、偏移量解码(--offsets-decoder)5、日志数据解析(--transaction-log-decoder)6、查询Log文件具体数据(--print-data-log)7、查看index文件具体内容8、查看ti
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。