闹闹的BaBa

《神经网络和深度学习学习笔记》（二）人工神经网络简介

文章目录

第10章人工神经网络简介

1 从生物神经元到人工神经元

1.1 生物神经元

1.2 具有神经元的逻辑计算

1.3 感知器

1.4 多层感知器和反向传播

2 用TensorFlow的高级API来训练MLP

3 使用纯TensorFlow训练DNN

3.1 构建阶段

3.2 执行阶段

3.3 使用神经网络

4 微调神经网络的超参数

4.1 隐藏层的个数

4.2 每个隐藏层中的神经元数

4.3 激活函数

5 练习

1. 从生物神经元到人工神经元

我们从鸟类那里学会了飞翔，有很多发明都是`被自然所启发`。这么说来看看`大脑`的组成，启发我们构建智能机器，就合乎情理了。这就是`人工神经网络ANN（Artificial Neural Network）`的根本来源。

人工神经网络是深度学习的`核心中的核心`。它们通用、强大、可扩展，使它成为解决复杂机器学习任务的理想选择。比如，数以亿计的图片分类，击败世界冠军的AlphaGo。

1.1 生物神经元

它是在动物的大脑皮层中的非凡细胞。生物神经元通过这些突出接受从其他细胞发来的很短的电脉冲，即信号。当一个神经元在一定时间内收到足够多的信号，就会发出自己的信号。

超级复杂的计算可以通过这些简单的神经元来完成。

1.2 具有神经元的逻辑计算

生物神经元的简化模型，`人工神经元：它有一个或多个二进制 (开\关) 输入和一个输出。`

`逻辑非`的应用场景，比如dropout。

1.3 感知器Perceptron

感知器是最简单ANN架构。它是基于一个线性阈值单元(LTU，Linear Threshold Unit)的人工神经元。

分析上图，x和w没啥好说的，就是普通的数字或向量，那么做变换的其实是神经元，它做了哪些操作？ ① 加权求和 $w^t \cdot x$ ；② 经过阶跃函数进一步变换函数空间 step(z)。③ 最后的输出: $h_w(x) = step(w^t \cdot x)。$

单个LTU结构可以用于线性二值分类，输出为一个概率，如果该概率超过了阈值就是正，否则为负(跟LR和SVM一样)

`感知器Perceptron`就是多个LTU单元的单层全连接NN结构。`注意：X1、X2 是特征特征， 1为偏差特征，永远为1！！！`

总的来看，`上面这个感知器结构做了什么？`它将一个实例（`x1 x2是单个实例的2个特征`）分为3个不同的二进制类，所以它是`多输出分类器`。当然也可以做成单输出分类器，在后面再加一层单个LTU单元的输出就好了，此时拥有2层的感知器叫`多层感知器`（MLP, Multi-Layer Perceptron）。

感知器训练算法很大程度上受hebb’s定律的启发，同时处于激活状态的细胞是会连在一起的。这个规律后来被称为`hebb定律`（又叫hebbinan学习）：当2个神经元有相同的输出时，它们之间的链接权重就会增强。perceptron就是根据这个规则的变体来训练。

感知器`训练算法 (权重更新)`：

$w_{ij}^{next step} = w_{ij} + \eta(\hat y_j-y_j)x_i$

$w_{ij}$ 是第i个输入神经元和第j个输出神经元的链接权重；

$x_i$ 是当前训练实例的第i个输入值；

$\hat y_j$ 是当前训练实例的第j个输出神经元的输出，即预测值；

$y_i$ 是当前训练实例的第j个输出神经元的目标输出，即真实值；

$\eta$ 是学习率。

`注意:` 感知器的每个输出神经元的`决策边界是线性的`，所以无法学习复杂的模式。(这点跟LR一样)

sklearn实现了一个单一LTU忘了的Perceptron类。


import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron

iris = load_iris()
X = iris.data[:, (2, 3)]  # petal length, petal width
y = (iris.target == 0).astype(np.int)

per_clf = Perceptron(max_iter=100, tol=-np.infty, random_state=42)
per_clf.fit(X, y)

y_pred = per_clf.predict([[2, 0.5]])

a = -per_clf.coef_[0][0] / per_clf.coef_[0][1] #前两个系数相除
b = -per_clf.intercept_ / per_clf.coef_[0][1]  #截距 除以 系数

axes = [0, 5, 0, 2]

x0, x1 = np.meshgrid(
        np.linspace(axes[0], axes[1], 500).reshape(-1, 1),# 0 ~ 5之间产生500个等差数列的数
        np.linspace(axes[2], axes[3], 200).reshape(-1, 1),# 0 ~ 2之间产生200个等差数列的数
    )
#生成测试实例
X_new = np.c_[x0.ravel(), x1.ravel()] # 按列合并
y_predict = per_clf.predict(X_new)
zz = y_predict.reshape(x0.shape)

plt.figure(figsize=(10, 4))
plt.plot(X[y==0, 0], X[y==0, 1], "bs", label="Not Iris-Setosa")
plt.plot(X[y==1, 0], X[y==1, 1], "yo", label="Iris-Setosa")

#画出决策边界
plt.plot([axes[0], axes[1]], [a * axes[0] + b, a * axes[1] + b], "k-", linewidth=3)
from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#9898ff', '#fafab0'])

plt.contourf(x0, x1, zz, cmap=custom_cmap)#正负样本区域 展示不同颜色
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.legend(loc="lower right", fontsize=14)
plt.axis(axes)

# save_fig("perceptron_iris_plot")
plt.show()

`注意`：感知器只能根据一个固定的阈值来做预测，而不是像LR输出一个概率，所以从灵活方面来说应该使用LR而不是Perception。

1.4 多层感知器和反向传播

多层感知器，就是多个感知器堆叠起来。

反向传播的实质其实就是`复合函数求导的链式法则`。反向传播的`训练过程`：

① 先正向做一次预测，度量误差；

② 反向的遍历每个层次来度量每个连接的误差；

③ 微调每个连接的权重来降低误差（梯度下降）。

反向传播可以合作的`激活函数`，除了逻辑函数sigmoid等外，最流行的是2个：

① 双曲正切函数 $\sigma(2z)-1$

② ReLU函数 $R e L U (z) = m a x (0, z)$

z = np.linspace(-5, 5, 200)

plt.figure(figsize=(11,4))

plt.subplot(121)
plt.plot(z, np.sign(z), "r-", linewidth=1, label="Step")
plt.plot(z, sigmoid(z), "g--", linewidth=2, label="Sigmoid")
plt.plot(z, np.tanh(z), "b-", linewidth=2, label="Tanh")
plt.plot(z, relu(z), "m-.", linewidth=2, label="ReLU")
plt.grid(True)
plt.legend(loc="center right", fontsize=14)
plt.title("Activation functions", fontsize=14)
plt.axis([-5, 5, -1.2, 1.2])

plt.subplot(122)
plt.plot(z, derivative(np.sign, z), "r-", linewidth=1, label="Step")
plt.plot(0, 0, "ro", markersize=5)
plt.plot(0, 0, "rx", markersize=10)
plt.plot(z, derivative(sigmoid, z), "g--", linewidth=2, label="Sigmoid")
plt.plot(z, derivative(np.tanh, z), "b-", linewidth=2, label="Tanh")
plt.plot(z, derivative(relu, z), "m-.", linewidth=2, label="ReLU")
plt.grid(True)
#plt.legend(loc="center right", fontsize=14)
plt.title("Derivatives", fontsize=14)
plt.axis([-5, 5, -0.2, 1.2])

save_fig("activation_functions_plot")
plt.show()

2. 用TensorFlow的高级API来训练MLP

需要用到tf.contrib包和 sklearn结合，contrib里面的东西经常迭代，属于第三方提供的代码库，这里就不描述了。

3. 使用纯TensorFlow训练DNN

3.1 构建阶段

#shuffle分批分桶
def shuffle_batch(X, y, batch_size):
    rnd_idx = np.random.permutation(len(X))
    n_batches = len(X) // batch_size
    for batch_idx in np.array_split(rnd_idx, n_batches):
        X_batch, y_batch = X[batch_idx], y[batch_idx]
        yield X_batch, y_batch #yield生成器，节省内存

n_inputs = 28*28  # MNIST
n_hidden1 = 300 #隐层1的神经元数量
n_hidden2 = 100 #隐层2的神经元数量
n_outputs = 10  #输出层的神经元数量，对于MNIST为多输出，0 - 9 共10种数字

reset_graph()
#------------------构建阶段 --------------------
X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") #占位符，相当于先定义出来因变量X
y = tf.placeholder(tf.int32, shape=(None), name="y") 

#构建nn结构
with tf.name_scope("dnn"):
    hidden1 = tf.layers.dense(X, n_hidden1, name="hidden1",
                              activation=tf.nn.relu)
    hidden2 = tf.layers.dense(hidden1, n_hidden2, name="hidden2",
                              activation=tf.nn.relu)
    logits = tf.layers.dense(hidden2, n_outputs, name="outputs")
    y_proba = tf.nn.softmax(logits)

#定义损失函数
with tf.name_scope("loss"):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
    loss = tf.reduce_mean(xentropy, name="loss")
    
#定义优化器和最小化损失函数的op
learning_rate = 0.01

with tf.name_scope("train"):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    training_op = optimizer.minimize(loss)

#定义模型评估
with tf.name_scope("eval"):
    correct = tf.nn.in_top_k(logits, y, 1)
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

3.2 执行阶段

#------------------执行阶段 --------------------
init = tf.global_variables_initializer() # 定义全局变量初始化器
saver = tf.train.Saver() #定义saver用于保存模型

n_epochs = 20 #迭代轮次
n_batches = 50 #每个批次的实例数量

with tf.Session() as sess:
    init.run() #初始化变量
    for epoch in range(n_epochs):
        for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):
            sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) #开始训练
        acc_batch = accuracy.eval(feed_dict={X: X_batch, y: y_batch}) #每个批次的训练集精确率
        acc_valid = accuracy.eval(feed_dict={X: X_valid, y: y_valid}) #每个批次的验证集的精确率
        print(epoch, "Batch accuracy:", acc_batch, "Validation accuracy:", acc_valid)

    save_path = saver.save(sess, "./my_model_final.ckpt") #保存模型

当然也可以自定义层结构，其他代码跟上面一样：

def neuron_layer(X, n_neurons, name, activation=None):
    with tf.name_scope(name):
        n_inputs = int(X.get_shape()[1])
        stddev = 2 / np.sqrt(n_inputs)
        init = tf.truncated_normal((n_inputs, n_neurons), stddev=stddev)
        W = tf.Variable(init, name="kernel")
        b = tf.Variable(tf.zeros([n_neurons]), name="bias")
        Z = tf.matmul(X, W) + b
        if activation is not None:
            return activation(Z)
        else:
            return Z
#唯一区别是这里使用了我们自定义的层结构，而不是dense
with tf.name_scope("dnn"):
    hidden1 = neuron_layer(X, n_hidden1, name="hidden1",
                           activation=tf.nn.relu)
    hidden2 = neuron_layer(hidden1, n_hidden2, name="hidden2",
                           activation=tf.nn.relu)
    logits = neuron_layer(hidden2, n_outputs, name="outputs")

3.3 使用神经网络

前面已经将训练好的NN保存成了ckpt文件，我们可以直接取出来用于预测：


with tf.Session() as sess:
    saver.restore(sess, "./my_model_final.ckpt") # or better, use save_path
    X_new_scaled = X_test[:20] #这里需要特征缩放  0 ~ 1
    Z = logits.eval(feed_dict={X: X_new_scaled}) # logits为nn最后的输出节点
    y_pred = np.argmax(Z, axis=1) #取出最大值的索引下标，即为预测图片
Z    
y_pred

4. 微调神经网络的超参数

有太多超参数需要调整：层数、每层神经元数、每层的激活函数类型、初始化逻辑的权重等等。所以，了解每个超参数的合理取值会很有帮助。

4.1 隐藏层的个数

① 大多数问题可以用一个或两个隐藏层来处理，此时可以增加神经元的数量。比如，对于MINST数据集，一个隐藏层拥有数百个神经元就可以达到97%的精度，2层可以获得超过98%的精度。

② 非常复杂的问题，比如大图片的分类，语音识别，通常需要数十层的隐藏层，此时每层的神经元数量要非常少。当然他们也需要超大的数据集。`隐藏层多神经元少的目的是为了训练起来更加快速`。不过，很少会有人从头构建这样的网络：更常见的是`重用`别人训练好的用来处理类似任务的网络。

4.2 每个隐藏层中的神经元数(`重要`)

① 对于输入层和输出层，由具体任务要求决定，比如MNIST输出10种数字，输出层神经元数就是10；

② 对于隐藏层，`经验`是以漏斗型来定义其尺寸，每层的神经元数依次减少，原因：许多低级功能可以合并成数量更少的高级功能。

③ 对于以上经验也不是那么绝对，可以逐步增加神经元的数量，直到过拟合。通常来说，通过增加每层的神经元数量比增加层数会产生更多的消耗。

④ 一个`更简单的方式：`使用更多的层次和神经元，然后提前设置`1 早停`来`避免过拟合`，或者使用`2 dropout`正则化技术。这被称为弹力裤方法。

4.3 激活函数

大多数情况下，可以在隐藏层中使用ReLU激活函数(或其变种)。它比其他激活函数快，因为梯度下降对于大数据值没有上限，会导致它无法终止。

对于输出层，Softmax对于分类任务( 若分类是互斥的) 来说是一个不错的选择。`对于回归任务，完全可以不使用激活函数?`。

5. 练习

在MNIST数据集上训练一个深度MLP，看看预测准确度能不能超过98%。尝试一些`额外的功能`（`保存检查点，中断后从检查点恢复，添加汇总，用tensorboard绘制学习曲线`）

from datetime import datetime
#定义日志路径
def log_dir(prefix=""):
    now = datetime.utcnow().strftime("%Y%m%d%H%M%S")
    root_logdir = "tf_logs"
    if prefix:
        prefix += "-"
    name = prefix + "run-" + now
    return "{}/{}/".format(root_logdir, name)

n_inputs = 28*28  # MNIST
n_hidden1 = 300
n_hidden2 = 100
n_outputs = 10

reset_graph()

X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X")
y = tf.placeholder(tf.int32, shape=(None), name="y") 

with tf.name_scope("dnn"):
    hidden1 = tf.layers.dense(X, n_hidden1, name="hidden1",
                              activation=tf.nn.relu)
    hidden2 = tf.layers.dense(hidden1, n_hidden2, name="hidden2",
                              activation=tf.nn.relu)
    logits = tf.layers.dense(hidden2, n_outputs, name="outputs")
    
with tf.name_scope("loss"):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
    loss = tf.reduce_mean(xentropy, name="loss")
    loss_summary = tf.summary.scalar('log_loss', loss)

learning_rate = 0.01

with tf.name_scope("train"):
    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    training_op = optimizer.minimize(loss)

with tf.name_scope("eval"):
    correct = tf.nn.in_top_k(logits, y, 1)
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))
    accuracy_summary = tf.summary.scalar('accuracy', accuracy)

init = tf.global_variables_initializer()
saver = tf.train.Saver()

#定义二进制日志文件writer
file_writer = tf.summary.FileWriter(logdir, tf.get_default_graph())

m, n = X_train.shape

# -------------- 执行计算图--------------------
n_epochs = 10001
batch_size = 50
n_batches = int(np.ceil(m / batch_size))

checkpoint_path = "./tmp/my_deep_mnist_model.ckpt" #第一次训练时路径不对
checkpoint_epoch_path = checkpoint_path + ".epoch"
final_model_path = "./my_deep_mnist_model"

best_loss = np.infty
epochs_without_progress = 0
max_epochs_without_progress = 50

with tf.Session() as sess:
    if os.path.isfile(checkpoint_epoch_path):
        # if the checkpoint file exists, restore the model and load the epoch number
        with open(checkpoint_epoch_path, "rb") as f:
            start_epoch = int(f.read())
        print("Training was interrupted. Continuing at epoch", start_epoch)
        saver.restore(sess, checkpoint_path)
    else:
        start_epoch = 0
        sess.run(init)

    for epoch in range(start_epoch, n_epochs):
        for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):
            sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
        accuracy_val, loss_val, accuracy_summary_str, loss_summary_str = sess.run([accuracy, loss, accuracy_summary, loss_summary], feed_dict={X: X_valid, y: y_valid})
        file_writer.add_summary(accuracy_summary_str, epoch)
        file_writer.add_summary(loss_summary_str, epoch)
        if epoch % 5 == 0:
            print("Epoch:", epoch,
                  "\tValidation accuracy: {:.3f}%".format(accuracy_val * 100),
                  "\tLoss: {:.5f}".format(loss_val))
            #保存当前模型
            saver.save(sess, checkpoint_path)
            #保存当前迭代轮次到.epoch后缀的文件中
            with open(checkpoint_epoch_path, "wb") as f:
                f.write(b"%d" % (epoch + 1))
            if loss_val < best_loss:
                saver.save(sess, final_model_path)
                best_loss = loss_val
            else:
                epochs_without_progress += 5
                if epochs_without_progress > max_epochs_without_progress:
                    print("Early stopping")
                    break

#模型训练完成后，删除检查点文件
os.remove(checkpoint_epoch_path)

机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
机器学习——lightGBM（学习整理） CXDNW 机器学习机器学习人工智能笔记 lightgbm 参数优化 sklearn
目录一、认识lightGBM1.简单介绍2.主要特点LightGBM的缺点3.模型训练方式（1）TrainingAPI（2）Scikit-learnAPI二、相关函数参数1.TrainingAPI2.Scikit-learnAPI（重复只做补充）3.lightgbm.cv4.lightgbm.Dataset5.Callbacks（1）lightgbm.record_evaluation（2）lig
【浙江工业大学、中国人工智能学会自然计算与数字智能城市专委会联合主办|ACM独立出版|往届均已见刊并完成EI、SCOPUS检索】第四届机器学习与计算机应用国际学术会议(ICMLCA 2023) 艾思科蓝 AiScholar 人工智能机器学习信息与通信图像处理人机交互计算机视觉数据分析
第四届机器学习与计算机应用国际学术会议(ICMLCA2023)定于2023年10月27-29日在中国杭州隆重举行。本届会议将主要关注机器学习和计算机应用面临的新的挑战问题和研究方向，着力反映国际机器学习和计算机应用相关技术研究的新进展。大会网站：https://ais.cn/u/iMrIjq（更多会议详情）截稿时间：以官网信息为准收录检索：EICompendex，Scopus【往届已见刊并完成EI
机器学习之决策树与随机森林的实现 SEVEN-YEARS 机器学习决策树随机森林
引言随着互联网技术的发展，垃圾邮件过滤已成为一项重要的任务。机器学习技术，尤其是决策树和随机森林，在解决这类问题时表现出色。本文将介绍随机森林的基本概念，并通过一个具体的案例——筛选垃圾电子邮件——来展示随机森林的实际应用。随机森林简介随机森林是一种基于决策树的集成学习方法，它通过构建多个决策树并综合它们的预测结果来提高准确性和防止过拟合。随机森林的工作原理主要包括以下几个步骤：自助采样：从原始数
编程小白如何成为大神？大学新生的最佳入门大神级攻略一禅（OneZen）随笔经验分享其他笔记 python java
编程语言选择1.选择一种编程语言入门：Python：Python是初学者的绝佳选择。它语法简单、易读易写、用途广泛，广泛应用于数据科学、机器学习、Web开发、自动化测试等领域。JavaScript：对于对Web开发感兴趣的学生，JavaScript是必学的。它在前端开发中占据主导地位，并且与HTML和CSS结合使用，构建动态网页。Java：Java是一种面向对象的编程语言，广泛应用于企业级应用和A
Python配置管理工具库之hydra使用详解 Rocky006 python 人工智能开发语言
概要在开发复杂的Python应用程序时，配置管理往往是一个重要但容易被忽视的部分。Hydra是一个强大的配置管理工具，它旨在简化配置文件的管理和使用，尤其是在涉及多个配置文件和参数组合的场景下。Hydra提供了一种优雅的方式来组织和访问配置数据，并支持动态生成和组合配置。这对于机器学习、数据科学和大型Python应用程序开发来说尤其有用。本文将详细介绍Hydra库，包括其安装方法、主要特性、基本和
spark应用程序转换_4.Spark特征提取、转换和选择 - 简书 weixin_39956182 spark应用程序转换
在实际机器学习项目中，我们获取的数据往往是不规范、不一致、有很多缺失数据，甚至不少错误数据，这些数据有时又称为脏数据或噪音，在模型训练前，务必对这些脏数据进行处理，否则，再好的模型，也只能脏数据进，脏数据出。这章我们主要介绍对数据处理涉及的一些操作，主要包括：特征提取特征转换特征选择4.1特征提取特征提取一般指从原始数据中抽取特征。4.1.1词频－逆向文件频率(TF-IDF)词频－逆向文件频率(T
深度学习：探索人工智能的无限可能木小梦(๑• . •๑) 人工智能深度学习
引言：在当今这个数字化时代，人工智能（AI）已经成为了一个热门话题。从自动驾驶汽车到智能助手，AI正在逐渐改变我们的生活方式。而在AI领域，深度学习是近年来发展最为迅速的一个分支。本文将深入探讨深度学习及其相关领域，包括计算机视觉、自然语言处理、神经网络和强化学习。1.深度学习深度学习是一种基于人工神经网络的机器学习方法，它试图模拟人脑的工作方式，通过训练大量数据来自动学习数据的内在规律和表示层次
计算机视觉概念科普极客代码玩转AI 人工智能图像处理计算机视觉深度学习
计算机视觉（ComputerVision,CV）是一门多学科交叉的科学，旨在让计算机具备“看”的能力，即通过图像或视频数据来理解世界。它结合了信号处理、图像处理、模式识别、机器学习等多个领域的技术，让计算机能够执行诸如识别、分类、追踪等复杂的视觉任务。本文将深入探讨计算机视觉的核心概念和技术。一、计算机视觉概述计算机视觉是一门研究如何让计算机“看”世界并从中获取信息的科学。它主要关注如何处理、分析
机器学习和深度学习中常见损失函数，包括损失函数的数学公式、推导及其在不同场景中的应用早起星人机器学习深度学习人工智能
目录引言什么是损失函数？常见损失函数介绍3.1均方误差（MeanSquaredError,MSE）3.2交叉熵损失（Cross-EntropyLoss）3.3平滑L1损失（SmoothL1Loss）3.4HingeLoss（合页损失）3.5二进制交叉熵损失（BinaryCross-EntropyLoss）3.6KL散度（KLDivergence）3.7Huber损失（HuberLoss）3.8对比
AI学习记录 - 对抗性神经网络 victor-AI最好的学习方式是画图人工智能学习神经网络
有用点赞哦学习机器学习到一定程度之后，一般会先看他的损失函数是什么，看他的训练集是什么，训练集是什么，代表我使用模型的时候，输入是什么类型的数据。对抗神经网络其实可以这样子理解，网上一直说生成器和判别器的概念，没有触及到本质。我有一种看法：假如当前场景是输入模糊图片，然后输出高质量图片。当判别器和生成器本来就是一个模型，在不把判别器生成器拆开的时候，我输入一张图片，这个模型输出的是0和1，那这个整
【ShuQiHere】《机器学习的进化史『上』：从数学模型到智能算法的百年征程》 ShuQiHere 机器学习人工智能
【ShuQiHere】引言：概述机器学习的演进机器学习的发展史是一段从数学基础到智能算法的演进历程。从19世纪的数学探索，到20世纪的计算革命，再到21世纪的智能算法应用，机器学习模型的演化贯穿了科学进步的每个重要阶段。这篇博客将系统回顾这些模型的历史演进，展示它们之间的联系，并探讨其在现代应用中的重要性。线性回归：机器学习的起点背景故事：1805年的法国，年轻的数学家Adrien-MarieLe
TensorFlow和它的弟弟们活蹦乱跳酸菜鱼 tensorflow 人工智能 python
TensorFlow、TensorFlowLite、TensorFlowLiteMicro是Google在深度学习领域推出的三个不同产品，它们各自有着不同的设计目标和适用场景。以下是它们之间的主要区别：1.TensorFlow(PC\GPU)设计目标：TensorFlow是一个开源的机器学习框架，由GoogleBrain团队开发，旨在帮助开发者构建和训练深度学习模型。它支持多种编程语言（如Pyth
机器学习（ML）算法分类活蹦乱跳酸菜鱼机器学习
机器学习（ML）算法是一个广泛而多样的领域，涵盖了多种用于数据分析和模式识别的技术。以下是一些常见的机器学习算法分类及其具体算法：一、监督学习算法监督学习算法使用标记（即已知结果）的训练数据来训练模型，以便对新数据进行预测。线性回归：用于建立连续变量之间的关系，通过拟合一条直线或超平面来预测新数据的输出值。逻辑回归：虽然名称中包含“回归”，但实际上是用于分类问题，特别是二分类问题。通过将线性回归模
Datawhale AI夏令营-task03 ghost_him 人工智能
DatawhaleAI夏令营-task03笔记来源：DatawhaleAI夏令营数据增强基础数据增强是一种在机器学习和深度学习领域常用的技术，尤其是在处理图像和视频数据时。**数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。**数据增强涉及对原始数据进行一系列的变换操作，生成新的训练样本。这些变换模拟了真实世界中的变化，对于图像而言，数
K-means聚类算法：从原理到实践的全面解读一休哥助手人工智能算法 kmeans 聚类
引言在当今数据驱动的时代，机器学习技术的发展已经成为各行各业的重要驱动力。在机器学习中，聚类算法是一类被广泛应用的技术之一。聚类旨在将数据集中的样本划分为不同的组，使得组内的样本相似度高，组间的相似度低。K-means聚类算法作为聚类算法中的一种经典方法，因其简单、高效的特性被广泛应用于各个领域。在本文中，我们将深入探讨K-means聚类算法，从基本原理到实际应用，以及算法的优化和实现方法。首先，
机器学习——支持向量机酱香编程，风雨兼程机器学习支持向量机机器学习算法
一、间隔与支持向量给定训练样本集D={(x1,y1),(x2,y2),⋯ ,(xm,ym)},yi∈{−1,+1}D=\{(\bmx_1,y_1),(\bmx_2,y_2),\cdots,(\bmx_m,y_m)\},y_i\in\{-1,+1\}D={(x1,y1),(x2,y2),⋯,(xm,ym)},yi∈{−1,+1}，分类学习最基本的想法就是基于训练集DDD在样本空间中找到一个划分超
【机器学习-随记】使用 Slack 和 Facebook Messenger 的消息机器人实现虚拟客服人员听忆. 机器学习 facebook 机器人
使用Slack和FacebookMessenger的消息机器人实现虚拟客服人员1.平台选择与集成2.消息机器人开发3.自然语言处理(NLP)4.虚拟助手功能实现5.语音助手集成6.安全与用户隐私7.测试与部署边走、边悟迟早会好实现一个虚拟客服人员，能够通过Slack和FacebookMessenger进行交互，并执行虚拟助手和语音助手通常完成的任务，涉及多个技术组件和步骤。以下是实现这一系统的详细
每天一个数据分析题（五百零五）- 提升方法跟着紫枫学姐学CDA 数据分析题库数据分析
提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据
每天一个数据分析题（五百零六）- 装袋方法跟着紫枫学姐学CDA 数据分析数据挖掘
装袋方法(bagging)也叫做bootstrapaggregating,是在原始数据集有放回地重采样S次后得到新数据集的一种技术，其代表算法有？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专
7+非肿瘤纯生信，内容不多但思路值得借鉴！生信小课堂
关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，铁死亡，自噬等基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友患者添加小编咨询生信分析咨询请关注生信小课堂研究背景：扩张型心
亦菲喊你来学机器学习（14） --贝叶斯算法方世恩机器学习算法人工智能 python scikit-learn
文章目录贝叶斯一、贝叶斯定理二、贝叶斯算法的核心概念三、贝叶斯算法的优点与局限优点：局限：四、构建模型训练模型测试模型总结贝叶斯贝叶斯算法（Bayesianalgorithm）是一种基于贝叶斯定理的机器学习方法，主要用于估计模型参数和进行概率推断。以下是对贝叶斯算法的详细解析：一、贝叶斯定理贝叶斯定理是概率论中的一个基本定理，它描述了条件概率之间的关系。该定理的数学表达式为：P(A∣B)=P(B)
探索数据世界的钥匙：机器学习中的线性回归程序员-李旭亮机器学习
在浩瀚的数据海洋中，寻找隐藏的模式与规律，一直是科学家、工程师乃至各行各业决策者们的共同追求。而机器学习，作为这一领域的璀璨明珠，以其强大的数据分析与预测能力，正逐步改变着我们的世界。在众多机器学习算法中，线性回归以其简洁、直观、易于理解的特点，成为了入门机器学习的首选，更是解决回归问题的一把金钥匙。一、线性回归：定义与原理线性回归，顾名思义，是一种通过线性模型来预测一个或多个自变量（X）与因变量
深度学习与OpenCV：解锁计算机视觉的无限可能程序员-李旭亮深度学习
在科技日新月异的今天，计算机视觉作为人工智能领域的一颗璀璨明珠，正以前所未有的速度改变着我们的生活与工作方式。而《深度学习》与OpenCV，作为这一领域的两大重要工具，更是为计算机视觉的入门与深入探索铺设了坚实的基石。本文将带您一窥这两者的魅力，探索它们如何携手开启计算机视觉的无限可能。深度学习：智能的催化剂深度学习，作为机器学习的一个分支，其核心在于通过构建深层次的神经网络模型，模拟人脑的学习过
PyTorch库学习之torch.mean函数 Midsummer-逐梦 #torch pytorch 学习人工智能
PyTorch库学习之torch.mean函数一、简介torch.mean是PyTorch库中的一个函数，用于计算张量的均值。它可以沿着指定的维度或者整个张量计算均值，是数据分析和机器学习中常用的操作之一。二、语法和参数语法:torch.mean(input,dim=None,keepdim=False,*,out=None)参数:input(torch.Tensor):输入张量。dim(int,
AI大模型副业变现之路，有技术就有收入！ AI大模型-王哥人工智能 AI大模型大模型大模型学习大模型教程大模型入门
在当今时代，AI大模型的应用越来越广泛，利用这些技术开展副业赚钱已成为可能。以下是一份详细的指南，帮助你了解需要学习的内容以及如何操作。一、需要学习的内容基础知识储备（1）数学知识：线性代数、概率论与数理统计、微积分等，这些是理解AI算法的基础。（2）编程技能：掌握Python编程语言，因为Python在AI领域有丰富的库和框架支持。（3）机器学习原理：了解常见的机器学习算法，如线性回归、决策树、
c++调用python和numpy混合编程 AIVoyager c++python c++python numpy
目录1.cmake配置2.python脚本3.c++头文件初始化4.c++调用python中的函数，实现功能参考在现代软件开发中，跨语言编程和混合编程的需求日益增长。C++作为一种高效、强大的编程语言，广泛应用于底层开发、游戏引擎、高性能计算等领域。而Python则因其简洁的语法、丰富的库和易于学习的特性，在数据科学、机器学习、Web开发等领域占据重要地位。NumPy是Python中一个用于数值计
springboot集成 AI 实现图片辅助设计功能 cesske spring boot 人工智能后端
springboot集成AI实现图片辅助设计功能在SpringBoot中实现一个图片辅助设计功能，通常会涉及到图像处理、计算机视觉以及机器学习（AI）技术的应用。这样的系统可以帮助用户进行图像编辑、风格转换、自动设计布局等。以下是一个基本步骤和技术栈建议，用于在SpringBoot中构建图片辅助设计功能的系统。1.技术栈选择SpringBoot：作为后端框架，提供RESTfulAPI。图像处理库：
【ShuQiHere】SGD vs BGD：搞清楚它们的区别和适用场景 ShuQiHere 机器学习 python 人工智能
【ShuQiHere】在机器学习中，优化模型是构建准确预测模型的关键步骤。优化算法帮助我们调整模型的参数，使其更好地拟合训练数据，减少预测误差。在众多优化算法中，梯度下降法是一种最为常见且有效的手段。梯度下降法主要有两种变体：批量梯度下降（BatchGradientDescent,BGD）和随机梯度下降（StochasticGradientDescent,SGD）。这两者在如何计算梯度并更新模型参
每天一个数据分析题（五百零二）- 分割式聚类算法跟着紫枫学姐学CDA 数据分析题库算法数据分析聚类
以下哪个选项是分割式聚类算法?A.K-Means。B.CentroidMethodC.Ward’sMethodD.以上皆非数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

《神经网络和深度学习 学习笔记》（二）人工神经网络简介

文章目录

第10章 人工神经网络简介

1 从生物神经元到人工神经元

1.1 生物神经元

1.2 具有神经元的逻辑计算

1.3 感知器

1.4 多层感知器和反向传播

2 用TensorFlow的高级API来训练MLP

3 使用纯TensorFlow训练DNN

3.1 构建阶段

3.2 执行阶段

3.3 使用神经网络

4 微调神经网络的超参数

4.1 隐藏层的个数

4.2 每个隐藏层中的神经元数

4.3 激活函数

5 练习

1. 从生物神经元到人工神经元

我们从鸟类那里学会了飞翔，有很多发明都是被自然所启发。这么说来看看大脑的组成，启发我们构建智能机器，就合乎情理了。这就是人工神经网络ANN（Artificial Neural Network）的根本来源。

人工神经网络是深度学习的核心中的核心。它们通用、强大、可扩展，使它成为解决复杂机器学习任务的理想选择。比如，数以亿计的图片分类，击败世界冠军的AlphaGo。

1.1 生物神经元

它是在动物的大脑皮层中的非凡细胞。生物神经元通过这些突出接受从其他细胞发来的很短的电脉冲，即信号。当一个神经元在一定时间内收到足够多的信号，就会发出自己的信号。

超级复杂的计算可以通过这些简单的神经元来完成。

1.2 具有神经元的逻辑计算

生物神经元的简化模型，人工神经元：它有一个或多个二进制 (开\关) 输入 和 一个输出。

逻辑非的应用场景，比如dropout。

1.3 感知器Perceptron

感知器是最简单ANN架构。它是基于一个线性阈值单元(LTU，Linear Threshold Unit)的人工神经元。

单个LTU结构可以用于线性二值分类，输出为一个概率，如果该概率超过了阈值就是正，否则为负(跟LR和SVM一样)

感知器Perceptron就是多个LTU单元的单层全连接NN结构。注意：X1、X2 是特征 特征 ， 1为偏差特征，永远为1！！！

感知器训练算法 (权重更新)：

w i j w_{ij} wij​是第i个输入神经元和第j个输出神经元的链接权重；

x i x_i xi​是当前训练实例的第i个输入值；

y ^ j \hat y_j y^​j​是当前训练实例的第j个输出神经元的输出，即预测值；

y i y_i yi​是当前训练实例的第j个输出神经元的目标输出，即真实值；

η \eta η 是学习率。

注意: 感知器的每个输出神经元的决策边界是线性的，所以无法学习复杂的模式。(这点跟LR一样)

sklearn实现了一个单一LTU忘了的Perceptron类。

注意：感知器只能根据一个固定的阈值来做预测，而不是像LR输出一个概率，所以从灵活方面来说应该使用LR而不是Perception。

1.4 多层感知器和反向传播

多层感知器，就是多个感知器堆叠起来。

反向传播的实质其实就是复合函数求导的链式法则。 反向传播的训练过程：

① 先正向做一次预测，度量误差；

② 反向的遍历每个层次来度量每个连接的误差；

③ 微调每个连接的权重来降低误差（梯度下降）。

反向传播可以合作的激活函数，除了逻辑函数sigmoid等外，最流行的是2个：

① 双曲正切函数 t a n h ( z ) = 2 σ ( 2 z ) − 1 tanh(z)=2 \sigma(2z)-1 tanh(z)=2σ(2z)−1

② ReLU函数 R e L U ( z ) = m a x ( 0 , z ) ReLU(z) = max(0,z) ReLU(z)=max(0,z)

2. 用TensorFlow的高级API来训练MLP

需要用到tf.contrib包 和 sklearn结合，contrib里面的东西经常迭代，属于第三方提供的代码库，这里就不描述了。

3. 使用纯TensorFlow训练DNN

3.1 构建阶段

3.2 执行阶段

当然也可以自定义层结构，其他代码跟上面一样：

3.3 使用神经网络

前面已经将训练好的NN保存成了ckpt文件，我们可以直接取出来用于预测：

4. 微调神经网络的超参数

有太多超参数需要调整：层数、每层神经元数、每层的激活函数类型、初始化逻辑的权重等等。所以，了解每个超参数的合理取值会很有帮助。

4.1 隐藏层的个数

① 大多数问题可以用一个或两个隐藏层来处理，此时可以增加神经元的数量。比如，对于MINST数据集，一个隐藏层拥有数百个神经元就可以达到97%的精度，2层可以获得超过98%的精度。

4.2 每个隐藏层中的神经元数(重要)

① 对于输入层和输出层，由具体任务要求决定，比如MNIST输出10种数字，输出层神经元数就是10；

② 对于隐藏层，经验是以漏斗型来定义其尺寸，每层的神经元数依次减少，原因：许多低级功能可以合并成数量更少的高级功能。

③ 对于以上经验也不是那么绝对，可以逐步增加神经元的数量，直到过拟合。通常来说，通过增加每层的神经元数量比增加层数会产生更多的消耗。

④ 一个更简单的方式：使用更多的层次和神经元，然后提前设置1 早停来避免过拟合，或者使用2 dropout正则化技术。这被称为 弹力裤 方法。

4.3 激活函数

大多数情况下，可以在隐藏层中使用ReLU激活函数(或其变种)。它比其他激活函数快，因为梯度下降对于大数据值没有上限，会导致它无法终止。

对于输出层，Softmax对于分类任务( 若分类是互斥的) 来说是一个不错的选择。对于回归任务，完全可以不使用激活函数?。

5. 练习

在MNIST数据集上训练一个深度MLP，看看预测准确度能不能超过98%。尝试一些额外的功能（保存检查点，中断后从检查点恢复，添加汇总，用tensorboard绘制学习曲线）

你可能感兴趣的:(机器学习)

《神经网络和深度学习学习笔记》（二）人工神经网络简介

第10章人工神经网络简介

我们从鸟类那里学会了飞翔，有很多发明都是`被自然所启发`。这么说来看看`大脑`的组成，启发我们构建智能机器，就合乎情理了。这就是`人工神经网络ANN（Artificial Neural Network）`的根本来源。

人工神经网络是深度学习的`核心中的核心`。它们通用、强大、可扩展，使它成为解决复杂机器学习任务的理想选择。比如，数以亿计的图片分类，击败世界冠军的AlphaGo。

生物神经元的简化模型，`人工神经元：它有一个或多个二进制 (开\关) 输入和一个输出。`

`逻辑非`的应用场景，比如dropout。

`感知器Perceptron`就是多个LTU单元的单层全连接NN结构。`注意：X1、X2 是特征特征， 1为偏差特征，永远为1！！！`

感知器`训练算法 (权重更新)`：

$w_{ij}$ 是第i个输入神经元和第j个输出神经元的链接权重；

$x_i$ 是当前训练实例的第i个输入值；

$\hat y_j$ 是当前训练实例的第j个输出神经元的输出，即预测值；

$y_i$ 是当前训练实例的第j个输出神经元的目标输出，即真实值；

$\eta$ 是学习率。

`注意:` 感知器的每个输出神经元的`决策边界是线性的`，所以无法学习复杂的模式。(这点跟LR一样)

`注意`：感知器只能根据一个固定的阈值来做预测，而不是像LR输出一个概率，所以从灵活方面来说应该使用LR而不是Perception。

反向传播的实质其实就是`复合函数求导的链式法则`。反向传播的`训练过程`：

反向传播可以合作的`激活函数`，除了逻辑函数sigmoid等外，最流行的是2个：

① 双曲正切函数 $\sigma(2z)-1$

② ReLU函数 $R e L U (z) = m a x (0, z)$

需要用到tf.contrib包和 sklearn结合，contrib里面的东西经常迭代，属于第三方提供的代码库，这里就不描述了。

4.2 每个隐藏层中的神经元数(`重要`)

② 对于隐藏层，`经验`是以漏斗型来定义其尺寸，每层的神经元数依次减少，原因：许多低级功能可以合并成数量更少的高级功能。

④ 一个`更简单的方式：`使用更多的层次和神经元，然后提前设置`1 早停`来`避免过拟合`，或者使用`2 dropout`正则化技术。这被称为弹力裤方法。

对于输出层，Softmax对于分类任务( 若分类是互斥的) 来说是一个不错的选择。`对于回归任务，完全可以不使用激活函数?`。

在MNIST数据集上训练一个深度MLP，看看预测准确度能不能超过98%。尝试一些`额外的功能`（`保存检查点，中断后从检查点恢复，添加汇总，用tensorboard绘制学习曲线`）