weixin_30836759

TensorFlow之CNN：运用Batch Norm、Dropout和早停优化卷积神经网络

学卷积神经网络的理论的时候，我觉得自己看懂了，可是到了用代码来搭建一个卷积神经网络时，我发现自己有太多模糊的地方。这次还是基于MINIST数据集搭建一个卷积神经网络，首先给出一个基本的模型，然后再用Batch Norm、Dropout和早停对模型进行优化；在此过程中说明我在调试代码过程中遇到的一些问题和解决方法。

一、搭建基本的卷积神经网络

第一步：准备数据

在《Hands on Machine Learning with Scikit-Learn and TensorFlow》这本书上，用的是下面这一段代码来下载MINIST数据集。

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("/tmp/data/")

用这种方式下载可能会报一个URLError的错误。大意是SSL证书验证失败，可以在前面加上下面那一段代码来取消SSL证书验证。

URLError:

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

然后运行后会出现一大堆的WARNING，但是不用担心，数据集还是能下载成功，而且还贴心地划分好了训练集、验证集和测试集，生成了batch，并reshape成了恰当的输入格式（比如训练集的维度已经是（55000, 784））。问题是下载太慢了，我失败了很多次，成功全靠运气。

我还是倾向于用tf.keras.datasets.mnist.load_data()来下载野生原始数据，然后自己动手划分数据、生成batch、整理成恰当的输入格式。

import tensorflow as tf
import numpy as np
import time
from datetime import timedelta

# 记录训练花费的时间
def get_time_dif(start_time):
    end_time = time.time()
    time_dif = end_time - start_time
    #timedelta是用于对间隔进行规范化输出，间隔10秒的输出为：00:00:10    
    return timedelta(seconds=int(round(time_dif)))

# 准备训练数据集、验证集和测试集，并生成小批量样本
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()

# 对数据进行归一化，把训练集reshape成（60000,784）的维度
X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0
X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0
y_train = y_train.astype(np.int32)
y_test = y_test.astype(np.int32)
# 划分训练集和验证集
X_valid, X_train = X_train[:5000], X_train[5000:]
y_valid, y_train = y_train[:5000], y_train[5000:]

def shuffle_batch(X, y, batch_size):
    rnd_idx = np.random.permutation(len(X))
    n_batches = len(X) // batch_size
    for batch_idx in np.array_split(rnd_idx, n_batches):
        X_batch, y_batch = X[batch_idx], y[batch_idx]
        yield X_batch, y_batch

第二步：配置参数

构建的网络有两个卷积层和一个全连接层，结构是：输入层—卷积层1—卷积层2—最大池化层—全连接层—输出层。卷积层又由卷积核与ReLU激活函数构成。

第一个卷积层有16个卷积核，尺寸为(3, 3)，步幅为1，进行补零操作。第二个卷积层有32个卷积核，尺寸为（3，3），步幅为2，也进行补零。一般而言，越靠后的卷积层，输出的特征图要越多，而每个特征图的尺寸要越小，这就需要增加卷积核、增大卷积核尺寸和增大步幅。这样越往后就能提取到越高级的特征。

每个特征图上的神经元的参数（权重和偏置）是共享的，而不同特征图则有着不同的参数。每一个特征图都能提取出一个图片特征，这意味着特征图越多，提取到的图片特征也越多。

然后我们来看看相关的计算。假设卷积层的输入神经元个数为 n，卷积核大小为 m，步长为 s，输入神经元两端各填补p个零，那么该卷积层的输出神经元的个数为 (n-m+2p)/s + 1。由下面的参数可以知道，第1个卷积层输入神经元的数量为 n=28*28=784，m=3，s=1，由于padding=“SAME”，那么由 (784-3+2p)+1=784可知，p=1，也就是左右各补1个零。

可是在第2个卷积层，我却算出来补零的个数p不是整数，不知道是怎么进行后续操作的。

# 设定输入的高度、宽度、通道数
height = 28
width = 28
channels = 1
n_inputs = height * width

# 设定卷积层特征图（过滤器）的个数，卷积核的尺寸、步幅
conv1_fmaps = 16
conv1_ksize = 3
conv1_stride = 1
conv1_pad = "SAME"

conv2_fmaps = 32
conv2_ksize = 3
conv2_stride = 2
conv2_pad = "SAME"

# 最大池化层的特征图数量（通道数）
pool3_fmaps = conv2_fmaps
# 设定全连接层的神经元数量。
n_fc1 = 32
n_outputs = 10

第三步：构建卷积网络

下面的代码正是按照上面所说的网络结构去构建的，需要注意的地方有两点：一是最大池化时不要补零，因为池化的作用就是减少内存占用和参数数量；二是在输入到全连接层之前，要把所有特征图拉平成一个向量。

with tf.name_scope("inputs"):
    X = tf.placeholder(tf.float32, shape=[None, n_inputs], name="X")
    X_reshaped = tf.reshape(X, shape=[-1, height, width, channels])
    y = tf.placeholder(tf.int32, shape=[None], name="y")

conv1 = tf.layers.conv2d(X_reshaped, filters=conv1_fmaps, kernel_size=conv1_ksize,
                         strides=conv1_stride, padding=conv1_pad,
                         activation=tf.nn.relu, name="conv1")
conv2 = tf.layers.conv2d(conv1, filters=conv2_fmaps, kernel_size=conv2_ksize,
                         strides=conv2_stride, padding=conv2_pad,
                         activation=tf.nn.relu, name="conv2")

with tf.name_scope("pool3"):
    pool3 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="VALID")
    # 把所有特征图拉平成一个向量，最大池化后特在图缩小为原来的1/16，所以由28*28变成了7*7
    pool3_flat = tf.reshape(pool3, shape=[-1, pool3_fmaps * 7 * 7])

with tf.name_scope("fc1"):
    fc1 = tf.layers.dense(pool3_flat, n_fc1, activation=tf.nn.relu, name="fc1")

with tf.name_scope("output"):
    logits = tf.layers.dense(fc1, n_outputs, name="output")
    Y_proba = tf.nn.softmax(logits, name="Y_proba")

with tf.name_scope("train"):
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=y)
    loss = tf.reduce_mean(xentropy)
    optimizer = tf.train.AdamOptimizer()
    training_op = optimizer.minimize(loss)

with tf.name_scope("eval"):
    correct = tf.nn.in_top_k(logits, y, 1)
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

第四步：训练和评估模型

训练和评估阶段最大的问题就是在卷积层可能存在内存溢出，尤其是评估和测试时。训练时batch-size=100，问题不大，而验证集的样本数为5000，测试集的样本数为10000，在计算时是非常消耗内存的。我在测试时，就出现了如下的错误：

ResourceExhaustedError: OOM when allocating tensor with shape[10000,16,29,29]...

OOM意思就是“ Out of Memorry”，这段错误是指在测试阶段内存溢出了。我的GPU是GTX960M，显卡内存是2G，实际训练模型时可用的大概是1.65G，还是比较小。

遇到这种问题，有几种解决办法：一种是让模型简单点，比如减少卷积层的特征图数量，增加步幅，减少卷积层的数量，但是这一般会让模型的性能下降；第二种方法是把32位的浮点数改为16位的；第三种方法是在评估和测试时也进行小批量操作。

让模型变得简单会减低模型的性能，我试了，的确如此，因此我选择了第三种方法，在评估和测试时，把数据按每批次1000个样本输入，然后求平均值。最终的验证精度为98.74%。

with tf.name_scope("init_and_save"):
    init = tf.global_variables_initializer()
    saver = tf.train.Saver()
    
    n_epochs = 10
    batch_size = 100
    
with tf.Session() as sess:
    init.run()
    start_time = time.time()
    
    for epoch in range(n_epochs):
        for X_batch, y_batch in shuffle_batch(X_train,y_train,batch_size):
            
            sess.run(training_op, feed_dict={X: X_batch, y: y_batch})
            acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch})
            
        if epoch % 2 == 0 or epoch == 9:
            # 每次输入1000个样本进行评估，然后求平均值
            acc_val = []
            for i in range(len(X_valid)//1000):
                acc_val.append(accuracy.eval(feed_dict={X: X_valid[i*1000:(i+1)*1000], y: y_valid[i*1000:(i+1)*1000]}))                 
            acc_val = np.mean(acc_val)            
            print('Epoch:{0:>4}, Train accuracy:{1:>7.2%},Validate accuracy:{2:7.2%}'.format(epoch,acc_train, acc_val))
            
    time_dif = get_time_dif(start_time)
    print("\nTime usage:", time_dif)
    acc_test = []
    # 每次输入1000个样本进行测试，再求平均值
    for i in range(len(X_test)//1000):
        acc_test.append(accuracy.eval(feed_dict={X: X_test[i*1000:(i+1)*1000], y: y_test[i*1000:(i+1)*1000]}))
    acc_test = np.mean(acc_test)
    print("\nTest_accuracy:{0:>7.2%}".format(acc_test))

Epoch:   0, Train accuracy: 98.00%,Validate accuracy: 97.12%
Epoch:   2, Train accuracy: 97.00%,Validate accuracy: 98.34%
Epoch:   4, Train accuracy:100.00%,Validate accuracy: 98.62%
Epoch:   6, Train accuracy:100.00%,Validate accuracy: 98.84%
Epoch:   8, Train accuracy: 99.00%,Validate accuracy: 98.68%
Epoch:   9, Train accuracy:100.00%,Validate accuracy: 98.86%

Time usage: 0:01:02

Test_accuracy: 98.68%

二、用Batch Norm、Dropout和早停优化卷积神经网络

参考的这本书里用Dropout和早停来优化卷积神经网络的基本模型，没有用Batch Norm来优化。我觉得作者实现早停的代码太复杂了，推荐用我的这个代码来实现，清晰明了。

关于在卷积神经网络中运用Batch Norm的代码我暂时没找到，只能凭自己的理解来实现。Batch Norm在哪些层用呢？我觉得在卷积层和全连接层（包括输出层）用，在池化层就不用了，因为内部协变量偏移问题应该主要源自于层与层之间的非线性变换，而池化层的输出值并没有做非线性激活，因此在之后的全连接层做Batch Norm就行。

Dropout运用在池化层和全连接层，丢弃率分别为0.25和0.5，注意是按照Batch Norm—SELU函数激活—Dropout的顺序来进行。

同时将第2个卷积层的卷积步幅设置为1，以获得尺寸更大的特征图和更多参数。

设置迭代轮次为20，batch size = 100，做Batch Norm 时因为要求每个小批量的均值和方差，因此batch size 可以稍微设置得大一些。如果2000步以后验证精度仍然没有提升，那就中止训练。

结果，模型在第18轮、第9921步中止了训练，最好的验证精度为99.22%，测试精度为98.94%。

import tensorflow as tf
import numpy as np
import time
from datetime import timedelta
from functools import partial

# 记录训练花费的时间
def get_time_dif(start_time):
    end_time = time.time()
    time_dif = end_time - start_time
    #timedelta是用于对间隔进行规范化输出，间隔10秒的输出为：00:00:10    
    return timedelta(seconds=int(round(time_dif)))

# 准备训练数据集、验证集和测试集，并生成小批量样本
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()

X_train = X_train.astype(np.float32).reshape(-1, 28*28) / 255.0
X_test = X_test.astype(np.float32).reshape(-1, 28*28) / 255.0
y_train = y_train.astype(np.int32)
y_test = y_test.astype(np.int32)
X_valid, X_train = X_train[:5000], X_train[5000:]
y_valid, y_train = y_train[:5000], y_train[5000:]

def shuffle_batch(X, y, batch_size):
    rnd_idx = np.random.permutation(len(X))
    n_batches = len(X) // batch_size
    for batch_idx in np.array_split(rnd_idx, n_batches):
        X_batch, y_batch = X[batch_idx], y[batch_idx]
        yield X_batch, y_batch

height = 28
width = 28
channels = 1
n_inputs = height * width

# 第一个卷积层有16个卷积核
# 卷积核的大小为（3,3）
# 步幅为1
# 通过补零让输入与输出的维度相同
conv1_fmaps = 16
conv1_ksize = 3
conv1_stride = 1
conv1_pad = "SAME"

conv2_fmaps = 32
conv2_ksize = 3
conv2_stride = 1
conv2_pad = "SAME"
# 在池化层丢弃25%的神经元
conv2_dropout_rate = 0.25

pool3_fmaps = conv2_fmaps

n_fc1 = 32
# 在全连接层丢弃50%的神经元
fc1_dropout_rate = 0.5

n_outputs = 10

with tf.name_scope("inputs"):
    X = tf.placeholder(tf.float32, shape=[None, n_inputs], name="X")
    X_reshaped = tf.reshape(X, shape=[-1, height, width, channels])
    y = tf.placeholder(tf.int32, shape=[None], name="y")
    
training = tf.placeholder_with_default(False, shape=[], name='training')
# 构建一个batch norm层，便于复用。用移动平均求全局的样本均值和方差，动量参数取0.9
my_batch_norm_layer = partial(tf.layers.batch_normalization,
                              training=training, momentum=0.9)

with tf.name_scope("conv"):
    # batch norm之后在激活，所以这里不设定激活函数
    conv1 = tf.layers.conv2d(X_reshaped, filters=conv1_fmaps, kernel_size=conv1_ksize,
                         strides=conv1_stride, padding=conv1_pad,
                         activation=None, name="conv1")
    # 进行batch norm之后，再激活
    batch_norm1 = tf.nn.selu(my_batch_norm_layer(conv1))
    conv2 = tf.layers.conv2d(batch_norm1, filters=conv2_fmaps, kernel_size=conv2_ksize,
                         strides=conv2_stride, padding=conv2_pad,
                         activation=None, name="conv2")
    batch_norm2 = tf.nn.selu(my_batch_norm_layer(conv2))
   
with tf.name_scope("pool3"):
    pool3 = tf.nn.max_pool(batch_norm2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="VALID")
    # 把特征图拉平成一个向量
    pool3_flat = tf.reshape(pool3, shape=[-1, pool3_fmaps * 14 * 14])
    # 丢弃25%的神经元
    pool3_flat_drop = tf.layers.dropout(pool3_flat, conv2_dropout_rate, training=training)
    
with tf.name_scope("fc1"):
    fc1 = tf.layers.dense(pool3_flat_drop, n_fc1, activation=None, name="fc1")
    # 在全连接层进行batch norm，然后激活
    batch_norm4 = tf.nn.selu(my_batch_norm_layer(fc1))
    # 丢弃50%的神经元
    fc1_drop = tf.layers.dropout(batch_norm4, fc1_dropout_rate, training=training)
    
with tf.name_scope("output"):
    logits = tf.layers.dense(fc1_drop, n_outputs, name="output")
    logits_batch_norm = my_batch_norm_layer(logits)
    Y_proba = tf.nn.softmax(logits_batch_norm, name="Y_proba")

with tf.name_scope("loss_and_train"):
    learning_rate = 0.01
    xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits_batch_norm, labels=y)
    loss = tf.reduce_mean(xentropy)

    optimizer = tf.train.AdamOptimizer(learning_rate)
    # 这是需要额外更新batch norm的参数
    extra_update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
    # 模型参数的优化依赖与batch norm参数的更新
    with tf.control_dependencies(extra_update_ops):
        training_op = optimizer.minimize(loss)

with tf.name_scope("eval"):
    correct = tf.nn.in_top_k(logits, y, 1)
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

with tf.name_scope("init_and_save"):
    init = tf.global_variables_initializer()
    saver = tf.train.Saver()
    
n_epochs = 20
batch_size = 100

with tf.Session() as sess:
    init.run()
    start_time = time.time()
    
    # 记录总迭代步数，一个batch算一步
    # 记录最好的验证精度
    # 记录上一次验证结果提升时是第几步。
    # 如果迭代2000步后结果还没有提升就中止训练。
    total_batch = 0
    best_acc_val = 0.0
    last_improved = 0
    require_improvement = 2000
    
    flag = False
    for epoch in range(n_epochs):
        for X_batch, y_batch in shuffle_batch(X_train, y_train, batch_size):
            
            sess.run(training_op, feed_dict={training:True, X: X_batch, y: y_batch})
            
            # 每次迭代10步就验证一次
            if total_batch % 10 == 0:
                acc_batch = accuracy.eval(feed_dict={X: X_batch, y: y_batch})
                            # 每次输入1000个样本进行评估，然后求平均值
                acc_val = []
                for i in range(len(X_valid)//1000):
                    acc_val.append(accuracy.eval(feed_dict={X: X_valid[i*1000:(i+1)*1000], y: y_valid[i*1000:(i+1)*1000]}))                 
                acc_val = np.mean(acc_val)
                
                # 如果验证精度提升了，就替换为最好的结果，并保存模型
                if acc_val > best_acc_val:
                    best_acc_val = acc_val
                    last_improved = total_batch
                    save_path = saver.save(sess, "./my_model_CNN_stop.ckpt")
                    improved_str = 'improved!'
                else:
                    improved_str = ''
                
                # 记录训练时间，并格式化输出验证结果，如果提升了，会在后面提示：improved！
                time_dif = get_time_dif(start_time)
                msg = 'Epoch:{0:>4}, Iter: {1:>6}, Acc_Train: {2:>7.2%}, Acc_Val: {3:>7.2%}, Time: {4} {5}'
                print(msg.format(epoch, total_batch, acc_batch, acc_val, time_dif, improved_str))
            
            # 记录总迭代步数    
            total_batch += 1
            
            # 如果2000步以后还没提升，就中止训练。
            if total_batch - last_improved > require_improvement:
                print("Early stopping in  ",total_batch," step! And the best validation accuracy is ",best_acc_val, '.')
                # 跳出这个轮次的循环
                flag = True
                break
        # 跳出所有训练轮次的循环
        if flag:
            break        
    
with tf.Session() as sess:
    saver.restore(sess, "./my_model_CNN_stop.ckpt") 
    # 每次输入1000个样本进行测试，再求平均值
    acc_test = []
    for i in range(len(X_test)//1000):
        acc_test.append(accuracy.eval(feed_dict={X: X_test[i*1000:(i+1)*1000], y: y_test[i*1000:(i+1)*1000]}))
    acc_test = np.mean(acc_test)
    print("\nTest_accuracy:{0:>7.2%}".format(acc_test))

Early stopping in   9921  step! And the best validation accuracy is  0.9922 .
INFO:tensorflow:Restoring parameters from ./my_model_CNN_stop.ckpt

Test_accuracy: 98.94%

参考资料：

《Hands on Machine Learning with Scikit-Learn and TensorFlow》

转载于:https://www.cnblogs.com/Luv-GEM/p/10783252.html

AI工作流平台对比分析 come11234 Ai 人工智能
以下是和「扣子工作流」（KoFlow）类似的AI工作流平台对比分析，涵盖主流工具的核心特点、使用方式、优缺点及区别：一、主流工作流平台分类平台类型核心定位代表用户扣子(KoFlow)低代码AI流程中文场景优化，深度集成大模型中文开发者/企业LangChain代码框架开发者灵活构建AI链Python开发者/AI工程师LlamaIndex数据增强框架企业级RAG（检索增强生成）数据工程师/知识库应用M
Python爬虫（57）Python数据可视化全攻略：Matplotlib从入门到三维动态图表（8000字实战教程）一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫信息可视化
目录背景与需求分析第一章：Matplotlib基础与核心工作流1.1环境配置与基础架构1.2基础图表类型实战1.2.1折线图进阶1.2.2分组柱状图第二章：高阶可视化技术2.1子图矩阵与多面板布局2.2动态可视化与动画第三章：行业案例实战案例1：电商用户行为分析案例2：医疗影像数据可视化第四章：可视化美学与工程优化4.1配色方案实战4.2百万级数据渲染优化第五章：交互式扩展方案5.1Matplot
未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
Python多进程编程
Python多任务提升程序性能之一---------多进程#Python的多进程编程的方法是multiprocessing，他是可以在当前的主进程下面去创建n个子进程所以所以他，执行相当于n+1个进程#首先导入multimprocessing包importmultiprocessing#防止执行熟读太快看出出多进程的区别importtime#编写尊卑使用多进程的方法deftest01():fori
python三角网格代码_Python 实现 Delaunay Triangulation weixin_39828457 python三角网格代码
DelaunayTriangulation是一种空间划分的方法，它能使得分割形成的三角形最小的角尽可能的大，关于DelaunayTriangulation的详细介绍，请参考这里，DelaunayTriangulation在很多领域都有应用，科学计算领域它是有限元和有限体积法划分网格的重要方法，除此之外在图像识别、视觉艺术等领域也有它的身影。贴一段有趣的油管视频，用DelaunayTriangula
python-多线程编程 Protein Designer 蛋白质结构 python
文章目录1.多任务介绍2.进程介绍3.使用多进程来完成多任务3.1进程的创建步骤3.2进程执行带有参数的任务3.3获取进程编号3.4多进程编程的注意点主进程会等待所有的子进程执行结束在结束设置守护主进程：**主进程结束后不会再继续执行子进程中剩余的工作**3.5进程池与进程锁3.6进程的通信3.7线程3.8GIL全局锁3.9异步1.多任务介绍多任务是指在同一时间内执行多个任务。定义举例并发在一段时
python之多进程(multiprocessing)
multiprocessing模块提供了一个Process类来代表一个进程对象，multiprocessing模块像线程一样管理进程，这个是multiprocessing的核心，它与threading很相似，对多核CPU的利用率会比threading好的多前言Multiprocessing.Pool可以提供指定数量的进程供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
Python-多进程编程 (multiprocessing 模块) Kusunoki_D Python 操作系统 python 进程
目录一、创建进程1.Process的语法结构2.进程不共享全局变量二、进程间通信1.队列通信2.管道通信三、进程池1.常用函数2.进程池中的Queue四、应用：复制文件夹（多进程版）五、守护进程和进程同步六、注意事项通过使用multiprocessing模块，Python程序可以在多核处理器上实现并行处理，提高程序的执行效率和响应速度。一、创建进程要创建一个新的进程，需要实例化multiproce
使用 Python 调用 Instagram API 爬取 Instagram 图片（完整指南） Python爬虫项目 python 开发语言爬虫 selenium beautifulsoup
一、引言在社交媒体平台中，Instagram以其图片和视频为主的独特风格，吸引了全球数十亿用户。无论是旅行博主、美食摄影师，还是品牌推广，Instagram上的数据具有极高的商业和研究价值。为了获取Instagram的公开数据，我们需要使用官方提供的InstagramGraphAPI。通过这个API，我们可以获取以下信息：✅账户基本信息（用户ID、用户名、头像等）✅用户的图片和视频✅用户的评论、点
轻松开发AI应用：Dify、Langchain与Coza全方位对比分析 AI Agent首席体验官人工智能 langchain
1.Dify与Langchain区别Dify和Langchain都是用于开发AI应用的平台，但在设计理念、功能特点及适用场景等方面存在明显差异。以下是两者的详细对比：总体概述Dify：一个开源低代码平台，旨在简化AI应用的开发，提供完整的UI解决方案和无缝的集成能力，适合技术背景不强的用户，帮助他们快速开发和部署AI应用。Langchain：一个灵活的Python开发库，为开发者提供精细控制，适合
python 函数的定义 SFH-松风寒 python 开发语言后端
#函数的定义#定义一个函数#def表示定义函数的关键字#msg表示函数的名称#()里面放置参数可以为空#：函数的固定格式defmsg():#函数体函数里面的代码用于实现函数的特定功能print('Helloworld')#msg（）函数的调用调用函数之后函数中的代码就会被执行#msg是函数本身msg()#函数的简单用法#打印ATM机的提示defselect_func():print('-----请
python——异常程丞Q香 python python 开发语言 pycharm 异常 raise try except
1、定义异常是在代码执行过程中发生的，它会影响到程序的正常运行。python程序不会自动来进行异常处理。python中常见异常父类：Exception。2、常见异常TypeError：类型错误异常。ValueError：值的异常。KeyError：键的异常。IndexError：索引异常。SyntaxError：语法异常。FileNotFoundError：读取文件内容，如果这个文件不存在，就会报
Python爬虫代理IP 巴里巴气 Python爬虫知识记录 python 爬虫 tcp/ip
前言在Python爬虫中,代理IP基本是必备的,因为基本上网站都会有反爬措施,对请求频繁和异常的IP进行自动封锁,拉入黑名单,所以我们需要有代理IP来实现动态IP的效果,保证请求的IP会变化,是动态的,这样网站就不会把我们的IP当作爬虫IP了目录国内代理IP和海外代理IP的现状代理IP最常用最实用的作用使用方法国内代理IP和海外代理IP的现状市面上的代理IP分为国内代理IP和海外代理IP国内代理I
脑机新手指南（十七）EEG-ExPy 新手入门教程（上篇）：基础概念与环境搭建 Brduino脑机接口技术答疑脑机新手指南新手入门算法脑机接口
一、EEG-ExPy是什么？EEG-ExPy是一个基于Python的开源工具包，专为脑电（EEG）实验设计、数据采集和实时分析而开发。它的核心优势在于低门槛易用性和模块化设计，即使是没有编程基础的新手，也能通过简单的代码或图形界面快速搭建EEG实验流程。其功能覆盖：1.自定义实验范式设计（如视觉刺激、运动想象任务）2.实时EEG信号采集与预处理3.简单的脑机接口（BCI）应用开发4.实验数据的存储
RabbitMQ消息发送与接收 VksgShapes rabbitmq ruby 分布式
RabbitMQ是一个功能强大的开源消息代理，用于在应用程序之间传递消息。它实现了AMQP（高级消息队列协议），提供了可靠的消息传递机制，支持多种消息模式和灵活的消息路由。在本篇文章中，我们将详细介绍如何在应用程序中使用RabbitMQ进行消息的发送和接收。我们将使用Python作为示例编程语言，并使用Pika作为RabbitMQ的Python客户端。安装依赖库首先，我们需要安装Pika库。可以使
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
【Python】函数 Guiat Python python
个人主页：Guiat归属专栏：Python文章目录1.函数的定义1.1基本定义方式1.2函数名和参数2.函数的调用2.1基本调用方式2.2参数传递3.函数的返回值3.1`return`语句3.2返回多个值4.函数的作用域4.1局部变量4.2全局变量5.匿名函数（Lambda函数）5.1定义和使用5.2应用场景6.递归函数6.1定义和原理6.2优缺点正文1.函数的定义1.1基本定义方式在Python
python函数的定义（含扩展） GodGump linux下python编程
python函数的定义deffunc(arg1,arg2,arg3):函数体returnarg4,arg5,arg6补充：如果想给某个参数一个默认值，不用每次都输入的话，可以采用以下方法（以参数arg2默认值设为233为例子）deffunc(arg1,arg2=233,arg3):函数体returnarg4,arg5,arg6还有一点是python支持在函数体内定义全局变量global在函数体内声
深入解析FastAPI：Python高效Web API框架永不放弃yes
本文还有配套的精品资源，点击获取简介：FastAPI是一个专为构建API设计的现代、高性能PythonWeb框架，它利用TypeHinting和Pydantic库简化了数据验证和文档生成。文章深入介绍了FastAPI的核心特性，如异步支持、类型提示、依赖注入、自动化API文档以及错误处理等。还探讨了FastAPI的部署和测试方法，提供了实践案例和代码示例。FastAPI因其简洁、高效、易于测试的特
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
python实战:在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订 Ven% 服务器 python linux LiberOffice 开源办公软件 linux办公软件
在Linux服务器上使用LibreOffice命令行批量接受Word文档的所有修订一、背景与需求1.1常见场景1.2为什么选择LibreOffice二、环境准备2.1安装LibreOffice2.2验证安装三、Python实现代码四、代码解析4.1主要功能4.2错误处理4.3使用灵活性五、高级应用5.1批量处理多个文件5.2与其他工具集成六、注意事项七、总结在实际工作中，我们经常需要处理包含修订标
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
本地命令行工具libreoffice 完成docx转pdf 陈毛毛虫 pdf 汇编开发语言 wps
文章目录前言一、libreoffice是什么？二、使用步骤1.安装libreoffice2.运行命令行工具总结前言最近忙着编写一些文档，需要转换成pdf，但是WPS的转pdf功能需要付费，上网搜了很久，搜到的不是付费的就是有大小限制的，于是想着本地使用python库转，结果效果不大理想，查阅资料后找到了这一款开源的本地命令行工具libreoffice一、libreoffice是什么？LibreOf
python自动化运维 ZZH1120KQ 运维 python 自动化
1系统性能信息模块psutilpsutl是一个跨平台库，能够轻松实现获取系统运行的进程和系统利用率(包括CPU、内存、磁盘、网络等)信息。它主要应用于系统监控，分析和限制系统资源及进程的管理。#这是一个外部模块，需要下载，通过指定源下载pip3installpsutil-ihttps://mirrors.aliyun.com/pypi/simple/importpsutil1.1内存信息memor
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

TensorFlow之CNN：运用Batch Norm、Dropout和早停优化卷积神经网络

你可能感兴趣的:(人工智能,python)