Mega_Li

人脸检测之MTCNN（一）——python中使用tensorflow运行模型

一、背景

MTCNN是一种经典的人脸检测方法，通过三个阶段的深度卷积网络级联，实现“由粗到精”的检测过程，最终能够输出一幅图像中的人脸框坐标与每个人脸的5个特征点坐标。网络上有关该论文与方法的解读有很多，在最后的参考中我会放上自己觉得不错的几篇链接。这篇文章主要给出Python中调用训练好的MTCNN模型做正向推理的过程，其中大部分参考自https://blog.csdn.net/BEYONDldh/article/details/105221244，感谢这位博主的无私分享。我会给出所有阶段的实现代码，并在必要部分结合论文做注释说明。

二、实现

1、运行环境搭建

我使用的是基于win10的64bit系统，安装Python，和tf2、opencv。

2、模型的建立

上图是MTCNN论文中的模型部分介绍，总共三个模型，其中基本由卷积层、池化层、全连接层组成，网络结构比较简单。链接中提供了训练好的三个网络权重，这里我们只需要建立模型后加载权重信息。相关代码如下

# 构造PNET
def create_pnet():
    """训练时输入图像大小为12x12x3，测试时输入图像宽高不小于12"""
    input = tf.keras.Input(shape=[None, None, 3])
    x = tf.keras.layers.Conv2D(10, (3,3), strides = (1,1), padding='valid', name='conv1')(input)
    x = tf.keras.layers.PReLU(shared_axes=[1,2], name='PReLU1')(x)
    x = tf.keras.layers.MaxPooling2D()(x)
    x = tf.keras.layers.Conv2D(16, (3, 3), strides=1,padding='valid',name='conv2')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1, 2],name='PReLU2')(x)
    x = tf.keras.layers.Conv2D(32, (3, 3),strides=1, padding='valid', name='conv3')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1, 2],name='PReLU3')(x)

    classifier = tf.keras.layers.Conv2D(2,(1,1), activation='softmax', name='conv4-1')(x)
    bbox_regress = tf.keras.layers.Conv2D(4,(1,1), name='conv4-2')(x)

    model = tf.keras.models.Model([input], [classifier, bbox_regress])
    return model

# 构造RNET
def create_rnet():
    """定义RNet网络的架构"""
    input = tf.keras.Input(shape=[24, 24, 3])
    x = tf.keras.layers.Conv2D(28, (3, 3), strides=1, padding='valid', name='conv1')(input)
    x = tf.keras.layers.PReLU(shared_axes=[1, 2], name='prelu1')(x)
    x = tf.keras.layers.MaxPooling2D(pool_size=3, strides=2, padding='same')(x)

    x = tf.keras.layers.Conv2D(48, (3, 3), strides=1, padding='valid', name='conv2')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1, 2], name='prelu2')(x)
    x = tf.keras.layers.MaxPooling2D(pool_size=3, strides=2)(x)

    x = tf.keras.layers.Conv2D(64, (2, 2), strides=1, padding='valid', name='conv3')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1, 2], name='prelu3')(x)

    x = tf.keras.layers.Permute((3, 2, 1))(x)
    x = tf.keras.layers.Flatten()(x)

    x = tf.keras.layers.Dense(128, name='conv4')(x)
    x = tf.keras.layers.PReLU(name='prelu4')(x)

    classifier = tf.keras.layers.Dense(2, activation='softmax', name='conv5-1')(x)
    bbox_regress = tf.keras.layers.Dense(4, name='conv5-2')(x)

    model = tf.keras.models.Model([input], [classifier, bbox_regress])

    return model

# 构造ONET
def create_onet():
    """定义ONet网络的架构"""

    input = tf.keras.layers.Input(shape = [48,48,3])
    # 48,48,3 -> 23,23,32
    x = tf.keras.layers.Conv2D(32, (3, 3),
                                strides=1, 
                                padding='valid', 
                                name='conv1')(input)
    x = tf.keras.layers.PReLU(shared_axes=[1,2],
                                name='prelu1')(x)
    x = tf.keras.layers.MaxPool2D(pool_size=3, 
                                    strides=2, 
                                    padding='same')(x)
    # 23,23,32 -> 10,10,64
    x = tf.keras.layers.Conv2D(64, (3, 3), 
                                strides=1, 
                                padding='valid', 
                                name='conv2')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1,2],
                                name='prelu2')(x)
    x = tf.keras.layers.MaxPool2D(pool_size=3, 
                                    strides=2)(x)
    # 8,8,64 -> 4,4,64
    x = tf.keras.layers.Conv2D(64, (3, 3), 
                                strides=1, 
                                padding='valid', 
                                name='conv3')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1,2],
                                name='prelu3')(x)
    x = tf.keras.layers.MaxPool2D(pool_size=2)(x)
    # 4,4,64 -> 3,3,128
    x = tf.keras.layers.Conv2D(128, (2, 2), 
                                strides=1, 
                                padding='valid', 
                                name='conv4')(x)
    x = tf.keras.layers.PReLU(shared_axes=[1,2],
                                name='prelu4')(x)
    # 3,3,128 -> 128,12,12
    x = tf.keras.layers.Permute((3,2,1))(x)

    # 1152 -> 256
    x = tf.keras.layers.Flatten()(x)
    x = tf.keras.layers.Dense(256, name='conv5') (x)
    x = tf.keras.layers.PReLU(name='prelu5')(x)

    # 鉴别
    # 256 -> 2 256 -> 4 256 -> 10
    classifier = tf.keras.layers.Dense(2, 
                                        activation='softmax',
                                        name='conv6-1')(x)
    bbox_regress = tf.keras.layers.Dense(4,name='conv6-2')(x)
    landmark_regress = tf.keras.layers.Dense(10,name='conv6-3')(x)

    model = tf.keras.models.Model([input], [classifier, bbox_regress, landmark_regress])

    return model

3、PNET推理

PNET的推理流程简单描述如下：
1）输入图像下采样生成金字塔，论文中给出的下采样缩放系数为0.709；这样可以兼顾原始输入图像中的大小人脸
2）为了提高效率，可将每层金字塔图像扩展为与底层金字塔相同尺寸，然后将图像数据归一化，整体作为一个batch送入PNET
3）对PNET在不同尺度图像上获取的一系列备选人联框，根据人脸得分过滤小于阈值的部分，之后过滤不合理的部分（譬如宽/高小于0，尺寸过小等等）
4）对3）中剩余的人脸框，使用NMS再次过滤，最终得到的结果即为PNET阶段的最终输出。
相关代码如下

# nms过滤，无法过滤内部包含且占比低于阈值的情况
def nms(rectangles, threshold):
    if(len(rectangles) == 0):
        return rectangles
    bbx = np.array(rectangles)
    x1 = bbx[:, 0]
    y1 = bbx[:, 1]
    x2 = bbx[:, 2]
    y2 = bbx[:, 3]
    score = bbx[:, 4]
    area = np.multiply(x2-x1+1, y2-y1+1)
    index = np.array(score.argsort())
    pick=[]
    while len(index) > 0:
        xx1 = np.maximum(x1[index[-1]], x1[index[0:-1]])
        yy1 = np.maximum(y1[index[-1]], y1[index[0:-1]])
        xx2 = np.minimum(x2[index[-1]], x2[index[0:-1]])
        yy2 = np.minimum(y2[index[-1]], y2[index[0:-1]])
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        inter_scale = inter / (area[index[-1]] + area[index[0:-1]] - inter)
        pick.append(index[-1])
        index = index[np.where(inter_scale < threshold)]
    ret = bbx[pick].tolist()
    
    return ret

print("TF version: {}".format(tf.__version__))



# 读取输入图像，并转为RGB格式
image = cv2.imread("2.jpg")
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
image_size = min(image.shape[0], image.shape[1])
min_face_size = image_size * 0.05
print(image.shape)
print(type(image))

# 计算缩放图像所需尺度因子，使得最顶层图像尺寸不小于12
scales = []
factor = 0.709
for i in range(0, 10):
    if((factor**i) * image_size > 12):
        scales.append(factor**i)
print(scales)

# 构造金字塔，后面会把输入图像金字塔组成batch输入到PNET，实际上会把每一层金字塔扩展为底层大小
pyramid_imgs = []
for scale in scales:
    new_row = int(image.shape[0] * scale)
    new_col = int(image.shape[1] * scale)
    img_scaled = cv2.resize(image, (new_col, new_row))

    img_ = np.zeros([image.shape[0], image.shape[1], image.shape[2]], dtype=np.uint8)
    img_[0:new_row, 0: new_col] = img_scaled
    #cv2.imshow("img_", img_)
    #cv2.waitKey()
    pyramid_imgs.append(img_)

# 构造PNET的输入图像，归一化处理
pnet_input_imgs = []
for img in pyramid_imgs:
    img_ = (img - 127.5)/127.5
    pnet_input_imgs.append(img_)

# 将图像列表转为ndarray
pnet_input_array = np.array(pnet_input_imgs)

# 构造PNET网络
pnet = create_pnet()
pnet.load_weights("./pnet.h5", by_name=True)
# 推理输出
pnet_output = pnet.predict(pnet_input_array)
print(len(pnet_output))
print(pnet_output[0].shape)
print(pnet_output[1].shape)

# 处理矩形框
pnet_threshold = 0.7
pnet_bbx = []
for i in range(len(scales)):
    cls_prob = pnet_output[0][i, :, :, 1]
    row, col = np.where(cls_prob > pnet_threshold)
    if row.shape[0] == 0:
        continue
    start_pt = np.array((col, row)).T
    left_top = np.fix((start_pt*2) / scales[i])# n*2
    right_down = np.fix(((start_pt * 2) + 11) / scales[i])# n*2
    bbx = np.concatenate((left_top, right_down), axis = 1)# n*4
    scores = np.array(pnet_output[0][i,row, col, 1])
    scores.resize(len(row), 1)# n*1
    offsets = pnet_output[1][i, row, col] * 12 /scales[i]
    bbx = bbx + offsets
    bbx = np.concatenate((bbx, scores), axis = 1)
    for b in bbx:
        # 不合理的矩形框舍弃，这里只处理矩形框宽高为负数的情况
        if((b[2] < b[0])
        or (b[3] < b[1])):
            continue
        # 矩形框扩展为正方形
        w = b[2] - b[0]
        h = b[3] - b[1]
        l = max(w, h)
        b[0] = b[0] - (l - w) * 0.5
        b[2] = b[2] + (l - w) * 0.5
        b[1] = b[1] - (l - h) * 0.5
        b[3] = b[3] + (l - h) * 0.5

        # 修改矩形框的分布，使其位于图像内部
        b[0] = max(0, b[0])
        b[1] = max(0, b[1])
        b[2] = min(image.shape[1], b[2])
        b[3] = min(image.shape[0], b[3])
        # 过小的人脸舍弃掉
        if((b[2] - b[0] < min_face_size)
        or (b[3] - b[1] < min_face_size)):
            continue
        pnet_bbx.append(b)
print(np.array(pnet_bbx).shape)

if(len(pnet_bbx) == 0):
    print("no face detected")
    sys.exit()

# nms过滤
pnet_bbx_nms = nms(pnet_bbx, 0.7)

4、RNET推理

上述步骤获取的人脸框，在原图上进行裁剪，宽高缩放为24X24，归一化处理后送入到RNET中推理；再将推理得到的人脸框进行过滤（规则过滤、NMS操作等），得到最终输出的人脸框。

## 之后进入RNET阶段
# 构造rnet
rnet = create_rnet()
rnet.load_weights("./rnet.h5", by_name=True)

# 构造rnet输入，尺寸缩放为24X24，归一化
rnet_input_imgs = []
for bbx in pnet_bbx_nms:
    img = image[int(bbx[1]):int(bbx[3]), int(bbx[0]):int(bbx[2])]
    img = cv2.resize(img, (24, 24))
    img_ = (img - 127.5)  /127.5
    rnet_input_imgs.append(img_)
rnet_input_array = np.array(rnet_input_imgs)

# 推理输出
rnet_output = rnet.predict(rnet_input_array)
print(len(rnet_output))
print(len(pnet_bbx_nms))
print(rnet_output[0].shape)
print(rnet_output[1].shape)

# 整理输出矩形框
rnet_bbx = []
rnet_score_threshold = 0.7
for i in range(len(pnet_bbx_nms)):
    rnet_score = rnet_output[0][i, 1]
    offset = rnet_output[1][i]
    if(rnet_score < rnet_score_threshold):
        continue
    w = pnet_bbx_nms[i][2] - pnet_bbx_nms[i][0]
    h = pnet_bbx_nms[i][3] - pnet_bbx_nms[i][1]
    scales = np.array([w / 24, h / 24, w / 24, h /24])
    bbx = pnet_bbx_nms[i]
    bbx[0:4] = bbx[0:4] + offset * 24 * scales
    bbx[4] = rnet_score
    # 不合理的矩形框舍弃，这里只处理矩形框宽高为负数的情况
    if((bbx[2] < bbx[0])
    or (bbx[3] < bbx[1])):
        continue
    # 矩形框扩展为正方形
    w = bbx[2] - bbx[0]
    h = bbx[3] - bbx[1]
    l = max(w, h)
    bbx[0] = bbx[0] - (l - w) * 0.5
    bbx[2] = bbx[2] + (l - w) * 0.5
    bbx[1] = bbx[1] - (l - h) * 0.5
    bbx[3] = bbx[3] + (l - h) * 0.5

    # 修改矩形框的分布，使其位于图像内部
    bbx[0] = max(0, bbx[0])
    bbx[1] = max(0, bbx[1])
    bbx[2] = min(image.shape[1], bbx[2])
    bbx[3] = min(image.shape[0], bbx[3])
    # 过小的人脸舍弃掉
    if((bbx[2] - bbx[0] < min_face_size)
    or (bbx[3] - bbx[1] < min_face_size)):
        continue    
    rnet_bbx.append(bbx)

# nms过滤
rnet_bbx_nms = nms(rnet_bbx, 0.7)

5、ONET推理

上述步骤获取的人脸框，在原图上进行裁剪，宽高缩放为48x48，归一化处理后送入到O]NET中推理；再将推理得到的人脸框进行过滤（规则过滤、NMS操作等），得到最终输出的人脸框，与5个特征点信息，此时完成了整个网络的推理。

## ONET阶段
# 构造onet
onet = create_onet()
onet.load_weights("./onet.h5", by_name=True)

# 构造onet输入，尺寸缩放为48X48，归一化
onet_input_imgs = []
for bbx in rnet_bbx_nms:
    img = image[int(bbx[1]):int(bbx[3]), int(bbx[0]):int(bbx[2])]
    img = cv2.resize(img, (48, 48))
    img_ = (img - 127.5)  /127.5
    onet_input_imgs.append(img_)
onet_input_array = np.array(onet_input_imgs)

# 推理输出
onet_output = onet.predict(onet_input_array)

# 整理输出矩形框
onet_bbx = []
onet_score_threshold = 0.8
for i in range(len(rnet_bbx_nms)):
    onet_score = onet_output[0][i, 1]
    offset = onet_output[1][i]
    if(onet_score < onet_score_threshold):
        continue
    w = rnet_bbx_nms[i][2] - rnet_bbx_nms[i][0]
    h = rnet_bbx_nms[i][3] - rnet_bbx_nms[i][1]
    scales = np.array([w / 48, h / 48, w / 48, h /48])
    bbx = rnet_bbx_nms[i]
    bbx[0:4] = bbx[0:4] + offset * 24 * scales
    bbx[4] = onet_score
    # 不合理的矩形框舍弃，这里只处理矩形框宽高为负数的情况
    if((bbx[2] < bbx[0])
    or (bbx[3] < bbx[1])):
        continue
    # 矩形框扩展为正方形
    w = bbx[2] - bbx[0]
    h = bbx[3] - bbx[1]
    l = max(w, h)
    bbx[0] = bbx[0] - (l - w) * 0.5
    bbx[2] = bbx[2] + (l - w) * 0.5
    bbx[1] = bbx[1] - (l - h) * 0.5
    bbx[3] = bbx[3] + (l - h) * 0.5

    # 修改矩形框的分布，使其位于图像内部
    bbx[0] = max(0, bbx[0])
    bbx[1] = max(0, bbx[1])
    bbx[2] = min(image.shape[1], bbx[2])
    bbx[3] = min(image.shape[0], bbx[3])
    # 过小的人脸舍弃掉
    if((bbx[2] - bbx[0] < min_face_size)
    or (bbx[3] - bbx[1] < min_face_size)):
        continue    
    onet_bbx.append(bbx)

# nms过滤
onet_bbx_nms = nms(onet_bbx, 0.7)

三、测试

在网上找一张合影图像测试，输出结果如下，这里没有绘制关键点坐标，只画出人脸框。

四、参考

https://zhuanlan.zhihu.com/p/113184231
https://zhuanlan.zhihu.com/p/58825924
https://blog.csdn.net/BEYONDldh/article/details/105221244

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23