血_影

FaceLandmark dataset Augment

前言

在调研人脸关键点检测算法时，找到了一篇较新的人脸106个点检测的论文Grand Challenge of 106-Point Facial Landmark Localization, 进一步深挖该篇论文，发现新构建的人脸关键点数据集----JD- landmark，并且已经开源了，于是乎，立马给项目负责人Dr. Hailin Shi发了封希望能够获得一份该数据集的邮件，数据集就这么快速的到手了，感谢为该项目付出的所有人。

JD-landmark简介

下载的数据集是JD-landmark.zip,执行以下操作：

unzip JD-landmark.zip   //需要输入解压密码，详细请查看回复你的邮件
cd JD-landmark

解压后的数据分为3部分 Train, Val and Test，每个目录下又分landmark、picture、picture_crop、rect；文件目录层级结构如下图所示：

JD-landmark
|	|--Test
|	|    |-landmark
|	|    |     |-000001.jpg.txt
|	|	 |-picture
|	|	 |	 |-000001.jpg
|	|	 |-picture_crop
|	|	 |    |-000001.jpg
|	|	 |-rect
|	|		 |-000001.jpg.rect
|	|-Train
|	|    |-landmark
|	|    |     |-000001.jpg.txt
|	|	 |-picture
|	|	 |	 |-000001.jpg
|	|	 |-picture_crop
|	|	 |    |-000001.jpg
|	|	 |-rect
|	|		 |-000001.jpg.rect
|	|---Val
|	|    |-landmark
|	|    |     |-000001.jpg.txt
|	|	 |-picture
|	|	 |	 |-000001.jpg
|	|	 |-picture_crop
|	|	 |    |-000001.jpg
|	|	 |-rect
|	|		 |-000001.jpg.rect

其中：
landmark：106个关键点文件，文件命名为xxxx.jpg.txt,[x0 y0 x1 y1 … x105 y105]
picture: 原始图片，文件命名为xxxx.jpg
picture_crop：根据人脸框截取出来的人脸图片
rect：人脸位置矩形框，[tx,ty,bx,by]
可以简单看下效果：

import os, sys
import cv2
import glob
import matplotlib.pyplot as plt

JdLandmarkPath='/path/JD-landmark'
test_path=os.path.join(JdLandmarkPath, 'Test')
test_landmark_path=os.path.join(test_path, 'landmark')
test_rect_path=os.path.join(test_path, 'rect')
test_imgs_path=os.path.join(test_path, 'picture')

test_img=os.path.join(test_imgs_path, '000001.jpg')
test_landmark=os.path.join(test_landmark_path, '000001.jpg.txt')
test_rect=os.path.join(test_rect_path, '000001.jpg.rect')
# imread image
img=cv2.imread(test_img)
# load landmark
with open(test_landmark, 'r') as f:
    lines=f.readlines()
    keypoits=lines[1:] # line 1 is keypoint num, skip it
    for poit in keypoits:
        x, y = poit.split(' ')
        cv2.circle(img, (int(float(x)), int(float(y))), 4, (0, 0, 255), -1)
# load rect
with open (test_rect, 'r') as f:
    lines = f.readlines()
    x, y, bx, by = lines[0].split(' ')
    cv2.rectangle(img, (int(x), int(y)), (int(bx), int(by)), (255,0,0), 2)
    
cv2.imwrite('img.jpg', img)
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
plt.imshow(img)

结果如下图所示：

Test/picture/000001.jpg

其他数据集亦是如此，可以自行查看。

JD-landmark 数据预处理

这里选择的处理方式是将图片路径，landmark关键点和人脸位置矩形框写到一个文件中去，文件格式为文件名 106个人脸关键点人脸位置矩形框，预处理代码如下所示：

import os, sys
import cv2

def gen_JDlandmark_label_txt(fpath):
    #### train datasets
    train_path=os.path.join(JdLandmarkPath, 'Train')
    train_label_txt=os.path.join(JdLandmarkPath, 'jd_106pt_train_label.txt')

    train_landmark_path=os.path.join(train_path, 'landmark')
    train_rect_path=os.path.join(train_path, 'rect')
    train_imgs_path=os.path.join(train_path, 'picture')
    with open(train_label_txt, 'w') as f:
        train_imgs=os.listdir(train_imgs_path)
        train_imgs.sort()
        for img in train_imgs:
            picture_path = os.path.join(train_imgs_path, img)
            landmark_path=picture_path.replace('picture', 'landmark')+'.txt'
            landmark=''
            with open(landmark_path, 'r') as landmarkf:
                lines=landmarkf.readlines()
                keypoints=lines[1:]
                for point in keypoints:
                    x, y = point.rstrip('\n').split(' ')
                    landmark += x + ' ' + y + ' '

            rect_path=picture_path.replace('picture', 'rect')+'.rect'
            rect = ''
            with open(rect_path, 'r') as rectf:
                lines = rectf.readlines()
                tx, ty, bx, by = lines[0].split(' ')
                rect += tx + ' ' + ty + ' ' + bx + ' ' + by

            picture_path='/'.join(picture_path.split('/')[-3:])
            f.write(picture_path + ' ' + landmark  + rect + '\n')


    #### valid datasets
    valid_path=os.path.join(JdLandmarkPath, 'Val')
    valid_label_txt=os.path.join(JdLandmarkPath, 'jd_106pt_val_label.txt')

    valid_landmark_path=os.path.join(valid_path, 'landmark')
    valid_rect_path=os.path.join(valid_path, 'rect')
    valid_imgs_path=os.path.join(valid_path, 'picture')
    with open(valid_label_txt, 'w') as f:
        valid_imgs=os.listdir(valid_imgs_path)
        valid_imgs.sort()
        for img in valid_imgs:
            picture_path = os.path.join(valid_imgs_path, img)
            landmark_path=picture_path.replace('picture', 'landmark')+'.txt'
            landmark=''
            with open(landmark_path, 'r') as landmarkf:
                lines=landmarkf.readlines()
                keypoints=lines[1:]
                for point in keypoints:
                    x, y = point.rstrip('\n').split(' ')
                    landmark += x + ' ' + y + ' '

            rect_path=picture_path.replace('picture', 'rect')+'.rect'
            rect = ''
            with open(rect_path, 'r') as rectf:
                lines = rectf.readlines()
                tx, ty, bx, by = lines[0].split(' ')
                rect += tx + ' ' + ty + ' ' + bx + ' ' + by
                
            picture_path='/'.join(picture_path.split('/')[-3:])
            f.write(picture_path + ' ' + landmark  + rect + '\n')

    #### test datasets
    test_path=os.path.join(JdLandmarkPath, 'Test')
    test_label_txt=os.path.join(JdLandmarkPath, 'jd_106pt_test_label.txt')

    test_landmark_path=os.path.join(test_path, 'landmark')
    test_rect_path=os.path.join(test_path, 'rect')
    test_imgs_path=os.path.join(test_path, 'picture')
    with open(test_label_txt, 'w') as f:
        test_imgs=os.listdir(test_imgs_path)
        test_imgs.sort()
        for img in test_imgs:
            picture_path = os.path.join(test_imgs_path, img)
            landmark_path=picture_path.replace('picture', 'landmark')+'.txt'
            landmark=''
            with open(landmark_path, 'r') as landmarkf:
                lines=landmarkf.readlines()
                keypoints=lines[1:]
                for point in keypoints:
                    x, y = point.rstrip('\n').split(' ')
                    landmark += x + ' ' + y + ' '

            rect_path=picture_path.replace('picture', 'rect')+'.rect'
            rect = ''
            with open(rect_path, 'r') as rectf:
                lines = rectf.readlines()
                tx, ty, bx, by = lines[0].split(' ')
                rect += tx + ' ' + ty + ' ' + bx + ' ' + by
                
            picture_path='/'.join(picture_path.split('/')[-3:])
            f.write(picture_path + ' ' + landmark  + rect + '\n')
    print(f'gen dataset label done\n\ttrain lable_path:{train_label_txt}\n\ttest label path:{test_label_txt}\n\tvalid label_path:{valid_label_txt}')
    
if __name__ == "__main__":
    JdLandmarkPath='/path/JD-landmark'
    gen_JDlandmark_label_txt(JdLandmarkPath)

代码运行后将在/path/JD-landmark 下生成jd_106pt_train_label.txt、jd_106pt_test_label.txt、jd_106pt_val_label.txt。内容如下图所示：

jd_106pt_test_label.txt

JD-landmark 数据增强处理

这里选择使用pytorch来做相关项目，因此数据增强也是基于pytorch的Dataset,DataLoader那套机制来处理的。

# -*- coding: utf-8 -*-
from __future__ import print_function, division
import random
import os
import torch
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import Dataset, DataLoader
import cv2
from torchvision import transforms, utils
from PIL import Image

def show_landmarks(image, landmarks, rects):
    image = image.numpy()
    image = np.transpose(image,(1,2,0))
    image = 255*(image*0.5+0.5)
    image = image.astype(np.uint8)
    image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
    landmarks= landmarks.numpy()
    landmarks=landmarks.reshape((-1,2))
    
    rects= rects.numpy()
    rects=rects.reshape((-1,2))
    h,w = image.shape[0:2]
    for i in landmarks:
        cv2.circle(image, (int(w*i[0]), int(h*i[1]) ), 3, (255,0,0), -1 )
        
    cv2.rectangle(image, (int(rects[0][0]*w), int(rects[0][1]*h)),
                         (int(rects[1][0]*w), int(rects[1][1]*h)), (0,255, 0), 1)

    return image
    
class Resize(object):
    """Rescale the image in a sample to a given size.

    Args:
        output_size (tuple or int): Desired output size. If tuple, output is
            matched to output_size. If int, smaller of image edges is matched
            to output_size keeping aspect ratio the same.
    """

    def __init__(self, output_size):
        assert isinstance(output_size, (int, tuple))
        self.output_size = output_size

    def __call__(self, sample):
        image, landmarks, rects = sample['image'], sample['landmarks'], sample['rects']
        h, w = image.shape[:2]
        if isinstance(self.output_size, int):
            if h > w:
                new_h, new_w = self.output_size * h / w, self.output_size
            else:
                new_h, new_w = self.output_size, self.output_size * w / h
        else:
            new_h, new_w = self.output_size

        new_h, new_w = int(new_h), int(new_w)
        img = cv2.resize(image, (new_h, new_w))
        landmarks = landmarks * [new_w / w, new_h / h]
        rects = rects * [new_w / w, new_h / h]

        return {'image': img, 'landmarks': landmarks, 'rects': rects}

class RandomCrop(object):
    """Crop randomly the image in a sample.

    Args:
        output_size (tuple or int): Desired output size. If int, square crop
            is made.
    """

    def __init__(self, output_size):
        assert isinstance(output_size, (int, tuple))
        if isinstance(output_size, int):
            self.output_size = (output_size, output_size)
        else:
            assert len(output_size) == 2
            self.output_size = output_size

    def __call__(self, sample):
        image, landmarks, rects = sample['image'], sample['landmarks'], sample['rects']

        h, w = image.shape[:2]
        new_h, new_w = self.output_size

        top = np.random.randint(0, h - new_h)
        left = np.random.randint(0, w - new_w)

        image = image[top: top + new_h,left: left + new_w]
        landmarks = landmarks - [left, top]
        rects = rects - [left, top]
    
        return {'image': image, 'landmarks': landmarks, 'rects': rects}

class ToTensor(object):
    """Convert ndarrays in sample to Tensors."""

    def __init__(self,image_size):
        self.image_size = image_size

    def __call__(self, sample):
        image, landmarks, rects = sample['image'], sample['landmarks'], sample['rects']

        # swap color axis because
        # numpy image: H x W x C
        # torch image: C X H X W
        image = image.transpose((2, 0, 1))
        landmarks =landmarks.reshape(-1,1)
        landmarks =np.squeeze(landmarks)
        rects = np.squeeze(rects)
        return {'image': torch.from_numpy(image).float().div(255),
                'landmarks': torch.from_numpy(landmarks).float().div(self.image_size),
                'rects': torch.from_numpy(rects).float().div(self.image_size)}

class RandomFlip(object):
    def __call__(self, sample):
        image, landmarks, rects = sample['image'], sample['landmarks'], sample['rects']
        if random.random()<0.5:
            image = cv2.flip(image,1)
            landmarks[:,0] = image.shape[1]-landmarks[:,0]
            rects[:,0] = image.shape[1]-rects[:,0]
            
        return {'image': image, 'landmarks': landmarks, 'rects': rects}

class RandomRotate(object):
    def __call__(self, sample):
        image, landmarks, rects = sample['image'], sample['landmarks'], sample['rects']
        img_h,img_w = image.shape[0:2]
        center = (img_w//2, img_h//2)
        random_degree=np.random.uniform(-15.0, 15.0)

        rot_mat = cv2.getRotationMatrix2D(center, random_degree, 1)
        img_rotated_by_alpha = cv2.warpAffine(image, rot_mat, (img_w, img_h))

        rotated_landmark = np.asarray([(rot_mat[0][0]*x+rot_mat[0][1]*y+rot_mat[0][2],
                                        rot_mat[1][0]*x+rot_mat[1][1]*y+rot_mat[1][2]) for (x, y) in landmarks])
    
        rotated_rects = np.asarray([(rot_mat[0][0]*x+rot_mat[0][1]*y+rot_mat[0][2],
                                     rot_mat[1][0]*x+rot_mat[1][1]*y+rot_mat[1][2]) for (x, y) in rects])
        
        return {'image': img_rotated_by_alpha, 'landmarks': rotated_landmark, 'rects': rotated_rects}

class Normalize(object):
    def __init__(self,mean,std):
        self.mean = mean
        self.std = std
    def __call__(self, sample):
        image = sample['image']
        for t, m, s in zip(image, self.mean, self.std):
            t.sub_(m).div_(s)
        sample['image'] = image
        return sample

class FaceLandmarksDataset(Dataset):
    """Face Landmarks dataset."""

    def __init__(self, label_dict_list, point_num=106, transform=None):
		#################################################################
        ### Initialize paths, transforms, and so on
        #################################################################
        self.images = []
        self.landmarks = []
        self.rects = []
        for label_dict in label_dict_list:
            label_frame = pd.read_csv(label_dict["label_file"], sep=" ", header=None)
            for infor  in label_frame.iterrows():
                imgpath = os.path.join(label_dict["root_dir"], infor[1][0])
                landmark = infor[1][1: (2*point_num+1) ].values.astype(np.int).reshape((-1,2))
                rect = infor[1][2*point_num+1: ].values.astype(np.int).reshape((-1,2))
                
                self.images.append(imgpath)
                self.landmarks.append(landmark)
                self.rects.append(rect)
                
        self.transform = transform

    def __len__(self):
    	#################################################################
        ### Indicate the total size of the dataset
        #################################################################
        return len(self.images)

    def __getitem__(self, index):
    	#################################################################
        # 1. Read from file (using numpy.fromfile, PIL.Image.open)
        # 2. Preprocess the data (torchvision.Transform).
        # 3. Return the data (e.g. image and label)
        #################################################################
        image = cv2.imread(self.images[index])
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        landmarks = self.landmarks[index]
        rect = self.rects[index]
        sample = {'image': image, 'landmarks': landmarks, 'rects': rect}
        if self.transform:
            sample = self.transform(sample)

        return sample
        

if __name__=="__main__":
	test_transform = transforms.Compose([Resize((112,112)),
                                        RandomCrop(96),
                                        RandomFlip(),
                                        RandomRotate(),
                                        ToTensor(96),
                                        Normalize([ 0.5, 0.5, 0.5 ],[ 0.5, 0.5, 0.5 ])])
    testset  = FaceLandmarksDataset([{"root_dir":"/path/JD-landmark",
                                      "label_file":"/path/JD-landmark/jd_106pt_test_label.txt"}],
                                      point_num=106,
                                      transform=test_transform)
    print('FaceLandmarksDataset testset picture numbers:', len(testset))
    test_loader = torch.utils.data.DataLoader(testset, 
    										   batch_size=4, 
    										   shuffle=True, 
    										   num_workers=1)
    result=[] 
    for sample in test_loader:
        for i in range(len(sample["image"])):
            image = sample["image"][i]
            landmark = sample["landmarks"][i]
            rect = sample["rects"][i]
            rimg = show_landmarks(image, landmark, rect)
            result.append(rimg)   
        break
        
    # show whatever you want        
	idx=1
	for i in range(0, len(result)):  
	    try:
	        plt.ion()
	        plt.figure(idx)
	        plt.imshow(result[i])
	    except:
	        pass
	    finally:
	        idx+=1

The End!!!!

深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
TensorFlow LiteRT 概览姚家湾 tensorflow 人工智能 python
LiteRT（简称LiteRuntime，以前称为TensorFlowLite）是Google面向设备端AI的高性能运行时。您可以找到适用于各种机器学习/AI任务的LiteRT就绪模型，也可以使用AIEdge转换和优化工具将TensorFlow、PyTorch和JAX模型转换为TFLite格式并运行。主要特性针对设备端机器学习进行了优化：LiteRT解决了五项关键的ODML约束条件：延迟时间（无需
机器学习（1）安装Pytorch CoderIsArt 机器学习与深度学习机器学习 pytorch 人工智能
1.安装命令pip3installtorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu1182.安装过程Log：Lookinginindexes:https://download.pytorch.org/whl/cu118CollectingtorchDownloadinghttps://download.
Pytorch实现之利用特征分布的差异来指导GAN的训练这张生成的图像能检测吗优质GAN模型训练自己的数据集 GAN系列 pytorch 生成对抗网络人工智能神经网络深度学习计算机视觉机器学习
简介简介：FIDGAN通过将FID损失引入GAN的训练过程，显著提升了生成图像的质量。其核心思想是利用特征分布的差异来指导生成器的训练，同时通过使用轻量级的MobileNet-v3提高了计算效率。这种方法在图像生成任务中具有广泛的应用前景。论文题目：FIDGAN:AGenerativeAdversarialNetworkwithAnInceptionDistance（FIDGAN：具有初始距离的生
Pytorch实现论文之利用多生成器来预防模式崩溃这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集人工智能 python 生成对抗网络机器学习 pytorch 深度学习计算机视觉
简介简介：一般来说，生成器相比判别器要完成的任务更加困难，前者需要完成数据概率密度的拟合，而后者只需要判别真伪，影响GAN性能的一个问题就是模式奔溃。而采用多生成器可以缓解这个问题。论文中主要设计了多生成器的架构和一个对于鉴别器的新损失设计来缓解这个问题。模型结构采用DCGAN的框架，原始损失基于WGAN-GP的设计理念。论文题目：StudyofPreventionofModeCollapsein
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
模型保存、训练与验证钰见梵星小土堆PyTorch深度学习深度学习人工智能
模型保存、训练与验证网络模型的保存与读取在PyTorch中，模型的保存与加载有两种主要方式：保存&加载完整模型（包括网络结构和参数）只保存&加载模型参数（推荐方式）可以直接跳过看最后几行。PyTorch提供torch.save()方法来保存模型，可以选择保存整个模型结构或只保存参数。保存整个模型importtorchfromtorchvisionimportmodels#加载VGG16模型（未使用
python中的深度学习框架TensorFlow 和 PyTorch 有什么区别？大懒猫软件 python 深度学习 tensorflow pytorch
TensorFlow和PyTorch是目前最流行的两个深度学习框架，它们在设计理念、使用方式和社区支持等方面存在一些显著的区别。以下是它们的主要区别：1.设计理念TensorFlow：静态计算图：TensorFlow使用静态计算图，即在运行模型之前需要先定义整个计算图。这使得TensorFlow在大规模分布式训练和部署时具有优势，但调试和动态修改模型时可能不够灵活。功能全面：TensorFlow提
PyTorch与TensorFlow的对比：哪个框架更适合你的项目？木觞清 pytorch tensorflow 人工智能
在机器学习和深度学习领域，PyTorch和TensorFlow是最流行的两个框架。它们各有特点，适用于不同的开发需求和场景。本文将详细对比这两个框架，帮助你根据项目需求选择最合适的工具。一、概述PyTorch和TensorFlow都是深度学习框架，它们为构建、训练和部署神经网络提供了强大的工具。尽管它们的最终目标相同，但其设计哲学和实现方式有所不同。PyTorch：由Facebook的人工智能研究
PyTorch使用教程(10)-torchinfo.summary网络结构可视化详细说明深图智能深度学习教程深度学习 python pytorch 人工智能
1、基本介绍torchinfo是一个为PyTorch用户量身定做的开源工具，其核心功能之一是summary函数。这个函数旨在简化模型的开发与调试流程，让模型架构一目了然。通过torchinfo的summary函数，用户可以快速获取模型的详细结构和统计信息，如模型的层次结构、输入/输出维度、参数数量、多加操作(Mult-Adds)等关键信息。2、安装首先，你需要安装torchinfo库。可以通过pi
服务器与环境配置——Ubuntu22.04杂记 Osiria 服务器 python ubuntu
服务器与环境配置——Ubuntu22.04杂记系统配置apt/apt-getProxy配置修改主机名用户权限文件复制一些容易出错的python库安装Pytorch3D(0.7.5)psbody-mesh4.0([link](https://github.com/MPI-IS/mesh))其它系统配置apt/apt-getProxy配置sudonano/etc/apt/apt.conf.d/prox
anaconda，Python，cuda,pytorch 下载安装三希 python pytorch 开发语言
以下是Anaconda、Python、CUDA和PyTorch的下载安装步骤：一、Anaconda下载访问Anaconda官方网站：DownloadAnacondaDistribution|Anaconda。根据您的操作系统（Windows、macOS或Linux）选择合适的版本进行下载。例如，对于Windows系统，选择对应的.exe安装文件。安装Windows：双击下载的.exe文件。按照安装
用deepseek学大模型08-长短时记忆网络 (LSTM) wyg_031113 lstm 人工智能 rnn
deepseek.com从入门到精通长短时记忆网络(LSTM),着重介绍的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，模型应用场景和优缺点，及如何改进解决及改进方法数据推导。从入门到精通长短时记忆网络(LSTM)参考：长短时记忆网络（LSTM）在序列数据处理中的优缺点分析1.LSTM核心机制LSTM通过门控机制（遗忘门、输入门、输出门）和细
torch环境冲突:AttributeError: module ‘torch.library‘ has no attribute ‘register_fake‘ Ven% 深度学习速通系列深度学习基础动手 Ubuntu 深度学习机器学习 pytorch
如果torch版本冲突问题复杂，可以尝试清理环境并重新安装所有依赖项：pipuninstalltorchtorchaudiotorchvisionpipinstalltorch==2.3.1torchaudio==2.3.1torchvision==0.18.1-fhttps://mirrors.tuna.tsinghua.edu.cn/pytorch-wheels/torch_stable.ht
Pytorch实现之粒子群优化算法在GAN中的应用这张生成的图像能检测吗优质GAN模型训练自己的数据集生成对抗网络人工智能神经网络 pytorch 算法深度学习计算机视觉
简介简介：主要是采用了粒子群优化（PSO）算法来优化GAN的一个训练。PSO是一种是一种基于种群的随机优化技术。这种优化技术是通过粒子群进行的，粒子群在每次迭代中都会更新自己。对于给定的目标函数，这种方法利用一个搜索空间，在那里粒子群移动，找到所需的全局最小值。这些粒子与它们当前的环境局部相互作用，也与彼此相互作用，具有可接受的随机性质。通过合并粒子的当前速度，探索粒子的历史和粒子的邻居，可以知道
用deepseek学大模型08-卷积神经网络(CNN) wyg_031113 机器学习人工智能
yuanbao.tencent.com从入门到精通卷积神经网络(CNN),着重介绍的目标函数，损失函数，梯度下降标量和矩阵形式的数学推导，pytorch真实能跑的代码案例以及模型,数据，预测结果的可视化展示，模型应用场景和优缺点，及如何改进解决及改进方法数据推导。一、目标函数与损失函数数学推导1.均方误差（MSE）标量形式：E(w)=12∑i=1N(yi−y^i)2E(\mathbf{w})=\f
Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能机器学习生成对抗网络神经网络计算机视觉深度学习
简介简介：提出了一种针对鉴别器的梯度惩罚方法和在鉴别器中采用扰动卷积，拟解决锐梯度空间引起的训练不稳定性问题和判别器的记忆问题。论文题目：APerturbedConvolutionalLayerandGradientNormalizationbasedGenerativeAdversarialNetwork（一种基于扰动卷积层和梯度归一化的生成对抗网络）会议：20244thInternationa
Pytorch实现之在LSGAN中结合重建损失这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能 python
简介简介：这篇论文在LSGAN的基础上结合了重建损失来产生通过传统不良数据检测（BDD）机制的人工测量。这篇博客的主要内容是关于实现了重建损失与LSGAN的结合。论文题目：FalseDataInjectionAttacksBasedonLeastSquaresGenerativeAdversarialNetworkswithReconstructionLoss（基于重构损失最小二乘生成对抗网络的虚
Pytorch实现论文：利用推土机距离与梯度惩罚在ACGAN中训练。这张生成的图像能检测吗优质GAN模型训练自己的数据集 pytorch 人工智能深度学习 gan 机器学习生成对抗网络
论文简介论文：ACWGAN-GPformillingtoolbreakagemonitoringwithimbalanceddata（ACWGAN-GP用于铣削工具断裂监视的数据不平衡数据）出处：RoboticsandComputer-IntegratedManufacturing论文摘要：铣削操作过程中的刀具破损监测(TBM)对于确保工件质量和最大限度减少经济损失至关重要。在训练数据充足、分布均
Pytorch实现论文之三元DCGAN生成RGB图像用于红外图像着色生成这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集人工智能 python 生成对抗网络深度学习 pytorch 机器学习计算机视觉
简介简介：采用了三次DCGAN单独生成单通道图像之后进行组成RGB图像放入鉴别器中检测，并在鉴别器和生成器的损失训练中采用梯度方法来提升或者降低权重。该方法将用于获得红外图像着色的生成。论文题目：InfraredImageColorizationbasedonaTripletDCGANArchitecture（基于三元DCGAN架构的红外图像着色）会议：2017IEEEConferenceonCo
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
一文读懂！深度学习 + PyTorch 的超实用学习路线 a小胡哦深度学习 python pytorch
深度学习作为人工智能领域的核心技术，正深刻改变着诸多行业。PyTorch则是深度学习实践中备受青睐的框架，它简单易用且功能强大。下面就为大家详细规划深度学习结合PyTorch的学习路线。一、基础知识储备数学基础数学是很重要的！！！线性代数、概率论与数理统计、微积分是深度学习的数学基石。熟悉矩阵运算、概率分布、梯度计算等概念，能帮助理解深度学习模型的原理。例如，在神经网络中，矩阵乘法用于神经元之间的
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
采用分布式部署deepseek 慧香一格 AI 学习分布式 deepseek
分布式部署DeepSeek涉及使用多个计算节点来加速模型训练或提升推理效率。下面是一个基本的指南，帮助您了解如何进行分布式部署。1.环境准备硬件需求：确保您的集群环境中有足够的GPU资源，并且所有机器之间可以通过高速网络互联。软件依赖：安装必要的库和工具，如PyTorch、Transformers等。特别地，对于分布式训练，还需要安装torch.distributed或者类似的库支持，例如Horo
huggingface/pytorch-image-models GarryLau ML&DL pytorch python huggingface
huggingface/pytorch-image-models1.使用技巧1.1.训练指令单卡：pythontrain.py--pretrained--input-size3224224--mean000--std111--batch-size128--validation-batch-size128--color-jitter-prob0.2--grayscale-prob0.2--gauss
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

FaceLandmark dataset Augment

前言

JD-landmark简介

JD-landmark 数据预处理

JD-landmark 数据增强处理

你可能感兴趣的:(PyTorch,Notes)