小威W

深度学习-【图像分类】学习笔记3AlexNet

文章目录

3.1 AlexNet网络结构详解与花分类数据集
- AlexNet详解
- 花分类数据集
3.2 使用pytorch搭建AlexNet并训练
- model
- train
- predict
- 代码示例
- - model.py
  - train.py
  - predict.py

3.1 AlexNet网络结构详解与花分类数据集

AlexNet详解

使用ImageNet数据集。

传统Sigmoid激活函数的缺点：

求导比较麻烦

深度较深时出现梯度消失

过拟合

使用Dropout的方式在网络正向传播过程中随机失活一部分神经元。

回顾：N = （W - F + 2P） / S + 1

层层详解：

网络数据参数表格：

花分类数据集

data_set文件夹中,readme.md。
https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz

3.2 使用pytorch搭建AlexNet并训练

model

nn.Sequential()：
一个序列容器，用于搭建神经网络的模块被按照被传入构造器的顺序添加到nn.Sequential()容器中。

nn.Conv2d(3, 48, kernel_size=11, stride=4, padding=2)
padding可以传入两种类型，int或tuple。
如果是int=1，上下左右各补一列0。
如果是tuple=(1, 2)，上下各一列0，左右各两列0。

如果想要左1，右2，上1，下2。需要nn.ZeroPad2d((1, 2, 1, 2))。参数的顺序就是左右上下。
e.g.https://pytorch.org/docs/stable/generated/torch.nn.ZeroPad2d.html?highlight=zeropad2d#torch.nn.ZeroPad2d

>>> m = nn.ZeroPad2d(2)
>>> input = torch.randn(1, 1, 3, 3)
>>> input
tensor([[[[-0.1678, -0.4418,  1.9466],
          [ 0.9604, -0.4219, -0.5241],
          [-0.9162, -0.5436, -0.6446]]]])
>>> m(input)
tensor([[[[ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.0000, -0.1678, -0.4418,  1.9466,  0.0000,  0.0000],
          [ 0.0000,  0.0000,  0.9604, -0.4219, -0.5241,  0.0000,  0.0000],
          [ 0.0000,  0.0000, -0.9162, -0.5436, -0.6446,  0.0000,  0.0000],
          [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000,  0.0000]]]])
>>> # using different paddings for different sides
>>> m = nn.ZeroPad2d((1, 1, 2, 0))
>>> m(input)
tensor([[[[ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000,  0.0000,  0.0000,  0.0000,  0.0000],
          [ 0.0000, -0.1678, -0.4418,  1.9466,  0.0000],
          [ 0.0000,  0.9604, -0.4219, -0.5241,  0.0000],
          [ 0.0000, -0.9162, -0.5436, -0.6446,  0.0000]]]])

如果根据N = （W - F + 2P） / S + 1算出来有小数，那么pytorch会自动舍去右边和下边的列。

nn.ReLU(inplace=True)
https://blog.csdn.net/HJC256ZY/article/details/106471982
不管是true 还是False 都不会改变Relu后的结果。 inplace选择是否进行覆盖运算。
利用inplace=True用输出的数据覆盖输入的数据；节省空间，此时两者共用内存。可以节省内（显）存，同时还可以省去反复申请和释放内存的时间。

nn.MaxPool2d(kernel_size=3, stride=2)
池化没有池化核个数这一参数，池化操作只影响尺寸，不影响channel。

padding默认0。

权重初始化。
目前版本的pytorch会自动进行。

x = torch.flatten(x, start_dim=1)
start_dim表示从channel开始展平，而不动batch这一维度。

回顾：Pytorch Tensor的通道排序：[batch, channel, height, width]。

train

data_transform = {
    "train": transforms.Compose([transforms.RandomResizedCrop(224),     # 随机裁剪到指定大小
                                 transforms.RandomHorizontalFlip(),     # 随机水平翻转
                                 transforms.ToTensor(),                 # 转化成一个tensor
                                 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]),      # 用均值和标准差归一化处理
    "val": transforms.Compose([transforms.Resize((224, 224)),  # cannot 224, must (224, 224) | 如果size是int，则图像较小的边缘将与该数字匹配，较大的按等比例来
                               transforms.ToTensor(),
                               transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])}

训练集：用来学习的样本集，用于分类器参数的拟合。

验证集：用来调整分类器超参数的样本集，如在神经网络中选择隐藏层神经元的数量。

测试集：仅用于对已经训练好的分类器进行性能评估的样本集。

net.train()和net.eval()

只希望dropout在train的时候部分失活。
进入eval模式后就会关闭dropout。（也会对bn等有作用）

predict

output = torch.squeeze(model(img.to(device))).cpu()
torch.squeeze：将tensor中大小为1的维度删除

torch.argmax(x, dim)，其中x为张量，dim控制比较的维度，返回最大值的索引。
torch.argmax方法详解https://blog.csdn.net/wuyalan1994/article/details/125920290

代码示例

model.py

import torch.nn as nn
import torch


class AlexNet(nn.Module):
    def __init__(self, num_classes=1000, init_weights=False):
        super(AlexNet, self).__init__()
        # 提取特征
        self.features = nn.Sequential(
            nn.Conv2d(3, 48, kernel_size=11, stride=4, padding=2),  # input[3, 224, 224]  output[48, 55, 55]  55=(224-11+4)/4+1取整
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[48, 27, 27]     27=(55-3+0)/2+1    padding默认0
            nn.Conv2d(48, 128, kernel_size=5, padding=2),           # output[128, 27, 27]    27=(27-5+4)/1+1    stride默认1
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[128, 13, 13]    13=(27-3)/2+1
            nn.Conv2d(128, 192, kernel_size=3, padding=1),          # output[192, 13, 13]    13=(13-3+2)/1+1
            nn.ReLU(inplace=True),
            nn.Conv2d(192, 192, kernel_size=3, padding=1),          # output[192, 13, 13]    13=(13-3+2)/1+1
            nn.ReLU(inplace=True),
            nn.Conv2d(192, 128, kernel_size=3, padding=1),          # output[128, 13, 13]    13=(13-3+2)/1+1
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[128, 6, 6]      6=(13-3)/2+1
        )
        # 全连接层 分类
        self.classifier = nn.Sequential(
            nn.Dropout(p=0.5),
            nn.Linear(128 * 6 * 6, 2048),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5),
            nn.Linear(2048, 2048),
            nn.ReLU(inplace=True),
            nn.Linear(2048, num_classes),
        )
        if init_weights:
            self._initialize_weights()

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, start_dim=1)
        x = self.classifier(x)
        return x

    def _initialize_weights(self):      # 初始化网络权重|  当前版本不需要此操作，pytorch会自动进行这种权重初始化
        for m in self.modules():    # Returns an iterator over all modules in the network
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')  # 何凯明初始化
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)    # 将偏置都设置为0
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)      # 正态分布
                nn.init.constant_(m.bias, 0)

train.py

import os
import sys
import json

import torch
import torch.nn as nn
from torchvision import transforms, datasets, utils
import matplotlib.pyplot as plt
import numpy as np
import torch.optim as optim
from tqdm import tqdm

from model import AlexNet


def main():
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")     # 指定训练过程中使用的设备
    print("using {} device.".format(device))

    # 定义数据预处理函数
    data_transform = {
        "train": transforms.Compose([transforms.RandomResizedCrop(224),     # 随机裁剪到指定大小
                                     transforms.RandomHorizontalFlip(),     # 随机水平翻转
                                     transforms.ToTensor(),                 # 转化成一个tensor
                                     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]),      # 用均值和标准差归一化处理
        "val": transforms.Compose([transforms.Resize((224, 224)),  # cannot 224, must (224, 224) | 如果size是int，则图像较小的边缘将与该数字匹配，较大的按等比例来
                                   transforms.ToTensor(),
                                   transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])}

    data_root = os.path.abspath(os.path.join(os.getcwd(), "../.."))  # get data root path
    image_path = os.path.join(data_root, "data_set", "flower_data")  # flower data set path
    assert os.path.exists(image_path), "{} path does not exist.".format(image_path)
    train_dataset = datasets.ImageFolder(root=os.path.join(image_path, "train"),
                                         transform=data_transform["train"])
    train_num = len(train_dataset)

    # {'daisy':0, 'dandelion':1, 'roses':2, 'sunflower':3, 'tulips':4}
    flower_list = train_dataset.class_to_idx        # 获取分类的名称所对应的索引
    cla_dict = dict((val, key) for key, val in flower_list.items())
    # write dict into json file
    json_str = json.dumps(cla_dict, indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)

    batch_size = 32
    nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])  # number of workers
    print('Using {} dataloader workers every process'.format(nw))

    train_loader = torch.utils.data.DataLoader(train_dataset,
                                               batch_size=batch_size, shuffle=True,
                                               num_workers=nw)

    validate_dataset = datasets.ImageFolder(root=os.path.join(image_path, "val"),
                                            transform=data_transform["val"])
    val_num = len(validate_dataset)
    validate_loader = torch.utils.data.DataLoader(validate_dataset,
                                                  batch_size=4, shuffle=False,
                                                  num_workers=nw)

    print("using {} images for training, {} images for validation.".format(train_num,
                                                                           val_num))
    # test_data_iter = iter(validate_loader)
    # test_image, test_label = test_data_iter.next()
    #
    # def imshow(img):
    #     img = img / 2 + 0.5  # unnormalize 反归一化
    #     npimg = img.numpy()
    #     plt.imshow(np.transpose(npimg, (1, 2, 0)))
    #     plt.show()
    #
    # print(' '.join('%5s' % cla_dict[test_label[j].item()] for j in range(4)))
    # imshow(utils.make_grid(test_image))

    net = AlexNet(num_classes=5, init_weights=True)

    net.to(device)
    loss_function = nn.CrossEntropyLoss()
    # pata = list(net.parameters())     # 查看模型的参数
    optimizer = optim.Adam(net.parameters(), lr=0.0002)

    epochs = 10
    save_path = './AlexNet.pth'
    best_acc = 0.0
    train_steps = len(train_loader)
    for epoch in range(epochs):
        # train
        net.train()
        running_loss = 0.0
        train_bar = tqdm(train_loader, file=sys.stdout)
        for step, data in enumerate(train_bar):
            images, labels = data
            optimizer.zero_grad()
            outputs = net(images.to(device))
            loss = loss_function(outputs, labels.to(device))
            loss.backward()
            optimizer.step()

            # print statistics
            running_loss += loss.item()

            train_bar.desc = "train epoch[{}/{}] loss:{:.3f}".format(epoch + 1,
                                                                     epochs,
                                                                     loss)

        # validate
        net.eval()
        acc = 0.0  # accumulate accurate number / epoch
        with torch.no_grad():
            val_bar = tqdm(validate_loader, file=sys.stdout)
            for val_data in val_bar:
                val_images, val_labels = val_data
                outputs = net(val_images.to(device))
                predict_y = torch.max(outputs, dim=1)[1]
                acc += torch.eq(predict_y, val_labels.to(device)).sum().item()

        val_accurate = acc / val_num
        print('[epoch %d] train_loss: %.3f  val_accuracy: %.3f' %
              (epoch + 1, running_loss / train_steps, val_accurate))

        if val_accurate > best_acc:
            best_acc = val_accurate
            torch.save(net.state_dict(), save_path)     # 保存模型参数

    print('Finished Training')


if __name__ == '__main__':
    main()

predict.py

import os
import json

import torch
from PIL import Image
from torchvision import transforms
import matplotlib.pyplot as plt

from model import AlexNet


def main():
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

    data_transform = transforms.Compose(
        [transforms.Resize((224, 224)),
         transforms.ToTensor(),
         transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

    # load image
    img_path = "../tulip.jpg"
    assert os.path.exists(img_path), "file: '{}' dose not exist.".format(img_path)
    img = Image.open(img_path)

    plt.imshow(img)
    # [N, C, H, W]
    img = data_transform(img)
    # expand batch dimension
    img = torch.unsqueeze(img, dim=0)

    # read class_indict
    json_path = './class_indices.json'
    assert os.path.exists(json_path), "file: '{}' dose not exist.".format(json_path)

    with open(json_path, "r") as f:
        class_indict = json.load(f)

    # create model
    model = AlexNet(num_classes=5).to(device)

    # load model weights
    weights_path = "./AlexNet.pth"
    assert os.path.exists(weights_path), "file: '{}' dose not exist.".format(weights_path)
    model.load_state_dict(torch.load(weights_path))

    model.eval()
    with torch.no_grad():
        # predict class
        output = torch.squeeze(model(img.to(device))).cpu()         # torch.squeeze：将tensor中大小为1的维度删除
        predict = torch.softmax(output, dim=0)
        predict_cla = torch.argmax(predict).numpy()

    print_res = "class: {}   prob: {:.3}".format(class_indict[str(predict_cla)],
                                                 predict[predict_cla].numpy())
    plt.title(print_res)
    for i in range(len(predict)):
        print("class: {:10}   prob: {:.3}".format(class_indict[str(i)],
                                                  predict[i].numpy()))
    plt.show()


if __name__ == '__main__':
    main()

2020-5-7晨间日记邓芬芳
今天是什么日子起床：五点三十五就寝：十一点之前天气：阴天有雨心情：焦虑纪念日：高品质的生活需要适度的焦虑任务清单昨日完成的任务，最重要的三件事：打扫卫生、听课、准备复学第一课团体训练活动改进：团体训练活动准备的不理想习惯养成：科学、合理安排时间，提高效率，知行合一周目标·完成进度积极主动高效快速完成领导安排的任务学习·信息·阅读继续阅读《自卑与超越》《权宜之计》等书籍继续学习微笑主义——整合心理学
2023-07-22 付宇杰
在我看来，王老师对整个课堂节奏把控的很好，从开始王老师从现实生活入手，将数学与实际相结合，通过现实生活中的数学问题引导学生进入课堂，接着就是王老师准备的六个例题，诱导引入，变式深入，带领学生逐步深入，了解学习排列问题的本质，王老师用准确、清晰、易懂、生动的语言，呈现知识，践行“以学生为主体“的课堂模式，选择适合该龄段的教学方法，从而激发学生的学习兴趣，促进学生的思维活动,能注意因材施教、因人施教,
【Android】UI布局工具及详解米莱虾 #Android ui android
ViewGroup1.简介ViewGroup是一种View，他是View容器，也就是里边可以包含其他View.分类：（1）layout布局类的ViewGroup（2）ScrollView带滚动条的ViewGroup（3）高级View容器（适配器View）（4）其他ViewGroup2.布局类的ViewGroup布局类的容器主要是用来控制子元素的排布方式和排列位置分类：（1）线性布局（2）相对布局（
《第十五次网课收获》宛如初夏
伊川王利珍坚持原创分享第386天今天晚上是网络中级第15次课程。再有一次就要结束了，还真的有点恋恋不舍呢！刘老师已经开始提前给我们预告了，以期降低我们的分离焦虑！四个月的学习历程。我们彼此由陌生到熟悉。现在经常在一块约练的几个学员已经是老朋友的感觉。虽然从未谋面，但心灵相通，互相扶持，互相帮助。电波相连的情谊也是一种别样的美好！首先通过顾老师展示的案例，大家各抒己见，加上刘老师的讲解。又收获了很多
【HCIA】DHCP配置实验
DHCP（DynamicHostConfigurationProtocol）配置实验通常用于网络课程或网络管理工作中，目的是让学习者或网络管理员理解并掌握如何配置和管理DHCP服务器，以便自动分配IP地址给网络中的设备。一、导言DHCP（DynamicHostConfigurationProtocol）是一种网络协议，用于自动分配IP地址给网络中的设备。DHCP通过以下三种主要机制来分配IP地址：
学习与财富同行：大学生校园内的多元赚钱之路高省飞智导师
随着经济的发展和社会的进步，越来越多的人开始关注学校里的赚钱项目。这些项目不仅能为学校带来收益，同时也能为创业者提供很多商机。那么，学校里究竟有哪些赚钱项目呢？下面就为大家详细介绍一下。一、校园快递代领服务随着网购的普及，校园快递业务也日益繁忙。学生们常常因为上课、兼职等原因无法及时领取包裹，这时候校园快递代领服务应运而生。这个项目需要有一定的组织和协调能力，以及对校园环境的熟悉程度。通过与快递公
自我感动式的努力，真的有用吗？星辰同学
你曾经有过这种感受吗？我今天有努力学习哎，我看书看了两个个小时，我觉得自己很刻苦；我今天有努力跑步哎，跑了两公里，觉得自己很自律；我今天有努力工作哎；晚上10点才回去…其实，你看书两小时，手机不停看了一个多小时，你努力跑步，也只是坚持了两天而已，努力工作，也是因为工作拖拉，没办法加班…最后，你没有取得成就，却怀疑人生，我明明努力了呀？可是一无所获。这种属于努力吗？应该算是自我感动式的努力吧！其实，
日精进第三十五天金缔尊周大生珠宝玉玉
尊敬的李老师，智慧的马教授，亲爱的家人们:大家好，我是（刘翠平)刘总的人，今天是2018年9月17号我的日精进第三十五天，我们互相勉励，携手前行，每天进步一点点，距离成功便不远。比学习:学习同事的素转非技巧，如何打动顾客的心，让顾客成为我们的老顾客。比改变:只要进店看的都是要买的，相信家人相信自己是最棒的，大家互相帮助，互相加油！比付出:总监中午来给我们开会，给我们从专卖店调货来辛苦了。比感恩:感
JAVA学习-行为抽象和Lambda.Lambda表达式守护者170 java学习 java 学习开发语言
行为抽象和Lambda表达式是Java8引入的新特性，用于简化代码和提高代码的可读性。一、概述、特点、使用方法以及与其他比较和高级应用的说明：1.行为抽象：它是指将一段代码抽象为一种功能或行为，以便在需要时可以传递给其他方法或对象。行为抽象通常通过接口来定义，其中接口包含一个或多个抽象方法来表示不同的功能。2.Lambda表达式：Lambda表达式是一种简洁的语法，用于实现行为抽象。它可以替代匿名
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
刘萍萍老师《基于新课标的情境活动与学习任务群设计策略》学习青箬笠0
刘萍萍新乡市基础教育教学研究室“让学生直接思考真实问题有助于激发和唤醒学生的理解。”（「美]格兰特·威金斯·「美」杰伊·麦克泰格《追求理解的教学设计》P44）所以要设计情境活动。一、情境活动与学习任务群概念从何而来“考试命题应以情境为载体，依据学生在真实情境下解决问题的过程和结果评定其素养水平。日常生活情境指向真实具体的社会生活，关注学生在生活场景中的语言实践，凸显语言交际活动的对象、目的和表述方
互相学习似水年华平
今晚受群内班主任的邀请，和大家分享我的学习心得。在晚上的分享会上，我听到了分享姐妹在讲述她们的故事，我不禁感叹，姐妹们的生活都是非常自律、人生有着清晰的目标。主播100课程班姐妹分享她每天早上如何练声，以及练声小技巧。蜕变100课程班姐妹分享她如何通过学习，制定人生的小目标、大目标以及终级目标。形象管理课程姐妹分享如何通过合理搭配穿衣打扮来提升自己的自信心。我和大家分享的是通过学习情商课，让我知道
一.初识C语言（1） Yu_Lijing C语言学习 c语言学习算法开发语言程序人生学习方法
目录1.前言2.什么是C语言3.第一个C语言代码4.数据类型5.常见内存单位6.变量①命名规则②全局变量和局部变量7.从键盘接收数据8.结尾1.前言本篇文章是学习《初识C语言》的总结，旨在复习，巩固，并产生新的理解。文中将会尽可能详尽阐述本章所学知识，会涉及知识的讲解，代码的演示，问题的探索。当然，这些都是浅尝辄止的，毕竟只是“初识”。2.什么是C语言在《初识C语言》中，我们首先先学习了什么是C语
2019-09-28 新明半岛
今日和一个朋友电话聊了一个半小时，哈哈好久没和人煲过电话粥了。主要聊最近各自在干嘛，关键主题是家庭英语启蒙。之前跟这这个朋友学习家庭英语启蒙，这位朋友也是我比较佩服的一个人，比较优秀，通过不断精进自己，学以致用，创造财富。我们都是普通的上班族，过去的我只知道做家务，照顾孩子，很少有时间去自我学习自我提升，很少去复盘我的人生，没有得到家庭的认可，亲子关系和亲密关系都没有处理好。今年七月份，我跟着这位
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
LWIP学习记录1——认识
一、LWIP是什么，有什么作用Lwip是一个阉割版的TCP/IP协议栈，开源的，它只实现了TCP/IP协议栈大部分功能。TCP/IP协议栈应该在生活中哪些产品？交换机、路由器、光纤收发机等等，这些产品都是使用TCP/IP协议栈来实现的。那么LWIP能做什么？云台接入、无线网关、工控器、远程模块、网络摄像头、嵌入式NAT无线路由器（注：LWIP没有NAT协议，之所以能实现是因为我们在LWIP基础上添
2021-01-12 蹦哒吧小蹦儿
终于开始明白为什么很多人不愿从舒适圈里出来，并不是因为舒适圈有多舒服，只是因为舒适圈外挑战太多了——需要去适应这个社会，需要去学习很多新的东西，需要去接受挑战……本来拍照就可以完成的事，现在需要拍摄视频，而如何拍出好的视频，并且剪辑好看，这真是一门技术呀。需要学习太多东西。为了能更好的拍片，特意买了云台，但是为什么云台不听使唤？令人发愁，于是又开始新一轮的学习。汽车领域的平台开始了讲师课，可以有更
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术” 老兵发新帖人工智能深度学习机器学习
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”（如Full-tuning、Freeze-tuning、LoRA、QLoRA）是两类不同维度的概念，二者共同构成模型优化的完整流程。以下是二者的关系解析及技术对照：一、训练阶段的核心流程与目标预训练（Pre-training）目标：在无标注通用数据（如互联网文本）上训练模型，学习语言、视觉等通用特征。微调技术
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
感恩日记（54）安然521
感恩天地，感恩大自然，感恩父母，感恩孩子，感恩自己所有的一切！1.今天早上开始内训，感恩自己5：00起床，高一内训第三天。2.感恩领导同事，有缘一起工作。3.感恩自己不断学习成长，今天在单位忙一天。4.感恩孩子自己旅游，玩的嗨。5.感恩孩子自己照顾自己，越放手越自律，越放手越成长！6.感恩老天送我这么一个有灵性的闺女！7.祝福孩子考上自己理想的二附中学校！祝福孩子一定能考上！8.感恩孩子来修行我，
学习安静地呆着和语
原创分享第713天周四我们是一个多么喜欢热闹的民族啊！热热闹闹过大年！欢欢喜喜迎新年！走街串巷去拜年！串门子！赶庙会！旅游！聚会喝酒！聚堆打麻将……一切我们喜欢和习惯的过年方式都因为一场突如其来的疫情改变了！大家都只能乖乖地呆在家里！这样的生活方式对我们来说是一种挑战！很多人都特别不适应！一家人团聚在一起，互相聊聊天，读读书，互相陪伴，这些平时期待的事情，反而觉得不重要了！越不让出去，越想出去……
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
大学英语四级阅读之细节阅读答题技巧英闻者说
长篇巨制！！建议收藏起来慢慢看~细节阅读是最为常见的一种阅读题型了，但是它在四级考试中又有独特之处。本文将从整体概况，题材体裁，出题特点，答题程序和答案特点五个部分对细节阅读做出剖析，同时会引用历年真题给出例证，仔细学习后自会对这种题型有着全新的理解和更好的把握。一、整体概况细节阅读一共2篇，字数大概都在350左右，分段情况不太好说，大多在5段以上（几乎没有平时模拟题里出现的两段或三段的情况）。想
STM32F4-ETH通信（lwip）——学习笔记_stm32 lwip 2401_84010497 程序员嵌入式
7、CSMA/CD冲突检测：8、MAC子层：MAC数据包、MAC数据包格式、MAC地址：MAC地址由48位数字组成，它是网卡的物理地址，在以太网传输的最底层，就是根据MAC地址来收发数据的。部分MAC地址用于广播和多播，在同一个网络里不能有两个相同的MAC地址。PC的网卡在出厂时已经设置好了MAC地址，但也可以通过一些软件来进行修改，在嵌入式的以太网控制器中可由程序进行配置。数据包中的DA是目标地
macOS 上安装 Kubernetes（k8s）老兵发新帖 macos kubernetes 容器
在macOS上安装Kubernetes（k8s）主要有三种主流方案，以下根据安装复杂度、资源占用和适用场景分类说明，并附详细步骤：⚙️一、推荐方案：Minikube（单节点本地集群）适用场景：学习、开发测试、资源有限（需2-4GB内存）。安装步骤：安装依赖工具安装DockerDesktop（推荐）或VirtualBox：brewinstall--caskdocker或brewinstallvirt
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
输入法半夏_b85a
从现在开始，不再用手写输入法了，跟高手学习,用拼音输入法，双手。知耻而后勇，不怕学习晚了，就怕从未启程。逐步培养好的习惯，虽然知道知识的海洋无限大，用胡适的话说就是“怕什么真理无穷,进一寸有一寸的欢喜”。话糙理不糙。加油！至不甘平凡的自己。图片发自App图片发自App图片发自App图片发自App
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &