sendmeasong_ying

09 Softmax回归+损失函数+图片分类数据集

Softmax回归

1.回归估计一个连续值，分类预测一个离散类别

2.MNIST:手写数字识别； ImageNet:自然物体分类

置信度可以定义为,在特定条件下,根据一定数据做出正确抉择的概率。

不关心对于非正确类的预测值，只关心对于正确类的预测值置信度有多大。

损失函数

蓝色曲线表示y=0时，变换预测值的曲线变化。绿色是似然函数，近似高斯分布，橙色是损失函数的梯度。

L2损失函数的意义：当靠近原点的时候，梯度就变得越来越小，参数的更新的幅度也变得越来越小。

似然函数的定义：

似然、似然函数与似然估计_似然是什么意思-CSDN博客

蓝色是损失函数的曲线，此时y=0，绿色的是似然函数，黄色的是梯度，当y'大于0，导数为1，小于0，导数为-1（绝对值函数在0点处不可导）。L1函数的核心是：当预测值和真实值隔的比较远的时候，无论隔的有多远，梯度始终是常数，就算隔的很远，权重更新也不会特别大。带来了稳定性上的好处。缺点就是零点处不可导以及+1和-1之间的不平滑性，当优化到末期之后就可能变得不稳定了。

（从图可以看到，在y=0的时候，当某个参数使得y'能取值为0，那么这个参数是最有可能接近样本参数的。绿色的线似然函数代表了y'在哪儿取值时，这个y'对应的参数概率是最大的）

当预测值和真实值相差比较大的时候，损失是绝对值损失，当预测值和真实值靠得比较近的时候就是平方误差，当y'在大于1，小于-1时，梯度是一个常数，在这之间梯度缓慢变化。优化就会比较平滑。

图片分类数据集

测试数据集是用来预测模型好坏的数据集，不参与训练。

%matplotlib inline
import torch
import torchvision
from torch.utils import data
from torchvision import transforms #transforms对数据进行操作的模组
from d2l import torch as d2l

d2l.use_svg_display()    #用svg来显示图片清晰度高一点

"""读取数据集"""
# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式，
# 并除以255使得所有像素的数值均在0～1之间
trans = transforms.ToTensor()   #把图片转成pytorch的tensor
mnist_train = torchvision.datasets.FashionMNIST(
    root="../data", train=True, transform=trans, download=True)
    #下载到上位机的目录下面，train=true表示下载的是训练数据集，
    # transform=trans表示拿到的是tensor而不是一堆图片，
    #download=True表示默认从网上下载
mnist_test = torchvision.datasets.FashionMNIST(
    root="../data", train=False, transform=trans, download=True)
    #train=False下载的是测试集


len(mnist_train), len(mnist_test)
"""结果：输出（60000，10000）"""

mnist_train[0][0].shape
#前一个【0】表示example,第二个【0】表示图片
"""结果：输出torch.Size([1, 28, 28])"""
#因为是黑白图片，RGB的通道数为1，长和宽都是28

def get_fashion_mnist_labels(labels):  #@save
    """返回Fashion-MNIST数据集的文本标签"""
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]
#以上函数用于在数字标签索引及其文本名称之间进行转换。


def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):  #@save
#scale：一个可选参数，指定绘制的图像的缩放比例。
    """绘制图像列表"""
    figsize = (num_cols * scale, num_rows * scale)
    #计算绘制所有图像所需要的画布大小figsize

    #使用 matplotlib 的 subplots 函数创建一个 num_rows × num_cols 的子图
    _, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
    #plt.subplots()是一个返回包含图形和轴对象的元组的函数。因此，
    #在使用时fig, ax = plt.subplots(),将此元组解压缩到变量fig和ax。

    #使用 axes.flatten() 将 axes 对象转换为一维数组，方便遍历所有子图
    axes = axes.flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
    #将 axes 和 imgs 两个列表中相同索引位置的元素打包成一个元组 (ax, img)

    #enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)
    #组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中，
    #生成可以遍历的每个元素有对应序号(0, 1, 2, 3…)的enumerate对象。

    #zip()函数用于将多个可迭代对象作为参数，依次将对象中对应的元素打包
    #成一个个元组，然后返回由这些元组组成的对象，里面的每个元素大概为i,(ax,img)的形式。
        if torch.is_tensor(img):
            # 图片张量
            ax.imshow(img.numpy())
        else:
            # PIL图片
            ax.imshow(img)
        ax.axes.get_xaxis().set_visible(False) #x轴隐藏
        ax.axes.get_yaxis().set_visible(False) #y轴隐藏
        if titles:
            ax.set_title(titles[i])
    return axes

#DataLoader 加载了 MNIST 训练集中的 18 张图像和标签
X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
#next() 返回迭代器的下一个项目。
#我们可以通过iter()函数获取这些可迭代对象的迭代器。然后，我们可以对获取到的
#迭代器不断使⽤next()函数来获取下一条数据


#使用 show_images 函数在一个2×9的子图中显示了这些图像
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y));
"""结果是一系列图片，其中X为包含18个样本的28×28的灰度图像（通道值为1）"""


"""读取小批量"""
batch_size = 256

def get_dataloader_workers():  #@save
    """使用4个进程来读取数据"""
    return 4
#对于进程数，可以利用多进程来加速数据读取，并减少 CPU 空闲时间。在实际应用中，
#推荐将 num_workers 参数设置为 CPU 核心数的 1~4 倍之间。

train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
                             num_workers=get_dataloader_workers())

timer = d2l.Timer()
for X, y in train_iter:
    continue
f'{timer.stop():.2f} sec'
#在一个 for 循环中遍历 train_iter 迭代器，将其中的图像 X 和标签 y 读取出来
#并不做任何处理，然后直接跳出循环。最后，我们使用 timer.stop() 函数计算了
#循环的运行时间，并将结果格式化为一个字符串返回，保留两位小数

"""结果显示：'2.18 sec'"""

"""整合所有组件"""
def load_data_fashion_mnist(batch_size, resize=None):  #@save
#加入resize参数是因为此时输入为28*28，若以后需要更大的输入，就可以更改resize
    """下载Fashion-MNIST数据集，然后将其加载到内存中"""
    trans = [transforms.ToTensor()]
    if resize:
          #将transforms.Resize(resize) 变换插入到trans列表的最前面，用于将图像大小调整为resize
        trans.insert(0, transforms.Resize(resize))
    #组合变换序列
    trans = transforms.Compose(trans)
    #加载数据集并进行trans预处理
    mnist_train = torchvision.datasets.FashionMNIST(
        root="../data", train=True, transform=trans, download=True)
    mnist_test = torchvision.datasets.FashionMNIST(
        root="../data", train=False, transform=trans, download=True)
    #将训练集和测试集转换为数据集迭代器
    return (data.DataLoader(mnist_train, batch_size, shuffle=True,
                            num_workers=get_dataloader_workers()),
            data.DataLoader(mnist_test, batch_size, shuffle=False,
                            num_workers=get_dataloader_workers()))

train_iter, test_iter = load_data_fashion_mnist(32, resize=64)
for X, y in train_iter:
    print(X.shape, X.dtype, y.shape, y.dtype)
    break
"""结果输出：torch.Size([32, 1, 64, 64]) torch.float32 torch.Size([32]) torch.int64"""

部分函数

ToTensor()

ToTensor() 是pytorch中的数据预处理函数，包含在 torchvision.transforms 模块下。一般用于处理图像数据，所以其处理对象是 PIL Image 和 numpy.ndarray 。

np.array 整型的默认数据类型为 np.int32，经过 ToTensor() 后数值不变，不进行归一化。

np.array 浮点型的默认数据类型为 np.float64，经过 ToTensor() 后数值不变，不进行归一化。

opencv 读取的图像格式为 np.array，其数据类型为 np.uint8，经过 ToTensor() 后数值由 [0,255] 变为 [0,1]，通过将每个数据除以255进行归一化。

经过 ToTensor() 后，HWC 的图像格式变为 CHW 的 tensor 格式。

np.uint8 和 np.int8 不一样，uint8是无符号整型，数值都是正数。

ToTensor() 可以处理任意 shape 的 np.array，并不只是三通道的图像数据。

from torchvision.transforms import Compose, CenterCrop, ToTensor, Resize

参考：torchvision.transforms 数据预处理：ToTensor()-CSDN博客

torchvision

tochvision主要处理图像数据，包含一些常用的数据集、模型、转换函数等。torchvision独立于PyTorch，需要专门安装。

torchvision主要包含以下四部分：

torchvision.models: 提供深度学习中各种经典的网络结构、预训练好的模型，如：Alex-Net、VGG、ResNet、Inception等。

torchvision.datasets：提供常用的数据集，设计上继承 torch.utils.data.Dataset，主要包括：MNIST、CIFAR10/100、ImageNet、COCO等。

torchvision.transforms：提供常用的数据预处理操作，主要包括对Tensor及PIL Image对象的操作。

torchvision.utils：工具类，如保存张量作为图像到磁盘，给一个小批量创建一个图像网格。

【实例化】datasets.CIFAR10(root: str,train: bool = True,transform: Optional[Callable] = None,target_transform: Optional[Callable] = None,download: bool = False,)

作用：创建一个CIFAR-10数据集的实例

root：数据集的根目录，如果download设置为True，则将保存到该目录。

train：如果为True，则从训练集创建数据集，否则(即为Flase)从测试集创建。

transform：接受PIL图像并返回变换后图像的function/transform。E.g, transforms.RandomCrop。

download：如果为true，则从internet下载数据集并将其放在根目录中。如果数据集已下载，则不会再次下载。

参考：

【学习笔记】【Pytorch】四、torchvision.datasets模块的使用_torchvision模块-CSDN博客

plt.subplots()

subplot().subplots()均用于Matplotlib绘制多图。

返回值：

fig：即figure画窗

ax：即axes,画窗中创建得笛卡尔坐标区(说明白点就是画布中得一块区域)

函数原型 subplot(nrows, ncols, index, **kwargs)，一般我们只用到前三个参数，将整个绘图区域分成 nrows 行和 ncols 列，而index用于对子图进行编号

matplotlib.pyplot.subplots(nrows=1, ncols=1, *, sharex=False,sharey=False, squeeze=True,subplot_kw=None, gridspec_kw=None, **fig_kw)

nrows：默认为 1，设置图表的行数。

ncols：默认为 1，设置图表的列数。

sharex、sharey：设置 x、y 轴是否共享属性，默认为 false，可设置为 'none'、'all'、'row' 或 'col'。 False 或 none 每个子图的 x 轴或 y 轴都是独立的，True 或 'all'：所有子图共享 x 轴或 y 轴，'row' 设置每个子图行共享一个 x 轴或 y 轴，'col'：设置每个子图列共享一个 x 轴或 y 轴。

squeeze：布尔值，默认为 True，表示额外的维度从返回的 Axes(轴)对象中挤出，对于 N*1 或 1*N 个子图，返回一个 1 维数组，对于 N*M，N>1 和 M>1 返回一个 2 维数组。如果设置为 False，则不进行挤压操作，返回一个元素为 Axes 实例的2维数组，即使它最终是1x1。

subplot_kw：可选，字典类型。把字典的关键字传递给 add_subplot() 来创建每个子图。

gridspec_kw：可选，字典类型。把字典的关键字传递给 GridSpec 构造函数创建子图放在网格里(grid)。

**fig_kw：把详细的关键字参数传给 figure() 函数

subplot()、subplots()在实际过程中，先创建了一个figure画窗，然后通过调用add_subplot()来向画窗中各个分块添加坐标区，其差别在于是分次添加(subplot())还是一次性添加(subplots())。

参考：

plt: subplot()、subplots()详解及返回对象figure、axes的理解_plt.subplots-CSDN博客

flatten()

flatten()是对多维数据的降维函数。

flatten(),默认缺省参数为0，也就是说flatten()和flatte(0)效果一样。

python里的flatten(dim)表示，从第dim个维度开始展开，将后面的维度转化为一维.也就是说，只保留dim之前的维度，其他维度的数据全都挤在dim这一维。

比如一个数据的维度是( S 0 , S 1 , S 2......... , S n ) (S0,S1,S2.........,Sn)(S0,S1,S2.........,Sn), flatten(m)后的数据为( S 0 ， S 1 ， S 2 ， . . . ， S m − 2 ， S m − 1 ， S m ∗ S m + 1 ∗ S m + 2 ∗ . . . ∗ S n ) (S0，S1，S2，...，Sm-2，Sm-1，Sm*Sm+1*Sm+2*...*Sn)(S0，S1，S2，...，Sm−2，Sm−1，Sm∗Sm+1∗Sm+2∗...∗Sn)

注意：

flatten()和flatten(0)含义一样，都表示从第0维压缩。

参考：python：flatten()参数详解-CSDN博客

enumerate()

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。

enumerate(iteration, start)函数默认包含两个参数，其中iteration参数为需要遍历的参数，比如字典、列表、元组等，start参数为开始的参数，默认为0（不写start那就是从0开始）。enumerate函数有两个返回值，第一个返回值为从start参数开始的数，第二个参数为iteration参数中的值。

参考：enumerate函数详解-CSDN博客

zip()

zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。

如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。

语法：zip([iterable, ...])。iterable -- 一个或多个迭代器

is_tensor()

语法：torch.is_tensor(obj)

此方法很直观，如果obj是tensor的话返回true，否则返回false。

另一个类似函数：isinstance(obj, Tensor)

注意，torch.is_tensor(obj)是torch的一个方法，而isinstance(obj, Tensor)是python自带的一个方法，这两个是等价的。当然isinstance(obj, type)这个方法可以检查任何类型，如果检查出obj是type类型返回true，否则返回false。
根据官网的说法，isinstance(obj, Tensor)这种方法更适合于静态检查（例如更适合mypy等静态检查工具进行检查）并且也更加直观（这个倒是我觉得两个方法都挺直观的），所以更推荐使用isinstance(obj, Tensor)这种方法。

参考：pytorch每日一学1(torch.is_tensor(obj))-CSDN博客

matplotlib.axes.Axes.get_xaxis()
用法： Axes.get_xaxis(self)
参数：此方法不接受任何参数。

返回：此方法返回XAxis实例。

plt、fig、axes、axis的含义_fig, axes-CSDN博客

set_visible()

matplotlib库的axis模块中的Axis.set_visible()函数用于设置艺术家的可见性。
用法： Axis.set_visible(self, b) 
参数：此方法接受以下参数。
      b:此参数是布尔值
返回值：此方法不返回任何值。

Matplotlib.axes.axes.set_title()

matplotlib库的Axes模块中的Axes.set_title()函数用于设置坐标轴的标题。

参数:该方法接受以下参数。

label:这个参数是用于标题的文本。

fontdict:这个参数是控制标题文本外观的字典。

loc:该参数用于设置标题的位置{‘ center ‘， ‘ left ‘， ‘ right ‘}。

pad:这个参数是标题从坐标轴顶部的偏移量，单位为点。

Returns:该方法返回表示标题的matplotlib文本实例。

ax.imshow(img.asnumpy())

ax.imshow(img.numpy0)是一个Python代码行，它使用matplotlib库中的imshow函数将一个Numpy数组表示的图像显示在当前的Axes对象中。其中，img是一个PyTorch张量，通过调用其numpy()方法将其转换为Numpy数组。

d2l.timer()

Timer定时器是一种基于线程的定时器，它通过在指定的时间间隔内启动一个线程来执行特定的任务。当时间间隔到达时，线程将自动执行任务，并在任务完成后自动退出。

函数：Timer(interval, function, args=[ ], kwargs={ })

interval: 指定的时间

function: 要执行的方法

args/kwargs: 方法的参数

transforms.Resize()

transforms.Resize() 是 PyTorch 中的图像处理函数之一，用于调整图像的大小。该函数可以用于将输入图像调整为指定的大小或按照指定的缩放因子进行调整。

transforms.Resize(size)

这里的 size 可以是一个整数，表示将图像的较短边缩放到指定长度，同时保持长宽比。例如，transforms.Resize(256) 将图像的较短边调整为256像素，而较长边将按比例缩放。

size 也可以是 [width, height]，表示将图像的宽度和高度调整为指定的尺寸。例如，transforms.Resize([256, 256]) 将图像的宽度和高度分别调整为256像素。

参考：

Pytorch中transforms.Resize()的简单使用方法-CSDN博客

transforms.Compose()

torchvision.transforms.Compose()类。这个类的主要作用是串联多个图片变换的操作。

例如：
transforms.Compose([transforms.RandomResizedCrop(224),
 		    transforms.RandomHorizontalFlip(),
                    transforms.ToTensor(),
                    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
参考：【pytorch】transforms.Compose()使用 - 知乎 (zhihu.com)

参考：

深度学习入门——小白向——李沐《动手学深度学习》3.5节FashionMNIST代码加注释笔记-CSDN博客动手学深度学习——图像分类数据集（代码详解）_图像数据集-CSDN博客

PyTorch-Llama: 从零开始实现LLaMA 2模型教程乔昕连
PyTorch-Llama:从零开始实现LLaMA2模型教程pytorch-llamaLLaMA2implementedfromscratchinPyTorch项目地址:https://gitcode.com/gh_mirrors/py/pytorch-llama1.项目介绍PyTorch-Llama是一个在PyTorch平台上完全从零开始实现的LLaMA2模型仓库。该模型是一个强大的自回归语言模
如何训练一个 Reward Model：RLHF 的核心组件详解茫茫人海一粒沙深度学习人工智能强化学习
RewardModel（奖励模型）是RLHF的核心，决定了模型“觉得人类偏好什么”的依据。本文将系统介绍如何从零开始训练一个rewardmodel，包括数据准备、模型结构、损失函数、训练方法与注意事项。什么是RewardModel？RewardModel（RM）是一个评分器：它输入一个文本（通常是prompt+模型回答），输出一个实数分值（reward），表示这个回答的“人类偏好程度”。它不是分类
利用人名语言分类案例演示RNN、LSTM和GRU的区别（基于PyTorch） .30-06Springfield rnn lstm gru 分类人工智能 python pytorch
文章目录一、程序结构1.1程序整体结构1.2各模块功能关系流程图二、数据预处理模块详解2.1定义字符集和语言类别2.2读取数据2.3人名转换为one-hot编码张量2.4自定义数据集类2.5数据加载器三、模型定义模块详解3.1RNN模型3.2LSTM模型3.3GRU模型四、模型训练与测试模块详解4.1测试模型基本功能4.2模型训练主函数五、结果可视化与对比模块详解六、模型预测模块详解七、案例结果分
学习笔记-JVM GC 绝不秃头的L君学习笔记 jvm jvm.gc
1.GC分类PartialGC并不会收集整个堆空间，仅仅包括新生代和老年代，不包含永久代（元空间）。YoungGC:只收集YoungGen的垃圾收集过程。OldGC：只收集OldGen的垃圾收集过程。（只有CMS的并发收集是这个模式）MixedGC：收集整个YoungGen以及部分OldGen的垃圾收集过程。（只有G1有这个模式）FullGC收集整个堆，包括YoungGen、OldGen以及Per
Web 服务器架构选择深度解析后端
在Web服务与API设计中，服务器架构的选择直接决定系统的可扩展性、维护成本与性能上限。本文从架构演进脉络出发，系统解析单体架构、微服务、服务网格、Serverless等主流架构的核心特性、适用场景及Java技术栈实现。一、架构演进与核心分类1.1架构演进脉络1.2核心架构对比表架构类型核心特点典型技术栈（Java）部署复杂度扩展性单体架构所有功能模块打包为单一应用，共享数据库SpringBoot
AUTOSAR从入门到精通-【自动驾驶】自动驾驶中的摄像头技术（二）格图素书人工智能深度学习
目录前言算法原理摄像头在自动驾驶中的作用与意义分类按通信协议区分按不同感光芯片按像元排列方式摄像头核心关键指标多传感器融合在自动驾驶中的应用▲不同自动驾驶等级的传感器配置▲L2级别▲L2+/3级别▲L4/5级别摄像头的种类与应用车载智能前视像头关键参数如何选择摄像头全车摄像头布置及功能前视摄像头环视摄像头后视摄像头侧视摄像头内置/外置后视摄像头雷达的种类与应用摄像头与雷达的数量配置产业与行业现状摄
解密GPT工作原理：Transformer架构详解与自注意力机制剖析 AI智能应用 gpt transformer 架构 ai
解密GPT工作原理：Transformer架构详解与自注意力机制剖析关键词：GPT、Transformer、自注意力机制、神经网络、语言模型、深度学习、人工智能摘要：本文将深入浅出地解析GPT模型的核心架构——Transformer，重点剖析其革命性的自注意力机制。我们将从基本概念出发，通过生活化的比喻解释复杂的技术原理，并用Python代码示例展示实现细节，最后探讨这一技术的应用场景和未来发展方
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
Redis 详细介绍骑牛小道士 redis 数据库缓存
RedisRedis是什么为什么要用RedisRedis的持久化Redis数据共享分布式Redis缓存的安全性保证(分布式锁)Redis的部署模式分类Redis的全局IDRedisTemplate常用方法Redis的应用Redis在消息队列中应用方式一：基于List的队列方式二：Redis发布/订阅(Pub/Sub)模式Redis发布消息Redis订阅消息（配置监听器）方式三：基于Streams的
【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
CHES2024 issue-1文章总结打工小熊猫密码学文献分类总结 arm开发同态加密零知识证明密码学网络攻击模型安全威胁分析计算机网络
来源：https://ches.iacr.org/2024/acceptedpapers.php简要分类：分类文章编号后量子密码软硬件加速相关无侧信道攻防相关1、10、11、12、14、15同态相关18、19、201.Gadget-basedMaskingofStreamlinedNTRUPrimeDecapsulationinHardwareGeorgLand,AdrianMarotzke,Ja
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
【字节跳动】数据挖掘面试题0004：一个随机整数产生器产生[1，5]，如何设计一个产生[1，7]的随机整数产生器。言析数智数据挖掘常见面试题 python 随机数算法面试题
文章大纲题目描述方法思路具体实现方法解释数学原理通俗类比解释第一步：从1-5到0-4第二步：创造"更大的骰子"第三步：给棋盘编号第四步：压缩到1-7第五步：处理"无效数字"总结：`完成解决方案流程`题目描述要基于一个生成范围在[1,5]的随机整数生成器来设计出能生成[1,7]随机整数的生成器，可按以下步骤操作：方法思路借助原有的生成器生成两个相互独立的随机数，范围都是[1,5]。把这两个随机数组合
Linux——内核——设备驱动 newbie_Joe linux概念 linux内核
Linux设备驱动是操作系统与硬件之间的桥梁，它允许内核与硬件设备进行通信，管理硬件资源，并为上层应用提供标准化的接口。以下从基本概念、分类、架构、开发流程及关键机制等方面，系统梳理Linux设备驱动的核心知识：一、设备驱动的基本概念作用抽象硬件细节：将硬件操作封装为标准接口（如open()、read()、write()），使应用无需直接操作寄存器。资源管理：分配/释放硬件资源（如内存、I/O端口
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
基于人体骨架动作识别的神经信息处理技术（2 相关工作-2.4提高信号质量）路由跳变动作识别人工智能
2相关工作在本节中，我们将回顾本论文的相关工作。我们根据文献的功能将文献分为四类，包括1)数据集，2)提取空间特征，3)捕获时间模式，4)提高信号质量。对于每个组件，我们将其进一步分解为细分区域。最后，我们展示了现有方法在不同数据集上的SOTA改进。总之，该分类法如下：1)数据集2)提取空间特征利用拓扑结构、设计空间操作符、分离通道功能、学习参数化拓扑、分区层次结构。3)捕获时间模式提取多尺度特征
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
用sklearn库中的算法对数据集进行训练和auc评估（个人学习笔记） ZD困困困 python 机器学习
本文为个人学习笔记，仅供学习参考，欢迎讨论，要是有哪里写的不对或有疑问的欢迎讨论。题目：运用已给数据集进行模型训练，使用逻辑回归、决策树、随机森林和AdaBoost几个算法进行训练，并打印各个算法训练后的auc评价指标。文章目录1.导入数据集①read_csv():读取数据并以某字符分隔。②merge():合并③drop():删除行或列④tolist():将数组或矩阵转换为列表⑤train_tes
从数据抓取到智能分类：用 LangChain + 爬虫构建自动化工作流的实战笔记大模型之路大模型（LLM）人工智能 langchain
一、从人工到自动化的迫切需求在数字化时代，信息的快速获取与处理成为个人和组织高效运转的关键。然而，许多重复性强、耗时长且缺乏创造性的任务，如定期收集和整理网络信息并制作成特定格式的内容，依然占据着人们大量的时间和精力。本文作者就面临这样的困境：每两周需花费数小时访问多个大学网站，提取活动信息，手动将其整理成繁琐的HTML表格，并确保在Outlook中格式正确无误。这一过程不仅涉及大量枯燥的重复劳动
DeepSeek 大模型：工单系统优化与企业提效关键合力亿捷-小亿人工智能
随着信息化时代的到来，企业对运营效率的需求日益增强，工单系统作为重要的运营管理工具，其优化程度直接影响到企业的响应速度与服务质量。DeepSeek大模型通过强大的数据处理能力，为工单系统提供了多维度的优化方案，从分类、派发到内容填充、优先级排序，再到知识管理，全面提升了工单处理的智能化与自动化水平，帮助企业在提升客户满意度的同时，也实现了自身运营效率的跃升。一、工单分类与派发1.精准分类工单分类是
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
基于 WebGL 与 GIS 的智慧垃圾分类三维可视化技术方案图扑可视化数字孪生三维可视化垃圾分类智慧环卫
图扑自主研发的HT可视化引擎，基于HTML5的WebGL与Canvas技术构建，形成了完整的2D/3D图形渲染体系。该引擎无需依赖第三方插件，通过纯JavaScript脚本调用API，即可实现跨平台的可视化交互体验，支持PC端、移动端及大屏终端的多屏协同。在三维渲染技术层面，引擎深度集成WebGL底层图形接口，构建了高效的轻量化处理体系。HT还支持3DTiles格式航拍倾斜摄影实景数据、城市建筑群
点云从入门到精通技术详解100篇-基于二维激光雷达的隧道形貌三维重建（续）格图素书算法人工智能
目录3.4点云数据精简3.4.1数据精简的要求3.4.2经典精简算法分析3.5点云三维重建算法3.5.1曲面重建方式的分类3.5.2点云数据的三角剖分3.5.3Delaunay三角剖分算法3.5.4贪婪投影三角化算法3.5.5泊松曲面重建算法4特征保留优化的点云精简4.1引言4.2点云精简的思想4.3基于图信号的特征保留优化的点云精简算法4.3.2定义密度均匀性损失4.4点云精简实验结果及分析5隧
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

09 Softmax回归+损失函数+图片分类数据集

Softmax回归

损失函数

图片分类数据集

ToTensor()

torchvision

plt.subplots()

flatten()

enumerate()

zip()

is_tensor()

matplotlib.axes.Axes.get_xaxis()

set_visible()

Matplotlib.axes.axes.set_title()

ax.imshow(img.asnumpy())

d2l.timer()

transforms.Resize()

transforms.Compose()

你可能感兴趣的:(深度学习,回归,分类,数据挖掘)