KevinDuangDuangDuang

线性回归模型的从零开始 || 深度学习 || Pytorch ||动手学深度学习08 || 跟李沐学AI

莫愁前路无知己, 天下谁人不识君？　　　　　——高适

本文是对于跟李沐学AI——动手学深度学习第8节：线性回归的从零开始的代码实现、从生成数据集到模型参数的初始化、从创建数据迭代器到定义线性回归模型、损失函数与优化函数、最后根据设置的迭代轮次对模型进行训练、这是完整且标准的深度学习思想与过程的体现

线性回归作为最基础的机器学习模型、在机器学习库Sklearn 、统计模型库Statsmodels 以及众多深度学习库中都可以方便且快速地实现、而从零开始实现的意义在于 加深对深度学习模型的理解、更为直观地 体会模型的训练过程是如何进行的

%matplotlib inline
import random
import torch
from d2l import torch as d2l

生成人工数据集
特征数据 X 是由传入的样本量大小 num_examples 与权重向量 w 的长度来生成的、服从均值为0、方差为1的正态分布的随机数
另外还需要给标签数据 y 增加一部分随机误差来作为噪音干扰

def synthetic_data(w, b, num_examples):     # 传入系数、常数项和样本量
    
    X = torch.normal(0, 1, size=(num_examples, len(w)))  # 生成自变量数据
    y = torch.matmul(X, w) + b              # 令数据与权重相乘后相加、得到的结果再与偏差相加
    
    # 增加随机误差项作为噪音干扰
    y += torch.normal(0, 0.01, size=y.shape)   # 要用.shape、而不是len( )
    
    return X, y.reshape((-1, 1))            # 注意将标签数据转为所谓的列向量、实际上是二维张量
# 设置真实的权重向量与偏差
true_w, true_b = torch.tensor([3.0, -2.4]), torch.tensor([2.4])
# 调用函数synthetic_data来生成数据
features, label = synthetic_data(true_w, true_b, num_examples=1000)

查看生成数据与标签

print('features: ', features[0], '\nlabel   : ', label[0])

features:  tensor([0.2203, 0.4052]) 
label   :  tensor([2.0868])

绘制第二个变量和因变量的散点图、查看两者之间的线性关系如何

d2l.set_figsize()
d2l.plt.scatter(features[:, 1].numpy(), label.numpy(), s=1.5);
# 可能会使用到.detach( )函数才可以将Torch张量改为Numpy数组

定义 数据迭代器 函数、向其传入批量大小、特征矩阵和标签向量
通过循环语句来从该函数中每次拿到特征数据和标签中的一小部分、即 小批量、当传入的数据全都被依次返回后、即完成了对模型的一轮迭代

def data_iter(batch_size, features, label):  # 出入批量大小、特征与标签
    
    num_examples = len(features)     # 得到样本量
    indices = list(range(num_examples))  # 相当于得到样本的索引
    
    # 将得到的索引打乱顺序、进而实现对小批量的随机抽取
    random.shuffle(indices)    # 这时的indices顺序已经被打乱
    
    for i in range(0, num_examples, batch_size):   # 在样本中跨过小批量的大小抽取
        
        # 得到小批量的索引、由于已经打乱了顺序、所以这就是对样本的随机抽取
        # 注意使用最小值函数、因为可能会在数据尽头无法满足批量的大小
        batch_indices = torch.tensor(           
                      indices[i: min(i + batch_size, num_examples)]) 
        # 相当于return、不过会保存这次提取的位置、下次循环从batch_size这个位置开始
        yield features[batch_indices], label[batch_indices]
# 将批量大小设置为10、尝试从数据迭代器中拿到一次数据
batch_size = 10
for X, y in data_iter(batch_size, features, label):
    print(X, '\n', y)
    break

tensor([[ 0.4318,  0.1997],
        [-0.7234, -0.0113],
        [ 0.6357,  0.9459],
        [-1.0930, -1.8608],
        [-1.8943,  0.2650],
        [ 1.2493, -0.9300],
        [-1.6498, -0.1448],
        [-0.8304,  0.4570],
        [ 0.8871,  1.2403],
        [-2.2990,  0.6360]]) 
 tensor([[ 3.2165],
        [ 0.2484],
        [ 2.0329],
        [ 3.5902],
        [-3.9199],
        [ 8.3903],
        [-2.2030],
        [-1.1903],
        [ 2.0963],
        [-6.0173]])

初始化模型参数、需要给出迭代的初始值、一般应尽可能地小
这里的模型参数 w 和 b 是不同于上面定义的 true_w 和 true_b的、w 和 b 是向模型中传入并不断根据求得的梯度来更新的、 true_w 和 true_b 是用来生成数据的
模型训练完成后、如果效果很好、那么 w 和 true_w 、b 和 true_b 都应该是非常接近的

# 回归系数服从均值为0、方差为0.1且形状为2行1列
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)
# 回归常数取0即可
b = torch.zeros(1, requires_grad=True)

定义线性回归模型、这里
${\hat y}^{(i)} = {x_1}^{(i)}w_1 + {x_2}^{(i)}w_2 + b$
其中 ${\hat y}^{(i)}$ 为由第 $i$ 条特征数据与模型参数 w 和 b 运算后求得的拟合值

def LinearRegression(X, w, b):    
    return torch.matmul(X, w) + b     # 对应元素相乘再相加

定义损失函数、即均方误差
${\mathscr l^{(i)}(w_1, w_2, b)} = \frac{1}{2}{({\hat y}^{(i)} - y^{(i)})}^2$
其中 $y^{(i)}$ 为第 $i$ 条数据对应的真实值

def squared_loss(y_hat, y):          #  传入拟合值与真实值
    return (y_hat - y) ** 2 / 2      #  返回二维张量

定义优化算法、即随机梯度下降Stochastic gradient descent
求偏导是对损失函数 squared_loss 中的模型参数 w 和 b 求的偏导、实际上这里只是完成了对参数的更新、并没有使用反向传播
注意更新完成后将梯度清零

def sgd(params, lr, batch_size):   # 传入参数列表、学习率以及小批量的大小
    # 小批量随机梯度下降
    with torch.no_grad():          # 更新时解除梯度运算
        for param in params:
            # 学习率与参数梯度的乘积除以批量大小
            param -= lr * param.grad / batch_size
            param.grad.zero_()      # 将梯度清零

对线性回归模型进行训练
设置迭代的轮次 num_epochs 、在每轮迭代中、不断地从数据迭代器 data_iter 中拿到小批量的数据 X 和 y 来对模型进行训练
计算模型在这些小批量上的拟合值 LinearRegression(X, w, b) 与真实值 y 之间的损失 (squared_loss) 、以此得知参数 w 和 b 该如何变化
对参数 w 和 b 更新 (sgd) 后再在下一个小批量上重复、所有的数据均参与训练后即完成了一轮迭代

learning_rate = 0.03    # 学习率
num_epochs = 3          # 迭代次数
net = LinearRegression  # 选择模型
loss = squared_loss     # 损失函数

# 对所有数据的迭代进行控制
for epoch in range(num_epochs):     
    # 在所有数据的小批量上不断使损失最小化
    for X, y in data_iter(batch_size, features, label):
        L = loss(net(X, w, b), y)     # 拟合结果在小批量上的损失
        L.sum().backward()            # 对损失求和后计算[w, b]的梯度
        sgd([w, b], learning_rate, batch_size)  # 由梯度对参数进行更新、单纯地传入batch_size是不合适的
        
    # 将迭代轮次与损失打印出来
    with torch.no_grad():
        train_L = loss(net(features, w, b), label)
        print(f'epoch{epoch + 1}, loss{float(train_L.mean()): f}')

epoch1, loss 0.028120
epoch2, loss 0.000129
epoch3, loss 0.000050

将参数的估计量与真实值进行比较、可以看到真的是非常接近的

print('   actual w: ', true_w, '\nestimated w: ', w)
print('   actual b: ', true_b, '\nestimated b: ', b)

   actual w:  tensor([ 3.0000, -2.4000]) 
estimated w:  tensor([[ 2.9995],
        [-2.3995]], requires_grad=True)
   actual b:  tensor([2.4000]) 
estimated b:  tensor([2.3992], requires_grad=True)

实际上、在上面的过程中、模型参数 w 和 b 的变化过程还不是特别清楚、下面对训练过程做进一步的拆解
在优化算法 sgd 中、将更新前的参数 param 、学习率 lr 、参数变量的梯度 param.grad、批量大小 batch_size 以及更新后的参数 param.updated 整理成一个数据框后打印出来
注意观察 在这一组小批量上更新后的参数 与 在下一组小批量上更新前的参数 是否相同
（肯定相同啊）

p = ['_w', '_b']  # 参数名的后缀、打印前做拼接

import pandas as pd

def sgd(params, lr, batch_size):   # 传入参数列表、学习率以及小批量的大小
    
    # 小批量随机梯度下降
    with torch.no_grad():          # 更新时解除梯度运算
        
        for i, param in enumerate(params):
            
            name = 'param' + p[i]
            param_value = param.detach().numpy().reshape(-1)              ##  更新前的参数
            param_grad  = param.grad.detach().numpy().reshape(-1)         ##  参数变量的梯度
            
            print(pd.DataFrame({name: param_value,
                                '- (lr * ': lr,
                                name + '.grad': param_grad,
                                '/ batch_size) = ': batch_size,
                                name + '.updated': param_value - lr * param_grad / batch_size}))
            
            # 学习率与参数梯度的乘积除以批量大小
            param -= lr * param.grad / batch_size
            # 将梯度清零
            param.grad.zero_()

这里并不令模型 在所有的数据上反复迭代 训练、只考虑一轮迭代中、模型在每个小批量数据上的训练结果
重新生成100条数据、批量大小设置为25、所以模型此时在一轮迭代中会对参数更新100 / 25 即 4次
将数据的真实值 y_true 、模型的拟合值 y_hat 以及损失值 loss 整理成数据框后打印出来

# 重新初始化模型参数
w = torch.normal(0, 0.01, size=(2, 1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)
# 减少数据量、只生成100条数据
F, L = synthetic_data(true_w, true_b, num_examples=100)
# 减小批量大小
batch_size = 25

# 在所有数据的小批量上不断使损失最小化
for i, (X, y) in enumerate(data_iter(batch_size, F, L)):
    
    # 打印这是第几个小批量
    print('----------------------------------------------------------------------------------')
    print(('  BATCH  ' + str(i + 1)) * 8)
    print('----------------------------------------------------------------------------------')
    
    y_true = y[: 5].numpy().reshape(-1)                               ## 真实值
    y_hat = net(X, w, b )[: 5].detach().numpy().reshape(-1)           ## 在现在的参数取值下、根据回归模型求所谓的拟合值、只取前5个
    
    L = loss(net(X, w, b), y)                                         # 拟合结果在小批量上的损失
    loss_ = L[: 5].detach().numpy().reshape(-1)                      ## 损失值
    
    print(pd.DataFrame({'y_true:'   : y_true,
                        'y_hat': y_hat,
                        'loss' : loss_,
                        '(y - y_hat) ** 2 / 2': (y_true - y_hat) ** 2 / 2}))
    
    L.sum().backward()            # 相当于计算[w, b]的梯度
    sgd([w, b], learning_rate, batch_size)  # 由梯度对参数进行更新
    # 已经在优化函数sgd（）中增加了想要打印的内容、即参数取值、参数梯度以及更新后的参数

# 本轮迭代后的损失
train_L = loss(net(features, w, b), label)
print('----------------------------------------------------------------------------------')
print(f'LOSS{float(train_L.mean()): f}')

----------------------------------------------------------------------------------
  BATCH  1  BATCH  1  BATCH  1  BATCH  1  BATCH  1  BATCH  1  BATCH  1  BATCH  1
----------------------------------------------------------------------------------
    y_true:     y_hat       loss  (y - y_hat) ** 2 / 2
0 -0.131016 -0.014049   0.006841              0.006841
1  5.906297  0.015085  17.353189             17.353189
2  0.881901  0.003036   0.386202              0.386202
3 -0.001573 -0.011868   0.000053              0.000053
4  7.636694  0.016791  29.031466             29.031466
    param_w  - (lr *   param_w.grad  / batch_size) =   param_w.updated
0  0.005106      0.03    -44.389107                25         0.058373
1 -0.010283      0.03     82.359451                25        -0.109114
   param_b  - (lr *   param_b.grad  / batch_size) =   param_b.updated
0      0.0      0.03    -48.316177                25         0.057979
----------------------------------------------------------------------------------
  BATCH  2  BATCH  2  BATCH  2  BATCH  2  BATCH  2  BATCH  2  BATCH  2  BATCH  2
----------------------------------------------------------------------------------
    y_true:     y_hat       loss  (y - y_hat) ** 2 / 2
0 -0.443789 -0.007321   0.095252              0.095252
1 -0.984652 -0.062500   0.425182              0.425182
2  7.227615  0.215972  24.581572             24.581572
3  0.624471  0.041280   0.170056              0.170056
4 -3.099711 -0.153484   4.340127              4.340127
    param_w  - (lr *   param_w.grad  / batch_size) =   param_w.updated
0  0.058373      0.03    -43.017033                25         0.109993
1 -0.109114      0.03     56.293491                25        -0.176666
    param_b  - (lr *   param_b.grad  / batch_size) =   param_b.updated
0  0.057979      0.03    -36.868214                25         0.102221
----------------------------------------------------------------------------------
  BATCH  3  BATCH  3  BATCH  3  BATCH  3  BATCH  3  BATCH  3  BATCH  3  BATCH  3
----------------------------------------------------------------------------------
    y_true:     y_hat       loss  (y - y_hat) ** 2 / 2
0 -1.189351 -0.184881   0.504480              0.504480
1  7.701901  0.345547  27.057970             27.057970
2 -1.287672 -0.124485   0.676502              0.676502
3 -0.284723 -0.038631   0.030281              0.030281
4 -3.866466 -0.106044   7.070389              7.070389
    param_w  - (lr *   param_w.grad  / batch_size) =   param_w.updated
0  0.109993      0.03   -108.227051                25         0.239866
1 -0.176666      0.03     39.138115                25        -0.223632
    param_b  - (lr *   param_b.grad  / batch_size) =   param_b.updated
0  0.102221      0.03    -43.831829                25         0.154819
----------------------------------------------------------------------------------
  BATCH  4  BATCH  4  BATCH  4  BATCH  4  BATCH  4  BATCH  4  BATCH  4  BATCH  4
----------------------------------------------------------------------------------
    y_true:     y_hat       loss  (y - y_hat) ** 2 / 2
0  6.129820  0.446178  16.151894             16.151894
1  0.280920 -0.017562   0.044546              0.044546
2 -0.783369 -0.131024   0.212777              0.212777
3  2.809025  0.212253   3.371614              3.371614
4  7.629917  0.592282  24.764153             24.764153
    param_w  - (lr *   param_w.grad  / batch_size) =   param_w.updated
0  0.239866      0.03    -96.464478                25         0.355623
1 -0.223632      0.03     78.339828                25        -0.317640
    param_b  - (lr *   param_b.grad  / batch_size) =   param_b.updated
0  0.154819      0.03    -39.180454                25         0.201836
----------------------------------------------------------------------------------
LOSS 7.742309

仔细观察是可以更清楚地明白整个参数的更新过程是如何进行的
打印出来的损失值 LOSS 似乎不太合理、这一方面是因为数据量 num__examples 从原来的1000减少到100、另一方面是因为设置的批量 batch_size 相对于数据量本身来说是很大的、所以此时的损失仍然较大
不妨同样将数据量 num__examples 设置为1000、批量大小 batch_size 设置为10再试试看？

最后从公式上再来看看 这该死的梯度到底怎么求的？
或者说对模型参数 $w_1$ 的更新是如何完成的？
这是模型在小批量 $\mathcal B$ 上、真实值与拟合值之间的平均损失
$\frac{1}{\left|{\mathcal B}\right|} \sum_{i \in \left|{\mathcal B}\right|} \frac{1}{2} {{(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})}^2}$
对上面的平均损失函数关于模型参数 $w_1$ 求导后即得到所谓的梯度、即
$\frac{1}{\left|{\mathcal B}\right|} \sum_{i \in \left|{\mathcal B}\right|} {x_1^{(i)}(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})}$
实际上对
$\frac{1}{2} {{(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})}^2}$
关于参数 $w_1$ 求导后可以得到
${x_1^{(i)}(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})}$
最后让原来的参数 $w_1$ 减去梯度与学习率 $\eta$ 乘积，即
$w_1 - \frac{\eta}{\left|{\mathcal B}\right|} \sum_{i \in \left|{\mathcal B}\right|} {x_1^{(i)}(x_1^{(i)}w_1 + x_2^{(i)}w_2 + b - y^{(i)})}$
来完成参数 $w_1$ 的更新

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
pycharm无法识别conda环境（已解决） Reborker pycharm conda ide
文章目录前言研究过程解决办法前言好久不用pycharm了，打开后提示更新，更新到了2023.1版本。安装conda后在新建了一个虚拟环境pytorch，但是无论是基础环境还是虚拟环境，pycharm都识别不出conda里的python.exe(如图)。如果不想看啰嗦直接看后面的解决办法，比较闲的话可以看看我的研究过程。研究过程看了很多博客，尝试了以下解决办法：加载conda.bat文件，虽然出现了
使用tensorflow的线性回归的例子（七） lishaoan77 tensorflow tensorflow 线性回归人工智能
L1与L2损失这个脚本展示如何用TensorFlow求解线性回归。在算法的收敛性中，理解损失函数的影响是很重要的。这里我们展示L1和L2损失函数是如何影响线性回归的收敛性的。我们使用iris数据集,但是我们将改变损失函数和学习速率来看收敛性的改变。importmatplotlib.pyplotaspltimportnumpyasnpimporttensorflowastffromsklearnim
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

线性回归模型的从零开始 || 深度学习 || Pytorch ||动手学深度学习08 || 跟李沐学AI

你可能感兴趣的:(动手学深度学习,深度学习,人工智能,pytorch,线性回归,机器学习)