幼稚的人呐

推荐系统 | 基础推荐模型 | 逻辑回归模型 | LS-PLM | PyTorch实现

基础推荐模型——传送门：

推荐系统 | 基础推荐模型 | 协同过滤 | UserCF与ItemCF的Python实现及优化
推荐系统 | 基础推荐模型 | 矩阵分解模型 | 隐语义模型 | PyTorch实现
推荐系统 | 基础推荐模型 | 逻辑回归模型 | LS-PLM | PyTorch实现
推荐系统 | 基础推荐模型 | 特征交叉 | FM | FFM | PyTorch实现
推荐系统 | 基础推荐模型 | GBDT+LR模型 | Python实现

文章目录

- 一、逻辑回归（LR模型）
- - 1.基于逻辑回归模型的推荐流程
  - 2.逻辑回归的数学形式
  - 3.逻辑回归模型的训练方法
  - 4.逻辑回归的优势
  - - 4.1 数学含义上的支撑
    - 4.2 可解释强
    - 4.3 工程化需要
  - 5.逻辑回归模型的局限性
- 二、LR模型在criteo数据集上的实验
- - 1.数据集介绍
  - 2.PyTorch实现
  - - 2.1 数据集预处理
    - 2.2 构造数据集
    - 2.3 模型搭建
    - 2.4 训练及预测
- 三、LS-PLM模型
- - 1.LS-PLM模型的主要结构
  - 2.LS-PLM模型的优点
  - 3.从深度学习的角度重新审视 LS-PLM 模型
- 四、MLR模型在criteo数据集上的实验
- - 1.数据集介绍
  - 2.PyTorch实现
  - - 2.1 数据预处理
    - 2.2 构造数据集
    - 2.3 搭建MLR模型
    - 2.4 主函数-训练及预测

一、逻辑回归（LR模型）

相比协同过滤模型仅利用用户与物品的相互行为信息进行推荐，逻辑回归模型能够综合利用用户、物品、上下文等多种不同的特征，生成较为"全面"的推荐结果。另外，逻辑回归的另一种表现形式"感知机"作为神经网络中最基础的神经元，是深度学习的基础性结构。因此，多特征融合的逻辑回归模型成了独立于协同过滤的推荐模型发展的另一个主要方向。
相比协同过滤和矩阵分解利用用户和物品的"相似度"进行推荐，逻辑回归将推荐问题看成一个分类问题，通过预测正样本的概率对物品进行排序。这里的正样本可以是用户"点击"了某商品，也可以是用户"观看"了某视频，均是推荐系统希望用户产生的"正反馈"行为。因此，逻辑回归模型将推荐问题转换成一个点击率( Click Through Rate , CTR) 预估问题。

1.基于逻辑回归模型的推荐流程

基于逻辑回归的推荐过程如下：

将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转换成数值型特征向量
确定逻辑回归模型的优化目标(以优化"点击率"为例)，利用已有样本数据对逻辑回归模型进行训练，确定逻辑回归模型的内部参数
在模型服务阶段，将特征向量输入逻辑回归模型，经过逻辑回归模型的推断，得到用户"点击" (这里用点击作为推荐系统正反馈行为的例子)物品的概率
利用"点击"概率对所有候选物品进行排序，得到推荐列表

基于逻辑回归的推荐过程的重点在于利用样本的特征向量进行模型训练和在线推断。

2.逻辑回归的数学形式

如图所示，逻辑回归模型的推断过程可以分为如下几步:

将特征向量 $x=(x_1,x_2,...x_n)$ 作为模型的输入
通过为各特征赋予相应的权重 $w_1,w_2,...,w_{n+1})$ 来表示各特征的重要性差异，将各特征进行加权求和，得到 $x^Tw$
将 $x^Tw$ 输入 sigmoid 函数，使之映射到 0~1 的区间，得到最终的"点击率"

其中， sigmoid 函数的具体形式为：
$f(z)=\frac{1}{1+e^{-z}}$

因此，逻辑回归模型整个推断过程的数学形式为：
$f(x)=f_w(x)=\frac{1}{1+e^{-(w·b+x)}}$
对于标准的逻辑回归模型来说，要确定的参数就是特征向量相应的权重向量 $w$ 。

3.逻辑回归模型的训练方法

逻辑回归模型常用的训练方法是梯度下降法、牛顿法、拟牛顿法等，其中梯度下降法是应用最广泛的训练方法。
使用梯度下降法求解逻辑回归模型的第一步是确定逻辑回归的目标函数。对于一个输入样本 $x$ ，预测结果为正样本(类别1)和负样本(类别0)的概率如下：
$p(y=1|x;w)=f_w(x)$
$p(y=0|x;w)=1-f_w(x)$
其中， $f_w(x)$ 是逻辑回归的数学形式。
将上面两个式子综合起来，可以写成如下形式：
$p(y|x;w)=(f_w(x))^y(1-f_w(x))^{1-y}$
由极大似然估计的原理可以写出逻辑回归的目标函数，如下所示：
$L(w)=\prod_{i=1}^{m}P(y|x;w)$
由于目标函数连乘的形式不便于求导，故在上式两侧取 log ，并乘以系数 $-\frac{1}{m}$ ，将求最大值的问题转换成求极小值的问题，最终的目标函数形式如下所示：

$J(w)=-\frac{1}{m}L(w)=-\frac{1}{m}(\sum_{i=1}^{m}(y^ilogf_w(x^i))+(1-y^i)log(1-f_w(x^i)))$

在得到逻辑回归的目标函数后，需对每个参数求偏导，得到梯度方向，对 $J (w)$ 中的参数 $w_j$ 求偏导的结果如下所示：
$\frac{\partial{J(w)}}{\partial{w_j}}=\frac{1}{m}\sum_{i=1}^{m}(f_w(x^i)-y^i)x_j^i$

在得到梯度后，即可得到模型参数的更新公式，如下所示：
$w_j=w_j-\gamma\frac{1}{m}\sum_{i=1}^{m}(f_w(x^i)-y^i)x_j^i$
至此，完成逻辑回归模型的更新推导。

4.逻辑回归的优势

在深度学习模型流行之前，逻辑回归模型曾在相当长的一段时间里是推荐系统、计算广告业界的主要选择之一。除了在形式上适于融合不同特征，形成较"全面"的推荐结果，其流行还有一方面的原因: 一是数学含义上的支撑；二是可解释性强; 三是工程化的需要

4.1 数学含义上的支撑

逻辑回归作为广义线性模型的一种，它的假设是因变量 $y$ 服从伯努利分布。那么，在 CTR 预估这个问题上，"点击"事件是否发生就是模型的因变量 $y$ ，而用户是否点击广告是一个经典的掷偏心硬币问题。因此， CTR 模型的因变量显然应该服从伯努利分布。所以，采用逻辑回归作为 CTR 模型是符合"点击"这一事件的物理意义的。
与之相比，线性回归作为广义线性模型的另一个特例，其假设是因变量 $y$ 服从高斯分布，这明显不是点击这类二分类问题的数学假设。

4.2 可解释强

直观地讲，逻辑回归模型的数学形式是各特征的加权和，再施以 sigmoid函数。在逻辑回归数学基础的支撑下，逻辑回归的简单数学形式也非常符合人类对预估过程的直觉认知。
使用各特征的加权和是为了综合不同特征对 CTR 的影响，而不同特征的重要程度不一样，所以为不同特征指定不同的权重代表不同特征的重要程度后，通过 sigmoid 函数，使其值能够映射到 0-1 区间，正好符合 CTR 的物理意义。
线性回归如此符合直觉认知显然有其他的好处一一使模型具有极强的可解释性。算法工程师可以轻易地根据权重的不同解释哪些特征比较重要，在CTR 模型的预测有偏差时定位是哪些因素影响了最后的结果。在与负责运营、产品的同事合作时，也便于给出可解释的原因，有效降低沟通成本。

4.3 工程化需要

在互联网公司每天动辄 TB 级别的数据面前，模型的训练开销和在线推断效率显得异常重要。 GPU 尚未流行的 2012 年之前，逻辑回归模型凭借其易于并行化、模型简单、训练开销小等特点，占据着工程领域的主流。圄于工程团队的限制，即使其他复杂模型的效果有所提升，在没有明显击败逻辑回归模型之前，公司也不会贸然加大计算资源的投入，升级推荐模型或 CTR 模型，这是逻辑回归持续流行的另一重要原因。

5.逻辑回归模型的局限性

逻辑回归作为一个基础模型，显然有其简单、直观、易用的特点。但其局限性也是非常明显的：表达能力不强，无法进行特征交叉、特征筛选等一系列较为"高级"的操作，因此不可避免地造成信息的损失。为解决这一问题，推荐模型朝着复杂化的方向继续发展，衍生出因子分解机等高维的复杂模型。在进入深度学习时代之后，多层神经网络强大的表达能力可以完全替代逻辑回归模型，让它逐渐从各公司退役。各公司也将转而投入深度学习模型的应用浪潮之中。

二、LR模型在criteo数据集上的实验

1.数据集介绍

criteo数据集每行对应一个由 Criteo 提供的展示广告。有如下特征：

Label：待预测广告，被点击是1，没有被点击是0
I1-I13：共有 13 列数值型特征（主要是计数特征）
C1-C26：共有 26 列类别型特征

数据集下载地址为：https://www.kaggle.com/c/criteo-display-ad-challenge/data。我这里采用前100k个样本进行实验。

2.PyTorch实现

LR推荐模型在criteo数据集上的PyTorch实现，分为以下几个步骤：

数据预处理：dataProcess.py
构造数据集：dataSet.py
模型搭建：LR_Model.py
主函数：训练及预测-main.py

2.1 数据集预处理

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: dataProcess.py
@time: 2022/09/05
@desc:
    数据预处理流程：
        1.特征处理
        2.数据分割
"""
import torch
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, KBinsDiscretizer
from sklearn.model_selection import train_test_split


class DataProcess():
    def __init__(self, file, nrows, sizes, device):
        # 特征列名
        names = ['label', 'I1', 'I2', 'I3', 'I4', 'I5', 'I6', 'I7', 'I8', 'I9', 'I10', 'I11',
                 'I12', 'I13', 'C1', 'C2', 'C3', 'C4', 'C5', 'C6', 'C7', 'C8', 'C9', 'C10', 'C11',
                 'C12', 'C13', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'C22',
                 'C23', 'C24', 'C25', 'C26']
        self.device = device
        # 读取数据
        self.data_df = pd.read_csv(file, sep="\t", names=names, nrows=nrows)
        self.data = self.feature_process()

    def feature_process(self):
        # 连续特征
        dense_features = ['I' + str(i) for i in range(1, 14)]
        # 离散特征
        sparse_features = ['C' + str(i) for i in range(1, 27)]
        features = dense_features + sparse_features

        # 缺失值填充:连续特征缺失值填充0；离散特征缺失值填充'-1'
        self.data_df[dense_features] = self.data_df[dense_features].fillna(0)
        self.data_df[sparse_features] = self.data_df[sparse_features].fillna('-1')

        # 连续特征等间隔分箱
        kb = KBinsDiscretizer(n_bins=100, encode='ordinal', strategy='uniform')
        self.data_df[dense_features] = kb.fit_transform(self.data_df[dense_features])

        # 特征进行连续编码，为了在与参数计算时使用索引的方式计算，而不是向量乘积
        ord = OrdinalEncoder()
        self.data_df[features] = ord.fit_transform(self.data_df[features])

        self.data = self.data_df[features + ['label']].values
        return self.data

    def train_valid_test_split(self, sizes):
        train_size, test_size = sizes[0], sizes[1]

        # 每一列的最大值加1
        field_dims = (self.data.max(axis=0).astype(int) + 1).tolist()[:-1]

        # 数据集分割为训练集、验证集、测试集
        train_data, test_data = train_test_split(self.data, train_size=train_size, random_state=2022)

        # 将ndarray格式转为tensor格式
        x_train = torch.tensor(train_data[:, :-1], dtype=torch.long).to(self.device)
        y_train = torch.tensor(train_data[:, -1], dtype=torch.float32).to(self.device)
        x_test = torch.tensor(test_data[:, :-1], dtype=torch.long).to(self.device)
        y_test = torch.tensor(test_data[:, -1], dtype=torch.float32).to(self.device)

        return field_dims, (x_train, y_train), (x_test, y_test)


if __name__ == '__main__':
    file = 'criteo-100k.txt'
    nrows = 100000
    sizes = [0.75, 0.25]
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    dataprocess = DataProcess(file, nrows, sizes, device)
    field_dims, (x_train, y_train), (x_test, y_test) \
        = dataprocess.train_valid_test_split(sizes)
    print(x_train.shape)
    print(field_dims)
    offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)
    print(offsets)

2.2 构造数据集

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: dataSet.py
@time: 2022/09/05
@desc:构造加载数据集模块
"""
from torch.utils.data import Dataset


class My_DataSet(Dataset):
    def __init__(self, X, y):
        assert len(X) == len(y)
        self.X = X
        self.y = y

    def __len__(self):
        return len(self.X)

    def __getitem__(self, index):
        return self.X[index], self.y[index]

2.3 模型搭建

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: LR_Model.py
@time: 2022/09/05
@desc:PyTorch实现LR模型
"""
import torch
import numpy as np
import torch.nn as nn


class LogisticRegression(nn.Module):
    def __init__(self, field_dims, emb_size):
        """
        :param field_dims: 特征数量列表，其和为总特征数量
        :param emb_size: embedding的维度
        """
        super(LogisticRegression, self).__init__()
        # embedding层
        self.emb = nn.Embedding(sum(field_dims), emb_size)
        # 模型初始化
        nn.init.xavier_uniform(self.emb.weight.data)
        # 偏置项
        self.offset = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)
        # 可梯度更新
        self.bias = nn.Parameter(torch.zeros((1,)))

    def forward(self, x):
        """
        前向传播
        :param x: 输入数据,(batch,seq_len)
        :return:
        """
        # self.offset中存储的是每一列特征计数的开始值
        # x + x.new_tensor(self.offset)：x中的每一列是分别进行顺序编码+起始值后就可以在self.emb中找到真正的索引
        x = x + x.new_tensor(self.offset)
        # (batch,seq_len) => (batch,seq_len,1) => (batch,1)
        x = self.emb(x).sum(1) + self.bias
        x = torch.sigmoid(x)
        return x

2.4 训练及预测

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: admin
@file: main.py
@time: 2022/09/05
@desc:
"""

import tqdm
import torch
import numpy as np
import pandas as pd
import torch.nn as nn
from torch import optim
from LR_Model import LogisticRegression
import matplotlib.pyplot as plt
from dataSet import My_DataSet
from torch.utils.data import DataLoader
from dataProcess import DataProcess
from sklearn.metrics import f1_score, recall_score

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
criteo_file = "criteo-100k.txt"
nrows = 100000
sizes = [0.75, 0.25]
embedding_size = 1
batch_size = 4096
num_epochs = 100
learning_rate = 1e-4
weight_decay = 1e-6


def train_and_test(train_dataloader, test_dataloader, model):
    # 损失函数
    criterion = nn.BCELoss()
    # 优化器
    optimizer = optim.Adam(model.parameters(), lr=learning_rate, weight_decay=weight_decay)
    # 记录训练与测试过程的损失，用于绘图
    train_loss, test_loss, train_acc, test_acc = [], [], [], []
    for epoch in range(num_epochs):
        train_loss_sum = 0.0
        train_len = 0
        train_correct = 0
        # 显示训练进度
        train_dataloader = tqdm.tqdm(train_dataloader)
        train_dataloader.set_description('[%s%04d/%04d]' % ('Epoch:', epoch + 1, num_epochs))

        # 训练模式
        model.train()
        model.to(device)
        for i, data_ in enumerate(train_dataloader):
            x, y = data_[0].to(device), data_[1].to(device)
            # 开始当前批次训练时，优化器的梯度置零，否则，梯度会累加
            optimizer.zero_grad()
            # output size = (batch,)
            output = model(x)
            loss = criterion(output, y)
            # 反向传播
            loss.backward()
            # 利用优化器更新参数
            optimizer.step()

            train_loss_sum += loss.detach() * len(x)
            train_len += len(y)
            _, predicted = torch.max(output, 1)
            train_correct += (predicted == y).sum().item()
            # print("train_correct=\n", train_correct)
            # print("train_acc=\n", train_correct / train_len)
            F1 = f1_score(y.cpu(), predicted.cpu(), average="weighted")
            Recall = recall_score(y.cpu(), predicted.cpu(), average="micro")

            # 设置日志
            postfic = {"train_loss: {:.5f},train_acc:{:.3f}%,F1: {:.3f}%,Recall:{:.3f}%".
                           format(train_loss_sum / train_len, 100 * train_correct / train_len, 100 * F1, 100 * Recall)}
            train_dataloader.set_postfix(log=postfic)
        train_loss.append((train_loss_sum / train_len).item())
        train_acc.append(round(train_correct / train_len, 4))

        # 测试
        test_dataloader = tqdm.tqdm(test_dataloader)
        test_dataloader.set_description('[%s%04d/%04d]' % ('Epoch:', epoch + 1, num_epochs))
        model.eval()
        model.to(device)
        with torch.no_grad():
            test_loss_sum = 0.0
            test_len = 0
            test_correct = 0
            for i, data_ in enumerate(test_dataloader):
                x, y = data_[0].to(device), data_[1].to(device)
                output = model(x)
                loss = criterion(output, y)
                test_loss_sum += loss.detach() * len(x)
                test_len += len(y)
                _, predicted = torch.max(output, 1)
                test_correct += (predicted == y).sum().item()
                F1 = f1_score(y.cpu(), predicted.cpu(), average="weighted")
                Recall = recall_score(y.cpu(), predicted.cpu(), average="micro")
                # 设置日志
                postfic = {"test_loss: {:.5f},test_acc:{:.3f}%,F1: {:.3f}%,Recall:{:.3f}%".
                               format(test_loss_sum / test_len, 100 * test_correct / test_len, 100 * F1, 100 * Recall)}
                test_dataloader.set_postfix(log=postfic)
            test_loss.append((test_loss_sum / test_len).item())
            test_acc.append(round(test_correct / test_len, 4))


    return train_loss, test_loss, train_acc, test_acc


def main():
    """
    主函数
    :return:
    """
    dataProcess = DataProcess(criteo_file, nrows, sizes, device)
    field_dims, (x_train, y_train), (x_test, y_test) \
        = dataProcess.train_valid_test_split(sizes)
    # 构造数据集
    trainDataset = My_DataSet(x_train, y_train)
    train_dataloader = DataLoader(trainDataset, batch_size=batch_size, shuffle=True)

    testDataset = My_DataSet(x_test, y_test)
    test_dataloader = DataLoader(testDataset, batch_size=batch_size)

    # 模型实例化
    model = LogisticRegression(field_dims, embedding_size)

    # 训练与测试
    train_loss, test_loss, train_acc, test_acc = train_and_test(train_dataloader, test_dataloader, model)

    # 绘图，展示损失变化
    epochs = np.arange(num_epochs)
    plt.plot(epochs, train_loss, 'b-', label='Training loss')
    plt.plot(epochs, test_loss, 'r--', label='Validation loss')
    plt.title('Training And Validation Loss')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.legend()
    plt.show()

    epochs = np.arange(num_epochs)
    plt.plot(epochs, train_acc, 'b-', label='Training acc')
    plt.plot(epochs, test_acc, 'r--', label='Validation acc')
    plt.title('Training And Validation acc')
    plt.xlabel('Epochs')
    plt.ylabel('acc')
    plt.legend()
    plt.show()


if __name__ == '__main__':
    main()

其损失变化图为：

其准确率变化图为：

三、LS-PLM模型

“大规模分段线性模型” ——Large Scale Piece-wise Linear Model，简称 LS-PLM。

1.LS-PLM模型的主要结构

LS-PLM ，又被称为 MLR ( Mixed Logistic Regression ，混合逻辑回归)模型。本质上， LS-PLM 可以看作对逻辑回归的自然推广，它在逻辑回归的基础上采用分而治之的思路，先对样本进行分片，再在样本分片中应用逻辑回归进行 CTR预估。
在逻辑回归的基础上加入聚类的思想，其灵感来自对广告推荐领域样本特点的观察。举例来说，如果 CTR 模型要预估的是女性受众点击女装广告的 CTR，那么显然，我们不希望把男性用户点击数码类产品的样本数据也考虑进来，因为这样的样本不仅与女性购买女装的广告场景毫无相关性，甚至会在模型训练过程中扰乱相关特征的权重。为了让 CTR 模型对不同用户群体，不同使用场景更有针对性，其采用的方法是先对全量样本进行聚类，再对每个分类施以逻辑回归模型进行 CTR 预估。LS-PLM 的实现思路就是由该灵感产生的。
LS-PLM 的数学形式如下所示，，首先用聚类函数 $π$ 对样本进行分类(这里的 $π$ 采用了 softmax 函数对样本进行多分类)，再用 LR 模型计算样本在分片中具体的 CTR ，然后将两者相乘后求和。
$f(x)=\sum_{i=1}^{m}π_{i}(x)·\eta_{i}(x)=\sum_{i=1}^{m}\frac{e^{\mu_{i}·x}}{\sum_{j=1}^{m}e^{\mu_{j}·x}}·\frac{1}{1+e^{-w_i·x}}$
其中的超参数"分片数" $m$ 可以较好地平衡模型的拟合与推广能力。当 $m = 1$ 时， LS-PLM 就退化为普通的逻辑回归。 $m$ 越大，模型的拟合能力越强。与此同时，模型参数规模也随 $m$ 的增大而线性增长，模型收敛所需的训练样本也随之增长。在实践中，阿里巴巴给出的 $m$ 的经验值为 12。
在下图中，分别用红色和蓝色表示两类训练数据，传统 LR 模型的拟合能力不足，无法找到非线性的分类面，而 MLR 模型用4个分片完美地拟合出了数据中的菱形分类面。

2.LS-PLM模型的优点

LS-PLM 模型适用于工业级的推荐、广告等大规模稀疏数据的场景，主要是因为其具有以下两个优势：

端到端的非线性学习能力：LS-PLM 具有样本分片的能力，因此能够挖掘出数据中蕴藏的非线性模式，省去了大量的人工样本处理和特征工程的过程，使LS-PLM 算法可以端到端地完成训练，便于用一个全局模型对不同应用领域、业务场景进行统一建模。
模型的稀疏性强：LS-PLM 在建模时引入了L1和 L2，1 范数，可以使最终训练出来的模型具有较高的稀疏度，使模型的部署更加轻量级。模型服务过程仅需使用权重非零特征，因此稀疏模型也使其在线推断的效率更高。

3.从深度学习的角度重新审视 LS-PLM 模型

从模型结构层面上，LS-PLM 可以看作一个加入了注意力( Attention )机制的三层神经网络模型，其中输入层是样本的特征向量，中间层是由 $m$ 个神经元组成的隐层，其中， $m$ 是分片的个数，对于一个CTR 预估问题， LS-PLM 的最后一层自然是由单一神经元组成的输出层。
那么，注意力机制又是在哪里应用的呢？其实是在隐层和输出层之间，神经元之间的权重是由分片函数得出的注意力得分来确定的。也就是说，样本属于哪个分片的概率就是其注意力得分。

四、MLR模型在criteo数据集上的实验

1.数据集介绍

criteo数据集每行对应一个由 Criteo 提供的展示广告。有如下特征：

Label：待预测广告，被点击是1，没有被点击是0
I1-I13：共有 13 列数值型特征（主要是计数特征）
C1-C26：共有 26 列类别型特征

数据集下载地址为：https://www.kaggle.com/c/criteo-display-ad-challenge/data。我这里采用前100k个样本进行实验。

2.PyTorch实现

MLR推荐模型在criteo数据集上的PyTorch实现，分为以下几个步骤：

数据预处理：dataProcess.py
构造数据集：dataSet.py
模型搭建：MLR_Model.py
主函数：训练及预测-main.py

2.1 数据预处理

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: dataProcess.py
@time: 2022/09/05
@desc:
    数据预处理流程：
        1.特征处理
        2.数据分割
"""
import torch
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, KBinsDiscretizer
from sklearn.model_selection import train_test_split


class DataProcess():
    def __init__(self, file, nrows, sizes, device):
        # 特征列名
        names = ['label', 'I1', 'I2', 'I3', 'I4', 'I5', 'I6', 'I7', 'I8', 'I9', 'I10', 'I11',
                 'I12', 'I13', 'C1', 'C2', 'C3', 'C4', 'C5', 'C6', 'C7', 'C8', 'C9', 'C10', 'C11',
                 'C12', 'C13', 'C14', 'C15', 'C16', 'C17', 'C18', 'C19', 'C20', 'C21', 'C22',
                 'C23', 'C24', 'C25', 'C26']
        self.device = device
        # 读取数据
        self.data_df = pd.read_csv(file, sep="\t", names=names, nrows=nrows)
        self.data = self.feature_process()

    def feature_process(self):
        # 连续特征
        dense_features = ['I' + str(i) for i in range(1, 14)]
        # 离散特征
        sparse_features = ['C' + str(i) for i in range(1, 27)]
        features = dense_features + sparse_features

        # 缺失值填充:连续特征缺失值填充0；离散特征缺失值填充'-1'
        self.data_df[dense_features] = self.data_df[dense_features].fillna(0)
        self.data_df[sparse_features] = self.data_df[sparse_features].fillna('-1')

        # 连续特征等间隔分箱
        kb = KBinsDiscretizer(n_bins=100, encode='ordinal', strategy='uniform')
        self.data_df[dense_features] = kb.fit_transform(self.data_df[dense_features])

        # 特征进行连续编码，为了在与参数计算时使用索引的方式计算，而不是向量乘积
        ord = OrdinalEncoder()
        self.data_df[features] = ord.fit_transform(self.data_df[features])

        self.data = self.data_df[features + ['label']].values
        return self.data

    def train_valid_test_split(self, sizes):
        train_size, test_size = sizes[0], sizes[1]

        # 每一列的最大值加1
        field_dims = (self.data.max(axis=0).astype(int) + 1).tolist()[:-1]

        # 数据集分割为训练集、验证集、测试集
        train_data, test_data = train_test_split(self.data, train_size=train_size, random_state=2022)

        # 将ndarray格式转为tensor格式
        x_train = torch.tensor(train_data[:, :-1], dtype=torch.long).to(self.device)
        y_train = torch.tensor(train_data[:, -1], dtype=torch.float32).to(self.device)
        x_test = torch.tensor(test_data[:, :-1], dtype=torch.long).to(self.device)
        y_test = torch.tensor(test_data[:, -1], dtype=torch.float32).to(self.device)

        return field_dims, (x_train, y_train), (x_test, y_test)


if __name__ == '__main__':
    file = 'criteo-100k.txt'
    nrows = 100000
    sizes = [0.75, 0.25]
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    dataprocess = DataProcess(file, nrows, sizes, device)
    field_dims, (x_train, y_train), (x_test, y_test) \
        = dataprocess.train_valid_test_split(sizes)
    print(x_train.shape)
    print(field_dims)
    offsets = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)
    print(offsets)

2.2 构造数据集

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: dataSet.py
@time: 2022/09/05
@desc:构造加载数据集模块
"""
from torch.utils.data import Dataset


class My_DataSet(Dataset):
    def __init__(self, X, y):
        assert len(X) == len(y)
        self.X = X
        self.y = y

    def __len__(self):
        return len(self.X)

    def __getitem__(self, index):
        return self.X[index], self.y[index]

2.3 搭建MLR模型

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: MLR_Model.py
@time: 2022/09/05
@desc:PyTorch实现MLR模型
    1.LR模型经softmax分类后得到注意力分数
    2.注意力分数分别乘以多个LR模型的结果，得到最终的结果
"""
import torch
import numpy as np
import torch.nn as nn


class Feature_Embedding(nn.Module):
    def __init__(self, field_dims, emb_size):
        """
        :param field_dims: 特征数量列表，其和为总特征数量
        :param emb_size: embedding的维度
        """
        super(Feature_Embedding, self).__init__()
        # embedding层
        self.emb = nn.Embedding(sum(field_dims), emb_size)
        # 模型初始化
        nn.init.xavier_uniform_(self.emb.weight.data)
        # 偏置项
        self.offset = np.array((0, *np.cumsum(field_dims)[:-1]), dtype=np.long)

    def forward(self, x):
    	# self.offset中存储的是每一列特征计数的开始值
        # x + x.new_tensor(self.offset)：x中的每一列是分别进行顺序编码+起始值后就可以在self.emb中找到真正的索引
        x = x + x.new_tensor(self.offset)
        return self.emb(x)


class LogisticRegression(nn.Module):
    def __init__(self, field_dims):
        """
        LR模型
        :param field_dims: 特征数量列表，其和为总特征数量
        :param emb_size: embedding的维度
        """
        super(LogisticRegression, self).__init__()
        # 可梯度更新
        self.bias = nn.Parameter(torch.zeros((1,)))
        self.emb = Feature_Embedding(field_dims, 1)

    def forward(self, x):
        """
        前向传播
        :param x: 输入数据,(batch,seq_len)
        :return:
        """
        # (batch,seq_len) => (batch,seq_len,1) => (batch,1)
        x = self.emb(x).sum(1) + self.bias
        x = torch.sigmoid(x)
        return x


class Classifier(nn.Module):
    def __init__(self, field_dims, k):
        """
        分片层
        :param field_dims:特征数量列表，其和为总特征数量
        :param k:分片数
        """
        super(Classifier, self).__init__()
        self.emb = Feature_Embedding(field_dims, k)

    def forward(self, x):
        x = self.emb(x).sum(1)
        return torch.softmax(x, dim=1)


class MixedLogisticRegression(nn.Module):
    def __init__(self, field_dims, k):
        """
        大规模分段线性模型
        :param field_dims:特征数量列表，其和为总特征数量
        :param k:分片数
        """
        super(MixedLogisticRegression, self).__init__()
        self.classifier = Classifier(field_dims, k)
        self.lr_list = nn.ModuleList(LogisticRegression(field_dims) for _ in range(k))

    def forward(self, x):
        """
        前向传播
        :param x: 输入数据
        :return:
        """
        # (batch,seq_len) => (batch,k)
        clf_output = self.classifier(x)
        lr_output = torch.zeros_like(clf_output)
        # 得到每个分段LR的结果
        for i, lr in enumerate(self.lr_list):
            lr_output[:, i] = lr(x).squeeze(-1)

        # 相当于公式中的相乘后求和
        output = torch.mul(clf_output, lr_output).sum(1, keepdim=True)
        return output

2.4 主函数-训练及预测

#!usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author: liujie
@file: main.py
@time: 2022/09/05
@desc:训练及预测
"""

import tqdm
import torch
import numpy as np
import pandas as pd
import torch.nn as nn
from torch import optim
from MLR_Model import MixedLogisticRegression
import matplotlib.pyplot as plt
from dataSet import My_DataSet
from torch.utils.data import DataLoader
from dataProcess import DataProcess
from sklearn.metrics import f1_score, recall_score,roc_auc_score

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
criteo_file = "criteo-100k.txt"
nrows = 100000
sizes = [0.75, 0.25]
embedding_size = 1
batch_size = 4096
num_epochs = 100
learning_rate = 1e-4
weight_decay = 1e-6
k = 5


def train_and_test(train_dataloader, test_dataloader, model):
    # 损失函数
    criterion = nn.BCELoss()
    # 优化器
    optimizer = optim.Adam(model.parameters(), lr=learning_rate, weight_decay=weight_decay)
    # 记录训练与测试过程的损失，用于绘图
    train_loss, test_loss, train_acc, test_acc = [], [], [], []
    for epoch in range(num_epochs):
        train_loss_sum = 0.0
        train_len = 0
        train_correct = 0
        # 显示训练进度
        train_dataloader = tqdm.tqdm(train_dataloader)
        train_dataloader.set_description('[%s%04d/%04d]' % ('Epoch:', epoch + 1, num_epochs))

        # 训练模式
        model.train()
        model.to(device)
        for i, data_ in enumerate(train_dataloader):
            x, y = data_[0].to(device), data_[1].to(device)
            # 开始当前批次训练时，优化器的梯度置零，否则，梯度会累加
            optimizer.zero_grad()
            # output size = (batch,)
            output = model(x)
            loss = criterion(output.squeeze(1), y)
            # 反向传播
            loss.backward()
            # 利用优化器更新参数
            optimizer.step()
            # BCELoss默认reduction="mean",因此需要乘以个数
            train_loss_sum += loss.detach() * len(x)
            train_len += len(y)
            _, predicted = torch.max(output, 1)
            train_correct += (predicted == y).sum().item()
            # print("train_correct=\n", train_correct)
            # print("train_acc=\n", train_correct / train_len)
            F1 = f1_score(y.cpu(), predicted.cpu(), average="weighted")
            Recall = recall_score(y.cpu(), predicted.cpu(), average="micro")

            # 设置日志
            postfic = {"train_loss: {:.5f},train_acc:{:.3f}%,F1: {:.3f}%,Recall:{:.3f}%".
                           format(train_loss_sum / train_len, 100 * train_correct / train_len, 100 * F1, 100 * Recall)}
            train_dataloader.set_postfix(log=postfic)
        train_loss.append((train_loss_sum / train_len).item())
        train_acc.append(round(train_correct / train_len, 4))

        # 测试
        test_dataloader = tqdm.tqdm(test_dataloader)
        test_dataloader.set_description('[%s%04d/%04d]' % ('Epoch:', epoch + 1, num_epochs))
        model.eval()
        model.to(device)
        with torch.no_grad():
            test_loss_sum = 0.0
            test_len = 0
            test_correct = 0
            for i, data_ in enumerate(test_dataloader):
                x, y = data_[0].to(device), data_[1].to(device)
                output = model(x)
                loss = criterion(output.squeeze(1), y)
                test_loss_sum += loss.detach() * len(x)
                test_len += len(y)
                _, predicted = torch.max(output, 1)
                test_correct += (predicted == y).sum().item()
                F1 = f1_score(y.cpu(), predicted.cpu(), average="weighted")
                Recall = recall_score(y.cpu(), predicted.cpu(), average="micro")
                # 设置日志
                postfic = {"test_loss: {:.5f},test_acc:{:.3f}%,F1: {:.3f}%,Recall:{:.3f}%".
                               format(test_loss_sum / test_len, 100 * test_correct / test_len, 100 * F1, 100 * Recall)}
                test_dataloader.set_postfix(log=postfic)
            test_loss.append((test_loss_sum / test_len).item())
            test_acc.append(round(test_correct / test_len, 4))

    return train_loss, test_loss, train_acc, test_acc


def main():
    """
    主函数
    :return:
    """
    dataProcess = DataProcess(criteo_file, nrows, sizes, device)
    field_dims, (x_train, y_train), (x_test, y_test) \
        = dataProcess.train_valid_test_split(sizes)
    # 构造数据集
    trainDataset = My_DataSet(x_train, y_train)
    train_dataloader = DataLoader(trainDataset, batch_size=batch_size, shuffle=True)

    testDataset = My_DataSet(x_test, y_test)
    test_dataloader = DataLoader(testDataset, batch_size=batch_size)

    # 模型实例化
    model = MixedLogisticRegression(field_dims, k)

    # 训练与测试
    train_loss, test_loss, train_acc, test_acc = train_and_test(train_dataloader, test_dataloader, model)

    # 绘图，展示损失变化
    epochs = np.arange(num_epochs)
    plt.plot(epochs, train_loss, 'b-', label='Training loss')
    plt.plot(epochs, test_loss, 'r--', label='Validation loss')
    plt.title('Training And Validation Loss')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.legend()
    plt.show()

    epochs = np.arange(num_epochs)
    plt.plot(epochs, train_acc, 'b-', label='Training acc')
    plt.plot(epochs, test_acc, 'r--', label='Validation acc')
    plt.title('Training And Validation acc')
    plt.xlabel('Epochs')
    plt.ylabel('acc')
    plt.legend()
    plt.show()


if __name__ == '__main__':
    main()

损失变化图为：

准确率变化图为：

可以看到LR模型与MLR模型在迭代过程中，随着BCE损失的降低，准确率结果始终不变，我也不知道为什么？有知道的，麻烦留言告诉我一下!

《深度学习推荐系统》王喆
Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
https://www.kaggle.com/c/criteo-display-ad-challenge/data

你可能感兴趣的:(#,推荐系统,逻辑回归,pytorch,混合逻辑回归,MLR)

英伟达开源超强模型Nemotron-70B；OpenAI推出Windows版ChatGPT桌面客户端 go2coding AI日报 chatgpt
AI新闻英伟达开源超强模型Nemotron-70B摘要：英伟达近日开源了新型AI模型Nemotron-70B，迅速超越GPT-4o和Claude3.5Sonnet，成为AI社区的新宠。该模型在多项基准测试中表现优异，采用混合训练方法和人类反馈强化学习，模型权重已在HuggingFace发布。Niemotron-70B的开发基于Llama-3.1，且开源数据集加强其训练效果。分析指出，英伟达的策略是
前端vscode中好用的scss插件推荐熊宝王前端 vscode scss
一、LiveSassCompilerLiveSassCompiler是VisualStudioCode(VSCode)中非常流行的一个插件，用于将Sass/SCSS文件实时编译为标准的CSS文件。Sass（SyntacticallyAwesomeStyleSheets）是一种CSS预处理器，提供了变量、嵌套、混合（Mixins）、继承等强大功能，而LiveSassCompiler插件可以帮助开发者
【操作系统】Operating System Conceptions第二章知识整理总结 guozhirourou Operating System Conceptions阅读 Operating System Conceptions
小结：这几天我看了《OperatingSystemConceptions》的第二章。第二章先从用户、开发者以及计算机系统的角度开始，展示操作系统所提供的服务，继而讲解了操作系统是如何通过系统调用来为系统提供服务的，阐述一段程序是如何在系统中装入链接以及执行的。同时通过比较和对比整体、分层、微核、模块化和混合策略操作系统的不同设计，向我们展示了macOS、Android、Windows三种不同的操作
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
网络安全知识：网络安全网格架构网络安全-杰克 web安全架构安全
在数字化转型的主导下，大多数组织利用多云或混合环境，包括本地基础设施、云服务和应用程序以及第三方实体，以及在网络中运行的用户和设备身份。在这种情况下，保护组织资产免受威胁涉及实现一个统一的框架，该框架根据组织内每个实体的上下文提供安全性。此外，强化组合环境需要可互操作的跨域功能，以增强协作，这样就不需要多个解决方案来实现相同的功能。在这种情况下，网络安全网格架构（CSMA）提供了一种可扩展的方法来
若依集成knife4j实现swagger文档增强 Roc-xb knife4j
knife4j的前身是swagger-bootstrap-ui，为了契合微服务的架构发展,由于原来swagger-bootstrap-ui采用的是后端Java代码+前端Ui混合打包的方式,在微服务架构下显的很臃肿,因此项目正式更名为knife4j。目录一、单体版本1、ruoyi-admin\pom.xml模块添加整合依赖2、SwaggerController.java修改跳转访问地址二、前后端分离
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
通过浏览器扩展获取本机 MAC 地址云水木石 macos
在Web技术主导的B/S架构项目中，获取终端设备硬件信息（如MAC地址）的需求经常会碰到。尽管Electron/CEF等混合应用框架可通过系统级API轻松实现，但纯浏览器环境下的硬件信息获取则不那么容易。因为现代浏览器基于沙箱机制和隐私保护策略，严格禁止网页直接访问底层硬件资源。但用户的需求不能不考虑，特别是在做商业项目时，这时就不得不给出方案，总结下来有如下三种方案：扩展JSAPI：比如以前在做
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
2025最新智能优化算法：改进型雪雁算法（Improved Snow Geese Algorithm, ISGA）求解23个经典函数测试集荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 经验分享
摘要随着智能优化算法的不断发展，解决高维、复杂的优化问题已成为研究的重要课题。雪雁算法（SnowGeeseAlgorithm,SGA）作为一种新兴的自然启发式优化算法，以其高效的全局搜索能力受到了广泛关注。然而，雪雁算法在处理多峰、多约束和高维复杂问题时，仍面临收敛速度较慢和易陷入局部最优解的问题。为此，本文提出了一种改进型雪雁算法（ISGA），通过引入自适应权重调整机制和混合局部搜索策略，增强了
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
转 C# .NET4.0 混合模式程序集异常 weixin_30516243
1.引用Microsoft.DirectX.dll和Microsoft.DirectX.Directsound.dll这2个文件。2.项目属性里边，把目标平台改成X86。3.App.Config修改下：123456在.NET4.0下使用Dirext3D托管库，出现“混合模式程序集是针对“v1.1.4322”版的运行时生成的，在没有配置其他信息的情况下，无法在4.0运行时中加载该程序集。”异常信息，
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
SassScript：Sass中的编程特性详解 jiajia651304 sass 前端 css
Sass（SyntacticallyAwesomeStylesheets）是一种强大的CSS预处理器，它允许开发者使用类似于编程语言的语法来编写CSS，然后通过编译生成标准的CSS代码。SassScript是Sass中的编程特性集合，它包含了变量、嵌套规则、混合、函数以及控制指令等，极大地提高了CSS的开发效率和可维护性。1.变量SassScript中的变量允许开发者在样式表中存储和重复使用值。变
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
H200架构升级与实战解析智能计算研究中心其他
内容概要作为新一代高性能计算平台的核心载体，H200架构通过系统性硬件重构实现了计算性能的显著跃迁。本文将从芯片级设计革新出发，剖析其多维度升级路径：首先解读计算单元拓扑重组带来的并行效率提升，阐释内存子系统的带宽优化策略；继而拆解面向AI训练场景的混合精度加速机制，以及科学计算工作负载的动态资源调度方案。通过比对行业典型部署案例中的能效曲线与吞吐表现，系统化呈现H200在模型训练加速、大规模仿真
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s