郭小儒

2024年1月9日学习总结

学习目标
学习内容
- 联邦学习基础：why, what, how
- - why？
  - what？
  - how？
- 联邦学习的例子——CIFAR-10数据集（分类问题）
- - 1、import libararies
  - 2、hyper-parameters
  - 3、加载并且划分数据
  - 4、创建神经网络模型
  - 5、helper functions
  - - （1）client_update
    - （2）server_aggregate
    - （3）test
  - 6、实例化模型
  - 7、训练模型
  - 7、整体流程
- 查看不同类型数据的方法
- - 1、dataframe
  - 2、ndarray
  - 3、Dictionary
  - 4、list
  - 5、tuple

学习目标

完成集中学习的代码部分
对联邦学习进行了解
对学习过程中遇到的问题进行总结

学习内容

联邦学习基础：why, what, how

why？

深度学习对于数据的需求是贪得无厌的（insatiable），越多的数据训练的效果越好。ALphaGo学习了大约30万场的比赛模式才在2016年打败了人类玩家。如果能够不受限制的访问几大洲的所有医院数十亿的医疗记录，那么预测各类疾病的概率将会非常的精确。但是有数据保护法的管控，使用超级大量的数据来进行训练模型是不可能的。
高质量的数据像是一个个孤岛存储在世界各地的边缘设备上。在不违反隐私法的前提下把他们整合到一起得到他们的预测能力是非常困难的（herculean）的任务。联邦学习就是解决这一困境的！

what？

联邦学习提供了一个聪明的方式，连接机器学习模型和能够有效训练模型所需的数据。
联邦学习工作可以比喻成：殖民地（colonies）和领土（territories）是如何组成共和国（republic）或联邦（federation）的。
分布的边缘设备使用自己的数据训练自己的local model，然后组合在一起创造一个global model（听起来像是分布式学习），联邦学习就是分布学习的一种形式，但是它和传统的HPC(high performance computing)不同，HPC的目的是减少训练的时间，因为你也知道经历45天的训练，想要记得上一次调整的超参数是多么困难。但是FL的目标是无论数据在哪里，都要获取数据，并将其用于模型训练。在HPC中，训练数据首先被收集在一起并随机化，然后作为碎片跨多个计算节点共享。这些过程产生了独立且同分布(IID)的数据，从而提高了随机梯度下降的性能。但是FL学习是不能生成IID数据的，FL数据大多是非IID的，并且系统必须具有能够承受这种现象的架构。

how？

传统的FL学习结构由中心的管理员（curator）或者服务器（server）协调训练的。客户端（clients）大多数是边缘设备，数量可能多达几百万，这些设备在每次训练的过程中至少与服务器通信两次。

首先，客户端都从服务器接收当前的全局模型权重（global model weights）
然后，在每个本地数据上训练它以生成更新的参数
将这些参数上传到服务器进行聚合（aggregation）

联邦学习的例子——CIFAR-10数据集（分类问题）

1、import libararies

###############################
##### importing libraries #####
###############################

import os
import random
from tqdm import tqdm
import numpy as np
import torch, torchvision
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data.dataset import Dataset   
torch.backends.cudnn.benchmark=True

2、hyper-parameters

##### Hyperparameters for federated learning #########
num_clients = 20
num_selected = 6
num_rounds = 150
epochs = 5
batch_size = 32

num_clients: 客户端的数量。将全部数据平均分给每个client
num_selected: 在num_clients中随机选择num-clients个客户端进行训练（每个communication round）。通常是30%
num_rounds: 需要运行的communication 轮数。在每一个communication round中，从num_clients中随机抽出num_selected个客户端进行原理，然后聚合各自的模型参数成为一个global model
epoch: 每一个被选择的客户端需要训练的轮数
batch_size: 批量的加载数据

3、加载并且划分数据

本教程使用CIFAR10数据集。它由10个类别的6万张32x32像素的彩色图像组成。有5万张训练图像和1万张测试图像。在训练批次中，每个班级有5000张图像，总共有50000张。在PyTorch中，CIFAR 10可以在torchvision模块的帮助下使用。
在本教程中，图像被平均地划分为客户机，因此表示平衡(IID)情况。

加载图像，并对图像进行预处理

# Image augmentation 
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

# Loading CIFAR10 using torchvision.datasets
traindata = datasets.CIFAR10('./data', train=True, download=True,
                       transform= transform_train)

将训练数据分给num_clients个客户端

# Dividing the training data into num_clients, with each client having equal number of images
traindata_split = torch.utils.data.random_split(traindata, [int(traindata.data.shape[0] / num_clients) for _ in range(num_clients)])

将训练样本转化成深度学习的格式

# Creating a pytorch loader for a Deep Learning model
train_loader = [torch.utils.data.DataLoader(x, batch_size=batch_size, shuffle=True) for x in traindata_split]

对测试集进行预处理以及转成深度学习格式

# Normalizing the test images
transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

# Loading the test iamges and thus converting them into a test_loader
test_loader = torch.utils.data.DataLoader(
        datasets.CIFAR10('./data', train=False, transform=transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])
        ), batch_size=batch_size, shuffle=True)

4、创建神经网络模型

VGG19(16个卷积层，3个完全连接层，5个MaxPool层和1个SoftMax层)在本教程中使用。还有VGG11、VGG13和VGG16等VGG的其他变体。

#################################
##### Neural Network model #####
#################################

cfg = {
    'VGG11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'VGG13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'VGG16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
    'VGG19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}

class VGG(nn.Module):
    def __init__(self, vgg_name):
        super(VGG, self).__init__()
        self.features = self._make_layers(cfg[vgg_name])
        self.classifier = nn.Sequential(
            nn.Linear(512, 512),
            nn.ReLU(True),
            nn.Linear(512, 512),
            nn.ReLU(True),
            nn.Linear(512, 10)
        )

    def forward(self, x):
        out = self.features(x)
        out = out.view(out.size(0), -1)
        out = self.classifier(out)
        output = F.log_softmax(out, dim=1)
        return output

    def _make_layers(self, cfg):
        layers = []
        in_channels = 3
        for x in cfg:
            if x == 'M':
                layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
            else:
                layers += [nn.Conv2d(in_channels, x, kernel_size=3, padding=1),
                           nn.BatchNorm2d(x),
                           nn.ReLU(inplace=True)]
                in_channels = x
        layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
        return nn.Sequential(*layers)

我们定义了一个名为VGG的类，它继承了nn.Module。这个类有两个主要方法：__init__和forward。__init__方法用于初始化网络结构，包括定义卷积层和全连接层。forward方法用于前向传播输入数据通过网络，并返回输出结果。
在__init__方法中，我们首先调用父类的__init__方法，然后定义了一个名为features的成员变量，它包含了VGG网络的卷积层。接下来，我们定义了一个名为classifier的成员变量，它包含了VGG网络的全连接层。最后，我们在forward方法中定义了如何处理输入数据，并返回输出结果。
_make_layers方法用于构建VGG网络的卷积层。它首先定义了一个名为layers的空列表，用于存储网络结构中的层。然后，我们遍历cfg列表，其中cfg是一个包含VGG网络结构配置的列表。如果x等于’M’，表示这是一个最大池化层，我们添加一个nn.MaxPool2d层；否则，表示这是一个卷积层，我们添加一个nn.Conv2d层、一个nn.BatchNorm2d层和一个nn.ReLU激活层。最后，我们添加一个平均池化层，并返回nn.Sequential(*layers)，即网络结构中的所有层。

5、helper functions

（1）client_update

client_update函数使用privent client data训练client模型。这是在num_selected clients中进行的本地训练

def client_update(client_model, optimizer, train_loader, epoch=5):
    """
    This function updates/trains client model on client data
    """
    model.train()
    for e in range(epoch):
        for batch_idx, (data, target) in enumerate(train_loader):
            data, target = data.cuda(), target.cuda()
            optimizer.zero_grad()
            output = client_model(data)
            loss = F.nll_loss(output, target)
            loss.backward()
            optimizer.step()
    return loss.item()

首先，我们使用client_model.train()将客户端模型设置为训练模式。
然后，我们使用一个for循环遍历训练轮数。在每一轮中，我们使用另一个for循环遍历训练数据加载器中的数据。
对于每个数据batch，我们将数据和目标标签从CPU转移到GPU上，并使用optimizer.zero_grad()将梯度清零。
接下来，我们使用客户端模型对数据进行前向传播，并计算损失。output = client_model(data)
然后，我们使用loss.backward()计算梯度。
最后，我们使用optimizer.step()更新客户端模型的参数。

（2）server_aggregate

server_aggregate函数聚合从每个客户机接收到的模型权重，并用更新后的权重更新全局模型。在本教程中，采用权重的平均值并将其聚合为全局权重。

def server_aggregate(global_model, client_models):
    """
    This function has aggregation method 'mean'
    """
    ### This will take simple mean of the weights of models ###
      global_dict = global_model.state_dict()
      for k in global_dict.keys():
          global_dict[k] = torch.stack([client_models[i].state_dict()[k].float() for i in range(len(client_models))], 0).mean(0)
      global_model.load_state_dict(global_dict)
      for model in client_models:
          model.load_state_dict(global_model.state_dict())

首先，我们使用global_model.state_dict()获取全局模型的参数字典。
然后，我们使用一个for循环遍历全局模型的参数字典中的每个键（参数名称）。
对于每个参数，我们使用torch.stack()将所有客户端模型的相应参数堆叠在一起，并使用float()将其转换为浮点数类型。
接下来，我们使用mean()函数计算参数的平均值。
最后，我们使用global_model.load_state_dict()将计算出的平均值加载到全局模型的参数字典中。
接下来，我们使用另一个for循环遍历客户端模型列表，并使用model.load_state_dict()将全局模型的参数字典加载到每个客户端模型中，以实现全局模型在每个客户端模型的平均值。

（3）test

test函数输入global模型和test loader，返回test loss和accuracy

def test(global_model, test_loader):
    """This function test the global model on test data and returns test loss and test accuracy """
    global_model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.cuda(), target.cuda()
            output = global_model(data)
            test_loss += F.nll_loss(output, target, reduction='sum').item()  # sum up batch loss
            pred = output.argmax(dim=1, keepdim=True)  # get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)
    acc = correct / len(test_loader.dataset)

    return test_loss, acc

首先，我们使用global_model.eval()将全局模型设置为评估模式，以便在测试过程中关闭dropout等正则化技术。
然后，我们初始化测试损失为0，正确分类的样本数为0
使用torch.no_grad()上下文，用于在代码块中禁用梯度计算。
我们遍历test_loader中的每个数据样本。
对于每个数据样本data,target，我们将数据和目标标签从CPU加载到GPU上
并使用全局模型对其进行前向传播。output = global_model(data)
我们使用F.nll_loss()计算输出与目标标签之间的交叉熵损失，并使用reduction='sum’将其转换为单个数值。
接下来，我们使用test_loss += …将每个样本的损失累加到测试损失中。
最后，我们使用pred = output.argmax(dim=1, keepdim=True)计算输出中最大概率的索引，并将其与目标标签进行比较。
使用pred.eq(target.view_as(pred))比较预测索引和实际索引，并将它们转换为布尔值。
使用sum().item()计算布尔值的总和，并将其除以测试数据加载器中样本的数量以获得测试准确性。
最后，我们返回测试损失和测试准确性。

6、实例化模型

############################################
#### Initializing models and optimizer  ####
############################################

#### global model ##########
global_model =  VGG('VGG19').cuda()

############## client models ##############
client_models = [ VGG('VGG19').cuda() for _ in range(num_selected)]
for model in client_models:
    model.load_state_dict(global_model.state_dict()) ### initial synchronizing with global model 

############### optimizers ################
opt = [optim.SGD(model.parameters(), lr=0.1) for model in client_models]

7、训练模型

###### List containing info about learning #########
losses_train = []
losses_test = []
acc_train = []
acc_test = []
# Runnining FL

for r in range(num_rounds):
    # select random clients
    client_idx = np.random.permutation(num_clients)[:num_selected]
    # client update
    loss = 0
    for i in tqdm(range(num_selected)):
        loss += client_update(client_models[i], opt[i], train_loader[client_idx[i]], epoch=epochs)
    
    losses_train.append(loss)
    # server aggregate
    server_aggregate(global_model, client_models)
    
    test_loss, acc = test(global_model, test_loader)
    losses_test.append(test_loss)
    acc_test.append(acc)
    print('%d-th round' % r)
    print('average train loss %0.3g | test loss %0.3g | test acc: %0.3f' % (loss / num_selected, test_loss, acc))

7、整体流程

查看不同类型数据的方法

首先要查看变量的数据类型：type(object)

1、dataframe

使用万能函数

def basic_eda(df):
    print("-------------------------------TOP 5 RECORDS-----------------------------")
    print(df.head(5))
    print("-------------------------------INFO--------------------------------------")
    print(df.info())
    print("-------------------------------Describe----------------------------------")
    print(df.describe())
    print("-------------------------------Columns-----------------------------------")
    print(df.columns)
    print("-------------------------------Data Types--------------------------------")
    print(df.dtypes)
    print("----------------------------Missing Values-------------------------------")
    print(df.isnull().sum())
    print("----------------------------NULL values----------------------------------")
    print(df.isna().sum())
    print("--------------------------Shape Of Data---------------------------------")
    print(df.shape)
    print("============================================================================ \n")

df.head()：查看前几行数据，默认是5
df.info：打印dataframe的简要摘要，包括索引的数据类型dtype和列的数据类型dtype，非空值的数量和内存使用情况。
df.describe：describe()函数用于生成描述性统计信息。描述性统计数据：数值类型的包括均值，标准差，最大值，最小值，分位数等；类别的包括个数，类别的数目，最高数量的类别及出现次数等；输出将根据提供的内容而有所不同
df.colunms：查看列
df.dtypes：查看元素的数据类型
df.shape：查看dataframe的形状

2、ndarray

ndarray.type：查看元素类型
ndarray.shape：查看数组的形状
ndarray.ndim：查看数组维度
ndarry.size：查看数组的全部元素个数
len(ndarray)：计算的是数组的行数，相当于ndarray.shape[0]

3、Dictionary

dict.keys()：返回字典全部的key
dict.size❌‘dict’ object has no attribute ‘size’
numpy.size(dict)❌无法获得字典大小
len(dict)：返回字典key-value对的个数

4、list

list.size❌‘list’ object has no attribute ‘size’
numpy.size(list)：查看列表全部元素的个数
len(list)：同numpy.size(list)一样

5、tuple

tuple.size❌‘tuple’ object has no attribute ‘size’
numpy.size(tuple)：查看元组全部元素的个数
len(tuple)：同numpy.size(tuple)一样

okkksleeeeep！

【深度学习】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows，论文 XD742971636 深度学习机器学习深度学习 transformer 人工智能
必读文章：https://blog.csdn.net/qq_37541097/article/details/121119988SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows论文：https://arxiv.org/abs/2103.14030代码：https://github.com/microsoft/Swin-
Scikit-Learn K均值聚类对许 #Python #人工智能与机器学习 scikit-learn 聚类机器学习
Scikit-LearnK均值聚类1、K均值聚类1.1、K均值聚类及原理1.2、K均值聚类的优缺点1.3、聚类与分类的区别2、Scikit-LearnK均值聚类2.1、Scikit-LearnK均值聚类API2.2、K均值聚类初体验（寻找最佳K）2.3、K均值聚类案例1、K均值聚类K-均值（K-Means）是一种聚类算法，属于无监督学习。K-Means在机器学习知识结构中的位置如下：1.1、K均值
【15-聚类分析入门：使用Scikit-learn进行K-means聚类】是阿牛啊机器学习回归预测大数据挖掘 kmeans 聚类 python 机器学习人工智能 sklearn 性能优化
文章目录前言K-means聚类的原理Scikit-learn中的K-means实现安装与导入生成模拟数据应用K-means聚类可视化聚类结果选择K的值总结前言聚类分析是一种无监督学习方法，用于将数据集中的样本分组成若干个簇(cluster)。K-means是最广泛使用的聚类算法之一，其核心思想是将数据点分配到K个簇中，使得每个点到其簇中心的距离之和最小。在本文中，我们将介绍如何使用Scikit
LSTM 网络在强化学习中的应用 AI天才研究院 LLM大模型落地实战指南 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSTM网络在强化学习中的应用关键词：LSTM、强化学习、时序依赖、长期记忆、深度Q网络、策略梯度、Actor-Critic摘要：本文深入探讨了长短期记忆（LSTM）网络在强化学习领域的应用。我们将详细介绍LSTM的核心概念、结构和工作原理，以及它如何解决传统循环神经网络面临的长期依赖问题。文章重点分析了LSTM在强化学习中的多种应用场景，包括深度Q网络、策略梯度方法和Actor-Critic架构
数据挖掘常用算法优缺点分析天波烟客00 数据挖掘数据挖掘机器学习
领取机器学习视频教程：http://www.admin444.com/P-c8129a48常用的机器学习、数据挖掘方法有分类，回归，聚类，推荐，图像识别等。在实际应用中，一般都是采用启发式学习方式来实验。偏差&方差偏差：描述的是预测值（估计值）的期望与真实值之间的差距，偏差越大，越偏离真实数据。偏差bias其实是模型太简单而带来的估计不准确的部分---欠拟合方差：描述的是预测值的变化范围、离散程度
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Scikit-learn提供了哪些机器学习算法以及如何使用Scikit-learn进行模型训练和评估 Java资深爱好者机器学习 scikit-learn 算法
Scikit-learn库的使用一、Scikit-learn提供的机器学习算法Scikit-learn（通常简称为sklearn）是一个广泛使用的Python机器学习库，它提供了多种用于数据挖掘和数据分析的算法。Scikit-learn支持的机器学习算法可以大致分为以下几类：分类算法：支持向量机（SVM）随机森林（RandomForest）逻辑回归（LogisticRegression）朴素贝叶斯
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
通过 Docker 部署 Mastodon 服务器的教程 shelby_loo docker 服务器容器
如何使用Edu邮箱申请Azure订阅并开通免费的VPS想要免费获得Azure的VPS吗？拥有一个Edu邮箱就能让你轻松实现！Edu邮箱不仅可以帮助你申请Azure的学生订阅，还能免费使用Adobe和Notion等软件，让你的学习和工作更加便捷。如果你还没有Edu邮箱，可以参考末尾的衍生参考。在Azure100学生订阅中新建一台UbuntuVPS，并在Ubuntu下通过Docker部署Mastodo
Python学习笔记 - 探索正则表达式对象和对象匹配 Mr数据杨 Python 编程基础正则表达式 python 正则 re
在文本处理和数据清洗任务中，正则表达式无疑是一把锋利的“瑞士军刀”。它不仅能够简洁地表达复杂的字符串匹配规则，还可以在各种编程语言中实现高效的文本处理。在Python中，re库提供了强大的正则表达式功能，允许开发者轻松进行模式匹配、数据提取、验证等操作。本教程将深入探讨Python中正则表达式的高级功能，尤其是如何使用正则表达式对象及其方法来高效处理文本。我们将详细讲解如何通过re.compile
因果关系推断与机器学习 hhhh106 读书笔记大数据
因果关系定义设X和Y是两个随机变量。定义X是Y的因，即因果关系X→Y存在，当且仅当Y的取值一定会随X的取值变化而发生变化。两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况：X是Y的因、X是Y的果、X与Y有共同原因(commoncause)。对于第三种情况，我们把这种不是因果关系的相关性叫作虚假相关(spuriouscorrelation)。机器学习模型是强大的
【中科院1区】Matlab实现黏菌优化算法SMA-RF锂电池健康状态估计算法研究 matlab科研助手 matlab 算法开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍摘要锂离子电池作为一种重要的储能器件，在电动汽车、便携式电子设备等领域发挥着至关重要的
【深度学习】因果推断与机器学习的高级实践数学建模_问题根因分析机器学习 2401_84239830 程序员深度学习机器学习数学建模
现阶段深度学习有三大特征：数据驱动：即数据训练，将数据输入到模型中进行训练；关联学习：模型基于给定训练数据集，进行关联学习；概率输出：即最后的输出，判断这个图片有“狗“的概率是多少。以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢？以一个简单的图片识别问题为例：识别一张图片中是否有狗。在很多预测问题中，我们拿到的数据集往往都是有偏的，比如我们拿到的数据中有80%的图片中狗都在草地上，这
Qpython+Flask监控添加发送语音中文信息功能 eybk flask python 后端
对Qpython+Flask实现对小孩学习的监控-CSDN博客中html页面进行改造，利用Ajax，提交一段文字，发送到数据库，再在服务器，发送该段文件给手机端，然手机端TTS朗读出来，增加了父母监控小孩学习，自定义提醒小孩的功能。一、index.html的更改。实时**学习情况图//设置定时器，每20秒（20000毫秒）刷新一次页面setInterval(function(){location.
使用 Docker 部署 pSQL 服务器的教程 shelby_loo docker 服务器容器
如何使用Edu邮箱申请Azure订阅并开通免费VPS使用Edu邮箱不仅可以申请Azure的免费订阅来开通VPS，还可以免费使用Adobe和Notion等软件，极大地提高学习和工作的效率。如果您还没有Edu邮箱，可以参考在线笔记s3.tebi.io/notes-image/edu%E7%AC%94%E8%AE%B0.pdf获取相关信息和申请方法。新建一台UbuntuVPS并通过Docker部署pSQ
因果推断与机器学习—因果推断入门（1）樱花的浪漫因果推断机器学习人工智能计算机视觉搜索引擎深度学习算法
在机器学习被广泛应用于对人类产生巨大影响的场景（如社交网络、电商、搜索引擎等）的今天，因果推断的重要性开始在机器学习社区的论文和演讲中被不断提及。图灵奖得主YoshuaBengio在对系统2（system2，这个说法来自心理学家DanielKahneman的作品，人类大脑由两套系统构成：系统1负责快速思考，做出下意识的反应；系统2则负责比较耗时的思考，如理解事物之间的因果关系）的畅想中强调，在实现
pythonocc安装_PythonOCC开发-如何搭建开发环境和一个创建圆台例子 weixin_39884100 pythonocc安装
我本来是打算学习C++OCC的，但是感觉C++太难了，虽然OpenCasCAD里面有个MFC的例子，但是我连一个开发环境都没搭建出来。后来知道有个老外把C++OCC封装成了PythonOCC，就打算去研究一下。虽然网上百度到了资料，但是我还是慢慢摸索到处问别人，搞了两个多小时才成功的把环境搭建起来。转载出处，学习资料https://blog.csdn.net/weixin_42755384/art
《深度学习入门：梯度下降法全解析，小白必看！》 Lemon_wxk 深度学习
目录一、引言二、什么是梯度下降？2.1误差的计算2.2梯度的计算2.3参数更新2.4重复迭代三、梯度下降法的几种主要类型1.批量梯度下降（BatchGradientDescent）2.随机梯度下降（StochasticGradientDescent,SGD）3.小批量梯度下降（Mini-BatchGradientDescent）四、梯度下降的挑战与解决方案1.学习率的选择2.局部最小值与鞍点3.梯
python学习笔记——input()函数详解 blankcookie 学习笔记
1.input()函数概述功能：从标准输入中读取字符串，并且去掉末尾的换行符，最后返回数据数据类型：str-字符串2.input()函数的使用介绍方法1：直接使用input()函数print("Howoldareyou?")age=input()print(f"so,you're{age}old.")print(type(age))执行：2.方法2：带有提示词的使用input()函数print("
C#中使用FreeSql进行数据库操作，并在WPF的MVVM模式下使用 ysdysyn c#数据库 wpf
在java转C#WPF上位机，MVVM过程中，遇到数据库的问题，经过简单的学习FreeSql语法糖，进行一下简单的封装及使用。我们在C#项目中实现FreeSql技术，首先在我们需要在使用语法糖所在的文件下点击依懒性>管理NuGet程序包，搜索FreeSql并进行下载：在appsettings.json配置文件中输入数据库连接配置，如果没有可在文件夹下自行创建，这里的连接的数据库是MYSQL和SQL
【自然语言处理（NLP）】基于Transformer架构的预训练语言模型：BERT 训练之数据集处理、训练代码实现道友老李自然语言处理(NLP)自然语言处理 transformer
文章目录介绍BERT训练之数据集处理BERT原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建Dataset加载WikiText-2数据集BERT训练代码实现导包加载数据构建BERT模型模型损失训练获取BERT编码器个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言
keras快速上手-基于python的深度学习实践-基于索引的深度学习对话模型-源代码... weixin_34162401
该章的源代码已经调通，如下，先记录下来，再慢慢理解#!/usr/bin/envpython#coding:utf-8#In[1]:importpandasaspdimportnumpyasnpimportpickleimportkerasfromkeras.modelsimportSequential,Modelfromkeras.layersimportInput,Dense,Activatio
web3.0入门及学习路径吗喽一只 web3 学习
Web3是指下一代互联网的演进形式，它涉及一系列技术和理念，旨在实现去中心化、开放、透明和用户主导的互联网体验。Web3的目标是赋予用户更多的控制权和数据所有权，并通过区块链、加密货币和分布式技术来实现。一、特点去中心化：Web3建立在区块链技术之上，通过使用分布式网络去除传统互联网中的中心化权威机构，实现数据和应用的去中心化。这种结构提高了安全性，减少了单点故障的风险，并增加了抗审查性。加密货币
想要在web3工作，这份web3学习路线图必不可少 Ray Change web3 学习
想要在web3工作，这份web3学习路线图必不可少欢迎踏上Web3学习之旅！Web3——去中心化互联网的新纪元正以前所未有的速度席卷全球。作为前瞻视野的你，是否渴望掌握这一颠覆性技术，跻身引领行业变革的精英行列？希望这份路线图可以帮助到你。推荐Web3Roadmap：Web3学习路线图-登链社区阶段一：Web3基础知识与区块链原理目标：理解Web3与区块链的基本概念、发展历程与价值主张。掌握区块链
yolo是什么，有什么优缺点以及YOLO的应用场景？ cesske YOLO
目录前言一、yolo是什么？二、YOLO的优点三、YOLO的缺点四、YOLO的应用场景总结前言这里我们来讲一下yolo是什么，有什么优缺点？一、yolo是什么？“YOLO”在计算机视觉和深度学习领域是一个特定的算法框架，全称是“YouOnlyLookOnce”。这个算法最初由JosephRedmon、SantoshDivvala、RossGirshick和AliFarhadi在2015年提出，旨在
Web-3.0学习路线奶龙牛牛 web3
方向学习内容✅区块链基础区块链、智能合约、共识机制✅智能合约Solidity/Rust（Ethereum/Solana）✅前端React.js,Next.js,Web3.js,ethers.js✅后端Node.js,Python,Golang（链上数据）✅存储IPFS,Arweave,Filecoin（去中心化存储）✅交互MetaMask,WalletConnect（钱包）如果你是前端开发Reac
Java与Kafka：消息队列使用指南墨瑾轩一起学学Java【一】java kafka linq
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好呀！今天我们要来聊聊如何使用Java语言与ApacheKafka搭建消息队列系统。Kafka是一款分布式流处理平台，它能够高效地处理大量实时数据。无论是构建实时数据分析系统还是简单的消息队列应用，Kafka都能胜任。那么，我们就开始吧！什么是Kafka？
Adobe软件的5个冷门使用技巧明庭 adobe
在现代设计和创意工作中，Adobe系列软件是不可或缺的工具。值得注意的是，拥有Edu教育邮箱的用户可以免费使用这些软件，这极大地降低了学习和创作的门槛。相比之下，使用破解版软件不仅存在法律风险，还可能带来各种安全隐患，因此建议大家选择合法途径获取软件。如果你想获取Edu邮箱，可以参考一些在线资源，在本文的末尾我会给出参考，了解如何申请和使用这些邮箱，以便顺利享受Adobe软件的相关优惠。五个冷门的
AI真的能理解我们这个现实物理世界吗？深度剖析原理、实证及未来走向 AI_DL_CODE 人工智能深度学习 AI AI理解世界
摘要：当下，AI与深度学习广泛渗透生活各领域，大模型与海量数据加持下，其是否理解现实物理世界引发热议。文章开篇抛出疑问，随后深入介绍AI深度学习基础，包含神经网络架构、反向传播算法。继而列举AI在物理场景识别、实验数据分析中显露的“理解”迹象，也点明常识性错误、极端场景失效这类反例。从信息论、物理启发式算法剖析理论支撑，探讨融合物理知识路径，并延展至跨学科应用、评估维度、伦理社会问题，最终展望AI
攻克设备数据质量难题：深度学习应用的数据基石搭建教程（DBSCAN 聚类算法） AI_DL_CODE 深度学习运维算法数据质量 DBSCAN聚类算法
摘要：在深度学习赋能设备管理的浪潮中，数据质量成为关键瓶颈。本文聚焦设备数据采集与预处理阶段面临的噪声干扰、数据缺失等难题，深入讲解强化采集端管控的策略，详细剖析聚类、统计法及线性回归模型在数据清洗与补全中的应用原理，并结合振动传感器数据实例给出可实操的Python代码。旨在为从业者提供一站式解决方案，助力打造高质量设备数据集，为深度学习模型高效运行筑牢根基，推动设备管理智能化落地。文章目录攻克设
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S