yi术家

2022李宏毅作业hw1—新冠阳性人员数量预测。

事前：

kaggle地址：ML2021Spring-hw1 | Kaggle

我的git地址： https://github.com/xiaolilaoli/lihongyi2022homework/tree/main/hw1_covidpred

当然作为新手，我也是参考的其他大神的。参考的过多，我就不一一放地址了，在这里谢过各位大佬。如果和我一样的新手，调试代码看张量流动绝对是一个好用的方法。

作业介绍：说的是啊这个美国，好像是有40个州，这四十个州呢，统计了连续三天的新冠阳性人数，和每天的一些社会特征，比如带口罩情况，居家办公情况等等。现在有一群人比较坏，把第三天的数据遮住了，我们就要用前两天的情况以及第三天的特征，来预测第三天的阳性人数。但幸好的是，我们还是有一些数据可以作为参考的，就是我们的训练集。

一：数据读取。

（第一步引用的包：）

import numpy as np
from torch.utils.data import Dataset,DataLoader
import csv
import torch
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

先从kaggle上把数据下下来看看。点那个data就找到下载的地方了。下载好数据第一步先观察train的数据是什么样子的。如下图，可以看到有很多列，每一列都是一类特征，每一行都是一个样本。黄红蓝是第1，2，3天的测试阳性数据。蓝色的就是我们要预测的值啦。

我们再细看数据：可以看到第一行是没有用的，他只是标签的名称。然后第一列也是没有用处的，因为他只是标注样本是第几个样本。等会处理数据时都要处理掉。然后我们可以注意到前40列的数据和后面五十多列是不一样的，一般是一列全1 其他列全0 ，表示的是1所在的那个州，地点标识而已。

看清楚数据的结构，下面我们开始读入数据。csv数据和其他数据的读法差不多。比如你可以选择下面的文件式读法。

with open(r'covid.train.csv', 'r') as f:
    train_data = f.readlines()

    train_data = [line.split('\n') for line in train_data][1:]  #分行之后不要第一行
    train_data = [each[0].split(',') for each in train_data]    #对于每一行 去掉后面的空格
    print(len(train_data[0]))
    train_data = np.array(train_data)         #转换成numpy的矩阵

    train_x = train_data[:,1:-1]     # x是数据，y是标签 。第一个冒号表示所有行，第二个冒号表示
    train_y = train_data[:,-1]      #列。所以x就是第2列到倒数第二列。y就是倒数第一列。

也可以选择csv的专门读取excel表格的函数

with open(path,'r') as f:
    csv_data = list(csv.reader(f))
    column = csv_data[0]         #0行是标题
    csv_data = np.array(csv_data[1:])[:,1:].astype(float)   #连环操作 先取行 转numpy 
#再取列 转float

然后这里要介绍一个取最相关列的操作。上面的数据我们知道有95列，可是，这90多列，每一列都与结果是相关的吗？恐怕不一定，肯定有些特征卵用没有。所以我们这里可以找到那些相关的列，用这些特征来预测结果。找特征有很多方法，大家可以百度特征选择，有很多介绍。这里用的是SelectKBest 函数。顺便定义了一个挑特征的函数。column是第一行的特征名称，我传入是为了打印看看是哪些特征重要，要不然他挑了半天我也不知道啊。k是挑多少个特征。


def get_feature_importance(feature_data, label_data, k =4,column = None):
    """
    此处省略 feature_data, label_data 的生成代码。
    如果是 CSV 文件，可通过 read_csv() 函数获得特征和标签。
    """
    model = SelectKBest(chi2, k=k)#选择k个最佳特征
    X_new = model.fit_transform(feature_data, label_data)
    #feature_data是特征数据，label_data是标签数据，该函数可以选择出k个特征
    print('x_new', X_new)
    scores = model.scores_
    # 按重要性排序，选出最重要的 k 个
    indices = np.argsort(scores)[::-1] #找到重要K个的下标
    if column:
        k_best_features = [column[i+1] for i in indices[0:k].tolist()]
        print('k best features are: ',k_best_features)
    return X_new, indices[0:k]

找好特征后。我们还需要进行训练集和验证集的划分。我们知道，kaggle下下来只有训练集和测试集，所以我们需要从训练集里分出来一个验证集来作为模型评价。方法可以是直接截一段，也可以是逢几个挑一个，也可以是随机的。我这里是逢5挑1

            if mode == 'train':
                indices = [i for i in range(len(csv_data)) if i % 5 != 0]
                self.y = torch.LongTensor(csv_data[indices,-1])
            elif mode == 'val':
                indices = [i for i in range(len(csv_data)) if i % 5 == 0]
                # data = torch.tensor(csv_data[indices,col_indices])
                self.y = torch.LongTensor(csv_data[indices,-1])
            else:
                indices = [i for i in range(len(csv_data))]
                #这是测试数据 不需要标签 也没有标签

取完数据后，一般还要有一个归一化的步骤，防止各个特征的数量级相差过于大。这里用的是Z-score标准化方法。减均值除以标准差

self.data = (self.data - self.data.mean(dim=0,keepdim=True))
 /self.data.std(dim=0,keepdim=True)     #这里将数据归一化。

综上所述，我们可以写出我们的dataset函数了。基本上大部分神经网络都是需要读数据这部分的，过程就是把数据从本地文件，读入dataset中去。dataset中一般有三个函数，第一个是初始化__init__：一般负责把数据从文件取出来。第二个获取数据__getitem__，负责读第几个数据。第三个获取长度__len__：负责返回数据集的长度。

一个完整的从csv到可以用的dataset的代码如下图所示。这一部分被我放在model——utils的data模块里。

完整代码：

import numpy as np
from torch.utils.data import Dataset,DataLoader
import csv
import torch
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

def get_feature_importance(feature_data, label_data, k =4,column = None):
    """
    此处省略 feature_data, label_data 的生成代码。
    如果是 CSV 文件，可通过 read_csv() 函数获得特征和标签。
    """
    model = SelectKBest(chi2, k=k)#选择k个最佳特征
    X_new = model.fit_transform(feature_data, label_data)
    #feature_data是特征数据，label_data是标签数据，该函数可以选择出k个特征
    print('x_new', X_new)
    scores = model.scores_
    # 按重要性排序，选出最重要的 k 个
    indices = np.argsort(scores)[::-1] #找到重要K个的下标
    if column:
        k_best_features = [column[i+1] for i in indices[0:k].tolist()]
        print('k best features are: ',k_best_features)
    return X_new, indices[0:k]


class covidDataset(Dataset):
    def __init__(self, path, mode, feature_dim):
        with open(path,'r') as f:
            csv_data = list(csv.reader(f))
            column = csv_data[0]
            train_x = np.array(csv_data)[1:][:,1:-1]
            train_y = np.array(csv_data)[1:][:,-1]
            _,col_indices = get_feature_importance(train_x,train_y,feature_dim,column)
            col_indices = col_indices.tolist()   #得到重要列的下标
            csv_data = np.array(csv_data[1:])[:,1:].astype(float)
            if mode == 'train':       #如果读的是训练数据 就逢5取4  indices是数据下标
                indices = [i for i in range(len(csv_data)) if i % 5 != 0]
                self.y = torch.LongTensor(csv_data[indices,-1])
            elif mode == 'val':  #如果读的是验证数据 就逢5取1  indices是数据下标
                indices = [i for i in range(len(csv_data)) if i % 5 == 0]
                # data = torch.tensor(csv_data[indices,col_indices])
                self.y = torch.LongTensor(csv_data[indices,-1])
            else:      #如果读的是测试数据 就全取了
                indices = [i for i in range(len(csv_data))]
            data = torch.tensor(csv_data[indices,:]) #取行
            self.data = data[:,col_indices]   #取列
            self.mode = mode
            self.data = (self.data - self.data.mean(dim=0,keepdim=True)) /self.data.std(dim=0,keepdim=True)     #这里将数据归一化。
            assert feature_dim == self.data.shape[1]


            print('Finished reading the {} set of COVID19 Dataset ({} samples found, each dim = {})'
                  .format(mode, len(self.data), feature_dim))

    def __getitem__(self, item):
        if self.mode == 'test':
            return self.data[item].float()
        else :
            return self.data[item].float(), self.y[item]
    def __len__(self):
        return len(self.data)

二模型设计。

数据都读完了，接下来肯定是模型了。当然这里是一个简单的回归模型我用两个全连接实现的，中间加了一个relu。inDim是传入的参数，就是上面我们挑选的重要特征的数量啦。这部分比较简单，一般模型都是包括这两个部分 __init__和forward 也就是初始化和前向传播。初始化中会定义前向传播里需要的模型模块。前向传播里就是输入到输出的流动了。x是输入的张量，最后输出模型计算结果。模型也非常简单。

注意网络一般都是按batch大小计算的。我举个例子。假如我挑了4个特征，那么模型输入长度就是4，输出长度就是1（回归值）。假如我16个数据1批次，输入大小就是（16，4）输出就是（16，1）这都是自动的不用我们担心。这一部分被我放在model_utils的model模块里。

完整代码：

import torch.nn as nn

class myNet(nn.Module):
    def __init__(self,inDim):
        super(myNet,self).__init__()
        self.fc1 = nn.Linear(inDim, 64)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(64,1)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        if len(x.size()) > 1:
            return x.squeeze(1)     #如果批量大小不为1 这里才需要展平。 
        else:
            return x

三训练步骤。

训练函数推荐大家自己定义一个的，这样以后面对大部分问题都可以通用。

这个是训练的过程都是很常规的步骤。

   for i in range(epoch):
        start_time = time.time()
        model.train()   #开启训练
        train_loss = 0.0
        val_loss = 0.0
        for data in trainloader:
            optimizer.zero_grad()
            x , target = data[0].to(device), data[1].to(torch.float32).to(device)  
            #从loader里取一批数据
            pred = model(x)  #经过模型预测
            bat_loss = loss(pred, target, model)  #计算loss
            bat_loss.backward()     #梯度回传
            optimizer.step()      #计算
            train_loss += bat_loss.detach().cpu().item()    #记录loss值 注意要从gpu上取下来
#再从张量里取出来

        plt_train_loss . append(train_loss/trainset.__len__())  #记录

每一个epoch里还有验证步骤。参照训练可以看到每一步的作用。多了一个保存模型的步骤。保存loss最低时的那个模型。

        model.eval()
        with torch.no_grad():
            for data in valloader:
                val_x , val_target = data[0].to(device), data[1].to(device)
                val_pred = model(val_x)
                val_bat_loss = loss(val_pred, val_target, model)
                val_loss += val_bat_loss
                val_rel.append(val_pred)
        if val_loss < min_val_loss:
            min_val_loss = val_loss
            torch.save(model, save_)

        plt_val_loss . append(val_loss/valloader.__len__())

还有绘图：画出loss的变化情况。

    plt.plot(plt_train_loss)
    plt.plot(plt_val_loss)
    plt.title('loss')
    plt.legend(['train', 'val'])
    plt.show()

完整的训练代码：这一部分被我放在model_utils的train模块里。


import torch
import time
import matplotlib.pyplot as plt

def train_val(model, trainloader, valloader,optimizer, loss, epoch, device, save_):

    # trainloader = DataLoader(trainset,batch_size=batch,shuffle=True)
    # valloader = DataLoader(valset,batch_size=batch,shuffle=True)
    model = model.to(device)
    plt_train_loss = []
    plt_val_loss = []
    val_rel = []
    min_val_loss = 100000

    for i in range(epoch):
        start_time = time.time()
        model.train()
        train_loss = 0.0
        val_loss = 0.0
        for data in trainloader:
            optimizer.zero_grad()
            x , target = data[0].to(device), data[1].to(torch.float32).to(device)
            pred = model(x)
            bat_loss = loss(pred, target, model)
            bat_loss.backward()
            optimizer.step()
            train_loss += bat_loss.detach().cpu().item()

        plt_train_loss . append(train_loss/trainloader.__len__())

        model.eval()
        with torch.no_grad():     #验证时 不计算梯度
            for data in valloader:
                val_x , val_target = data[0].to(device), data[1].to(device)
                val_pred = model(val_x)
                val_bat_loss = loss(val_pred, val_target, model)
                val_loss += val_bat_loss
                val_rel.append(val_pred)
        if val_loss < min_val_loss:
            torch.save(model, save_)
            min_val_loss = val_loss
        plt_val_loss . append(val_loss/valloader.__len__())

        print('[%03d/%03d] %2.2f sec(s) TrainLoss : %3.6f | valLoss: %3.6f' % \
              (i, epoch, time.time()-start_time, plt_train_loss[-1], plt_val_loss[-1])
              )

    plt.plot(plt_train_loss)
    plt.plot(plt_val_loss)
    plt.title('loss')
    plt.legend(['train', 'val'])
    plt.show()

四：测试和保存步骤。

测试和验证时很相似的。少的是预测值和真值的比较，因为没有真值，多的是预测值得保存。按照kaggle要求保存在csv里。这一部分被我放在model_utils的evaluate模块里。

完整代码：

import numpy as np
import torch
from torch.utils.data import  DataLoader

import csv

def evaluate(model_path, testset, rel_path ,device):
    model = torch.load(model_path).to(device)
    testloader = DataLoader(testset,batch_size=1,shuffle=False)  #放入loader 其实可能没必要 loader作用就是把数据形成批次而已
    val_rel = []
    model.eval()
    with torch.no_grad():
        for data in testloader:
            x  = data.to(device)
            pred = model(x)
            val_rel.append(pred.item())
    print(val_rel)
    with open(rel_path, 'w') as f:
        csv_writer = csv.writer(f)        #百度的csv写法
        csv_writer.writerow(['id','tested_positive'])
        for i in range(len(testset)):
            csv_writer.writerow([str(i),str(val_rel[i])])

五：主函数。

万事俱备，只欠东风。就像人的四肢脑袋都齐了，就差个body把他们连起来了，起这个作用的就是main函数。

调包第一步除了系统包还有自己写的

from model_utils.model import myNet
from model_utils.data import covidDataset
from model_utils.train import train_val
from model_utils.evaluate import evaluate
from torch import optim
import torch.nn as nn
import torch
from torch.utils.data import Dataset,DataLoader

路径和设备以及一些超参。在这里我尝试将一些超参放入字典中。

device = 'cuda' if torch.cuda.is_available() else 'cpu'  #设备一般gpu 没有就cpu 
train_path = 'covid.train.csv'     #训练数据路径
test_path = 'covid.test.csv'        #测试数据路径


feature_dim = 6       #重要的特征数
trainset = covidDataset(train_path,'train',feature_dim=feature_dim)  
valset = covidDataset(train_path,'val',feature_dim=feature_dim)
testset = covidDataset(test_path,'test',feature_dim=feature_dim)
      #对照数据部分 读取了三个数据set


config = {
    'n_epochs': 2000,                # maximum number of epochs
    'batch_size': 270,               # mini-batch size for dataloader
    'optimizer': 'SGD',              # optimization algorithm (optimizer in torch.optim)
    'optim_hparas': {                # hyper-parameters for the optimizer (depends on which optimizer you are using)
        'lr': 0.0001,                 # learning rate of SGD
        'momentum': 0.9              # momentum for SGD
    },
    'save_path': 'model_save/model.pth',  # your model will be saved here
}

#一些超参数  比如epoch  batchsize lr 等等。

定义loss 这里采用了mseloss 然后还加上了正则化

def getLoss(pred, target, model):
    loss = nn.MSELoss(reduction='mean')
    ''' Calculate loss '''
    regularization_loss = 0
    for param in model.parameters():
        # 使用L2正则项
        regularization_loss += torch.sum(param ** 2)
    return loss(pred, target) + 0.00075 * regularization_loss

loss =  getLoss

定义model和优化器以及数据传入loader 前面说过这是为了批量处理

model = myNet(feature_dim).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.001,momentum=0.9)


trainloader = DataLoader(trainset,batch_size=config['batch_size'],shuffle=True)
valloader = DataLoader(valset,batch_size=config['batch_size'],shuffle=True)

训练和测试


train_val(model, trainloader,valloader,optimizer, loss, config['n_epochs'],device,save_=config['save_path'])
evaluate(config['save_path'], testset, 'pred.csv',device)

完整代码：

from model_utils.model import myNet
from model_utils.data import covidDataset
from model_utils.train import train_val
from model_utils.evaluate import evaluate
from torch import optim
import torch.nn as nn
import torch
from torch.utils.data import Dataset,DataLoader

device = 'cuda' if torch.cuda.is_available() else 'cpu'
train_path = 'covid.train.csv'
test_path = 'covid.test.csv'


feature_dim = 6
trainset = covidDataset(train_path,'train',feature_dim=feature_dim)
valset = covidDataset(train_path,'val',feature_dim=feature_dim)
testset = covidDataset(test_path,'test',feature_dim=feature_dim)



config = {
    'n_epochs': 2000,                # maximum number of epochs
    'batch_size': 270,               # mini-batch size for dataloader
    'optimizer': 'SGD',              # optimization algorithm (optimizer in torch.optim)
    'optim_hparas': {                # hyper-parameters for the optimizer (depends on which optimizer you are using)
        'lr': 0.0001,                 # learning rate of SGD
        'momentum': 0.9              # momentum for SGD
    },
    'early_stop': 200,               # early stopping epochs (the number epochs since your model's last improvement)
    'save_path': 'model_save/model.pth',  # your model will be saved here
}

def getLoss(pred, target, model):
    loss = nn.MSELoss(reduction='mean')
    ''' Calculate loss '''
    regularization_loss = 0
    for param in model.parameters():
        # TODO: you may implement L1/L2 regularization here
        # 使用L2正则项
        # regularization_loss += torch.sum(abs(param))
        regularization_loss += torch.sum(param ** 2)
    return loss(pred, target) + 0.00075 * regularization_loss

loss =  getLoss

model = myNet(feature_dim).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.001,momentum=0.9)


trainloader = DataLoader(trainset,batch_size=config['batch_size'],shuffle=True)
valloader = DataLoader(valset,batch_size=config['batch_size'],shuffle=True)

train_val(model, trainloader,valloader,optimizer, loss, config['n_epochs'],device,save_=config['save_path'])
evaluate(config['save_path'], testset, 'pred.csv',device)

事后：

运行主函数我们将得到 pred.csv。这就是我们得预测结果啦。打开kaggle网址项目所在页，注册，点击late submission 提交你的pred.csv文件吧。这也是我第一次用kaggle。好像我的得分也很低。大家如果想得一个比较高得分，可以多调调超参和模型。fighting！！！

李宏毅老师前年课程的第一个作业也是回归，不过不是新冠。当时我啥都不会写，把网上得copy下来，一步一步调试才慢慢懂一点点。这次第二次做回归，只能说比第一次熟练了很多，虽然还是不能全部一个人写下来。写这个文章，与大家共勉。

520微信代码轰炸 wengkebiao python
写一个脚本，在520那天发给你的小可爱。#-*-coding:utf-8-*-#@Time:2022/5/1913:36#@Author:wkbimporttime,osimportpyautogui,pypercliptime.sleep(5)foriinrange(10):#pyautogui.click(662,748)pyperclip.copy("代码轰炸：hahaha,第{0}次".f
【重温设计模式】访问者模式及其Java示例万猫学社重温设计模式及其Java实现设计模式访问者模式 java
访问者模式的基本概念访问者模式，一种行为型设计模式，其基本定义是：允许一个或者多个操作应用到一组对象上，解耦操作和对象的具体类，使得操作的添加可以独立于对象的类结构变化。在面向对象编程中，访问者模式的重要性不言而喻。它将数据操作和数据结构分离，使得在不改变数据结构的前提下，可以添加新的操作，从而增强了系统的灵活性和可扩展性。在访问者模式中，数据结构是稳定的，而操作是易变的。这就像一座博物馆，展品（
先验地图--slam学习笔记超级璐璐人工智能机器学习
先验信息(PriorInformation)先验信息指的是在收集新数据之前已有的知识或假设。这种信息可以来自之前的实验、历史数据、理论模型或专家意见。地图信息：在无人驾驶中，车辆通常会预先加载高精度地图数据，这些地图数据提供了道路布局、车道线位置、交叉口结构等信息。这些信息就是先验信息。车辆动力学模型：车辆的动力学模型，包括车辆的物理特性（如质量、轮胎摩擦系数等），这些模型可以帮助预测车辆的行为。
访问者模式烟沙九洲设计模式访问者模式 java
访问者（Visitor）模式属于行为型模式的一种。访问者模式主要用于分离算法和对象结构，从而在不修改原有对象的情况下扩展新的操作。它适用于数据结构相对稳定，而操作（行为）容易变化的场景。访问者模式允许在不修改现有类的情况下，为类层次结构中的对象定义新的操作。访问者模式通过将操作封装到一个独立的类（即访问者）中，使得对象结构与操作解耦。访问者模式使用了一种名为双分派（在运行时根据两个对象的类型动态选
软考中级软件设计师考点知识点笔记总结 day06 莫问alicia 软考中级软件设计师笔记数据结构算法
文章目录6、树和二叉树6.1、树的基本概念6.2、二叉树的基本概念6.3、二叉树的遍历6.4、查找二叉树（二叉排序树）BST6.5、构造霍夫曼树+6.6、线索二叉树6.7、平衡二叉树7、图7.1、存储结构-邻接矩阵7.2、存储结构-邻接表7.3、图的遍历7.4、拓扑排序7.5、最小生成树普利姆算法7.6、克鲁斯卡尔算法6、树和二叉树6.1、树的基本概念结点的度：一个结点的度是指该结点拥有的子树数量
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
新需求如何实现火火PM打怪中考公笔记笔记
作为产品经理，面对新需求时，我会结合产品管理和项目管理的双重逻辑，采用以下结构化流程，确保需求既能满足用户价值，又能高效落地：一、需求澄清与价值验证（NPDP核心逻辑）需求背景挖掘与需求提出方（用户/业务/领导）深度沟通，明确：痛点场景：需求解决的具体问题（例如“政务数据共享接口调用失败率高”）。期望目标：量化成功标准（如“接口成功率从70%提升至95%”）。工具：5W1H分析法、用户故事地图（U
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
《基于自适应正负样本对比学习的特征提取框架》-核心公式提炼简洁版 2022年neural networks 阳光明媚大男孩学习深度学习人工智能论文笔记
论文源地址以下是从文档中提取的关于“基于对比学习的特征提取框架（CL-FEFA）”中正负样本对比学习实现的技术细节，包括详细的数学公式、特征提取过程以及特征表示方式的说明。1.正负样本的定义与构造在CL-FEFA框架中，正负样本的定义是动态且自适应的，基于特征提取的结果，而不是预先固定的。这种自适应性是CL-FEFA区别于传统对比学习（如SimCLR、SupCon）的一个关键点。定义方式：指示矩阵
浅谈VB.NET为何还没有被时代淘汰练习AI两年半 .net
最近在做一个旧项目的更新和维护，比较头疼的是这个项目是08年写的，当时编写编写语言为c++、环境为vc6.0+MFC(嘶~，这玩意儿年纪比我还大)，需要将环境改为VS2022、.NET框架，为配合项目组其他同事，新语言改用VB.NET。我之前一直在用C++和QT写项目，一时间让我换一种语言和框架，还要在c++和vb.net之间反复横跳确实让我很崩溃。但打工人再难的项目也要硬着头皮上呀，好在VB.N
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
因为mysql 8新的认证插件导致主从复制的IO线程失败库海无涯 mysql
1、错误信息Last_IO_Error:errorconnectingtomaster'[email protected]:3306'-retry-time:60retries:1message:Authenticationplugin'caching_sha2_password'reportederror:Authenticationrequiressecureconnection.2、
Macrorit Partition Expert：守护硬盘数据的「分区手术专家」 KJ-拾荒者职场和发展经验分享性能优化软件推荐效率提升
你是否经历过这些崩溃瞬间？想给C盘扩容却怕误删文件，硬盘买回来发现系统不认大容量分区，或是想彻底清除隐私数据却担心被恢复软件找回……传统分区工具要么功能受限，要么操作风险高，稍有不慎就会导致数据灾难。MacroritPartitionExpert的出现，为普通用户和专业运维人员提供了一站式解决方案。作为兼容性极强的分区管理工具，它同时支持MBR和GPT分区表，轻松突破传统系统对2TB以上大硬盘的识
html.partial mvc5,[ASP.NET Core Razor Pages系列教程]ASP.NET Core Razor Pages中的Partial Views(部分视图)(04)... 安静的小屁孩儿 html.partial mvc5
PartialViews(部分视图)什么是PartialViews?PartialViews(之后统称:部分视图)是包含了HTML代码片段和服务端代码的Razor文件，它同样以.cshtml为扩展名。部分视图可以被包含在任意数量的页面或者布局中。部分视图可以用来将复杂的页面分解成更小的单元，从而减少复杂性，同时也可以在团队开发中被复用。什么时候使用部分视图(PartialViews)部分视图可以处
11.网络编程的基础知识就很对网络 linux
11.网络编程的基础知识**1.OSI模型与TCP/IP模型****2.IP地址分类****3.Socket编程****4.TCP三次握手与四次挥手****5.常用网络测试工具****6.练习与作业****7.总结**1.OSI模型与TCP/IP模型OSI模型（开放系统互联模型）：7层结构：应用层：为网络用户提供各种服务（如HTTP、FTP）。表示层：数据加密解密、压缩解压缩。会话层：管理进程会话
5.进程基本概念就很对 java 服务器 linux
5.进程基本概念**1.进程的基本概念****2.进程与程序的区别****3.进程的状态****4.进程调度****5.进程相关命令****6.进程创建与管理****7.进程的应用场景****8.练习与作业****9.进程的地址空间****10.进程的分类****11.进程的并发与并行****12.总结**1.进程的基本概念进程：进程是程序执行的过程，操作系统会为其分配内存资源和CPU调度。PCB
Github上神仙级大模型项目：大语言模型(LLM)入门学习路线图，三个月让你从大模型基础到精通！ AI大模型-大飞 github 语言模型学习人工智能 AI大模型程序员 AI
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
ASP.NET Web的 Razor Pages应用，配置热重载，解决.NET Core MVC 页面在更改后不刷新坐望云起开发语言 asp.net 前端后端 Razor Pages mvc .net core
RazorPages应用，修改页面查看修改效果，如果没有热重载，改一句话跑一次，这个活就没法干了。1、VS2022中的NuGet中安装RuntimeCompilationMicrosoft.AspNetCore.Mvc.Razor.RuntimeCompilation需要配套你的.netsdk版本，我这里用的是6.0，所以这个也用了6.0.0。2、找到你的Properties\launchSett
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
MMO基础双端架构（五）：如何O(1)的处理心跳消息晴空～蓝兮 MMO双端游戏架构游戏算法 c#
更多代码细节，球球各位观众老爷给鄙人的开源项目点个Star，持续更新中~Free项目开源地址5.LRU算法淘汰超时心跳消息采用双向链表+线程安全哈希字典处理心跳消息的超时和检查机制仿照了经典算法LRU（也就是最少关注移除算法，当容器内的size大于最大容许size时，最少关注的那个单位就会被移除）这样的设计可以实现，平均o(1)插入删除，整个链表的长度只与客户端连接的数量有关，每一次查询都会均摊超
模式搜索+扩散模型：FlowMo重构图像Token化的技术革命芯作者 DD：日记重构
图像Token化作为现代生成式AI系统的核心技术，长期面临对抗性训练不稳定、潜在空间冗余等挑战。斯坦福大学李飞飞与吴佳俊团队提出的FlowMo（FlowtowardsModes）创新性地融合模式搜索与扩散模型，在多个关键维度突破传统方法局限，为图像压缩与重建开辟新路径。本文将深度解析其技术突破、实现原理及行业影响。一、传统图像Token化的困境与FlowMo的破局之道1.1传统方法的三大桎梏传统T
GIS三维可视化进阶：Three.js集成Cesium引擎实现全球地形LOD与OGC标准服务调用贝格前端工场 javascript 开发语言 ecmascript
Three.js与Cesium引擎基础介绍Three.js是一款基于JavaScript的开源三维图形库，它提供了丰富的API用于创建和操作三维场景、物体、材质等。在Web端的三维可视化领域应用广泛，因其能够在浏览器中高效渲染复杂的三维模型和场景，大大降低了开发人员创建三维交互内容的门槛。通过简单的代码，即可实现如创建三维几何体（立方体、球体等）、为物体添加材质（如纹理材质、光照材质）以及设置相机
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
《数字时代的职场暗战：下班后的消息该不该回？》玩转数据库管理工具FOR DBLENS 项目管理数据库大数据数据库开发数据仓库
一、赛博朋克式职场：永不熄灭的手机屏幕凌晨1点，手机屏幕在床头柜上第7次亮起，弹出的消息提示像一把悬在空中的达摩克利斯之剑——市场部总监在项目群@全体成员核对数据，客户发来20条59秒的语音方阵。这种场景已成为当代职场人的集体记忆：某招聘平台数据显示，78%的职场人遭遇过非工作时间工作消息轰炸，其中32%因此产生焦虑症状。当钉钉提示音成为新的"午夜凶铃"，微信对话框化作24小时待命的电子镣铐，我们
一切靠抢的带抢的都是非常赚钱的，比如抢号抢票抢购等小黄人软件经验分享
“带抢”的东西通常意味着供需极度不平衡，信息不对称，或者时间、资源有限，因此具备高利润空间。除了抢号之外，以下这些领域也符合这个特点：1.抢购类抢票：包括演唱会、热门球赛、春运火车票、热门景区门票（如故宫）等，提供代抢服务或者软件。抢鞋、抢限量潮牌：如耐克SNKRS、Supreme等品牌的限量款，通过Bot代抢再高价转卖。抢游戏账号/虚拟物品：抢注游戏ID、游戏道具、限量皮肤，再转卖给需求方。抢新
Redis大key 不7夜宵 redis bootstrap 数据库
Redis大key基本概念，影响Redis大key指在Redis中存储了大量数据的键，它会对Redis的性能和内存管理产生影响。大key的定义与value的大小和元素数量有关，但这个定义并不是绝对的，而是相对的，具体取决于系统的使用场景和性能要求。大key通常有以下两种情况：Value存储占用空间大集合类型的Key中元素过多![[Pastedimage20250227151208.png]]造成的
LeetCode 21Merge Two Sorted Lists 合并两个排序链表 Java 我欲混吃与等死 LeetCode leetcode 链表 java
题目：将两个已排序的链表合并在一起。举例1：输入：list1=[1,2,4],list2=[1,3,4];输出：[1,1,2,3,4,4];举例2：输入：list1=[],list2=[];输出：[]举例3：输入：list1=[],list2=[0];输出：[0]解题思路：遍历两个链表，比较节点值来合并链表，当其中一个链表遍历完成时，将另一个链表剩余部分拼入新链表。/***Definitionfo
后端登录校验(一）——会话技术 develop_lost 服务器运维
一、登录校验1.什么是登录校验登录校验是服务器端对浏览器端（就是客户端）发送的请求进行校验。校验用户的登录情况，如果用户已经登录，则允许进行用户需要的业务操作，反之则禁止用户操作业务操作，并返回给用户一个错误的提示，让客户端跳转到的登录页面，进行登录操作。2.如何进行登录校验-先认清http协议：http协议是无状态协议，无状态是客户端的每一次请求都是独立的，这次的请求不会携带上一次的数据，服务器
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

2022李宏毅作业hw1—新冠阳性人员数量预测。

事前 ：

一： 数据读取。

完整代码：

二 模型设计。

完整代码：

三 训练步骤。

完整的训练代码：这一部分被我放在model_utils的train模块里。

四：测试和保存步骤 。

完整代码：

五 ： 主函数。

完整代码：

事后：

你可能感兴趣的:(2022李宏毅作业hw1—新冠阳性人员数量预测。)

事前：

一：数据读取。

二模型设计。

三训练步骤。

四：测试和保存步骤。

五：主函数。