数学是算法的灵魂

NLP常见trick汇总及代码实现

一、背景

在做项目或者打比赛的时候，经常会用到一些trick来提升模型表现，废话不多说，直接上干货

二、常见tricks介绍

1. 对抗训练

对抗训练的概念就是在原始输入样本上加一个扰动，得到对抗样本后，用其进行训练。常见的有FGM,PGD等策略，一般是比较稳定提分的方法。在NLP领域的对抗训练的扰动是加载embedding上的。其主要做法就是根据模型第一次foward后得到embedding的梯度，让embedding层沿着梯度上升方向走一小步，来实现最佳扰动。几个比较好的参考解释如下：

对抗训练浅谈：意义、方法和思考（附Keras实现） - 科学空间|Scientific Spaces

https://kexue.fm/archives/7234

Nicolas：【炼丹技巧】功守道：NLP中的对抗训练 + PyTorch实现

https://zhuanlan.zhihu.com/p/91269728

对抗训练的理解，以及FGM、PGD和FreeLB的详细介绍__illusion_的博客-CSDN博客_对抗训练

https://blog.csdn.net/weixin_41712499/article/details/110878322

bert4torch代码实现

https://github.com/Tongjilibo/bert4torch/blob/master/bert4torch/snippets.py#L887

class FGM():    '''对抗训练    '''    def __init__(self, model):        self.model = model        self.backup = {}
    def attack(self, epsilon=1., emb_name='word_embeddings', **kwargs):        # emb_name这个参数要换成你模型中embedding的参数名        # 例如，self.emb = nn.Embedding(5000, 100)        for name, param in self.model.named_parameters():            if param.requires_grad and emb_name in name:                self.backup[name] = param.data.clone()                norm = torch.norm(param.grad) # 默认为2范数                if norm != 0 and not torch.isnan(norm):  # nan是为了apex混合精度时:                    r_at = epsilon * param.grad / norm                    param.data.add_(r_at)
    def restore(self, emb_name='emb', **kwargs):        # emb_name这个参数要换成你模型中embedding的参数名        for name, param in self.model.named_parameters():            if param.requires_grad and emb_name in name:                 assert name in self.backup                param.data = self.backup[name]        self.backup = {}

class PGD():    '''对抗训练    '''    def __init__(self, model):        self.model = model        self.emb_backup = {}        self.grad_backup = {}
    def attack(self, epsilon=1., alpha=0.3, emb_name='word_embeddings', is_first_attack=False, **kwargs):        # emb_name这个参数要换成你模型中embedding的参数名        for name, param in self.model.named_parameters():            if param.requires_grad and emb_name in name:                if is_first_attack:                    self.emb_backup[name] = param.data.clone()                norm = torch.norm(param.grad)                if norm != 0 and not torch.isnan(norm):  # nan是为了apex混合精度时                    r_at = alpha * param.grad / norm                    param.data.add_(r_at)                    param.data = self.project(name, param.data, epsilon)
    def restore(self, emb_name='emb', **kwargs):        # emb_name这个参数要换成你模型中embedding的参数名        for name, param in self.model.named_parameters():            if param.requires_grad and emb_name in name:                 assert name in self.emb_backup                param.data = self.emb_backup[name]        self.emb_backup = {}            def project(self, param_name, param_data, epsilon):        r = param_data - self.emb_backup[param_name]        if torch.norm(r) > epsilon:            r = epsilon * r / torch.norm(r)        return self.emb_backup[param_name] + r            def backup_grad(self):        for name, param in self.model.named_parameters():            # 修复如pooling层参与foward，但是不参与backward过程时grad为空的问题            if param.requires_grad and (param.grad is not None):                self.grad_backup[name] = param.grad.clone()        def restore_grad(self):        for name, param in self.model.named_parameters():            if param.requires_grad and (param.grad is not None):                param.grad = self.grad_backup[name]

2. 虚拟对抗训练

抽取一个随机标准正态扰动，加到embedding上，并用KL散度计算扰动的梯度，然后用得到的梯度，计算对抗扰动，并进行对抗训练，实现方法跟FGM差不多。特别提到的一点是，因为其思路也有额外的一致性损失的loss，因此可以用于半监督学习，在无监督数据集合上计算一致性的loss。参考链接如下：

泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练 - 科学空间|Scientific Spaces

https://kexue.fm/archives/7466

bert4torch代码实现

https://link.zhihu.com/?target=https%3A//github.com/Tongjilibo/bert4torch/blob/master/bert4torch/snippets.py%23L960

class VAT():    '''虚拟对抗训练 https://github.com/namisan/mt-dnn/blob/v0.2/alum/adv_masked_lm.py    '''    def __init__(self, model, emb_name='word_embeddings', noise_var=1e-5, noise_gamma=1e-6, adv_step_size=1e-3,                  adv_alpha=1, norm_type='l2', **kwargs):        self.model = model        self.noise_var = noise_var  # 噪声的方差        self.noise_gamma = noise_gamma # eps        self.adv_step_size = adv_step_size  # 学习率        self.adv_alpha = adv_alpha  # 对抗loss的权重        self.norm_type = norm_type  # 归一化方式        self.embed = None        for (name, module) in self.model.named_modules():            if emb_name in name:                module.register_forward_hook(hook=self.hook)
    def hook(self, module, fea_in, fea_out):        self.embed = fea_out        return None        def forward_(self, train_X, new_embed):        # 把原来的train_X中的token_ids换成embedding形式        if isinstance(train_X, (tuple, list)):            new_train_X = [new_embed] + train_X[1:]            adv_output = self.model.forward(*new_train_X) if self.model.forward.__code__.co_argcount >= 3 else self.model.forward(new_train_X)        elif isinstance(train_X, torch.Tensor):            adv_output = self.model.forward(new_embed)        return adv_output
    def virtual_adversarial_training(self, train_X, logits):        # 初始扰动 r        noise = self.embed.data.new(self.embed.size()).normal_(0, 1) * self.noise_var        noise.requires_grad_()        # x + r        new_embed = self.embed.data.detach() + noise        adv_output = self.forward_(train_X, new_embed)  # forward第一次        adv_logits = adv_output[0] if isinstance(adv_output, (list, tuple)) else adv_output        adv_loss = self.kl(adv_logits, logits.detach(), reduction="batchmean")        delta_grad, = torch.autograd.grad(adv_loss, noise, only_inputs=True)        norm = delta_grad.norm()        # 梯度消失，退出        if torch.isnan(norm) or torch.isinf(norm):            return None        # inner sum        noise = noise + delta_grad * self.adv_step_size        # projection        noise = self.adv_project(noise, norm_type=self.norm_type, eps=self.noise_gamma)        new_embed = self.embed.data.detach() + noise        new_embed = new_embed.detach()        # 在进行一次训练        adv_output = self.forward_(train_X, new_embed)  # forward第二次        adv_logits = adv_output[0] if isinstance(adv_output, (list, tuple)) else adv_output        adv_loss_f = self.kl(adv_logits, logits.detach())        adv_loss_b = self.kl(logits, adv_logits.detach())        # 在预训练时设置为10，下游任务设置为1        adv_loss = (adv_loss_f + adv_loss_b) * self.adv_alpha        return adv_loss        @staticmethod    def kl(inputs, targets, reduction="sum"):        """        计算kl散度        inputs：tensor，logits        targets：tensor，logits        """        loss = F.kl_div(F.log_softmax(inputs, dim=-1), F.softmax(targets, dim=-1), reduction=reduction)        return loss
    @staticmethod    def adv_project(grad, norm_type='inf', eps=1e-6):        """        L0,L1,L2正则，对于扰动计算        """        if norm_type == 'l2':            direction = grad / (torch.norm(grad, dim=-1, keepdim=True) + eps)        elif norm_type == 'l1':            direction = grad.sign()        else:            direction = grad / (grad.abs().max(-1, keepdim=True)[0] + eps)        return direction

3. 梯度惩罚

主要思路还是源于对抗训练，是论证了对输入样本施加对抗扰动，一定程度上等价于往loss里边加入“梯度惩罚”，使用方法其实就是在loss里面加入了对某些层（一般是embedding层）的梯度的平方项目

对抗训练浅谈：意义、方法和思考（附Keras实现） - 科学空间|Scientific Spaces

https://kexue.fm/archives/7234

4. R-drop

思路就是在监督学习loss外增加一个一致性损失（一般是kl散度），样本的构建方式也比较暴力，两次dropout（类似simcse的无监督训练），因此也可以用于半监督训练

bert4torch代码实现

https://github.com/Tongjilibo/bert4torch/blob/master/bert4torch/losses.py#L134

class RDropLoss(nn.Module):    '''R-Drop的Loss实现，官方项目：https://github.com/dropreg/R-Drop    '''    def __init__(self, alpha=4, rank='adjacent'):        super().__init__()        self.alpha = alpha        # 支持两种方式，一种是奇偶相邻排列，一种是上下排列        assert rank in {'adjacent', 'updown'}, "rank kwarg only support 'adjacent' and 'updown' "        self.rank = rank        self.loss_sup = nn.CrossEntropyLoss()        self.loss_rdrop = nn.KLDivLoss(reduction='none')
    def forward(self, *args):        '''支持两种方式: 一种是y_pred, y_true, 另一种是y_pred1, y_pred2, y_true        '''        assert len(args) in {2, 3}, 'RDropLoss only support 2 or 3 input args'        # y_pred是1个Tensor        if len(args) == 2:            y_pred, y_true = args            loss_sup = self.loss_sup(y_pred, y_true)  # 两个都算
            if self.rank == 'adjacent':                y_pred1 = y_pred[1::2]                y_pred2 = y_pred[::2]            elif self.rank == 'updown':                half_btz = y_true.shape[0] // 2                y_pred1 = y_pred[:half_btz]                y_pred2 = y_pred[half_btz:]        # y_pred是两个tensor        else:            y_pred1, y_pred2, y_true = args            loss_sup = self.loss_sup(y_pred1, y_true)
        loss_rdrop1 = self.loss_rdrop(F.log_softmax(y_pred1, dim=-1), F.softmax(y_pred2, dim=-1))        loss_rdrop2 = self.loss_rdrop(F.log_softmax(y_pred2, dim=-1), F.softmax(y_pred1, dim=-1))        return loss_sup + torch.mean(loss_rdrop1 + loss_rdrop2) / 4 * self.

5. mix-up

之前在看美团一篇小样本的文章时候，提到mix-up是提分利器。mix-up源于cv领域，主要思路是在训练数据中抽取两个样本，构造混合样本和混合标签，用于新的增广数据。直观的看，其实就是希望模型输入未另外两个输入的线性组合时，输出也是各自输出的线性组合，即希望模型近似未一个线性系统，来防止过拟合。参考如下

小样本学习及其在美团场景中的应用

https://tech.meituan.com/2021/08/19/low-resource-learning.html

https://github.com/Tongjilibo/bert4torch/blob/master/bert4torch/layers.py#L1297

https://github.com/Tongjilibo/bert4torch/blob/master/bert4torch/layers.py#L1297

class MixUp(nn.Module):    '''mixup方法实现        method: embed, encoder分别表示在embedding和encoder层面做mixup, None表示mix后续处理, hidden表示对隐含层做mixup    '''    def __init__(self, method='encoder', alpha=1.0, layer_mix=None):        super().__init__()        assert method in {'embed', 'encoder', 'hidden', None}        self.method = method        self.alpha = alpha        self.perm_index = None        self.lam = 0        self.layer_mix = layer_mix  # 需要mix的隐含层index        def get_perm(self, inputs):        if isinstance(inputs, torch.Tensor):            return inputs[self.perm_index]        elif isinstance(inputs, (list, tuple)):            return [inp[self.perm_index] if isinstance(inp, torch.Tensor) else inp for inp in inputs]        def mix_up(self, output, output1):        if isinstance(output, torch.Tensor):            return self.lam * output + (1.0-self.lam) * output1        elif isinstance(output, (list, tuple)):            output_final = []            for i in range(len(output)):                if output[i] is None: # conditional_emb=None                    output_final.append(output[i])                elif (not output[i].requires_grad) and (output[i].dtype in {torch.long, torch.int}):                    # 不是embedding形式的                    output_final.append(torch.max(output[i], output1[i]))                else:                    output_final.append(self.lam * output[i] + (1.0-self.lam) * output1[i])            return output_final        else:            raise ValueError('Illegal model output')
    def encode(self, model, inputs):        batch_size = inputs[0].shape[0]        device = inputs[0].device        self.lam = np.random.beta(self.alpha, self.alpha)        self.perm_index = torch.randperm(batch_size).to(device)
        if self.method is None:            output = model(inputs)            output1 = self.get_perm(output)            return [output, output1]
        elif self.method == 'encoder':            output = model(inputs)            output1 = self.get_perm(output)            output_final = self.mix_up(output, output1)
        elif self.method == 'embed':            output = model.apply_embeddings(inputs)            output1 = self.get_perm(output)            output_final = self.mix_up(output, output1)            # Main            output_final = model.apply_main_layers(output_final)            # Final            output_final = model.apply_final_layers(output_final)                elif self.method == 'hidden':            if self.layer_mix is None:                # 这里暂时只考虑encoderLayer, 不考虑decoderLayer和seq2seq模型结构                try:                    layer_mix = random.randint(0, len(model.encoderLayer))                except:                    warnings.warn('LayerMix random failded')                    layer_mix = 0            else:                layer_mix = self.layer_mix                        def apply_on_layer_end(l_i, output):                if l_i == layer_mix:                    output1 = self.get_perm(output)                    return self.mix_up(output, output1)                else:                    return output            model.apply_on_layer_end = apply_on_layer_end            output_final = model(inputs)        return output_final        def forward(self, criterion, y_pred, y_true):        '''计算loss        '''        y_true1 = y_true[self.perm_index]        return self.lam * criterion(y_pred, y_true) + (1 - self.lam) * criterion(y_pred, y_true1)

6. UDA

笔者认为，UDA, VAT, R-drop的思路都是在正常的监督学习损失外，增加一个一致性损失，只是其构造一致性损失样本的方式不太一样，VAT是对embedding层加扰动，R-drop是两次dropout, UDA则是直接在文本层面，利用EDA、回译等策略来构造相似样本，三者都可以应用在半监督学习中

bert4torch代码实现

https://github.com/Tongjilibo/bert4torch/blob/master/bert4torch/losses.py#L172

class UDALoss(nn.Module):    '''UDALoss，使用时候需要继承一下，因为forward需要使用到global_step和total_steps    https://arxiv.org/abs/1904.12848    '''    def __init__(self, tsa_schedule=None, total_steps=None, start_p=0, end_p=1, return_all_loss=True):        super().__init__()        self.loss_sup = nn.CrossEntropyLoss()        self.loss_unsup = nn.KLDivLoss(reduction='batchmean')        self.tsa_schedule = tsa_schedule        self.start = start_p        self.end = end_p        if self.tsa_schedule:            assert self.tsa_schedule in {'linear_schedule', 'exp_schedule', 'log_schedule'}, 'tsa_schedule config illegal'        self.return_all_loss = return_all_loss
    def forward(self, y_pred, y_true_sup, global_step, total_steps):        sup_size = y_true_sup.size(0)        unsup_size = (y_pred.size(0) - sup_size) // 2
        # 有监督部分, 用交叉熵损失        y_pred_sup = y_pred[:sup_size]        if self.tsa_schedule is None:            loss_sup = self.loss_sup(y_pred_sup, y_true_sup)        else:  # 使用tsa来去掉预测概率较高的有监督样本            threshold = self.get_tsa_threshold(self.tsa_schedule, global_step, total_steps, self.start, self.end)            true_prob = torch.gather(F.softmax(y_pred_sup, dim=-1), dim=1, index=y_true_sup[:, None])            sel_rows = true_prob.lt(threshold).sum(dim=-1).gt(0)  # 仅保留小于阈值的样本            loss_sup = self.loss_sup(y_pred_sup[sel_rows], y_true_sup[sel_rows]) if sel_rows.sum() > 0 else 0
        # 无监督部分，这里用KL散度，也可以用交叉熵        y_true_unsup = y_pred[sup_size:sup_size+unsup_size]        y_true_unsup = F.softmax(y_true_unsup.detach(), dim=-1)        y_pred_unsup = F.log_softmax(y_pred[sup_size+unsup_size:], dim=-1)        loss_unsup = self.loss_unsup(y_pred_unsup, y_true_unsup)        if self.return_all_loss:            return loss_sup + loss_unsup, loss_sup, loss_unsup        else:            return loss_sup + loss_unsup
    @ staticmethod    def get_tsa_threshold(schedule, global_step, num_train_steps, start, end):        training_progress = global_step / num_train_steps        if schedule == "linear_schedule":            threshold = training_progress        elif schedule == "exp_schedule":            scale = 5            threshold = math.exp((training_progress - 1) * scale)        elif schedule == "log_schedule":            scale = 5            threshold = 1 - math.exp((-training_progress) * scale)        return threshold * (end - start) + start

三、实验对比

下面是以情感分类为例，cls分类的结果，这里取结果是取valid最优的那个epoch，从结果来看，大部分策略是有点效果的

四、代码

talk is cheap, show me the code。全部代码测试都是基于bert4torch框架，这是一个基于pytorch的训练框架，前期以效仿和实现bert4keras的主要功能为主，特点是尽量简洁轻量，提供丰富示例，有兴趣的小伙伴可以试用，欢迎star。

bert4torch

https://github.com/Tongjilibo/bert4torch/tree/master/examples/training_trick

你可能感兴趣的:(深度学习,python,人工智能,自然语言处理,word2vec)

基于深度学习的半导体检测与预测算法研究(二) 埃菲尔铁塔_CV算法深度学习人工智能神经网络 opencv 计算机视觉 python
摘要随着半导体行业的飞速发展，对生产过程中的检测和性能预测提出了更高要求。深度学习凭借其强大的数据处理和特征提取能力，在半导体领域展现出巨大的应用潜力。本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术，并通过实际案例验证了深度学习算法在
基于深度学习的半导体算法原理及应用埃菲尔铁塔_CV算法算法机器学习人工智能计算机视觉深度学习 python
摘要随着半导体产业的持续发展，深度学习技术在该领域的应用日益广泛且深入。本文全面阐述了基于深度学习的半导体算法原理，涵盖卷积神经网络（CNN）、循环神经网络（RNN）及其变体长短时记忆网络（LSTM）和门控循环单元（GRU）等在半导体制造过程监测、缺陷检测、性能预测等方面的应用。详细分析了这些算法处理半导体相关数据的机制，探讨了算法实现中的关键技术，如数据预处理、模型训练与优化等。通过实际案例展示
计算机视觉国内外研究现状（综述）埃菲尔铁塔_CV算法计算机视觉
1.国内外研究进展1.2.1特征提取研究进展特征提取是图像处理的一个重要环节，是进行身份识别和行为识别的重要部分。近年来，针对不同特征的提取，国内外学者提出了许多特征提取算法，同样特征提取的效果大都不错。但是在复杂的猪舍环境中提取猪的特征还是比较困难的。下面针对几种目前常用的特征提取算法进行一些介绍。（1）传统的特征提取算法传统特征提取算法已经发展了很久，现阶段比较成熟，是深度学习算法出来之前研究
【pickle】详解python中的pickle模块（常用函数、示例）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程中，数据的存储和传输是常见的操作需求。有时，我们需要将复杂的数据对象保存到文件中以便后续使用，或者在不同的程序之间传递对象。Python的pickle模块提供了一种方便的解决方案，它能够实现对象的序列化和反序列化，使得数据的持久化和共享变得更加容易。1、序列化、反序列化介绍序列化：把对象转换为字节序列的过程称为对象的序列化。反序列化：把字节序列恢复为对象的过程称为对象的反序列化。
玩转序列化，用这个库就对了：Python的pickle库正东AI Python python java android Python pickle
文章目录玩转序列化，用这个库就对了：Python的pickle库背景什么是pickle库？如何安装这个库？5个简单的库函数使用方法dump函数load函数dumps函数loads函数高级用法：使用协议5个场景使用代码说明场景1：保存和加载自定义类实例场景2：保存和加载复杂数据结构场景3：跨网络传输Python对象场景4：多进程中使用pickle场景5：使用pickle进行深拷贝常见3个bug以及解
DeepSeek预言未来5年升值最快的东西 ZhuBin365 其它人工智能机器人
Thinking好的，我现在需要思考未来5年哪些东西可能会升值最快。首先，我得考虑当前的经济趋势和技术发展的方向。通货膨胀可能继续，所以实物资产可能保值。然后是科技领域，比如人工智能、量子计算这些前沿技术相关的资产可能会有增长。接着，环保和可持续发展是热门话题，可再生能源相关的产业可能会增值。例如，太阳能、风能的公司股票或者相关技术专利。另外，电动汽车和电池技术也可能持续发展，锂、钴等稀有金属的需
第1关：查找第一个匹配的字符串 -阿呆- #正则表达式入门 python
任务描述本关任务：学会导入python的正则表达式库，使用该库方法的search方法编写一个匹配小程序。该方法能查看某个学生名字是否在此学生信息中。相关知识为了完成本关任务，你需要掌握：如何在python中引入正则表达式库；re库中search方法的使用。1、在Python中使用正则表达式正可谓人生苦短，我用Python。Python有个特点就是库非常多，自然拥有正则匹配这种常见的库，并且此库已经
【深入探索-deepseek】高等数学与AI的因果关系我的青春不太冷人工智能机器学习数学
目录数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数2.微积分3.概率论与统计二、自然语言处理领域三、语音识别领域四、数学在AI不同领域应用的逻辑图五、参考资料数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数图像变换：想象我们有一张二维图片，图片里有个点，它的位置用坐标((x,y))表示。现在我们想把这个点绕着图片的原点（就像把纸钉在墙上，以钉子的位置为中心）逆时针旋转一定角度
LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！大模型入门学习产品经理语言模型人工智能 DeepSeek 大模型学习 LLM
前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
作业练习（python) Justice link 算法
第一题：cel=eval(input())fah=9/5*cel+32print("%.1f"%fah)第二题：radius,length=eval(input())area=radius*radius*3.14159267volume=area*lengthprint("%.2f"%area)print("%.2f"%volume)第三题：num=eval(input())result=num*
前瞻技术：塑造未来生活的新趋势火龙果wa 生活人工智能经验分享
人工智能在艺术创作中的应用越来越普遍。AI可以生成画作、音乐和文学作品。它通过分析大量数据，学习艺术风格，并能创造出独特的作品。AI创作的艺术作品有几个特点。首先，它可以快速完成创作，节省时间。第二，AI能够融合多种风格。这使得作品更加多样化，有了新的表现形式。此外，AI常常会产生一些意想不到的创意，这能激发人们的灵感。艺术家与AI的合作也在逐渐发展。很多艺术家开始尝试与AI共同创作。他们使用AI
python 学习路线 Coding Happily python 学习 windows
学习顺序《python编程：从入门到实践》《Head-FirstPython》《“笨方法”学python3》《PythonCookbook》《Python机器学习基础教程》《FluentPython》《Python编程》《Python编程：从入门到实践》变量变量命名：仅用小写和下划线。变量本质:指向特定的值。字符串在字符串中使用变量：f’{varies1}{varies2}’更早版本:‘{}{}’
Python 中调用 DeepSeek API 的方法，一文讲述清尘沐歌 deepseek api Deepseek
通过Python调用DeepSeek的R1大模型API，即使没有编程基础也能轻松上手。详见：Python调用DeepSeekAPI（R1&V3）的方法，超详细教程
4.Python教程--项目部署篇（全）花开如雨笔记
Python人工智能总目录人工智能总目录网页链接文章目录Python人工智能总目录13、Python运维Day0113.1运维1.运维概述2.运维工具3.Linux常用命令4.周期性计划任务5.awk的使用14、Python项目部署Day0114.1项目部署1.概念2.项目部署(nginx+uwsgi+django)3.部署在线商城项目13、Python运维Day0113.1运维1.运维概述1、运
Day 4：API高级开发指南翻晒时光 DeepSeek python ai
目标：构建高可用、高并发的企业级API服务系统一、流式响应工程化实践1.1流式传输核心机制技术架构对比：传输方式延迟显存占用适用场景标准响应2.1s12GB短文本生成流式响应首包300ms4GB长文档/实时交互Python异步流处理：importasynciofromdeepseekimportAsyncDeepSeekasyncdefstream_response(prompt):client=
《Python无限弹窗小程序：给你一个流氓表白小妙招！》后端工匠之道 Python爱心代码 python 小程序产品运营
一、无限弹窗的用途这个程序的用途非常广泛，比如：告白神器：对于害羞的小伙伴，可以用这个小工具来表白哦！趣味恶搞：在同事或朋友电脑上运行，绝对能带来一波欢乐。二、Python实现无限弹窗为了实现这个效果，我们将使用Python中的tkinter库。tkinter是Python内置的GUI库，不需要额外安装，简单易上手。代码示例：无限次弹窗（附粉色背景）importtkinterastkimportr
《教你用Python写出浪漫的表白代码》后端工匠之道 Python爱心代码 python 开发语言
《教你用Python写出浪漫的表白代码》最简单的教程，亲测可用1.引言你有没有想过用代码来表达爱意？今天我将带你用Python实现一个浪漫的表白代码！代码简单有趣，新手也能轻松上手。让我们一起用Python绘制出心形图案吧。2.环境准备在开始之前，请确保已经安装了Python的matplotlib库，这是一个用于绘制图形的库。可以用以下命令安装：pipinstallmatplotlib3.代码实现
DeepSeek深度探索：从新手到高手的蜕变之旅古龙飞扬 ai 人工智能
引言在当今数字化与智能化的浪潮中，人工智能（AI）技术正以前所未有的速度改变着我们的生活和工作方式。DeepSeek，作为一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型，凭借其强大的功能和灵活的应用场景，成为了众多企业和专业人士的得力助手。本文将带你深入了解DeepSeek，从新手入门到高手进阶，掌握其核心功能与使用技巧，实现个人能力的蜕变。一、初识DeepSeek：人工智能的“
Python调用NVIDIA的Deepseek-r1接口 ljz2016 python android javascript
importosimportjsonfromopenaiimportOpenAIfromopenaiimportOpenAIErrorclient=OpenAI(base_url="https://integrate.api.nvidia.com/v1",api_key=os.getenv("NVIDIA_API_KEY"))#初始化对话历史#定义存储对话历史的JSON文件路径HISTORY_FI
如何在生产环境中部署您的Python项目：一步步指南一休哥助手 python python
引言简介：为什么要了解部署？在软件开发的生命周期中，部署是一个至关重要的环节。它涉及将开发完成的应用程序从开发环境移植到生产环境，使其可以为用户提供服务。部署不仅是软件开发过程的延伸，更是确保应用程序高效、安全、可靠运行的关键步骤。部署的重要性正确和高效的部署能够确保软件在生产环境中稳定运行，减少由于配置错误、依赖问题或安全漏洞导致的问题。此外，合适的部署策略还能提高系统的可维护性和扩展性，为后续
联想Y7000 2024版本笔记本 RTX4060安装ubuntu22.04双系统及深度学习环境配置七七@你一起学习深度学习 python
目录1..制作启动盘2.Windows磁盘分区，删除原来ubuntu的启动项3.四个设置4.安装ubuntu5.ubuntu系统配置1..制作启动盘先下载镜像文件，注意版本对应。Rufus-轻松创建USB启动盘用rufus制作时，需要注意选择正确的分区类型和系统类型。不然安装的系统会有问题！2.Windows磁盘分区，删除原来ubuntu的启动项手把手教你调整电脑磁盘的分区大小_调整分区大小-CS
AI前端开发的国际化发展机遇：ScriptEcho助力全球化布局 2401_89747417 人工智能前端
在全球化的今天，互联网应用已不再局限于单一市场。高效便捷的前端开发方案成为企业拓展国际市场的关键。得益于人工智能技术的飞速发展，AI代码生成器正在深刻改变前端开发模式，为国际化应用开发带来前所未有的机遇。然而，国际化开发也面临着诸多挑战，例如不同地区用户习惯、技术标准、语言差异等等。本文将探讨AI前端开发在国际化市场中的机遇与挑战，并以ScriptEcho为例，分析AI工具如何助力企业实现高效的全
python栈实战迷宫寻找出口 #岩王爷深度优先算法
迷宫问题，作为计算机科学和算法设计中的一个经典问题，不仅考验了我们对数据结构的理解和应用，还锻炼了我们解决复杂问题的能力。在众多的解决方案中，利用栈来实现深度优先搜索（DFS）是一种直观且高效的方法。栈，作为一种基础的数据结构，其特性使得它在处理需要回溯的场景时显得尤为合适。在迷宫问题中，当我们沿着某条路径深入探索时，可能会遇到无法继续前行的死胡同。此时，栈的作用就凸显出来了：我们可以将当前的位置
【鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪】萌虎不虎 OpenHarmony harmonyos opencv 华为
鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪OpenCV介绍OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。它由一系列的C函数和少量C++类构成，同时提供Python、Java和MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV具有极广的应用领域，它包括但不限于：人脸识别和物
Python 数据结构：列表、元组、字典和集合咱家阿星 python python 数据结构
Python数据结构：列表、元组、字典和集合在Python中，数据结构用于组织和存储数据。了解并掌握这些数据结构是编程的基础。本篇文章介绍列表(List)、元组(Tuple)、字典(Dict)和集合(Set)，以及常用的方法和示例。|下面分为两大部分、1基础操作、2对集合遍历和使用一、Python数据结构基础1.列表(List)列表是一个有序且可变的数据集合，可以存储不同类型的元素。创建和访问列表
深入理解Python中的数据结构：元组（Tuple）圣逸从入门到精通Python语言 python 数据结构 java 开发语言 javascript scala
前言在Python编程中，元组（Tuple）是一种非常常用且不可变的数据结构。与列表不同，元组一旦创建，其元素就不能再被修改。这种不可变性使元组在某些特定场景中具有独特的优势，比如作为函数的返回值、多值赋值等。这篇博文将深入探讨Python元组的各种特性、操作及其使用场景，希望能帮助读者更好地理解和使用这一重要的数据结构。目录什么是元组（Tuple）元组的创建与初始化元组的基本操作访问元素元组的不
scrapyrt 部署到docker 花阴偷移 scrapy docker docker python scrapy
一.背景scrapyrt是实时抓取api框架，我们生产环境一直使用默认的python3.6.8环境，来部署的scrapyrt。但由于自动化抓取playwright至少需要python3.7以上，又因为阿里云centos8默认的python3.6.8升级后带来很多不便，现在需要将scrapyrt部署到docker中,在docker中scrapyrt基于python3.8。1.1scrapyrt官方d
中国人工智能的起步/发展，与这位数学家密切相关东锋1.3 人工智能人工智能
1979年在中国是一个重要的年份。这一年发生了诸多大事，也被视为中国在政治、经济、科技、文化等多个领域的一个重要转折点和中国近现代历史重要的时期断代点之一。相比1979年所开启的波澜壮阔的新时代，中国人工智能(ArtificialIntelligence，AI)研究在1979年的起步只能算历史大潮中的一朵不起眼的浪花，但在中国人工智能的历史里，这是开天辟地的大事件。人工智能最早的学派是符号主义学派
今日AI和商界事件(2025-02-07) LS_learner AI和商界事件人工智能
今日AI领域的相关事件包括但不限于以下几个方面：一、政策与监管美国众议员推动禁止政府设备使用中国AI应用DeepSeek：美国众议院两名来自两党的议员提议立法，禁止联邦政府设备使用中国人工智能应用DeepSeek，理由是中国政府可能利用该应用进行监视和散布虚假信息。这一事件反映了地缘政治紧张背景下，各国在关键技术领域对自主性和安全性的重视。二、行业动态与发展OpenAI推进“星际之门”项目：Ope
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb