算法码上来

从零开始训练一个人工智障女友

很多人工智能小白可能不知道那些高大上的语音助理、机器翻译或者聊天机器人都是怎么被创造出来的，也不知道一个深度学习模型是怎么从零开始搭建并运行起来的。

今天我就简单教大家如何从零开始搭建一个Transformer模型，并在自己的数据上训练起来。这个教程非常基础，所以训练出来的模型也很傻瓜，适合零基础小白长知识用。

首先整个训练流程可以分为下面几步，我们在后面章节依次介绍：

处理数据
创建模型
创建损失函数
创建参数优化器
进行训练
进行预测

安装环境

这里我们需要使用到的有三样东西：

训练深度学习模型需要用PyTorch。
对句子进行分词处理需要用Hugging Face的分词器。
搭建Transformer模型需要用LightSeq的快速模型、损失函数以及参数优化器。

所以运行下面安装命令即可：

pip3 install torch transformers
git clone https://github.com/bytedance/lightseq.git
cd lightseq
pip3 install -e .

然后导入必要的一些文件：

import torch
from transformers import BertTokenizer
from lightseq.training import LSTransformer, LSCrossEntropyLayer, LSAdam

处理数据

因为深度学习模型擅长和数字打交道，所以你需要将你说的话或者写的句子变成一串整数id，用来表示每个单词在词表中的序号。

这里我们使用到的是Hugging Face的分词器，它能帮你把输入的句子直接变成一串整数id，非常便捷。

def create_data():
    # 创建Hugging Face分词器
    tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
    vocab_size = tokenizer.vocab_size
    sep_id = tokenizer.encode(
        tokenizer.special_tokens_map["sep_token"], add_special_tokens=False
    )[0]

    # 将源文本映射成整数id
    src_text = [
        "What is the fastest library in the world?",
        "You are so pretty!",
        "What do you love me for?",
        "The sparrow outside the window hovering on the telephone pole.",
    ]
    src_tokens = tokenizer.batch_encode_plus(
        src_text, padding=True, return_tensors="pt"
    )
    src_tokens = src_tokens["input_ids"].to(torch.device("cuda:0"))
    batch_size, src_seq_len = src_tokens.size(0), src_tokens.size(1)

    # 将目标文本映射成整数id
    trg_text = [
        "I guess it must be LightSeq, because ByteDance is the fastest.",
        "Thanks very much and you are pretty too.",
        "Love your beauty, smart, virtuous and kind.",
        "You said all this is very summery.",
    ]
    trg_tokens = tokenizer.batch_encode_plus(
        trg_text, padding=True, return_tensors="pt"
    )
    trg_tokens = trg_tokens["input_ids"].to(torch.device("cuda:0"))
    trg_seq_len = trg_tokens.size(1)

    # 将目标文本左移1个单词位置，用来作为解码端输出
    target = trg_tokens.clone()[:, 1:]
    trg_tokens = trg_tokens[:, :-1]

    return (
        tokenizer,
        src_text,
        src_tokens,
        trg_text,
        trg_tokens,
        target,
        sep_id,
        vocab_size,
        batch_size,
        src_seq_len,
        trg_seq_len,
    )

代码中注释写的非常清楚了，只需要创建输入文本和输出文本即可，而标准的解码端输出就是输出文本左移一个单词，也就是每个单词输入后预测下一个单词是什么。

创建模型

这里我们使用Transformer-base模型进行训练，使用LightSeq来创建Transformer模型非常简单，只需要创建一个配置，然后用它就能创建Transformer模型了。

def create_model(vocab_size):
    transformer_config = LSTransformer.get_config(
        model="transformer-base",
        max_batch_tokens=2048,
        max_seq_len=512,
        vocab_size=vocab_size,
        padding_idx=0,
        num_encoder_layer=6,
        num_decoder_layer=6,
        fp16=True,
        local_rank=0,
    )
    model = LSTransformer(transformer_config)
    model.to(dtype=torch.half, device=torch.device("cuda:0"))
    return model

创建损失函数

这里我们使用交叉熵损失函数，使用LightSeq来创建同样非常简单，只需要创建一个配置。

def create_criterion():
    ce_config = LSCrossEntropyLayer.get_config(
        max_batch_tokens=2048,
        padding_idx=0,
        epsilon=0.0,
        fp16=True,
        local_rank=0,
    )
    loss_fn = LSCrossEntropyLayer(ce_config)
    loss_fn.to(dtype=torch.half, device=torch.device("cuda:0"))
    return loss_fn

创建参数优化器

使用LightSeq来创建参数优化器的过程和平常使用PyTorch创建一模一样，只要一行代码就行了。

opt = LSAdam(model.parameters(), lr=1e-5)

进行训练

模型训练过程也和平常一模一样，这里我们训练2000轮。因为训练过程中需要知道目标端的文本是什么，所以需要输入源端和目标端两个文本。

print("========================TRAIN========================")
model.train()
for epoch in range(2000):
    output = model(src_tokens, trg_tokens)
    loss, _ = loss_fn(output, target)
    if epoch % 200 == 0:
        print("epoch {:03d}: {:.3f}".format(epoch, loss.item()))
    loss.backward()
    opt.step()

进行预测

在模型训练好之后，我们用它进行预测。这时候你就不知道目标端的文本是什么了，你只能输入源端文本，然后目标端输入一个句子开始标记，后面的目标端文本都得通过模型预测得到。

print("========================TEST========================")
model.eval()
# 获得编码器的输出和掩码表示
encoder_out, encoder_padding_mask = model.encoder(src_tokens)
# 使用目标端文本的第一个单词作为解码器的初始输入，预测后面单词
predict_tokens = trg_tokens[:, :1]
cache = {}
for _ in range(trg_seq_len - 1):
    # 使用缓存来加速解码速度
    output = model.decoder(
        predict_tokens[:, -1:], encoder_out, encoder_padding_mask, cache
    )
    # 预测下一个单词
    output = torch.reshape(torch.argmax(output, dim=-1), (batch_size, -1))
    # 将预测得到的单词和历史预测拼接，作为最终预测结果
    predict_tokens = torch.cat([predict_tokens, output], dim=-1)
# 将结束符后的单词都标记为结束符
mask = torch.cumsum(torch.eq(predict_tokens, sep_id).int(), dim=1)
predict_tokens = predict_tokens.masked_fill(mask > 0, sep_id)
# 将预测结果的id还原为文本
predict_text = tokenizer.batch_decode(predict_tokens, skip_special_tokens=True)
print(">>>>> source text")
print("\n".join(src_text))
print(">>>>> target text")
print("\n".join(trg_text))
print(">>>>> predict text")
print("\n".join(predict_text))

完整代码

完整代码如下，保存在run.py里面，然后运行下面命令就行了：

python3 run.py

import torch
from transformers import BertTokenizer
from lightseq.training import LSTransformer, LSCrossEntropyLayer, LSAdam


def create_data():
    # 创建Hugging Face分词器
    tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
    vocab_size = tokenizer.vocab_size
    sep_id = tokenizer.encode(
        tokenizer.special_tokens_map["sep_token"], add_special_tokens=False
    )[0]

    # 将源文本映射成整数id
    src_text = [
        "What is the fastest library in the world?",
        "You are so pretty!",
        "What do you love me for?",
        "The sparrow outside the window hovering on the telephone pole.",
    ]
    src_tokens = tokenizer.batch_encode_plus(
        src_text, padding=True, return_tensors="pt"
    )
    src_tokens = src_tokens["input_ids"].to(torch.device("cuda:0"))
    batch_size, src_seq_len = src_tokens.size(0), src_tokens.size(1)

    # 将目标文本映射成整数id
    trg_text = [
        "I guess it must be LightSeq, because ByteDance is the fastest.",
        "Thanks very much and you are pretty too.",
        "Love your beauty, smart, virtuous and kind.",
        "You said all this is very summery.",
    ]
    trg_tokens = tokenizer.batch_encode_plus(
        trg_text, padding=True, return_tensors="pt"
    )
    trg_tokens = trg_tokens["input_ids"].to(torch.device("cuda:0"))
    trg_seq_len = trg_tokens.size(1)

    # 将目标文本左移1个单词位置，用来作为解码端输出
    target = trg_tokens.clone()[:, 1:]
    trg_tokens = trg_tokens[:, :-1]

    return (
        tokenizer,
        src_text,
        src_tokens,
        trg_text,
        trg_tokens,
        target,
        sep_id,
        vocab_size,
        batch_size,
        src_seq_len,
        trg_seq_len,
    )


def create_model(vocab_size):
    transformer_config = LSTransformer.get_config(
        model="transformer-base",
        max_batch_tokens=2048,
        max_seq_len=512,
        vocab_size=vocab_size,
        padding_idx=0,
        num_encoder_layer=6,
        num_decoder_layer=6,
        fp16=True,
        local_rank=0,
    )
    model = LSTransformer(transformer_config)
    model.to(dtype=torch.half, device=torch.device("cuda:0"))
    return model


def create_criterion():
    ce_config = LSCrossEntropyLayer.get_config(
        max_batch_tokens=2048,
        padding_idx=0,
        epsilon=0.0,
        fp16=True,
        local_rank=0,
    )
    loss_fn = LSCrossEntropyLayer(ce_config)
    loss_fn.to(dtype=torch.half, device=torch.device("cuda:0"))
    return loss_fn


if __name__ == "__main__":
    (
        tokenizer,
        src_text,
        src_tokens,
        trg_text,
        trg_tokens,
        target,
        sep_id,
        vocab_size,
        batch_size,
        src_seq_len,
        trg_seq_len,
    ) = create_data()
    model = create_model(vocab_size)
    loss_fn = create_criterion()
    opt = LSAdam(model.parameters(), lr=1e-5)

    print("========================TRAIN========================")
    model.train()
    for epoch in range(2000):
        output = model(src_tokens, trg_tokens)
        loss, _ = loss_fn(output, target)
        if epoch % 200 == 0:
            print("epoch {:03d}: {:.3f}".format(epoch, loss.item()))
        loss.backward()
        opt.step()

    print("========================TEST========================")
    model.eval()
    # 获得编码器的输出和掩码表示
    encoder_out, encoder_padding_mask = model.encoder(src_tokens)
    # 使用目标端文本的第一个单词作为解码器的初始输入，预测后面单词
    predict_tokens = trg_tokens[:, :1]
    cache = {}
    for _ in range(trg_seq_len - 1):
        # 使用缓存来加速解码速度
        output = model.decoder(
            predict_tokens[:, -1:], encoder_out, encoder_padding_mask, cache
        )
        # 预测下一个单词
        output = torch.reshape(torch.argmax(output, dim=-1), (batch_size, -1))
        # 将预测得到的单词和历史预测拼接，作为最终预测结果
        predict_tokens = torch.cat([predict_tokens, output], dim=-1)
    # 将结束符后的单词都标记为结束符
    mask = torch.cumsum(torch.eq(predict_tokens, sep_id).int(), dim=1)
    predict_tokens = predict_tokens.masked_fill(mask > 0, sep_id)
    # 将预测结果的id还原为文本
    predict_text = tokenizer.batch_decode(predict_tokens, skip_special_tokens=True)
    print(">>>>> source text")
    print("\n".join(src_text))
    print(">>>>> target text")
    print("\n".join(trg_text))
    print(">>>>> predict text")
    print("\n".join(predict_text))

如果运行顺利的话，你会看到下面的输出信息：

========================TRAIN========================
TransformerEmbeddingLayer #0 bind weights and grads.
TransformerEncoderLayer #0 bind weights and grads.
TransformerEncoderLayer #1 bind weights and grads.
TransformerEncoderLayer #2 bind weights and grads.
TransformerEncoderLayer #3 bind weights and grads.
TransformerEncoderLayer #4 bind weights and grads.
TransformerEncoderLayer #5 bind weights and grads.
TransformerEmbeddingLayer #1 bind weights and grads.
TransformerDecoderLayer #0 bind weights and grads.
Decoder layer #0 allocate encdec_kv memory
TransformerDecoderLayer #1 bind weights and grads.
TransformerDecoderLayer #2 bind weights and grads.
TransformerDecoderLayer #3 bind weights and grads.
TransformerDecoderLayer #4 bind weights and grads.
TransformerDecoderLayer #5 bind weights and grads.
epoch 000: 725.560
epoch 200: 96.252
epoch 400: 15.151
epoch 600: 5.770
epoch 800: 3.212
epoch 1000: 1.748
epoch 1200: 0.930
epoch 1400: 0.457
epoch 1600: 0.366
epoch 1800: 0.299
========================TEST========================
>>>>> source text
What is the fastest library in the world?
You are so pretty!
What do you love me for?
The sparrow outside the window hovering on the telephone pole.
>>>>> target text
I guess it must be LightSeq, because ByteDance is the fastest.
Thanks very much and you are pretty too.
Love your beauty, smart, virtuous and kind.
You said all this is very summery.
>>>>> predict text
I guess it must be LightSeq, because ByteDance is the fastest.
Thanks very much and you are pretty too.
Love your beauty, smart, virtuous and kind.
You said all this is very summery.

可以看到，最后的预测文本和真实的目标端文本完全一致。

当然这里的例子非常简单，输入输出只有4句话。如果你有大量的对话数据集的话，你就可以训练出一个非常完美的聊天机器人啦，还愁啥没有女朋友呢？

如果觉得LightSeq比较好用，别忘了给个star，是给我们最大的支持。

字节跳动: LightSeq

简单介绍 NVIDIA推出的图形处理单元（GPU）架构“安培架构“ 神仙约架人工智能架构安培安培架构 NVIDIA
概念"安培架构"（AmpereArchitecture）是NVIDIA推出的一款图形处理单元（GPU）架构，它是继图灵架构之后的下一代产品。安培架构最初在2020年发布，以其高性能和高效率而闻名，广泛应用于游戏、专业视觉、数据中心、人工智能（AI）和自动驾驶等领域。特点安培架构的主要特点包括：1.更高的性能和效率-安培架构通过改进的执行单元和更高的时钟频率，提供了比前代图灵架构更高的性能和能效。2
Python中的len()函数用法 wildgeek python 网络开发语言
本文围绕Python中的len()函数展开详细介绍，内容涵盖以下方面：len()函数基础：len()是Python的内置函数，用于返回对象包含的项目数量，可作用于多种内置数据类型（如字符串、列表、元组、字典、集合等）以及部分第三方类型（如NumPy数组、pandas的DataFrame）。对于内置类型使用len()较直接，对于自定义类可通过实现.len()方法扩展其对len()的支持，且len()
python制图之小提琴图 pianmian1 python 信息可视化开发语言
提琴图（ViolinPlot）是一种结合了箱线图（BoxPlot）和核密度估计（KernelDensityEstimation,KDE）的可视化工具，用于展示数据的分布情况和概率密度。它在数据可视化中具有独特的作用.本节我们学习如何使用python绘制提琴图#导入所需的库importmatplotlib.pyplotasplt#用于绘图importnumpyasnp#用于数值计算importpan
又一个大模型宝藏开源项目：深入探索 graphrag-local-ollama：开源项目的深度剖析与应用实战 python_知世 LLM AI大模型大模型技术 AI ollama graphrag 开源
一、引言随着人工智能技术在各个领域的广泛应用，对高效、灵活且经济的模型解决方案的需求日益迫切。传统的模型使用方式往往受到诸多限制，如高昂的成本、对网络的依赖以及数据隐私等问题。在这样的背景下，开源项目graphrag-local-ollama应运而生。graphrag-local-ollama是微软graphrag的一个创新扩展，它专注于支持使用ollama下载的本地模型。这一特性使得用户能够在本
Yolov5-Python系列（best.pt文件下载）—— 是谁不戴口罩检测云霄IT YOLO
一、戴不戴口罩检测best.pt下载：https://download.csdn.net/download/weixin_51111267/87516445二、效果测试
YoloV10环境配置教程大气层煮月亮 YOLO python 深度学习
１.Anaconda创建虚拟环境condacreate-nYolov10python=3.8-y2.安装ultralyticspipinstallultralytics-ihttps://pypi.mirrors.ustc.edu.cn/simple3.安装Yolov10.gitpipinstall-qgit+https://github.com/THU-MIG/yolov10.git4.安装py
python利用imaplib/email实现收取解析邮件内容及保存附件我是一颗小白菜嘤 imaplib python email python 开发语言
通过imaplib,email库实现邮件读取参考自：thepythoncode.com–‘HowtoReadEmailsinPython’importimaplibimportemailfromemail.headerimportdecode_headerimportosimportgetpassimportdatetime#保留text中的字母、数字、中文，用于将subject转换成文件夹名de
ChatTTS-ui模型概述、安装及使用方法说明醉心编码人工智能基础技术类脚本基础 TTS 大模型人工智能
ChatTTS-ui模型概述、安装及使用方法说明一、ChatTTS-ui模型概述二、ChatTTS-ui的技术优势三、ChatTTS-ui的安装与配置1.安装Python和Git环境2.下载ChatTTS-ui源码3.创建并激活虚拟环境4.安装依赖5.启动应用四、ChatTTS-ui的高级功能1.API调用2.音色自定义3.细粒度控制4.GPU加速五、ChatTTS-ui的应用场景六、ChatTT
利用Python imaplib和email模块读取邮件文本内容及附件内容 aobian2884 python
python使用imap接收邮件的过程探索https://www.cnblogs.com/yhlx/archive/2013/03/22/2975817.html#!encoding:utf8'''环境：Win1064位Python2.7.5参考：http://www.pythonclub.org/python-network-application/email-formathttp://blog
AI驱动的企业绩效管理：目标设定与实时跟踪 SuperAGI2025 DeepSeek 人工智能大数据机器学习 ai
AI驱动的企业绩效管理：目标设定与实时跟踪关键词：AI、企业绩效管理、目标设定、实时跟踪、数据分析摘要随着人工智能（AI）技术的迅猛发展，企业绩效管理正迎来革命性的变化。本文旨在探讨AI在目标设定与实时跟踪方面的应用，分析其理论基础和实际操作，从而为企业提供一套系统化的绩效管理方案。文章首先介绍AI及企业绩效管理的基本概念，接着阐述AI驱动的目标设定与实时跟踪框架，并通过实际案例解析其应用效果。最
微信小程序 python PHP java nodejs物业管理系统azs8s 豆包程序员微信小程序 python php
文章目录本项目支持的技术栈具体实现截图开发技术介绍可定制亮点创新点->协同过滤算法进度安排及各阶段主要任务技术路线或研究方法可定制亮点创新点->普通算法推荐可定制亮点创新点->最短路线推荐算法可定制亮点创新点->标签算法java类核心代码部分展示参考文献源码获取/详细视频演示本项目支持的技术栈微信小程序前端开发：运用微信开发者工具，设计简洁美观、交互友好的界面。实现页面布局、组件设计、用户交互效果
python系列&deep_study系列：【Conda】自定义conda环境安装位置，三种解决方法坦笑&&life #python AI系列 python conda 开发语言
【Conda】自定义conda环境安装位置，三种解决方法【Conda】自定义conda环境安装位置，三种解决方法前言常用命令方法一方法二方法三【Conda】自定义conda环境安装位置，三种解决方法前言新建conda环境时，可能会出现默认在C盘创建环境，一般情况下，是不建议将conda环境放在C盘里，因此，我们需要对conda的环境位置进行配置。常用命令查看环境和环境所在的位置condainfo-
使用 Python + Tinify 高效批量压缩图片，优化 Webpack 打包速度！程序员小续 java 开发语言 python react.js webpack 前端前端框架
webpack本身可以压缩图片image-webpack-loader，但是打包时间长，图片是有损压缩为了图片质量采用Pythontinify库脚本压缩以下是一个基于Python的Tinify（TinyPNG）库的图片压缩脚本，它可以递归压缩指定目录下的所有JPG、PNG和WebP图片，并统计压缩前后的总大小及节省的空间。一、代码功能遍历目录及其子目录，查找jpg、png、webp图片文件使用Ti
Pytest教程:Pytest学习前置知识旦莫 Pytest教程 pytest 学习 python
Pytest是一个基于Python编写的全功能测试框架，它被广泛应用于软件开发领域的自动化测试。在学习Pytest之前，我们需要掌握一些基础知识。在本篇技术博客中，我们将讨论这些基础知识，以及如何学习Pytest。一、Python基础知识在使用Pytest之前，您需要掌握Python编程语言的基础知识。这包括Python的语法、数据类型、流程控制、函数和模块等内容。语法：Python具有简洁而清晰
conda基本命令 struggilr conda linux 人工智能
1.基于python3.8.3创建名为test的conda环境condacreate--nametestpython=3.8.82.查看本机已经创建了哪些conda环境condainfo-envs3.激活环境activatetest4.查看此时虚拟环境下已安装的包condalist5.安装XXX包condainstallXXX6.删除XXX包condaremoveXXX7.列出所有环境condae
【2024】LeetCode HOT 100——贪心算法「已注销」 leetcode 贪心算法算法
目录1.买卖股票的最佳时机1.1C++实现1.2Python实现1.3时空分析2.跳跃游戏2.1C++实现2.2Python实现2.3时空分析3.跳跃游戏II3.1C++实现3.2Python实现3.3时空分析4.划分字母区间4.1C++实现4.2Python实现4.3时空分析1.买卖股票的最佳时机原题链接：121.买卖股票的最佳时机实际上就是计算max⁡j<i(ai
数据标注中的归类与定义，从聚类，相关，关联，回归四个方面分析小宝哥Code 人工智能训练师聚类回归数据挖掘
在数据标注和AI训练过程中，数据的归类与定义是关键步骤，不同的数据分析方法可以用于不同的场景。本文从**聚类（Clustering）、相关（Correlation）、关联（Association）、回归（Regression）**四个角度探讨数据标注的优化，并结合Python代码示例进行说明。1.聚类（Clustering）1.1概念聚类是一种无监督学习方法，它将相似的数据点分为同一个组，而无需预
【新人系列】一文带你 Python 入门 Pandaconda 的测开之路 #Python 新人系列 Python python 开发语言后端面试笔记经验分享 Python
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
哈希表入门到精通：从原理到 Python 实现全解析吴师兄大模型数据结构 python 哈希表算法哈希算法开发语言 PYTHON
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
Python：FastAPI开发从入门到精通赵梓宇 Python权威教程合集 Python
想用Python写API快到飞起？FastAPI就是你的“代码瑞士军刀”！这本书不讲玄学，只教真功夫——从零搭建高性能API，到微服务、分布式事务、熔断限流，连异步编程都能玩成魔法！小白也能变大神：路由、依赖注入、数据库集成手把手教学；老鸟直呼内行：服务网格、Saga模式、K8s部署实战全覆盖。附赠三个硬核项目：任务管理、在线商城、实时聊天系统，代码跑起来比老裁缝织毛衣还丝滑！别说我没提醒你：翻开
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
conda 基本命令 soumns丶涛 Anaconda3 conda python
1、查询当前所有的环境condaenvlist2、创建虚拟环境condacreate-n+环境名[python=python版本号]其中[python=python版本号]可以不写condacreate-ntestpython=3.12我们输入condaenvlist看到我们的环境创建成功了，但是发现他是创建在我们默认的C盘的，有人肯定不愿意这样，所以我有一篇文章是专门解决这个问题的，感兴趣的可以
一个Python的列表参数是如何搞垮一个网站的 pythonbug
废话少说，先看代码defadd_end(L=[]):L.append('END')returnL这段python代码看起来有什么问题吗？看起来是不是也没啥问题，L是个入参，list形式的，不传的话有个空list作为默认值，业务体里面对L进行了内容追加，并把追加后的L对象返回。业务很简单但就是这样的一个看起来人畜无害的代码让一个网站在痛苦中度过了一个月的时间，同时流失了大量的用户，让我们来看一下亲历
将异步与多工作器ProcessPoolExecutor相结合潮易 django
将异步与多工作器ProcessPoolExecutor相结合在Python中，我们可以使用`concurrent.futures.ThreadPoolExecutor`或者`multiprocessing.ProcessPoolExecutor`来处理异步任务，但这两种方式并不能直接与进程池结合，因为这两种都是单线程或多核心线程的并行执行。如果我们想要将异步任务与多工作器ProcessPoolEx
Python面试题御风行云天面试题大全 python 开发语言面试
Python面试题1.Python基础知识1.1描述Python的数据类型和特性基本数据类型复合数据类型特殊数据类型数据类型的特性1.2讲解Python中的变量作用域和命名约定LEGB规则变量作用域的使用命名约定1.3解释Python中的控制流程语句if语句（条件判断）for语句（循环）while语句（循环）break和continue语句pass语句try...except语句（异常处理）2.P
无需环境，直接用 Docker 来启动你的 Python 项目洪峰科技 python
大家好我是洪峰想象这样一种场景，你写好了代码，准备部署在新的服务器上，这台服务器只有Python2和Python3.6，没有你代码适配好的Python3.12，那怎么办？1、编译安装Python，我不推荐这种方法，安装过程中，各种缺失的依赖绝对让你抓狂，如果你就是要用这种方法，可以参考这篇避坑-编译安装Python时遇到无法构建SSL。2、docker或dockercompose，我强烈推荐这种方
Browser-Use：AI如何“操控”浏览器进行自动化测试？东汉末年出bug 人工智能自动化测试工具
Browser-Use简介Browser-Use是一个开源的Python库，旨在简化AI代理与浏览器之间的交互。通过集成Playwright等浏览器自动化工具，Browser-Use允许开发者使用任何支持LangChain的大型语言模型（LLM），如GPT-4、Claude等，来自动化浏览网页、提取信息、模拟用户操作等。这不仅极大地提高了网页数据抓取的效率，还为开发者提供了一个灵活、可扩展的框架，
适用于呼叫中心质检的离线ASR模型狂爱代码的码农 VOIP那些事容器
以下是适用于中文呼叫中心质检的离线语音转文字（STT）模型及工具，根据性能、中文支持、部署灵活性等维度整理：1.开源模型与框架1.1WeNet(出门问问&西北大学)特点：端到端语音识别框架，专为中文优化，支持流式和非流式识别，适合工业场景。优势：预训练模型基于AIShell等中文数据集，准确率高。低延迟，适合实时处理（如质检中的实时监控）。支持GPU/CPU部署，提供Python和C++接口。部署
AI前端开发的技能需求变化：拥抱AI时代的新挑战 wangtaohappy 人工智能前端
随着人工智能技术的飞速发展，前端开发领域也迎来了翻天覆地的变化。越来越多的AI工具涌现，为开发者带来了前所未有的机遇与挑战。在AI赋能下，前端开发不再仅仅是静态页面的构建，而是与AI深度融合，创造更智能、更交互的应用。而这，也意味着前端开发者的技能需求正经历着前所未有的转变。本文将深入探讨AI时代前端开发的技能需求变化，并探讨如何适应这一变化，提升自身竞争力。我们将会重点讨论AI写代码工具在其中扮
解锁机器学习核心算法｜朴素贝叶斯：分类的智慧法则紫雾凌寒 AI 炼金厂 #机器学习算法机器学习算法分类朴素贝叶斯 python 深度学习人工智能
一、引言在机器学习的庞大算法体系中，有十种算法被广泛认为是最具代表性和实用性的，它们犹如机器学习领域的“十大神器”，各自发挥着独特的作用。这十大算法包括线性回归、逻辑回归、决策树、随机森林、K-近邻算法、K-平均算法、支持向量机、朴素贝叶斯算法、主成分分析（PCA）、神经网络。它们涵盖了回归、分类、聚类、降维等多个机器学习任务领域，是众多机器学习应用的基础和核心。而在这众多的算法中，朴素贝叶斯算法
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>