ReadyShowShow

FasterTransform Decoder 指导

简介

这篇文章描述了FasterTransformer为Decoder/Decoding提供了什么支持，解释工作流和优化。我们也提供了一个引导来帮助用户在FasterTransformer上运行Decoder/Decoding模型。最后，我们提供了基准测试来证明FasterTransformer在Decoder/Decoding的速度。这篇文章中，Decoder指的是transformer解码器模块，其包含了2个注意力块和一个前馈网络。在图1中红色块的单元是指解码块。另外，Decoding引用了整个翻译过程，包括位置编码，嵌入查找，少量层是解码器和beam搜索，或者采样方法来选择token。图1展示了包含beam查找的解码和采样的区别。

尽管大多数方式的解码步骤是相识的，我们仍然发现有很多不同的方式来计算概率和实现beam查找。所以，如果你选择的beam搜索算法是不同于我们实现的，而且你很难修改beam搜索核心，使用FasterTransformer解码器的TensorFlow/PyTorch解码是推荐选择。然而，使用FasterTransformer解码器的TensorFlow/PyTorch解码性能比FasterTransformer解码的性能更差，特别是在小批量的规模上。

模型架构

工作流

图1表示了FasterTransformer解码器和解码的工作流。交叉注意力输入后，他们将从编码器收到一些结果，使用起始的ids或者之前步骤生成ids 作为解码输入而且生成各自的输出ids作为响应。

图1 解码流程图和GPT

接下来的样例展示了如何运行多GPU和多节点GPU模型。

examples/cpp/decoding.cc: 一个样例在C++中运行随机的权重和输入的解码。
examples/tensorflow/decoding/translate_example.py: 一个样例在Tensorflow中运行用FasterTransformer编码器/编码端到端的翻译任务，我们在这个样例中也使用FasterTransform编码器算子

解码器

源码在src/fastertransformer/models/decoder/Decoder.cc, 参数，输入和输出：

参数：
1. 最大batch大小。
2. 头数量
3. 每个头大小
4. 中间数量。前馈网络的中间数量。经常被设置为 4 * head_num * size_per_head.
5. 解码器的层数。
6. CUDA 流。
7. cuBLAS包裹的指针，被定义在src/fastertransformer/utils/cublasMMWrapper.h.
8. 申请内存的指针，被定义在src/fastertransformer/utils/allocator.h
9. “is_free_buffer_after_forward” 标记。如果被设置为true，FasterTransformer在前导之前将申请缓存，并在前导之后释放缓存。如果内存是由内存池控制而且申请/释放内存的消耗很小，设置标志为true将能节省内存。
输入:
1. 解码的特征：特征向量是从嵌入表查找获取到的，或者之前的解码结果。形状为[请求batch大小, 隐层维度]
2. 编码器的输出特征：编码的输出。形状为 [请求的batch大小，编码输出的最长序列长度，编码隐层维度]
3. 编码序列长度：编码输入的序列长度。形状是[请求的batch大小]
4. 完成缓存：记录一个句子是否完成。形状是[请求的batch大小]
5. 步：当前步，被用于注意力层。形状是[1]。这是CPU上的指针。
6. 序列长度：解码句子的长度。形状是[请求的batch大小]
输出：
1. 解码输出的特征：形状为[请求batch大小, 隐层维度]
2. 关键缓存：存储之前步骤中的自注意力的关键的缓存区。形状是[解码层数量，请求batch大小，头数量，每头大小 // x，最长序列长度, x]，其中的x是：FP32时是4，FP14时是8。
3. 值缓存：存在之前步骤中的自注意的值的缓存区。形状为[解码层数量，请求的batch大小，头数量，最长序列长度，每头大小]
4. 关键记忆缓存：存储之前步骤中的交叉注意力的关键的缓存区。大小是[解码层数量，请求batch大小, 编码器输出的最长序列长度，隐层维度]
5. 值记忆缓存：存在之前步骤中的交叉注意力的值的缓存区。大小是[解码层数，请求batch大小，编码器输出的最长序列长度，隐层维度]

解码

源码放在了src/fastertransformer/models/decoding/Decoding.cc。代码的参数，输入和输出是：

参数：
1. 最大batch大小
2. 最大序列长度
3. 编码器输出的最大序列长度
4. beam搜索的beam宽度，如果设置为1，我们不使用beam搜索而是采样。
5. 头数量
6. 每头大小
7. 中间大小。前馈网络的中间大小。经常被设置为 4头数量每头大小
8. 解码层的数量
9. 词汇大小。
10. 词汇表的起始id
11. 词汇表的结束id
12. beam搜索的丰富度。simple diverse decoding 的一个超级超参。
13. 前k采样的top_k值。
14. 前p采样的top_p值。
15. 对数温度。如果不想应用温度，设置为1.0。
16. 对数长度惩罚。如果不想应用长度惩罚，设置为1.0。
17. 对数重复惩罚。如果不想应用长度惩罚，设置为1.0。
18. CUDA 流。
19. cuBLAS包裹的指针，定义在``
20. 内存申请指针，定义在``
21. “is_free_buffer_after_forward” 标。如果设置为true，FasterTransformer将会在前导之前申请内存，在前后之后释放内存。如果内存被内存池控制着，而且申请/释放内存的消耗很小，把标设置为true将能节约内存。
22. CUDA设备的特性指针，用于获取硬件的特性，像共享内存的大小。
输入：
1. 编码的输出。形状是[请求batch大小*beam宽度, 记忆序列长度, 编码隐层维度]
2. 源句子序列长度。形状是[请求batch大小*beam宽度]
输出
1. 输出ids: 形状是[最大序列长度，batch大小,beam宽度]
2. 父ids. 用于在beam搜索中查找最优路径。现在废弃了。
3. 序列长度。形状是[batch大小*beam宽度]。记录全部句子的最终长度。

尽管这里很多参数，但大部分是固定的。比如参数5~11是模型的超参数，当确定模型的超参数后是固定的。参数18, 19, 20 和 22 是关于CUDA的一些设置，在进程中是固定的。

优化

内核优化：第一，一旦 SelfAttention 和CrossAttention的请求中的序列长度总是1，我们用自定义的混合多头注意力内核来优化。第二，我们融合很多小岛算子到一个内核中。比如，AddBiasResidualLayerNorm 结合了加偏置、加前模块残差、和计算层的归一化到一个内核中。第三，我们优化前k操作和采样来加速beam搜索和采样。最后，为了阻止重新计算前k和前v，我们申请了一个缓存区来存在他们的每一步。尽管消耗了额外的内存，我们节约了重计算的消耗、每一步都申请缓存区、一系列的消耗。
内存优化：不同于传统的模型例如 BERT, GPT-3有175b的参数，即使保存半进度模型也需要350GB。所以，我们必须为了其它部分来降低内存使用。在FasterTransformer里，我们在不同的解码层重用内存缓存区。自从GPT-3的层数为96，我们只需要1/96的内存。

设置

接下来章节列出了使用FasterTransformer的依赖。

依赖：

Tensorflow需要CMake >= 3.8, PyTorch需要CMake >= 3.13
CUDA 11.0 或新版本。
推荐Python 3，因为python 2不支持一些特性。
Tensorflow: 验证了1.15, 1.13 和 1.14 可用.
PyTorch: 验证了1.8.0, >= 1.5.0 可用.

这些组件在以下的NGC TensorFlow Docker镜像中很容易获取到。
确保你有以下组件：

推荐NVIDIA Docker and NGC 容器
GPU：NVIDIA Pascal 或 Volta 或 Turing 或 Ampere

关于如何使用NGC容器的更多信息，看以下来自NVIDIA GPU云文档和深度学习文档的章节：

Getting Started Using NVIDIA GPU Cloud
Accessing And Pulling From The NGC Container Registry
Running TensorFlow
Running PyTorch

那些不能使用NGC容器的，配置需要的环境或创建自己的容器，可以看 NVIDIA容器支持的版本矩阵。

编译FasterTransformer

准备

你可以选择你期望的tensorflow版本和python版本。这里，我们列出了一些可能的镜像：
为了实现最优性能，我们建议使用最新的镜像。比如，运行镜像nvcr.io/nvidia/tensorflow:22.09-tf1-py3 通过命令：

nvidia-docker run -ti --shm-size 5g --rm nvcr.io/nvidia/tensorflow:22.09-tf1-py3 bash
git clone https://github.com/NVIDIA/FasterTransformer.git
mkdir -p FasterTransformer/build
cd FasterTransformer/build
git submodule init && git submodule update

编译项目

注意：-DSM=xx中的xx，在以下脚本意味着你的GPU能力。比如60 (P40) 或 61 (P4) 或 70 (V100) 或 75(T4) 或 80 (A100)。默认设置包含 70, 75, 80 and 86.

C++编译

cmake -DSM=xx -DCMAKE_BUILD_TYPE=Release ..
make -j12

TensorFlow编译
使用时需要设置TensorFlow路径。比如，如果我们用nvcr.io/nvidia/tensorflow:22.09-tf1-py3，那就

cmake -DSM=xx -DCMAKE_BUILD_TYPE=Release -DBUILD_TF=ON -DTF_PATH=/usr/local/lib/python3.8/dist-packages/tensorflow_core/ ..
make -j12

PyTorch编译
```
cmake -DSM=xx -DCMAKE_BUILD_TYPE=Release -DBUILD_PYT=ON ..
make -j12
```
这将编译TorchScript自定义类。请确保PyTorch >= 1.5.0。

怎么用

解码器和解码过程

在C++上运行FasterTransformer解码
1.1 生成gemm_config.in文件
1.2 在C++上运行FP32解码
1.3 在C++上运行FP16/BF16解码
在Tensorflow上运行
2.1 在Tensorflow上运行FP32FasterTransformer解码器
2.2 在Tensorflow上运行FP16FasterTransformer解码器
2.3 在Tensorflow上运行FP32FasterTransformer解码
2.4 在Tensorflow上运行FP16FasterTransformer解码

在PyTroch上运行FasterTransformer解码器/解码
请在运行样例前先安装 OpenNMT-py

pip install opennmt-py==1.1.1

3.1 生成 gemm_config.in 文件

./bin/decoding_gemm         
./bin/decoding_gemm 8 4 8 64 2048 31538 32 512 1

数据类型 = 0(FP32) 或 1(FP16) 或2(BF16)
如果想在别的目录使用这个库，请依据你的配置生成这个文件并拷贝到你的工作目录。
3.2 运行PyTorch解码样例：

python ../examples/pytorch/decoder/decoder_example.py      <--data_type fp32/fp16/bf16> <--time>
python ../examples/pytorch/decoder/decoder_example.py 8 6 32 8 64 --data_type fp16 --time

输出应该像下面这样：

step: 30     Mean relative diff: 0.01395416259765625     Max relative diff: 1.38671875     Min relative diff: 0.0
step: 31     Mean relative diff: 0.0148468017578125     Max relative diff: 2.880859375     Min relative diff: 0.0
[INFO] ONMTDecoder time costs: 218.37 ms
[INFO] FTDecoder time costs: 25.15 ms

注意的是相关区别会非常大。是由于随机初始化权重和输入，而且它不影响翻译的结果。
3.3 运行PyTorch解码样例：

python pytorch/decoding_sample.py        <--data_type fp32/fp16/bf16> <--time>
python ../examples/pytorch/decoding/decoding_example.py 8 6 32 8 64 4 31538 --data_type fp16 --time

输出应该如下：

[INFO] TorchDecoding time costs: 289.08 ms
[INFO] TorchDecoding (with FTDecoder) time costs: 104.15 ms
[INFO] FTDecoding time costs: 30.57 ms

随机初始化参数可能导致不同的结果。你可以根据接下来的指导下载预训练模型，并加上 --use_pretrained，然后你就能得到相同的结果。

翻译过程

在TensorFlow上用FasterTransformer翻译
在PyTorch上用FasterTransformer翻译
我们有一个翻译En-De的翻译样例。
你首先需要下载预训练模型：
```
bash ../examples/pytorch/decoding/utils/download_model.sh
```
然后你可以运行样例：
```
python ../examples/pytorch/decoding/translate_example.py --batch_size  --beam_size  --model_type  --data_type  --output_file 
```
你也可以使用--input_file设置输入文件来翻译。
可以为：
- decoding_ext: 使用我们的FasterTransformer解码单元
- torch_decoding：使用FasterTransformer解码方式的PyTorch版本解码
- torch_decoding_with_decoder_ext：使用FasterTransformer解码方式的PyTorch版本解码，但是用FasterTransformer解码器替换了其解码器。
  可以为fp32 或fp16 或 bf16
  如果你不指定输出文件，将只打印标准输出。
  如果你想评估BLEU分数，请先覆盖BPE:
```
python ../examples/pytorch/decoding/utils/recover_bpe.py  
python ../examples/pytorch/decoding/utils/recover_bpe.py  
```
我们模型中的是pytorch/translation/data/test.de，是来自translate_example.py的输出。
然后你就可以评估BLEU分数，比如，通过sacrebleu:
```
pip install sacrebleu
cat  | sacrebleu 
```
下面的脚本在FP32下运行翻译，并得到bleu分数：
```
./bin/decoding_gemm 128 4 8 64 2048 31538 100 512 0
python ../examples/pytorch/decoding/translate_example.py --batch_size 128 --beam_size 4 --model_type decoding_ext --data_type fp32 --output_file output.txt
python ../examples/pytorch/decoding/utils/recover_bpe.py ../examples/pytorch/decoding/utils/translation/test.de debpe_ref.txt
python ../examples/pytorch/decoding/utils/recover_bpe.py output.txt debpe_output.txt
pip install sacrebleu
cat debpe_output.txt | sacrebleu debpe_ref.txt
```

性能

硬件配置：

CPU: Intel® Xeon® Gold 6132 CPU @ 2.60GHz
T4 (with mclk 5000MHz, pclk 1590MHz) with Intel® Xeon® CPU E5-2603 v4 @ 1.70GHz
V100 (with mclk 877MHz, pclk 1380MHz) with Intel® Xeon® CPU E5-2698 v4 @ 2.20GHz (dgx-1 server)

为了运行下面的基准，我们需要安装unix计算工具"bc"：

apt-get install bc

为了明确真实应用里的提速，在这个基准测试中，我们同时在TensorFlow和PyTorch上使用了真正的端到端模型和任务。很难直接比较 v3.1 and v4.0 的基准性能。但是我们的测试，对比 v3.1 v4.0带来了至多50%的加速，特别是在大batch上。

TensorFlow 端到端翻译性能

PyTorch 端到端翻译性能

我们演示了端到端翻译中PyTorch、FT解码器和FT解码的吞吐量。这里，PyTorch意味着程序完全运行在PyTorch上。FT解码器意味着我们用FasterTransformer替换了解码器翻译层。FT解码意味着我们用FasterTransformer完整的替换了解码器。

我们也跳过BLEU分数，因为PyTorch, FT Decoder and FT Decoding 的分数被关了。

同时，所有方法的bleu分数都关了，结果可能有点不同，生成的token数量也不相同。所以我们使用吞吐量而不是延时来展示基准的性能。

可以获取这个基准，通过运行这个：../sample/pytorch/scripts/profile_decoder_decoding.sh

这里的基准，我们更新了以下参数：

head_num = 8 for both encoder and decoder
size_per_head = 64 for both encoder and decoder
num_layers = 6 for both encoder and decoder
vocabulary_size = 31538
max_seq_len = 128

在A100和PyTorch上的Beam搜索性能：

在FP32上的性能
用户可以使用export NVIDIA_TF32_OVERRIDE=0来强制程序运行在FP32下。

ChatGPT与DeepSeek：开源与闭源的AI模型之争我们的五年游戏实现 chatgpt 人工智能
目录一、模型架构与技术原理二、性能能力与应用场景三、用户体验与部署灵活性四、成本与商业模式五、未来展望与市场影响六、总结随着人工智能技术的飞速发展，ChatGPT和DeepSeek作为两大领先的AI语言模型，成为了行业内外关注的焦点。它们在技术架构、应用场景、用户体验和成本等方面存在显著差异，尤其是开源与闭源的模式，使得两者在市场竞争中各有优势。本文将对ChatGPT和DeepSeek进行全面对比
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
大智能：大数据+大模型+大算力_大算力大数据大模型 AI学习不迷路大数据大模型人工智能语言模型 ai 产品经理算力
在近日举行的“2022中国人工智能产业年会”主论坛上，中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示，人工智能的发展已经历了数十年的过程，大模型ChatGPT在今年春节前后突然出现，大家还没有来得及深度思考就已经“扑面而来”。蒋昌俊大智能的研究进展科学技术的研究约分为两大范式，一是牛顿力学奠定了理论计算的范式，二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演，以及计算模拟、最
DeepSeek与ChatGPT：AI语言模型的全面对决与开发者洞察硅基打工人 AI 人工智能 chatgpt 语言模型媒体经验分享自然语言处理
大家好，我是硅基打工人呀！在2025年的人工智能领域，DeepSeek与ChatGPT两大语言模型的竞争成为全球开发者关注的焦点。本文将从技术架构、性能表现、应用场景及生态策略等维度，结合最新行业动态与用户实测数据，为开发者呈现这场技术对决的核心要点。一、技术架构对比：效率与规模的博弈DeepSeek的差异化设计混合专家（MoE）架构：通过动态激活部分参数（如R1模型每次仅调用370亿参数），显著
零基础也能看懂的ChatGPT等大模型入门解析！大模型入门到精通，看这篇就够了！大模型微调实战 chatgpt 百度人工智能大数据 wps 学习大模型
近两年，大语言模型LLM(LargeLanguageModel)越来越受到各行各业的广泛应用及关注。对于非相关领域研发人员，虽然不需要深入掌握每一个细节，但了解其基本运作原理是必备的技术素养。本文笔者结合自己的理解，用通俗易懂的语言对复杂的概念进行了总结，与大家分享~什么是ChatGPT？GPT对应的是三个关键概念：生成式（Generative）、预训练（Pre-Training）和Transfo
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！ ai大模型应用开发人工智能 pdf 机器学习面试 AI
在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进行学习。一、前置阶段数学：线性代数、高等数学自然语言处理：Word2Vec、Seq2SeqPython：Pyotch、Tensorflow二、基
QKV 注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？安意诚Matrix 机器学习笔记 transformer cnn 深度学习
QKV注意力机制在Transformer架构中的作用，和卷积在卷积神经网络中的地位，有哪些相似之处？QKV（Query-Key-Value）注意力机制在Transformer架构和卷积在卷积神经网络（CNN）中都起着核心作用，它们有以下一些相似之处：特征提取QKV注意力机制：在Transformer中，QKV注意力机制通过Query与Key的计算来确定对不同位置Value的关注程度，从而自适应地提
深入理解 Transformer：用途、原理和示例范吉民(DY Young) 简单AI学习 transformer 深度学习人工智能
深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed”中惊艳登场。它打破了传统循环神经网络（RNN）按顺序处理序列、难以并行计算以及卷积神经网络（CNN）在捕捉长距离依赖关系上的局限，另辟蹊径地采用多头注意力机制
DeepSeek到TinyLSTM的知识蒸馏猴的哥儿笔记 python 机器学习深度学习神经网络 AI编程
一、架构设计与适配模型结构对比：DeepSeek（教师模型）：基于Transformer，多头自注意力机制，层数≥12，隐藏层维度≥768TinyLSTM（学生模型）：单层双向LSTM，隐藏单元128，全连接输出层表示空间对齐：classAdapter(nn.Module):def__init__(self,in_dim=768,out_dim=128):super().__init__()sel
Deepseek的底层架构思维构成堕落年代 AI 架构人工智能
专业解释一、核心架构组件：注意力机制与专家模型的革新1.多头潜在注意力机制（MLA）功能与作用：MLA是DeepSeek对传统Transformer注意力机制的创新改进。通过低秩联合压缩技术，将键（Key）和值（Value）矩阵压缩到潜在空间，显著减少推理时的显存占用。例如，MLA可将显存需求降至传统多头注意力（MHA）的个位数百分比。优势：显存效率：KV缓存需求降低80%以上，支持更长上下文处理
大模型学习笔记-基于《Deep Dive into LLMs like ChatGPT》 XiyouLinux_Kangyijie 学习笔记 chatgpt
模型是什么从逻辑层面理解，模型类似于函数。给定模型一个输入，它会产生一个输出。例如，垃圾邮件识别器就是一种模型。当输入一封电子邮件时，它会输出该邮件是否为垃圾邮件的判断结果。天气预测同样是一个模型，输入历史天气数据，它会输出对明天天气情况的预测。这些都是模型的实例。当然，模型的输出存在一定的准确率，其结果可能与预期高度相符，也可能偏离较大。构建数据集对于大语言模型（LLM）的训练而言，首先需要构建
ChatGPT-5：开创对话式AI的新纪元可有道？人工智能 AIGC
随着科技的飞速发展，人工智能（AI）正在迅速改变我们的生活方式。作为AI技术的前沿代表之一，ChatGPT自其初次发布以来，就以其强大的语言理解和生成能力受到了广泛关注和应用。如今，OpenAI推出最新版本——ChatGPT-5，（预计将于2024年下半年发布）这一版本在各个方面都进行了显著的升级和改进。这里详细介绍一下ChatGPT-5的技术基础、升级功能及其在日常生活中的应用。1.ChatGP
计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手紫雾凌寒 AI 炼金厂 #计算机视觉 #深度学习机器学习计算机视觉人工智能 transformer ConvNeXt 动态网络神经网络
一、引言在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）长期以来一直是核心技术，自诞生以来，它在图像分类、目标检测、语义分割等诸多任务中都取得了令人瞩目的成果。然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图
BERT 和 Milvus 构建智能问答系统的全面技术解析，涵盖从原理到实践的完整流程
结合BERT和Milvus构建智能问答系统的全面技术解析，涵盖从原理到实践的完整流程。下面Python代码示例和优化策略：一、技术栈协作原理BERT的语义编码能力BERT作为预训练语言模型，通过双向Transformer结构将文本转换为高维向量（如768维），捕捉上下文语义信息。例如，句子"Milvus是向量数据库"会被编码为类似[0.2,-1.3,0.5,...]的向量19。Milvus的向量检
BERT 模型和 Milvus 向量数据库分步骤讲解如何实现「文本相似度搜索」
结合BERT模型和Milvus向量数据库，通过一个Python示例分步骤讲解如何实现「文本相似度搜索」。整个过程分为：文本向量化→存储到Milvus→相似度搜索。1️⃣环境准备安装必要的库：pipinstallpymilvustransformerstorch2️⃣流程图解BERT模型↓将文本转为向量Milvus数据库（存储所有向量）↓输入问题文本Milvus搜索相似向量→返回最相似的答案3️⃣完
【深度学习】Hopfield网络：模拟联想记忆 T-I-M 深度学习人工智能
Transformer优化，什么是稀疏注意力？Transformer模型自2017年被提出以来，已经成为自然语言处理（NLP）领域的核心架构，并在计算机视觉、语音处理等其他领域也取得了显著的成功。然而，随着模型规模的不断增大和任务复杂性的提升，Transformer的计算成本和内存需求也随之激增。为了解决这一问题，研究者们提出了多种优化方法，其中稀疏注意力（SparseAttention）是一种备
AI是否也存在人性中的阴暗面呢？好运工具 - HapTool 人工智能 HapTool 好运工具 DeepSeek ChatGPT
聊完DeepSeek和ChatGPT的厉害之处，不可否认的是它带给我们活着是全世界太大的惊奇，感受到AI技术的蓬勃发展以及未来我们将要或者已经无处不面对的各种AI技术。但是AI不是魔法。它是一种工具——和任何工具一样，它可以用于好或坏。所有人都在讨论AI，称赞AI，就像它是下一场伟大的革命一样。但是似乎目前没听到有人讨论：1、人工智能并不总是准确的。2、人工智能可能有偏见。3、人工智能可以被操纵。
AI时代保护自己的隐私好运工具 - HapTool 人工智能好运工具 HapTool DeepSeek chatgpt
人工智能最重要的就是数据，让我们面对现实，大多数人都不知道他们每天要向人工智能提供多少数据。你输入的每条聊天记录，你发出的每条语音命令，人工智能生成的每张图片、电子邮件和文本。我建设了一个网站(haptool.com)，经常能在后台看到chatgpt的爬虫浏览过，就和百度，Google的爬虫一样，他们同样在爬取网络的上的数据。所有这些都在被处理、分析和（有时）存储。如果你认为人工智能公司没有使用这
清华「DeepSeek从入门到精通」正式发布！104页超全解析使用教程职场程序猿 deepseek ai
看了这么多deepseek使用指导，包括什么使用指南，15天指导手册，还有一些自媒体账号写的使用方法，普遍的问题是十分粗糙，没有实际的指导意义。还有些用的是chatGPT的训练方式，要知道，DeepSeek和chatGPT是两种模型，一个是推理型，一个是指令型，这是驴唇不对马嘴啊。虽然deepseek官方也提供了提示库文档，进行了13种场景的分类，但是具体举例也不够详细。有需要可以自取：「Deep
创新引领的人工智能模型系列：MiniMax-01 系列震撼登场
MiniMaxMiniMax发布并开源了全新系列模型——MiniMax-01。这个系列模型中包含两个模型，基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01MiniMax-01MiniMax-01系列模型首次大规模实现线性注意力机制，传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿，其中单次激活459亿。模型
【常用代码】文件夹递归转换代码文件字符集为utf8 bom 御风@户外 python
来自chatgpt，前几个版本bug主要是0d0a混用等问题未考虑到。utf8bom与utf8谁更好，未明确调查。#C:\Users\xxx\AppData\Local\Programs\Python\Python313\python.execode_utf8.pycode_folderimportosimportsysimportchardet#pipinstallchardet#支持的代码文件
transformers.deepspeed icesord 人工智能 python
报错：nomodulenamedtransformers.deepspeed原因：版本更新后，已取消transformers.deepspeed新版本中更改为transformers.integrations.deepspeed解决方案：根据trace信息，将原先的importtransformers.deepspeedfromtransformers.deepspeedimport......全
【AI大模型】Transformers大模型库（九）：大模型微调之计算微调参数占比 LDG_AGI 人工智能
目录一、引言二、计算微调参数占比2.1概述2.2模型参数结构一览2.3微调参数占比计算三、总结一、引言这里的Transformers指的是huggingface开发的大模型库，为huggingface上数以万计的预训练大模型提供预测、训练等服务。Transformers提供了数以千计的预训练模型，支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的NLP技术人人
大模型国产化迁移大模型到昇腾教程（Pytorch版）科技互联人生科技数码人工智能 AIGC 语言模型
大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）随着ChatGPT的火爆，AI大模型时代来临，但算力紧张。中美贸易战及美国制裁AI芯片，国产化势在必行。已有国产AI芯片和Mindformers框架，基于昇腾910训练大模型，使用MindIE实现大模型服务化。本文介绍如何迅速将大型模型迁移到昇腾910B,许多入门者都是从斯坦福羊驼开始的。我们将利用羊驼的训练代码和数据
大模型技术：重塑未来的力量每天五分钟玩转人工智能人工智能机器学习深度学习大模型
大模型技术之所以成为当今科技领域的热点，是因为它拥有改变游戏规则的能力。以ChatGPT为例，这款由OpenAI开发的大型语言模型，首次实现了基于语言的智能涌现，推动了通用人工智能的技术飞跃和快速进化。大模型通过强大的数据处理能力和广泛的适用性，极大地提升了生产力，改变了生产要素的构成。它不仅加速了信息处理的速度和精度，使得数据成为新的生产资料，提高了知识创造和应用的效率；还通过促进跨领域知识融合
大模型微调入门（Transformers + Pytorch）昵称不能为null python llm 机器学习人工智能
目标输入：你是谁？输出：我们预训练的名字。训练为了性能好下载小参数模型，普通机器都能运行。下载模型#方式1：使用魔搭社区SDK下载#down_deepseek.pyfrommodelscopeimportsnapshot_downloadmodel_dir=snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B')#方式2：gitl
大语言模型技术专栏（三）：Attention机制——从RNN到Transformer的惊世一跃！北海yy 大语言模型技术专栏语言模型 rnn transformer
文章目录概要一、Attention机制：让AI学会「划重点」二、Attention机制的核心原理三、Self-Attention：Transformer的核心四、代码实战：用PyTorch实现Attention五、Attention的进化：从Transformer到GPT概要大家好，我是北海yy，继续带来大语言模型技术专栏的深度解析！在上一期《RNN语言模型——让AI真正「记住」上下文的秘密武器》
Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi
Transformer模型详解 Yuki-^_^ Transformer模型详解人工智能 transformer 深度学习人工智能
导读Transformer在许多的人工智能领域，如自然语言处理(NaturalLanguageProcessing,NLP)、计算机视觉(ComputerVision,CV)和语音处理(SpeechProcessing,SP)取得了巨大的成功。因此，自然而然的也吸引了许多工业界和学术界的研究人员的兴趣。到目前为止，已经提出了大量基于Transformer的相关工作和综述。本文基于邱锡鹏[1]老师近
AIGC从入门到实战：探秘：ChatGPT 到底是什么 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1人工智能的浪潮近年来，人工智能(AI)发展迅猛，其应用已深入到各个领域，从自动驾驶汽车到智能家居，再到医疗诊断，AI正在改变我们的生活方式。其中，自然语言处理(NLP)作为AI的重要分支，近年来取得了显著进展，而AIGC(AI-GeneratedContent)正是NLP领域的一颗璀璨明珠。1.2AIGC的兴起AIGC指的是利用AI技术自动生成内容，包括文本、图像、音频、视频等。
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><