天罚神

GPT2中文模型本地搭建（二）

1、简单介绍
- 1.1 bert4keras是什么，与Keras有什么关系？
- 1.2 常用的预训练模型加载框架有几种？
- 1.3 预训练模型常见版本
2、GPT2-ML 开源中文模型本地搭建
- 2.1 开发环境准备
- 2.2 下载代码
- 2.3 下载模型
- 2.4 加载模型
- - 1）先安装bert4keras
  - 2）下载训练模型的代码，再补全下插件
  - 3）修改代码模型地址
  - 4）运行模型查看测试效果
- 2.5 测试效果
3、GPU运行
- 3.1 要检查计算机是否支持 NVIDIA 显卡，您可以执行以下步骤
- 3.2 集成显卡，不支持
- 3.3 独立显卡，支持
- - NVIDIA 显卡驱动安装
  - CUDA 工具包安装
  - cuDNN 库安装

1、简单介绍

GPT2_ML项目是开源了一个中文版的GPT2，而且还是最大的15亿参数级别的模型。
OpenAI在GPT2的时期并没有帮忙训练中文，上篇文章的验证也可说明此问题，对应的模型直接上GitHub上下载即可。

本文主旨快速搭建本地模型，更全的攻略，大家也可以到GitHub中慢慢摸索。

本文是基于bert4keras来加载模型与运行，需要先了解下一些概念。

1.1 bert4keras是什么，与Keras有什么关系？

bert4keras是一个基于Keras的BERT预训练模型工具包。它提供了一组简单易用的API，可以轻松加载和使用预训练的BERT模型，以进行各种自然语言处理(NLP)任务，例如文本分类、命名实体识别(NER)、问答等。

虽然bert4keras是基于Keras框架开发的，但它与原始的Keras库有所不同。它在Keras的基础上做出了一些修改和扩展，以更好地支持BERT模型的训练和应用。例如，它提供了自定义的优化器、损失函数和评估指标，以及对BERT模型结构的修改和扩展。

总之，bert4keras是一个强大的NLP工具包，旨在使使用BERT模型变得更加容易和高效，并提供许多额外的功能和扩展。如果你正在进行NLP任务，并且需要使用BERT模型，那么bert4keras可能是一个很好的选择。

1.2 常用的预训练模型加载框架有几种？

TensorFlow Hub：TensorFlow 官方提供的加载和使用各种预训练模型的一种方式。
Hugging Face Transformers：一个基于 PyTorch 和 TensorFlow 的 NLP 框架，主要用于加载和使用各种预训练的 Transformer 模型，如 BERT、GPT-2 等等。
Keras Applications：Keras 官方提供的加载和使用各种预训练模型的库，包括 VGG、ResNet、Inception 等等。
MXNet Gluon：MXNet 官方提供的深度学习框架，内置了多种经典的预训练模型，可以通过一行代码加载和使用。
PyTorch Hub：类似于 TensorFlow Hub，是 PyTorch 官方提供的加载和使用各种预训练模型的库。

除此之外，还有一些第三方的加载预训练模型的库，如 keras-bert、bert4keras 等等，都可以方便地加载和使用各种预训练模型。

1.3 预训练模型常见版本

BERT：Bidirectional Encoder Representations from Transformers (BERT) 是由 Google 提出的预训练模型，通过双向 Transformer 编码器训练来获得语言表示。BERT 取得了多个 NLP 任务的 SOTA 结果。
ALBERT：A Lite BERT (ALBERT) 是一种轻量级的 BERT 模型，采用嵌套 LSTM 和跨层参数共享等技术来减少模型参数量和计算资源需求。
RoBERTa：Robustly Optimized BERT Pretraining Approach (RoBERTa) 是 Facebook 提出的一种预训练语言模型，针对 BERT 中潜在的过拟合问题进行了优化。
NEZHA：NEZHA 是由华为公司提出的 BERT 衍生模型，对训练策略和网络架构进行了改进，取得了与 BERT 相当的性能。
GPT2：Generative Pre-trained Transformer 2 (GPT-2) 是 OpenAI提出的语言模型，通过单向 Transformer 解码器进行训练，能够生成高质量的自然语言文本。
T5：Text-to-Text Transfer Transformer (T5) 是 Google 提出的一种基于Transformer 的通用语言模型，可以应用于各种 NLP 任务，如文本分类、问答系统等。
bert4keras 支持上述多种预训练模型的加载和 fine-tuning，可以方便地应用于各种 NLP 任务中。 OpenAI GPT（Generative Pre-training Transformer）：OpenAI 提出的基于 Transformer的语言模型，采用单向 Transformer 解码器进行训练。
XLNet：由 CMU 和 Google 提出的预训练模型，采用从左到右和从右到左的两个方向来生成上下文表示。
ELECTRA：Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) 是谷歌提出的预训练模型，通过用一个 diskriminator来训练生成模型，可以大大提高模型的训练效率。
DistilBERT：DistilBERT 是一种经过压缩的 BERT 模型，参数量约为原始 BERT 模型的一半，同时具有相似的性能。
XLM：Cross-lingual Language Model (XLM) 是 Facebook 提出的预训练模型，旨在支持多语言NLP 任务。它采用了与 BERT 类似的多层双向 Transformer 编码器来获得语言表示。

这些预训练模型都是深度学习领域中的研究热点，它们在各种自然语言处理任务中都取得了很好的效果。同时，也有其他的预训练模型不属于 Transformer 类型的，如 ELMo、ULMFit 等，它们采用不同的网络结构和训练方式，也可以应用于各种 NLP 任务中。

其实说白了，这些模型都是一些大型企业基于他们的研发力量、资金，训练好的模型并开源出来。

2、GPT2-ML 开源中文模型本地搭建

2.1 开发环境准备

开发工具：PyCharm 2020.2.1 x64

使用虚拟环境搭建：Python3.7、bert4keras不低于0.6.0，这里直接安装最新版本了。

我本机虚拟环境的配置效果：

2.2 下载代码

bert4keras 下载到本地。

2.3 下载模型

两种方式：

百度网盘：
链接: https://pan.baidu.com/s/1OXBd16o82SpIzu57kwA8Mg 提取码: q79r

Google Drive，从训练模型的源码进入：

本文下载的百度网盘的模型：

2.4 加载模型

导入项目后，继续以下操作：

1）先安装bert4keras

确认你已经安装了Python3和pip包管理器。
打开终端或命令行窗口，并运行以下命令来安装bert4keras：

pip install bert4keras -i https://mirrors.aliyun.com/pypi/simple/

3.安装完成后，可以使用以下命令检查版本：

 import bert4keras
 print(bert4keras.__version__)

如果输出了版本号，则表示成功安装了bert4keras。

安装过程示例：

2）下载训练模型的代码，再补全下插件

训练模型的源码地址，运行项目内requirements-tpu.txt、requirements-gpu.txt的安装环境。

pip install -r requirements-tpu.txt  -i https://mirrors.aliyun.com/pypi/simple/
pip install -r requirements-gpu.txt  -i https://mirrors.aliyun.com/pypi/simple/

3）修改代码模型地址

basic_language_model_gpt2_ml.py

4）运行模型查看测试效果

修改文件basic_language_model_gpt2_ml.py
运行：py examples/basic_language_model_gpt2_ml.py
接下来就漫长的等待，大概半小时左右，将会输出你需要的信息。

如果运行过程中报错，比如缺少tensorflow插件，那么再安装下这个插件即可。

  pip install tensorflow==1.15.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

查看已安装的 TensorFlow 版本：

  pip list | grep tensorflow
  pip freeze | grep tensorflow

2.5 测试效果

[‘关于春天到了，你有没有梦见各种各样的花开？你有没有见识过超美的花朵在前面出没？你有没有想象过春风里开得最美的花？春天到了，你有没有梦见各种各样的花开？你有没有想象过傍晚的花海中有着最美的花？你有没有想象过春天的阳光那么灿烂，粉色的桃花开得很妖艳！这一切的一切，只因为你看见了一朵朵如洁如玉的花。’]

[‘关于夏天到了，必然有很多性感美腻的凉鞋而且，爱美的女孩儿终于有个好选择了，在微博、微信、各大应用市场就可以找到众多美腻的凉鞋，不仅漂亮而且平价，大牌为什么是这么流行？在沙龙里也常能看到很多潮人穿着各种各样的凉鞋，看着就想买，一双好的凉鞋穿两三天，像穿个拖鞋一样！是什么成就了这一高端的品牌？和所有企业都一样，形
象企业的不少款式都和其自身品牌有关，看着就已经很眼熟。’]

[‘关于秋天的优衣库深深喜欢这款连帽上衣无袖连帽棒球服，棒球衫面料略带纯色还有里面是印花清新可人！半高领设计自然又耐看，下摆的大口袋和牛仔裤颜色很相配，半明度的色彩给秋天再添丝丝靓丽，又可以通过大片的纯棉面料体现端庄大方的型格，不同于传统套装的是融合的织法，在颜色上没有那么跳跃，显得特别有活力和少女心。’]

[‘关于冬天，每个女生都梦想成为汤唯，百分之百女神。然而别听我扯淡啦，温暖人心是汤唯，撩人心弦是吴彦祖，干净利落是陈冠希。没人不爱暖汤唯，这就是汤唯。汤唯还是《vogue》2016秋冬系列的主编，是时尚圈中少有的大美女。汤唯一直都在坚持个人风格，走的是女生独有的柔美路线，在神坛上无人可及。’]

3、GPU运行

3.1 要检查计算机是否支持 NVIDIA 显卡，您可以执行以下步骤

在 Windows 操作系统上，右键单击桌面并选择“NVIDIA 控制面板”选项，如果出现该选项，则表示您的计算机已安装 NVIDIA 显卡。
在 Linux 和 macOS 操作系统上，打开终端并输入以下命令：

lspci | grep -i nvidia

如果输出包含 NVIDIA 显卡相关信息，则表示您的计算机已安装 NVIDIA 显卡。
或者，您也可以执行以下命令以获取有关系统显卡的详细信息：

nvidia-smi

请注意，这些命令仅适用于已正确安装了 NVIDIA 显卡驱动程序的计算机。如果您的计算机没有安装 NVIDIA 显卡驱动程序，则这些命令将不起作用。

3.2 集成显卡，不支持

如果你的电脑是集成显卡，那么就不要操心了，GPU模式跑不了，这个程序可能需要使用 NVIDIA GPU 或相关的 CUDA 工具包进行 GPU 加速运算，而集成显卡无法提供足够的性能。因此，如果您尝试在只有集成显卡的计算机上运行该程序，并且提示未安装 NVIDIA GPU 或相关的 CUDA 工具包，则表示您的计算机无法满足该程序的 GPU 运行要求。如果您想在计算机上使用 GPU 运行该程序，您需要考虑购买一张适合深度学习的 NVIDIA 显卡并安装相关的驱动程序和 CUDA 工具包。或者，您也可以选择使用云服务提供商提供的云 GPU 实例来运行该程序。

3.3 独立显卡，支持

要安装 NVIDIA GPU 或相关的 CUDA 工具包，您需要执行以下步骤：

检查您的计算机是否支持 NVIDIA 显卡，并且显卡驱动程序已正确安装。您可以从 NVIDIA 官网下载显卡驱动程序。
检查您的计算机是否支持 CUDA 并且 CUDA 工具包已正确安装。您可以从 NVIDIA 开发者官网下载适用于您的操作系统和显卡类型的 CUDA 工具包。
还需要安装 cuDNN 库，它是一个用于深度学习的加速库，可与 CUDA 一起使用。您可以从 NVIDIA 开发者官网下载并安装适用于您的 CUDA 版本的 cuDNN 库。

请注意，安装 NVIDIA GPU、驱动程序、CUDA 工具包和 cuDNN 库可能会相当复杂，因此请务必按照 NVIDIA 的官方文档和说明进行操作。

NVIDIA 显卡驱动安装

可以在 NVIDIA 官网的“驱动程序下载”页面上下载显卡驱动程序：

在该页面上，您可以选择您的显卡系列和型号、操作系统以及语言，然后单击“搜索”按钮。随后，您将看到可用于您的计算机的最新显卡驱动程序列表。请仔细查看并选择适合您的操作系统和硬件的驱动程序版本，并按照提示进行下载和安装。

CUDA 工具包安装

在 NVIDIA 开发者官网的 CUDA 下载页面（https://developer.nvidia.com/cuda-downloads）上选择适合您的操作系统和显卡型号的 CUDA 版本，并单击“下载”按钮。请注意，不同版本的 CUDA 对应不同的操作系统和显卡型号，因此请务必根据您的计算机配置选择正确的版本。
下载完成后，运行 CUDA 安装程序，并按照向导指示进行安装。在安装过程中，您需要接受许可协议、选择安装选项并等待一段时间。
完成安装后，您需要配置环境变量和路径，以便您的计算机可以正确找到 CUDA 库和工具。这些设置可能因操作系统而异，请参考 NVIDIA 的官方文档进行配置。
验证 CUDA 是否已成功安装。您可以打开终端或命令提示符窗口，并输入以下命令：

nvcc -V

如果输出显示了 CUDA 版本信息，则表示 CUDA 工具包已成功安装。

请注意，安装 CUDA 工具包可能需要一定的技术知识和经验。如果您遇到困难或问题，建议参考 NVIDIA 的官方文档和社区支持，在线查阅相关资源并寻求帮助。

cuDNN 库安装

访问 NVIDIA 开发者官网的 cuDNN 下载页面：https://developer.nvidia.com/cudnn
选择适合您的操作系统和 CUDA 版本的 cuDNN 库文件，并单击“下载”按钮。请注意，不同版本的 cuDNN 应与您计算机上已安装的 CUDA 版本兼容。
在下载页面上，您需要登录或注册 NVIDIA 开发者账户。如果您还没有账户，请根据提示进行注册。
将下载的 cuDNN 压缩文件解压到某个目录中。请将该目录添加到您的环境变量和路径中，以便您的计算机可以正确找到 cuDNN 库和头文件。这些设置可能因操作系统而异，请参考 NVIDIA 的官方文档进行配置。
验证 cuDNN 是否已成功安装。您可以打开终端或命令提示符窗口，并输入以下命令：

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

如果输出显示了 cuDNN 版本信息，则表示 cuDNN 库已成功安装。

请注意，安装 cuDNN 库可能需要一定的技术知识和经验。如果您遇到困难或问题，建议参考 NVIDIA 的官方文档和社区支持，在线查阅相关资源并寻求帮助。

【AI大模型】搭建本地大模型GPT-NeoX：详细步骤及常见问题处理 qzw1210 gpt 人工智能深度学习
搭建本地大模型GPT-NeoX：详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架，由EleutherAI开发，可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX，并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
Github一周热门ai项目 25.3.24 BillyXie23 AI探索 ai github 人工智能 AI编程开源
项目1：Significant-Gravitas/AutoGPT地址：https://github.com/Significant-Gravitas/AutoGPT描述：AutoGPT致力于让AI技术触手可及，为每个人提供构建AI的工具。Stars:173,711推荐理由：AutoGPT是开源AI领域的标杆项目，强调“人人可用AI”的愿景。它提供了一套完整的工具链，适合开发者和企业快速搭建AI应用
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
ts之变量声明以及语法细节，ts小白初学ing 菥菥爱嘻嘻小白学习ts typescript 前端
TypeScript用js编写的项目虽然开发很快，但是维护是成本很高，而且js不报错啊啊啊啊啊！！！以js为基础进行扩展的给变量赋予了类型语法、实战(ts+vue3)TypeScript是JavaScript的一个超集，支持ECMAScript6标准（ES6教程）。TypeScript由微软开发的自由和开源的编程语言，在JavaScript的基础上增加了静态类型检查的超集。TypeScript设计
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
算法每日一练 (17) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(17)打家劫舍题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(17)打家劫舍题目地址：打家劫舍题目描述你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的
算法每日一练 (16) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(16)使用最小花费爬楼梯题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(16)使用最小花费爬楼梯题目地址：使用最小花费爬楼梯题目描述给你一个整数数组cost，其中cost[i]是从楼梯第i个台阶向上爬需
Tiny RDM：为什么说程序员都需要他，这款开源项目，太好用，轻量化的跨平台Redis桌面客户端，谁用谁知道！！小华同学ai 开源 redis 数据库
嗨，大家好，我是小华同学，关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法TinyRDM是一款现代化、轻量级的跨平台Redis桌面客户端。它支持Mac、Windows和Linux系统，提供了丰富的功能特性，旨在为开发者提供便捷、高效的Redis操作体验。功能特性极度轻量TinyRDM基于Webview2构建，不内嵌浏览器，这使得它在保持轻量级的同时，也拥有出色的性能。感谢Wails框架
推荐一款新兴的开源项目：Nakama 施刚爽
推荐一款新兴的开源项目：Nakamanakama-unityUnityclientforNakamaserver.项目地址:https://gitcode.com/gh_mirrors/na/nakama-unity项目介绍在开放源代码的世界中，我们常常会发现一些令人眼前一亮的创新之作。今天，我们要向您推荐的就是这样一个项目——Nakama。它是一个高度可扩展的游戏服务器和社交平台，专为现代游戏开
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
OpenStack 云平台的深度定制与性能优化算法探索者 openstack
引言OpenStack作为一款领先的开源云平台，以其高度的灵活性和可扩展性，为企业构建云计算基础设施提供了强大的支持。然而，不同企业的业务场景和技术需求千差万别，原生的OpenStack部署往往无法完全满足企业特定的要求。因此，对OpenStack云平台进行深度定制，并在此基础上进行性能优化，成为了企业充分发挥OpenStack优势、提升云服务质量的关键。本文将深入探讨如何针对企业特定需求对Ope
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Orange 开源项目 - 集成DeepSeek大模型 mmd0308 Orange 开源项目开源 Deepseek orange AI编程
1DeepSeek大模型DeepSeek是一家专注实现AGI的中国公司，如果你还想了解更多关于DeepSeek的信息，可以前往【官方网站】查询2集成DeepSeek大模型2.1获取API-KEY获取DeepSeekAPI-KEY,请参考DeepSeek官网「获取DeepSeekAPI-KEY」2.2集成对话模型(ChatModel)publicclassDeepSeekChatModelServi
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
深入浅出 WebRTC 通信原理：从点对点到多人会议的全方位解析 ADFVBM webrtc
随着远程办公和在线协作的普及，音视频通信的需求日益增长。无论是两点之间的通信还是多人会议，WebRTC（WebReal-TimeCommunication）作为一种开源技术，提供了低延迟的实时通信能力。它允许浏览器或移动设备通过直接的点对点（P2P）连接进行音频、视频和数据的实时传输。它使得不依赖中间服务器的实时通信成为可能，尤其适用于视频聊天、文件共享、音频会议等场景。在本文中，我们将深入介绍从
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
Graylog日志系统超详细部署和配置 kim_liao123 部署 elasticsearch docker
Graylog日志系统部署和配置1.软件介绍：Graylog是一个开源的日志聚合、分析、审计、展现和预警工具。功能上和ELK类似，但又比ELK要简单，依靠着更加简洁，高效，部署使用简单；官方文档：https://docs.graylog.org/en/3.3/pages/users_and_roles.html以下所有部署方式都来源与官方文档2.软件准备：服务端：Mongo：存储graylog的一
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
Jarslink 是一个 SOFA 方舟插件，用于管理多应用部署后端java
前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。sofaboot系列SOFABoot-00-sofaboot概览SOFABoot-01-蚂蚁金服开源的sofaboot是什么黑科技？SOFABoot-02-模块化隔离方案SOFABoot-03-sofaboot介绍SOFABoot-04-快
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

GPT2中文模型本地搭建（二）

GPT2中文模型本地搭建（二）

1、简单介绍

1.1 bert4keras是什么，与Keras有什么关系？

1.2 常用的预训练模型加载框架有几种？

1.3 预训练模型常见版本

2、GPT2-ML 开源中文模型本地搭建

2.1 开发环境准备

2.2 下载代码

2.3 下载模型

2.4 加载模型

1）先安装bert4keras

2）下载训练模型的代码，再补全下插件

3）修改代码模型地址

4）运行模型查看测试效果

2.5 测试效果

3、GPU运行

3.1 要检查计算机是否支持 NVIDIA 显卡，您可以执行以下步骤

3.2 集成显卡，不支持

3.3 独立显卡，支持

NVIDIA 显卡驱动安装

CUDA 工具包安装

cuDNN 库安装

你可能感兴趣的:(深度学习,开源,深度学习,人工智能)