wujianming_110117

NVIDIA GPUs上深度学习推荐模型的优化

Optimizing the Deep Learning Recommendation Model on NVIDIA GPUs

推荐系统帮助人在成倍增长的选项中找到想要的东西。是在许多在线平台上推动用户参与的关键组件。

随着工业数据集规模的迅速增长，利用大量训练数据的深度学习推荐模型（deep learning，DL）已经开始显示出其相对于传统方法的优势。现有的基于DL的推荐系统模型包括广度和深度模型、深度学习推荐模型（DLRM）、神经协同滤波（NCF）、变分自编码（VAE）和BERT4Rec等。
大型推荐系统解决方案在性能上面临着多重挑战：庞大的数据集、复杂的数据预处理和特征工程管道，以及大量的重复实验。为了满足大规模DL推荐系统训练和推理的计算需求，GPU推荐解决方案旨在提供快速的特征工程和高训练吞吐量（支持快速实验和生产再训练），以及低延迟、高吞吐量的推理。

在这篇文章中，讨论了DLRM的参考实现，是NVIDIA GPU加速DL模型组合的一部分。涵盖了许多不同领域的网络体系结构和应用，包括图像、文本和语音分析以及推荐系统。通过DLRM，系统地解决了上述挑战。

对于海量数据集的数据预处理任务，引入了新的Spark-on-GPU工具。通过NVIDIA Tensor Core GPU上的自动混合精度训练、优化的数据加载程序和定制的嵌入式CUDA内核，在单个Tesla V100 GPU上，只需44分钟就可以在Criteo Terabyte数据集上训练DLRM模型，而在96-CPU线程上则需要36.5小时。

还演示了如何使用NVIDIA Triton推理服务器将经过训练的DLRM模型部署到生产环境中。

DLRM overview

DLRM是一个基于DL的推荐模型，由Facebook research引入。与其基于DL的方法一样，DLRM被设计为同时使用推荐系统训练数据中通常存在的分类输入和数值输入。图1显示了模型架构。为了处理类别数据，嵌入层将每个类别映射到一个密集的表示，然后再将其输入多层感知器（MLP）。数值特征可以直接输入MLP。

在下一个层次上，通过在所有嵌入向量对和处理的稠密特征之间取点积，显式地计算不同特征的二阶交互作用。这些成对交互被输入到顶级MLP中，以计算用户和项目对之间交互的可能性。

Figure 1. DLRM architecture.

与其基于DL的推荐方法相比，DLRM在两个方面有所不同。首先，显式地计算特征交互，同时将交互顺序限制为成对交互。

其次，DLRM将每个嵌入的特征向量（对应于分类特征）视为一个单元，而其方法（如Deep和Cross）将特征向量中的每个元素视为一个新单元，该单元应产生不同的交叉项。这些设计选择有助于降低计算/内存成本，同时保持具有竞争力的准确性。

Criteo dataset

Criteo-Terabyte-click-logs公共数据集是推荐任务中最大的公共数据集之一，提供了对真实企业数据规模的难得一瞥。包含约1.3TB的未压缩点击日志，包含超过40亿个24天的样本，可用于训练预测广告点击率的推荐系统模型。

这是公共DL数据集中的一个大型数据集。然而，真实的数据集可能要大一两个数量级。企业尽量利用尽可能多的历史数据，因为这通常转化为更好的准确性。

在本文中，使用Criteo Terabyte数据集来演示GPU优化的DLRM训练管道的效率。此数据集中的每条记录都包含40个值：一个表示单击（值1）或不单击（值0）的标签、13个数值特征值和26个分类特征值。特性是匿名的，分类值是散列的，以确保隐私。

End-to-end training pipeline

提供了一个关于Criteo Terabyte数据的端到端训练管道，帮助从几个简单的步骤开始。
1. copy存储库。Clone the repository.

git clone https://github.com/NVIDIA/DeepLearningExamples

cd DeepLearningExamples/PyTorch/Recommendation/DLRM

构建DLRM Docker容器 Build a DLRM Docker container

docker build . -t nvidia_dlrm_pyt

在NVIDIA NGC容器中启动交互式会话以运行预处理/训练和推理。DLRM PyTorch容器可以通过以下方式启动：

mkdir -p data

docker run --runtime=nvidia -it --rm --ipc=host -v ${PWD}/data:/data nvidia_dlrm_pyt bash

在Docker交互会话中，下载并预处理CriteoTB数据集。

在下载数据之前，必须签订并同意Criteo Terabyte数据集的条款和条件。该数据集包含24个压缩文件，需要大约1TB的磁盘存储空间来存储数据，另外2 TB的磁盘存储空间来立即得到结果。

如果不想在24个文件的完整集合上进行实验，可以下载一个子集文件并修改数据预处理脚本以仅处理这些文件。

cd preproc && ./prepare_dataset.sh && cd -

Start training.

python -m dlrm.scripts.main --mode train --dataset /data --save_checkpoint_path model.pt

接下来，将讨论这个训练管道的几个细节。

Data preprocessing and transformation with Spark

最初的Facebook DLRM代码库附带了一个数据预处理实用程序来预处理数据。
对于数值特征，数据预处理步骤包括用0填充缺失值和归一化（将值移动到>=1并取自然对数）。

对于分类特征，预处理将哈希值转换为从0开始的连续整数范围。

这个基于NumPy的数据实用程序运行在一个CPU线程上，需要大约5.5天来转换整个Criteo Terabyte数据集。

使用Spark改进了数据预处理过程，以充分利用所有可用的CPU线程。在DLRM Docker映像中，使用了Spark 2.4.5，启动了一个独立的Spark集群。这将显著提高数据预处理速度，并随着可用CPU内核数的增加而扩展。Spark以Parquet格式输出转换后的数据。最后，将Spark 数据文件转换成一种二进制格式，专门为Criteo数据集设计。
在一个具有96核和768GB RAM的AWS r5d.24xl实例上，整个过程需要9.45小时（不带频率上限）和2.87小时（带频率上限），以便将出现次数少于15次的所有罕见类别映射到一个特殊类别）。

Spark可以进一步提高。为DLRM引入了一个SparkGPU插件。图2显示了GPU上Spark的数据预处理时间改进。使用8v100 32-gbgpu，与等效的Spark CPU管道相比，可以将处理时间进一步加快43倍。Spark GPU插件目前正处于早期访问阶段，供选定的开发人员使用。邀请注册对Spark GPU插件的兴趣。

Figure 2: Spark performance improvement on GPU vs CPU. CPU model: AWS r5d.24xl, 96 cores, 768 GB RAM. Bars represent speedup factor for GPU vs. CPU. The higher, the better.

预处理脚本是为Criteo Terabyte数据集设计的，但是应该可以与任何其具有相同格式的数据集一起使用。数据应该分成文本文件。这些文本文件的每一行都应该包含一个训练示例。示例应包含多个字段，这些字段由制表符分隔：

第一个字段是标签。正数用1，负数用0。

接下来的N个标记应该包含由制表符分隔的数字特征。

下一个M标记应该包含由制表符分隔的散列分类特性。

必须修改数据参数，例如每个分类特征的唯一值的数目和predoc/spark_data中的数字特征的preproc/spark_data_utils.py，以及预印/运行中的spark配置preproc/run_spark.sh.

Data loading

采用二进制数据格式，本质上是对加载速度特别快的NumPy数组的序列化。这与重叠数据加载和host2设备传输以及神经网络计算相结合，使能够实现高GPU利用率。

Embedding tables and custom embedding kernel

基于DL的推荐模型通常太大，无法装入单个设备内存。这主要是由于嵌入表的绝对大小，与类别特征的基数和潜在空间的维数（嵌入表中的行数和列数）成正比。

采用了一种常见的做法，将所有罕见的分类值映射到一个特殊的“缺失类别”值（这里，在数据集中出现次数少于15次的任何类别都被视为缺失类别）。这减少了嵌入表的大小，并避免了嵌入那些在随机初始化的训练过程中无法充分更新的条目。

与其计算密集型层不同，嵌入层受内存带宽限制。与当前最先进的商用CPU相比，GPU具有非常高的带宽内存。为了有效地使用可用的内存带宽，将所有分类嵌入表合并到一个表中，并使用自定义内核执行嵌入查找。内核使用矢量化的加载存储指令以获得最佳性能。

Training with automatic mixed precision

混合精度是指在计算过程中使用多个数值精度，如FP32 FP16。

从Volta架构开始，NVIDIA gpu配备了张量核、执行矩阵乘法的专用计算单元、线性（也称为完全连接）和卷积层的构建块。NVIDIA NGC PyTorch容器中提供的自动混合精度（AMP）功能使混合精度训练只需对代码库进行最小的更改。在引擎启动下，AMP是由NVIDIA APEX库提供的，通过只更改脚本的三行来实现混合精度训练。

在对NVIDIA DL模型库中的各种模型和体系结构的实验中，AMP通常提供1.3倍到3倍或更多的加速。对于DLRM，AMP提供了比FP32训练快2.37倍的速度。使用V100 32GB的GPU，DLRM可以在44分钟内在Criteo Terabyte数据集上训练一个epoch，收敛到AUC值0.8036。

End-to-end inference pipeline

推荐系统推理包括确定查询用户最有可能与之交互的项的有序列表。

对于有数百万到数亿个项目可供选择的大型商业数据库（如广告或应用程序），通常执行项目检索过程以将项目数量减少到更易于管理的数量，例如几百到几千个。这些方法包括计算效率高的算法，例如基于用户偏好和业务规则的近似邻域搜索或过滤。在此基础上，调用一个DL推荐模型来重新排列条目。得分最高的将呈现给用户。这个过程如图3所示。

Figure 3: Recommender systems inference process.

如所见，对于每个查询用户，要评分的用户项对的数量可以大到几千个。这给推荐系统推理服务器带来了沉重的负担。服务器必须处理高吞吐量以同时服务多个用户，同时以低延迟运行以满足在线商务引擎的严格延迟阈值。

NVIDIA Triton推理服务器提供了一个为NVIDIA gpu优化的云推理解决方案。服务器使用HTTP或GRPC端点提供推理服务，允许远程客户端请求对服务器管理的任何模型进行推理。Triton服务器自动管理和使用所有可用的GPU。

下一节将介绍如何准备DLRM模型，以便与Triton服务器进行推理，并了解Triton服务器的性能。

Prepare the model for inference

Triton服务器可以为TorchScript和ONNX模型以及其模型提供服务。提供了一个导出工具来准备经过训练的DLRM模型，以便进行生产推断。
使用TorchScript
可以使用以下任一方法将预处理的PyTorchDLRM模型导出到TorchScript模型torch.jit.script脚本或者torch.jit.trace使用以下命令：

python triton/deployer.py --ts-script --triton-max-batch-size 65536 --model_checkpoint dlrm.pt --save-dir /repository [other optional parameters]

这将从名为dlrm.pt公司，使用torch.jit.script脚本最大可维护批量为65536。
使用ONNX

类似地，可以使用以下命令创建ONNX生产就绪模型：

python triton/deployer.py --onnx --triton-max-batch-size 65536 --model_checkpoint dlrm.pt --save-dir /repository [other optional parameters]

导出工具的结果是一个打包的目录/存储库，Triton服务器可以很容易地利用。
设置Triton推理服务器

在模型准备就绪的情况下，Triton服务器可以通过以下步骤进行设置。

使用以下命令下载Triton推理Docker图像，其中是服务器版本，例如20.02-py3：

docker pull nvcr.io/nvidia/tensorrtserver:

启动Triton服务器，指向在上一步中创建的导出模型目录：

docker run --network=host -v /repository:/models nvcr.io/nvidia/tensorrtserver: trtserver --model-store=/models

Use the Triton Server perf_client tool to measure inference performance

Triton服务器配有一个方便的性能客户端工具perf_客户端。该工具使用多个并行线程，使用合成数据或实际数据对推理服务器进行压力测试。可以使用以下命令调用：

/workspace/install/bin/perf_client --max-threads 10 -m dlrm-onnx-16 -x 1 -p 5000 -v -i gRPC -u localhost:8001 -b 4096 -l 5000 --concurrency-range 1 --input-data /location/for/perfdata -f result.csv

使用perf客户机，收集了延迟和吞吐量数据，以填充本文后面显示的数字。
Triton服务器批处理策略

默认情况下，导出的模型与Triton服务器静态批处理策略一起部署：每个请求都会立即完成。另一方面，动态批处理是推理服务器的一个特性，允许服务器组合推理请求，以便动态创建批处理。这将导致批量推理请求的吞吐量增加。

同时对一批输入进行推理，这对gpu尤其重要，因为可以大大提高推理吞吐量。在许多用例中，单个推理请求没有批处理，也没有从批处理的吞吐量效益中获益。

对于具有严格延迟阈值的在线应用程序，Triton服务器是可配置的，因此具有动态批处理的队列时间被限制在上限，同时形成尽可能大的批处理以最大化吞吐量。在模型目录中，有一个名为config.pbtxt可以配置一个额外的批处理选项，如下所示：

ddynamic_batching { preferred_batch_size: [ 65536 ] max_queue_delay_microseconds: 7000}

静态批处理吞吐量 ‘

图4显示了Triton服务器在不同批量大小下的吞吐量。对于推荐系统，大批量是最感兴趣的。对于每个查询用户，在一个项目重新排序的请求中会发送数千个项目。与80线程CPU推断相比，Tesla V100 32-GB GPU的吞吐量提高了20倍。可以看到，GPU的吞吐量在大约8K的批处理大小时开始饱和。

Figure 4. Triton Server TorchScript inference throughput on GPU vs. CPU. GPU: Tesla V100 32GB. CPU: 2x Intel® Xeon® E5-2698 v4 @ 2.20GHz (80 threads).

图5显示了与CPU相比，GPU上的Triton TorchScript推理延迟。在8192的批处理大小下，V100 32-GB GPU比80线程CPU推断减少了19倍的延迟。

Figure 5. Triton TorchScript inference latency on GPU vs. CPU. GPU: Tesla V100 32 GB. CPU: 2x Intel® Xeon® E5-2698 v4 @ 2.20GHz (80 threads).

动态批处理吞吐量

与静态批处理相比，使用动态批处理可以进一步提高吞吐量。在这个实验中，将每个用户的请求批量大小设置为1024，Triton最大和首选批量大小设置为65536。图5显示了不同请求并发级别的延迟和吞吐量。延迟分为客户端发送/接收时间、服务器队列和计算时间、网络、服务器发送/接收时间。

并发级别是perf_client的一个参数，允许控制延迟吞吐量权衡。默认情况下，perf_client在请求并发性为1时使用模型上可能的最低负载来测量模型的延迟和吞吐量。为此，perf_client向服务器发送一个推断请求并等待响应。当接收到该响应时，perf_client立即发送另一个请求，然后重复此过程。

在N的更高并发级别上，perf_client立即一个接一个地触发请求，而不等待前一个请求得到满足，同时在任何时候最多保持N个未完成的请求。

Figure 6. Latency vs. throughput at varying number of concurrent client requests on Tesla V100 32GB GPU. Model: DLRM TorchScript FP16. Maximum Triton batch size: 65536.

图6显示，如果延迟上限为10毫秒，则可以达到每秒1318710个样本的吞吐量。这意味着在一个V100 GPU上每秒可以为1288个用户提供服务，每个用户在10毫秒的延迟限制内，假设希望为每个用户评分1024项，并且用户请求在任何10毫秒窗口内以最大12个请求的统一速率出现。

结论

在这篇文章中，经历了一个完整的DLRM管道，从数据准备到培训再到生产推理。GPU优化的DLRM可从NVIDIA deep learning model zoo的/PyTorch/Recommendation/DLRM下获得。提供现成的Docker图像用于训练和推理、数据下载和预处理工具，以及Jupyter演示笔记本，让快速启动和运行。通过导出工具，经过训练的模型可以在一个简单的步骤中为生产推理做好准备。还邀请注册兴趣，以便尽早访问Spark GPU组件。

DLRM是NVIDIA Merlin的一部分，NVIDIA Merlin是一个用于构建基于DL的高性能推荐系统的框架。要了解有关Merlin和更大的生态系统的更多信息，请参阅最近的文章，宣布NVIDIA Merlin：一个用于深度推荐系统的应用程序框架。

诚邀试用最新开发的推荐系统应用工具并从中受益。问题和功能请求有助于指导未来的开发。很高兴看到可以用自己的数据处理这个模型。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
2023-10-22 奥雷里亚诺第n
昨天在B站看到关于猫喜欢挠人的视频，视频教导说猫挠人的话就抓住它的后脖颈然后用手打打挠人的那个爪子。视频本身没什么，但评论区却炸开了锅（真是符合挑食者厌食心理）。令我印象最深刻的一个甚至上升到了关于我是谁这种终极问题。它说，猫就是畜生，它挠人就打它别惯着它，反正我六道轮回成了人就应该保持人的高贵，谁都别想来打破。我顿时汗颜，但看到下面全是类似的言论只不过后面的理由各有不同，本来想骂人的心都凉了一半
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
剧本杀《鲸鱼马戏团》剧本杀剧透+真相答案复盘解析攻略 VX搜_奶茶剧本杀
本文为剧本杀《鲸鱼马戏团》剧本杀测评+部分真相复盘，获取完整真相复盘只需两步：①、关注微信公众号【奶茶剧本杀】→②、回复剧本杀《鲸鱼马戏团》即可获取查看剧本杀《鲸鱼马戏团》剧本杀真相答案复盘+凶手剧透：以下是玩家评测+部分关键证据，凶手，时间线，复盘解析，推理逻辑--------------------------------------------------------------------
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
中原焦点团队网络初中级30期阴丽丽坚持分享第三百八十八次2022.10.18分享约练次数（74）咨询师（6）来访者（53）观察者（15）阴丽丽
今天是忙碌的一天，一早起来，总想着找点把事情弄完，可总也弄不完。就这样弄着吧！孩子的事，自己的事都在那里搁置着，不想做，有点欧！今天总体还不错，只是在下午起床时走神了俩小时，也算是给自己的放松吧！今日难得1.儿子乖巧、听话，努力配合，一天下来也是忙忙碌碌，这真的很难得！2.儿子今天录的视频被班主任认可，这真的很难得3.我今天早上做核酸时，自己把教案整了一下，这真的很难得
为什么瘦子很难增胖？我的狗毛毛
我是个标准的瘦子，168，100斤。用一句通俗的话来讲，我连马甲线都瘦出来了（体脂含量比较低）。但是我反而很羡慕那些比较丰满的女人，我的理想是再增重十五斤，练成前凸后翘的魔鬼身材。为此我开始纠正自己不规律的作息，吃高热量的食物，减少运动量，能坐着绝不站着，能躺着绝不坐着。但是结果却没有丝毫变化。我一直很苦恼，直到最近在网上看到一个视频，英国的某个研究机构做了一个实验，想要知道瘦子能否在高热量的食物
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
视频号买1000个粉多少钱?视频号可以购买粉丝吗？开橱窗需要多少粉？爱吃菠萝的鱼
在视频号的发展初期，很多人都认为，视频号可以通过购买粉丝来提升用户质量。而这个说法，在我们使用视频号的过程中，发现了它是可以购买粉丝的。但是我们要知道，视频号的本质，是一款社交工具。而不是一个私域流量池。而很多人在做私域流量池的时候，就想着怎么通过购买粉丝来提升用户质量。但我觉得你真的是想多了。视频号涨粉咨询号码：1776206920517753965895视频号粉丝1000有什么好处1、视频号粉
上班族可以做线上副业兼职有哪些？盘点7个适合上班族做的副业兼职！高省APP大九
对于许多上班族来说，工资往往不能满足他们的生活需求，因此许多人开始寻找副业来增加收入。以下是一些适合普通人的副业赚钱路子，希望能给您带来一些灵感。1、做好物推荐现在很多职场人其实有大量的个人时间，只不过这些个人时间比较碎片化，他们不能够很好的利用起来，其实可以利用这些碎片化的时间去做副业，比如做好物推荐。在网上有很多的平台，比如头条抖音等等都开通了一个商品的分销功能，只要你发布相关的视频或者文章，
一分钟学会刷牙，受用终生！好易康
讲真，刷了十几二十年牙，没刷对过一次......来来来，划重点，更重要的是执行：①每天刷牙2次，②每次刷牙2~3分钟，③每3个月更换牙刷。最后，请使用正确的刷牙方法：巴氏（BASS）刷牙法undefined_腾讯视频视频来源ADA美国牙医协会巴氏刷牙法又称龈沟清扫法或水平颤动法。是由美国牙科协会推荐的一种有效去除龈缘附近及龈沟内菌斑的方法。刷牙不仅是刷牙齿，同时也要刷牙龈。因为口腔与细菌的战场就在
逻辑思维的过程与力量解晓萱
之前我对逻辑思维的了解停留在，讲话时有逻辑，辩论时条理清晰。今天看了《开讲了》里面关于大学生质疑易中天老师的视频，听到易中天老师的回答，忽然对逻辑思维有了稍微深刻的理解。图片发自App逻辑学对我们太重要了，不仅仅是学习备考，更重要的是生活和事业及交流的选择及过程。偏激的起点和性格有关，更和逻辑思维水平有关。视频里，易中天老师评价北大学生逻辑时讲到：“他的逻辑环节是没问题的，但是逻辑起点错了，所以他
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
4 大低成本娱乐方式: 小说, 音乐, 视频, 电子游戏穷人小水滴娱乐音视频低成本小说游戏
穷人如何获得快乐?小说,音乐,视频,游戏,本文简单盘点一下这4大低成本(安全)娱乐方式.这里是穷人小水滴,专注于穷人友好型低成本技术.(本文为58号作品.)目录1娱乐方式1.1小说(网络小说)1.2音乐1.3视频(b站)1.4游戏(电子游戏/计算机软件)2低成本:一只手机即可3总结与展望1娱乐方式这几种,也可以说是艺术的具体形式.更专业的说,(娱乐)是劳动力再生产的重要组成部分.使人放松,获得快乐
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

NVIDIA GPUs上深度学习推荐模型的优化

你可能感兴趣的:(视频推理,GPU,机器学习)