CSDN资讯

深度干货！如何将深度学习训练性能提升数倍？

作者 | 车漾，阿里云高级技术专家

顾荣，南京大学副研究员

责编 | 唐小引

头图 | CSDN 下载自东方 IC

出品 | CSDN（ID：CSDNnews）

近些年，以深度学习为代表的人工智能技术取得了飞速的发展，正落地应用于各行各业。随着深度学习的广泛应用，众多领域产生了大量强烈的高效便捷训练人工智能模型方面的需求。另外，在云计算时代，以 Docker、Kubernetes 为主的容器及其编排技术在应用服务自动化部署的软件开发运维浪潮中取得了长足的发展。Kubernetes 社区对于 GPU 等加速计算设备资源的支持方兴未艾。

鉴于云环境在计算成本和规模扩展方面的优势，以及容器化在高效部署和敏捷迭代方面的长处，基于“容器化弹性基础架构+云平台 GPU 实例”进行分布式深度学习模型训练成为了业界生成 AI 模型的主要趋势。

为了兼顾资源扩展的灵活性，云应用大多采用计算和存储分离的基本架构。其中，对象存储因为能够有效地降低存储成本、提升扩展弹性，经常用来存储管理海量训练数据。除了采用单一云上存储之外，很多云平台的用户因为安全合规、数据主权或者遗产架构方面的因素，大量数据还存储在私有数据中心。

这些用户希望基于混合云的方式构建人工智能训练平台，利用云平台的弹性计算能力满足高速增长的 AI 业务模型训练方面的需求，然而这种“本地存储+云上训练”的训练模式加剧了计算存储分离架构带来的远程数据访问的性能影响。计算存储分离的基本架构虽然可以为计算资源和存储资源的配置和扩展带来更高的灵活性，但是从数据访问效率的角度来看，由于受限于网络传输带宽，用户不经调优简单使用这种架构通常会遇到模型训练性能下降的问题。

常规方案面临的数据访问挑战

目前云上深度学习模型训练的常规方案主要采用手动方式进行数据准备，具体是将数据复制并分发到云上单机高效存储（例如 NVMe SSD）或分布式高性能存储（例如，GlusterFS 并行文件系统）上。这种由用户手工或者脚本完成的数据准备过程通常面临如下三个问题：

数据同步管理成本高：数据的不断更新需要从底层存储定期进行数据同步，这个过程管理成本较高。
云存储成本开销更多：需要为云上单机存储或高性能分布式存储支付额外费用。
大规模扩展更加复杂：随着数据量增长，难以将全部数据复制到云上单机存储；即使复制到 GlusterFS 这样的海量并行文件系统也会花费大量的时间。

基于容器和数据编排的模型训练架构方案

针对云上深度学习训练常规方案存在的上述问题，我们设计并实现了一种基于容器和数据编排技术的模型训练架构方案。具体系统架构如下图所示：

▐ 系统架构核心组件

Kubernetes 是一种流行的深度神经网络训练容器集群管理平台，它提供了通过容器使用不同机器学习框架的灵活性以及按需扩展的敏捷性。阿里云容器服务 ACK（Alibaba Cloud Kubernetes）是阿里云提供的 Kubernetes 服务，可以在阿里云平台的 CPU、GPU、NPU（含光 800 芯片）、神龙裸金属实例上运行 Kubernetes 工作负载。
Kubeflow 是开源的基于 Kubernetes 云原生 AI 平台，用于开发、编排、部署和运行可扩展的便携式机器学习工作负载。Kubeflow 支持两种 TensorFlow 框架分布式训练，分别是参数服务器模式和 AllReduce 模式。基于阿里云容器服务团队开发的 Arena,用户可以提交这两种类型的分布式训练框架。
Alluxio 是面向混合云环境的开源数据编排与存储系统。通过在存储系统和计算框架之间增加一层数据抽象层，提供统一的挂载命名空间、层次化缓存和多种数据访问接口，可以支持大规模数据在各种复杂环境（私有云集群、混合云、公有云）中的数据高效访问。

Alluxio 发轫于大数据时代，流觞自诞生了 Apache Spark 的 UC Berkeley AMP 实验室。Alluxio 系统设计的初衷是为了解决大数据处理流水线中不同计算框架在通过磁盘文件系统（如 HDFS）互换数据，造成整个分析性能瓶颈耗时在 I/O 操作方面的问题。Alluxio 项目开源于 2013 年，经过 7 年的不断开发迭代，在大数据处理场景下的应用日趋成熟。另外，近些年随着深度学习的崛起，Alluxio 分布式缓存技术正逐步成为业界解决云上 I/O 性能问题的主流解决方案。进一步地，Alluxio 推出接口 FUSE，为云上 AI 模型训练提供了高效的数据访问手段。

为了能够更好地将 Alluxio 融入 Kubernetes 生态系统发挥两者结合的优势，Alluxio 团队和阿里云容器服务团队协作开发提供了 Alluxio 的 Helm Chart 方案，极大地简化了在 Kubernetes 内的部署和使用。

云上训练——Alluxio 分布式缓存初探

▐ 深度学习实验环境

我们使用 ResNet-50 模型与 ImageNet 数据集，数据集大小 144GB，数据以 TFRecord 格式存储，每个 TFRecord 大小约 130MB。每个 GPU 的 batch_size 设置为 256
模型训练硬件选择的是 4 台 V100（高配 GPU 机型），一共 32 块 GPU 卡。
数据存储在阿里云对象存储服务中，模型训练程序通过 Alluxio 读取数据，并在读取过程中将数据自动缓存到 Alluxio 系统。Alluxio 缓存层级配置为内存，每台机器提供 40GB 内存作为内存存储，总的分布式缓存量为 160GB，没有使用预先加载策略。

▐ 初遇性能瓶颈

在性能评估中，我们发现当 GPU 硬件从 P100 升级到 V100 之后，单卡的计算训练速度得到了不止 3 倍的提升。计算性能的极大提升给数据存储访问的性能带来了压力。这也给 Alluxio 的 I/O 提出了新的挑战。

下图是在分别在生成数据（Synthetic Data）和使用 Alluxio 缓存的性能对比，横轴表示 GPU 的数量，纵轴表示每秒钟处理的图片数。生成数据指训练程序读取的数据由程序自身产生，没有 I/O 开销，代表模型训练性能的理论上限; 使用 Alluxio 缓存指训练程序读取的数据来自于 Alluxio 系统。

在 GPU 数量为 1 和 2 时，使用 Alluxio 和生成数据对比，性能差距在可以接受的范围。但是当 GPU 的数量增大到 4 时，二者差距就比较明显了，Alluxio 的处理速度已经从 4981 images/second 降到了 3762 images/second。而当 GPU 的数量达到 8 的时候，Alluxio 上进行模型训练的性能不足生成数据的 30%。而此时通过系统监控，我们观察到整个系统的计算、内存和网络都远远没有达到瓶颈。这间接说明了简单使用 Alluxio 难以高效支持 V100 单机 8 卡的训练场景。

为了能够深入了解是什么因素影响了性能并进行调优，需要首先研究分析 Alluxio 在 Kubernetes 下支持 FUSE 的整个技术栈。如下图所示：

▐ 原因剖析

通过深度分析整个技术栈和 Alluxio 内核，我们将造成相关性能影响的原因总结如下：

1. Alluxio 读文件引入多次 grpc 交互，造成性能开销。

Alluxio 不只是一个单纯的缓存服务。它首先是一个分布式虚拟文件系统，包含完整的元数据管理、块数据管理、UFS 管理（UFS 是底层文件系统的简称）以及健康检查机制，尤其是它的元数据管理实现比很多底层文件系统更加强大。这些功能是 Alluxio 的优点和特色，但也意味着如果每次都完整地使用 Alluxio 的全部功能，会产生多次 grpc 交互通信。完成整个读操作的链路额外开销在传统大数据场景下并不明显，但是深度面对学习场景下高吞吐和低延时的需求就显得捉襟见肘了。

2. Alluxio 的数据缓存和驱逐策略会频繁触发节点数据缓存震荡。

深度学习场景数据冷热经常不明显，因此每个 Alluxio Worker 都会完整读取数据。而 Alluxio 默认模式会优先数据本地读取，即使数据已经保存在 Alluxio 集群中，也会从其他缓存节点拉取到本地存一份副本。这个特性在我们的场景下会带来两个额外开销：1.异步数据缓存的额外开销 2.本地空间不足会触发自动数据驱逐的开销，特别当节点缓存数据接近饱和的情况下性能开销巨大。

3. Alluxio 和 Fuse 的集成性能有待优化。

很多的文件系统客户端都是通过 Fuse 实现的，基于 Fuse 进行文件系统的开发、部署、使用都很简单，但是默认性能并不理想，原因如下：

Fuse 读操作效率不高，每次 read 最多只能读 128KB，读一个 128MB 的文件需要 1000 次调用 read。
Fuse 读操作属于非阻塞行为，由 libfuse 非阻塞线程池处理，一旦并发请求数量远超过线程池(max_idle_threads)的大小，就会触发频繁的大量线程创建和删除，从而影响读性能。而在 Fuse 中，这个默认配置是 10。
元数据的频繁访问，因为 Fuse 内核模块是个桥梁角色，连接了应用程序和 Alluxio 的文件系统，而每一次读获取文件/目录的 inode 以及 dentry，Fuse 内核模块都会到 Alluxio 系统运行一趟，增加了系统压力。
Alluxio 目前的工作模式不支持 Fuse 使用 page cache，Alluxio 原先的设计是每个线程会有自己的 FileInputStream, 而不是大家同步都在用一个 FileInputStream。如果打开 page cache，Alluxio Fuse 会有些并发预先读到 cache 的操作，此时会产生报错。

4. Kubernetes 对于 Alluxio 的线程池影响。

Alluxio 基于 Java 1.8 版本实现，其中的一些线程池的计算会依赖于 Runtime.getRuntime().availableProcessors()，但是在 Kubernetes 环境下，默认配置中 cpu_shares 的值为 2，而 JVM 对于 CPU 的核心数的计算公式 cpu_shares()/1024，导致结果是 1。这会影响 Java 进程在容器内的并发能力。

云上模型训练的性能优化

在分析了上述性能问题和因素之后，我们将设计了一系列性能优化策略以提升云上模型训练的性能。首先，需要明白数据访问的“多快好省”是无法全部兼顾，我们针对的主要是模型训练下只读数据集的数据访问加速。优化的基本思路是关注高性能和数据一致性，而牺牲一部分灵活的自适应性（比如读写同时发生，数据内容不断更新等场景）。

基于上述思路，我们设计了具体的性能优化策略，这些策略遵循以下核心原则：

寻找资源限制，包括线程池以及 JVM 在容器中的配置；
借助各级缓存，包括 Fuse 层和 Alluxio 元数据缓存；
避免额外开销，减少非必须的调用链路。比如避免不必要的元数据交互，引入上下文切换的 GC 线程和 compiler 进程；以及 Alluxio 内部的一些可以简化的操作。

下面将从各层的组件优化角度，对这些优化策略逐一介绍：

▐ 对 Fuse 的优化

升级 Kernel 版本

选择更高的 Kernel 版本，由于 Fuse 实现分为两层：用户态的 libfuse 和 Fuse Kernel，高版本的 Kernel 在 Fuse 上做了大量的优化。我们对比了 Kernel 3.10 和 4.19 的性能，可以发现读性能可以达到 20%的提升。

优化 Fuse 参数

延长 Fuse 元数据有效时间

Linux 中每个打开文件在内核中拥有两种元数据信息：struct dentry 和 struct inode，它们是文件在内核的基础。所有对文件的操作，都需要先获取文件这两个结构。所以，每次获取文件/目录的 inode 以及 dentry 时，Fuse 内核模块都会从 LibFuse 以及 Alluxio 文件系统进行完整操作，这样会带来数据访问的高延时和高并发下对于 Alluxio Master 的巨大压力。可以通过配置 –o entry_timeout=T –o attr_timeout=T 进行优化。

配置 max_idle_threads 避免频繁线程创建销毁引入 CPU 开销

这是由于 FUSE 在多线程模式下，以一个线程开始运行。当有两个以上的可用请求，则 FUSE 会自动生成其他线程。每个线程一次处理一个请求。处理完请求后，每个线程检查目前是否有超过 max_idle_threads (默认 10)个线程；如果有，则该线程回收。而这个配置实际上要和用户进程生成的 I/O 活跃数相关，可以配置成用户读线程的数量。而不幸的是 max_idle_threads 本身只在 Libfuse3 才支持，而 Alluxio Fuse 只支持 Libfuse2，因此我们修改了 Libfuse2 的代码支持了 max_idle_threads 的配置。

▐ 对 Alluxio 的优化

避免频繁逐出（Cache Eviction）造成缓存抖动

由于深度学习训练场景下，每次训练迭代都是全量数据集的迭代，缓存几个 TB 的数据集对于任何一个节点的存储空间来说都是捉襟见肘。而 Alluxio 的默认缓存策略是为大数据处理场景（例如，查询）下的冷热数据分明的需求设计的，数据缓存会保存在 Alluxio 客户端所在的本地节点，用来保证下次读取的性能最优。具体来说：

alluxio.user.ufs.block.read.location.policy 默认值为 alluxio.client.block.policy.LocalFirstPolicy，这表示 Alluxio 会不断将数据保存到 Alluxio 客户端所在的本地节点，就会引发其缓存数据接近饱和时，该节点的缓存一直处于抖动状态，引发吞吐和延时极大的下降，同时对于 master 节点的压力也非常大。因此需要 location.policy 设置为 alluxio.client.block.policy.LocalFirstAvoidEvictionPolicy 的同时，指定 alluxio.user.block.avoid.eviction.policy.reserved.size.bytes 参数，这个参数决定了当本地节点的缓存数据量达到一定的程度后，预留一些数据量来保证本地缓存不会被驱逐。通常这个参数应该要大于节点缓存上限 X （100% - 节点驱逐上限的百分比）。

alluxio.user.file.passive.cache.enabled 设置是否在 Alluxi 的本地节点中缓存额外的数据副本。这个属性是默认开启的。因此，在 Alluxio 客户端请求数据时，它所在的节点会缓存已经在其他 worker 节点上存在的数据。可以将该属性设为 false，避免不必要的本地缓存。

alluxio.user.file.readtype.default 默认值为 CACHE_PROMOTE。这个配置会有两个潜在问题，首先是可能引发数据在同一个节点不同缓存层次之间的不断移动，其次是对数据块的大多数操作都需要加锁，而 Alluxio 源代码中加锁操作的实现不少地方还比较重量级，大量的加锁和解锁操作在并发较高时会带来不小的开销，即便数据没有迁移还是会引入额外开销。因此可以将其设置为 CACHE 以避免 moveBlock 操作带来的加锁开销，替换默认的 CACHE_PROMOTE。

缓存元数据和节点列表

通过 Alluxio 进行文件访问的时候，默认会走遍从 master 获取文件元数据->获取 block 元数据->从 worker 获取 block 的具体位置->真正读取 block 数据的完整链路，这实际上会引入明显的文件访问延时。如果能将该数据文件的 block 信息缓存到客户端内存中，会非常明显的提升文件的访问性能。

将 alluxio.user.metadata.cache.enabled 设置为 true, 可以避免二次访问时仍需要访问元数据的问题。alluxio.user.metadata.cache.max.size 可以设置最多缓存文件数量，当然这也要结合 Alluxio 客户端的堆大小进行配置。

同时在每次选择读取数据的 worker 节点时，Alluxio master 节点也会不断去查询所有 worker 节点的状态，这也会在高并发场景下引入额外开销。

将 alluxio.user.worker.list.refresh.interval 设置为 2min 或者更长。

读取文件也会不断更新 last accesstime，实际上在高并发的场景下，这会对 Alluxio master 造成很大压力。我们通过修改 Alluxio 代码增加了开关，可以关闭掉 last accesstime 的更新。

充分利用数据本地性

数据本地性就是尽量将计算移到数据所在的节点上进行，避免数据在网络上的传输。分布式并行计算环境下，数据的本地性非常重要。在容器环境下支持两种短路读写方式：Unix socket 方式和直接文件访问方式。

Unix Socket 的方式好处在于隔离性好，不需要 Alluxio Client 和 Alluxio Worker 容器运行在同样的 Network，UTS，Mount 的 Namespace。但是它的性能比直接文件访问要差一些，同时会引发 netty 的 OutOfDirectMemoryError。

而直接访问文件的方式则所以需要确保同一台机器上运行的 Alluxio Worker 和 Alluxio Fuse 的主机名和 IP 地址一致，同时要保证 Alluxio Client 和 Worker 共享同样缓存目录，这种方式性能更好同时更加稳定。但是它实际上牺牲了隔离性，需要二者共享 Network，UTS，Mount 的 Namespace

我们目前选择的方案是优先采用后者。

▐ 对 Java & Kubernetes 的优化

配置 ActiveProcessorCount

Runtime.getRuntime().availableProcessors()控制的；而如果通过 Kubernetes 部署容器而不指定 cpu 资源的 request 数量，容器内 Java 进程读到 proc 文件系统下的 cpushare 数量为 2，而此时的 availableProcessors()来自于 cpu_shares()/1024，会被算成 1。实际上限制了容器内 Alluxio 的并发线程数。考虑到 Alluxio Client 属于 I/O 密集型的应用，因此可以通过-XX:ActiveProcessorCount 设置处理器数目。这里的基本原则是 ActiveProcessorCount 尽量设置得高些。

调整 GC，JIT 线程

JVM 的缺省 GC，JIT 编译线程数量取决于-XX:ActiveProcessorCount 的数量，但实际上也可以通过-XX:ParallelGCThreads -XX:ConcGCThreads -XX:CICompilerCount 等参数配置，可以将其设置的小些，避免这些进程频繁的抢占切换，导致性能下降。

▐ 性能优化效果

在优化 Alluxio 之后，ResNet50 的训练性能单机八卡性能提升了 236.1%，并且扩展性问题得到了解决，训练速度在不但可以扩展到了四机八卡，而且在此场景下和生成数据相比性能损失为 3.29%(31068.8 image/s vs 30044.8 image/s)。而实际训练时间方面，四机八卡在生成数据场景下需要 63 分钟，而使用 Alluxio 需要 65 分钟。

总结与进一步工作

在本文中，我们总结了 Alluxio 在高性能分布式深度学习模型训练场景中落地的挑战点，以及我们在优化 Alluxio 的实践。进一步地，我们介绍了如何从多个层面提升 Alluxio Fuse 在高并发场景下性能优化的经验。最后，我们实现的基于 Alluxio 优化的分布式模型训练方案，并在 4 机 8 卡的 ResNet50 场景下进行了性能验证，取得了很好的效果。

在进一步工作方面，对于高吞吐海量规模的小文件和高并发读场景，Alluxio 还有一些在 page cache 的支持和 Fuse 层的稳定性方面的工作，我们阿里云容器服务团队也会和 Alluxio 开源社区以及南京大学戴海鹏、顾荣等老师一起继续合作努力改进。我们相信通过工业界、开源社区和学术界和联合的创新力量，能够逐步降低计算存储分离场景下深度学习训练的数据访问高成本和复杂度，进一步助力云上普惠 AI 模型训练。

▐ 致谢

感谢 Alluxio 团队的范斌，邱璐，Calvin Jia，常铖在整个方案的设计和优化过程中的巨大帮助，从 Alluxio 自身能力上对于元数据缓存系统做了显著的提升，为 Alluxio 落地 AI 场景开启了可能性。

作者简介：

车漾，阿里云高级技术专家，从事 Kubernetes 和容器相关产品的开发。尤其关注利用云原生技术构建机器学习平台系统，是 GPU 共享调度的主要作者和维护者。

顾荣，南京大学副研究员，Alluxio 项目核心开发者，研究方向大数据处理，2016 年获南京大学博士学位，曾在微软亚洲研究院、英特尔、百度从事大数据系统实习研发。

【END】

更多精彩推荐

AI 时代，为什么程序员很贵？

☞前百度主任架构师创业，两年融资千万美元，他说AI新药研发将迎来黄金十年

☞天呐，你竟然还在用 try–catch-finally

☞北京四环堵车引发的智能交通大构想

☞从Ngin到Pandownload，程序员如何避免面向监狱编程？

从 Web 1.0到Web 3.0：详析这些年互联网的发展及未来方向

你点的每个“在看”，我都认真当成了喜欢

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
渝婧感恩日记第68天梁渝婧lydia
1.哇！我真是太幸福啦！感恩奇迹感恩训练营毕业典礼，让我能共振到同学们的喜悦和能量，感谢！感谢！感谢！2.哇！我真是太幸福啦！感恩每天早起，运动3公里！这个星期又做到连续三天，不间断！感谢亲爱的渝婧！你真的是非常的棒！加油，继续坚持！感谢！感谢！感谢！3.哇！我真是太幸福啦！感恩曾正波班主任给我们分享的艾宾浩斯的记忆曲线255学习法，让我蠢蠢欲试，感谢！感谢！感谢！4.哇！我真是太幸福啦！感恩胜利
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
2024.8.22 Python，链表两数之和，链表快速反转，二叉树的深度，二叉树前中后序遍历，N叉树递归遍历，翻转二叉树 RaidenQ python 链表开发语言
1.链表两数之和输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9,9,9,9,9],l2=[9,9,9,9]输出：[8,9,9,9,0,0,0,1]昨天的这个题，用自己的办法写的麻烦的要死，然后刚才一看chat归类的办法，感觉自己像个智障。classListNode
海拔五千 3点8度
【海拔五千】连续几天到宿舍盯学生早起情况，今天早上都能及时离开宿舍，没有迟到的了。早读复习宋词，新背一首，晚上又忘了[流泪]断续听王静老师的一堂课，深度语文名不虚传！下课问学生如何，学生答曰比你讲的有趣[捂脸]继续读《娱乐至死》美国在不同的历史时期，代表城市不一样，从波士顿的政治中心，到纽约的大熔炉（自由女神就是其象征），再到芝加哥的工业发展中心，最后到拉斯维加斯的娱乐之城。不同历史时期美国精神的
2022.01.22 有用谨言的成长
写作，对我来说，更像是一个自说自话，自我观察，自我反思，自我探索的途径。可以写我的心情故事，写我的观点而不用担心任何人的评论，写我的情绪，写我想说的，有时候觉得只是简单用语言还不能表现出那份深刻，但是文字可以给自己一个更长的时间来思考，来做深度思考，表达得更透彻。写作，有时候我会写自己看了某个电影后的一点感悟，自己的真实感受，不管它和专业影评人相比是不是很肤浅，是不是片面了，只是有时候我也想发声，
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
人到中年的5大恐惧不想独白的独白
这一段时间闭关在家，心里越来越没有底。全球疫情，全国疫情，一直在关心和自我调试中。但是，好像还是对自己的未来充满了无所适从。不想去做什么，也没有激情和兴趣去开始什么。人生过半，还有什么可以逆袭或改变的机会呢。不知道做什么的时候，去追剧，做美食，教育孩子，锻炼，花钱进什么什么读书训练营，打卡训练营，微信群，各种分享和共同体的群。但是还是没有任何的起色。就这样了吗。中午并不困，但是到了12点，还是习惯
我的一个小心愿，减肥20斤，有人一起吗张晓晓ZXX
我现在体重141斤，163cm，想减到120以内，不想吃减肥药，不喝奶昔，也不想买健身卡，就是希望通过一些运动的aPP进行训练和适当的节食，有人一起的吗？3月12号，我73公斤，现在70.9公斤，是通过咕咚app训练来的，但一个人太孤单，有一起的吗？我想知道除了小时候坚持一个月练习写字帖把字写好了，还能做什么锻炼一下自己的毅力，我也想知道100天之后，我能不能也达到理想的体重。接下来100天，愿意
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
干货|自我介绍这三个坑，99%的概率你踩过！夏麦生命的魔术师
自我介绍——每个人都需要的一张名片。图片源自网络从2018年到现在，在做演讲俱乐部的2年时间里，我在演讲活动现场听过1000+人的自我介绍，自我介绍做得超棒的人真不多！最近，我花了近几个月时间，仔细研究了500+人线上场景的自我介绍，发现优秀的自我介绍也不多！为什么做一张优秀的自我介绍就这么难呢？这个问题，在我帮几十个人打造了自我介绍的过程一直困扰着我。经过了几个月的时间思考与实践，终于发现三个—
【c++基础概念深度理解——堆和栈的区别，并实现堆溢出和栈溢出】 XWWW668899 C++基本概念 c++c语言开发语言青少年编程
文章目录概要技术名词解释栈溢出和堆溢出小结概要学习C++语言，避免不了要好好理解一下堆（Heap）和栈（Stack），有助于更好地管理内存，以及如何写出一段程序“成功实现”堆溢出和栈溢出。技术名词解释理解东西最快的方式是根据自己目前能理解的词语去关联新的概念，不断的纠正，向正确的深度理解靠近，当无限接近的时候也就理解了想要理解的概念。我们经常说堆栈，把这两个名词放到一起。其实，堆是堆，栈是栈，两种
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
（缓解抑郁症状）中原焦点团队杨小杰坚持分享第226天2021-4-1 yxjlady
缓解抑郁症状1、不要总待在室内，抑郁严重的人，通常都不想出门2、抑郁性都有诱因或一个导火索，人不能战胜所有东西，要有取舍3、社交，抑郁症的人总是自己脑中不断的自言自语，自我否定等，出去社交就被迫被别的东西点拨了，深度抑郁没法走出自己的世界，思维走不出自己的怪圈4、锻炼让自己轻微出汗最佳，身心是一体时，身体有活力，精神很难不健康5、冥想冥想和社交一样，可以改变你的神经可塑性，一个沉溺在自己世界里的抑
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

深度干货！如何将深度学习训练性能提升数倍？

你可能感兴趣的:(深度干货！如何将深度学习训练性能提升数倍？)