下一步

深度学习（Deep Learning）读书思考三：正则化

概述

正则化是机器学习中非常重要并且非常有效的减少泛华误差的技术，特别是在深度学习模型中，由于其模型参数非常多非常容易产生过拟合。因此研究者也提出很多有效的技术防止过拟合，比较常用的技术包括：

参数添加约束，例如L1、L2范数等

训练集合扩充，例如添加噪声、数据变换等

Dropout

该文主要介绍深度学习中比较常见几类正则化方法以及常用参数选择，并试图解释其原理。

正则化技术

参数惩罚

通过对模型参数添加惩罚参数来限制模型能力，常用的就是在损失函数基础上添加范数约束。

J ˜ (θ;, X, y) = J (θ; X, y) + α Ω (θ)

通常情况下，深度学习中只对仿射参数 w 添加约束，对偏置项不加约束。主要原因是偏置项一般需要较少的数据就能精确的拟合。如果添加约束常常会导致欠拟合。

L2正则

参数约束添加L2范数惩罚项，该技术也称之为Weight Decay、岭回归、Tikhonov regularization等。

J ˜ (w; X, y) = J (w; X, y) + 1 2 α | | w | | 2

通过最优化技术，例如梯度相关方法可以很快推导出，参数优化公式为

w = (1 - ϵ α) w - ϵ \nabla J (w)

其中

ϵ 为学习率，相对于正常的梯度优化公式，对参数乘上一个缩减因子。

假设J是一个二次优化问题时，模型参数可以进一步表示为 w˜i=λiλi+αwi ，即相当于在原来的参数上添加了一个控制因子，其中 λ 是参数Hessian矩阵的特征值。由此可见
1. 当 λi>>α 时，惩罚因子作用比较小。
2. 当 λi<<α 时，对应的参数会缩减至0

L1正则

对模型参数添加L1范数约束，即

J ˜ (w; X, y) = J (w; X, y) + α | | w | | 1

如果通过梯度方法进行求解时，参数梯度为

\nabla J ˜ (w) = α s i g n (w) + \nabla J (w)

特殊情况下，对于二次优化问题，并且假设对应的Hessian矩阵是对角矩阵，可以推导出参数递推公式为 wi=sign(w∗i)max(|w∗i|−αλi,0) ，从中可以看出
当 |w∗i|<αλi 时，对应的参数会缩减到0，这也是和L2正则不同地方。
对比L2优化方法，L2不会直接将参数缩减为0，而是一个非常接近于0的值。

L2 VS L1

主要区别如下：

通过上面的分析，L1相对于L2能够产生更加稀疏的模型，即当L1正则在参数w比较小的情况下，能够直接缩减至0.因此可以起到特征选择的作用，该技术也称之为 LASSO

如果从概率角度进行分析，很多范数约束相当于对参数添加先验分布，其中L2范数相当于参数服从高斯先验分布；L1范数相当于拉普拉斯分布。

范数约束-约束优化问题

从另外一个角度可以将范数约束看出带有参数的约束优化问题。带有参数惩罚的优化目标为

J ˜ (θ;, X, y) = J (θ; X, y) + α Ω (θ)

带约束的最优问题，可以表示为

m i n J (θ; X, y) s . t . Ω (θ) < k

通过KKT条件进行求解时，对应的拉格朗日函数为

L (θ, α; x, y) = J (θ; x, y) + α (Ω (θ) - k)

从约束优化问题也可以进一步看出，L1相对于L2能产生更稀疏的解。

从图中可以看出，L1最优解常常出现在定点处，此时某些维度上的值肯定为0.

数据集合扩充

防止过拟合最有效的方法是增加训练集合，训练集合越大过拟合概率越小。数据集合扩充是一个省时有效的方法，但是在不同领域方法不太通用。
1. 在目标识别领域常用的方法是将图片进行旋转、缩放等（图片变换的前提是通过变换不能改变图片所属类别，例如手写数字识别，类别6和9进行旋转后容易改变类目）
2. 语音识别中对输入数据添加随机噪声
3. NLP中常用思路是进行近义词替换
4. 噪声注入，可以对输入添加噪声，也可以对隐藏层或者输出层添加噪声。例如对于softmax 分类问题可以通过 Label Smoothing技术添加噪声，对于类目0-1添加噪声，则对应概率变成 ϵk,1−k−1kϵ

Dropout

Dropout是一类通用并且计算简洁的正则化方法，在2014年被提出后广泛的使用。
简单的说，Dropout在训练过程中，随机的丢弃一部分输入，此时丢弃部分对应的参数不会更新。相当于Dropout是一个集成方法，将所有子网络结果进行合并，通过随机丢弃输入可以得到各种子网络。例如

例如上图，通过不同的输入屏蔽相当于学习到所有子网络结构。

因此前向传播过程变成如下形式：

相当于每层输入多了一个屏蔽向量 μ 来控制该层有哪些输入会被屏蔽掉。

经验：原始输入每一个节点选择概率0.8，隐藏层选择概率为0.5

Dropout预测策略

既然Dropout过程类似于集成方法，预测时需要将所有相关模型进行求平均，对于Dropout而言 ∑μp(μ)p(y|x,μ) ，然而遍历所有屏蔽变量不是可能的事情，因此需要一些策略进行预测。
1. 随机选择10-20个屏蔽向量就可以得到一个较好的解。
2. 采用几何平均然后在归一化的思路。

p ˜ e n s e m b l e (y | x) = 2 d \prod μ p (y | x, μ) - - - - - - - - - - \sqrt p e n s e m b l e (y | x) = p ˜ e n s e m b l e ( y | x ) \sum i p ˜ e n s e m b l e ( y i | x )

因此只要估计出

p˜ensemble(y|x) ，2012年Hinton给出一种估计方法，可以只需要一遍前向传播计算最终估计值，模型参数乘上其对应输入单元被包含的概率。该方法也被称为“Weight scaling inference rule”
3. 由于隐藏层节点drop的概率常选取0.5，因此模型权重常常除2即可；也可以在训练阶段将模型参数乘上2

dropout预测实例

假设对于多分类问题，采用softmax进行多分类，假设只有一个隐藏层，输入变量为v，输入的屏蔽变量为 d，d元素选取概率为1/2.
则有

p (Y = y | v, d) = s o f t m a x (W T (d * v) + b)

d*v 代表对应元素相乘，根据几何平均，需要估计

p˜ensemble(y|x)

p ˜ e n s e m b l e (y | v) = 2 n \prod d \in (0, 1) n p (y | v, d) - - - - - - - - - - - - \sqrt = 2 n \prod d \in (0, 1) n s o f t m a x (W T (d * v) + b) - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt = 2 n \prod d \in (0, 1) n e x p ( W T y ( d * v ) + b ) \sum i e x p ( W T y i ( d * v ) + b ) - - - - - - - - - - - - - - - - - - - - - - - -  ⎷   = 2 n \prod d \in ( 0 , 1 ) n e x p ( W T y ( d * v ) + b ) - - - - - - - - - - - - - - - - - - - - - - - \sqrt 2 n \prod d \in ( 0 , 1 ) n \sum i e x p ( W T y i ( d * v ) + b ) - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt \approx 2 n \prod d \in (0, 1) n e x p (W T y (d * v) + b) - - - - - - - - - - - - - - - - - - - - - \sqrt \approx e x p (1 2 n \sum d \in (0, 1) n W T y (d * v) + b)) \approx e x p (1 2 W T v + b)

每一步推导基本上都是公式代入的过程，仔细一点看懂没问题。
最后一步需要遍历所有的屏蔽向量d，然而完全遍历并且累加后可以得到2^n-1，在除以2^n，最后得到1/2.
简单以二维举例，则d可以选择的范围包括(0,0)(0,1)(1,0)(1,1)则每一维度都累加了2次，除以4可以得到1/2

DROPOUT的优点

相比于weight decay、范数约束等，该策略更有效
计算复杂度低，实现简单而且可以用于其他非深度学习模型
但是当训练数据较少时，效果不好
dropout训练过程中的随机过程不是充分也不是必要条件，可以构造不变的屏蔽参数，也能够得到足够好的解。

其他

半监督学习

通过参数共享的方法，通过共享P(x)和P(y|x)的底层参数能有效解决过拟合。

多任务学习

多任务学习通过多个任务之间的样本采样来达到减少泛化误差。

多任务学习可以将多个相关任务同时学习，并且共享某些参数。多任务可以包括有监督和无监督学习。
对于深度学习而言，可以共享底层隐藏层自然支持多任务学习。

提前停止（Early Stopping）

在模型训练过程中经常出现随着不断迭代，训练误差不断减少，但是验证误差减少后开始增长。
提前停止（Early Stopping）的策略是：在验证误差不在提升后，提前结束训练；而不是一直等待验证误差到最小值。

提前停止策略使用起来非常方便，不需要改变原有损失函数，简单而且执行效率高。

但是它需要一个额外的空间来备份一份参数

提前停止策略可以和其他正则化策略一起使用。

提前停止策略确定训练迭代次数后，有两种策略来充分利用训练数据，一是将全量训练数据一起训练一定迭代次数；二是迭代训练流程直到训练误差小于提前停止策略的验证误差。

对于二次优化目标和线性模型，提前停止策略相当于L2正则化。

参数共享

前提假设：如果两个学习任务比较相似，我们相信两个模型参数比较接近。因此可以加上一些约束条件，例如假设惩罚项 Ω=||wa−wb||2

添加范数惩罚只是参数共享的一种策略，比较通用的策略是可以让部分参数集合保持一致。

集成化方法（Ensemble Methods）

Bagging方法是一种通用的降低泛化误差的方法，通过合并多个模型的结果，也叫作模型平均，高级称呼为集成化方法。

Bagging的策略很多，例如不同初始化方法、不同mini batch选择方法、不同的超参数选择方法。

与之对应的集成方法是Boosting，通过改变样本权重来训练不同模型。

对抗训练

对抗训练的一个主要思路是，总有些输入变量x和x’，他们本身非常相似但是属于不同的类别。如果能单独拿出来特殊对待能够取得比较好的效果。
主要问题是：对抗样本比较难搜集。

总结

正则化是模型优化中非常重要的降低泛化误差的手段，在深度学习中尤其如此，当模型效果不好时，除了调节优化算法本身外，可以尝试L1、L2正则、数据扩充、提前停止和dropout等策略

你可能感兴趣的:(读书笔记,深度学习,ML,深度学习,正则化)

贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
Nginx 运维实战与 HTML 静态网页开发全攻略
一、技术背景：静态站点的黄金时代1.静态网页的复兴浪潮性能优势：对比动态站点，静态资源响应速度提升60%+，首屏加载时间平均缩短1.2秒（基于WebPageTest实测数据）技术演进：Jamstack架构普及（2024年市场占有率达37%），Hugo、Nuxt.js等静态站点生成器（SSG）推动企业级应用典型场景：企业官网（占比78%）、产品着陆页（转化率提升23%）、博客系统（WordPress
SQL学习笔记6 彤银浦 sql 学习笔记
事务1、事务的概念事务就是多个操作的集合，事务将这一串操作作为一个整体向数据库提交，要么同时操作成功，要么同时失败在输入DML语句时，MySQL是自动将事务提交，因此要操作事务时需要手动开启事务操作流程为：开启事务（若中间有错，则回滚复原并报错）结束事务2、事务操作事务操作有两种方式方式一：关闭事务自动提交，改为手动提交查看事务提交方式：select@@autocommit设置事务提交方式：set
微信小程序学习笔记：选项卡 uMson_n 微信小程序
第一步：在.js文件里定义数据：data:{tabs:["选项1","选项2","选项3","选项4"],checked:0},tabs表示有几个选项，checked表示当前选中的是哪一页的索引。第二步：在.wxml编写代码：{{item}}页面{{index+1}}
Vue2+Vue3 130~180集学习笔记 Jyywww121 学习笔记 vue.js
Vue2+Vue3130~180集（Vue3）学习笔记一、create-vue搭建vue3项目create-vue是vue官方新的脚手架工具，底层切换到了vite步骤：查看环境条件node-v版本需要在16.0及以上创建一个vue应用npminitvue@latest这一指令会安装并执行create-vue二、项目目录和关键文件index.html提供挂载点src/assets图片、样式文件的目录
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
Vue实例及组件 Yannick_H Y-Y滴前端日志基本概念（笔记）vue.js 前端 javascript
目录一、Vue实例的属性和方法1.什么是vue实例：又称为Vue组件（1）Vue2.0创建Vue组件方法（2）Vue3.0创建Vue组件的方法2.Vue组件的属性3.Vue组件中的函数（1）限流函数二、表单数据的双向绑定三、Vue组件的样式绑定1.为HTML标签绑定class属性（1）绑定class属性，由绑定变量来决定应用哪个样式（2）可以将样式直接设置成Vue组件中的数据对象2.绑定内联样式四
【python第三方库】Hydra库在AI项目中使用简介
文章目录一、前言1.omegaconf与Hydra库的关系2.Hydra优势二、实际用法展示1.项目结构2.配置文件3.Python代码4.运行示例4.1默认配置运行4.2从命令行覆盖配置4.3多运行模式5.超参数优化5.1安装Optuna插件5.2修改config.yaml5.3运行超参数优化一、前言Hydra是一个开源Python框架，可简化研究和其他复杂应用程序的开发。关键特性是能够通过组合
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
ajax-get和post传参(超详细)
AJAX-get和post传参GET传参POST传参newXMLHttpRequest()xml.onreadystatechangexml.open()xml.setRequestHeader()xml.send()GET传参varxml=newXMLHttpRequest();xml.onreadystatechange=function(){if(xml.readyState==200){i
draw.io（现更名为 diagrams.net）的详细介绍及详细使用教程小纯洁w draw.io
以下是关于draw.io（现更名为diagrams.net）的详细介绍及详细使用教程，结合其核心功能、操作步骤和实用技巧整理而成：一、draw.io核心介绍基本定位免费开源：完全免费且无广告，支持网页版和桌面端（Windows/macOS/Linux）。多场景适用：支持流程图、UML图、网络拓扑图、组织结构图、电路图等数十种图表类型。云端集成：无缝对接GoogleDrive、OneDrive、Gi
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
页面通信的方式 :postMessage向指定窗口发送信息呼叫6945 javascript 页面通信
postMessage是HTML5引入的一个跨文档通信API，允许不同窗口或iframe之间安全地发送消息。通过postMessage，你可以向指定的窗口或iframe发送信息，并且接收方可以通过监听message事件来接收这些信息。使用方法发送消息targetWindow.postMessage(message,targetOrigin,[transfer]);targetWindow:目标窗口
【docker】unknown shorthand flag: ‘f‘ in -f See ‘docker --help‘. Jackilina_Stone #docker 【EH】报错处理 linux 运维 docker 容器
目录报错解决方法报错sudodockercompose-f./docker.ymlup-d报错：unknownshorthandflag:'f'in-fSee'docker--help'.解决方法在安装docker时，会以插件的形式安
在el-image组件的预览中添加打印功能（自定义功能） weixin_45907435 vue.js javascript 前端
思路：给图片添加点击事件，通过js获取预览的工具栏，在工具栏中添加自定义按钮及事件1、html中image标签2、再点击事件中，通过js操作dom,添加自定义按钮事件handleImageClick(fileUrl){this.$nextTick(()=>{constviewer=document.querySelector('.el-image-viewer__wrapper')//工具栏的do
echarts ---柱状图多个柱子时，设置legend不显示、图形大小随窗口变动 weixin_45907435 echarts 前端 javascript
1、html设置图形容器2、js绘制图形mounted(){//给window添加resize事件，使图形大小随窗口变化而变化window.addEventListener('resize',()=>{constchartDom=document.getElementById('trendAnalysisChart')constchartTrend=chartDom&&echarts.init(c
浏览器兼容性(手机、电脑。js、html、css) weixin_44828071
浏览器兼容性13标准网页布局的兼容性处理标准网页设计的最大挑战不在于技术本身，而在于浏览器兼容性处理。所谓浏览器兼容问题，就是当我们使用不同的浏览器（如IE7、IE6、Firefox等）访问同一个页面时，可能会出现不一致的情况，出现这种现象的原因有很多种，但根本原因就是浏览器对于技术支持的标准不同造成的。IE浏览器对于标准技术的支持是很不完善的，这些问题可以分为两种：一种是IE支持某种技术或功能，
关于HTML/CSS/JS常见兼容性整理 _Daniel_
13标准网页布局的兼容性处理标准网页设计的最大挑战不在于技术本身，而在于浏览器兼容性处理。所谓浏览器兼容问题，就是当我们使用不同的浏览器（如IE7、IE6、Firefox等）访问同一个页面时，可能会出现不一致的情况，出现这种现象的原因有很多种，但根本原因就是浏览器对于技术支持的标准不同造成的。IE浏览器对于标准技术的支持是很不完善的，这些问题可以分为两种：一种是IE支持某种技术或功能，但是实现该功
QNX + Android虚拟化方案深度解析：HQX Display与OpenWFD配置文件揭秘芯作者 DD：计算机科学领域 android
当QNX遇上Android的显示魔法在智能座舱、工业控制等场景中，QNXHypervisor通过虚拟化技术同时运行安全关键的QNX系统与用户交互的Android系统。而HQXDisplay作为显示核心引擎，基于OpenWFD标准（Khronos组织的无线显示开放标准）实现跨域渲染。本文将以qcdisplaycfg_ADP_STAR_LA.xml为例，深度解析其配置逻辑，揭示多屏协同背后的秘密！一、
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
Python,Go开发数据流量分配查询APP Geeker-2025 python golang
#数据流量分配查询应用我将设计一个基于Python和Go开发的数据流量分配查询应用，帮助用户监控和分析网络流量分配情况。##设计思路这个应用将实现以下核心功能：-实时监控网络流量分配情况-多维度流量数据分析（设备、应用、时间段）-流量分配策略设置与管理-异常流量告警系统-直观的数据可视化展示##技术架构```前端(Python+Streamlit)后端(Go)┌──────────────────
Http、Ftp、Dns和Dhcp服务器搭建 xixihaha_dddddd 计算机网络服务器 http linux
服务器搭建的要求①搭建Web服务器要求做一个简单的主页（index.html）以便测试web服务，服务器（Linux平台）ip地址配置：10.28.110.251,255.255.255.0，域名为：www.xxx.cie.net。②搭建Ftp服务器要求能够匿名登录，能够使用账号密码进行登录，能够上传和下载，服务器（Linux平台）ip地址配置：10.28.110.252,255.255.255.
uniapp，app/H5中，webview与嵌套的html相互通信赫卡夹移动端前端 uni-app html 前端
这样一段代码，webview嵌了一个本地html希望它们相互通信传递消息如果是在APP中，很简单webview→html//constwebview=this.$scope.$getAppWebview().children()[0]//webview.evalJS(`updateCanvasSize(${x},${y}`)html→webviewhtml中引入（在官网下载）html中uni.po
深度学习中常见激活函数总结向左转,　向右走ˉ 深度学习人工智能 pytorch python
以下是一份深度学习激活函数的系统总结，涵盖定义、类型、作用、应用及选择影响，便于你快速掌握核心知识：一、激活函数的定义在神经网络中，激活函数（ActivationFunction）是神经元计算输出的非线性变换函数，作用于加权输入和偏置之和：输出=f(加权和+偏置)核心价值：引入非线性，使神经网络能够拟合任意复杂函数（无激活函数的深度网络等价于单层线性模型）。二、常见激活函数类型1.线性函数（Lin
经典文生图的GAN模型-HDGAN介绍这张生成的图像能检测吗 GAN系列生成对抗网络人工智能神经网络计算机视觉深度学习机器学习
简介简介：这篇论文提出了一种名为HDGAN(Hierarchically-nestedDiscriminatorsGAN)的新方法，用于解决文本到图像合成这一挑战性任务。该方法的主要创新点包括：分层嵌套对抗目标：在网络层次结构内部引入配套的分层嵌套对抗目标，正则化中层表示并辅助生成器训练单流生成器架构：提出可扩展的单流生成器架构，更好地适应联合鉴别器并将生成图像提升到高分辨率多目的对抗损失：采用多
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他