迷川浩浩_ZJU

深度学习笔记（0）——机器学习基本概念

本篇博客仅针对毫无机器学习理论背景的人，其他人可以直接跳过。机器学习(machine learning)是最近非常火的一个领域，关于其一些基本定义百度百科、维基百科或者网上随便都可以找到很多资料，所以这里不做过多解释。

就我个人理解，通常任何问题我们都可以用一个数学模型来解释：

y = f (x)

在统计学习方法里面通常使用的是 P(y|x) ，为了方便理解，不妨不严谨地把P看作是一种特殊的 f()

我们解决一个问题有两种模式：一种叫做模型驱动(model driven)，通过研究对象的物理、化学等机理模型，对对象进行建模，从而解决问题，比如我们熟知的牛顿三定律，对于上面那个公式就是我们已知输入 x 和机理模型 f() ，需要求解我们想要得到的 y ；而另外一种叫做数据驱动(data driven)，随着人们遇到的问题越来越复杂，寻找对象机理模型的代价越来越大，反之数据获取的代价越来越小，于是科研工作者开始从另外角度思考问题，是否可以通过这些数据来分析得到我想要的东西，即我知道一些的样本 (x,y) 或者我只知道 x ，我想分析这些来得到对象的模型 f() ，进而当我再次拥有一个 x 的时候，我就可以得到我想要的 y ，如果不是那么严格的来讲，所有这种数据分析的方法都可以算作机器学习的范畴。

所以一个机器学习通常应该包括的基本要素有：训练数据，带参数的模型，损失函数，训练算法。训练数据作用自不必说；带参数的模型是用来逼近 f() ；损失函数是衡量模型优劣的一个指标，比如模型识别分类的准确度；训练算法也可以叫做优化函数，用于不断更新模型的参数来最小化损失函数，得到一个较好的模型，或者叫做学习机。接下来将介绍一些机器学习中的基本概念，可能没有很强的连贯性。

样本数据

样本数据就是我们上文提到的 (x,y) ，其中 x 叫做输入数据(input data)， y 叫做输出数据(output data)或者叫做一个更加专业的名字——标签(label)。通常 x 和 y 都是高维矩阵，以 x 为例：

x = (x 1, x 2, x 3, . . ., x i)

其中

xi 表示第i个输入样本，比如第i个文字，第i张图片，

xi 可以是一维文字向量，二维图片矩阵，三维视频矩阵，或者更加高维的数据类型，以一维向量为例：

x i = (x 1 i, x 2 i, x 3 i, . . ., x n i)

其中

xni 表示

xi 数据的第n个元素的值，比如把图像展平之后第n个像素的灰度值等等。
标签

y 根据需求不同有各种形式，以最简单的n分类问题为例，

yi 就是一个n维的one-hot，其中一个值为1，其余的元素都为0，第几个元素为1就表明属于第几个类别。

数据集

完整的数据集表示为 T={(x1,y1),(x2,y2),(x2,y2),...,(xi,yi)} ，对于一个学习机而言，不是所有的数据都用于训练学习模型，而是会被分为三个部分：训练数据、交叉验证数据、测试数据。

训练数据(training data)：顾名思义，训练数据用于训练学习模型，通常比例不低于总数据量的一半。
交叉验证数据(cross validation data)：交叉验证数据用于衡量训练过程中模型的好坏，因为机器学习算法大部分都不是通过解析法得到的，而是通过不断迭代来慢慢优化模型，所以交叉验证数据就可以用来监视模型训练时候的性能变化。
测试数据(testing data)：在模型训练好了之后，测试数据用于衡量最终模型的性能好坏，这也是模型性能好坏的衡量指标，交叉验证的指标只能用于监视和辅助模型训练，不能用来代表模型好坏，所以哪怕交叉验证的准确度是100%而测试数据的准确度是10%，那么模型也是不能被认可的。通常交叉验证和测试数据的比例各占一小半。

特征

特征是机器学习和模式识别领域一个比较特有的名词，在传统机器学习算法中，由于计算性能和参数的限制，所以输入的数据维数不能太高。我们手机随随便便一张照片就有几个MB的数据量，可能会有几百万个像素，这么高维的数据量我们是不能直接输入给学习机的，因此我们需要针对特别的应用提取相对应的特征向量，特征向量的作用主要有两个：

降低数据维度：通过提取特征向量，把原始数据的维度大大较低，简化模型的参数数量。
提升模型性能：一个好的特征，可以提前把原始数据最关键的部分提取出来，因此可以提高学习机的性能。

在传统的机器学习领域，如何提取一个好的特征是大家最关心的，所以机器学习的研究很大程度变成了寻找好的特征，因此也诞生了一个学科叫做特征工程。以下是一个用hog特征进行行人检测的例子，hog特征主要是检测物体的轮廓信息，所以可以用于行人检测。

模型

这里的模型可能用词不准确，但我想表达的是指：带有一些待训练参数，用于逼近前文提到的 f() 的参数集合。在参数空间， f() 只是一个点，而我提到的模型也是一个点，并且由于参数可以变，所以我要做的只是让我模型的这个点尽可能的接近真实 f() 的那个点。机器学习的模型算法有很多，但是比较常用的模型可以概括为三种：

基于网络的模型：最典型的就是神经网络，模型有若干层，每一层都有若干个节点，每两个节点之间都有一个可以改变的参数，通过大量非线性的神经元，神经网络就可以逼近任何函数。
基于核方法的模型：典型的是SVM和gaussian process，SVM把输入向量通过一个核映射到高维空间，然后找到几个超平面把数据分成若干个类别，SVM的核是可以调整。
基于统计学习的模型：最简单的例子就是贝叶斯学习机，统计学习方法是利用数理统计的数学工具来实现学习机的训练，通常模型中的参数是一些均值方差等统计特征，最终使得预测正确概率的期望达到最大。

一个好的学习机模型应该拥有出色的表达逼近能力、易编程实现、参数易训练等特性。

监督与非监督学习

按照任务的不同，学习机可以分为监督学习(supervised learning)和非监督学习(unsupervised)两种，从数学角度来看两者的区别在于前者知道数据的标签 y 而后者不知道样本的标签 y ，所以非监督学习的难度要大一点。

举个通俗的例子，一个母亲交孩子认识数字，当母亲拿到一个数字卡片，告诉孩子这个是数字4是数字6，然后经过大量的教导之后，当目前拿到一个卡片问孩子这个是数字几，这个就是监督学习。如果母亲那一堆数字卡片，让孩子把卡片按照不同数字进行分堆，母亲告诉孩子他分的好不好，可能经过大量的训练，孩子就知道如何把卡片进行正确分堆了，这个就是无监督学习的例子。用一个不那么贴切的名词解释就是，监督学习可以看做分类问题，而无监督可以看做是聚类的问题。

当然还有两种特殊的类型，叫做半监督学习和强化学习，半监督学习是指部分样本是知道标签的，但是其他的样本是不知道标签。强化学习是另外一个特例，为了不混淆大家理解，这里不做解释，感兴趣的可以自行查阅，之后我会单独通过一篇博客来介绍。

监督学习是简单高效的，但是非监督学习是更加有用的，因为人工标注样本标签的代价是非常昂贵耗时的。

损失函数

损失函数(loss function)更严谨地讲应该叫做目标函数，因为在统计学习中有一种目标函数是最大化预测正确的期望概率，我们这里只考虑常见的损失函数。

损失函数是用来近似衡量模型好坏的一个很重要的指标，损失函数的值越大说明模型预测误差越大，所以我们要做的就是不断更新模型的参数，使得损失函数的值最小。常用的损失函数有很多，最简单的如0-1损失函数：

L (y, f (x)) = {01 y = f (x) y \neq f (x)

这个损失函数很好理解，预测对了损失为0，预测错了就为1，所以最完美的学习机的损失函数值就应该是0。当然最小二乘误差、交叉熵误差等损失函数也是很常用的，训练时用的损失函数是所有训练样本数据的损失值的和。有了损失函数，模型的训练就变成了一个很典型的优化问题。

优化函数

我们又了目标函数，也就是损失函数，现在我需要一个东西根据损失值来不断更新模型参数，这个东西就叫做优化函数。优化函数的作用就是在参数空间找到损失函数的最优解。梯度下降法是最熟知的优化函数，大家都用下山来形象描述这个算法。假如我们在山上，我们的目标是找到这座山的最低处（最小化损失函数），一个很简单的思路就是我找到当前位置下山角度最大的方向，然后朝着这个方向走，如下图所示

当然这种方法有个问题就是会陷入局部最优点（局部凹坑）出不来，所以各种更加好的优化函数逐渐被大家发现。一个好的优化函数应该有两个性能指标：拥有跳出局部最优解找到全局最优解的能力；拥有更快的收敛速度。

泛化能力、欠拟合和过拟合

泛化能力(generalization ability)是指机器学习模型对未知数据的预测能力，是学习方法本质上重要的性质，现实中采用最多的办法是通过误差来评价学习方法的泛化能力。但是这种评价是依赖测试数据集的，因为测试数据集是有限的，所以这种思路也不能说是完全靠谱，因此有人专门研究泛化误差来更好的表达泛化能力。

欠拟合(underfitting)和过拟合(overfitting)是两种要尽可能避免的模型训练现象，出现这两种现象就说明模型没有达到一个比较理想的泛化能力。欠拟合是指模型复杂度太低，使得模型能表达的泛化能力不够，对测试样本和训练样本都没有很好的预测性能。过拟合则相反，是模型复杂度太高，使得模型对训练样本有很好的预测性能，但是对测试样本的预测性能很差，最终泛化能力也不行。如下图所示，1和4展示的欠拟合，3和6展示的过拟合现象。而一个好的模型应该是如2和5一样，复杂度正合适，泛化能力较强。

偏差，误差和方差

Bias(偏差)，Error(误差)，和Variance(方差)三者是容易混淆的概念，首先

E r r o r 2 = B i a s 2 + V a r i a n c e

Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。如下图所示，随着模型的复杂度增加，模型预测的偏差会越来越小，但是方差越来越大，预测结果的分布会散开来。

深度学习笔记（0）——机器学习基本概念_第1张图片

机器学习和深度学习

目前所说的深度学习通常是指基于神经网络改进的深度学习网络，相比于传统的神经网络，深度学习网络拥有更加高的模型复杂度，所以可以直接把原始数据输入到学习机，不需要人工提取特征。所以如果不从数理角度考虑，传统机器学习和深度学习的最本质区别在于，深度学习拥有训练高复杂度模型能力，所以可以不用人工提取特征，即

深度学习=人工提取特征+传统机器学习方法

推荐书籍

TOM M.MITCHELL. 机器学习(计算机科学丛书)[M]. 机械工业出版社, 2014.

李航. 统计学习方法[M]. 清华大学出版社, 2012.

张学工. 模式识别(第三版)[M]. 清华大学出版社, 2010.

你可能感兴趣的:(深度学习)

Swin-Unet：图像分割领域的强大工具陈凯韵
Swin-Unet：图像分割领域的强大工具【下载地址】Swin-UnetPyTorch代码仓库本仓库提供了一个基于PyTorch实现的Swin-Unet模型的代码资源。Swin-Unet是一种结合了SwinTransformer和U-Net结构的深度学习模型，适用于图像分割任务。该代码可以帮助研究人员和开发者快速上手并应用Swin-Unet模型进行图像分割实验项目地址:https://gitcod
新质生产力与核心竞争力提升 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
新质生产力、人工智能、机器学习、深度学习、算法优化、数据驱动、核心竞争力、数字化转型1.背景介绍在当今数字化时代，科技创新正以惊人的速度推动着社会发展。人工智能（AI）作为科技发展的重要驱动力，正在深刻地改变着生产方式和生活方式。从自动驾驶汽车到智能语音助手，从个性化推荐系统到医疗诊断辅助，AI技术的应用场景日益广泛，为人类社会带来了前所未有的机遇。然而，AI技术的应用并非一帆风顺。如何有效地利用
李开复：苹果发布AI应用的未来 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
苹果,AI,应用,未来,深度学习,自然语言处理,计算机视觉1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，并开始渗透到人们生活的方方面面。从智能手机的语音助手到自动驾驶汽车，AI正在改变着我们的世界。作为科技巨头，苹果也积极布局AI领域，并将其融入到其产品和服务中。2017年，苹果发布了其首款AI芯片A11Bionic，并将其应用于iPhoneX等产品。该芯片拥有强大的神经网络处理能力，为
推荐系统的未来发展方向：大模型的主流化 AI天才研究院计算大数据AI人工智能 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《推荐系统的未来发展方向：大模型的主流化》关键词：推荐系统，大模型，深度学习，人工智能，未来趋势摘要：本文深入探讨了推荐系统的发展历程及其在当前人工智能时代的重要性。重点分析了深度学习在大模型中的应用，探讨了大模型的主流化趋势及其面临的挑战。通过案例研究，展示了大模型在实际推荐系统中的应用效果，并对未来的发展方向进行了展望。目录大纲推荐系统的概述1.1推荐系统的发展历程1.2推荐系统的基本架构深度
自动驾驶中的虚实迁移学习:降低对真实世界数据的依赖 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,迁移学习,虚实环境,数据效率,深度学习,强化学习1.背景介绍自动驾驶技术作为人工智能领域的重要应用之一，其发展离不开海量真实世界驾驶数据。然而，收集和标注真实世界驾驶数据成本高昂，且存在安全隐患。因此，如何降低对真实世界数据的依赖，提高自动驾驶系统的训练效率和安全性，成为一个亟待解决的关键问题。虚实迁移学习(Virtual-to-RealTransferLearning)作为一种新兴的机
详细介绍 NVIDIA GeForce RTX 系列，各显卡配置参数（长期更新 - 2024.12） JiaWen技术圈人工智能深度学习机器学习 gpu算力 AIGC 人工智能图形渲染
NVIDIAGeForceRTX系列是NVIDIA面向消费级市场的高性能GPU产品线，注重提供高性能的图形处理能力和游戏特性。主要面向游戏玩家和普通用户，同时也被广泛用于深度学习推理和训练等计算密集型任务。主要GPU产品有：50Series、40Series、30Series、20Series、10Series。其主要参数如下：NVIDIAGeForceRTX50Series规格架构：Blackw
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
Python 如何使用 Bert 进行中文情感分析程序员徐师兄 Python 入门专栏 python bert 开发语言情感分析
前言在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型迅速成为了处理自然语言的强大工具。BERT是一种基于Transformer架构的预训练模型，它能够
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
算法中的时间复杂度和空间复杂度 CM莫问人工智能算法常见概念算法人工智能 python 时间复杂度空间复杂度
一、背景随着人工智能的纵深发展，我们会发现现在做算法很多时候都是通过掉包来解决问题了。Torch或者Tensorflow之类的深度学习库大大减少了算法工程师的工作量，而且在张量运算、反向传播等环节，这些深度学习库的模块设计也尽最大可能地降低了计算的时间和空间复杂度，从而不需要我们额外进行过多的干预。如果不是科班读计算机相关专业的，相信不少朋友第一次听说时间复杂度和空间复杂度的概念是在找工作刷lee
ARM Cortex-M3与Cortex-M4权威指南胡妃意
ARMCortex-M3与Cortex-M4权威指南【下载地址】ARMCortex-M3与Cortex-M4权威指南ARMCortex-M3与Cortex-M4权威指南欢迎阅读《ARMCortex-M3与Cortex-M4权威指南（第3版）》，这是一本针对嵌入式系统开发者量身打造的深度学习手册项目地址:https://gitcode.com/Open-source-documentation-tu
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
QAT与PTQ模型量化方法的区别 old_power 计算机视觉模型量化深度学习计算机视觉
QAT（QuantizationAwareTraining）和PTQ（PostTrainingQuantization）是两种常见的模型量化方法，用于减少深度学习模型的计算和存储开销，同时尽量保持模型的性能。1.QAT（QuantizationAwareTraining）定义：QAT是在模型训练过程中引入量化操作，使模型在训练时就能感知到量化带来的影响，从而更好地适应量化后的精度损失。流程：在训练
毕设分享深度学习街道行人流量计数系统 fawubio_A 毕业设计 python 毕设
文章目录0前言1项目运行效果2设计概要2原理介绍2.1目标检测概况什么是目标检测？发展阶段2.2行人检测行人检测简介行人检测技术难点行人检测实现效果4最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要
Keras、TensorFlow、PyTorch框架对比及服务器配置揭秘小深ai硬件分享人工智能深度学习服务器
深度学习框架：开启智能大门的钥匙在数字化浪潮中，深度学习如明星照亮众多领域。从智能安防的人脸识别，到医疗图像分析、电商商品推荐、智能语音助手等，其身影无处不在，改变着生活与工作方式。在深度学习领域，Keras、TensorFlow和PyTorch是主流框架，能助开发者构建强大智能模型。但这些框架要充分发挥作用，离不开合适的服务器配置，就像魔法师需要魔法棒和魔力，下面我们就来看看这些具体的框架吧:框
深度学习｜表示学习｜卷积神经网络｜局部链接是什么？｜06 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：局部连接（LocalConnectivity），是卷积神经网络（CNN）中的一个关键特性。什么是局部连接（LocalConnectivity）？局部连接指的是：在卷积操作中，每个神经元（或输出单元）只与输入数据的一个局部区域相关联，而不是与整个输入数据相连。换句话说：全连接网络（FullyConnectedLayer）中，每个神经元会与上一层所有的神经元相连。卷积网络（Convoluti
深度学习中交叉熵函数的导数:(极简) 洪小帅深度学习人工智能神经网络 python
文章目录前言一.交叉熵函数的导数二.Z,y为有n条数据的矩阵前言另一个博主有更详细的推导https://blog.csdn.net/chaipp0607/article/details/101946040一.交叉熵函数的导数softmax:令一条数据最后的输出为[z1,z2,z3,z4,…,z10],这里令输出层的神经元数量为10pi=ezi∑j=110ezjpi=\frac{e^{z_i}}{\
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
深度学习中的通道(Channel)概念详解小·恐·龙大模型深度学习人工智能
1.通道的基本概念通道(Channel)是深度学习中的一个重要概念，它在不同场景下有不同的具体含义。理解通道概念对于理解深度学习模型的结构和工作原理至关重要。2.大语言模型中的通道2.1全连接层的通道概念2.1.1基本结构输入：[batch_size,input_features]权重：[input_features,output_features]输出：[batch_size,output_fe
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
大语言模型原理与工程实践：案例介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：案例介绍作者：禅与计算机程序设计艺术近年来，随着深度学习技术的快速发展，大语言模型（LargeLanguageModel，LLM）在自然语言处理领域取得了突破性进展，展现出强大的文本生成、理解和推理能力。从智能对话到机器翻译，从代码生成到诗歌创作，LLM正在深刻地改变着我们与信息交互的方式，并为人工智能应用开拓了更广阔的空间。1.背景介绍1.1大语言模型的兴起大语言模型的
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他