通俗易懂系列机器学习之手撕bert

优质的预训练模型。
啥意思，举个例子，你看了二十四史、资治通鉴、史记，你对历史知识以及发展规律有很多了解，但是直接让你去高考文科历史，估计难以拿高分，但是给你学习一下考纲，针对性训练下，你就可以拿很高分，估计很多应试教育的人都pk不过你。这样可以通俗理解预训练和fine-tune。

bert的预训练貌似是维基百科啥的语料，这个模型会看很多文字资料，这样会把一些语言规律、语言的语义、上下位概念之类的信息集成到这个大模型的参数之中。

那么第一步，我们先看看模型长啥样（细节上小问题先忽略哈，注重整体理解，不拘泥于一招一式的剑法，而要懂得剑意精髓）

拿好纸和笔，边看边画效果更佳哦。

1.bert模型长啥样

1.1前面说过，看模型先看输入

括号里的进阶部分，初看时可以不看。

1.1.1举个栗子：I like strawberries

tokenization：[CLS] I like straw ##berries [SEP] 其中[CLS]和[SEP]为填充字符，至于为什么可以先不管，看到最后就知道了。
向量化：
（1）将上述每一个token embedding为一个向量（进阶了解，初始化后lookup table查找也可以索引向量与embedding矩阵相乘得到），假设embedding都为128维，则得到6 * 128向量/tensor
（2）将上述每个token的position位置0 1 2 3 4 5，也各自embedding为一个向量，同上，得到6 * 128向量/tensor
（3）上述整体为一个句子，于是为0 0 0 0 0 0，如果为A、B句pairs，则前半句每个token对应这部分为0，后半句对应1；与上述token方式一样embedding，得到6 * 128向量/tensor

对于两个序列：
 tokens:   [CLS] is this jack ##son ##ville ? [SEP] no it is not . [SEP]
 type_ids/Segment:    0   0  0    0    0      0     0   0   1  1  1  1   1   1
对于一个序列：
 tokens:   [CLS] the dog is hairy . [SEP]
 type_ids/Segment:   0    0   0   0  0    0  0

（4）将上述暴力相加得到6 * 128向量/tensor（进阶探索，不暴力相加也行，还可以拼接为6 * 384向量/tensor然后全连接为6 * 128向量/tensor，不过既然bert他们相加就可以，估计无所谓）

1.1.2三个向量字典：

token向量字典（key为token，value为向量，随机初始化然后训练进行优化，字典长度一般几万吧）；
position向量字典（key为position，value为向量，随机初始化然后训练进行优化，字典长度取决于预训练时设置的最大token序列长度，一般也就几百）；
Segment 句向量字典（key为0、1，value为向量，bert是随机初始化，然后训练进行优化，字典长度为2），只有对句pairs前句都为0，后句都为1，单句情况下每个token的Segment都为0

如果没看懂，可以看下这位同学的画图，很清晰https://www.cnblogs.com/d0main/p/10447853.html。

是不是发现同样一个token，位置不一样，生成的向量可能不一样了，这才符合我们实际语言的认知啊

1.1.3源码进阶延伸

延伸1：
会设置一个input的最大字符数长度，比如200这种，多的截断，少的用某个字符补上，bert对于补上的字符做了标记，在后续transform结构中会处理为近似为0的权重。其实我觉得，只要是专门的填充字符，不用专门做这个权重处理吧。

延伸2：
有没有看到strawberries被切开了，这里可以看下bert源码WordpieceTokenizer：This uses a greedy longest-match-first algorithm to perform tokenization using the given vocabulary.
input = “unaffable”
output = [“un”, “##aff”, “##able”]
简单来说，有些词不存在词典vocab里（OOV问题），那么切开匹配，怎么切，longest-match-first algorithm

延伸3：
那么词典怎么生成，当然对应英文单词来说空格切开，中文就是一个汉字，但是还记得延伸1中的"##aff"这种么，这就涉及到Subword策略，可阅读链接https://plmsmile.github.io/2017/10/19/subword-units/进阶了解，这种策略的好处就是减小词典、一定程度解决OOV问题。那为什么英文情况下词典不直接就用26个英文字母呢，我觉得理论上效果应该没问题，可是这样变成token序列之后就很长了，效率降低很多吧？

延伸4：
源码里的一些小trick，比如去除利用unicode码来判断是否是中文、检测控制字符（’\n’这种）、大小写是否归一。

延伸5：
感觉那个Segment向量理论上是不是可以不要啊，[SEP]貌似隐式的确定了它们的边界。对于分类任务，[CLS]对应的transformer后面的向量可以被看成 “sentence vector”，Fine-Tuning之后才有意义。

延伸6：
相加以后的向量还要经过一个layer_norm_and_dropout，对最后一维做norm，即只对embedding_size这一维做norm，这个好理解，原本3组向量假设都是均值0标准差1的截断正态分布初始化，那么相加以后标准差应该是 $\sqrt{3}$ ，normalization下合情合理；关于这个dropout，没事drop一下房过拟合？

1.1.4 至此，任何一句话/一个样本都变成了一个n * m的向量/tensor输入模型，n表示多少个token，m表示embedding的维度，可以进入后续模型了

1.2 再看模型结构：中间的encode层，transformer

首先啰嗦下，经过1.1的处理，文本/字符串序列数据被转化为一个n * m的向量/tensor，n表示多少个token，m表示embedding的维度。

接下来transformer：
其实很简单，self-attention嘛，来，建议边看边在草稿纸上画写，应该很轻松。

1.2.1 step1：

上面的例子，输入为一个6*128维的向量（6个128维向量） $vec_1,vec_2,vec_3,vec_4,vec_5,vec_6]$ ，然后对于每一个128向量设置一个对应3个全连接层 $f_{1-q}、f_{1-k}、f_{1-v}$ （带激活函数），暂且都设置（这不影响理解）为128 * hidden_size大小，假设hidden_size为512，那么每个128维向量都可以映射为3个512维度的向量，即得到 $q_1,k_1,v_1),(q_2,k_2,v_2),(q_3,k_3,v_3),(q_4,k_4,v_4),(q_5,k_5,v_5),(q_6,k_6,v_6)]$

然后就是一个公式 $Attention(Q,K,V)=softmax(Q*K^T/\sqrt{d_k})*V$

1.2.2 step2：

我知道这个公式有的人看起来难受，继续那上面的例子来画，用 $q_1$ 分别与 $k_1、k_2、k_3、k_4、k_5、k_6$ 向量点乘得到一个6维数组，每个元素为浮点数，将6维浮点数向量除以 $\sqrt{d_k}$ 即向量 $k$ 的维度（这里就是512）的平方根，然后softamx（带dropout，这里有细节见后面的进阶延伸1），得到一个6维向量 $a_1,a_2,a_3,a_4,a_5,a_6]$ ，然后 $v_{f1-1} = a_1*v_1+a_2*v_2+a_3*v_3+a_4*v_4+a_5*v_5+a_6*v_6$ 得到一个512维度的向量 $v_{f1-1}$ ，与 $vec_1$ 对应；同理得到512维度的 $v_{f1-2}、v_{f1-3}、v_{f1-4}、v_{f1-5}、v_{f1-6}$ 与 $vec_2、vec_3、vec_4、vec_5、vec_6$ 对应。

1.2.3 step3：

整理一下，上述输入为一个6*128维的向量 $vec_1,vec_2,vec_3,vec_4,vec_5,vec_6]$ ，经过这个套路可以得到一个6*512维度的向量 $v_{f1-1}、v_{f1-2}、v_{f1-3}、v_{f1-4}、v_{f1-5}、v_{f1-6}]$ ，这就是self-Attention，不是self的可以延伸想一下，并不难。

1.2.4 step4：

multihead，很简单。
上述1组全连接层为 $f_{1q}、f_{1k}、f_{1v}$ ，将 $vec_1,vec_2,vec_3,vec_4,vec_5,vec_6]$ 转化为 $v_{f1-1}、v_{f1-2}、v_{f1-3}、v_{f1-4}、v_{f1-5}、v_{f1-6}]$ ，那么对于另一组全连接层 $f_{2q}、f_{2k}、f_{2v}$ 同理可得到 $v_{f2-1}、v_{f2-2}、v_{f2-3}、v_{f2-4}、v_{f2-5}、v_{f2-6}]$ ，以此类推…
有多少组全连接层，就是多少个head。

1.2.5 step5：

假设10 heads，即10组全连接层，那么可以得到10组6*512维度的向量，将对应位置的向量concat得到，得到一个6*5120维度的向量，即将上述的 $v_{f1-1}、v_{f2-1}、v_{f3-1}、...、v_{f10-1}$ concat为一个5120向量与 $vec_1$ 对应

1.2.6 step6：

输入一个6*128维的向量经过得到一个10 heads attention操作得到6*5120维度的向量，然后经过一个全连接层 $f_s$ 大小为 5120 * 128（带dropout、layernorm、residential之类），映射为一个6*128维的向量，当然我这里简化，实际上你可以多来几层全连接啥啥啥的，这不重要。
重要的是，你可以看到输入一个6*128维的向量，经过一系列骚操作得到一个6*128维的向量，那把这套骚操作复制下去不就行了，那就是transformer的层数，比如bert精简版好像是12层。

1.2.7 进阶延伸1

对于mask掉的位置和长度不足pad的位置，在上文进入softmax之前，会把对应的位置那个点乘浮点数置换为一个很大的负数，以至于softmax之后接近0，这个很好理解啦，就是这个位置的信息被mask掉。这个也和预训练的设置有关系。

1.2.8 至此：一个6 * 128维的向量经过多头、多层的self-attention转变为一个6*128维的向量，整体上不过是一个encoder而已。当然hidden-size什么的维度问题自己控制就好，毕竟加个全连接层可以轻松的变换向量维度（size）。

1.3 看完模型输入、结构，再看loss怎么构建的

fine-tune的时候和具体的任务相关，此处以pre-train和文本分类fine-tune为例介绍：

1.3.1 pre-train的loss：本质上多分类loss+2分类loss

预训练的loss = mask词的预测loss1 + 两句话是否是上下文预测 loss2
mask词的预测loss1：

step1：因为都是矩阵操作，所以源码对新同学看起来可能有点吃力，我这里简要描述下。上文transformer将输入的6 * 128维的向量encoder为6 * 128维，再经过一个全连接层，将维度转化为和词表的embedding size一样，比如这里的全连接层为128*128，由此得到6 * 128维度向量（你可能觉得这里多此一举，实际上当transformer输出不是128维，是1280维的时候，这个全连接层就有用了）

step2：假设6个token的第2个词和第4个词被mask掉了，那么需要对这两个地方的token进行预测loss计算。对于第二个token位置，将step1得到6*128向量的第二个128维向量与词表中每一个词的embedding向量做点乘（这就是step1全连接层的目的），加上一个bais，（假设词典有50000个）这个时候会得到一个50000维度的实数向量，然后softmax，然后与一个50000维的0、1向量点乘（1的位置代表mask掉的词在词典中的索引），得到loss，取负号（预测越准，loss越小）。举个例子其实很简单，假设softmax之后的向量如下[0.001, 0.003, 0.009, 0.012, 0.0001,…0.023]（50000维），上文被mask掉的第二个词在词典vocab中位置是第5个，那么这个0、1向量为[0, 0, 0, 0, 1, … ,0]（50000维），对于第二个词的loss为-0.0001
step3：同理得到第4个词的预测loss，假设为-0.0003，两者取平均值得到-0.0002为这个样本的整体预测词loss。一个batch的loss，再对batch取个平均呗。

两句是否是上下文的预测loss2：
还记得第一个token是“[CLS]”么，和他对应的那个encoder之后的向量也就是那个输出6*128向量的第一个，然后接个全连接层（+bais），映射为一个2维向量，二分类问题，就不多说了。

1.3.2 loss解释

总的来说，很简单，对于mask词的loss，就是讲对应位置的encode 向量（上文是128维）做一个vocab size（上文是50000）的分类，取loss，然后对多个词、多个样本平均；对于是否是上下文，就是将“[CLS]”的encode 向量做一个2分类，求loss

1.3.2 文本多分类fine-tune的loss

参考两句是否是上下文的预测loss2，比如你的分类是20分类，将“[CLS]”的encode 向量映射为一个20维度向量，然后去取loss（交叉熵什么的都随意）

2.bert的其他

思考1：本质上是有监督loss优化，但是语料是不需要人工标注的，word2vec不也是这个逻辑么。

经验2：做fine-tune的时候，注意学习率的设置，很容易就飞了。显卡尽量大一点，模型不小，我用的2080ti，还行。

思考3：感觉bert这种mask预测、上下文预测构建损失、transformer结构之前其他论文多多少少都有，所以google这是将有用的套路放在一起，然后怼上计算力和庞大语料开干？

思考4：其实pre-train上finetune，比如你做的是豆瓣上评论相关的事情，是不是可以搞一批语料在pre-trained的bert基础上再pre-train一词，然后fine-tune具体的业务

先就到这把，感冒了发烧了。。。。

【ShuQiHere】从零开始实现逻辑回归：深入理解反向传播与梯度下降 ShuQiHere 代码武士的机器学习秘传逻辑回归算法机器学习
【ShuQiHere】逻辑回归是机器学习中一个经典的分类算法，尽管它的名字中带有“回归”，但它的主要用途是处理二分类问题。逻辑回归通过一个逻辑函数（Sigmoid函数）将输入特征映射到一个概率值上，然后根据这个概率值进行分类。本文将带你从零开始一步步实现逻辑回归，并深入探讨背后的核心算法——反向传播与梯度下降。逻辑回归的数学基础逻辑回归的目标是找到一个逻辑函数，能够将输入特征映射到一个(0,1)之
【ShuQiHere】从 FNN 到 RNN：用股票价格预测一步步理解神经网络的演化 ShuQiHere 神经网络 rnn 人工智能
【ShuQiHere】引言神经网络在人工智能和机器学习领域是一个核心的研究方向，而前馈神经网络（FNN）是最基础的模型之一。虽然FNN在许多任务中表现出色，但当面对时间序列数据时，例如预测股票价格，它往往显得力不从心。这是因为FNN无法有效利用历史信息来预测未来的走势。为了解决这一问题，循环神经网络（RNN）被引入。通过这个熟悉的例子——股票价格预测，我们将一步步探讨RNN是如何从FNN演化而来的
机器学习：DBSCAN算法（内有精彩动图）吃什么芹菜卷机器学习机器学习算法人工智能
目录前言一、DBSCAN算法1.动图展示（图片转载自网络）2.步骤详解3.参数配置二、代码实现1.完整代码2.代码详解1.导入数据2.通过循环确定参数最佳值总结前言DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法。它可以发现任意形状的簇并能够处理噪声数据。一、DBSCAN算法1.动图展示（图片转载自网
Facebook开发的机器人：技术创新与应用实践啊取名真困难 facebook 机器人人机交互运维新媒体运营
引言在数字化时代，FacebookMessenger已成为企业与客户沟通的重要渠道。聊天机器人的引入，不仅提升了客户服务的效率，也为企业带来了新的互动方式。一、聊天机器人的兴起1.1客户需求的变化随着消费者对即时服务的需求日益增长，聊天机器人提供了一个快速响应的解决方案。1.2技术进步的推动人工智能和机器学习的发展，让聊天机器人能够更加智能地理解和回应用户需求。二、Facebook上的五款回复机器
AI人工智能深度学习算法：卷积神经网络的原理与应用 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能深度学习算法：卷积神经网络的原理与应用作者：禅与计算机程序设计艺术1.背景介绍1.1人工智能的兴起与深度学习的崛起人工智能(AI)是指计算机科学的一个分支，旨在创造能够执行通常需要人类智能的任务的智能机器，例如学习、解决问题和决策。近年来，人工智能取得了显著的进展，这在很大程度上归功于深度学习的崛起，深度学习是一种强大的机器学习形式，它使用具有多个层的深度神经网络来学习数据中的复杂模式
Langchain-Chatchat本地部署的解决方案 herosunly 大模型 RAG langchain-chat 本地部署解决方案
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
python 数据挖掘与机器学习科研的力量人工智能 ChatGPT python 数据挖掘机器学习神经网络随机森林决策树贝叶斯
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（
1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流研究概述：本研究首先使用R语言在三个基因表达
AI中的核心概念解读：深度学习、机器学习、神经网络与自然语言处理 wypdao 人工智能 AIGC 算法人工智能深度学习机器学习
人工智能（AI）是一个涵盖广泛领域的技术词汇，近年来受到了越来越多的关注和应用。然而，对于刚接触AI的初学者或非专业人士来说，理解其中的核心概念，特别是深度学习、机器学习、神经网络与自然语言处理之间的区别，可能显得有些复杂。本文将帮助读者梳理这些重要概念，厘清它们之间的关系和区别。一、人工智能（AI）首先，人工智能（AI）是一个广泛的领域，包含了任何通过计算机程序实现的智能行为。AI的目标是让机器
机器学习：svm算法原理的优缺点和适应场景夜清寒风支持向量机算法机器学习
1、概述：基本原理：间隔（Margin）：SVM试图找到一个超平面，这个超平面不仅能够区分不同的类别，而且具有最大的间隔。间隔是数据点到超平面的最近距离。支持向量（SupportVectors）：这些是距离超平面最近的数据点，它们决定了超平面的位置和方向。支持向量机（SVM）是一种在机器学习领域广泛使用的监督学习模型，它通过找到数据点之间的最优超平面来进行分类或回归分析。以下是SVM算法的一些优缺
昇思25天学习打卡十分钟ll 昇思25天学习打卡 python pytorch 视觉检测图像处理
@[TOC]《昇思25天学习打卡营第02天|lulul》张量Tensor张量tensor是在机器学习和深度学习中广泛应用的数据概念，张量是多维数组的泛化，能够表示标量（0维张量）、向量（1维张量）、矩阵（2维张量）及更高维的数组。张量基本用法（mindspore）data=[1,0,1,0]x_data=Tensor(data)print(x_data,x_data.shape,x_data.dt
【Python机器学习】NLP词频背后的含义——隐性语义分析 zhangbin_237 Python机器学习 python 机器学习自然语言处理人工智能开发语言
隐性语义分析基于最古老和最常用的降维技术——奇异值分解（SVD）。SVD将一个矩阵分解成3个方阵，其中一个是对角矩阵。SVD的一个应用是求逆矩阵。一个矩阵可以分解成3个最简单的方阵，然后对这些方阵求转置后再把它们相乘，就得到了原始矩阵的逆矩阵。它为我们提供了一个对大型复杂矩阵求逆的捷径。SVD适用于桁架结构的应力和应变分析等机械工程问题，它对电气工程中的电路分析也很有用，它甚至在数据科学中被用于基
统计机器学习第十三章极大似然估计的性质——图解MLE的渐进正态性 cui_hao_nan 统计机器学习导论机器学习
n=10;t=10000;s=1/12/n;x=linspace(-0.4,0.4,100);y=1/sqrt(2*pi*s)*exp(-x.^2/(2*s));z=mean(rand(t,n)-0.5,2);figure(1);clf;holdonb=20;hist(z,b);h=plot(x,y*t/b*(max(z)-min(z)),'r-');这段代码的功能是生成随机数并进行直方图和曲线的
动手学深度学习（pytorch）学习记录21-读写文件(模型与参数)[学习记录] walfar pytorch 深度学习 pytorch 学习
目录加载和保存张量加载和保存模型参数保存模型的好处众多，涵盖了从开发到部署的整个机器学习生命周期。节省资源：训练模型可能需要大量的时间和计算资源。保存模型可以避免重复训练，从而节省时间和计算资源。快速部署：一旦模型被训练并保存，它可以迅速部署到生产环境中，加速产品上市时间。版本控制：保存不同版本的模型有助于跟踪模型的迭代过程，便于比较和回滚到之前的版本。离线使用：保存的模型可以在没有网络连接的情况
PyTorch 基础学习（14）- 归一化花千树-010 PyTorch pytorch 学习人工智能
系列文章：《PyTorch基础学习》文章索引概述归一化是数据预处理中的重要步骤之一，它可以将数据调整到特定的范围或分布，有助于加速训练并提高模型的性能。在机器学习中，不同的归一化方法适用于不同的场景。本文将详细介绍scikit-learn中的常见归一化方法及其应用。1.Min-Max归一化MinMaxScalerMin-Max归一化将数据缩放到指定范围，通常是[0,1]。这种方法保留了数据的相对关
自然语言处理（NLP）与机器学习：深度探索两者的关系听忆. 自然语言处理机器学习人工智能
自然语言处理（NLP）与机器学习：深度探索两者的关系1.自然语言处理(NLP)的概述NLP的主要任务包括：2.机器学习(ML)的概述机器学习的主要类型包括：3.NLP与机器学习的关系1.机器学习驱动NLP任务2.深度学习与NLP的结合4.NLP和ML的相互促进5.挑战与未来展望边走、边悟迟早会好自然语言处理（NLP）与机器学习（ML）有着密切的关系，二者结合在一起可以实现自动化文本分析、语音识别、
如何有效管理机器学习与人工智能听忆. 人工智能机器学习
如何有效管理机器学习与人工智能1.模型开发阶段的风险管理a.数据质量与偏见管理b.模型透明性与可解释性c.偏见与公平性测试2.部署阶段的风险管理a.安全与隐私保护b.实时监控与反馈机制c.模型回滚与更新机制3.运营阶段的风险管理a.道德与合规性管理b.风险预测与预防c.人机协同与决策支持4.持续学习与改进a.持续学习与模型更新b.社区参与与开源合作总结边走、边悟迟早会好管理机器学习（ML）和人工智
深度学习速通系列:贝叶思&SVM Ven% 支持向量机人工智能深度学习算法机器学习
贝叶斯（Bayesian）方法和支持向量机（SVM，SupportVectorMachine）是两种不同的机器学习算法，它们在解决分类和回归问题时有着不同的原理和应用场景贝叶斯方法：贝叶斯方法基于贝叶斯定理，这是一种利用已知信息（先验概率）来预测未知事件（后验概率）的概率方法。它通常用于分类问题，特别是当数据集较小或存在类别不平衡时。贝叶斯方法可以处理不确定性，并且可以通过增加新的数据来更新先验概
机器学习和深度学习·贝叶斯优化和optuna 0xMayL #深度学习机器学习 #模型评估机器学习深度学习人工智能
贝叶斯优化贝叶斯优化的思想先验：取点似然：假设分布取了n个点之后…后验：近似取得极值贝叶斯优化的数学过程在贝叶斯优化的数学过程当中，我们主要执行以下几个步骤：1定义需要估计的f(x)f(x)f(x)以及xxx的定义域2取出有限的n个xxx上的值，求解出这些xxx对应的f(x)f(x)f(x)（求解观测值）3根据有限的观测值，对函数分布进行假设（该假设被称为贝叶斯优化中的先验知识），得出该假设分布上
【ShuQiHere】《机器学习的进化史『下』：从神经网络到深度学习的飞跃》 ShuQiHere 机器学习深度学习神经网络
【ShuQiHere】引言：神经网络与深度学习的兴起在上篇文章中，我们回顾了机器学习的起源与传统模型的发展历程，如线性回归、逻辑回归和支持向量机（SVM）。然而，随着数据规模的急剧增长和计算能力的提升，传统模型在处理复杂问题时显得力不从心。在这种背景下，神经网络重新进入了研究者们的视野，并逐步演变为深度学习，成为解决复杂问题的强大工具。今天，我们将进一步探索从神经网络到深度学习的进化历程，揭示这些
PyTorch概述 fydw_715 pytorch pytorch 人工智能 python
PyTorch是一个开源的机器学习框架，由Facebook的人工智能研究团队开发。它广泛用于深度学习和神经网络的研究和开发。PyTorch以其动态计算图、灵活性和简单易用的接口而闻名，深受研究人员和开发者的喜爱。以下是PyTorch的一些重要模块及其功能：torch简介：这是PyTorch的核心库，提供了张量（tensor）操作的基本功能。功能：支持张量的创建、操作和转换，涵盖数学运算、线性代数操
国产智能搜索MindSearch∶ 能够在不到3分钟内收集并整合300多页相关信息？百态老人人工智能笔记
MindSearch是一款由上海人工智能实验室推出的国产智能搜索工具，具有强大的自然语言处理和机器学习能力，旨在提供高效、精准的信息检索服务。它能够通过自然语言查询快速在各种文件格式（如PDF、DOCX、TXT）中找到所需信息，并利用人工智能技术提供即时答案和相关搜索结果。MindSearch不仅是一个独立的搜索引擎平台，还提供了一个开源的AI搜索引擎框架，用户可以使用闭源或开源的大语言模型（LL
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
机器学习——lightGBM（学习整理） CXDNW 机器学习机器学习人工智能笔记 lightgbm 参数优化 sklearn
目录一、认识lightGBM1.简单介绍2.主要特点LightGBM的缺点3.模型训练方式（1）TrainingAPI（2）Scikit-learnAPI二、相关函数参数1.TrainingAPI2.Scikit-learnAPI（重复只做补充）3.lightgbm.cv4.lightgbm.Dataset5.Callbacks（1）lightgbm.record_evaluation（2）lig
【浙江工业大学、中国人工智能学会自然计算与数字智能城市专委会联合主办|ACM独立出版|往届均已见刊并完成EI、SCOPUS检索】第四届机器学习与计算机应用国际学术会议(ICMLCA 2023) 艾思科蓝 AiScholar 人工智能机器学习信息与通信图像处理人机交互计算机视觉数据分析
第四届机器学习与计算机应用国际学术会议(ICMLCA2023)定于2023年10月27-29日在中国杭州隆重举行。本届会议将主要关注机器学习和计算机应用面临的新的挑战问题和研究方向，着力反映国际机器学习和计算机应用相关技术研究的新进展。大会网站：https://ais.cn/u/iMrIjq（更多会议详情）截稿时间：以官网信息为准收录检索：EICompendex，Scopus【往届已见刊并完成EI
机器学习之决策树与随机森林的实现 SEVEN-YEARS 机器学习决策树随机森林
引言随着互联网技术的发展，垃圾邮件过滤已成为一项重要的任务。机器学习技术，尤其是决策树和随机森林，在解决这类问题时表现出色。本文将介绍随机森林的基本概念，并通过一个具体的案例——筛选垃圾电子邮件——来展示随机森林的实际应用。随机森林简介随机森林是一种基于决策树的集成学习方法，它通过构建多个决策树并综合它们的预测结果来提高准确性和防止过拟合。随机森林的工作原理主要包括以下几个步骤：自助采样：从原始数
编程小白如何成为大神？大学新生的最佳入门大神级攻略一禅（OneZen）随笔经验分享其他笔记 python java
编程语言选择1.选择一种编程语言入门：Python：Python是初学者的绝佳选择。它语法简单、易读易写、用途广泛，广泛应用于数据科学、机器学习、Web开发、自动化测试等领域。JavaScript：对于对Web开发感兴趣的学生，JavaScript是必学的。它在前端开发中占据主导地位，并且与HTML和CSS结合使用，构建动态网页。Java：Java是一种面向对象的编程语言，广泛应用于企业级应用和A
Python配置管理工具库之hydra使用详解 Rocky006 python 人工智能开发语言
概要在开发复杂的Python应用程序时，配置管理往往是一个重要但容易被忽视的部分。Hydra是一个强大的配置管理工具，它旨在简化配置文件的管理和使用，尤其是在涉及多个配置文件和参数组合的场景下。Hydra提供了一种优雅的方式来组织和访问配置数据，并支持动态生成和组合配置。这对于机器学习、数据科学和大型Python应用程序开发来说尤其有用。本文将详细介绍Hydra库，包括其安装方法、主要特性、基本和
spark应用程序转换_4.Spark特征提取、转换和选择 - 简书 weixin_39956182 spark应用程序转换
在实际机器学习项目中，我们获取的数据往往是不规范、不一致、有很多缺失数据，甚至不少错误数据，这些数据有时又称为脏数据或噪音，在模型训练前，务必对这些脏数据进行处理，否则，再好的模型，也只能脏数据进，脏数据出。这章我们主要介绍对数据处理涉及的一些操作，主要包括：特征提取特征转换特征选择4.1特征提取特征提取一般指从原始数据中抽取特征。4.1.1词频－逆向文件频率(TF-IDF)词频－逆向文件频率(T
深度学习：探索人工智能的无限可能木小梦(๑• . •๑) 人工智能深度学习
引言：在当今这个数字化时代，人工智能（AI）已经成为了一个热门话题。从自动驾驶汽车到智能助手，AI正在逐渐改变我们的生活方式。而在AI领域，深度学习是近年来发展最为迅速的一个分支。本文将深入探讨深度学习及其相关领域，包括计算机视觉、自然语言处理、神经网络和强化学习。1.深度学习深度学习是一种基于人工神经网络的机器学习方法，它试图模拟人脑的工作方式，通过训练大量数据来自动学习数据的内在规律和表示层次
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数