小白学视觉

从AlexNet到BERT：深度学习中那些最重要idea的最简单回顾

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

来自 | 大数据文摘

编译 | 奥vi丫、肉包、Andy

本文作者Denny Britz按时间总结的深度学习比较重要的idea集锦，推荐新人看，几乎给自12年以来最重要的idea 都列了出来，这些 idea 可以说得上是养活了无数人，大家都基于这些发了无数的论文，它们依次是：

AlexNet 和 Dropout：AlexNet 直接打开了深度学习时代，奠定了之后 CV 里面 CNN 模型基本结构，Dropout 也不用说，都成了基本配置。
深度强化学习的Atari：深度强化学习的开山之作，DQN 之后也是打开了一条新路，大家开始在各种游戏上进行尝试。
Seq2Seq+Atten：这个在 NLP 领域的影响没得说，有段时间，甚至都在说任何 NLP 任务都能 Seq2Seq+Atten 来解决，而且这篇其实还为之后纯 Attention 的 Transformer 打下了基础。
Adam Optimizer：不多说，训练模型的心头好。
Generative Adversarial Networks (GANs)：这个也是从14年开始几年里火得一塌糊涂，大家都在搞各种各样的 GAN，直到去年 StyleGAN 这种集大成模型出来，才算是差不多消停。引起各种争议的 Deepfake 是成果之一，最近都有看到人用它做假资料。
Residual Networks：和 Dropout，Adam 一样变成了基本配置，模型要深全靠它。
Transformers：纯 Attention 模型，直接给 NLP 里的 LSTM 给取代了，而且在其他领域也慢慢取得很好效果，同时也为之后 BERT 预训练模型打下基础。
BERT and 精调 NLP 模型：利用可扩展性非常强大的 Transformer，加上大量数据，加上一个简单的自监督训练目标，就能够获得非常强大的预训练模型，横扫各种任务。最近的一个是 GPT3，自从给出 API 后，网络上展现出了各种特别 fancy 的demo，简直了，各种自动补全。

作者会在这里回顾深度学习领域经历时间考验被广泛应用的一些想法，当然不能全面覆盖。即使这样，下面介绍到的深度学习技术，也已经涵盖了理解现代深度学习研究所需的基本知识。如果你是该领域的萌新，那么很好，这会是你一个非常好的起点。

深度学习是个瞬息万变的领域，海量的研究论文和想法可能会令人感觉有点跟不上。就算是经验丰富的研究人员，有时也会很懵圈，很难告诉公司PR真正的突破是哪些。按照“时间是检验真理的唯一标准”，作者在这篇文章回顾了那些经受住时间考验的研究，它们或它们的改进已被反复用在各种研究和应用上，效果也有目共睹。

如果你想看完这篇文章之后就马上入门，那你就想多了。最好的方法是，搞明白和复现下面提到的经典论文，这可以给你打下非常好的基础，而且对你之后看懂最新研究和开展自己项目也会很有帮助。此外，按下面这样时间顺序浏览论文也很有用，可以帮你了解当前的技术从何而来，以及它们最初为何被发明出来。简单来说，作者在这篇文章会总结出尽量少，但涵盖了理解现代深度学习研究所需的大部分基本知识的研究。

关于深度学习，一个特点就是其应用领域，包含了机器视觉、自然语言、语音和强化学习等。而这些领域都用着差不多的技术，比如：一个曾用深度学习搞计算机视觉的人，能很快就在NLP研究中取得成果。即使特定的网络架构有些不同，但概念、方法和代码都是相通的。本文将介绍来自不同领域的一些研究，但进入正题前，需要声明一下：

这篇文章不是为下面提到的研究提供深入详解或代码示例，因为长篇复杂的论文其实很难被总结成一个简短的段落。相反，作者只会简要概述这些技术和相关历史背景，并提供其论文和实现链接。如果你想学有所得，最好在不用现有代码库或高级库的情况下，从头开始用PyTorch复现一遍论文中的实验。

受作者个人知识和熟悉领域的影响，这个列表可能不够全面，因为很多非常值得一提的子领域都没有提到。但大多数人认可的主流领域，包括机器视觉、自然语言、语音和强化学习等就都包括在内了。

而且作者只讨论有可以跑的官方或半官方开源实现的研究。有些工程量庞大而不容易被复现的研究，例如DeepMind的AlphaGo或OpenAI的Dota 2 AI，就不说啦。

一些研究的选择可能有些随意。因为总会有些相似技术在相近时间内被发布出来，而本文目的也不是对其进行全面回顾，而是要向萌新介绍各个领域的各种研究。例如，GAN可能有几百种变体，但无论你要研究哪种，GAN的基本概念都是不可不知的。

2012年：用AlexNet和Dropout处理ImageNet数据集

相关论文：

ImageNet Classification with Deep Convolutional Neural Networks [1]：

https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

Improving neural networks by preventing co-adaptation of feature detectors[2]：

https://arxiv.org/abs/1207.0580

One weird trick for parallelizing convolutional neural networks [14]：

https://arxiv.org/abs/1404.5997

实现代码：

Pytorch版：

https://pytorch.org/hub/pytorch_vision_alexnet/

TensorFlow版：

https://github.com/tensorflow/models/blob/master/research/slim/nets/alexnet.py

插图源：[1]

一般认为，是AlexNet开启了近年来深度学习和人工智能研究的大浪潮。而AlexNet其实就是个基于Yann LeCun早年提出的LeNet 的深度卷积网络。独特之处在于，AlexNet通过结合GPU强大性能和其算法优越而获得了非常大的提升，远远超越之前对ImageNet数据集进行分类的其他方法。它也证明了神经网络的确是有效的！AlexNet也是最早用Dropout[2]的算法之一，也是自此Dropout成为提高各种深度学习模型泛化能力的关键组件。

AlexNet架构是由卷积层，非线性ReLU和最大池化串成的一系列模块，而现在这些都已被大家接受，成为了标准机器视觉的网络结构了。如今，由于像PyTorch这样的库已非常强大，跟最新一些架构相比，AlexNet实现已经非常简单了，现在用几行代码就能实现。值得注意的是，AlexNet的许多实现都用的是它的一个变种，加入了这篇论文One weird trick for parallelizing convolutional neural networks中提到的一个技巧。

2013年：用深度强化学习来打Atari游戏

相关论文：

Playing Atari with Deep Reinforcement Learning [7]：

https://arxiv.org/abs/1312.5602

实现代码：

PyTorch版：

https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html

TensorFlow版：

https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial

插图源：

https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning

基于最近图像识别和GPU的发展，DeepMind成功训练了一个可基于原始像素输入来打Atari游戏的神经网络。而且，同一个神经网络能在不设置任何游戏规则的前提下学会打七种不同的游戏，这也证明了该方法的通用性。

Youtube 视频：

https://www.youtube.com/watch?v=V1eYniJ0Rnk

其中，强化学习与监督学习（如图像分类）的不同之处在于，强化学习的智能体必须在一段时间步（如一盘游戏）中学习最大化奖励总和，而不仅仅是预测标签。由于其智能体是能直接与环境交互的，而且每个行动都会影响下一个行动，因此，训练其数据并不是独立同分布的。这也使得许多强化学习模型的训练很不稳定，但这个问题可以用经验重播（experience replay）等技术来解决。

尽管没有明显的算法创新，但这项研究巧妙结合了各种现有技术，比如在GPU上训练卷积神经网络和经验重播，以及一些数据处理技巧，从而取得了超出大家预期令人印象深刻的结果。这也让人们更有信心去扩展深度强化学习技术，以解决更复杂的任务，比如：围棋，多塔2，星际争霸2等。

而且从这篇论文后，Atari游戏也变成了强化学习研究的测试标准。最初的方法尽管超过了人类的表现，但只能在7种游戏取得这样的表现。而之后几年，这些想法被不断拓展，在越来越多的游戏中击败人类。直到最近，技术才攻克了全部57款游戏并超过了所有人类水平，其中的《蒙特祖玛的复仇》以其需要长期规划著称，被认为是最难攻克的游戏之一。

2014年：编码器-解码器网络加注意力机制（Seq2Seq+Atten模型）

相关论文：

Sequence to Sequence Learning with Neural Networks [4]：

https://arxiv.org/abs/1409.3215

Neural Machine Translation by Jointly Learning to Align and Translate [3]：

https://arxiv.org/abs/1409.0473

代码实现：

PyTorch版：

https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html

TensorFlow版：

https://www.tensorflow.org/addons/tutorials/networks_seq2seq_nmt

插图源：Tensorflow中的开源Seq2Seq框架：

https://ai.googleblog.com/2017/04/introducing-tf-seq2seq-open-source.html

深度学习中很多最让人印象深刻的结果都是和视觉相关的任务，而且由卷积神经网络驱动。尽管NLP领域有通过用LSTM以及编码器-解码器架构在语言模型和翻译上并取得一些成功，但直到注意力机制的出现，该领域才取得真正令人瞩目的成就。

在处理语言时，每个token（可以是一个字符，单词或介于两者之间）都会被喂入一个循环网络（如LSTM）中，该网络会存储先前处理过的输入。换句话说，这就像一个时间序列的句子，每个token代表一个时间步。而这些循环模型在处理序列时很容易“忘记”较早的输入，因此很难处理长距离依赖关系。由于其中梯度要通过很多时间步来传播，这会导致梯度爆炸和梯度消失等问题，所以用梯度下降来优化循环模型也变得困难。

而引入注意力机制有助于缓解该问题，通过直接连接，它为网络提供了一种自适应的能“回顾”较早时间步的方法。这些连接使网络可以决定在生成特定输出时，重要的输入有哪些。简单用翻译来举例子：当生成一个输出词时，通常有一个或多个特定的输入单词被注意力机制选中，作为输出参考。

2014 – Adam 优化器

相关论文：

Adam: A Method for Stochastic Optimization [12]：

https://arxiv.org/abs/1412.6980

代码实现：

Python版：

https://d2l.ai/chapter_optimization/adam.html

PyTorch版：

https://pytorch.org/docs/master/_modules/torch/optim/adam.html

TensorFlow版：

https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/optimizer_v2/adam.py#L32-L281

Y轴 – 最优解的概率

X轴 – 超参数优化的预算（#模型训练）

来源: http://arxiv.org/abs/1910.11758

神经网络一般是通过用优化器最小化损失函数来进行训练的，而优化器的作用则是搞明白怎么调节网络参数使其能学习到指定目标。大部分优化器都是基于随机梯度下降法（SGD）（https://ruder.io/optimizing-gradient-descent/）来改进。但要指出的是，很多优化器本身还包含可调参数，如学习率。所以，为特定问题找到正确的设置，不光能减少训练时间，而且还能找到更好的损失函数局部最优，这往往也能使模型获得更好结果。

之前，财大气粗的研究室通常要跑特烧钱的超参搜索，来弄出一套给SGD用的学习率调节方案。虽然它能超过之前最好的表现，但往往也意味着要花大量的钱来调节优化器。这些细节在论文里一般不会提的，所以那些没有相同预算来调优化器的贫穷研究员们，就总会被较差的结果卡住，还没办法。

而Adam给这些研究员带了福音，它能通过梯度的一阶和二阶矩来自动调整学习率。而且实验结果证明其非常可靠，对超参的选择也不太敏感。换句话说，Adam拿来就能用，不用像其它优化器那样要进行大量调参。尽管调优后的SGD可能获得更好的结果，但Adam却使研究变得更容易了。因为一旦出现问题时，你就知道应该不太可能是调参引起的问题。

2014/2015- 生成对抗网络（GAN）

相关论文：

Generative Adversarial Networks [6] ：

https://arxiv.org/abs/1406.2661

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [17]：

https://arxiv.org/abs/1511.06434

代码实现：

PyTorch版：

https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html

TensorFlow版：

https://www.tensorflow.org/tutorials/generative/dcgan

图2：模型样本的可视化。最右边的列显示了最接近训练示例的邻近样本，以证明模型并不是记住训练集。样本是随机抽取的而不是精心挑选的。与深层生成模型的大多数其他可视化不同，这些图像显示的是模型分布中的实际样本，而不是给定隐单元样本的条件均值。而且这些样本是不相关的，因为其采样过程不依赖于马尔可夫链混合，a）MNIST b）TFD c）CIFAR-10（全连接模型） d）CIFAR-IO（卷积判别器和反卷积生成器）

来源：https://developers.google.com/machine-learning/gan/gan_structure

生成模型（例如变分自动编码器,VAE）的目标是生成以假乱真的数据样品，比如不存在的人脸。这里，模型必须对整个数据分布进行建模（很多像素！），而不仅仅是像判别模型一样给猫或狗分类，所以此类模型很难训练。生成对抗网络（GAN）就是这样一种模型。

GAN的基本思想是同时训练两个网络，生成器和判别器。生成器的目标是产生能欺骗判别器的样本，而判别器经过训练，则要分辨真实图像和生成图像。随着训练进行，判别器将变得更善于识别假图片，而生成器也将变得更善于欺骗判别器，产生更逼真的样本，这就是对抗网络之为对抗所在。刚开始的GAN产生的还是模糊低分辨率的图像，而且训练起来相当不稳定。但随着技术进步，类似于DCGAN[17]、Wasserstein GAN[25]、CycleGAN[26]、StyleGAN(v2)[27]等变体和改进都能产生更高分辨率的逼真图像和视频。

2015 – 残差网络（ResNet）

相关论文：

Deep Residual Learning for Image Recognition [13]：

https://arxiv.org/abs/1512.03385

代码实现：

PyTorch版：

https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py

TensorFlow版：

https://github.com/tensorflow/tensorflow/blob/v2.2.0/tensorflow/python/keras/applications/resnet.py

研究者们在AlexNet的基础上，又发明了基于卷积神经网络的性能更好的架构，如VGGNet[28]、Inception[29]等。而ResNet则是这一系列进展中的最重要的突破所在。时至今日，ResNet变体已被用作各种任务的基准模型架构，也被用于更复杂架构的基础。

RseNet之所以特别，除了其在ILSVRC 2015分类挑战赛中获得冠军外，更在于其相比于其他网络架构的深度。论文中提到的网络最深的有1000层，尽管在基准任务上比101和152层的略差些，但仍然表现出色。因为梯度消失问题，训练这样一个深度的网络其实是非常具有挑战的，序列模型也有同样的问题。在此之前，很少有研究者认为训练如此深的网络还能有这么稳定的结果。

ResNet使用捷径连接的方式来帮助梯度传递。一种理解是，ResNet仅需要学习从一层到另一层的“差分”，这比学习一个完全转换要简单些。此外，ResNet中的残差连接算是Highway Networks[30]的一种特殊情况，而Highway Networks 又受到了LSTM里门控机制的启发。

2017 - Transformers

相关论文：

Attention is All You Need [5] ：

https://arxiv.org/abs/1706.03762

代码实现：

PyTorch版：

https://pytorch.org/tutorials/beginner/transformer_tutorial.html

TensorFlow版：

https://www.tensorflow.org/tutorials/text/transformer

HuggingFace Transformers库：

https://github.com/huggingface/transformers

图1：Transformer – 模型架构

来源：https://arxiv.org/abs/1706.03762

Seq2Seq+Atten模型（前面已经介绍过了）性能很好，但由于它的递归特性，导致需要按时序计算。所以很难并行，一次只能处理一步，而每一步又取决于前一个。这也使得它很难用在长序列数据上，即使有注意力机制，仍然难以对复杂的长距离依赖关系进行建模，而且其大部分工作还是在递归层里实现的。

Transformers直接解决了这些问题，丢掉了递归部分，取而代之的是多个前馈的自注意力层，并行处理所有输入，并在输入与输出之间找到相对较短（容易用梯度下降优化）的路径。这使得它的训练速度非常快，易于扩展，并且能够处理更多的数据。为了加入输入位置信息（在递归模型中是隐式的），Transformers还用了位置编码。要了解有关Transformer工作原理的更多信息，建议阅读这个图解博客。

（http://jalammar.github.io/illustrated-transformer/）

如果仅仅只是说Transformers比几乎所有人预期的表现都要好，那简直就是对它的侮辱。因为在接下来的几年里，它不光表现更好，而且还直接干掉了RNN，成为了绝大多数NLP和其他序列任务标准架构，甚至还用在了机器视觉上。

2018 – BERT和精调的NLP模型

相关论文：

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [9]：

https://arxiv.org/abs/1810.04805

代码实现：

微调BERT的HuggingFace实现：

https://huggingface.co/transformers/training.html

预训练指训练一个模型来执行某个任务，之后用学到的参数来作为初始化参数来学习一个相关任务。这个其实很直观，一个已经学会分类猫或狗图像的模型，应该已经学会了一些关于图像和毛茸茸动物的基础知识。当这个模型被微调用来对狐狸进行分类时，可以预计它比一个从头开始学习的模型更好。同样，一个学会了预测句子中下一个词的模型，应该已经学会了一些关于人类语言模型的知识。那么它的参数对于相关任务（如翻译或情感分析）也会是一个很好的初始化。

预训练和微调已经在计算机视觉和NLP领域取得了成功，虽然在计算机视觉中其早已成为标准，但如何在NLP领域更好的发挥作用似乎还有些挑战。大多数最佳结果仍然出自完全监督模型。随着ELMo [34], ULMFiT [35]等方法出现，NLP研究者终于也能开始做预训练的工作了（之前词向量其实也算），特别是对Transformer的应用，更是产生了一系列如 GPT和BERT的方法。

BERT算是预训练比较新的成果，很多人认为它开创了NLP研究新纪元。它没有像大多数预训练模型一样，训练预测下一个单词，而是预测句子中被掩盖（故意删除）的单词，以及两个句子是否相邻。注意，这些任务不需要标注数据，它可以在任何文本上进行训练，而且可以是一大堆文本! 于是预训练好的模型，就能学会了一些语言的一般属性，之后就可以进行微调了，用来解决监督任务，如问答或情感预测。BERT在各种任务中的表现都非常好，出来就屠榜。而像HuggingFace这样的公司也坐上浪头，让用于NLP任务的微调BERT模型变得容易下载和使用。之后，BERT又被XLNet[31]和RoBERTa[32]以及ALBERT[33]等新模型不断传颂，现在基本上整个领域人都知道了。

2019/2002及未来 –BIG语言模型，自监督学习？

纵观整个深度学习的历史，最明显的趋势或许就是 Sutton 说的 the bitter lesson(苦痛的一课)。如里面说的，能够利用更好并行（更多数据）并且有更多模型参数的算法，能一次又一次地战胜一些所谓 "更聪明的技术"。这种趋势似乎到2020年还在持续，OpenAI的GPT-3模型，一个拥有1750亿参数的庞大语言模型，尽管其训练目标和架构都很简单，但却表现出了意想不到的泛化性（各种效果非常好的demo）。

有着同样趋势的还有contrastive self-supervised learning等方法，如SimCLR（https://arxiv.org/abs/2002.05709），它能更好的利用无标签数据。随着模型变得越来越大，训练速度越来越快，也让能有效利用网上的大量无标注数据集，学习可迁移通用知识的技术正变得越来越有价值。

你可能感兴趣的:(神经网络,大数据,编程语言,python,计算机视觉)

【Python实战】元组！编程小白的必修课！努力学习的耶耶 python
想对大家说的话：大家好呀，耶耶最近打算开一起新的专栏，带着大家敲代码，让大家在了解python理论的基础上学会实操，真正做到大彻大悟！在这里，我会将Python代码像拆解精密玩具一样，一步步剖析，确保每一步的来龙去脉都清晰可见。我会详细解释为什么选择特定的关键字和结构，通过对比不同类型的代码片段，让你不仅知其然，更知其所以然！！！拜托大家给我点一个关注！让我们一起进步吧！！！上期本期学习了如何处理
Python酷库之旅-第三方库Pandas(056) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲211、pandas.Series.truncate方法211-1、语法211-2、参数211-3、功能211-4、返回值211-5、说明211-6、用法211-6-1、数据准备211-6-2、代码示例211-6-3、结果输出212、pandas.Series.where方法212-1、语法212-2、参数212-3、功能212-4、返回值212-5、说明212-6、用法212-6
Lisp语言的循环实现齐雅彤包罗万象 golang 开发语言后端
Lisp语言的循环实现引言Lisp（LIStProcessing）是一门历史悠久且具有高度灵活性和表达力的编程语言。自1958年首次面世以来，Lisp语言在学术界与工业界均得到了广泛应用。它的函数式编程范式和强大而独特的宏系统使得Lisp在处理符号处理和人工智能领域特别出众。循环结构是程序设计中不可或缺的部分，而在Lisp中，循环的实现与其他编程语言有很大不同。本文将探讨Lisp语言中循环的各种实
2025年01月18日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：MiniCPM-o项目地址url：https://github.com/OpenBMB/MiniCPM-o项目语言：Python历史star数：15141今日star数：736项目维护者：yiranyyu,iceflame89,yaoyuanTHU,LDLINGLINGLING,tc-mb项目简介：MiniCPM-o2.6：适用于手机上视觉、语音和多模式直播的GPT-4o级多模态大规模语
大数据的一些基本概念 weixin_49536779 大数据数据分析数据库 python
首先，大数据是什么？大数据是指数据集规模巨大且复杂，传统的数据处理软件无法高效处理它们。它是非常大的数据集。这种复杂性可能来自于数据的“3V”特性：体量（Volume）、多样性（Variety）和速度（Velocity）。体量（Volume）首先，什么是体量？体量指的是以PB（Petabytes）为单位的数据量，甚至是EB（Exabytes）。这种数据量远大于GB（Gigabytes）或TB（Te
pycharm无法创建python file_pycharm无法导入本地模块的解决方式 weixin_39873356 file
最近学习python的django，需要导入本地的view模块，参考一些别人导入包的方法importsyssys.path.append('C:\\Users\\hhua\\Desktop')#括号中的内容为A所在的目录importA.Demo1#不能加.py否则会报错(错误为没有这个文件A.Demo1.py)但是不论用相对路径导入还是绝对路径导入，运行都会出错，但是我又用命令行试了一遍，发现命令
GitHub Actions是什么 ZhangJiQun&MXP 2021 论文教学 github workflow
目录GitHubActions是什么GitHubActions的使用方法示例注意事项GitHubActions配置文件中-工作流的：Workflow一、自动化任务执行二、规范团队协作三、灵活配置和定制四、提高开发效率五、集成GitHub生态六、可复用性和共享性仓库中的“Actions”部分，特别是聚焦于在M1Mac上执行Python测试的工作流程。以下是对界面上各个部分的详细解释：顶部导航栏：包含
python字符串处理函数汇总程序媛小本 python 开发语言
Python是一种充满活力的编程语言，其用途范围广泛，其中包括字符串处理。Python提供了许多强大的字符串处理函数库，可以方便地对字符串进行各种操作。在本文中，我们将讨论Python字符串处理函数的各种用途和方法，以及如何利用这些函数来解决常见的字符串处理问题。一、字符串的基本操作字符串是Python中最常用的数据类型之一，它们可以用单引号或双引号来表示。Python字符串处理函数可以处理许多字
python字符串函数忠言睿长 Python 地信GIS python
对于月份不足两位补零操作如下：strYearMonth=str(year)+str(month).zfill(2)#不足两位补充0生成字符串变量str='pythonStringfunction'字符串长度获取：len(str)例：print'%slength=%d'%(str,len(str))连接字符串sStr1='strcat'sStr2='append'sStr1+=sStr2prints
DeepSpeed 常见问题解决方案申晓容Lucille
DeepSpeed常见问题解决方案DeepSpeedDeepSpeedisadeeplearningoptimizationlibrarythatmakesdistributedtrainingandinferenceeasy,efficient,andeffective.项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeed1.项目基础介绍和主要编程语言
使用Airbyte实现数据集成的详细指南 dagGAIYD python
Airbyte是一个功能强大的数据集成平台，专门用于从API、数据库和文件构建到仓库和数据湖的ELT（Extract,Load,Transform）管道。凭借庞大的ELT连接器目录，Airbyte为数据仓库和数据库提供了广泛的支持。本文将详细介绍如何安装和使用Airbyte，特别是在Python环境中利用langchain-airbyte库进行数据集成。技术背景介绍在现代数据驱动的应用中，数据集成
TiDB 对 Hadoop 的影响：大数据时代的新选择狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
TiDB对Hadoop的影响：大数据时代的新选择随着大数据时代的到来，各种处理和存储海量数据的技术应运而生。Hadoop和TiDB都是这个时代的代表性技术，但它们的设计初衷、使用场景和应用方式却有所不同。那么，TiDB作为一个分布式数据库，它对传统的Hadoop生态系统产生了哪些影响呢？今天，我们就来聊聊这个话题。Hadoop简介：大数据的“老牌劲旅”首先，我们需要了解一下Hadoop的背景。Ha
MPP（Massively Parallel Processing）是什么？它的特点是什么？狮歌~资深攻城狮数据仓库数据分析数据库分布式
MPP（MassivelyParallelProcessing）是什么？它的特点是什么？在信息化、数据化的今天，处理大规模数据成为了很多行业的关键能力。我们常常听到“大数据”和“数据处理”的词汇，而MMP（MassivelyParallelProcessing，大规模并行处理）正是帮助我们解决大数据处理的利器。那么，MPP究竟有什么特点，让它能够高效处理海量数据呢？1.什么是MPP？MPP的全称是
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
Python常见字符串函数流着口水看上帝 python
1.字符串基本操作函数-len()：-功能：返回字符串的长度，即字符的个数。-示例：string="Hello"print(len(string))输出结果为5。-str()：-功能：将其他数据类型转换为字符串类型。-示例：num=123string_num=str(num)print(type(string_num))输出结果为，说明num被成功转换为字符串类型。2.字符串查找函数-find()
Java基础——数据类型（种类、包装类型、缓存机制、装拆箱、精度丢失） Camel卡蒙 Java基础 java 缓存 python
我是一个计算机专业研0的学生卡蒙Camel（刚保研）记录每天学习过程（主要学习Java、python、人工智能），总结知识点（内容来自：自我总结+网上借鉴）希望大家能一起发现问题和补充，也欢迎讨论文章目录Java数据类型数据类型种类包装类型和基本类型包装类型的缓存机制装箱与拆箱BigDecimal精度丢失问题使用BigDecimal解决Java数据类型数据类型种类Java有8大基本数据类型：类型关
算法——归并排序（基本思想、java实现、实现图解） Camel卡蒙数据结构与算法算法 java 排序算法
我是一个计算机专业研0的学生卡蒙Camel（刚保研）记录每天学习过程（主要学习Java、python、人工智能），总结知识点（内容来自：自我总结+网上借鉴）希望大家能一起发现问题和补充，也欢迎讨论文章目录归并排序介绍Java代码实现算法分析实现图解️和快速排序对比(面试)归并排序介绍归并排序（MergeSort）是一种基于分治法的排序算法。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列
提升制造业效率的利器：基于Python的自动化质检系统 Echo_Wish Python进阶 python 自动化开发语言
在现代制造业中，质量控制（QC）是确保产品符合客户要求和行业标准的重要环节。然而，传统的质检流程往往依赖人工检验，不仅耗时耗力，还容易受人为因素影响，导致错误率较高。在此背景下，自动化质检系统应运而生，借助人工智能（AI）和Python编程语言，实现高效、准确的质检过程。本文将探讨自动化质检系统的优势，并通过代码示例展示其实际应用。自动化质检系统的优势提高效率：自动化质检系统可以全天候不间断地工作
python random模块中seed函数的详解_详解Python基础random模块随机数的生成 Fccf python
随机数参与的应用场景大家一定不会陌生，比如密码加盐时会在原密码上关联一串随机数，蒙特卡洛算法会通过随机数采样等等。Python内置的random模块提供了生成随机数的方法，使用这些方法时需要导入random模块。importrandom下面介绍下Python内置的random模块的几种生成随机数的方法。1、random.random()随机生成0到1之间的浮点数[0.0,1.0)。print("r
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测墨枣机器学习算法神经网络分类人工智能
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc1.算法简介和应用1.1算法简介BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经
python随机密码生成以整数17为随机数种子_Python 随机数 random weixin_39908082
1.Pythonseed()函数seed()方法改变随机数生成器的种子，可以在调用其他随机模块函数之前调用此函数。seed()是不能直接访问的，需要导入random模块，然后通过random静态对象调用该方法。如：importrandomrandom.seed([x])其中的参数：x是改变随机数生成器的种子seed。如果不了解其原理，不必特别去设定seed，Python会自动选择seed。该函数没
python随机数种子通俗_随机数种子random.seed()理解 weixin_39754267 python随机数种子通俗
总结：若采用random.random()，每次都按照一定的序列(默认的某一个参数)生成不同的随机数。若采用随机数种子random.seed(100)，它将在所设置的种子100范围内调用random()模块生成随机数，如果再次启动random.seed(100)，它则按照之前的序列从头开始生成随机数，两次生成的随机序列相同。若采用random.seed()，它则按照默认的一个序列生成随机数。程序演
Python Twisted weixin_33946605 网络运维 python
Twsited异步网络框架Twisted是一个事件驱动的网络框架，其中包含了诸多功能，例如：网络协议、线程、数据库管理、网络操作、电子邮件等。事件驱动简而言之，事件驱动分为二个部分：第一，注册事件；第二，触发事件。例：程序一#!/usr/bin/envpython#-*-coding:utf-8-*-#event_drive.pyevent_list=[]defrun(): foreventin
django开发-django和tornado的不同 weixin_33693070 数据库网络 javascript ViewUI
python中常用的几个web框架有django,tornado,flask等，今天来总结一下django和tornado的不同。工作中django和tornado都用过，使用django相对更多一些。个人感觉django虽然好用，有搭建项目快、自带ORM、自动生成路由、自带管理后台等优势；但若实际工作中选择，我还是会偏向于使用tornado框架，因为torndo使用更加灵活，并且支持websoc
python twisted和flask_浅谈Python Web 框架：Django, Twisted, Tornado, Flask, Cyclone 和 Pyramid... 冯妥坨 python twisted和flask
Django是一个高级的PythonWeb框架，支持快速开发，简洁、实用的设计。如果你正在建一个和电子商务网站相似的应用，那你应该选择用Django框架。它能使你快速完成工作，也不必担心太多的技术选择。它能提供从模版引擎到ORM所需的一切东西。用Django构建你的app的时候，你必须要遵循Django的方式，这点像极了RubyonRails的Rails框架。有些人会觉得这样有点不爽，但在我看来这
介绍两个Python web框架：Django & Tornado weixin_30879169 python 数据库前端 ViewUI
在各种语言平台中，python涌现的web框架恐怕是最多的；猜想原因应该是在py中构造框架十分简单，使得轮子不断被发明。这里记述一下我了解过的两个pyweb框架，供大家参考，希望能起他山之石的作用。======Django======Django应该是最出名的py框架，GoogleAppEngine甚至Erlang都有框架受它影响。Django是走大而全的方向，它最出名的是其全自动化的管理后台：只
.net开发面试题神之王楠 .net 面试
一、.NET初级开发包括关于.NET基础知识、C#编程语言、ASP.NETMVC框架等方面的问题。什么是.NET？C#中的委托是什么？请简述private、protected、public、internal修饰符的访问权限。什么是ASP.NETMVC？在ASP.NETMVC中，模型、视图和控制器的作用是什么？什么是视图模型（ViewModel）？简述装箱和拆箱的概念。二、.NET中级开发涉及.NE
如何用Python实现流式下载，节省内存还带进度条！ python
引言本篇文章来分享一下如何使用Requests下载文件并且显示进度条。下载文件说到下载文件，大家可能一下子就能写出以下的代码：importrequeststotal=10485url=f'https://speed.cloudflare.com/__down?during=download&bytes={total}'#上面的URL是cloudflare的测试链接，可以传入想要下载的长度res=r
WebRover ：一个功能强大的 Python 库，用于从 Web 内容生成高质量的数据集。数据集
2024-11-30，由Area-25团队开发的一个专门用于生成高质量网络内容数据集的Python库。该数据集旨在为大型语言模型（LLM）和人工智能应用的训练提供丰富的数据资源。数据集地址：WebRoverDataset|自然语言处理数据集|AI模型训练数据集一、让我们一起来看一下WebRoverWebRover通过智能网络爬虫技术，自动从网络中提取与特定主题相关的内容，并支持多种输入格式，如JS
《CPython Internals》阅读笔记：p329-p335 python
《CPythonInternals》学习第16天，p329-p335总结，总计7页。一、技术总结1.debuggingp331,Therearetwotypesofdebugger,consoleandvisual——作者将debugger分为两类：(1)console：lldb(MAC系统使用),GDB(Linux系统使用))。(2)visual：VisualStudioDebugger,CLi
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag