「已注销」

60年技术简史，带你读懂AI的前世今生

授权自AI科技大本营（ID:rgznai100）

本文约10000字，建议阅读20分钟。

本文为你全面介绍人工智能的发展简史、各分领域的主要进展并对未来进行展望。

人类的进化发展史就是一部人类制造和使用工具的历史，不同的工具代表了人类的进化水平。从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代，我们使用更加先进便捷的工具来改变生产和生活。

工具的目的是延伸和拓展人类的能力，我们跑得不快，但可以借助骑马和开车日行千里，跳得不高，更不会飞，但是借助飞机火箭上天入地。工具总体来看可以分为两类：拓展人类体力的工具和拓展人类脑力的工具。

在计算机发明之前，人类制造的大多数工具都是前者，它可以帮助我们减少体力劳动。比如使用牛或者拖拉机来耕地的效率更高。当然也有少量的减少脑力劳动的工具，比如算盘，也包括文字——它可以极大的扩充人类的记忆容量，现在很多机械的脑力劳动都可以由计算机完成。但传统的计算机程序只能帮我们扩充记忆和完成简单机械的计算，我们有容量更大速度更快的存储器，可以编制财务软件来帮助进行财务核算。

我们无法实现需要“智能”才能来完成的事情，比如无法让计算机进行汽车驾驶，计算机目前也无法像人类一样用自然语言和人类进行日常沟通，而人工智能的目标就是让计算机能够像人类一样“智能”的解决这些复杂问题。现在的人工智能系统已经能够在围棋上战胜人类世界冠军，现在的语音识别系统已经能在某些特定场景下达到人类的识别准确率，无人驾驶的汽车也已经在某些地方实验性的上路了。未来，人工智能会有更多的应用场景，我们的终极目标是制造和人类一样甚至超越人类智能的机器。

人工智能发展简史

人工智能最早的探索也许可以追溯到莱布尼茨，他试图制造能够进行自动符号计算的机器，但现代意义上人工智能这个术语诞生于1956年的达特茅斯会议。

关于人工智能有很多的定义，它本身就是很多学科的交叉融合，不同的人关注它的不同方面，因此很难给出一个大家都认可的一个定义。我们下面通过时间的脉络来了解AI的反正过程。

黄金时期（1956-1974）

这是人工智能的一个黄金时期，大量的资金用于支持这个学科的研究和发展。这一时期有影响力的研究包括通用问题求解器（General Problem Solver），以及最早的聊天机器人ELIZA。很多人都以为与其聊天的ELIZA是一个真人，但它只是简单的基于匹配模板的方式来生成回复（我们现在很多市面上的聊天机器人其实也使用了类似的技术）。当时人们非常乐观，比如H. A. Simon在1958年断言不出10年计算机将在下（国际）象棋上击败人类。他在1965年甚至说“二十年后计算机将可以做所有人类能做的事情”。

第一次寒冬（1974-1980）

到了这一时期，之前的断言并没有兑现，因此各种批评之声涌现出来，国家（美国）也不再投入更多经费，人工智能进入第一次寒冬。这个时期也是联结主义（connectionism）的黑暗时期。1958年Frank Rosenblatt提出了感知机（Perception），这可以认为是最早的神经网络的研究。但是在之后的10年联结主义没有太多的研究和进展。

兴盛期（1980-1989）

这一时期的兴盛得益于专家系统的流行。联结主义的神经网络也有所发展，包括1982年John Hopfield提出了Hopfield网络，以及同时期发现的反向传播算法，但主流的方法还是基于符号主义的专家系统。

第二次寒冬（1989-1993）

之前成功的专家系统由于成本太高以及其它的原因，商业上很难获得成功，人工智能再次进入寒冬期。

发展期（1993-2006）

这一期间人工智能的主流是机器学习。统计学习理论的发展和SVM这些工具的流行，使得机器学习进入稳步发展的时期。

爆发期（2006-现在）

这一次人工智能的发展主要是由深度学习，也就是深度神经网络带动的。上世纪八九十年度神经网络虽然通过非线性激活函数解决了理论上的异或问题，而反向传播算法也使得训练浅层的神经网络变得可能。不过，由于计算资源和技巧的限制，当时无法训练更深层的网络，实际的效果并不比传统的“浅度”的机器学习方法好，因此并没有太多人关注这个方向。

直到2006年，Hinton提出了Deep Belief Nets （DBN），通过pretraining的方法使得训练更深的神经网络变得可能。2009年Hinton和DengLi在语音识别系统中首次使用了深度神经网络（DNN）来训练声学模型，最终系统的词错误率（Word Error Rate/WER）有了极大的降低。

让深度学习在学术界名声大噪的是2012年的ILSVRC评测。在这之前，最好的top5分类错误率在25%以上，而2012年AlexNet首次在比赛中使用了深层的卷积网络，取得了16%的错误率。之后每年都有新的好成绩出现，2014年是GoogLeNet和VGG，而2015年是ResNet残差网络，目前最好系统的top5分类错误率在5%以下了。真正让更多人（尤其是中国人）了解深度学习进展的是2016年Google DeepMind开发的AlphaGo以4比1的成绩战胜了人类世界冠军李世石。因此人工智能进入了又一次的兴盛期，各路资本竞相投入，甚至国家层面的人工智能发展计划也相继出台。

2006年到现在分领域的主要进展

下面我们来回顾一下从2006年开始深度学习在计算机视觉、听觉、自然语言处理和强化学习等领域的主要进展，根据它的发展过程来分析未来可能的发展方向。因为作者水平和兴趣点的局限，这里只是列举作者了解的一些文章，所以肯定会遗漏一些重要的工作。

计算机视觉

无监督预训练

虽然”现代”深度学习的很多模型，比如DNN、CNN和RNN（LSTM）很早就提出来了，但在2006年之前，大家没有办法训练很多层的神经网络，因此在效果上深度学习和传统的机器学习并没有显著的差别。

2006年，Hinton等人在论文《A fast learning algorithm for deep belief nets》里提出了通过贪心的、无监督的Deep Belief Nets（DBN）逐层Pretraining的方法和最终有监督fine-tuning的方法首次实现了训练多层（五层）的神经网络。此后的研究热点就是怎么使用各种技术训练深度的神经网络，这个过程大致持续到2010年。主要的想法是使用各种无监督的Pretraining的方法，除了DBN，Restricted Boltzmann Machines（RBM）， Deep Boltzmann Machines（DBM）还有Denoising Autoencoders等模型也在这一期间提出。

代表文章包括Hinton等人的《Reducing the dimensionality of data with neural networks》发表在Nature上）、Bengio等人在NIPS 2007上发表的《Greedy layer-wise training of deep networks》，Lee等人发表在ICML 2009上的《Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations》，Vincent等人2010年发表的《Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion》。

那个时候要训练较深的神经网络是非常tricky的事情，因此也有类似Glorot等人的《Understanding the difficulty of training deep feedforward neural networks》，大家在使用深度学习工具时可能会遇到Xavier初始化方法，这个方法的作者正是Xavier Glorot。那个时候能把超参数选好从而能够训练好的模型是一种”黑科技”，我记得还有一本厚厚的书《Neural Networks: Tricks of the Trade》，专门介绍各种tricks。

深度卷积神经网络

深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet在LSVRC-2012 ImageNet这个比赛中取得了非常好的成绩。此后，卷积神经网络及其变种被广泛应用于各种图像相关任务。从2012年开始一直到2016年，每年的LSVRC比赛都会产生更深的模型和更好的效果。

Alex Krizhevsky在2012年的论文《ImageNet classification with deep convolutional neural networks》开启了这段”深度”竞争之旅。

2014年的冠军是GoogleNet，来自论文《Going deeper with convolutions》，它提出了Inception的结构，通过这种结构可以训练22层的深度神经网络。它同年的亚军是VGGNet，它在模型结构上并没有太多变换，只是通过一些技巧让卷积网络变得更深（18层）。

2015年的冠军是ResNet，来自何恺明等人的论文《Deep residual learning for image recognition》，通过引入残差结构，他们可以训练152层的网络，2016年的文章《Identity Mappings in Deep Residual Networks》对残差网络做了一些理论分析和进一步的改进。

2016年Google的Szegedy等人在论文《Inception-v4, inception-resnet and the impact of residual connections on learning》里提出了融合残差连接和Incpetion结构的网络结构，进一步提升了识别效果。

下图是这些模型在LSVRC比赛上的效果，我们可以看到随着网络的加深，分类的top-5错误率在逐渐下降。

图：LSVRC比赛

目标检测和实例分割

前面的模型主要考虑的是图片分类任务，目标检测和实例分割也是计算机视觉非常常见的任务。把深度卷积神经网络用到这两个任务上是非常自然的事情，但是这个任务除了需要知道图片里有什么物体，还需要准确的定位这些物体。为了把卷积神经网络用于这类任务，需要做很多改进工作。

当然把CNN用于目标检测非常自然，最简单的就是先对目标使用传统的方法进行定位，但是定位效果不好。Girshick等人在2014年在论文《Rich feature hierarchies for accurate object detection and semantic segmentation》提出了R-CNN模型，使用Region Proposal来产生大量的候选区域，最后用CNN来判断是否是目标，但因为需要对所有的候选进行分类判断，因此它的速度非常慢。

图：R-CNN

2015年，Girshick等人提出了Fast R-CNN，它通过RoI Pooling层通过一次计算同时计算所有候选区域的特征，从而可以实现快速计算。但是Regional Proposal本身就很慢，Ren等人在同年的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》提出了Faster R-CNN，通过使用Region Proposal Networks（RPN）这个网络来替代原来的Region Proposal算法，从而实现实时目标检测算法。为了解决目标物体在不同图像中不同尺寸（scale）的问题，Lin等人在论文《Feature Pyramid Networks for Object Detection》里提出了Feature Pyramid Networks（FPN）。

图：Fast R-CNN

图：Faster R-CNN

因为R-CNN在目标检测任务上很好的效果，把Faster R-CNN用于实例分割是很自然的想法。但是RoI Pooling在用于实例分割时会有比较大的偏差，原因在于Region Proposal和RoI Pooling都存在量化的舍入误差。因此何恺明等人在2017年提出了Mask R-CNN模型。

图：Mask R-CNN

从这一系列文章我们可以看到深度学习应用于一个更复杂场景的过程：首先是在一个复杂的过程中部分使用深度神经网络，最后把所有的过程End-to-End的用神经网络来实现。

此外，Redmon等人《You only look once: Unified, real-time object detection》提出了YOLO模型（包括后续的YOLOv2和YOLOv3等），Liu等人也提出的SSD: Single Shot MultiBox Detector模型，这些模型的目的是为了保持准确率不下降的条件下怎么加快检测速度。

生成模型

如果要说最近在计算机视觉哪个方向最火，生成模型绝对是其中之一。要识别一个物体不容易，但是要生成一个物体更难（三岁小孩就能识别猫，但是能画好一只猫的三岁小孩并不多）。而让生成模型火起来的就是Goodfellow在2014年提出的Generative Adversarial Nets（简称GAN）。

因为这个领域比较新，而且研究的”范围”很广，也没有图像分类这样的标准任务和ImageNet这样的标准数据集，很多时候评测的方法非常主观。很多文章都是找到某一个应用点，然后生成（也可能是精心挑选）了一些很酷的图片或者视频，”有图有真相”，大家一看图片很酷，内容又看不懂，因此不明觉厉。要说解决了什么实际问题，也很难说。但是不管怎么说，这个方向是很吸引眼球的，比如DeepFake这样的应用一下就能引起大家的兴趣和讨论。我对这个方向了解不多，下面只列举一些应用。

style-transfer

最早的《A Neural Algorithm of Artistic Style》发表于2015年，这还是在GAN提出之前，不过我还是把它放到生成模型这里了。它当年可是火过一阵，还因此产生了一个爆款的App叫Prisma。如下图所示，给定一幅风景照片和一幅画（比如c是梵高的画），使用这项技术可以在风景照片里加入梵高的风格。

图：Neural Style Transfer

朱俊彦等人在《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》提出的CycleGAN是一个比较有趣其的模型，它不需要Paired的数据。所谓Paired数据，就是需要一张普通马的照片，还需要一张斑马的照片，而且要求它们内容是完全匹配的。要获得配对的数据是非常困难的，我们拍摄的时候不可能找到外形和姿势完全相同的斑马和普通马，包括相同的背景。另外给定一张梵高的作品，我们怎么找到与之配对的照片？或者反过来，给定一张风景照片，去哪找和它内容相同的艺术作品？

本文介绍的Cycle GAN不要求有配对的训练数据，而只需要两个不同Domain的未标注数据集就行了。比如要把普通马变成斑马，我们只需要准备很多普通马的照片和很多斑马的照片，然后把所有斑马的照片放在一起，把所有的普通马照片放到一起就行了，这显然很容易。风景画变梵高风格也很容易——我们找到很多风景画的照片，然后尽可能多的找到梵高的画作就可以了。它的效果如下图所示。

图：CycleGAN

text-to-image

text-to-image是根据文字描述来生成相应的图片，这和Image Captioning正好相反。Zhang等人2016年的《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》是这个方向较早的一篇文章，其效果如下图最后一行所示。

图：StackGAN和其它模型的对比

super-resolution

super-resolution是根据一幅低分辨率的图片生成对应高分辨率的图片，和传统的插值方法相比，生成模型因为从大量的图片里学习到了其分布，因此它”猜测”出来的内容比插值效果要好很多。《Enhanced Super-Resolution Generative Adversarial Networks》是2018年的一篇文章，它的效果如下图中间所示。

图：ESRGAN效果

image inpainting

image inpainting是遮挡掉图片的一部分，比如打了马赛克，然后用生成模型来”修补”这部分内容。下图是Generative Image Inpainting with Contextual Attention的效果。

图：DeepFill系统的效果

《EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning》这篇文章借鉴人类绘画时先画轮廓（线）后上色的过程，通过把inpainting分成edge generator和image completion network两个步骤，如下面是它的效果。

图：EdgeConnect的效果

最新热点：自动优化网络结构和半监督学习

最近有两个方向我觉得值得关注：一个是自动优化网络结构；另一个是半监督的学习。

自动网络优化最新的文章是Google研究院的《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》，它希望找到一个神经网络扩展方法可以同时提高网络的准确率和效率（减少参数）。要实现这点，一个很关键的步骤便是如何平衡宽度、深度和分辨率这三个维度。

作者发现，可以使用一种固定比例的缩放操作简单地实现对三者的平衡。最终，作者提出了一种简单却有效的compound scaling method。如果想使用 2?倍的计算资源，只需要对网络宽度增加??，深度增加??和增加??倍的图像大小。其中?,?,?是固定的系数，最优的值通常使用小范围的grid search得到。通过这种方法他们实现了EfficientNet模型，这个模型使用非常少的参数就达到了很好的效果，如下图所示。

图：模型参数和准确率图

我们可以看到，EfficientNet比之前最好的模型GPipe要小8.4倍，但是效果比它还要好。

半监督学习这里指的是通过未标注的图片来预训练学习特征，然后用少量监督的数据进行学习。最新的文章是Google DeepMind的《Data-Efficient Image Recognition with Contrastive Predictive Coding》。这篇文章通过Contrastive Predictive Coding的方法来从大量未标注的数据量提取特征。在这些特征上简单的加上一个线性的softmax层，在ImageNet上就可以超过使用AlexNet有监督学习的模型。

如果每个类的训练数据只有13个，则本文的方法比只用13个数据训练的模型的Top-5准确率要高20%，比之前最好的半监督模型高10%。传统的很多无监督的特征在少量数据会比较好，但是当数据量足够多的时候会比完全的监督学习要差，但是本文的方法得到的特征使用全部的ImageNet数据训练，也可以达到和完全监督学习类似的效果，这说明它学到的特征足够好。

语音识别

语音识别系统是一个非常复杂的系统，在深度学习技术之前的主流系统都是基于HMM模型。它通常时候HMM-GMM来建模subword unit（比如triphone），通过发音词典来把subword unit的HMM拼接成词的HMM，最后解码器还要加入语言模型最终来融合声学模型和语言模型在巨大的搜索空间里寻找最优的路径。

Hinton一直在尝试使用深度神经网络来改进语音识别系统，最早（2006年后）的工作是2009年发表的《Deep belief networks for phone recognition》，这正是Pretraining流行的时期，把DBN从计算机视觉用到语音识别是非常自然的想法。类似的工作包括2010年的《Phone Recognition using Restricted Boltzmann Machines》。但是这些工作只是进行最简单的phone分类，也就是判断每一帧对应的phone，这距离连续语音识别还相差的非常远。

真正把深度神经网络用于语音识别的重要文章是Hinton等人2012年《Deep Neural Networks for Acoustic Modeling in Speech Recognition》的文章，这篇文章使用DNN替代了传统HMM-GMM声学模型里的GMM模型，从此语音识别的主流框架变成了HMM-DNN的模型。接着在2013年Sainath等人在《Deep convolutional neural networks for LVCSR》用CNN替代普通的全连接网络。从George等人的文章《Improving deep neural networks for LVCSR using rectified linear units and dropout》也可以发现在计算机视觉常用的一些技巧也用到了语音识别上。

前面的HMM-DNN虽然使用了深度神经网络来替代GMM，但是HMM和后面的N-gram语言模型仍然存在，而且DNN本身的训练还需要使用HMM-GMM的强制对齐来提供帧级别的训练数据。

怎么构建一个End-to-end的语音识别系统一直是学术界关注的重点。RNN我们现在处理时序数据的有力武器，2013年的时候Graves等人在论文《Speech Recognition with Deep Recurrent Neural Networks》里把RNN用于了语音识别。这篇文章使用了RNN加上CTC损失函数，CTC是后来的Deep Speech的核心。虽然”真正”把CTC用于语音识别是在2013年，但是Graves却是早在2006年的时候就在论文《Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks》提出了CTC。

Hannun等人在2014年提出的《Deep Speech: Scaling up end-to-end speech recognition》是首个效果能和HMM-DNN媲美的End-to-end系统，包括后续的《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin》。Deep Speech的系统非常简单，输入是特征序列，输出就是字符序列，没有HMM、GMM、发音词典这些模块，甚至没有phone的概念。

除了基于CTC损失函数的End-to-end系统，另外一类End-to-end系统借鉴了机器翻译等系统常用的seq2seq模型。这包括最早的《Listen, attend and spell: A neural network for large vocabulary conversational speech recognition》，Google的《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》总结了用于语音识别的SOTA的一些Seq2Seq模型，并且称他们在实际的系统中使用了这个模型之后词错误率从原来的6.7%下降到5.6%。这是首个在业界真正得到应用的End-to-end的语音识别系统（虽然Andrew Ng领导的百度IDL提出了Deep Speech和Deep Speech2，但是在百度的实际系统中并没有使用它）。

下图是常见数据集上的效果，拿SwitchBoard为例，在2006年之前的进展是比较缓慢的，但是在使用了深度学习之后，词错误率持续下降，图中是2017年的数据，微软的系统已经降到了6.3%的词错误率。

图：词错误率变化

自然语言处理

和语音识别不同，自然语言处理是一个很”庞杂”的领域，语音识别就一个任务——把声音变成文字，即使加上相关的语音合成、说话人识别等任务，也远远无法和自然语言处理任务数量相比。自然语言处理的终极目标是让机器理解人类的语言，理解是一个很模糊的概念。相对论的每个词的含义我都可能知道，但是并不代表我理解了相对论。

因为这个原因，在这里我关注的是比较普适性的方法，这些方法能用到很多的子领域而不是局限于某个具体的任务。

自然语言和连续的语音与图像不同，它是人类创造的离散抽象的符号系统。传统的特征表示都是离散的稀疏的表示方法，其泛化能力都很差。比如训练数据中出现了很多”北京天气”，但是没有怎么出现”上海天气”，那么它在分类的时候预测的分数会相差很大。但是”北京”和”上海”很可能经常在相似的上下文出现，这种表示方法无法利用这样的信息。

在2003年到时候，Bengio在论文《A Neural Probabilistic Language Model》就提出了神经网络的语言模型，通过Embedding矩阵把一个词编码成一个低维稠密的向量，这样实现相似上下文的共享——比如”北京”和”上海”经常在相似的上下文出现，则它们会被编码成比较相似的向量，这样即使”上海天气”在训练数据中不怎么出现，也能通过”北京天气”给予其较大的概率。

不过2003年的时候大家并不怎么关注神经网络，因此这篇文章当时并没有太多后续的工作。到了2012年之后，深度神经网络在计算机视觉和语音识别等领域取得了重大的进展，把它应用到自然语言处理领域也是非常自然的事情。但是这个时候面临一个问题——没有大量有监督的标注数据。这其实也是前面提到的自然语言处理是很”庞杂”的有关。

自然语言处理的任务太多了，除了机器翻译等少数直接面向应用并且有很强实际需求的任务有比较多的数据外，大部分任务的标注数据非常有限。和ImageNet这种上百万的标注数据集或者语音识别几千小时的标注数据集相比，很多自然语言处理的标注数据都是在几万最多在几十万这样的数量级。这是由自然语言处理的特点决定的，因为它是跟具体业务相关的。因此自然语言处理领域一直急需解决的就是怎么从未标注的数据里学习出有用的知识，这些知识包括语法的、语义的和世界知识。

Mikolov等人2013年在《Efficient estimation of word representations in vector space》和《Distributed representations of words and phrases and their compositionality》开始了这段征程。他们提出的Word2Vec可以简单高效的学习出很好的词向量，如下图所示。

图：Word2Vec的词向量

从上图我们可以发现它确实学到了一些语义知识，通过向量计算可以得到类似”man-woman=king-queen”。

我们可以把这些词向量作为其它任务的初始值。如果下游任务数据量很少，我们甚至可以固定住这些预训练的词向量，然后只调整更上层的参数。Pennington等人在2014年的论文《Glove: Global vectors for word representation》里提出了GloVe模型。

但是Word2Vec无法考虑上下文的信息，比如”bank”有银行和水边的意思。但是它无法判断具体在某个句子里到底是哪个意思，因此它只能把这两个语义同时编码进这个向量里。但是在下游应用中的具体某个句子里，只有一个语义是需要的。当然也有尝试解决多义词的问题，比如Neelakantan等人在2014年的《Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space》，但都不是很成功。

另外一种解决上下文的工具就是RNN。但是普通的RNN有梯度消失的问题，因此更常用的是LSTM。LSTM早在1997年就被Sepp Hochreiter和Jürgen Schmidhuber提出了。在2016年前后才大量被用于自然语言处理任务，成为当时文本处理的”事实”标准——大家认为任何一个任务首先应该就使用LSTM。当然LSTM的其它变体以及新提出的GRU也得到广泛的应用。RNN除了能够学习上下文的语义关系，理论上还能解决长距离的语义依赖关系（当然即使引入了门的机制，实际上太长的语义关系还是很难学习）。

图：LSTM

很多NLP的输入是一个序列，输出也是一个序列，而且它们之间并没有严格的顺序和对应关系。为了解决这个问题，seq2seq模型被提了出来。最终使用seq2seq的是机器翻译。Sutskever等人在2014年的论文《Sequence to Sequence Learning with Neural Networks》首次使用了seq2seq模型来做机器翻译，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》里首次把Attention机制引入了机器翻译，从而可以提高长句子的翻译效果。而Google在论文里《Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》介绍了他们实际系统中使用神经网络机器翻译的一些经验，这是首次在业界应用的神经网络翻译系统。

图：LSTM

seq2seq加Attention成为了解决很多问题的标准方法，包括摘要、问答甚至对话系统开始流行这种End-to-End的seq2seq模型。

Google2017年在《Attention is All You Need》更是把Attention机制推向了极致，它提出了Transformer模型。因为Attention相对于RNN来说可以更好的并行，而且它的Self-Attention机制可以同时编码上下文的信息，它在机器翻译的WMT14数据上取得了第一的成绩。

图：Neural Machine Translation

不过其实和Attention同时流行的还包括”Memory”，这大概是2015年的时候，当时流行”Reason, Attention and Memory”（简称RAM），我记得当年NIPS还有个RAM的workshop。Memory就是把LSTM的Cell进一步抽象，变成一种存储机制，就行计算机的内存，然后提出了很多复杂的模型，包括Neural Turing Machine（NTM）等等，包括让神经网络自动学习出排序等算法。当时也火过一阵，但最终并没有解决什么实际问题。

虽然RNN/Transformer可以学习出上下文语义关系，但是除了在机器翻译等少量任务外，大部分任务的训练数据都很少。因此怎么能够使用无监督的语料学习出很好的上下文语义关系就成为非常重要的课题。这个方向从2018年开始一直持续到现在，包括Elmo、OpenAI GPT、BERT和XLNet等，这些模型一次又一次的刷榜，引起了极大的关注。

ELMo是Embeddings from Language Models的缩写，意思就是语言模型得到的（句子）Embedding。另外Elmo是美国儿童教育电视节目芝麻街（Sesame Street）里的小怪兽的名字。原始论文是《Deep contextualized word representations》，这个标题是很合适的，也就是用深度的Transformer模型来学习上下文相关的词表示。

这篇论文的想法其实非常非常简单，但取得了非常好的效果。它的思路是用深度的双向RNN（LSTM）在大量未标注数据上训练语言模型，如下图所示。然后在实际的任务中，对于输入的句子，我们使用这个语言模型来对它处理，得到输出的向量，因此这可以看成是一种特征提取。但是和普通的Word2Vec或者GloVe的pretraining不同，ELMo得到的Embedding是有上下文的。

比如我们使用Word2Vec也可以得到词”bank”的Embedding，我们可以认为这个Embedding包含了bank的语义。但是bank有很多意思，可以是银行也可以是水边，使用普通的Word2Vec作为Pretraining的Embedding，只能同时把这两种语义都编码进向量里，然后靠后面的模型比如RNN来根据上下文选择合适的语义——比如上下文有money，那么它更可能是银行；而如果上下文是river，那么更可能是水边的意思。但是RNN要学到这种上下文的关系，需要这个任务有大量相关的标注数据，这在很多时候是没有的。而ELMo的特征提取可以看成是上下文相关的，如果输入句子有money，那么它就（或者我们期望）应该能知道bank更可能的语义，从而帮我们选择更加合适的编码。

图：RNN语言模型

ELMo学到的语言模型参数是固定的，下游的任务把它的隐状态作为特征。而来自论文《Improving Language Understanding by Generative Pre-Training》的OpenAI GPT模型会根据特定的任务进行调整（通常是微调），这样得到的句子表示能更好的适配特定任务。它的思想其实也很简单，使用Transformer来学习一个语言模型，对句子进行无监督的Embedding，然后根据具体任务对Transformer的参数进行微调。因为训练的任务语言模型的输入是一个句子，但是下游的很多任务的输入是两个，因此OpenAI GPT通过在两个句子之前加入特殊的分隔符来处理两个输入，如下图所示。

图：OpenAI GPT处理下游任务的方法

OpenAI GPT取得了非常好的效果，在很多任务上远超之前的第一。

ELMo和GPT最大的问题就是传统的语言模型是单向的——我们是根据之前的历史来预测当前词。但是我们不能利用后面的信息。比如句子”The animal didn’t cross the street because it was too tired”。我们在编码it的语义的时候需要同时利用前后的信息，因为在这个句子中，it可能指代animal也可能指代street。根据tired，我们推断它指代的是animal，因为street是不能tired。但是如果把tired改成wide，那么it就是指代street了。

传统的语言模型，不管是RNN还是Transformer，它都只能利用单方向的信息。比如前向的RNN，在编码it的时候它看到了animal和street，但是它还没有看到tired，因此它不能确定it到底指代什么。如果是后向的RNN，在编码的时候它看到了tired，但是它还根本没看到animal，因此它也不能知道指代的是animal。Transformer的Self-Attention理论上是可以同时attend to到这两个词的，但是根据前面的介绍，由于我们需要用Transformer来学习语言模型，必须用Mask来让它看不到未来的信息，因此它也不能解决这个问题。

那它是怎么解决语言模型只能利用一个方向的信息的问题？答案是它的pretraining训练的不是普通的语言模型，而是Mask语言模型。这个思路是在Google的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》里提出了，也就是我们现在熟知的BERT模型。

BERT一出来就横扫了各种NLP的评测榜单，引起了极大的关注。就在媒体都在用”最强NLP模型”之类的词赞美BERT的时候，最近又出现了XLNet，又一次横扫了各大榜单。它认为BERT有两大问题：它假设被Mask的词之间在给定其它非Mask词的条件下是独立的，这个条件并不成立；Pretraining的时候引入了特殊的[MASK]，但是fine-tuing又没有，这会造成不匹配。XLNet通过Permutation语言模型来解决普通语言模型单向信息流的问题，同时借鉴Transformer-XL的优点。通过Two-Stream Self-Attention解决target unaware的问题，最终训练的模型在很多任务上超过BERT创造了新的记录。

强化学习

强化学习和视觉、听觉和语言其实不是一个层面上的东西，它更多的是和监督学习、非监督学习并行的一类学习机制（算法），但是我认为强化学习是非常重要的一种学习机制。

监督学习的特点是有一个“老师”来“监督”我们，告诉我们正确的结果是什么。在我们在小的时候，会有老师来教我们，本质上监督学习是一种知识的传递，但不能发现新的知识。对于人类整体而言，真正（甚至唯一）的知识来源是实践——也就是强化学习。比如神农尝百草，最早人类并不知道哪些草能治病，但是通过尝试，就能学到新的知识。学到的这些知识通过语言文字记录下来，一代一代的流传下来，从而人类社会作为整体能够不断的进步。

与监督学习不同，没有一个“老师”会“监督“我们。比如下围棋，不会有人告诉我们当前局面最好的走法是什么，只有到游戏结束的时候我们才知道最终的胜负，我们需要自己复盘（学习）哪一步是好棋哪一步是臭棋。自然界也是一样，它不会告诉我们是否应该和别人合作，但是通过优胜劣汰，最终”告诉”我们互相协助的社会会更有竞争力。和前面的监督、非监督学习相比有一个很大的不同点：在强化学习的Agent是可以通过Action影响环境的——我们的每走一步棋都会改变局面，有可能变好也有可能变坏。

它要解决的核心问题是给定一个状态，我们需要判断它的价值（Value）。价值和奖励（Reward）是强化学习最基本的两个概念。对于一个Agent（强化学习的主体）来说，Reward是立刻获得的，内在的甚至与生俱来的。比如处于饥饿状态下，吃饭会有Reward。而Value是延迟的，需要计算和慎重考虑的。比如饥饿状态下去偷东西吃可以有Reward，但是从Value（价值观）的角度这（可能）并不是一个好的Action。为什么不好？虽然人类的监督学习，比如先贤告诉我们这是不符合道德规范的，不是好的行为。但是我们之前说了，人类最终的知识来源是强化学习，先贤是从哪里知道的呢？有人认为来自上帝或者就是来自人的天性，比如“人之初性本善”。如果从进化论的角度来解释，人类其实在玩一场”生存”游戏，有遵循道德的人群和有不遵循的人群，大自然会通过优胜劣汰”告诉”我们最终的结果，最终我们的先贤“学到”了（其实是被选择了）这些道德规范，并且把这些规范通过教育（监督学习）一代代流传下来。

因为强化学习只是一种方法，它在很多领域都有应用，机器人、控制和游戏是其最常见的应用领域，但是其它领域包括自然语言处理的对话系统，也经常会用到强化学习技术。强化学习和机器学习一样有很多方法：根据是否对环境建模可以分为Model based和Mode free的方法；按照是否有Value函数又分为Value based方法和Policy Gradient，但是又可以把两者结合得到Actor-Critic方法……

我们这里重点关注深度学习和强化学习结合的一些方法。

Google DeepMind在Nature发表的文章《Human-level Control through Deep Reinforcement Learning》首次实现了End-to-End的深度强化学习模型Deep Q-Networks，它的输入是游戏画面的像素值，而输出是游戏的控制命令，它的原理如下图所示。

图：Deep Q-Networks

通过Experience Replay来避免同一个trajectory数据的相关性，同时使用引入了一个Target Network ??′来解决target不稳定的问题，Deep Q-Networks在Atari 2600的49个游戏中，有29个游戏得分达到了人类的75%以上，而其中23个游戏中的得分超过了人类选手，如下图所示。

图：Deep Q-Networks在Atari2600平台上的得分

Deep Q-Networks的后续改进工作包括《Prioritized Expeience Replay》、《Deep Reinforcement Learning with Double Q-learning》和《Rainbow: Combining Improvements in Deep Reinforcement Learning》等。

而Policy Gradient类的工作包括《Trust Region Policy Optimization》（TRPO）、Deterministic Policy Gradient Algorithms》（DPG）、《Expected Policy Gradients for Reinforcement Learning》、《Proximal Policy Optimization Algorithms》（PPO）等。

而在游戏方面，Google DeepMind发表的大家耳熟能详的AlphaGo、AlphaGoZero和AlphaZero系列文章。

围棋解决了之后，大家也把关注点放到了即时战略游戏上，包括DeepMind的《AlphaStar: An Evolutionary Computation Perspective》和OpenAI Five在星际争霸2和Dota2上都取得了很大的进展。

此外，在Meta Learning、Imitation Learning和Inverse Reinforcement Learning也出现了一些新的进展，我们这里就不一一列举了。

未来展望

最近一个比较明显的趋势就是非监督（半监督）学习的进展，首先是在自然语言处理领域，根据前面的分析，这个领域的任务多、监督数据少的特点一直期望能在这个方向有所突破。在计算机视觉我们也看到了Google DeepMind的最新进展，我觉得还会有更多的突破。相对而言，在语音识别领域这方面的进展就慢了一些，先不说无监督，就连从一个数据集（应用场景）Transfer到另一个数据集（场景）都很难。比如我们有大量普通话的数据，怎么能够使用少量的数据就能在其它带方言的普通话上进行很好的识别。虽然有很多Adaptation的技术，但是总体看起来还是很难达到预期。

另外一个就是End-to-End的系统在业界（除了Google声称使用）还并没有得到广泛应用，当然这跟语音领域的玩家相对很少有关，况且目前的系统效果也不错，完全推倒重来没有必要（除非计算机视觉领域一样深度学习的方法远超传统的方法）。原来的HMM-GMM改造成HMM-DNN之后再加上各种Adaptation和sequence discriminative training，仍然可以得到SOTA的效果，所以相对来讲使用End-to-end的动力就更加不足。虽然学术界大力在往这个方向发展，但是老的语音玩家（Google之外）并不怎么买账。

从长远来讲，要“真正”实现人工智能，我认为还得结合视觉、听觉（甚至味觉和触觉等）和语言，使用无监督、监督和强化学习的方法，让”机器”有一个可以自己控制的身体，像三岁小孩一样融入”真正”的物理世界和人类社会，才有可能实现。这除了需要科技上的进步，还需要我们人类在思想上的巨大突破才有可能实现。

编辑：于腾凯

你可能感兴趣的:(60年技术简史，带你读懂AI的前世今生)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&