黄波波19

迁移学习(Transfer Learning)概述及代码实现(full version)

基于PaddlePaddle的李宏毅机器学习——迁移学习

大噶好，我是黄波波。希望能和大家共进步，错误之处恳请指出！
百度AI Studio个人主页, 我在AI Studio上获得白银等级，点亮2个徽章，来互关呀~

本项目是在飞桨深度学习学院提供的李宏毅-机器学习特训营课程。

Abstract

本文共分为两大部分：第一部分介绍迁移学习的主要概念以及类型，第二部分是实现迁移学习布置的作业——领域对抗性训练(Domain Adversarial Training)并进行了三次不同epoch的训练。
项目传送门

第一部分：迁移学习介绍

1 迁移学习：Transfer Learning

1.1 什么是迁移学习呢？

假设现在要做猫和狗的分类器，我们需要一样标签数据告诉机器哪些是猫，哪些是狗。
同时，假设现在有一些与猫和狗没有直接关系的数据，这里说是没有直接关系，并不是说是完全没有关系。就是说有一些关系，但又不是直接相关的。

假设现在有自然界真实存在的老虎和大象的图片，那老虎和大象对分辨猫和狗会有帮助吗。

或者说我们有一些卡通动画中的猫和狗图像，但不是真实存在的，有没有帮助呢。

迁移学习把任务A开发的模型作为初始点，重新使用在为任务B开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务。

1.2 为什么用迁移学习

这三个说的是，第一个是做闽南语(台湾腔)的语音识别，但是没有太多的训练数据，只有很多无直接关系的英文、普通话数据；第二是做医疗方面的图像识别，同样样本不多，但有很多其他真实动物的图像；第三个说的是在特定领域，这里是法律方面的文本分析，缺少数据，但是可以找到很多不相关的网页数据。

这时候迁移学习就会很有用，因为可能实际情况就是这样，我们无法收集太多想要的数据，但是存在很多不直接相关的其他数据。

其实在现实生活中我们会做迁移学习（有点像类比的思想）。

这里用漫画家的生活对应到研究生的生活。漫画家要画漫画，研究生要跑实验等。

1.3 迁移学习的概述

我们主要把迁移学习分为四大类。
在迁移学习中，有一些target data，就是和你的任务由直接关系的数据；
还有很多source data,是和你现在的任务没有直接关系的数据。

现在有一个我们想要做的task，有一些跟这个task有关的数据叫做target data，有一些跟这个task无关的data，这个data叫做source data。这个target data有可能是有label的，也有可能是没有label的，这个source data有可能是有label的，也有可能是没有label的，所以现在我们就有四种可能，所以之后我们会分这四类来讨论。

1.3.1 第一类迁移学习

我们先看下target data和source data都是有标签的情况。

这种情况下我们可以做什么事情呢，一件事情是模型的微调(Fine-tuning)，另一件事情是多任务学习(Multitask Learning)。

1) 模型微调

那现在我们假设target data跟source data都同时有label的情况下，可以的做的事情是：最常见的事情就是：fine-tuning你的model。

在现在的task里面，target data( $x^t,y^t$ )和source data( $x^s,y^s$ )都是有label的，但是我们通常是假设说：现在target data的数据量是非常少的(如果target data量是很多的话，你就当做一般的machine learning 来train你的model就好了，你也不需要做什么迁移学习)，source data是很多的。虽然source data跟我们现在考虑的task没有关系，但我们想知道说：在target data很少的情况下，有一大推不相关的source data到底有么有可能会有帮助。

如果你今天的target data的量很少，少到只有几个example而已，这个就叫做one-shot learning。这样的task的例子是：在语音上最典型的例子就是speaker adaption，target data是某一个人的声音，但是这个人的声音你不太有可能有太多的label data(可能对你的machine 说了三句话)，但是source data有一大堆的audio data，它是来自于不同人的。你当然不可能直接去用target data去train一个语音辨识系统，这样一定会坏掉的。所以你会希望说：这个有好几w小时的source data在这个task里面有什么帮助。

处理方式是非常直觉的，那你的source data直接去train一个model，然后接下来fine tune这个model通过target data。可能会遇到的challenge：source data非常的少，所以你在target data train出一个好的model，然后在source data上做train，可能就坏掉了。

这里面的问题是target data数据量很少，所以我们需要特殊的处理方法。一个比较常见的方法叫保守训练(conservative training)。

保守训练

有一个技巧叫做：conservative training，你现在有大量的source data，(比如说：在语音辨识里面就是很多不同speaker的声音)，那你拿来做neural network。target data是某个speaker的声音，如果你直接拿这些去train的话就坏掉了。你可以在training的时候加一些constraint(regularization)，让新的model跟旧的model不要差太多。你会希望新的model的output跟旧的model的output在看同一笔data的时候越接近越好。或者说新的model跟旧的model L2-Norm差距越小越好(防止overfitting的情形)

层迁移

另外的一个方法是layer transfer，你现在用source data train好了一个model，把这个model的某几个layer拿出来copy到新的model里面
。接下来用source data只去用没有copy的layer(可能你只保留一个layer没有copy)，这样的好处就是source data只需要考虑非常少的参数，这样就可以避免overfitting的情形。当然之后你的source data够多了，那之后可能还是要fine-tune整个model。

哪些layer应该被transfer，哪些layer不应该去transfer呢？有趣的是在不同的task上面需要被transfer的layer往往是不一样的。比如说在语音辨识上面，我们通常是copy the last few layers(最后几层)。同样的发音方式，因为口腔结果略有差异，得到的声音是不一样的。neural network前几层做的事情是从这个声音讯号里面得知现在说话人的发音方式，根据发音方式就可以得到说的词汇。所以从这个角度来看，从发音方式到辨识结果，也就是neural network后面几层是跟语者是每一关系的，所以它是可以被copy的。不一样的是从声音讯号到发音方式这一段可能每个人都是不一样的。

所以在做语音辨识的时候，常见的做法是把neural network的后几层是copy。但是在image的时候发现是不一样的，在image的时候是copy前面几层，只train最后几层。

在image的时候你会发现数说，当你source domain上learn了一network，你learn到CNN通常前几层做的就是deceide最简单的事情(比如前几层做的就是decide有么有直线，有么有简单的几何图形)。所以在image上面前几层learn的东西，它是可以被transfer到其他的task上面。而最后几层learn的东西往往是没有办法transfer到其他的东西上面去。所以在做影像处理的时候反而是会copy前面几层。

这是一个image在layer transfer上的实验，
120多wimage分成source跟target，分法是按照class来分的(500 class归为source data，500classes归为target data)。横轴的意思是：我们在做迁移学习的时候copy了几个layer(copy 0个layer，就是说完全没有做迁移学习)，纵轴时候top-1 accuracy，越高越好。

假设source跟target是没关系的，把这个Imagenet分为source data跟target data的时候，把自然界的东西通通当成source，target都是人造的东西，这样的迁移学习会有什么样的影响。如果source data跟target data是差很多的，那在做迁移学习的时候，你的性能会掉的非常多(如果只是copy前面几个layer的话，性能仍然跟没有跟copy是持平的)。这意味着说：即使source domain跟target domain是非常不一样的，在neural network的第一个layer，他们仍然做的事情仍然可能是一样的。绿色的这条线：假设我前面几个layer的参数random会坏掉了。

2) 多任务学习

接下来我们介绍下多任务学习(Multitask Learning)，多任务学习跟fine tuning不同是：在fine tuning里面我们care target domain做的好不好，那在多任务学习里面我们同时care target domain跟source domain做的好不好。

我们现在有多个不同的任务，我们希望机器能同时学会做好这几个不同的任务。

比如说你要训练某个人打篮球，同时要训练他唱、跳、Rap。

我们希望NN也能做到这件事情。

其实我们今天用deep learning base方法的话，它特别适合拿来做这种多任务学习，因为你可以说：假设有两个不同的task用的同样的feature(都做影像辨识)，我learn一个neural network，中间会分叉出来一部分network去处理taskA，一部分network去处理taskB。这么做的好处是：你的taskA跟taskB他们在前面几个layer会是共用的(有比较多的data，会有比较好的性能)。这样做的前提是：这两个task有没有共通性，是不是可以共用前面几个layer。

在这种神经网络的架构设计上可以是像上面这种。这里假设任务A和任务B可以共用同一组输入特征。就是这两个NN，它们前面几层是共用的，但是在某个隐藏层会产生两个分支，一条产生的是任务A的分支，另一条是任务B的。

那如果这两个任务的输入特征都不能共用呢，我们就可以采用上面的设计，在这两个NN中对不同的输入特征做一些转换，然后丢到共用的网络层中去，再从共用的层中分两个分支出来。

如果可以选择适当的不同的任务合在一起的话，是可以有帮助的。
什么样的任务可能有帮助呢，举例来说，现在在做语音识别的时候，我们不仅让机器学会某国语言的语音识别，我们让机器学会多国语言的。

多任务学习一个很成功的例子就是多语言的语音辨识，假设你现在手上有一大堆不同语言的data(法文，中文，英文等)，那你在train你的model的时候，同时可以辨识这五种不同的语言。这个model前面几个layer他们会共用参数，后面几个layer每一个语言可能会有自己的参数，这样做是合理的。虽然是不同的语言，但是都是人类所说的，所以前面几个layer它们可能是share同样的咨询，共用同样的参数。

此时，多任务学习就会有帮助。

还有一种是input没有办法确定，两个不同task的input都用不同的neural network把它transfer到同一个domain上去，在同一个domain上你在apply不同的neural network，一条路去做taskA，一条路去做taskB。如果在这样的task下你也迁移学习，就算tasKA跟taskB的input完全不一样，如果你觉得中间几个layer有共同的地方，你还是可以用这样的model架构来处理。

在translation你也可以拥同样的事情，假设你今天要做中翻英，也要做中翻日，你也把这两个model一起train。在一起train的时候无论是中翻英还是中翻日，你都要把中文的data先做process，那一部分neural network就可以是两种不同语言的data。

在过去收集了十几种语言，把它们两两之间互相做transfer，做了一个很大N*N的tabel，每一个task都有进步。所以目前发现大部分task，不同人类的语言就算你觉得它们不是非常像，但是它们之间都是可以transfer。

这边举得例子是从欧洲语言去transfer中文，横轴是中文的data，纵轴是character error rate。假设你一开始用中文train一个model，data很少，error rate很大，随着data越来越多，error rate就可以压到30以下。但是今天如果你有一大堆的欧洲语言，你把这些欧洲语言跟中文一起去做multitask train，用这个欧洲语言的data来帮助中文model前面几层让它train更好。你会发现说：在中文data很少的情况下，你有做迁移学习，你就可以得到比较好的性能。随着中文data越多的时候，中文本身性能越好，就算是中文100小时借用一些从欧洲语言对这个变化也是有微幅帮助的。所以这边的好处是说：假设你做多任务学习的时候，你会发现你有100多个小时跟有50小时以内，如果你有做迁移学习的话，你只需要1/2以下的data就可以跟有两倍的data做的一样好

这里是文献上的实验的例子，纵轴是错误率，横轴是中文语言识别训练的数据量。
从实验结果看到，如果仅让机器学中文的话，就是蓝色的线，它达到红线交点处的错误率需要的中文数据量会超过同时与欧洲语言一起学习的数据量。并且可以看到橙色的曲线是在蓝色曲线的下方，说明效果更加好。

渐进神经网络

常常有人会担心说：迁移学习会不会有负面的效应，这是会有可能，如果两个task不像的话，你的transfer 就是negative的。但是有人说：总是思考两个task到底之间能不能transfer，这样很浪费时间。所以就会有progressive neural networks。

progressive network neural其实是很新的做法(2016年的paper)。我先train一个task1，train好以后它的参数就fix住，那现在我们要做task2，但是task2它的每一个hidden layer都会去接前一个task1的某一个hidden layer的output。所以在train的时候好处就是：task1跟task2非常不像，首先task1的data不会去动到task2的model，所以task1一定不会比原来更差。task2去借用task1的参数，但是它可以把这些参数直接设为0，这样也不会影响task2的性能。task3也是做一样的事情，task3会同时从task1和task2的hidden layer得到information。

1.3.2 第二类迁移学习

上面介绍的都是source data和target data有标签的情况，那如果只是source data有标签，target data无标签呢。这种类型也有两种情况，第一种是领域对抗性训练(Domain Adversarial Training)，第二种是零次学习(Zero-shot Learning)。第二种情况是第二部分代码实现的内容。

1)领域对抗性训练(Domain Adversarial Training)

这种情况的前提是他们有相同的任务，在概念上你可以把有标签的source data当成训练数据，把无标签的target data当成测试数据，但是这样的效果肯定是很差的，因为它们的分布不同。

假设今天要做手写数字识别，你有有标签的MNIST的数据，但是你要识别的对象是无标签的来自MNIST-M的数据，在MNIST-M中的数字甚至是彩色的，它的数据样本分布和原来的MNIST分布不一样。

所以需要特别的处理。Domain-adversarial training就是干这件事的。Domain-adversarial training可以看成GAN的一种。它想要把source data和target data转换到同样的领域上，让它们有同样的分布。

如果我们没有对数据做任何处理，单纯的拿source data来训练一个分类器，它输入是一个图像，输出是该图形的类别。那今天得到的特征分布可能是下面这样子。

MNIST的数据它是蓝色的点，确实可以看到它们分成一群一群的，把几群数据的点拿出来看的话，得到的结果可能是左边的样子，能区分出4,0和1。但是把和MNIST分布不同的MNIST-M手写数字的图片丢到这个分类器中去，这些不一样的图片，它们的特征分布可能像红点一样。可以看到，红点和蓝点根本没有交集。
如果今天这个NN无法用同样的特征表示这两种数据，那么就会无法得到好的分类结果。

怎么办呢

我们希望在一个NN中，前面几个网络层做的事是特征抽取，如图1所示，也就是说，希望这个特征抽取器能把不同领域的source data和target data都转成同样的特征。

图1 Feature Extractor：特征提取器

也就是我们希望说，红点和蓝点的分布不是上面这样，而是像下面混合在一起。

那怎么让我们这个特征抽取器做到这件事情呢。

这里需要引入一个领域的分类器(domain classifier)，如图2所示，就像我们做GAN的时候引入的鉴别器。它也是一个神经网络。

图2 Domain Classifier领域的分类器

Domain-adversarial training可以看成GAN的一种。它想要把source data和target data转换到同样的领域上，让它们有同样的分布。

这个领域分类器的作用是，要侦测出现在特征抽取器输出的特征是属于哪个领域的(来自哪个分布的)。现在特征抽取器要做的事情是尽量骗过这个领域分类器，而后者是尽量防止被骗。

特征抽取器要做的是去除source 领域和target 领域不一样的地方，让提取出来的特征分布是很接近的，可以骗过领域分类器。

但是如果只有这两个神经网络是不够的。因为绿色的特征抽取器可以轻易的骗过红色的分类器，只要它不管输入是什么，只把所有的输出都变成0就可以了。

所以需要引入另外一个东西叫标签预测器(Label predictor)的东西。

图3 Label predictor：标签预测器

现在特征抽取器不仅要骗过分类器，还要让预测器尽量有准确的预测结果。这是一个很大的神经网络，但是这三个不同的部分有不同的目标。

预测器想要正确的分类输入的图片，分类器想要正确分别输入是来自哪个分布。它们都只能看到特征抽取器抽取后的特征。

抽取器一方面希望可以促使预测器做的好，另一方面要防止分类器做的好。

那么要怎么做呢？

一样用梯度下降来训练，红色的分类器部分要调整参数，去让分辨领域的结果越正确越好；蓝色的预测器需要调参数，让标签的预测正确率越高越好；如图4所示梯度反向传播过程。

这两者不一样的地方在于，当分类器要求绿色的抽取器去调整参数以满足以及的目标时，绿色的抽取器会尽量满足它的要求；还当红色的神经网络要求绿色的神经网络调整参数的时候，红色的网络会故意乘以− 1 -1−1，以防止分类器做的好。

最后红色的神经网路会无法做好分类，但是它必须要努力挣扎，它需要从绿色的NN给的不好的特征里面尽量去区分它们的领域。这样才能迫使绿色的NN产生红色的NN无法分辨的特征。难点就在于让红色的NN努力挣扎而不是很快放弃。

图4 Domain Adversarial Training梯度反向传播过程

2)零样本学习（Zero-shot Learning）

零样本学习(Zero-shot Learning)说的是source data和target data它们的任务都不相同。
在zero-shot learning里面，它的difine又更加严格一点。它的difine是：今天在source data和target data里面，它的task是不一样的。

比如说在影像上面(你可能要分辨猫跟狗)，你的source data可能有猫的class，也有狗的class。但是你的target data里面image是草泥马的样子，在source data里面是从来没有出现过草泥马的，如果machine看到草泥马，就未免有点强人所难了吧。但是这个task在语音上很早就有solution了，其实语音是常常会遇到zero-shot learning的问题。

target data中需要正确找出草泥马，但是source data中都没出现过草泥马，那要怎么做这件事情呢
我们先看下语音识别里面是怎么做的，语音识别一直都有训练数据(source data)和测试数据(target data)是不同任务的问题。很有可能在测试数据中出现的词汇，在训练数据中从来没有出现过。语音识别在处理这个问题的时候，做法是找出比词汇更小的单位。通常语音识别都是拿音位(phoneme，可以理解为音标)做为单位。

如果把词汇都转成音位，在识别的时候只去识别音位，然后再把音位转换为词汇的话就可以解决训练数据和测试数据不一样的问题。
假如我们把不同的word都当做一个class的话，那本来在training的时候跟testing的时候就有可能看到不同的词汇。你的testing data本来就有一些词汇是在training的时候是没有看过的。

在影像上我们可以把每一个class用它的attribute来表示，也就是说：你有一个database，这个database里面会有所以不同可能的class跟它的特性。假设你要辨识的是动物，但是你training data跟testing data他们的动物是不一样的。但是你有一个database，这个database告诉你说：每一种动物它是有什么样的特性。比如狗就是毛茸茸，四只脚，有尾巴；鱼是有尾巴但不是毛茸茸，没有脚。

这个attribute要更丰富，每一个class都要有不一样的attribute(如果两个class有相同的attribute的话，方法会fail)。那在training的时候，我们不直接辨识说：每一张image是属于哪一个class，而是去辨识说：每一张image里面它具备什么样的attribute。所以你的neural network target就是说：看到猩猩的图，就要说：这是一个毛茸茸的动物，没有四只脚，没有尾巴。看到狗的图就要说：这是毛茸茸的动物，有四只脚，有尾巴。

那在testing的时候，就算今天来了你从来没有见过的image，也是没有关系的。你今天neural network target也不是说：input image它是哪一种动物，而是input这一张image它是具有什么样的attribute。所以input你从来没有见过的动物，你只要把它的attribute长出来，然后你就查表看说：在database里面哪一种动物它的attribute跟你现在model output最接近。有时可能没有一摸一样的也是没有关系的，看谁最接近，那个动物就是你要找的。

那有时候你的attribute可能非常的复杂(attribute dimension非常大)，你可以做attribute embedding。也就是说现在有一个embedding space，把training data每一个image都通过一个transform，变成一个embedding space上的一个点。然后把所有的attribute也都变成embedding space上的一个点，这个 $g (*)$ 跟 $f (*)$ 都可能是neural network，那training的时候希望f跟g越接近越好。那在testing的时候如果有一张没有看过的image，你就可以说这张image attribute embedding以后跟哪个attribute最像，那你就可以知道它是什么样的image。

image跟attribute都可以描述为vector，要做的事情就是把attribute跟image都投影到同一个空间里面。也就是说：你可以想象成是对image的vector，也就是图中的x，跟attribute的vector，也就是图中的y都做降维，然后都降到同一个dimension。所以你把x通过一个function f都变成embedding space上的vector，把y通过另外一个function g也都变成embedding space上的vector。

但是咋样找这个f跟g呢？你可以说f跟g就是neural network。input一张image它变成一个vector，或者input attribute 变成一个vector。training target你希望说：假设我们已经知道 $y^1$ 是 $x^1$ 的attribute， $y^2$ 是 $x^2$ 的attribute，那你就希望说找到一个f跟g，它可以让 $x^1$ 跟 $y^1$ 投影到embedding space以后越接近越好， $x^2$ 跟 $y^2$ 投影到embedding space以后越接近越好。

那现在把f跟g找出来了，那现在假如有一张你从来没见过的image $x^3$ 在你的testing data里面，它也可以透过这个f变成embedding space上面的一个vector，接下来你就可以说这个embedding vector它跟 $y^3$ 最接近，那 $y^3$ 就是它的attribute

又是你会遇到一个问题，如果我没有database呢？我根本不知道每一个动物的attribute是什么，肿么办呢？那你可以借用word vector。我们知道word vector的每一个dimension就代表了现在word某种attribute。所以你不一定需要一个datbase去告诉你说：每一个动物的attribute是什么。假设你有一组word vector，这组word vector里面你知道每一个动物对应的word vector，那你可以把你的attribute直接换成word vector，再做跟刚才一样的embedding就结束了。

假设我们的train的query是要让 $x^n$ 通过f、跟 $y^n$ 通过g之后的距离越接近越好。这样子的话是有问题的，这样你的model只会learn到说：它把所有不同的x跟所有不同的y都投影同一个点，这样子距离最好。所以你的loss function这样定其实是不行的，所以你要稍微重新设计一下你的loss function。前面这个loss function只有考虑到 $x^n$ 跟 $y^n$ 越接近越好，但没有考虑
$x^n$ 跟另一个 $y^n$ ，它的距离应该被拉大。

max里面两个的element分别是0，k-f( $x^n$ )跟g( $y^n$ )的inner product，加上一个max(m不等于n)里面的f( $x^n$ )跟g( $y^m$ )的inner product。这个k是自己difine的margin(一个constant，在train的时候自己difine)

这个max的两个element一个是0，一个是max $f(x^n)*g(y^m)$ 。它会从0跟这个式子中选一个最大的，所以这一项的最小值就是0。什么时候会等于0呢？当你另外一项小于0的时候，这个loss就会是0。所以今天 $k-f(x^n)*g(y^n)$ 的inner product 加上 $max_{m\neq n}f(x^n)*g(y^m)$ 的inner product小于0的时候，这一项会是zero loss，整理一下得到下面的这个式子 $f(x^n)g(y^n)-max_{m\neq n}f(x^n)*g(y^m)$ 的inner product小于k的时候是zero loss。这一项也和解释为：当 $f(x^n)$ 跟 $g(y^n)$ 的inner product大于另外一项(y不是 $y^n$ 里面找一个m，这个 $y^m$ 跟 $x^n$ 是最接近的)

如果 $x^n$ 跟 $y^n$ 之间的inner product大过所有其它的 $y^m$ 跟 $x^n$ 之间的inner product，而且要大过一个margin k。

还有另外一个简单的Zero-Shot learning的方法叫做convex combination of semantic embedding。这个方法是说：我们也不要做什么learning，假设我们现在有一个语音辨识系统，有一个word vector，这两个是从网络上下载下来的，就可以做这件事情。

我把一张图丢到neural network里面去，它的output没有办法决定是哪一个class，但它觉得有0.5的几率是lion，有0.5的几率是tiger。接下来你在去找lion跟tiger的word vector，然后把lion跟tiger的word vector得到新的vector(用1:1的比例混合,0.5V(tiger)+0.5V(lion))，那你再看哪一个word的vector跟这个混合之后的结果最接近。假设是liger最接近，那这个东西就是liger(狮虎)

以下是这个的实验结果，也是蛮惊人的。我们来比一下人类跟机器的差别，第一张图，CNN判别说是sea lion(海狮)，DeViSE没有得到好的结果，ConSE判别为各种sea lion。

在training的时候，machine看过如何把英文翻译成韩文，知道咋样把韩文翻译为英文，知道咋样把英文翻译为日文，知道咋样把日文翻译为英文。但是它从来没有看过日文翻译韩文的data，但是可以翻，但是它从来没有看过韩文翻译日文的data，但是可以翻。

为什么zero-shot在这个task上是可行的呢？如果你今天用同一个model做了不同语言之间的translation以后，machine可以学到的事情是：对不同语言的input 句子都可以project到同一个space上面

我们现在根据我们learn好得translation，那个translation有一个encoder，它会把你input的句子变成vector，decoder根据这个vector解回一个句子，就是翻译的结果。那今天我们把不同语言都丢到这个encoder里面让它变成vector的话，那这些不同语言的不同句子在这个space上面有什么不一样的关系呢？

它发现说今天有日文、英文、韩文这三个句子，这三个句子讲的是同一件事情，通过encoder embedding以后再space上面其实是差不多的位置。在左边这个图上面不同的颜色代表说：不同语言的用一个意思。所以你这样说：machine发明了一个新语言也是可以接受的，如果你把这个embedding space当做一个新的语言的话。machine做的是：发现可一个sequence language，每一种不同的语言都先要先转成它知道的sequence language，在用这个sequence language转为另外一种语言。

所以今天就算是某一个翻译task ，你的input语言和output语言machine没有看过，它也可以透过这种自己学出来的sequence language来做translation。

一些paper给予参考。
More about Zero-shot learning

Mark Palatucci, Dean Pomerleau, Geoffrey E. Hinton, Tom M. Mitchell, “Zero-shot Learning with Semantic Output Codes”, NIPS 2009
Zeynep Akata, Florent Perronnin, Zaid Harchaoui and Cordelia Schmid, “Label-Embedding for Attribute-Based Classification”, CVPR 2013
Andrea Frome, Greg S. Corrado, Jon Shlens, Samy Bengio, Jeff Dean, Marc’Aurelio Ranzato, Tomas Mikolov, “DeViSE: A Deep Visual-Semantic Embedding Model”, NIPS 2013
Mohammad Norouzi, Tomas Mikolov, Samy Bengio, Yoram Singer, Jonathon Shlens, Andrea Frome, Greg S. Corrado, Jeffrey Dean, “Zero-Shot Learning by Convex Combination of Semantic Embeddings”, arXiv preprint 2013
Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko, “Captioning Images with Diverse Objects”, arXiv preprint 2016

1.3.3 第三类迁移学习

自我学习

自我学习(Self-taught learning)其实和半监督学习很像，都是有少量的有标签数据，和非常多的无标签数据。但是与半监督学习有个很大的不同是，有标签数据可能和无标签数据是没有关系的。

1.3.4 第四类迁移学习

自学成簇

如果target data和source data都是无标签的话，可以用Self-taught Clustering来做。
可以用无标签的source data，可以学出一个较好的特征表示，再用这个较好的特征表示用在聚类上，就可以得到较好的结果。

第二部分：领域对抗性训练(Domain Adversarial Training)代码实现

2.1 项目描述

本作业的任务是迁移学习中的领域对抗性训练(Domain Adversarial Training)。

也就是左下角的那一块。

Domain Adaptation是让模型可以在训练时只需要 A dataset label，不需要 B dataset label 的情况下提高 B dataset 的准确率。（A dataset & task 接近 B dataset & task）也就是给定真实图片 & 标签以及大量的手绘图片，请设计一种方法使得模型可以预测出手绘图片的标签是什么。

2.2 数据集介绍

这次的任务是源数据: 真实照片，目标数据: 手画涂鸦。
我们必须让model看过真实照片以及标签，尝试去预测手画涂鸦的标签为何。
资料位于’data/data58171/real_or_drawing.zip’

Training : 5000 张真实图片 + label, 32 x 32 RGB
Testing : 100000 张手绘图片，28 x 28 Gray Scale
Label: 总共需要预测 10 个 class。
资料下载下来是以 0 ~ 9 作为label
特别注意一点: 这次的源数据和目标数据的图片都是平衡的，你们可以使用这个资料做其他事情。

项目要求

禁止手动标记label或在网上寻找label
禁止使用pre-trained model

数据准备

项目传送门

3 代码实现

3.1 数据集查看

!unzip -d work data/data75815/real_or_drawing.zip # 解压缩real_or_drawing数据集

  inflating: work/real_or_drawing/test_data/0/44725.bmp  

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



  inflating: work/__MACOSX/real_or_drawing/test_data/0/._06044.bmp

# 导入相关库
import os
import cv2
import paddle
import numpy as np
from PIL import Image
import paddle.nn as nn
import matplotlib.pyplot as plt

展示一下训练集


def no_axis_show(img, title='', cmap=None):
  # imshow, 縮放模式為nearest。
  fig = plt.imshow(img, interpolation='nearest', cmap=cmap)
  # 不要显示axis
  fig.axes.get_xaxis().set_visible(False)
  fig.axes.get_yaxis().set_visible(False)
  plt.title(title)


#标签映射
titles = ['horse', 'bed', 'clock', 'apple', 'cat', 'plane', 'television', 'dog', 'dolphin', 'spider']
plt.figure(figsize=(18, 18))
for i in range(10):
  plt.subplot(1, 10, i+1)
  fig = no_axis_show(plt.imread(f'work/real_or_drawing/train_data/{i}/{500*i}.bmp'), title=titles[i])
#  work/real_or_drawing/train_data/1/566.bmp

展示一下测试集

plt.figure(figsize=(18, 18))
for i in range(10):
    plt.subplot(1, 10, i + 1)
    fig = no_axis_show(plt.imread(f'work/real_or_drawing/test_data/0/0000{i}.bmp'), title='none')

3 Special Domain Knowledge

3.2 Special Domain Knowledge

预处理source data

因为大家涂鸦的时候通常只会画轮廓，我们可以根据这点将source data做点边缘侦测处理，让source data更像target data一点。
Canny Edge Detection
算法这边不赘述，只教大家怎么用。若有兴趣欢迎参考wiki或这里。
cv2.Canny使用非常方便，只需要两个参数: low_threshold, high_threshold。

cv2.Canny(image, low_threshold, high_threshold)

简单来说就是当边缘值超过high_threshold，我们就确定它是edge。如果只有超过low_threshold，那就先判断一下再决定是不是edge。

以下我们直接拿source data做做看。

titles = ['horse', 'bed', 'clock', 'apple', 'cat', 'plane', 'television', 'dog', 'dolphin', 'spider']
plt.figure(figsize=(18, 18))

original_img = plt.imread(f'work/real_or_drawing/train_data/0/464.bmp')
plt.subplot(1, 5, 1)
no_axis_show(original_img, title='original')

gray_img = cv2.cvtColor(original_img, cv2.COLOR_RGB2GRAY)
plt.subplot(1, 5, 2)
no_axis_show(gray_img, title='gray scale', cmap='gray')


canny_50100 = cv2.Canny(gray_img, 50, 100)
plt.subplot(1, 5, 3)
no_axis_show(canny_50100, title='Canny(50, 100)', cmap='gray')

canny_150200 = cv2.Canny(gray_img, 150, 200)
plt.subplot(1, 5, 4)
no_axis_show(canny_150200, title='Canny(150, 200)', cmap='gray')

canny_250300 = cv2.Canny(gray_img, 250, 300)
plt.subplot(1, 5, 5)
no_axis_show(canny_250300, title='Canny(250, 300)', cmap='gray')

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/numpy/lib/type_check.py:546: DeprecationWarning: np.asscalar(a) is deprecated since NumPy v1.16, use a.item() instead
  'a.item() instead', DeprecationWarning, stacklevel=1)

3.4 Data Process

在这里因为train_data的格式已经标注好每种图片，可以直接使用paddle.vision.datasets.DatasetFolder。所以只要使用这个API便可以做出一个datasets。在这里要是说明的是用DataFolder读取的时候有两个存放位置，这两个位置分别存放图片和标签。

此外还有数据预处理部分见下面代码：

3.4.1 数据预处理

import paddle.vision.transforms as T
from paddle.vision.datasets import DatasetFolder,ImageFolder

# 训练集预处理
def source_transform(imge):
    # 转灰色: Canny 不吃 RGB。
    img = T.to_grayscale(imge)
    # cv2 不吃 skimage.Image，因此转成np.array后再做cv2.Canny
    img = cv2.Canny(np.array(img), 170, 300)
    # 重新np.array 转回 skimage.Image
    img = Image.fromarray(np.array(img))
    # 随机水平翻转 (Augmentation)
    RHF= T.RandomHorizontalFlip(0.5)
    img = RHF(img)
    # 旋转15度内 (Augmentation)，旋转后空的地方补0
    RR = T.RandomRotation(15, fill=(0,))
    img = RR(img)
    # 最后Tensor供model使用。
    tensor = T.ToTensor()

    return tensor(img)

# 测试集预处理
target_transform = T.Compose([
    # 转灰阶:
   T.Grayscale(),
    # 缩放: 因为source data是32x32，我们把target data的28x28放大成32x32。
    T.Resize((32, 32)),
    # 随机水平翻转(Augmentation)
    T.RandomHorizontalFlip(0.5),
    # 旋转15度内 (Augmentation)，旋转后空的地方补0
    T.RandomRotation(15, fill=(0,)),
    # 最后Tensor供model使用。
    T.ToTensor(),
])

#调用一下数据预处理函数
original_img = Image.open(f'work/real_or_drawing/train_data/0/464.bmp')
print('原来的照片形状：',np.array(original_img).shape)

process = source_transform(original_img)
print('预处理后的照片形状：',process .shape)
print(process)

plt.subplot(1,2,1)
no_axis_show(process .numpy().squeeze(), title='process image',cmap='gray')

plt.subplot(1,2,2)
no_axis_show(original_img, title='origimal image', cmap='gray')

原来的照片形状： (32, 32, 3)
预处理后的照片形状： [1, 32, 32]
Tensor(shape=[1, 32, 32], dtype=float32, place=CUDAPlace(0), stop_gradient=True,
       [[[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]]])

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/cbook/__init__.py:2349: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working
  if isinstance(obj, collections.Iterator):
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/cbook/__init__.py:2366: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated, and in 3.8 it will stop working
  return list(data) if isinstance(data, collections.MappingView) else data
/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/numpy/lib/type_check.py:546: DeprecationWarning: np.asscalar(a) is deprecated since NumPy v1.16, use a.item() instead
  'a.item() instead', DeprecationWarning, stacklevel=1)

3.4.2 数据加载器定义

# 生成数据集
source_dataset = DatasetFolder('work/real_or_drawing/train_data', transform=source_transform) # DatasetFolder 用于读取训练集，读取的时候图片和标签
target_dataset = DatasetFolder('work/real_or_drawing/test_data', transform=target_transform) # ImageFolder 用于读取测试集，读取的时候只有图片

# 数据加载器定义
source_dataloader = paddle.io.DataLoader(source_dataset, batch_size=50, shuffle=True)
target_dataloader = paddle.io.DataLoader(target_dataset, batch_size=50, shuffle=True)
test_dataloader = paddle.io.DataLoader(target_dataset, batch_size=100, shuffle=False)

%matplotlib inline
# 展示生成并经过预处理的的source_dataset和source_loader
print('=============source_dataset=============')
#由于使用了DatasetFolder，训练集这里有图片和标签两个参数image,label
for image, label in source_dataset:      
    print('image shape: {}, label: {}'.format(image.shape,label))
    print('训练集数量:',len(source_dataset))
    print('图片：',image)
    print('标签：',label)
    plt.imshow(image.numpy().squeeze(),cmap='gray')
    break

=============source_dataset=============
image shape: [1, 32, 32], label: 0
训练集数量: 5000
图片： Tensor(shape=[1, 32, 32], dtype=float32, place=CUDAPlace(0), stop_gradient=True,
       [[[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]]])
标签： 0

#source_loader的信息    
print('=============source_dataloader=============')
for batch_id, (data,label) in enumerate(source_dataloader):
    print('一个batch的图片：',data.shape)    # 索引[0]存放图片
    print('一个batch的标签个数：',label.shape)   #索引[1]存放标签
    print('图片：',data[0].shape) 
    break

# no_axis_show(x_data.numpy().squeeze(),title='process image', cmap='gray')

=============source_dataloader=============
一个batch的图片： [50, 1, 32, 32]
一个batch的标签个数： [50]
图片： [1, 32, 32]

# 展示生成并经过预处理的target_dataset和target_dataloader
print('=============target_dataset=============')

for image_,_ in target_dataset:
    print('image shape: {}'.format(image_.shape))
    print('测试集数量:',len(target_dataset))
    plt.imshow(image_.numpy().squeeze(),cmap='gray')
    print('图片：',image_)
    break

=============target_dataset=============
image shape: [1, 32, 32]
测试集数量: 100000
图片： Tensor(shape=[1, 32, 32], dtype=float32, place=CUDAPlace(0), stop_gradient=True,
       [[[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]]])

#target_dataloader的信息    
print('=============target_dataloader=============')
for batch_id, (data_1,label_1) in enumerate(target_dataloader):
    # print('一个batch的图片：',data[0].shape)
    print('一个batch的图片：',data_1.shape)
    print('一张图片的形状：',data_1[0].shape) 
    print(label_1)

    break

=============target_dataloader=============
一个batch的图片： [50, 1, 32, 32]
一张图片的形状： [1, 32, 32]
Tensor(shape=[50], dtype=int64, place=CUDAPinnedPlace, stop_gradient=True,
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

3.5 搭建三个模型

这里的原理参考本文的1.3.2 第二类迁移学习的领域对抗性训练(Domain Adversarial Training)。

Feature Extractor: 典型的VGG-like叠法。
Label Predictor ：MLP到尾
Domain Classifier: MLP到尾。

图1 Feature Extractor：特征提取器

那怎么让我们这个特征抽取器做到这件事情呢。
这里需要引入一个领域的分类器(domain classifier)，如图2所示，就像我们做GAN的时候引入的鉴别器。它也是一个神经网络。

图2 Domain Classifier领域的分类器

Domain-adversarial training可以看成GAN的一种。它想要把source data和target data转换到同样的领域上，让它们有同样的分布。

特征抽取器要做的是去除source 领域和target 领域不一样的地方，让提取出来的特征分布是很接近的，可以骗过领域分类器。

所以需要引入另外一个东西叫标签预测器(Label predictor)的东西。

图3 Label predictor：标签预测器

现在特征抽取器不仅要骗过分类器，还要让预测器尽量有准确的预测结果。这是一个很大的神经网络，但是这三个不同的部分有不同的目标。

预测器想要正确的分类输入的图片，分类器想要正确分别输入是来自哪个分布。它们都只能看到特征抽取器抽取后的特征。

抽取器一方面希望可以促使预测器做的好，另一方面要防止分类器做的好。

那么要怎么做呢？详见下面的模型训练部分。

3.5.1 搭建模型

class FeatureExtractor(nn.Layer):
    '''
    从图片中抽取特征
    input [batch_size ,1,32,32]
    output [batch_size ,512]
    '''

    def __init__(self):
        super(FeatureExtractor, self).__init__()

        self.conv = nn.Sequential(                               
            nn.Conv2D(in_channels=1, out_channels=64, kernel_size=3, padding=1,  stride=1),  # [batch_size ,64,32,32] (32-3+2*1)/1 + 1
            nn.BatchNorm2D(64),
            nn.ReLU(),
            nn.MaxPool2D(kernel_size=2),  # [batch_size ,64,16,16]

            nn.Conv2D(64, 128, 3, 1, 1),  # [batch_size ,128,16,16]
            nn.BatchNorm2D(128),
            nn.ReLU(),
            nn.MaxPool2D(2),  # [batch_size ,128,8,8]

            nn.Conv2D(128, 256, 3, 1, 1),  # [batch_size ,256,8,8]
            nn.BatchNorm2D(256),
            nn.ReLU(),
            nn.MaxPool2D(2),  # [batch_size ,256,4,4]

            nn.Conv2D(256, 256, 3, 1, 1),  # [batch_size ,256,4,4]
            nn.BatchNorm2D(256),
            nn.ReLU(),
            nn.MaxPool2D(2),  # [batch_size ,256,2,2]

            nn.Conv2D(256, 512, 3, 1, 1),  # [batch_size ,512,2,2]
            nn.BatchNorm2D(512),
            nn.ReLU(),
            nn.MaxPool2D(2),  # [batch_size ,512,1,1]
            nn.Flatten()      # [batch_size ,512]
        )

    def forward(self, x):
        x = self.conv(x) # [batch_size ,256]
        return x

class LabelPredictor(nn.Layer):
    '''
    预测图像是什么动物
    '''
    def __init__(self):
        super(LabelPredictor, self).__init__()

        self.layer = nn.Sequential(
            nn.Linear(512, 512),
            nn.ReLU(),

            nn.Linear(512,512),
            nn.ReLU(),

            nn.Linear(512, 10),
        )

    def forward(self, h):
        c = self.layer(h)
        return c

class DomainClassifier(nn.Layer):
    '''预测时手绘还是真实图片'''
    def __init__(self):
        super(DomainClassifier, self).__init__()

        self.layer = nn.Sequential(
            nn.Linear(512, 512),
            nn.BatchNorm1D(512),
            nn.ReLU(),

            nn.Linear(512, 512),
            nn.BatchNorm1D(512),
            nn.ReLU(),

            nn.Linear(512, 512),
            nn.BatchNorm1D(512),
            nn.ReLU(),

            nn.Linear(512, 512),
            nn.BatchNorm1D(512),
            nn.ReLU(),

            nn.Linear(512, 1),
        )

    def forward(self, h):
        y = self.layer(h)
        return y

3.5.2 模型配置

import paddle.optimizer as optim
# 模型实例化
feature_extractor = FeatureExtractor()
label_predictor = LabelPredictor()
domain_classifier = DomainClassifier()
class_criterion = nn.CrossEntropyLoss()
domain_criterion = nn.BCEWithLogitsLoss()
# 定义优化器
optimizer_F = optim.Adam(learning_rate=0.0001, parameters=feature_extractor.parameters())
optimizer_C = optim.Adam(learning_rate=0.0001, parameters=label_predictor.parameters())
optimizer_D = optim.Adam(learning_rate=0.0001, parameters=domain_classifier.parameters())

3.5.3 开始训练

用梯度下降来训练，红色的分类器部分要调整参数，去让分辨领域的结果越正确越好；蓝色的预测器需要调参数，让标签的预测正确率越高越好；

这两者不一样的地方在于，当分类器要求绿色的抽取器去调整参数以满足以及的目标时，绿色的抽取器会尽量满足它的要求；还当红色的神经网络要求绿色的神经网络调整参数的时候，红色的网络会故意乘以-1，以防止分类器做的好。

# 定义训练函数
import paddle
def train_epoch(source_dataloader, target_dataloader, lamb):
    '''
      Args:
        source_dataloader: source data的dataloader
        target_dataloader: target data的dataloader
        lamb: 调控adversarial的loss系数。
    '''
    running_D_loss, running_F_loss = 0.0, 0.0
    total_hit, total_num = 0.0, 0.0

    for i, ((source_data, source_label), (target_data,_)) in enumerate(zip(source_dataloader, target_dataloader)):
        mixed_data = paddle.concat([source_data, target_data], axis=0)
        domain_label = paddle.zeros([source_data.shape[0] + target_data.shape[0], 1]).cuda()
        # 设定source data的label为1
        domain_label[:source_data.shape[0]] = 1

        # Step 1 : 训练Domain Classifier
        feature = feature_extractor(mixed_data)
        # 因为我们在Step 1不需要训练Feature Extractor，所以把feature detach
        #这样可以把特征抽取过程的函数从当前计算图分离，避免loss backprop传递过去。
        domain_logits = domain_classifier(feature.detach())
        loss = domain_criterion(domain_logits, domain_label)
        running_D_loss += loss.numpy().tolist()[0]
        loss.backward()
        optimizer_D.step()

        # Step 2 : 训练Feature Extractor和Domain Classifier
        class_logits = label_predictor(feature[:source_data.shape[0]])
        domain_logits = domain_classifier(feature)
        # loss为原本的class CE - lamb * domain BCE，相減的原因是我们希望特征能够使得domain_classifier分不出来输入的图片属于哪个领域
        loss = class_criterion(class_logits, source_label) - lamb * domain_criterion(domain_logits, domain_label)
        running_F_loss += loss.numpy().tolist()[0]
        loss.backward()
        optimizer_F.step()
        optimizer_C.step()
        #训练了一轮，清空所有梯度信息
        optimizer_D.clear_grad()
        optimizer_F.clear_grad()
        optimizer_C.clear_grad()
        # return class_logits,source_label  #测试
        bool_eq = paddle.argmax(class_logits, axis=1) == source_label.squeeze()
        total_hit += np.sum(bool_eq.numpy()!=0)
        total_num += source_data.shape[0]
        print(i, end='\r')

    return running_D_loss / (i+1), running_F_loss / (i+1), total_hit / total_num

# 训练250 epochs
train_D_loss_history,train_F_loss_history,train_acc_history = [], [], []
for epoch in range(250):
    train_D_loss, train_F_loss, train_acc = train_epoch(source_dataloader, target_dataloader, lamb=0.1)

    train_D_loss_history.append(train_D_loss)
    train_F_loss_history.append(train_F_loss)
    train_acc_history.append(train_acc)

    
    epoch = epoch + 1
    if epoch % 50 == 0:
        paddle.save(feature_extractor.state_dict(), "ckp/{}ckp_feature_extractor.pdparams".format(str(epoch)))
        paddle.save(label_predictor.state_dict(), "ckp/{}ckp_label_predictor.pdparams".format(str(epoch)))

    print('epoch {:>3d}: train D loss: {:6.4f}, train F loss: {:6.4f}, acc {:6.4f}'.format(epoch, train_D_loss,
                                                                                           train_F_loss, train_acc))

/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/nn/layer/norm.py:648: UserWarning: When training, we now always track global mean and variance.
  "When training, we now always track global mean and variance.")


4
epoch   1: train D loss: 0.0602, train F loss: 1.9422, acc 0.3076
epoch   2: train D loss: 0.0049, train F loss: 1.6367, acc 0.4228
epoch   3: train D loss: 0.0018, train F loss: 1.5082, acc 0.4792
epoch   4: train D loss: 0.0014, train F loss: 1.4486, acc 0.4972
epoch   5: train D loss: 0.0008, train F loss: 1.3823, acc 0.5112
epoch   6: train D loss: 0.0009, train F loss: 1.3342, acc 0.5418
epoch   7: train D loss: 0.0032, train F loss: 1.3113, acc 0.5424
epoch   8: train D loss: 0.0009, train F loss: 1.2453, acc 0.5628
epoch   9: train D loss: 0.0005, train F loss: 1.2192, acc 0.5810
epoch  10: train D loss: 0.0015, train F loss: 1.1950, acc 0.5864
epoch  11: train D loss: 0.0006, train F loss: 1.1552, acc 0.5998
epoch  12: train D loss: 0.0008, train F loss: 1.1179, acc 0.6072
epoch  13: train D loss: 0.0007, train F loss: 1.1018, acc 0.6216
epoch  14: train D loss: 0.0015, train F loss: 1.0852, acc 0.6246
epoch  15: train D loss: 0.0021, train F loss: 1.0540, acc 0.6296
epoch  16: train D loss: 0.0010, train F loss: 1.0261, acc 0.6388
epoch  17: train D loss: 0.0003, train F loss: 1.0171, acc 0.6492
epoch  18: train D loss: 0.0015, train F loss: 0.9744, acc 0.6632
epoch  19: train D loss: 0.0014, train F loss: 0.9480, acc 0.6722
epoch  20: train D loss: 0.0014, train F loss: 0.9167, acc 0.6800
epoch  21: train D loss: 0.0002, train F loss: 0.8936, acc 0.6908
epoch  22: train D loss: 0.0009, train F loss: 0.8802, acc 0.6982
epoch  23: train D loss: 0.0019, train F loss: 0.8519, acc 0.7062
epoch  24: train D loss: 0.0010, train F loss: 0.8368, acc 0.7070
epoch  25: train D loss: 0.0005, train F loss: 0.7954, acc 0.7202
epoch  26: train D loss: 0.0003, train F loss: 0.7908, acc 0.7262
epoch  27: train D loss: 0.0010, train F loss: 0.7365, acc 0.7450
epoch  28: train D loss: 0.0016, train F loss: 0.7246, acc 0.7532
epoch  29: train D loss: 0.0008, train F loss: 0.7114, acc 0.7592
epoch  30: train D loss: 0.0007, train F loss: 0.6864, acc 0.7604
epoch  31: train D loss: 0.0006, train F loss: 0.6516, acc 0.7696
epoch  32: train D loss: 0.0010, train F loss: 0.6332, acc 0.7822
epoch  33: train D loss: 0.0001, train F loss: 0.6057, acc 0.7950
epoch  34: train D loss: 0.0005, train F loss: 0.6050, acc 0.7884
epoch  35: train D loss: 0.0006, train F loss: 0.5850, acc 0.7950
epoch  36: train D loss: 0.0016, train F loss: 0.5416, acc 0.8152
epoch  37: train D loss: 0.0017, train F loss: 0.5277, acc 0.8166
epoch  38: train D loss: 0.0006, train F loss: 0.5302, acc 0.8254
epoch  39: train D loss: 0.0013, train F loss: 0.5254, acc 0.8146
epoch  40: train D loss: 0.0004, train F loss: 0.4854, acc 0.8320
epoch  41: train D loss: 0.0013, train F loss: 0.4715, acc 0.8376
epoch  42: train D loss: 0.0014, train F loss: 0.4278, acc 0.8530
epoch  43: train D loss: 0.0002, train F loss: 0.4356, acc 0.8448
epoch  44: train D loss: 0.0001, train F loss: 0.4458, acc 0.8458
epoch  45: train D loss: 0.0044, train F loss: 0.4122, acc 0.8602
epoch  46: train D loss: 0.0014, train F loss: 0.3909, acc 0.8664
epoch  47: train D loss: 0.0013, train F loss: 0.3957, acc 0.8624
epoch  48: train D loss: 0.0008, train F loss: 0.3608, acc 0.8742
epoch  49: train D loss: 0.0010, train F loss: 0.3660, acc 0.8786
epoch  50: train D loss: 0.0007, train F loss: 0.3325, acc 0.8882
epoch  51: train D loss: 0.0019, train F loss: 0.3478, acc 0.8778
epoch  52: train D loss: 0.0009, train F loss: 0.3341, acc 0.8852
epoch  53: train D loss: 0.0006, train F loss: 0.3039, acc 0.9010
epoch  54: train D loss: 0.0012, train F loss: 0.2959, acc 0.9008
epoch  55: train D loss: 0.0002, train F loss: 0.2983, acc 0.8950
epoch  56: train D loss: 0.0005, train F loss: 0.2971, acc 0.8996
epoch  57: train D loss: 0.0009, train F loss: 0.2892, acc 0.8990
epoch  58: train D loss: 0.0023, train F loss: 0.2761, acc 0.9054
epoch  59: train D loss: 0.0004, train F loss: 0.2786, acc 0.9032
epoch  60: train D loss: 0.0019, train F loss: 0.2656, acc 0.9116
epoch  61: train D loss: 0.0003, train F loss: 0.2362, acc 0.9194
epoch  62: train D loss: 0.0010, train F loss: 0.2206, acc 0.9254
epoch  63: train D loss: 0.0003, train F loss: 0.2259, acc 0.9220
epoch  64: train D loss: 0.0017, train F loss: 0.2328, acc 0.9194
epoch  65: train D loss: 0.0013, train F loss: 0.2261, acc 0.9250
epoch  66: train D loss: 0.0012, train F loss: 0.2230, acc 0.9204
epoch  67: train D loss: 0.0008, train F loss: 0.2319, acc 0.9186
epoch  68: train D loss: 0.0006, train F loss: 0.2173, acc 0.9234
epoch  69: train D loss: 0.0012, train F loss: 0.1922, acc 0.9350
epoch  70: train D loss: 0.0009, train F loss: 0.2050, acc 0.9314
epoch  71: train D loss: 0.0007, train F loss: 0.2082, acc 0.9268
epoch  72: train D loss: 0.0020, train F loss: 0.2050, acc 0.9282
epoch  73: train D loss: 0.0004, train F loss: 0.1977, acc 0.9336
epoch  74: train D loss: 0.0011, train F loss: 0.1825, acc 0.9380
epoch  75: train D loss: 0.0009, train F loss: 0.1944, acc 0.9318
epoch  76: train D loss: 0.0005, train F loss: 0.1531, acc 0.9476
epoch  77: train D loss: 0.0020, train F loss: 0.1747, acc 0.9394
epoch  78: train D loss: 0.0011, train F loss: 0.1770, acc 0.9414
epoch  79: train D loss: 0.0013, train F loss: 0.1659, acc 0.9450
epoch  80: train D loss: 0.0005, train F loss: 0.1398, acc 0.9564
epoch  81: train D loss: 0.0016, train F loss: 0.1518, acc 0.9490
epoch  82: train D loss: 0.0009, train F loss: 0.1757, acc 0.9430
epoch  83: train D loss: 0.0008, train F loss: 0.1563, acc 0.9474
epoch  84: train D loss: 0.0013, train F loss: 0.1456, acc 0.9500
epoch  85: train D loss: 0.0009, train F loss: 0.1638, acc 0.9440
epoch  86: train D loss: 0.0009, train F loss: 0.1440, acc 0.9500
epoch  87: train D loss: 0.0019, train F loss: 0.1669, acc 0.9442
epoch  88: train D loss: 0.0015, train F loss: 0.1476, acc 0.9466
epoch  89: train D loss: 0.0010, train F loss: 0.1321, acc 0.9544
epoch  90: train D loss: 0.0004, train F loss: 0.1200, acc 0.9604
epoch  91: train D loss: 0.0002, train F loss: 0.1213, acc 0.9564
epoch  92: train D loss: 0.0023, train F loss: 0.1255, acc 0.9574
epoch  93: train D loss: 0.0019, train F loss: 0.1385, acc 0.9538
epoch  94: train D loss: 0.0012, train F loss: 0.1302, acc 0.9568
epoch  95: train D loss: 0.0003, train F loss: 0.1298, acc 0.9564
epoch  96: train D loss: 0.0006, train F loss: 0.1399, acc 0.9510
epoch  97: train D loss: 0.0012, train F loss: 0.1222, acc 0.9584
epoch  98: train D loss: 0.0004, train F loss: 0.1152, acc 0.9606
epoch  99: train D loss: 0.0013, train F loss: 0.1205, acc 0.9576
epoch 100: train D loss: 0.0007, train F loss: 0.1330, acc 0.9540
epoch 101: train D loss: 0.0009, train F loss: 0.1182, acc 0.9584
epoch 102: train D loss: 0.0004, train F loss: 0.1220, acc 0.9576
epoch 103: train D loss: 0.0018, train F loss: 0.1200, acc 0.9586
epoch 104: train D loss: 0.0020, train F loss: 0.1315, acc 0.9568
epoch 105: train D loss: 0.0015, train F loss: 0.1316, acc 0.9580
epoch 106: train D loss: 0.0017, train F loss: 0.0903, acc 0.9704
epoch 107: train D loss: 0.0012, train F loss: 0.1014, acc 0.9672
epoch 108: train D loss: 0.0014, train F loss: 0.1124, acc 0.9618
epoch 109: train D loss: 0.0004, train F loss: 0.1216, acc 0.9578
epoch 110: train D loss: 0.0004, train F loss: 0.1092, acc 0.9602
epoch 111: train D loss: 0.0008, train F loss: 0.1045, acc 0.9638
epoch 112: train D loss: 0.0012, train F loss: 0.0952, acc 0.9666
epoch 113: train D loss: 0.0005, train F loss: 0.0881, acc 0.9676
epoch 114: train D loss: 0.0002, train F loss: 0.0974, acc 0.9648
epoch 115: train D loss: 0.0008, train F loss: 0.0987, acc 0.9690
epoch 116: train D loss: 0.0011, train F loss: 0.0947, acc 0.9690
epoch 117: train D loss: 0.0016, train F loss: 0.1037, acc 0.9646
epoch 118: train D loss: 0.0011, train F loss: 0.0996, acc 0.9660
epoch 119: train D loss: 0.0014, train F loss: 0.1144, acc 0.9586
epoch 120: train D loss: 0.0025, train F loss: 0.1095, acc 0.9632
epoch 121: train D loss: 0.0007, train F loss: 0.1155, acc 0.9602
epoch 122: train D loss: 0.0009, train F loss: 0.0962, acc 0.9686
epoch 123: train D loss: 0.0007, train F loss: 0.0937, acc 0.9672
epoch 124: train D loss: 0.0005, train F loss: 0.0772, acc 0.9730
epoch 125: train D loss: 0.0007, train F loss: 0.0894, acc 0.9678
epoch 126: train D loss: 0.0006, train F loss: 0.1166, acc 0.9566
epoch 127: train D loss: 0.0018, train F loss: 0.0985, acc 0.9666
epoch 128: train D loss: 0.0006, train F loss: 0.0839, acc 0.9728
epoch 129: train D loss: 0.0006, train F loss: 0.0820, acc 0.9704
epoch 130: train D loss: 0.0007, train F loss: 0.0876, acc 0.9700
epoch 131: train D loss: 0.0018, train F loss: 0.1065, acc 0.9636
epoch 132: train D loss: 0.0004, train F loss: 0.0819, acc 0.9738
epoch 133: train D loss: 0.0019, train F loss: 0.0799, acc 0.9724
epoch 134: train D loss: 0.0004, train F loss: 0.0859, acc 0.9702
epoch 135: train D loss: 0.0010, train F loss: 0.0867, acc 0.9698
epoch 136: train D loss: 0.0016, train F loss: 0.0910, acc 0.9704
epoch 137: train D loss: 0.0002, train F loss: 0.1005, acc 0.9642
epoch 138: train D loss: 0.0007, train F loss: 0.0727, acc 0.9736
epoch 139: train D loss: 0.0009, train F loss: 0.0823, acc 0.9704
epoch 140: train D loss: 0.0015, train F loss: 0.0944, acc 0.9676
epoch 141: train D loss: 0.0003, train F loss: 0.0759, acc 0.9738
epoch 142: train D loss: 0.0001, train F loss: 0.0743, acc 0.9732
epoch 143: train D loss: 0.0015, train F loss: 0.0741, acc 0.9744
epoch 144: train D loss: 0.0002, train F loss: 0.0868, acc 0.9656
epoch 145: train D loss: 0.0006, train F loss: 0.0825, acc 0.9712
epoch 146: train D loss: 0.0018, train F loss: 0.0748, acc 0.9764
epoch 147: train D loss: 0.0006, train F loss: 0.0870, acc 0.9698
epoch 148: train D loss: 0.0002, train F loss: 0.0735, acc 0.9728
epoch 149: train D loss: 0.0011, train F loss: 0.0853, acc 0.9692
epoch 150: train D loss: 0.0003, train F loss: 0.0852, acc 0.9704
epoch 151: train D loss: 0.0001, train F loss: 0.0686, acc 0.9764
epoch 152: train D loss: 0.0001, train F loss: 0.0560, acc 0.9808
epoch 153: train D loss: 0.0005, train F loss: 0.0799, acc 0.9714
epoch 154: train D loss: 0.0005, train F loss: 0.0861, acc 0.9690
epoch 155: train D loss: 0.0009, train F loss: 0.0749, acc 0.9724
epoch 156: train D loss: 0.0001, train F loss: 0.0599, acc 0.9798
epoch 157: train D loss: 0.0004, train F loss: 0.0757, acc 0.9756
epoch 158: train D loss: 0.0003, train F loss: 0.0875, acc 0.9712
epoch 159: train D loss: 0.0000, train F loss: 0.0642, acc 0.9806
epoch 160: train D loss: 0.0005, train F loss: 0.0608, acc 0.9784
epoch 161: train D loss: 0.0011, train F loss: 0.0721, acc 0.9734
epoch 162: train D loss: 0.0006, train F loss: 0.0801, acc 0.9738
epoch 163: train D loss: 0.0006, train F loss: 0.0742, acc 0.9742
epoch 164: train D loss: 0.0009, train F loss: 0.0618, acc 0.9798
epoch 165: train D loss: 0.0017, train F loss: 0.0726, acc 0.9758
epoch 166: train D loss: 0.0003, train F loss: 0.0716, acc 0.9760
epoch 167: train D loss: 0.0013, train F loss: 0.0640, acc 0.9780
epoch 168: train D loss: 0.0002, train F loss: 0.0503, acc 0.9816
epoch 169: train D loss: 0.0010, train F loss: 0.0575, acc 0.9812
epoch 170: train D loss: 0.0001, train F loss: 0.0796, acc 0.9744
epoch 171: train D loss: 0.0004, train F loss: 0.0678, acc 0.9768
epoch 172: train D loss: 0.0004, train F loss: 0.0745, acc 0.9744
epoch 173: train D loss: 0.0014, train F loss: 0.0636, acc 0.9782
epoch 174: train D loss: 0.0009, train F loss: 0.0678, acc 0.9756
epoch 175: train D loss: 0.0001, train F loss: 0.0729, acc 0.9726
epoch 176: train D loss: 0.0003, train F loss: 0.0516, acc 0.9810
epoch 177: train D loss: 0.0021, train F loss: 0.0553, acc 0.9790
epoch 178: train D loss: 0.0010, train F loss: 0.0585, acc 0.9768
epoch 179: train D loss: 0.0007, train F loss: 0.0653, acc 0.9778
epoch 180: train D loss: 0.0008, train F loss: 0.0620, acc 0.9810
epoch 181: train D loss: 0.0007, train F loss: 0.0640, acc 0.9786
epoch 182: train D loss: 0.0004, train F loss: 0.0536, acc 0.9806
epoch 183: train D loss: 0.0010, train F loss: 0.0660, acc 0.9774
epoch 184: train D loss: 0.0001, train F loss: 0.0514, acc 0.9820
epoch 185: train D loss: 0.0000, train F loss: 0.0621, acc 0.9800
epoch 186: train D loss: 0.0013, train F loss: 0.0641, acc 0.9798
epoch 187: train D loss: 0.0001, train F loss: 0.0683, acc 0.9766
epoch 188: train D loss: 0.0007, train F loss: 0.0658, acc 0.9776
epoch 189: train D loss: 0.0018, train F loss: 0.0558, acc 0.9806
epoch 190: train D loss: 0.0014, train F loss: 0.0591, acc 0.9776
epoch 191: train D loss: 0.0005, train F loss: 0.0425, acc 0.9830
epoch 192: train D loss: 0.0011, train F loss: 0.0487, acc 0.9828
epoch 193: train D loss: 0.0008, train F loss: 0.0726, acc 0.9720
epoch 194: train D loss: 0.0002, train F loss: 0.0641, acc 0.9770
epoch 195: train D loss: 0.0008, train F loss: 0.0723, acc 0.9750
epoch 196: train D loss: 0.0001, train F loss: 0.0562, acc 0.9792
epoch 197: train D loss: 0.0007, train F loss: 0.0475, acc 0.9834
epoch 198: train D loss: 0.0001, train F loss: 0.0640, acc 0.9784
epoch 199: train D loss: 0.0000, train F loss: 0.0717, acc 0.9734
epoch 200: train D loss: 0.0002, train F loss: 0.0489, acc 0.9854
epoch 201: train D loss: 0.0007, train F loss: 0.0449, acc 0.9828
epoch 202: train D loss: 0.0008, train F loss: 0.0636, acc 0.9782
epoch 203: train D loss: 0.0004, train F loss: 0.0478, acc 0.9836
epoch 204: train D loss: 0.0001, train F loss: 0.0437, acc 0.9838
epoch 205: train D loss: 0.0004, train F loss: 0.0643, acc 0.9776
epoch 206: train D loss: 0.0009, train F loss: 0.0748, acc 0.9754
epoch 207: train D loss: 0.0002, train F loss: 0.0565, acc 0.9786
epoch 208: train D loss: 0.0007, train F loss: 0.0408, acc 0.9860
epoch 209: train D loss: 0.0005, train F loss: 0.0539, acc 0.9812
epoch 210: train D loss: 0.0002, train F loss: 0.0664, acc 0.9760
epoch 211: train D loss: 0.0015, train F loss: 0.0585, acc 0.9786
epoch 212: train D loss: 0.0001, train F loss: 0.0535, acc 0.9830
epoch 213: train D loss: 0.0007, train F loss: 0.0559, acc 0.9804
epoch 214: train D loss: 0.0001, train F loss: 0.0540, acc 0.9804
epoch 215: train D loss: 0.0000, train F loss: 0.0428, acc 0.9852
epoch 216: train D loss: 0.0001, train F loss: 0.0394, acc 0.9850
epoch 217: train D loss: 0.0003, train F loss: 0.0374, acc 0.9870
epoch 218: train D loss: 0.0001, train F loss: 0.0509, acc 0.9834
epoch 219: train D loss: 0.0003, train F loss: 0.0584, acc 0.9812
epoch 220: train D loss: 0.0016, train F loss: 0.0606, acc 0.9806
epoch 221: train D loss: 0.0002, train F loss: 0.0448, acc 0.9836
epoch 222: train D loss: 0.0001, train F loss: 0.0524, acc 0.9814
epoch 223: train D loss: 0.0002, train F loss: 0.0523, acc 0.9832
epoch 224: train D loss: 0.0002, train F loss: 0.0496, acc 0.9814
epoch 225: train D loss: 0.0016, train F loss: 0.0456, acc 0.9828
epoch 226: train D loss: 0.0001, train F loss: 0.0361, acc 0.9872
epoch 227: train D loss: 0.0002, train F loss: 0.0523, acc 0.9802
epoch 228: train D loss: 0.0013, train F loss: 0.0622, acc 0.9796
epoch 229: train D loss: 0.0001, train F loss: 0.0493, acc 0.9824
epoch 230: train D loss: 0.0003, train F loss: 0.0561, acc 0.9800
epoch 231: train D loss: 0.0003, train F loss: 0.0531, acc 0.9804
epoch 232: train D loss: 0.0000, train F loss: 0.0433, acc 0.9862
epoch 233: train D loss: 0.0000, train F loss: 0.0563, acc 0.9798
epoch 234: train D loss: 0.0012, train F loss: 0.0604, acc 0.9804
epoch 235: train D loss: 0.0011, train F loss: 0.0522, acc 0.9814
epoch 236: train D loss: 0.0001, train F loss: 0.0466, acc 0.9824
epoch 237: train D loss: 0.0001, train F loss: 0.0538, acc 0.9814
epoch 238: train D loss: 0.0002, train F loss: 0.0416, acc 0.9854
epoch 239: train D loss: 0.0009, train F loss: 0.0415, acc 0.9854
epoch 240: train D loss: 0.0015, train F loss: 0.0541, acc 0.9806
epoch 241: train D loss: 0.0007, train F loss: 0.0419, acc 0.9858
epoch 242: train D loss: 0.0004, train F loss: 0.0399, acc 0.9862
epoch 243: train D loss: 0.0005, train F loss: 0.0492, acc 0.9832
epoch 244: train D loss: 0.0017, train F loss: 0.0524, acc 0.9822
epoch 245: train D loss: 0.0001, train F loss: 0.0443, acc 0.9846
epoch 246: train D loss: 0.0014, train F loss: 0.0475, acc 0.9820
epoch 247: train D loss: 0.0007, train F loss: 0.0539, acc 0.9798
epoch 248: train D loss: 0.0001, train F loss: 0.0484, acc 0.9842
epoch 249: train D loss: 0.0007, train F loss: 0.0350, acc 0.9880
epoch 250: train D loss: 0.0003, train F loss: 0.0419, acc 0.9842

#保存模型
paddle.save(feature_extractor.state_dict(), "model/feature_extractor_final.pdparams")
paddle.save(label_predictor.state_dict(), "model/label_predictor_final.pdparams")

3.5.4 可视化训练过程

#分开绘制三条曲线
epochs = range(epoch)
# 模型训练可视化
def draw_process(title,color,iters,data,label):
    plt.title(title, fontsize=20)  # 标题
    plt.xlabel("epochs", fontsize=15)  # x轴
    plt.ylabel(label, fontsize=15)  # y轴
    plt.plot(iters, data,color=color,label=label)   # 画图
    plt.legend()
    plt.grid()
    plt.savefig('{}.jpg'.format(title))
    plt.show()

# Domain Classifier train loss
draw_process("train D loss","green",epochs,train_D_loss_history,"loss") 
# Feature Extrator train loss
draw_process("train F loss","green",epochs,train_F_loss_history,"loss") 
# Label Predictor的train accuracy
draw_process("train acc","red",epochs,train_acc_history,"accuracy")

4 模型预测

在测试集上执行预测

4.1 预测测试集结果

result = []
label_predictor.eval()
feature_extractor.eval()
for i, (test_data, _) in enumerate(test_dataloader):
    test_data = test_data.cuda()

    class_logits = label_predictor(feature_extractor(test_data))

    x = paddle.argmax(class_logits, axis=1).cpu().detach().numpy()
    result.append(x)

import pandas as pd
result = np.concatenate(result)

# Generate your submission
df = pd.DataFrame({'id': np.arange(0,len(result)), 'label': result})
df.to_csv('DaNN_submission.csv',index=False)

# 统计预测的标签数量，10种图片的预测数量如下：
print(df.iloc[:,1].value_counts())

3    22983
5    19346
8    18487
1    10888
4     9249
7     7511
2     5101
9     4398
0     1230
6      807
Name: label, dtype: int64

4.2 展示预测结果

展示前一百幅的结果

labels = iter(df['label'][0:100])
def f_names():
    for i in range(100):
        yield 'work/real_or_drawing/test_data/0/{:05}.bmp'.format(i)
        
names = iter(f_names())


for j in range(10):
    plt.figure(figsize=(18, 18))
    for i in range(10):
        plt.subplot(1, 10, i + 1)
        name = next(names)
        label = next(labels)
        fig = no_axis_show(plt.imread(name),title=titles[label])
eld 'work/real_or_drawing/test_data/0/{:05}.bmp'.format(i)
        
names = iter(f_names())


for j in range(10):
    plt.figure(figsize=(18, 18))
    for i in range(10):
        plt.subplot(1, 10, i + 1)
        name = next(names)
        label = next(labels)
        fig = no_axis_show(plt.imread(name),title=titles[label])

5 总结分析

本次项目共进行了三次训练：第一次训练200个epochs,第二次训练125个epochs，第三次250个epochs。
可以通过以下的曲线对比，模型的训练可视化如下，可以发现：

1）三次训练中特征抽取器(Feature Extractor)的train F loss曲线都呈现下降趋势。
2）而epoch=125,和epoch=200时，领域的分类器(Domain Classifier)的train D loss曲线呈现增大的趋势，可能原因是训练不稳定；epoch=250,领域的分类器(Domain Classifier)的train D loss曲线逐渐收敛。
3）三次的训练，标签预测器(Label Lredictor)的acc曲线在上升，最终acc都在0.98左右。

特征抽取器就是不断抽取一些领域分类器不一样的特征为了能骗过它。并且他们这样相生相克就是为了模型能有很好的预测能力，这在标签预测器的acc曲线充分地表现了出来。因此，这就是迁移学习——Domain-adversarial training的根本所在！（Domain-adversarial training可以看成GAN的一种。它想要把source data和target data转换到同样的领域上，让它们有同样的分布。）

125epochs
训练过程不稳定

200epochs

250epochs

模型的前100张测试集结果对比：
就前100张预测图片来看，三种预测结果差别还挺大的，因为没有标签，无法得知预测结果好坏。

125epochs:

200epochs:

250epochs:

6 参考文献&文章&代码

[1] 李宏毅机器学习
[2] https://blog.csdn.net/weixin_44673043/article/details/114858094
[3] https://helloai.blog.csdn.net/article/details/104484924
[4]https://datawhalechina.github.io/leeml-notes/#/chapter30/chapter30

作者介绍

百度AI Studio个人主页, 我在AI Studio上获得白银等级，点亮2个徽章，来互关呀~
CSDN:https://i.csdn.net/#/user-center/profile?spm=1011.2124.3001.5111
交流qq:3207820044

你可能感兴趣的:(李宏毅机器学习,深度学习,机器学习)

脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
【动手学深度学习】4.10 实战Kaggle比赛：预测房价 XiaoJ1234567 《动手学深度学习》深度学习人工智能
目录4.10实战Kaggle比赛：预测房价1）数据预处理2）模型定义与训练3）模型评估与预测4）模型训练与预测提交5）示例超参数（可调）4.10实战Kaggle比赛：预测房价数据来源：Kaggle房价预测比赛.1）数据预处理读取数据importpandasaspdtrain_data=pd.read_csv('../data/kaggle_house_pred_train.csv')test_da
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p