linyuxi_loretta

语音与影像上的自督导式学习模型、一些老版本的补充（李宏毅2022

2022 - 语音与影像上的神奇自督导式学习模型_哔哩哔哩_bilibili

self-supervised learning for speech and image

如果要训练一个好的语音辨识的模型，没用self supervised 技术，直接训练一个end-to-end的model，通常要上万个小时的声音讯号（labeled），

但是今天有了语音版的bert，很多人想挑战只用10min的资料训练语音辨识的模型，

微调语音版的bert往往不必要，往往固定住语音版的bert，只微调downstream model就可以得到不错的结果了。

ASR语音辨识、 keyword spotting 唤醒词、

semantic语义理解、直接从声音的讯号的内容理解语义，e.g.语音翻译听中文输出英文文字，

专门讲这些self supervised learning的model，在super这个benchmark上面有什么样的表现，那总之结果非常的惊人哦，语音的self supervised learning是一个很有潜力的研究方向，这些self supervised model几乎可以说是十项全能，

SUPERB benchmark https://youtu.be/MpsVE60iRLM

toolkit- S3PRL: https://github.com/s3prl/s3prl

self supervised的model用在各式各样不同的任务上，怎么用其实没有那么容易，toolkit可以帮助你

视觉导航（Visual Navigation）是机器人领域非常重要的一个研究方向，机器人需要有理解房间物件摆设的能力，

这两篇文章讲了self supervised learning在影像上有哪些应用

影像的community里有非常大量的有标注的资料库，比如image net，

怎么训练语音版的bert和影像版的bert，五大类方法

1. generative approaches

把文字上已经非常成功的bert系列和GPT系列，拿来语音和影像上用用看，

给一段声音讯号，把其中的某些部分盖起来，比如说值全部替换为0，

语音版bert里有个很具代表性的模型：Mockingjay(学舌鸟)

bert里面会盖住15%的词汇

针对语音的特性做一些设计：

声音讯号相邻的向量往往内容会非常接近

masking这个技术用在语音上，要一次mask一长串的feature，不要一次指mask一个feature，太容易被机器学到，那至于要多长牌，就是一个参数也是需要调一下的

那其实在文字上也有类似的概念、后来很多bert的变形、都是说你不要指mask一个token、因为这样往往非常容易被bird的model猜到mask是什么、比如说一次mask一个片语、这样机器才能够学到比较多东西

在语音上可以做一个不一样的尝试、可以不是在时间的方向上做mask、可以一次mask这些向量的某几个dimension，经验表明，这种mask的方式会让机器比较容易学到语者的资讯

如果你只叫机器给一段声音讯号，预测接下来会产生的讯号太~简单了，因为相邻的向量往往内容会非常接近

所以通常你不是叫他预测下一个向量、你会叫它预测接下来某一段时间之后的向量，比如说叫它预测接下来的第三个向量，根据文献的结果，通常你这个n要设>=3才会有比较好的结果

语音版的GPT一个具代表性的模型：Auto regressive predictive coding（APC）

把这一套generative的方法用在语音跟影像上，相较于文字有一个比较大的问题是：语音和影像包含了非常多的细节，所以你要模型去把声音讯号、影像完整的还原出来、往往是非常困难的

有没有其他解法，比如，除了让机器还原影像跟声音讯号之外、能不能还原或预测一些别的东西，同样达到sal supervised learning的效果呢

2. predictive approach

在影像上一个比较早期的做法：

那其实在影像上、这种制造简单的任务、让机器去解、借此来学到一些东西的方法有各式各样，论文数不胜数

contact prediction就是给一张比较大的图片、然后把比较大的图片里面的两个小块切出来、让你去判断两块image相对的位置、通常有八种选择

其实在声音讯号上也可以做类似的事，就是从同一句话里面切两段出来, 机器要学的事情就是判断这两段声音讯号,他们相距几秒，

所以呃除了让机器去还原声音讯号还原影像之外，你也可以设计一些小游戏让机器来玩，希望他透过学会这些简单的任务，之后叫它做复杂的任务就可以做的更好。

问题：什么样的小游戏可以激发机器的潜能

没有特别好的答案，需要对声音讯号和影像有一些domain knowledge、对他们的特性有更深入的理解

但是也有一些比较general的方法，让机器不做生成、也可以做self supervised learning，

你把原来要生成复杂的东西简化、把它改成生成比较简单的东西

我们把这些声音讯号做一下clustering，比如说你对这些向量呢跑一下K-means，把它们做离散化。所以他们从本来很复杂的向量，每个向量就变成一个token

HuBERT用的是K-means （+bootstrapping approaches ），BEST-RQ蛮神奇的它这边是用一个random projection。那这样看起来这个clustering 的algorithm 呢,可能对performance没有特别重要,只要有clustering结构就好了。

有没有办法在不产生东西的情况下，就做self supervised learning呢

3.contrastive learning

怎么做data augmentation会变成是这整个方法能不能够成功的关键，就是你的augmentation既不能太难也不能太简单，那怎么控制augmentation的难度变成是一个问题

在原始SimCLR的paper里，他尝试了各式各样不同的augmentation的组合，告诉你说怎么做augmentation是最好的。random cropping看起来是最有效的、各种不同的augmentation组合，通常random cropping是不可或缺的一个方法，

先有MoCo，才有的SimCLR。MoCo多了一个memory bank，还多了一个momentum decoder

后来MoCo吸收了SimCLR的一些优点，有了MoCo v2

都是contrastive learning的方法，概念基本上是差不多的，只是增加了其他的训练小技巧，让训练可以更容易成功

下面我们来看语音上的contrastive learning，刚才已经讲了语音版的SimCLR，其实在语音上还有另外一系列的contrastive learning的方法，其中最知名的就是CPC和Wav2vec系列

然后这样训练完以后呢、你可以直接拿encoder出来、用在你的下游任务里面、你也可以把encoder跟predictor叠起来一起用在下游任务里面

后来，又有 VQ-Wav2vec ，区别在于：encoder的输出不是vector 而是discrete token。

如上图，链接里有讲：如果network里面有discrete的东西要怎么train，

why discrete token？

其实VQ-Wav2vec方法并没有一篇独立的文章，当初propose出来是为了一个很神奇的目的，他想在VQ-Wav2vec后面直接train一个类似文字上的Bert model，强调一下，它并不是直接把文字的bird model拿来用了，他只是train了另外一个encoder，架构跟文字的Bert是一模一样的，

那接下来的训练方法就跟Bert一模一样啊、等你先训练好VQ-Wav2vec、训练完以后就把它固定住、他负责把声音讯号转成discrete token、接下来当做像是文字的token一样、把一些地方盖起来、叫Bert学做填空题，

另一个好处，把声音讯号做discrete以后、你通常可以把杂讯还有speaker的呃特征把它去掉。它的好处是你的模型比较容易可以抽出跟content有关的资讯

有一篇paper试了各式各样的架构组合，告诉你：VQ-Wav2vec + Bert是个好架构，其他变形基本都要更差

Wav2vec 2.0：两个encoder一起训练

一起训练的话会遇到这个问题、中间有discrete token、虽然中间有discrete token还是可以训练的、但是训练起来比较困难，所以我们不把discrete token当做是后面第二个encoder的输入

所以前一个encoder改成输出continuous接给后端的第二个encoder
后端encoder输出一排向量，他接下来做一个contrastive learning，
把输入的某些部分一样做mask，然后接下来呢要用被mask起来那个位置输出的这一个向量，去预测同一个位置的token是哪一个，同时呢又希望说这一个向量产生其他token的likelihood越小越好。

原始论文里，实际上的每一个discrete token其实都还是用一个向量来表示的，你可以想成说这些discrete token呢其实都通过一个transform把它变成一个embedding，然后你其实实际上做的事情是，你希望这一个向量跟对应到③的embedding越接近越好，跟对应到⑦和⑨的embedding距离越远越好，其实等价于把上面的向量当作分类问题

why 这样设计？

discrete 的东西丢给后面的encoder，performance会差，
为什么是predict discrete token，为啥不是predict vector，试验说就是要这样结果才会好，不过这件事并没有非常关键，performance只差一点点而已
既然你说你把这一个vector过一个transform把它当做一个分类的问题，那这不就是一个typical的分类问题吗，为什么不直接当成一个一般的分类问题来看，就告诉他说model要学的就是给这个vector然后他要去预测token 3，然后其他token都不要被预测。实作上，一个原因是语音所对应的token数量太大了， Wav2vec 2.0产生的token数量应该是10万那个等级啊，bert的token数目是两三万那个样子。那如果今天token的数目非常多，直接把它当做一个分类的问题，那negative example会太多，运算量太大，那其实在早年在做这种language model的时候、就是只让正确的答案的几率变高、那错误的答案就sample某几个（contrastive learning）

bert也可以看成一种contrastive learning方式，

声音讯号千变万化、根本没有办法穷举出所有的negative example

把一段声音讯号变成discrete的东西、是Wav2vec 2.0第一个encoder做的事情，

而Wav2vec 2.0整个model、从声音讯号到representation、

假如把bert想成contrastive learning，然后想想怎么把bert的概念套用到语音上，就能发现Wav2vec 2.0非常类似bert架构。

现在contrastive learning方法，有一个很大的问题，就是你需要去选negative example

做SimCLR时，其实同学们常常会想到的一个问题，如果两张都是猫的图片，做数据增强后，你还是把两张不同的猫的图片视为是negative example，这确实是一个问题

尤其是刻意的时候，假设你今天用某一个演算法、刻意去挑那些跟你原来的图片很难分开的negative example、你可能正好会挑到猫的图片、然后再让模型硬学，要把同样都是猫的图片、硬是要分开，too hard，你根本不应该让同样都是猫的图片有不同的representation，

选negative example变成一个很tricky的问题啊，你需要做很多trial-and-error才能够选到好的negative example

以下讲两招，可以避开negative example这件事

4. bootstrapping approaches

predictor是一个简单的可能只有几层的feed forward network

这两张图片通过不同的network去产生向量、不过他们只有部分不同而已、他们大部分的参数还是一样的

解释不了，实验得到：

发现说反正你要不collapse，需要两个关键的东西、

左右两边的network需要架构有点不同；
只train某一边的encoder再复制过去

总之让左右两条路径的network架构不同、然后让他们参数update的方式不同、是一个关键的让只用positive example状况不会collapse的关键技巧，

那这个刚开始训练的时候这个teacher encode哪来呢

最早的bootstrapping方法BYOL，就算teacher encoder是个随机的encoder、还是可以学到一点东西，神奇！

BYOL里面呢有一个特殊的设计、它不是直接把student encoder的参数、复制给teacher encoder、而是用一个渐进的（moving average）方法去影响teacher encoder、然后随着训练的iteration越来越多、老师和学生最后就会变得越来越一致

SimSiam告诉你说，其实moving average不是必要的，没有这步，直接复制过去，也可以得到差不多的结果

Data2vec蛮出名的paper，是Meta做的，他们用同样的learning algorim应用在语音上，也同时做在影像和文字上，类似BYOL的方法，也会有一些差距，e.g.他们会把teacher的不同layer的 representation做平均让学生去学

还有另外一个可以避开用next example的方法、就是直接在用positive example之外、加上regalization。这一系列的方法呢Barlow Twins和VICReg，这两个非常像

5.simply extra regulation

这边的invariance指的就是只用positive example来train，
为了避免encoder学到总是output一样的vector，强制要求他不要这样做。格外的限制：variance，给encoder一个batch的image，比如说啊256张图片，那你得到256个vector，接下来你要求输出的这些vector，他们的每一个dimension的variance要大于某一个fresh hold。
那这个covariance它达到效果是、假设你只有variance跟invariance 那你可能learn出来的representation长这样如图，他的variance不管是看x轴还是y轴都是够大的啊，但是这个整个latent space里面还有很多空间没有被用到哦，如果加covariance应该可以让它的散布比较平均啊、让所有的dimension呢都充分地被利用到、不会有redundant的dimension

原始文章里告诉你，最关键的就是一定要有variance，足够让他不会collapse

concluding remarks

	image	speech/audio
Generative	GPT for image	Mockingjay, APC
Predictive	rotation prediction，etc.	HuBERT
Contrastive	SimCLR，MoCo	CPC,Wav2vec series
Bootstrapping	BYOL，SimSiam	Data2vec
Regularization	Barlow twins，VICReg	DeLoRes

what is pre-train model

在emlo之前，已经有pre-train的东西了，他的目的是为每个token制造一个embedding去表示这个token的语义信息。这个embedding应该包含这个token的语义，对于语义相似的部分，他们的embedding在向量空间中应该尽量的接近。他们通常就是直接将对应的token输入到一个网络中，之后输入对应token的embedding，但是没有考虑每个token的上下文信息。这样造成的后果就是一样的token会具有相同的embedding，并没有考虑到token的一词多义以及在不同上下文中语义不同的情况。

但是如果输入的token是英文的话，英文是具有很多很多词汇的，不可能将所有的词汇都放入到表格中，因此FastText就将每个字母单独embedding，之后根据字母的排列组合得到不同单词的embedding。

如果是中文呢？中文也有特殊解法，偏旁部首、中文每个字像图画

很多的偏旁部首具有自己的语义，可以将字输入到一个CNN中，再通过各个偏旁部首的排列组合，得到对应的结果。

但是以上方法的问题就在于他们仅仅会在乎对应token的字形，但不会在乎对应token的上下文，就比如“养条狗”和“单身狗”中的token“狗”所表达的语义一定是不一样的，但是以上的方法对token“狗”的embedding的表达是一致的。

也有一些方法将“单身狗”和“养条狗”这两个词中的token“狗”做区别对待，比如说“狗1”和“狗2”，用这样的方法去获得两个token embedding。但是这种方法又忽略了词本身的语义，这两个“狗”其实也有一定的共性，也有一定的局限性。

因为有了以上的局限性，所以出现了contextualized word embedding的概念，他们不同于以往的embedding输入一个token，输出一个embedding，contextualized word embedding是在输入一整个句子以后，输出这个句子中各个token的embedding的。这样这个token的embedding就是在看过这个token的上下文后，输出的token embedding，这个embedding就包含了上下文的信息。

其实你只要找到一个模型的架构、它可以input一个token的sequence、output一串vector sequence就可以了。这里，你需要的是一个像是我们之前在讲sequence to sequence model的时候的encoder那样的东西。像这样的model往往都非常deep，6层、12层、24层等等

模型架构可以用LSTM也可以self-attention layers ，ELMo用的LSTM、Bert用的self-attention layers

有人用BERT输出十个句子中“苹果”的embedding，之后两两的去计算其相似度，可以看到，前五个句子是十分相关的，因为所表达的都是“可以吃的苹果”，后五个句子是非常相似的，表达的是“苹果公司”的意思。

决策树based model,他在处理那种文法结构真的非常清楚非常严谨的问题的时候会比较强，e.g.处理数学式、

现在的趋势就是模型是越来越大的。

也有一些研究是做”穷人的bert“。将BERT变得更小，降低了参数量。其中ALBERT是十分知名的，其思路是将BERT的各个encoder的参数都保持相同，这样的话，就可以降低参数量，但是取得的效果甚至比bert还好了一点，神奇的model。

在network architecture上面近年来也有一些突破、

一是让模型可以读尽可能长的句子，比如Transformer-XL可以读将近一本书的token，

过去像bert这样的模型，一次只能读一串token，比如说512个token、那transformer-XL 让 machine可以读跨segment的token,实作参考文献（Dai,et al.,ACL'19）

二是尽可能降低self attention的运算量，比如，Reformer和Longformer。

fine-tune部分旨在根据预训练的model添加部分层，从而可以解决下游任务。

首先先来观察一下现有的NLP任务的分类，其中按照输入可以分为两类，按照输出可以分为四类。

输入部分：按照输入可以将NLP任务分为单句子的输入（如句子分类）和多句子的输入（比如QA，自然语言推理）。如果是多个句子的话，需要在两个句子之间加入一个特殊的符号[SEP]。（当然你要让机器认得这个分隔符号的意思、那显然你今天在pre-train model的时候、是需要给他看过[SEP]这样的分隔符号的）

输出部分：如果是单个输出任务的话，BERT的解法是让一个特殊的符号[CLS]作为整个句子的表示，之后将[CLS]的embedding输入到一个分类器中，进行分类任务。另外一个做法，也许训练的时候，没有[CLS]这个token，可以像其他模型一样，将所有token输出的embedding都读进来，比如说task specific是一个RNN、把这些embedding都读进来，输出一个class；或者是各个 embedding的均值输入task specific model得到一个class

class for each token，这个task specific model可以是一个LSTM等，

第三个任务是copy的任务，比如说Extraction-based QA任务，其任务就是输入一段原文和一个问题，之后在原文中标注好哪个token是开始，哪个token是结尾。BERT论文中的解法就是设计了两个可以训练的embedding（一个是start，一个是end），之后用start和end向量分别和BERT得到的嵌入求内积，之后再通过softmax，计算哪个最大，就是最后的结果。

第四个任务就是生成任务，BERT可以作为一个encoder，需要我们自己去设计一个decoder，但是decoder是没有经过预训练的。

那今天如果你想要把pretrain model用在sequence to sequence model里面、另外一个方案：

因为model会的东西就是给他一个token， output一个embedding

也可以让pre-training模型当作decoder来使用，其方法就是输入一个[sep]之后让model输出一个东西，再将模型的输出作为模型的输入，以此类推，不断的得到输出结果。

之前交代了，如何在预训练好的模型中再加入一部分让其可以实现下游任务，那么如何进行fine-tune呢？

有两种方法：一种是fix住pre-train模型，只fine tune特定任务的模型，一种是将特定任务模型和pre train的模型一起进行fine tune。（后者效果更好）

那一般如果你直接train这样巨大的model、往往很容易overfit了、但是今天因为你的这个model的本体啊最主要的部分已经pre-train过了、他不是随机的、

（后者效果更好）但是如果我们采取fine tune整个model方法，会遇到什么问题？

pre train的model本来是一样的，但是经过fine tune后，每个model都变得不一样，但是每一个model都是非常巨大的，NLP有很多的任务，如果每一个任务都要存储一个很大的模型，也许是行不通的。因此有了adaptor的概念。

也就是说我们今天想要调这个 pre train的model、但我们能不能只调一部分就好、我们在pre train的model里面加入一些layer、这些layer叫做adaptor、

这边举了一个adaptor的例子，以供参考。像这样子的研究呢也有好几篇文章了、那每篇文章的解法呢都不太一样啊、那至于怎么样解才是好的、那这个其实还是一个值得研究的问题

这篇文章的做法是说，这个是transformer的layer，（我们知道今天 pre train的model的主体，往往就是一层一层的self-attention、也就是transformer的layer）、你可能会先做一些self attention、然后通过一些feed forward network、然后他把adaptor插在feed forward network 的output、

在预训练的时候是没有adaptor的，准备fine tune的时候才插进去。

adaptor就很简单，有一个feed forward network、然后有个bottle neck layer、有另外一个feed forward network、

但是至于这个adaptor实际上要怎么设计、要插在network哪里、这个其实还有蛮大的研究的空间

weighted feature的方法就是将不同层输出的embedding按照权重进行求和。这个权重可以是事先规定的，也可以是通过神经网络学习出来的。

那我们知道说光看training the performance也不见得有用啊、光看training的loss可以压的很低搞不好是overfitting呢、testing时候如何呢，machine generalized的能力在他没有看过的测试资料的状况下是如何呢、那怎么看模型generalize的能力，我的课程YouTube频道里有讲一些deep learning theory，有讲分析模型generalize的能力的方法。

我们从一个local minia的这个山坳的宽度啊、其实有机会看出一个模型generalize的能力。山坳越陡峭、那模型generalization能力往往就越差，就是说如果跑到的local minima是个峡谷，一般化的能力比较差、

之前讲的是如何进行fine-tune，现在讲解如何进行pre-train，如何得到一个pre train好的模型。

上周我们讲过，我们需要什么样的pretrain的模型呢、是把一串token吃进去、接下来他把每一串token变成一个contextualized embedding vector

像这种抽contextualized embedding的方法，其实最早的一篇文献应该是CoVe这篇，他并不是unsupervised得到model的，它是用translation的方法、是一个基于翻译任务的一个模型，得到的encoder的模块就是pre-train model。

但是CoVe需要大量的翻译对，这是不容易获得的，能不能通过一大段没有标注的语料进行预训练呢？因为有监督的标注是十分费时费力的，因此采用自监督的方法。输入和输出的pair是自己产生的、不是人标注的。

过去叫unsupervised learning，近年来更常被叫做self supervised learning、

在预测next token的时候、要注意设计一下你的模型、你不可以让你的model一次把w1-4一次都读进去，不要让他偷看到答案

最早期的unsupervised pretrained model都使用”预测下一个token“这样的技术、

这也很自然，因为在过去nlp领域的人，就知道要训练language model、而LM本来做的事情就是predict next token

那要用什么用的network架构来训练这个LM,最早当然会想到用LSTM做predict next token的工作，知名的pre-train的模型ELMo，以及ULMFiT。

那今天呢人们不再那么喜欢LSTM、很多时候会把LSTM换成self-attention。如果network用的self-attention架构，就要小心：控制attention的范围、下一个constraint、如图表格里涂色的位置代表可以attend、避免模型知道下一个词是什么。

语言学家认为，一个单词应该与其经常出现的单词一起出现。因此使用LSTM的时候，用隐向量（embedding）编码其左边context的所有向量，就表示其前面出现的所有单词。

LSTM：

Recurrent Neural Network (Part I)_哔哩哔哩_bilibili

我们刚才讲的recurrent neural network呢是最simple的版本，那我们刚才讲的memory是最单纯的、就是呃我们随时都可以把值存到memory里面去、也可以随时读出来、现在比较常用的memory称为LSTM

” 比较长的short-time memory“

一个LSTM 的memory cell如下图

between 0-1，而这个0~1之间的值代表了这个gate能被打开的程度

都说是数值了，就是简单的乘法

每一个neural它都是一个function、输入一个scaler、输出另外一个scaler

LSTM通常不会只有一层，一般得叠个5、6层这种，

GRU是LSTM的一个稍微简化版本、他只有2个gate、performance差不多、少了1/3的参数

ELMo不但关心其左边的context，还关心其右边的context。但是有一个缺点，就是其左边lstm进行编码的时候只能看到左边的token，右边的lstm进行编码的时候，只能看到右边的token。看到的句子是不完整的，这就存在问题，bert是完整的，可以解决这个问题。

Bert里面用的是transformer、（没有任何限制的self-attention）、

过去CBOW模型非常简单，把input每个token过一个transform 加总起来，再过一个transform、

通常没法看很长，左右边各20个就已经很长了，CBOW往左右看多长是有个固定的window宽度，

但是随机的进行mask往往是会产生不好的效果的，有时候mask掉的是一个短语中的一个token，“黑__江”,太简单。因此有方法提出了三个比较好的mask方法，

先有一个断词系统把word找出来，之后将分词（word）整个mask掉，
phrase-level（就是好几个word），
entity-level的mask，就是先做non-entity recognition（NER模型），之后再将整个entity给mask掉，就是ERNIE模型。

spanbert方法就是也不考虑是盖住一个词，一个短语，还是一个entity了。就直接盖住一排的token。

我觉得bert这种pre-training的方法、往往很难找到一个技术、是在所有的任务上都会好的

spanBert中添加了一个新的预训练任务，SBO（一个小的module），即根据被盖住的左边和右边的embedding，之后预测被盖住的词中的第n个token。

SBO的设计是期待说，一个span左右两边的embedding可以包含整个span的资讯，用在coreference上

transformer-XL厉害的地方，比如可以跨segment读取资讯、可以有relative positional embedding等等，

Transformer-XL：
要解决的问题：作者声称是发现了BERT的缺点，就是你只会预测顺序的，不会预测倒序的！比如New York City！你盖住York他可以预测，但是如果盖住New ，没法根据York来预测New!（李老师不同意，可能是最早版本的bert，被盖住的部分是固定的，）
怎么理解XLNet呢？可以从两个方向来看：
第一个方向是language Model的方向：
predicts token只能看到left content。而Transformer-XL中，打乱句子！

用各式各样不同的资讯去预测一个token、他可以学到比较多的dependency

第二个方向是BERT的方向：

在XLNet中声明的是，不给Model看mask Token。但是你还是要告诉model要预测哪一个位置的word！后面的详细的自己看论文喽。

BERT”不善言辞“，不善于处理生成任务，如果要把bert用于需要seq2seq的NLP任务里，那么需要bert有产生句子的能力，

右边的token还没有生成出来、这是bert训练的时候没有看过的状况，auto regressive的model生成一个句子的时候、是由左而右生成token，

non-auto regressive model 如今NLP的任务里，已经开始了一系列的研究、看看有没有更好的产生sequence的方法、不见得要由左而右来产生sequence、

bert不太适合拿来做seq2seq model的pre-train model，对于这类任务，bert可能只能当作encoder、decoder就没有pre-train到

有没有办法用self-supervised learning方法直接pre-train一个seq2seq model：

对输入段做某种程度的破环，参见这两篇文章 MASS和BART，

之前的MASS和BART训练的是一个seq2seq的任务。但是都在输入端对原句子进行一定程度的破坏。

UniLM这个神奇的model，可以做encoder可以做decoder可以做seq2seq

UniLM它就是一个有很多的self attention layer的model（一堆的transformer层的组合），并没有明确区分哪些是encoder，哪些是decoder。

这一个model同时做多种训练。

像bert一样做一个encoder，这时候可以看到整个句子中的token，像bert一样进行训练。
像GPT一样进行decoder的训练，但是在生成的时候只能看左边的token，右边的token是不可以看的。
也可以像BART和MASS一样，做encoder和decoder的任务，输入是两个句子，第一个句子可以看到全部的token，第二个句子则只可以看到左边的token。

生成东西需要的运算量是很大的，因此有模型ELECTRA可以避开需要generation这件事，随机替换掉原始句子中的一些token，生成一些文法没有问题，但是语义怪怪得句子，之后为模型识别出哪些token被替换了，哪些token没有被替换。

但是如果随机找一个不相关的词直接替换的话，模型应该学不到什么有用的信息，所以在ELECTRA中，用了一个小的BERT，让其生成替换的词，从而对ELECTRA进行训练。

不能说是GAN，generator在训练的时候，要去骗过discriminator。但这个小的bert，只是自己train自己的，

有人说，train XLNET 要大概台币600万左右、如果你去租google的tpu

之前都是对各个token进行embedding，如何得到一个sentence的embedding呢？

ALBERT 轻量版的bert

把NSP和SOP结合起来用在structBERT

希望在pre-train的时候加入external knowledge、比如说一个knowledge graph以后，它就进化成了ERNIE

你可能感兴趣的:(机器学习,人工智能)

AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
元戎启行最新战略RoadAGI：所有移动智能体都将被AI驱动量子位
2025年3月18日（北京时间），元戎启行作为国内人工智能企业代表，出席由NVIDIA主办的GTC大会。会上，公司CEO周光发表了技术主题演讲，展示了公司的最新战略布局RoadAGI，并发布道路通用人工智能平台——AISpark（以下简称”Spark平台”）。RoadAGI是元戎启行实现物理世界通用人工智能的关键一步，旨在让包括智能驾驶汽车在内的移动智能体，都具有在道路上自主行驶、与物理世界深度交
【财经信息差】2024年12月27日最新财经资讯一览每日财经热点一网打尽代码简单说 AI观财经:财经信息差 AI观财经财经信息差今日财经资讯财经热点今日资讯
大家好，欢迎来到财经信息差！每天，我们将带你直击全球财经动态，精选最新的市场变化、政策动向与产业趋势，让你在最短的时间内，轻松掌握最关键的财经资讯。随着人工智能技术的迅猛发展，我们将用AI的视角为你解析财经热点、企业动向及全球经济变化，让复杂的信息变得简单易懂，帮助你做出更明智的投资决策。财经领域股票市场美股三大指数集体低开，大型科技股多数下跌，纳斯达克金龙指数跌1.07%。小鹏汽车跌3.32%，
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
探索“AI知识库”的未来：重塑信息获取与教育的新篇章知识库知识库管理
在数字化时代，信息的爆炸性增长既为人类带来了前所未有的知识盛宴，也带来了信息筛选与理解的巨大挑战。在此背景下，“AI知识库”作为人工智能技术与知识管理深度融合的产物，正逐步成为解决这一难题的关键。本文旨在探讨“AI知识库”的核心价值、技术进展、应用领域以及对未来教育与社会信息获取方式的深远影响，并在此基础上展望其发展前景。一、AI知识库的定义与核心价值定义：AI知识库，简而言之，是利用人工智能技术
人工智能之数学基础:基变换和坐标变换的区别每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能机器学习算法基变换坐标变换线性变换
本文重点基变换和坐标变换是线性代数中的两个重要概念，它们描述了向量在不同基底或坐标系下的表示和转换关系。矩阵矩阵不仅可以作为线性变换的描述，而且可以作为一组基地描述。而作为变换的矩阵，不但可以把线性空间中的一个点给变换到另一个点去，而且也能够把线性空间中的一个坐标系（基）表换到另一个坐标系（基）去，这就是基变换和坐标变换。定义与本质基变换：定义：基变换是指向量在不同基底下表示的关系的数学描述。它涉
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者! V__17671155793 智能电视
深度测评:2025年这五款AI直播工具风卷来袭，首款堪称直播界变革者!随着人工智能（AI）技术的飞速发展，直播行业正经历着前所未有的变革。2025年，被誉为“AI直播元年”，这一年见证了众多创新AI直播工具的涌现，它们不仅提升了直播的智能化水平，更在效率、互动性和观赏性上实现了质的飞跃。以下，我们将盘点2025年经典实用的十款AI直播工具，尤其聚焦于第一款，带您领略AI如何重塑直播行业。一、智享A
【SoC基础】第2节：CPU简介望闻问嵌 #SoC 单片机嵌入式硬件
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处文章目录CPU结构设计CPU生产厂商CPU工作原理CPU的组成CPU的类型CPU内核与CPU的关系CPU内核种类参考CPU结构设计结构类型结构特点优点
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
【SoC基础】单片机之RCC模块望闻问嵌 #SoC 单片机
：如果你也对机器人、人工智能感兴趣，看来我们志同道合✨：不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】：文章若有幸对你有帮助，可点赞收藏⭐不迷路：内容若有错误，敬请留言指正！原创文，转载注明出处RCC模块简介RCC（ResetandClockControl）即复位和时钟控制模块，其基本功能总结如下：时钟源管理多源选择：支持多种时钟源，包含内部
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
北约人工智能战略举措与影响分析岛屿旅人网络安全人工智能行业分析人工智能网络网络安全 web安全安全
文章目录前言一、顶层规划，明确发展方向（一）发布《人工智能战略》，明确AI发展方向和行动指南（二）适应当前需求，适时更新《人工智能战略》（三）制定《数据利用框架政策》，提供政策指导和基础支持二、政策配套，推动细化落实（一）成立北约数据和审查委员会，推动人工智能转化应用（二）成立新兴和颠覆技术咨询小组，指导创新与成果转化（三）成立北约创新委员会，引领前沿技术研究三、加强投资，促进生态布局（一）启动北
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
DeepSeek高能低耗AI创作突破智能计算研究中心其他
内容概要随着人工智能技术向垂直领域加速渗透，生成式模型的应用边界正经历革命性拓展。DeepSeek系列产品通过670亿参数混合专家架构，构建起覆盖学术研究、内容创作与编程开发的多模态解决方案。该架构融合视觉语言理解与多语言处理能力，在保持高响应速度的同时，显著降低算力消耗，其单位计算成本仅为同类产品的三分之一。值得关注的是，系统搭载的DeepSeekProver学术引擎可自动生成文献综述框架，而D
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
未来5年AI人工智能与信息技术领域发展趋势海宁不掉头发人工智能软件工程人工智能人工智能软件工程笔记 chatgpt
未来五年人工智能与信息技术领域发展趋势深度解析一、人工智能与神经网络技术的突破路径（一）算法架构的范式革新深度神经网络正经历从量变到质变的演进。以Transformer为核心的序列建模技术持续迭代，字节跳动云雀模型通过动态结构优化，在保持语言理解能力的同时将参数量压缩至GPT-4的1/10，推理速度提升3倍。更值得关注的是类脑计算的突破，中国科学院自动化研究所提出"基于内生复杂性"的类脑神经元模型
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
如何利用AI制作PPT，轻松实现高效演示 HUIPPT剑盾ai 人工智能 powerpoint 学习软件科技
如何利用AI制作PPT，轻松实现高效演示！在这个信息爆炸的时代，PPT已经成为了日常工作和学习中不可或缺的工具。每当我们需要汇报、展示或总结时，PPT几乎成了“必杀技”。然而制作一份精彩的PPT往往需要花费大量的时间和精力。随着人工智能技术的发展，AI做PPT变得越来越简单，不仅节省了我们的时间，还能提升演示的质量。AI生成PPT的最大优势之一就是高效性。过去我们需要一张一张地调整幻灯片，插入图片
Spring Boot Starter 设计原理与实战：打造企业级自定义启动器 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBootStarter设计原理与实战：打造企业级自定义启动器一、引言在当今的企业级Ja
机器学习线性回归学习心得_线性回归为机器学习的初学者解释 weixin_26750481 机器学习 python 人工智能逻辑回归深度学习
机器学习线性回归学习心得Datasciencewiththekindofpoweritgivesyoutoanalyzeeachandeverybitofdatayouhaveatyourdisposal,tomakesmart&intelligentbusinessdecisions,isbecomingamust-havetooltounderstandandimplementinyouror
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag