cpongo4'"\?;@

效果逆天的通用语言模型GPT 2.0来了，它告诉了我们什么？

2月15日，OpenAI在官博介绍了一个大规模无监督NLP模型：GPT 2.0，被称为“史上最强通用NLP模型”。该模型可以生成连贯的文本段落，刷新了7大数据集基准，并且能在未经预训练的情况下，完成阅读理解、问答、机器翻译等多项不同的语言建模任务。

一时间，GPT 2.0的消息在全网刷屏，有关这一模型是否被过誉的讨论也在热烈进行中。今天这篇文章，来自新浪微博AI Lab的算法专家张俊林将谈一谈自己对GPT 2.0的一些想法。

最近朋友圈被NLP的技术大新闻刷屏刷得有点多，今天（2月15日）中午开始又被GPT 2.0刷屏了，大致看了下新闻大致了解了下思路，觉得好像思路还好，但是看GPT 2.0那个生成的续写故事的例子确实吓了我一跳，这个效果好到出人意料。我看网上有些有才的朋友评论说：“应该让GPT去续写红楼梦后40回”，我估计高鹗听后，正在地下或者天上凝视着说这句话的朋友瑟瑟发抖（这位有才的朋友，你想到这个场景会瑟瑟发抖吗，哈哈），被人批评水平不够100年，本来就郁闷，结果目前还冒出一个替代者，嘿嘿。还有的朋友说，也可以让GPT去把那些挖坑不填坑的垃圾网络小说作品续完。我觉得把GPT当作垃圾文学回收站，也是个不错的主意，但是我想问的是你问过GPT本人的意见吗？写小说这种工作，目前NLP技术很明显还差得远，不过如果再发展一步的话，还真有这种可能。

我的预感，未来两年NLP可能会不断爆出类似的刷屏新闻，真的进入一个技术快速发展期。按理说，这是NLP研发者的黄金期，这种时期最容易出好的成果，但是事实上，很可能你只能作为看热闹的看客，眼看他起高楼，眼看他宴宾客，但是别人的红火与你无关。我想这种心情，昨天估计不敢刷朋友圈怕心灵创伤难以愈合的的单身狗朋友们，他们对这种类似的感受是理解最深的。那么为什么说NLP很可能进入快速发展期但是与你无关呢？原因我后面会说。

下午有位技术媒体的朋友问我说是不是写点看法，我觉得貌似从技术上看算是正常进展，所以写不写都行，看了论文再决定。结果一直开会开到晚上，回家找来论文仔细看了一看，再结合前几天媒体广泛传播的微软的MT-DNN 技术，它们之间以及和Bert之间，是有内在联系的，所以觉得可以放一起简单谈谈看法，于是动手熬夜写了这篇。本来我春节期间写好了三篇推荐系统召回模型系列的文章，想最近先发一篇的，想了想既然GPT 2.0热度高，不如蹭个热度先发了，召回模型以后再慢慢陆续发出来吧。

进入正题。

GPT 2.0到底做了什么

之前在介绍Bert的文章里：从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史，我说GPT有个缺点，就是作者不太会炒作，因为它是个非常扎实的重大NLP进展，出生证日期显示年龄比Bert大，但是Bert哇哇坠地就引来各界慈爱的目光，和交口称赞，GPT只能躲在无人角落里暗地泪垂，演绎了算法模型界的真正的同人不同命，冰火两重天。没想到时过不到4个月，GPT 2.0就爆红，被推上打着聚光灯的华美舞台，惊艳亮相。炒作能力见长进，其实挺好，好工作其实是应该PR的，这样能让更多人跟进真正有价值的工作，而这会更进一步促进领域的进步和发展，形成正循环。而不是特别好的工作过度PR，会错误地引导大量人力／时间／机器等资源投入到错误的方向，这个其实是种资源浪费。

在谈GPT 2.0之前，先回顾下它哥GPT 1.0，这个之前我在介绍Bert模型的时候介绍过，过程参考上图，简述如下：GPT 1.0采取预训练+FineTuning两个阶段，它采取Transformer作为特征抽取器。预训练阶段采用“单向语言模型”作为训练任务，把语言知识编码到Transformer里。第二阶段，在第一阶段训练好的模型基础上，通过Finetuning来做具体的NLP任务。GPT 1.0本身效果就很好，不过之前说过，因为不会PR，所以默默无闻，直到Bert爆红后，才被人偶尔提起。从大框架上来说，Bert基本就是GPT 1.0的结构，除了预训练阶段采取的是“双向语言模型”之外，它们并没什么本质差异，其它的技术差异都是细枝末节，不影响大局，基本可忽略。

那么GPT 2.0本质上是怎么做的呢？最大的改进是什么？其实几句话就能说明白，就是上图写的内容。

它的大框架其实还是GPT 1.0的框架，但是把第二阶段的Finetuning做有监督地下游NLP任务，换成了无监督地做下游任务，为啥这么做？后面会讲。我相信如果你理解GPT 1.0或者Bert，那么是非常容易理解GPT 2.0的创新点在哪里的。

那么它最大的改进在哪里？本质上，GPT2.0选择了这么一条路来强化Bert或者是强化GPT 1.0的第一个预训练阶段：就是说首先把Transformer模型参数扩容，常规的Transformer Big包含24个叠加的Block，就是说这个楼层有24层高，GPT 2.0大干快上，加班加点，把楼层连夜盖到了48层，高了一倍，参数规模15亿，这个还是很壮观的，目前貌似还没有看到过Transformer楼层有这么高的模型。那么，为什么要扩容呢？这个只是手段，不是目的。真正的目的是：GPT 2.0准备用更多的训练数据来做预训练，更大的模型，更多的参数，意味着更高的模型容量，所以先扩容，免得Transformer楼层不够多的房间（模型容量）容纳不下过多的住户（就是NLP知识）。

水库扩容之后，我们就可以开闸放水了。本质上GPT 2.0主要做的是：找更大数量的无监督训练数据，这个其实好办，反正是无监督的，网上有的是，估计未来有一天我写的这篇文章也能住进GPT 2.0的Transformer客房里。所以，GPT2.0找了800万互联网网页作为语言模型的训练数据，它们被称为WebText。当然，光量大还不够，互联网网页还有个好处，覆盖的主题范围非常广，800万网页，主题估计五花八门，你能想到的内容，除了国家禁止传播的黄赌毒，估计在里面都能找到。这带来另外一个好处：这样训练出来的语言模型，通用性好，覆盖几乎任何领域的内容，这意味着它可以用于任意领域的下游任务，有点像图像领域的Imagenet的意思。GPT 2.0论文其实更强调训练数据的通用性强这点。当然，除了量大通用性强外，数据质量也很重要，高质量的数据必然包含更好的语言及人类知识，所以GPT 2.0还做了数据质量筛选，过滤出高质量的网页内容来。

之后，GPT 2.0用这些网页做“单向语言模型”，我这里强调下，仍然是类似GPT 1.0的单向语言模型，而不是Bert的双向语言模型任务，后面我会单独讲下对这个事情的看法。这样GPT就可以训练出一个更好的预训练模型了，尽管GPT 2.0没有像Bert或者1.0版本一样，拿这个第一阶段的预训练模型有监督地去做第二阶段的Finetuning任务，而是选择了无监督地去做下游任务，尽管这看着和Bert差异很大，其实这点并不重要，甚至你都可以忽略掉这个过程（当然，最吸引眼球的是第二个过程），要记住对于GPT 2.0来说最重要的其实是第一个阶段。

其实，如果你不是非常专业的前沿NLP研究者的话，了解GPT 2.0，这就足够了，这即使不是GPT 2.0的百分之百，也有它的百分之80了。至于它提到的对Transformer结构的微调，以及BPE输入方式，我相信都是不太关键的改动，应该不影响大局。

如果你细致思考的话，上面讲述的GPT流程，其实隐含了三个问题。

第一问题是：为什么GPT 2.0第二阶段不通过Finetuning去有监督地做下游任务呢？

其实GPT的作者是想通过这种方式说明：你看，通过这种改造，GPT 2.0的Transformer学到了多少知识呀，通用性多强啊，做下游任务的时候，包括语言模型，QA，摘要，机器翻译这么多任务，即使不用有监督的方式，直接拿第一阶段用语言模型训练好的模型，都能比较好地做这些任务（从无监督的角度比，效果确实挺好，但是跟目前有监督的方法比很多效果差的还远，这也正常）。GPT作者心里想对你说的是：兄dei（说起这个流行词，我就有点哭笑不得，因为它让我想起一件往事：我那7岁的娃今年春节期间竟然对她妈妈说：兄dei，给我买个玩具小狗可好？），我就问你神奇不神奇？惊喜不惊喜？嗯，其它任务其实不惊奇，但是能做机器翻译这个确实有点意思，不展开讲了，建议机器翻译的实验部分可以好好看看想想为什么，论文里说了，这其实是个事故和意外，哈哈。

所以，第一个问题的答案是：无监督地去做很多第二阶段的任务，只是GPT作者想说明在第一阶段Transformer学到了很多通用的包含各个领域的知识，第二部分各种实验是对这点的例证，如此而已。这是为何说第二阶段其实不重要，因为它不是论文的中心思想，而是说明中心思想的例子。

下面谈隐含的第二个问题，第二个问题其实比较相对有那么点意思，什么问题呢，就是：“在预训练阶段，为什么GPT 2.0仍然固执地用单向语言模型，而不是双向语言模型呢？”你可以想想这背后可能是什么原因。关于这点，我讲讲我的看法，当然你别太严肃地看我下面的说法，就当是个我编撰的科技版八卦，今天不是“情人节后第二天纪念日”吗？我开个玩笑调节下气氛，哈哈。技术科普没必要老板着脸推公式，是吧，反正这是我的理念。

我的不太准的第六感隐隐约约地告诉我：貌似GPT 的作者们，对于GPT作为本来该火的前辈模型，结果默默无闻，而后来居上的Bert爆红，可能对这点有点意见？因为它们两者仅有的大的不同就是GPT用的单向语言模型，Bert用的双向语言模型做预训练。所以感觉他们在做GPT 2.0的时候憋着一口气。为啥这么讲呢？因为Bert在论文的实验部分已经证明了：Bert的效果比GPT好主要归因于这个双向语言模型（参考上图Bert的实验结果，去掉双向语言模型的对比模型其实就等价于GPT 1.0）。按理说，正常的思考模式，后面的改进模型应该采纳双向语言模型，原因很简单，因为它比单向的效果好。

但是，GPT 2.0仍然固执地选择单向语言模型（也许GPT 作者只想强调他们想做语言模型这个事情，毕竟生成内容后续单词这种模式，单向语言模型更方便，这估计是真正原因。不过既然我已经开始编八卦了，就索性编完，毕竟我不是个轻言放弃的人，哈哈），貌似作者们选择了另外一种打算赶超Bert的方式，就是提升模型参数容量和增加训练数据的数量，选了这么条路。我估计意思是说，Bert你别得意得太早，尽管我用单向语言模型，一样能干翻你。GPT 2.0的论文在末尾留了个引子，说打算试试看GPT 2.0的单向语言模型是不是就比Bert的双向语言模型差。估计他们还会推出GPT 3.0，但是肯定还是单向语言模型，就是说人家不服气，要靠其它方法用单向语言模型超过Bert。嘿嘿，当然，在强调一下，这是我编的八卦，或者是臆断，未必是事实，但是我死活想不明白为啥他们做下游任务的时候不用双向语言模型，想来想去貌似只有这个解释最合理，哈哈，这是我的小人之心和玩笑话，别当真。

下面严肃起来，不过我的感觉是，如果GPT 2.0采取双向语言模型，然后再把目前增加训练数据质量和数量的路子搭配起来，估计八九成做下游任务是能超过Bert的效果的，那为啥不这么做呢？觉得简单扩充数据，这么做创新性不够酷，所以走了无监督做下游任务的不寻常的路子？我估计后面GPT 3.0出来我们会知道真正的答案。当然，话讲回来，假设Bert也在第一阶段采取类似的扩充数据的改进方式，我相信GPT 3.0如果仍然采取单向语言模型的话，很大概率估计还是Bert赢。

最后是隐含的第三个问题，第三个问题也很有意思，这个问题其实跟第一个问题有点关系，问题是：“GPT 2.0 既然第二阶段是无监督的任务，而它不做Finetuning，那么你训练好一个语言模型，它当然会根据输入的一句话，给你蹦出后面可能紧跟那个单词，这是标准的语言模型过程，这个正常。但是如果这时候让它去做一个文本摘要任务，它怎么知道它现在在做什么事情呢，根据输入，应该输出什么东西呢？”就是这么个问题，你不细想可能容易忽略，但是细想其实挺有意思。

其实GPT 2.0在做下游无监督任务的时候，给定输入（对于不同类型的输入，加入一些引导字符，引导GPT正确地预测目标，比如如果做摘要，在输入时候加入“TL：DR”引导字符串），它的输出跟语言模型的输出是一样的，就是蹦出一个单词。那么问题来了：对于比如摘要任务，我们期待的输出结果是一句话或者几句话，你给我一个单词，有点太小气，那该怎么办？很简单，继续一个字一个字往出蹦，按照这些字从系统里蹦出来的时间顺序连起来，就是你想要的摘要结果，这种所有任务采取相同的往出蹦字的输出模式也是有点意思的。就是说，GPT2.0给出了一种新颖的生成式任务的做法，就是一个字一个字往出蹦，然后拼接出输出内容作为翻译结果或者摘要结果。传统的NLP网络的输出模式一般需要有个序列的产生结构的，而GPT 2.0完全是语言模型的产生结果方式：一个字一个字往出蹦，没有输出的序列结构。

上面内容应该就是我觉得关于GPT 2.0，最值得了解的部分以及它的核心思路和思想了。

我的感觉，GPT 2.0作为语言模型，用来生成自然语言句子或者段落的能力特别强，要理解有多强，看下面的例子就知道了：

参考上图，系统提示出一个故事开始的几句话，然后后面的内容就靠GPT2.0的语言模型一个字一个字往出蹦，蹦出很多字后，形成后它补充的故事，如果你英文还可以的话，建议还是看看里面的内容。文章开始说我看了GPT的例子吓了一跳，就是说的这个例子。无论是语法，可读性，语义一致性，都是很强的，这个超出我对目前技术的期待。也许未来我们会拥有GPT版莎士比亚，也未可知，我对此很期待。

归纳一下，我觉得，我们可以从两个不同的角度来理解GPT 2.0。

一个角度是把它看作采取类似Elmo/GPT/Bert的两阶段模型解决NLP任务的一种后续改进策略，这种策略可以用来持续优化第一阶段的预训练过程。毕竟目前GPT 2.0还只采用了800万的网页。你说用一亿网页去训练可以吗？理论上看是可以的，方法都是现成的，就是Bert那种方法，可能连改都不用改。但是实际上要看你自己或者公司的账户余额，你数数后面有几个零，你没数我都遥远地隔着屏幕听到了你的叹息声了，是吧？

当然，从GPT 2.0的做法和结果来看，可能意味着这一点是可行的：后面我们也许可以通过现在的Transformer架构，持续增加高质量网页数量，就能够不断让Transformer学到更多的知识，继而进一步持续对下游任务有更高的提升。这是一条简单有效的技术发展路径。这也是为何我在开头说，隐隐地预感到未来两年我们会持续看到不同的NLP任务记录被刷新，以及不断爆出的新纪录。为什么？很简单，加大预训练数据量很可能就能做到这点。是否真的会是这样，我们拭目以待，我对此也很有期待。当然，你会问：这么做的收益有边界吗，如果无限增加数据，就能持续提升任务效果，没有终点吗？事实肯定不是这样，如果真是这样那真是个天大的好消息，而这不可能，不过话说回来，但是目前GPT 只用了800万网页，这肯定还只是一个开始，距离这种优化模式的天花板还远。

那么另外一个问题是：GPT 2.0和Bert两阶段模型是什么关系？其实答案上面都说了，GPT 2.0其实进一步验证了Bert这种两阶段是个非常有效的无监督NLP语言知识编码方法。进一步在哪里？它说明了第一个阶段的预训练过程，如果采用更高质量的数据，采用更宽泛的数据（Web数据量大了估计包含任何你能想到的领域），采用更大量的数据（WebText，800万网页），Transformer采用更复杂的模型（最大的GPT2.0模型是Transformer的两倍层深），那么在Transformer里能学会更多更好的NLP的通用知识。为什么是通用的？因为第二阶段不做任何fine-tuning就能达到更好的效果，而且是各种任务，说明通用性好，通用性好说明了学到了各种类型的语言知识；而这无疑，如果我们第二阶段仍然采取Finetuning，对下游任务的提升效果是可以很乐观地期待的。

另外一个角度也可以把GPT 2.0看成一个效果特别好的语言模型，可以用它来做语言生成类任务，比如摘要，QA这种，再比如给个故事的开头，让它给你写完后面的情节，目前看它的效果出奇的好。当然，仅仅靠拼数据量做纯语言模型能让机器产生情节合理的文章吗？我觉得可能性不太大，GPT 2.0的生成内容质量好，很可能只是它的记忆能力强导致的，我估计可能是它在把它从大量网页中记忆的语言片段往外直接抛出来的，不代表它真有编写合理故事的能力。为什么GPT 2.0通过语言模型能够在QA任务中能够不做训练，回答正确一定比例的问题？我觉得很可能是因为预训练数据集合太大，又比较宽泛，这些问题及答案在网页里面很接近的地方出现过。而看它的实验部分，起码QA任务确实也是这样的。

但是不论如何，GPT 2.0的结果起码告诉我们，走这条路子对于产生高质量的生成文章是很有帮助的，我觉得起码对于生成句子的流畅性，可读性这些语言表层的方面有直接帮助，但是涉及到情节，这个估计就纯粹靠蒙了。但是写到这句话的时候，我突然想到了一个改进它的思路，让它能够受到你想要的情节context的约束去生成内容，有点跑题，就不展开讲了。我觉得对于GPT 2.0的改进方向来说，如何加入情节约束，产生特别好的生成文章，这个是个很有前途的方向。而在这点上，GPT 2.0的贡献是给我们指出了一条路，就是Transformer+刷数据量，省心省力费机器的一条路。另外，Transformer之前在语言模型上通常做不过RNN，虽然有后续研究表明它可以达到RNN类似的效果，但是GPT 2.0无疑进一步突破了这个障碍，为Transformer的进一步攻城略地打下了坚实的基础。

Bert的另外一种改进模式：进一步的多任务预训练

上面介绍的是GPT 2.0的改进模式，如上归纳，它采取的大的策略是：优化Bert的第一个预训练阶段，方向是扩充数据数量，提升数据质量，增强通用性，追求的是通过做大来做强。那么如果让你来优化Bert模型，除了这种无监督模式地把训练数据做大，还有其它模式吗？

当然有，你这么想这个问题：既然Bert的第一个阶段能够无监督模式地把训练数据做大，我们知道，机器学习里面还有有监督学习，NLP任务里也有不少有监督任务是有训练数据的，这些数据能不能用进来改善Bert第一阶段的那个学习各种知识的Transformer呢？肯定是可以的呀，所以很自然的一个想法是：把Bert第一阶段改成多任务学习的训练过程，这样就可以把很多NLP任务的有监督训练数据里包含的知识引入到Transformer中了。

这种做法一个典型的模型是最近微软推出的MT-DNN，改进思路就如上所述，可以参考上图示意。核心思想如上，结构上底层就是标准的Bert Transformer，在上层针对不同任务构造不同优化目标，所有不同上层任务共享底层Transformer参数，这样就强迫Transformer通过预训练做很多NLP任务，来学会新的知识，并编码到Transformer的参数中。

对Bert的多任务改造其实是个非常自然的Bert的拓展思路，因为本来原始版本的Bert在预训练的时候就是多任务过程，包括语言模型以及next-sentence预测两个任务。新的多任务的目标是进一步拓展任务数量，以此来进行模型优化。

这种改进在效果上也有直接的效果提升，在11项NLP任务中9项超过了原始版本的Bert。

我觉得如果你是做应用，这条路也可以走得更远一些，引入更多的有监督NLP任务，集成更多的知识，无疑这么做是有好处的。

NLP领域的一些发展趋势

最后，我结合最近两个月一些热门技术新闻的做法，顺便再谈谈我的一些关于NLP技术趋势的看法，有些观点之前提过，再强调一下，有些观点比较细，算是一个归纳吧。

目前可以看出，从NLP主流模型进化的角度，有以下几个趋势：

第一个趋势：采取Bert的两阶段模式，Bert虽然还没多大岁数，还不到一岁，但是最近两个月，目前各种NLP评测刷榜的基本都是它。据我所知很多具备一定规模的互联网公司已经都开始在评估部署Bert模型了，微博也用Bert大幅度改进了标签分类的精度，目前正在其它各种NLP应用任务进一步推广。没办法，Bert效果确实好，你不得不服。所以这个趋势已经开始彰显了；

第二个趋势：特征抽取器采用Transformer，这个之前在做NLP特征抽取器的文章里，我说明过原因，根本原因是效果比CNN和RNN好，至于它们之间的比较，可以参考之前的文章：放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较。当然，Transformer也有几个重点改进方向，这个后面找机会详细说一下。

第三个趋势，从最近的几个工作，我们可以看出Bert两阶段模式中，第一个预训练阶段的两种改进方向：当然基础是越来越深（意味着模型参数容量大，各种知识和数据？就是死记硬背我也要记住你，大致就是这个意思）的Transformer作为特征抽取器；第一阶段的改进工作花开两只：

一种是强调通用性好以及规模大。加入越来越多高质量的各种类型的无监督数据，GPT 2.0指出了个明路，就是净化的高质量网页，这个跟无限也差不多了，就看你舍得花多少钱去训练模型。通俗点说，就是靠数据规模和金钱堆出来的。它的最明显好处是通用性好，训练好后什么场合都适用。但是因为单纯做纯语言模型任务的话，学习效率低一些，只能靠量大取胜，这是种“瘦死的骆驼比马大”的策略；

第二种是通过多任务训练，加入各种新型的NLP任务数据，它的好处是有监督，能够有针对性的把任务相关的知识编码到网络参数里，所以明显的好处是学习目标明确，学习效率高；而对应的缺点是NLP的具体有监督任务，往往训练数据量少，于是包含的知识点少；而且有点偏科，学到的知识通用性不强。

当然，我相信，我们很快会看到两者的合流，就是同时用超大规模的无监督语言模型+各种花样的有监督NLP多任务训练。这很正常，因为其实语言模型也是多任务的一种，本来Bert原始的预训练过程就是多任务的：一个是语言模型，一个是next sentence预测。多任务无非是把Bert的两个任务拓展到更多任务中去。所以两者本来就是从Bert很自然能够引出来的自然而然，又一体化的事情。

那么好奇的你问了：这种模式的发展尽头在哪里？

我指指银行的方向：那就是你这个问题的答案。当然，我不是在唆使你去抢银行啊，别会错意，否则迎接你的不是美酒，而会是手铐和猎枪。

第四个趋势：GPT2.0其实真正能够吸引人眼球的是它生成的高质量内容，让人印象深刻。从GPT 2.0的结果看，这种采取超深层Transformer+更大量的网页数据去做更好的语言模型，并进而做各种生成式任务，看样子是有前途的。当然，我前面提到，估计要引入情节规划的约束，这个事情才能真正做好。

玩法的转向

上面简单谈谈我个人认为的几个技术趋势，其实最近的一些技术进展，隐隐地透漏出NLP研发模式的一个转向，那么是怎样的一个转向呢？

我们从Bert/GPT 2.0也可以看出NLP研发模式在将来的一个发展趋势：充分利用更大容量的模型，利用无限的无监督的人写好的文章，去编码其中蕴含的语言学知识，以及，人类的知识。很明显NLP已经在往这个方向转向，而这背后隐藏着什么？超级昂贵的GPU计算时间，超大规模GPU机器学习集群，超长的模型训练过程。归根结底一句话：靠烧钱。靠烧钱背后又有两层意思，一个意思是你没钱就玩不起，就会被清除出NLP的竞赛场；另外一个意思是：即使你们公司有钱，但是钱让不让你花在这上面？当然这是另外一个问题。

总而言之，这说明NLP值得一提的技术进展的玩法已经变了，以后游戏规则变成了：土豪大科技公司靠暴力上数据规模，上GPU或者TPU集群，训练好预训练模型发布出来，不断刷出大新闻。通过暴力美学横扫一切，这是土豪端的玩法。而对于大多数人来说，你能做的是在别人放出来的预训练模型上做小修正或者刷应用或者刷各种榜单，逐步走向了应用人员的方向，这是大多数NLP从业者未来几年要面对的dilemma。原因很简单，如果上数据能够推进NLP效果，这其实是非常好的事情，这意味着我们会进入技术发展快车道，因为目标和手段非常简单明确，但是这背后的潜台词技术：目前变成了已经进入烧钱比进展的时代了，而很明显，在未来的1到2年里，类似Google/Facebook这种财大气粗而且创始人具备极端的科学热情的的土豪科技公司，会积累越来越明显的军备竞赛优势，我们会看到未来这些公司不断爆出在各个NLP应用领域的各种刷新记录，及更巨无霸的新模型的出现。

这对于身处公司里的同事们，其实是个好事情，因为我们本身就是做应用的，追求短平快，简单有效最好不过，但是这对学术圈来说，意味着什么呢？这个问题值得您深入思考。

好了，今天啰嗦到这里，就此别过。

对了，忘了提了，本文作者栏那个名字其实是个笔名，隐藏在幕后的真实作者是：GPT 2.0。

作者简介

张俊林，中国中文信息学会理事，中科院软件所博士。目前在新浪微博 AI Lab 担任资深算法专家。在此之前，张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队，以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎：核心技术详解》（该书荣获全国第十二届优秀图书奖）、《大数据日知录：架构与算法》的作者。

你可能感兴趣的:(效果逆天的通用语言模型GPT 2.0来了，它告诉了我们什么？)

java 静态变量声明_java静态变量怎么声明？柚酱 java 静态变量声明
展开全部个人的总结1静态变量e69da5e6ba9062616964757a686964616f31333337616564只有一份被类的所有实例共享2静态变量的声明在编译时已经明确了内存的位置3延迟初始化是改变静态变量的值引用Java静态变量的初始化(static块的本质)在网上看到了下面的一段代码：1.publicclassTest{2.static{3._i=20;4.}5.publicst
python优先队列使用_Python优先队列实现方法示例
本文实例讲述了Python优先队列实现方法。分享给大家供大家参考，具体如下：1.代码importQueueimportthreadingclassJob(object):def__init__(self,priority,description):self.priority=priorityself.description=descriptionprint'Newjob:',description
python优先队列使用_python 线程队列PriorityQueue（优先队列）（37）
在线程队列Queue/线程队列LifoQueue文章中分别介绍了先进先出队列Queue和先进后出队列LifoQueue，而今天给大家介绍的是最后一种：优先队列PriorityQueue，对队列中的数据按照优先级排序，那么具体怎么用呢？一.队列Queue分类：1.线程队列Queue—FIFO(先进先出队列)，即哪个数据先存入，取数据的时候先取哪个数据，同生活中的排队买东西；2.线程队列LifoQue
android FlutterFragment 引入 Flutter ，dartEntrypoint配置多引擎，使用MethodChannel 双向数据交互通信
androidFlutterFragment引入Flutter，dartEntrypoint配置多引擎，使用MethodChannel双向数据交互通信FlutterFragment是Flutter提供的一个组件，用于在Android原生应用中嵌入Flutter模块作为Fragment使用。FlutterFragment允许开发者将Flutter视图集成到现有的Android应用架构中，作为Frag
文娱产业数字化转型的隐秘战场数据与人工智能律师人工智能大数据网络区块链云计算
（首席数据官高鹏律师数字经济团队创作，AI辅助）当《黑神话》用虚幻引擎点燃全球玩家热情时，当《长安三万里》以数字资产重构国风美学时，中国文娱产业的数字化革命已悄然进入深水区。这场没有硝烟的战争里，有人手握流量红利高歌猛进，有人却在数据迷局中折戟沉沙。某现象级手游曾因用户协议条款引发千万索赔，某头部影视公司AI生成素材陷入版权漩涡，这些看似偶然的危机背后，藏着文娱产业数字化转型的致命暗礁——数据权属
我国在AI、元宇宙、生成式AI赛道的竞争带来的投资机会数据与人工智能律师大数据区块链人工智能网络数据库
首席数据官高鹏律师团队编著中国在AI、元宇宙、生成式AI赛道的竞争已进入技术深化与商业落地并行的关键阶段，未来投资机会可围绕以下五大方向展开：一、基础设施与算力支撑1.云计算与混合云服务生成式AI对算力和云服务需求激增，联想集团等布局混合云的企业受益于企业数字化转型需求。IDC预测，到2025年，50%的企业将与生成式AI云提供商建立战略联系，云服务商需优化数据治理和成本控制能力。2.AI芯片与算
2025数字经济新政策解码：这五个黄金赛道，正在改写财富分配规则数据与人工智能律师人工智能大数据网络算法区块链
首席数据官高鹏律师团队创作，AI辅助一、政策东风下的财富重构：当免税清单变成“造富密码”2025年的春天，数字经济领域的政策“礼包”如同春雷炸响。从跨境电商的“阳光化新政”到智慧农业的“技术普惠”，从汽车零部件的“出海红利”到工业升级的“智能改造”，再到文旅餐饮的“消费重构”，五大行业正在经历一场财富分配的底层变革。这不是普通的政策调整，而是国家战略级的资源再分配——免税+补贴的组合拳，正在为先行
从小白到进阶：解锁linux与c语言高级编程知识点嵌入式开发的任督二脉（3） small_wh1te_coder c 嵌入式 linux c语言汇编 c++嵌入式硬件面试
【硬核揭秘】Linux与C高级编程：从入门到精通，你的全栈之路！第五部分：C语言高级编程——结构体、共用体、枚举、内存管理、GDB调试、Makefile全解析嘿，各位C语言的“卷王”们！在前面的旅程中，我们深入探索了Linux的奥秘，从命令行操作到Shell脚本编程，再到网络文件服务，你的Linux技能已经突飞猛进。现在，是时候回到我们的“老本行”——C语言了！你可能已经能够编写各种简单的C程序，
ElasticSearch中的分片是什么? java1234_小锋 java elasticsearch 大数据搜索引擎
大家好，我是锋哥。今天分享关于【ElasticSearch中的分片是什么?】面试题。希望对大家有帮助；ElasticSearch中的分片是什么?超硬核AI学习资料，现在永久免费了！在Elasticsearch中，分片（Shard）是将数据拆分成更小的部分，允许在分布式环境中并行处理和存储数据的机制。它是Elasticsearch在水平扩展时用于管理大量数据的关键概念。主要概念：主分片（Primar
扒开嵌入式硬件的底裤（上）！从 PCB 到 FPGA/IC 设计，小白到 CTO 的必学秘籍硬核知识点全揭秘！从c语言入门到mcu与arm架构及外设相关 small_wh1te_coder 嵌入式内核嵌入式开发嵌入式硬件算法 c 汇编面试驱动开发单片机
【硬核揭秘】嵌入式硬件工程师的“底裤”：从入门到牛逼，你必须知道的一切！第一部分：破冰与认知——嵌入式硬件工程师的“世界观”嘿，各位C语言老铁，以及所有对“让硬件听你话”充满好奇的朋友们！我是你们的老朋友，一个常年“折腾”在代码和电路板之间的码农。今天，咱们要聊一个真正能让你“硬”起来的话题——如何成为一个合格、优秀、牛逼的嵌入式硬件工程师！你可能正坐在电脑前，敲着C语言代码，刷着力扣算法题，心里
你以为的 () 只是函数调用？栈的战争：函数调用背后，编译器、链接器、CPU与黑客的四方博弈解剖CPU、内存与安全交织的底层真相了解函数调用的暗流：从C括号到CPU指令、栈帧攻防的生死时速 small_wh1te_coder c++c 算法 c语言 c++c 算法面试
作者：smallcodewhite更新：2025.6.4号下午6点13分小引子：在软件这行当里混久了，你会发现一个现象：很多人能用各种高级语言、框架写出复杂的业务，但一遇到诡异的崩溃、性能瓶颈，或者需要和底层硬件打交道时，就抓瞎了。究其原因，是对计算机体系最基础的运行模型理解得不够透。上一篇我们聊了点数据在内存里的存放问题，有兄弟说不够劲，没触及灵魂。说得好。今天，咱们就来干一件有挑战性的事：把C
ES 地理网格聚合，基于位置模糊搜索（热力图）
简介热力图需要按照一定范围聚合数据。聚合要求字段必须为geo-point类型ES中geo-point类型，包含lat、lon和geohash信息。"coordinate":{"lat":39.90894,"lon":116.82192,"geohash":"wx55435nkj9h","fragment":true}其中geohash字段是经纬度经过二进制变化、合并和Base32编码得到的编码，编
RK3128 通过串口终端打开网络ADB 站在巨人肩膀上的码农 RK3128 驱动开发 rk 安卓 adb
操作如下：rk3128:/#stopadbdrk3128:/#setproppersist.sys.tcpadb1rk3128:/#setpropservice.adb.tcp.port5555rk3128:/#startadbd然后就可以去连接网络adb了。persist.sys.tcpadb这个属性名字可以自己在代码里面去设置，不一定要叫这个名字。
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
Python|Pyppeteer规避反自动化检测方法【最新方案】(33) 写python的鑫哥 Pyppeteer从入门到精通 python pyppeteer puppeteer 规避反自动化检测反爬虫
前言本文是该专栏的第33篇，结合优质项目案例持续分享Pyppeteer的干货知识，记得关注。相信有些同学在使用Pyppeteer框架进行某个自动化操作的时候，会触发平台的检测机制，让目标平台识别出当前是机器人在操作，而非人为操作，导致让你的程序无法继续进行下一步。对于上述这种情况，你是不是有很大的疑惑呢？别担心，本文笔者专门针对上述问题，来详细介绍在使用Pyppeteer的过程中，出现反自动化机制
深度报告：中老年AI陪伴机器人需求分析 MidJourney中文版 AI机器人人工智能机器人
银发经济新赛道：中老年陪伴聊天AI机器人需求价值与发展路径分析1老龄化社会的隐性需求全球人口结构加速老龄化背景下，老年孤独问题日益凸显为公共健康挑战。传统家庭结构变迁导致独居老人比例持续上升，情感支持缺位与社交隔离形成双重压力，而现有社会服务难以满足高频次、个性化的陪伴需求。在此现实困境中，具备自然语言交互能力的AI机器人玩具展现出独特价值——通过技术手段填补情感空缺，成为应对银发群体精神健康问题
Socket编程——TCP 兰雪簪轩 Linux tcp/ip 网络协议网络
文章目录一、TCP编程基础TCPsocketAPIsocket二、EchoServer对于服务端对于客户端server.hppServer.ccClient.ccCommandExec.hpp一、TCP编程基础TCP协议和UDP协议都属于网络通信协议，TCP协议是面向字节流的，UDP协议是面向数据报，这个特点后面会详谈的。对于现在来说UDP和TCP的区别为：UDP协议不需要连接，即报文一来就立刻进
【Unity&AssetBundle】同步加载大飞pkz Unity C#unity 游戏引擎 C#AssetBundle AssetBundle同步加载 AB包
加载包的方式包括：LoadFromFile（从文件）、LoadFromMemory（从内存）、LoadFromStream（从流）【异步同理】1.同步加载第一步.从Asset下的只读文件夹下获取AB包，下面是加载包路径为“Asset/StreamingAssets”，“cube”为包名AssetBundleab=AssetBundle.LoadFromFile(Application.stream
DPDK 网卡驱动唯独不开心 DPDK 开发语言
DPDK里的PMDs负责处理网络数据包与内存之间的数据交互。而接下来提到的UIO和VFIO是两种不同的驱动方式，允许DPDK绕过内核网络栈，直接在用户空间高效地访问硬件设备。这部分内容会围绕使用这两种驱动的PMDs展开，可能会涉及到它们的配置、使用场景、性能特点等方面。新名词IOMMU（Input-OutputMemoryManagementUnit，输入输出内存管理单元）定义：IOMMU（Inp
数据资产确权的法律路径：从原始数据到衍生产品的权利归属
首席数据官高鹏律师数字经济团队创作，AI辅助在数字经济时代，数据已成为堪比石油的战略资源。某新能源车企因驾驶数据归属争议损失数十亿，某电商平台用户画像被竞争对手“合法”窃取的案例频发，暴露出数据这座“金山银山”背后隐藏的法律暗礁。当原始数据的采集边界模糊不清，当衍生数据的价值裂变引发权属混战，如何用法律之钥打开数据资产的财富之门？这不仅是技术命题，更是数字时代的法律革命。一、原始数据：数字土壤上的
rk3128 emmc显示剩余容量为0 站在巨人肩膀上的码农 RK3128 rk 驱动开发 emmc
机器emmc容量显示异常，显示剩余容量为0，这时候做了一个让系统不检测GPP分区部分的操作，此问题才得以解决，如下：system/vold/DirectVolume.cpp@@-33,6+33,8@@#include"VolumeManager.h"#include"ResponseCode.h"#include"cryptfs.h"+#include+#include#definePARTITI
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
JMH基准测试入门：科学测量Java代码性能的艺术 zhysunny Java类库 java 开发语言
目录一、为什么需要JMH？二、快速入门：你的第一个基准测试1.添加JMH依赖2.编写测试类3.运行并查看结果三、JMH核心概念详解1.测试模式（@BenchmarkMode）2.状态管理（@State）3.预热与测量（@Warmup&@Measurement）四、进阶技巧：解决真实问题案例1：HashMap初始容量优化案例2：流(Stream)vs传统循环五、避免JMH测试的常见陷阱1.死代码消除
基于条件风险价值CVaR的微网动态定价与调度策略（Matlab代码实现） Ps.729 matlab 开发语言
‍个人主页欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、CVaR的理论基础及其在微网中的适用性1.CVaR的定义与优势2.微网应用场景适配性二、动态定价与调度模型的联合优化框架1.目标函数设计2.动态定价机制3.不确定性处理方法三、关键算法与求解策略1.随机规划与CVaR集成2.智能优化算法对比四、实证
景联文科技完成数千万元Pre-A轮融资，布局公共数据生产运营｜36氪首发景联文科技人工智能
景联文的目标是，成为地方政府的公共数据生产、运营商，帮助挖掘公共数据的最大价值。36氪获悉，数据服务公司「景联文科技」于近期完成了数千万元Pre-A轮融资，投资方为杭州金投集团旗下基金。据悉，景联文科技本轮融资将用于公共数据生产运营的布局、智能化语料工程平台构建、以及自建垂直领域高质量标注基地，打造“平台+基地+行业”的数据链闭环生态。景联文科技成立于2012年，是一家AI数据服务运营商。据景联文
景联文科技完成数千万元Pre-A轮融资，加速公共数据生产运营战略布局景联文科技人工智能大数据
2025年5月，景联文科技近期完成数千万元Pre-A轮融资，投资方为杭州金投集团旗下基金，本轮融资将用于布局公共数据生产运营、构建智能化语料工程平台和自建垂域高质量标注基地，形成"平台+基地+行业"的数据链闭环生态。一、聚焦公共数据生产运营国家数据局成立标志着数据治理从“分散监管”向“集中统筹”转型，从顶层设计开始快速推动“数据要素市场化”。2025年5月，国家宣布将加大中央财政资金投入，支持地方
dnSpy 使用教程
一、dnSpy简介dnSpy是一款功能强大的免费开源.NET反编译工具，支持对.NETFramework、.NETCore和Mono程序进行反编译、调试与修改，能将程序集反编译为C#或IL（中间语言）代码，帮助开发者或安全研究人员深入分析和理解.NET程序的内部逻辑。它为逆向工程工作提供了极大便利，使相关操作更易于理解和执行。与之类似的ILspy也是一款知名的开源.NET反编译软件，下面将对二者进
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
FeignClient客户端调用入门超龄超能程序猿 java spring
在分布式微服务架构广泛应用的技术背景下，服务间通信机制的设计与实现已成为系统开发的核心环节。Feign作为一种基于声明式编程范式的HTTP客户端框架，通过标准化的接口定义与注解配置，显著降低了Web服务调用的开发复杂度，有效提升了微服务间的交互效率。在SpringCloud技术栈体系中，Feign客户端功能的实现主要依托于@FeignClient注解，该注解通过整合Spring框架的依赖注入与动态
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio