喜欢打酱油的老鸟

如何评价1700亿参数的GPT-3？

作者：李如
链接：https://www.zhihu.com/question/398114261/answer/1253942032
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

GPT-3依旧延续自己的单向语言模型训练方式，只不过这次把模型尺寸增大到了1750亿，并且使用45TB数据进行训练。同时，GPT-3主要聚焦于更通用的NLP模型，解决当前BERT类模型的两个缺点：

对领域内有标签数据的过分依赖：虽然有了预训练+精调的两段式框架，但还是少不了一定量的领域标注数据，否则很难取得不错的效果，而标注数据的成本又是很高的。
对于领域数据分布的过拟合：在精调阶段，因为领域数据有限，模型只能拟合训练数据分布，如果数据较少的话就可能造成过拟合，致使模型的泛华能力下降，更加无法应用到其他领域。

因此GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。

为了达到上述目的，作者们用预训练好的GPT-3探索了不同输入形式下的推理效果：

这里的Zero-shot、One-shot、Few-shot都是完全不需要精调的，因为GPT-3是单向transformer，在预测新的token时会对之前的examples进行编码。

作者们训练了以下几种尺寸的模型进行对比：

实验证明Few-shot下GPT-3有很好的表现：

最重要的是，GPT-3的few-shot还在部分NLU任务上超越了当前SOTA。该论文长达72页（Google T5是53页），第10页之后都是长长的实验结果与分析。

显然，GPT-3的模型参数、训练数据和工作量都是惊人的，论文署名多达31个作者，所有实验做下来肯定也耗费了不少时间。虽然一直都存在对于大模型的质疑声音，但我们确确实实从T5、GPT-3这样的模型上看到了NLP领域的进步，众多业务也开始受益于离线或者线上的BERT。事物的发展都是由量变到质变的过程，感谢科研工作者们的不懈努力和大厂们的巨额投入，奥利给。

GPT-3诞生，Finetune也不再必要了！NLP领域又一核弹！mp.weixin.qq.com

编辑于 05-30

作者：李渔
链接：https://www.zhihu.com/question/398114261/answer/1275545519
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这是一件值得我们在战略上重视的事。

抛开 GPT-3 这项工作的具体发现不谈，简单说一说这项工作给我带来的担忧：

1、AI 领域的科研垄断似乎正在形成

刚听说了 OpenAI 出了 1700 亿参数的 GPT-3 时，给我的感受就好像是，我们还在琢磨怎么用好 100 nm 工艺线研发芯片时，别人已经宣布跑通 9 nm 工艺线了。这种震惊相信芯片领域的同学有切身的感受。保守估计，GPT-3 的训练费用在数百万美金到千万美金之间，显然这样的花销国内很难有团队可以承受。那么在算力这个层面，科研垄断已经形成了。

再回到芯片领域，由于长期缺乏足够的资金支持同时很少接触到先进的工艺线，国内很多研究人员（既包括高校，也包括企业）长期只能做电路的理论分析和仿真研究，长期处在低水平的探索中，导致很难在芯片领域做出突破性的成果。

记得五年前，我在知乎上分享了一项有关世界上第一款光电混合CPU的研究，这个工作由 UC Berkeley, MIT & University of Colorado Boulder 研究人员共同完成，在当年的 Nature 上进行了报道。简而言之，他们第一次在微电子标准 CMOS 工艺下，利用IBM商用的 45 nm 工艺线实现了光电混合集成的 CPU。然而，五年过去，依然没有听到国内有哪家单位在做。而对方已经创业，开始尝试将这一技术应用到数据中心中。

如果接下来几年类似 GPT-3 这样的超大规模模型依然只是被少数几家强 AI 机构垄断，那么芯片领域的当下局面很有可能出现在 AI 领域。

2、长期的算力垄断很有可能带来系统性的AI技术垄断

可能有一些同学会说，上面说的未免有点杞人忧天，毕竟这么重的 GPT-3 在实际中连拿来 inference 都不太可能。但是我们看 GPT-3 的文章会发现，这是一项系统工程。前面

@王星

答主也提到，单是作者贡献就单独列了一页。显然，GPT-3 是一项很有挑战的工程项目。一项有挑战的工程项目的完成，不论本身是否具有重要用途，在完成挑战过程中所突破的种种技术问题，就是一笔巨大的财富。比如，在训练过程中，如何在集群上实现超大规模参数的高效更新，如何处理梯度传播等等。

用阿波罗登月计划做一个不完全恰当的类比。抛开阿波罗登月计划对于美国在冷战期间的政治意义不谈，单就整个项目期间，研究人员在空间通信、材料科学、自动控制、集成电路、计算机科学方面所取得的种种技术突破，对后来美国多个民用领域的发展都起到了很大的推动作用。

GPT-3 仅仅只是一个开始，随着这类工作的常态化开展，类似 OpenAI 的机构很可能形成系统性的AI技术垄断。

一不留神多说了几句，总之，我们至少应该在战略上重视这个工作。

发布于 06-10

作者：袁进辉
链接：https://www.zhihu.com/question/398114261/answer/1254296176
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

英伟达副总裁 Bryan Catanzaro ：computation power make human ingenuity the limiting factor for AI research & development

中文：计算力让人工智能研究只有想不到，没有做不到

原版

编辑于 05-30

简单说三点和技术关系不大的：

GPT-3可能还是无法帮助OpenAI盈利，也无法直接上线显著造福网民，但是从中积累的大模型训练经验是OpenAI和他背后的微软Azure一笔巨大的财富。这就像，人类登上火星/月球可能并不能带来直接的资源收益，但是从中积累的科学技术却可以推动人类社会的发展。
我个人很喜欢大力出奇迹的工作，现在的NLP预训练如同中国的古话“熟读唐诗三百首，不会作诗也会吟”。我希望大家不要“看不上”这样的工作，并觉得给我卡我上我也行。NLP大规模预训练至少面临着：模型大了容易训崩（虽然我也不知道为什么，但是大Transformer就是会在某一个点突然模型Loss骤增）、模型并行容易有坑、训着训着机器坏了的容错问题。
我的回答一直强调，NLP的同学们，尤其是年轻的同学们，要去大厂、有资源的地方。虽然有了资源不一定行，但是没有资源现在肯定是不行了。

发布于 05-30

作者：Dr.Wu
链接：https://www.zhihu.com/question/398114261/answer/1254692810
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

作者：王星
链接：https://www.zhihu.com/question/398114261/answer/1253480720
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

第一次看挂这么多名字的论文详细地写Author contributions

Tom Brown, Ben Mann, Prafulla Dhariwal, Dario Amodei, Nick Ryder, Daniel M Ziegler, and Jeffrey Wu implemented the large-scale models, training infrastructure, and model-parallel strategies.

Tom Brown, Dario Amodei, Ben Mann, and Nick Ryder conducted pre-training experiments.

Ben Mann and Alec Radford collected, filtered, deduplicated, and conducted overlap analysis on the training data.

Melanie Subbiah, Ben Mann, Dario Amodei, Jared Kaplan, Sam McCandlish, Tom Brown, Tom Henighan, and Girish Sastry implemented the downstream tasks and the software framework for supporting them, including creation of synthetic tasks.

Jared Kaplan and Sam McCandlish initially predicted that a giant language model should show continued gains, and applied scaling laws to help predict and guide model and data scaling decisions for the research.

Ben Mann implemented sampling without replacement during training.

Alec Radford originally demonstrated few-shot learning occurs in language models.

Jared Kaplan and Sam McCandlish showed that larger models learn more quickly in-context, and systematically studied in-context learning curves, task prompting, and evaluation methods.

Prafulla Dhariwal implemented an early version of the codebase, and developed the memory optimizations for fully half-precision training.

Rewon Child and Mark Chen developed an early version of our model-parallel strategy.

Rewon Child and Scott Gray contributed the sparse transformer.

Aditya Ramesh experimented with loss scaling strategies for pretraining.

Melanie Subbiah and Arvind Neelakantan implemented, experimented with, and tested beam search.

Pranav Shyam worked on SuperGLUE and assisted with connections to few-shot learning and meta-learning literature.

Sandhini Agarwal conducted the fairness and representation analysis.

Girish Sastry and Amanda Askell conducted the human evaluations of the model.

Ariel Herbert-Voss conducted the threat analysis of malicious use.

Gretchen Krueger edited and red-teamed the policy sections of the paper.

Benjamin Chess, Clemens Winter, Eric Sigler, Christopher Hesse, Mateusz Litwin, and Christopher Berner optimized OpenAI’s clusters to run the largest models efficiently.

Scott Gray developed fast GPU kernels used during training.

Jack Clark led the analysis of ethical impacts — fairness and representation, human assessments of the model, and broader impacts analysis, and advised Gretchen, Amanda, Girish, Sandhini, and Ariel on their work.

Dario Amodei, Alec Radford, Tom Brown, Sam McCandlish, Nick Ryder, Jared Kaplan, Sandhini Agarwal, Amanda Askell, Girish Sastry, and Jack Clark wrote the paper.

Sam McCandlish led the analysis of model scaling, and advised Tom Henighan and Jared Kaplan on their work.

Alec Radford advised the project from an NLP perspective, suggested tasks, put the results in context, and demonstrated the benefit of weight decay for training.

Ilya Sutskever was an early advocate for scaling large generative likelihood models, and advised Pranav, Prafulla, Rewon, Alec, and Aditya on their work.

Dario Amodei designed and led the research.

发布于 05-29

作者：量子超感
链接：https://www.zhihu.com/question/398114261/answer/1253410132
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1. 炼丹师们以后连自黑调参侠也不敢了。

GPT-2 （参数15 亿）、Megatron-BERT（80 亿参数）、Turing NLG（170 亿参数），而GPT-3直接1700亿个参数。

当然，GPT-3不需要fine-tune，就能具有非常好的效果。

2. 当下入坑DL建议：穷搞理论，富搞预训练。（雾）

Google的T5论文的一页实验烧了几百万美元，当时看起来已经是壕无人性了，但背靠MS的OpenAI的GPT-3需要的GPU算力是BERT的近2000倍，训练成本保守估计一千万美元，以至于训练出了一个bug也无能无力，论文只能拿出一部分篇幅研究了这个bug会有多大影响。

Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.
不幸的是，过滤中的一个bug导致我们忽略了一些（训练集与测试集的）重叠，由于训练的成本的原因，重新训练模型是不可行的。

3. GPT-3对NLP和DL的意义还是非常重大的。

NLP可以说是实现AGI的最大难题，NLP的突破需要一个效果很好且通用的模型，GPT-3依凭借巨大的参数与算力已经极力接近这样的性质，在许多任务上（如翻译、QA和文本填空任务）拥有出色的性能甚至取得了SOTA。

然而，GPT-3还是存在一些局限，论文作者给出了未来有前景的方向：

建立GPT-3尺度的双向模型。
使双向模型能在少样本、零样本学习上工作。

4. 数据、模型、算力，三大要素，缺一不可，但算力还是王道：

畅想一下：几十年后，算力暴涨，如同今天的入门DL的本科生训练MNIST一样，那时的本科生深度学习第一章课后作业：复现一下T5和GPT-3。

NVIDIA YES！

编辑于 06-04

作者：二元倒回改造架构
链接：https://www.zhihu.com/question/398114261/answer/1264613526
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

看了些GPT3的文本生成样例，还挺有意思的。不过生成的东西还是漏洞频频，没有大家想象的那么强。

https://raw.githubusercontent.com/openai/gpt-3/master/175b_samples.jsonlraw.githubusercontent.com

GPT-3总体上来说，写的故事还是不错了。看起来比较真实，读起来也很有感觉。以下我仔细分析了GPT-3的几篇文章。第一篇讲中国的文章中，拿中国治安很好和美国枪支泛滥做对比，读起来好像作者真的是美国人似的。第三篇的推特爱情故事，真实地展现了Brandon Flowers几天的推文。虽然日期有些杂乱，但是大体上的内容非常真实。除了情情爱爱的套话之外，还刻画了邀请朋友来婚礼等生活细节，看起来饶有趣味。

GPT-3写的一个文章最大优点是都紧扣了主题。之前GPT-2的文章有时候写着写着就讲到另外一件事去了，而GPT-3改善了很多，至少在我看的几篇文章中都没有出现这种情况。

模型的好坏还和我们的评判标准有关。假如我们把GPT-3看成是一个小孩子，那么它能写出如此流畅、真实的文章，已经是令人惊喜了。但是，联想到其1000万美元的训练价格，我还是想严苛那么一下下，仔细找些文章挑出骨头来。

以下是文章展示和挑刺环节。其中我认为有问题的部分用黑体标出：

GPT-3也是个“中吹”

GPT-3讲述了一个外国人对中国人的喜爱和夸赞：

Trixie Textured - My cat licked my thumb.
Join Date: Nov 2006 Posts: 4,592
I have not been to China, though I have been to Japan and love it.
I have friends in China who have also been to Japan, and they both love it, and neither of them think of it as a \"poor\" country. In fact, a lot of people who have been there say that China is much nicer.
China is not a poor country. They have tons of money and resources. Their problem is that they do not spend enough on infrastructure and don't value education as highly as they could. So their people do not make as much money as they could. And they don't have nice things. It is much nicer than India, but not as good as Japan. I would like to visit it, because I do not think I would be disappointed, but I don't expect it to be better than Japan.
They have a different mindset than us, and do things differently. Their government is not a democracy. It is a communist government. I think that is not a bad thing, and has it's benefits. They have much fewer guns and gun crime than we do. They are, for the most part, more honest than we are. Their infrastructure, while not as nice as ours, is very good. They spend more on infrastructure than we do. They have much more public transportation, and better public transportation. They are working on their environmental problems, and they have made more progress than we have. They have fewer social problems, and less crime than we do. They have a very good education system, especially compared to India.
They spend more money on schools and education, and invest more in their future, than we do.
China is a country that is far more well developed than many people in the US would think.
The fact that they have fewer guns, and better education and fewer social problems is probably why they have fewer school shootings than we do. I think we have way too many guns in this country, and that is a big part of the problem.
Just my thoughts.

乍一看挺流畅的，不过仔细琢磨还是能看出不少前后不一致的地方。例如一开始讲到中国和日本两个国家时，指代有些杂乱。第一次讲"poor country"指代日本，第二次讲的时候不知怎么又拿来指代中国了。后面讲到infrastructure和education，前面一顿贬，后面竟然又自相矛盾地跨起来了。说明GPT-3虽然有一千多亿参数，但是文字功底还是只停留在符号层面，逻辑基础比较差。

2. GPT-3也会Arduino

GPT-3写了一篇Arduino教程：

Arduino
The Arduino is a small microcontroller, the key component for any hardware project. It allows you to interact with the real world with the help of sensors.
As you might know, the Arduino doesn’t come alone, it needs a small piece of hardware called the USB/serial converter to be able to interact with your computer and communicate with the Arduino.
By default the Arduino only comes with an Atmega328. This is a pretty good chip, as it can run up to 20MHz, has lots of RAM (32kB), lots of IO pins ( 20) and lots of serial ports (4).
We can still upgrade the Arduino with a more powerful chip, like the Atmega2560 ( 60MHz, lots of RAM, lots of IO pins and serial ports), the Atmega1280 ( 80MHz, lots of RAM, lots of IO pins and serial ports) or the Atmega2561 ( 62.5MHz, lots of RAM, lots of IO pins and serial ports).
As you can see, the difference between these chips is the speed (Mhz) and the amount of RAM.
The choice between the other 3 chips depends on the project you’re going to use the Arduino for. If you need a high speed for something like an audio or video streaming application, you should go for the Atmega2560 or Atmega2561. If you need a lot of IO pins for some digital inputs and outputs, you should go for the Atmega1280.
The first Arduino board I have made has a Mega2560 on it, so that’s what we’re going to be using. The pins can be easily set in a manner that suits the hardware project, and there are lots of examples and examples on the internet for lots of projects.
I2C, SPI
If you plan to use the Arduino to connect your hardware projects to a PC, you will need an extra cable. One that has the 2 signals to use with the Arduino (I2C or SPI) and another one to use with your PC (serial). This is what I will be using for this project, and I highly recommend it to anyone else who plans to do the same.
Here is an example of such a cable.
That’s it for today, stay tuned for the next part in which I will be adding code to control the LEDs and adding more control buttons.

这篇讲得头头是道的，我原来以为应该不会错吧，毕竟训练数据里有关Arduino的资料肯定不少。但是仔细一查，发现Atmega328的IO口数量没写对，Atmega2560/1280/2561的频率都写错了。不过毕竟GPT-2也没有上网查资料，这些还是值得原谅的。

但是写出“lots of examples and examples”这种赘余的文字就不应该了（我专门去谷歌搜了一下，并没有examples and examples这种写法）。这也是语言模型的一个通病了吧，之前用GPT-2的时候。跑出来的结果中出现通篇重复文字的概率不小（即相同的一个或几个单词无限循环输出）。GPT-3也有少量通篇重复的，我这里就不放出来了。

3. GPT-3也会虐狗

GPT-3讲述了一段推特爱情故事：

There’s nothing more adorable than a real life couple who gush over one another on social media and share the same love story. What’s even more adorable is when you know that they found each other through social media.
Take Brandon Flowers and his wife, Tana. The two met on Twitter and now, they’re celebrating their five year anniversary. If you follow either of their social media accounts, you may have noticed some cute posts from them about their relationship. We want to thank them for allowing us to have a look into their love story, because they’re too cute!
As fans of The Killers, we love hearing about their adventures.
They’re pretty cute!
T here’s nothing more adorable than a real life couple who gush over one another on social media and share the same love story. What’s even more adorable is when you know that they found each other through social media.
Take Brandon Flowers and his wife, Tana. The two met on Twitter and now, they’re celebrating their five year anniversary. If you follow either of their social media accounts, you may have noticed some cute posts from them about their relationship. We want to thank them for allowing us to have a look into their love story, because they’re too cute!
As fans of The Killers, we love hearing about their adventures.
They’re pretty cute!
I'd just like to say that my wife is everything. — Brandon Flowers (@flowerboy) August 5, 2017
Wedding Day. Not on social media. So I don't know what people think. I know my wife is everything. That's all I need. — Brandon Flowers (@flowerboy) August 5, 2017
On the last night of a tour, getting some wife-y kisses. And in case anyone was wondering. This is how we roll. pic.twitter.com/zSXlfUgKXd — Brandon Flowers (@flowerboy) August 7, 2017
Oh yeah. Still be on tour, still be making music. Not yet a father, but that's coming. Still have some things left to do. https://t.co/CJ1vOs8lYA — Brandon Flowers (@flowerboy) August 7, 2017
Yes. It's true. I am getting married. And I'm marrying my best friend. And my favorite person. https://t.co/uOe3DjtMtQ — Brandon Flowers (@flowerboy) August 5, 2017
The next night, he admitted that he has not yet become a father, but he is working on it.
Didn't say I was a father yet. Wasn't pregnant before. Wasn't even married. But I love my wife and my future kids. pic.twitter.com/uVEXZHScGz — Brandon Flowers (@flowerboy) August 6, 2017
Yep. Only day two and already love you so much more than I did yesterday. No, that's not enough. Still not enough. pic.twitter.com/cItd8b8HxY — Brandon Flowers (@flowerboy) August 8, 2017
You are a goddamn genius. No one can make me laugh like you. — Brandon Flowers (@flowerboy) August 8, 2017
The next day, Brandon shared the first picture of the newlyweds.
Tana and I on our wedding day. pic.twitter.com/6R5xT0P5zT — Brandon Flowers (@flowerboy) August 7, 2017
I can't wait to see you two together at our wedding. — Brandon Flowers (@flowerboy) August 7, 2017
I love my wife and I'm going to spend the rest of my life loving her. https://t.co/2h7LXqHxjC — Brandon Flowers (@flowerboy) August 7, 2017
Brandon gave a shout out to his brother and the rest of the band for not spoiling their special day.
This is how much I love my wife. I would've wanted to come here tonight. But I didn't. https://t.co/ox7XY3sPGO — Brandon Flowers (@flowerboy) August 8, 2017
Just a normal day. A normal day with my wife. She is my favorite person in the world. We have no plans. pic.twitter.com/vNNkIOCcUQ — Brandon Flowers (@flowerboy) August 8, 2017
Curious to see the rest of their love story?
Happy 5 years to the love of my life, my best friend and my favorite person. I still feel like I'm the luckiest"..............

这篇文章一开头就把同样的文字重复了两遍，不知道是不是因为训练语料没洗干净，也有相同的情况。后面的推文也没有按照时间顺序排，出现了8月7日-8月5日-8月6日这样的奇怪顺序。"Wasn't pregnant before. Wasn't even married."这两句也很奇怪。怎么会讨论一个大男人怀不怀孕呢，而且不是已经结婚了吗？

综上，预训练模型其实还有很大的空间。这次OpenAI用了那么多数据和参数量，训练出来的模型仍然不完美。希望能有天才的研究者从另一个角度找到更好的答案吧。

编辑于 06-07

作者：pymars
链接：https://www.zhihu.com/question/398114261/answer/1261498248
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

评价就是：

1、这下彻底玩儿不起了，以前的bert虽然很大，一般人训练不起，但用别人预训练好的模型来应用于自身任务还是可以的，而gpt-3的大模型基本上是用都用不起了。

2、openAI一致在gpt的架构上一条道走到黑，还能每次都出一些新东西，也是很佩服

3、论文第4页的这个图充分说明了量变引起的质变

4、不知道多少人关注到论文29页的这个部分：

翻译一下大概是这样：

我想上面的例子一定程度上说明：GPT-3初步具备了“理解”的能力，之前的各种大模型虽然在各种任务上效果好，但更多的还是偏向“记忆”，而如何让模型具备理解的能力一直是很多前沿NLP研究者在思考的问题。在这之前，多数的想法还是从算法和模型层面去思考可能性，如果上面截图不是特例，GPT-3真的初步具备这种理解能力，我想对于NLP的发展而言，这可能就是一个里程碑式的拐点，就像imagenet数据集对图像处理领域的意义一样。

编辑于 06-03

作者：我的土歪客
链接：https://www.zhihu.com/question/398114261/answer/1294202280
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

两年下来，GPT已经不仅仅只是个模型了。我想试着从心态、技术和商业三个角度谈谈它的影响。

这是一个极度容易让人“心态爆炸”的模型

CloseAI（不好意思打错了，我是说OpenAI）不久前“释出”（之所以打引号是因为目前我们只能看不能用）了GPT-3模型。在language model竞赛中，它也就“又大了一点点”吧：1750亿参数、31位作者、72页论文，训练下来大约花了1200万刀[1]。（望向脚边机箱里的2080Ti：“要认清自己的能力，不要总还想着在NLP上搞个大新闻，EPIC Games每周限免他不香吗？”

Epic Games Store | Official Sitewww.epicgames.com

这是一个对“大力出奇迹”有着坚定信心的技术实践

调侃完毕，我们来简单梳理下GPT贯穿始终的目的和其从1到3一路走来的发展脉络：

总体上看，GPT的目的一直非常明确，就是想证明“大力出奇迹”的猜想。即在大的数据集上做无监督训练，是不是当数据大到一定程度时，就不需要在具体且繁多的下游任务上做监督、微调之类的事情了？

具体来看：

2018年6月 GPT-1：大量数据（约5GB文本）上无监督训练，然后针对具体任务在小的有监督数据集上做微调；关键词：“scalable, task-agnostic system”；8个GPU上训练一个月；预训练模型（1.1亿参数）可下载；

Improving Language Understanding with Unsupervised Learningopenai.com

2019年2月 GPT-2：大量数据（约40GB文本）上无监督训练，然后针对具体任务在小的有监督数据集上做微调，尝试在一些任务上不微调（即使结果离SOTA还远）；关键词“without task-specific training”；据说在256个Google Cloud TPU v3上训练，256刀每小时，训练时长未知[2]；预训练模型（15亿参数）最终公开可下载；

https://openai.com/blog/better-language-models/openai.com

2020年5月 GPT-3：大量数据（499B tokens）上无监督训练，不微调就超越SOTA；关键词“zero-shot, one-shot, few-shot”；训练据说话费1200万刀；1750亿参数，将会开放付费API。

72页论文我既没精力也没心力读下来，因此推荐这篇总结博文：

GPT-3, a Giant Step for Deep Learning and NLPanotherdatum.com

简单来讲，GPT-3一定程度上证明了大力真的可以出奇迹，无需fine-tuning就能在下游任务中“大显神威”。GPT-3的关注点在zero-shot、one-shot和few-shot学习，它证明了一个足够大的模型在训练时可以获得更宽泛的NLP“技能”和模式识别的能力，这些能力使它在推断时可以迅速地适应或识别出下游任务。

说点感性上的感受：词嵌入、语义等的核心我认为是context，context可以翻译成“上下文”，这个翻译用来理解word2vec或language modeling等都非常直观。当然context也可以翻译为“语境”，语境是一个更宏大的词，是一种对更宽泛环境的理解能力。对于人来说，能感知并理解语境需要强大的能力，往往基于广泛的阅读，但人的阅读能力总是有极限的。GPT想证明的事情，像是人类对基于广泛阅读的语境理解能力的极限探索。

比起技术的成熟，它在商业上还是个“萌新”

还好GPT-3也不是样样都行，至少它在商业上还是个“萌新”，这多多少少给我们早已“爆炸”的心态带来了些许安慰。

先看OpenAI几个商业上的时间点：

2015年10月创立；非盈利
2018年2月 Musk退出董事会
2019年3月成立OpenAI LP[3]，他们自己所谓的“a hybrid of a for-profit and nonprofit”，这不重要，重要的是他们开始需要为投资人的钱负责了
2019年7月微软投资10亿刀[4]

拿这个时间线对照GPT时间线，或许有助于我们从另一个方向理解GPT的一些选择：

比如GPT-2刚官宣时的争议。众所周知，GPT-2的完整模型一开始是没有被公开的，官方博客的解释是：

Due to our concerns about malicious applications of the technology, we are not releasing the trained model. [5]

因为怕这个强大的模型被滥用，官方决定公布一个较小的模型。（CloseAI的外号就是这么来的。）

我们看下GPT-2推出的时间，2019年2月。OpenAI 一个月后就改变架构、成立以盈利为目的OpenAI LP，5个月后获得微软投资。

我们有理由相信GPT-2公布时、甚至训练时OpenAI非盈利的组织架构就已经快玩儿不转了。不公布模型，一方面是作为非营利组织心系天下、有社会责任感的“最后的倔强”；另一方面也为下一步作为需要盈利的公司给投资人有个交代、争取商业合作、获得融资等提供了想象空间。（毕竟，因为如果直接开源，GPT-2的商业价值就极其有限了。）

到了GPT-3的时代，OpenAI选择将其作为一个付费API（或者说一种服务）来让大家使用，这是OpenAI LP获得微软投资后的一步重要商业化实践。背靠微软这棵大树，用Azure云计算技术训练模型，基于Azure提供API服务，甚至连注册API的线上问卷也用的是Microsoft Forms。

个人认为商业化是非常好的事情，对AI真正落地会产生积极影响。如果把金钱看作全球普遍接受的、有统一标准的评价方法，那GPT-3在NLP任务上斩获无数SOTA后，下一关，就是看它在盈利上是否同样可以获得SOTA了。

BTW，目前这个API服务还未上线，感兴趣的朋友可以通过填写这个线上问卷加入OpenAI API Waitlist。

OpenAI API Waitlistforms.office.com

参考

^https://venturebeat.com/2020/06/01/ai-machine-learning-openai-gpt-3-size-isnt-everything/
^https://www.theregister.com/2019/02/14/open_ai_language_bot/
^https://openai.com/blog/openai-lp/
^https://openai.com/blog/microsoft/
^https://openai.com/blog/better-language-models/

编辑于 06-22

作者：饭饭
链接：https://www.zhihu.com/question/398114261/answer/1364185395
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

GPT-3我还没申请到试用。最近PR一把火了。其实GPT-2已经算是Few-shot learner了，GPT-3把这个再次扩展到极致。效果方面我不多做赘述，但我想说说这里面，设计Few-shot learner,或者Meta Learner的路线之争，也就是

Recurrence Based Meta Learning 和 Gradient Based Meta Learning的路线之争

Gradient Based Meta Learning，以MAML[1]为代表, 指的是，针对不同的任务，它的Adaption过程，是通过少量样本的梯度迭代，实现对新任务的适配

Recurrence Based Meta Learning, 以SNAIL[2] 为代表，它针对不同的任务，不需要梯度迭代，只需要Forward, 或者将样本Encoding进去就能学习。

也许有的朋友说，我没看到 GPT-3做了什么Meta Learning的事情啊？它就是个Language Model啊？

不了解的朋友可以先看下Recurrence based Meta Learning的鼻祖。它就是一个LSTM，把就这么一个个Encode进去，它就是一个Meta Learner了

神奇不？

过去一段时间，MAML一直牢牢占据Meta Learning的主流，因为Recurrence based一直效果不好

如果GPT-3和BERT刚好代表Recurrence based和Gradient based两种方法

那GPT-3证明了，只要模型够大，Recurrence based meta learning也是可以的！

最后，我广告下这篇文章，在18年开始我就很看好recurrence based meta learning

饭饭：我们离真正的通用人工智能（AGI）到底还缺少了什么？还差多久？zhuanlan.zhihu.com

[1]Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks."arXiv preprint arXiv:1703.03400(2017).

[2] Mishra, Nikhil, et al. "A simple neural attentive meta-learner."arXiv preprint arXiv:1707.03141(2017).

发布于 1 小时前

作者：某霁
链接：https://www.zhihu.com/question/398114261/answer/1257553154
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

小白幻想中，以下为胡扯。

所有人都喜欢 / 希望deep learning学会真正的“知识”，希望deep learning可解释。

然而，deep learning一直希望看齐的人脑不也是一团混沌？人脑可解释了吗？人脑无数神经元一团乱麻，只能非常heuristic地解释一下（其实deep learning也可以非常heuristic地解释），这就算是可解释了吗？人脑也没有像deep learning学者一直希望的那样，具有某种特殊的结构来“学习知识”，人脑就不能学习知识了吗？

会不会其实高参数量、高算力的暴力流就是最贴近人脑的，也是最合适的出路？有没有可能，我们不是应该“设计一个可解释的模型”，而是训练一个“可以解释自己的模型”？（毕竟人脑也是这样的东西）

Update：感觉上述没说清楚，贴一下我在评论区的解释：

大家对待deep learning的态度和对待大脑的态度很不一样；大家都在研究大脑，尊重大脑能够work并研究它如何work；但对于deep learning，大家或者希望人为地“设计”一个易于解释的模型，或者希望对已有模型进行分析、解释其中参数的含义、解释其推理的逻辑，否则就不愿意信任模型，认为模型“其实就是记住了pattern，什么都没学到”。我觉得这是很不公平的，deep learning model类似大脑、有非常大的参数量和冗余连接关系，很有可能就是不可解释的，或者无法像大家期待的那样、像解释传统方法一样解释。

编辑于 06-02

你可能感兴趣的:(人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d