智源社区

谷歌周彦祺：LLM浪潮中的女性科学家多面手丨智源大会嘉宾风采

导读

大模型研发竞赛如火如荼，谷歌紧随OpenAI其后推出PalM2、Gemini等系列模型。Scaling Law是否仍然适用于当下的大模型发展？科技巨头与初创企业在竞争中各有哪些优势和劣势？模型研究者应秉持哪些社会责任？

2023智源大会「基础模型前沿技术」论坛邀请到谷歌研究科学家、T5模型作者周彦祺，她向智源社区介绍了她从事模型研发的前前后后，以及作为一线研究者，在大模型技术和商业路线上的心得体会。（本文仅代表个人观点）

周彦祺

谷歌研究科学家，曾参与T5等重要模型工作，曾在David Wentzlaff 指导下获得普林斯顿大学博士学位 (2011-2017)，并曾于吴恩达带领下的百度SVAIL实验室担任研究科学家（2017-2019）。主要研究兴趣为计算机系统和机器学习，致力于通过稀疏性和自适应计算扩展大型语言模型，并与 ML 共同设计未来系统。

▲ 周彦祺是本次智源大会「基础模型前沿技术」论坛的特邀报告嘉宾，本次论坛将于6月9日下午举办，论坛主席为清华大学副教授刘知远，RoBERTa模型作者刘胤焓，紫东太初大模型作者、中科院自动化所刘静等将现场参加，扫描下方二维码，免费报名2023智源大会。

访谈&整理：李梦佳

突破摩尔定律终结的诅咒，从计算机系统转向ML

Q1：从上海交大，到密歇根大学，再到普林斯顿大学，介绍下您的求学经历？有哪些导师对您的影响最为深远？

A：我的本科是上交和密歇根大学联合培养的。上交的两年学习生活充实而愉快，而后两年密歇根的学习就可以称得上硬核。印象最深刻的是密歇根最后的两门毕业设计，EECS470 (computer architecture) 和427 (VLSI），每一门都是一周40小时的工作量，成果分别是用verilog写一个out-of-order的处理器和用cadence layout一个处理器。加上本科最后一年做了两门课的TA，还要做研究生申请的材料，我在密歇根可谓度过了人生最苦最累睡得最少的两年。之所以去普林斯顿读博，是本科导师Zhengya Zhang的建议：不要去不给你financial support的学校。没有拿到斯坦福的奖学金，所以去了东海岸的普林斯顿。

我的博士导师David Wentzlaff对我影响很大。David毕业于MIT，博士论文是关于分布式操作系统，博士期间还做出过第一个多核架构芯片（multi-core architecture processor）。后来，他作为创始团队的一员，和他的导师一起出去创业，创立了芯片公司Tilera（创立于2004年，位于硅谷的无晶圆半导体公司，该公司已经量产了TILE64 64核处理器）。他很聪明又敏锐，很多点子，实际工程能力又很强。我从他那里学到了很多东西，在他手把手的指导下，我独立完成了组里第一个C++ 的simulator，以及设计了第一款用于云计算的芯片架构。

读博是很艰苦，需要沉下心去想问题，从无到有地提出课题，并且想出来解决方案。有了点子还不够，还需要日复一日积少成多地把解决方案用代码的形式搭建出来。我个人的很多核心能力-比如写代码、提出课题、解决问题的能力，都是在读博时期积累起来的。跟随他的指引，我逐渐从一个很容易放弃的人，成长为一个任何事情都去寻求解决办法的人，小到程序里的bug，大到研究课题里遇到的一些瓶颈。我也从一个研究小白过渡到了一个可以自己解决问题的女汉子状态。

总结，David对我影响非常大，尤其是知识架构的搭建和工程经验上的积累。我的博士课题是关于云计算的计算机系统的设计，David推荐我学了很多计算机专业基础的课程，比如计算机网络、编译器、操作系统、算法理论，计算机理论，这些基础学科对我博士毕业后的科研都影响深远，也极大程度地帮助我适应日后去做语言模型、AI相关的研究。

Q2：做AI，基础理论重要还是工程能力更重要？

A：这是一个好问题，都重要。我在谷歌的研究，聚焦于从根本上解决问题，比如attention架构，科学上来讲，要把计算复杂度做到线性，或者亚线性。这种属于CS的基础理论。

而仅仅知道解决问题的思路和方法还不够，真正解决问题还是需要依靠工程能力。如果你不会写代码，或者写的代码跑的慢或者消耗的内存太大，或者你压根不知道怎么处理几个terabyte的数据，那么做起AI研究可能就稍微比别人要慢一点，迭代起来也会觉得心有余而力不足。有了好的理论基础，如果真想把这个预期的结果跑出来，还需要搭配很强的工程能力，能够快速地迭代科研里的想法。所以理论和工程，一半一半，缺一不可。

Q3：你的科研方向经历过哪些转变？从百度到谷歌，研究方向和职业选择背后有什么原因？

A：从博士到百度的转变比较明显，所参与的会议也从计算机体系和系统相关的会议转变到了和机器学习、AI相关的会议。

因为博士期间专注于计算机系统方向的研究，这个方向原本是对标到谷歌云平台的团队，如果留在云平台团队，可能会去做一个软件工程师。但我本身兴趣广泛，和大语言模型一样，希望自己成为一个全能的人。博士整整5年的时间已经在钻研架构和操作系统，在相关方向顶会也颇有建树，所以更希望进一步拓展研究领域，AI显然是一个不错的选择。

当时百度正好在北美建了一个Silicon Valley AI Lab, 是由吴恩达（Andrew Ng）领头，招揽了一大批斯坦福伯克利的优秀人才做AI system，去构建一个用于DL的大规模分布式系统。这是一个比较特殊的机会，让我得以去做AI相关的科研，喜欢且向往的课题。这个机会是当时Meta，Google等不具备的。于是选择了百度。

到百度以及后来加入谷歌后，我经常参加的会议是ICML、NeurIPS。虽然machine learning for systems这些系统相关的会议我也会参加，但很大精力放在和ML、DL相关的方向上。这是最主要的转折点。

其实在我早期做架构和芯片的时候，当时大佬们已经广泛讨论且达成共识的一个问题，即end of Morse law，芯片与架构的进步空间有限。在2013年，我在MSR的导师Doug Burger就用end of Moore’s Law的这样的难题挑战我，说Intel这些公司已经没有免费的午餐（free lunch）了，不能再依靠的单纯的压缩晶体管的大小去拿到额外的性能了。当时我们提出的解决方案包含domain specific accelerators (也就是说在TPU还没有横空出世的时候我们已经在讨论了)。结合当时一个非常火的领域— 机器学习，我预感到未来很多的应用都会基于机器学习，如果能针对机器学习去做domain specific system, 应该能创造非常大的价值。如果要做这种domain specific system，必须要对这个领域有足够的了解。做一个机器学习的系统，就必须对机器学习有更深的了解。我关心的问题是，不管在算法层面，还是应用层面，ML的瓶颈，所遇到的问题以及未来在哪里？未来的模型会做到什么样的程度？这是我的科研心路历程。

T5模型最大贡献：encoder-decoder结构

Q4：选择模型这个方向，主要原因或兴趣点在于？

A：我们当时在百度的lab还比较领先，17年的时候已经做了一篇关于deep learning scaling的论文，理念就是从实证角度证明了power law，即“参数越多，模型性能更强”，linear scale的scaling，表明未来的系统能支持更高更强的运算，更多的记忆存储就能够有更好的准确性。因此从根本上驱动我们要去做大模型、大数据，因为从理论上证明了大模型可以有更好的准确性。

Q5：截止目前scaling law 依然适用吗？

A：这就涉及到，我现在的研究也集中在条件计算、混合专家这类与稀疏化相关的研究。

Google其实在两年前，像最早的BERT模型已经到500 billion parameter，到这个级别之后再扩展规模是非常难的了。每扩展一次模型的参数会翻番，从训练数据的成本上面来说是非常巨大的，训练时间也会随着模型参数的翻倍和训练数据的相应增加而增加好几倍。如果不是Google、Miscrosoft这种级别的公司很难支付得起模型容量不停地翻倍。

我们当时的感觉是说，做到几百个B参数的这个级别，已经做到头了，谷歌后来好几年也没有超过500个B参数的模型了。一个是训练上非常昂贵，第二个是我们没法去服务这么大的模型。从现实考量，我们不太能够负担运行 500个B左右模型的服务，并且仍然保持盈利。

所以我最近更集中的领域是说如何更有效地扩展这个模型。比如我们会用Conditional Computation，比如Mixture of Experts去做sparcity-activated 模型，然后把不同的输入放到不同的专家模型或者模块里面去。相比之下，密集模型需要根据输入激活所有的神经元，而条件计算模型只需要激活部分神经元。

从计算上来说更加高效，但从能耗和参数来说，是一样的capable，因为总参数不变。我更注重的是这种高效的扩展。

Q6：从T5到PaLM，技术路线的异同点是什么？

A：T5是一个「编码器-解码器」的模型。当时T5最大的贡献是统一了所有类型的NLP任务，把它形式化定义成一个「编码器-解码器」的问题（任何问题都可以）。比如说给定一个段落做总结，encoder做的事情是把这个paragraph给encode起来，生成一个嵌入，然后将嵌入输入到解码器当中，之后decoder 自回归地生成summarization。这是一个encoder-decoder的例子。

用户评价分类的任务，可以去判断用户review。比如将各种差评和好评encode起来，再输入decoder，去预测是好是坏。翻译任务也一样，将原始的语言，比如法语，encode成一个embedding，然后将嵌入输入到decoder当中，生成英语版本的语句序列（sentence sequence）。所有文本领域的问题都可以定义成一个encoder-decoder的问题。

BERT不同，BERT是encoder-only，它只能做一些总结和分类，做生成任务不行。因为encoder only，它没有自回归生成的那一步，所以T5基本上是第一个一统天下，encoder和decoder结合起来的一个模型。

为什么后来又发展到PalM、GPT这种decoder-only的模型，是因为「编码器-解码器」模型不能很好地处理通用型任务（比如问答或翻译类型任务）。针对通用型任务，就出现了GPT-2、GPT-3等这些最早做decoder only的模型。这些模型通过指令微调去做任何的task，任何的问题都可以转化成prompt去生成。我们在通用型任务中观察到很好的「放缩法则」，这就是为什么后来这些模型逐渐都转变为decoder-only的模型。（因为现在大家更在意通用型任务，因此decoder-only wins）

Q7：您目前的研究重点是？有参与PalM系列的工作吗？

A：我目前的研究重点在于如何高效地给大语言模型扩容，用conditional computation、mixture-of-experts这样的模型架构，并且探索如果高效地训练这样的大模型。我目前的研究重心可以理解为更前沿一点的方向。PaLM我也有一些参与。PaLM可以说是整个brain团队合作的结果。

Q：您个人来讲，T5是在谷歌比较重要的工作可以说是 T5 吗？

A：T5只是我的一个part time project，但我确实是T5最早几个成员之一。我个人之前主攻的方向是ML for system，用机器学习、强化学习去优化编译器和其他系统问题。比如在“Transferable Graph Optimizers for ML Compilers”（https://proceedings.neurips.cc/paper/2020/file/9f29450d2eb58feb555078bdefe28aa5-Paper.pdf) 里我们率先提出用结合graph neural network和transformer的模型做deep reinforcement learning, 去优化编译器里图形优化的问题。也做了一些automl的工作，比如我们提出了用automl去共同优化神经网络的模型结构和其运行硬件的结构（https://proceedings.mlsys.org/paper/2022/file/31fefc0e570cb3860f2a6d4b38c6490d-Paper.pdf），基于这个工作，我们还落地了几个视觉模型到不同的产品里。最近专注大语言模型的scaling，比如要稀疏化（sparsify）模型，如何将模型做到万亿级别的参数，用尽量小的成本训练模型。包括我最新的论文，是关于MoE的算法优化和模型优化的。

Expert Choice Routing (https://arxiv.org/abs/2202.09368) 是我自己比较喜欢的一个工作，提出了一个简单的MoE routing的算法，取得完美的load balance并且近两倍的模型提速。还有最近的被接收的两篇ICML, Brainformers和Lifelong Language Pretraining with Distribution-Specialized Experts （https://arxiv.org/abs/2305.12281），是我们更前沿的关于MoE的研究。

Q8：谷歌未来会如何继续优化模型？

A：谷歌最近在训练一个新的Gemini（谷歌Project Gemini有望成为全球迄今为止最强大的AI模型https://www.tradesmax.com/component/k2/item/16016-gemini），CEO已经在今年的谷歌开发者大会上宣布，非常值得期待。我个人也推测未来会有非常多的api和产品基于这类的基础大模型（PaLM、Gemini）。我们Brain和deepmind的合并也预示着谷歌会集中力量办大事，在generative AI上持续发力。

总结来说，T5 最大的贡献就是 encoder-decoder 的结构，对后来的NLP大模型有很深远的影响。此外一个比较大的贡献是C4数据集（Colossal Clean Crawled Corpus，超大型干净的爬虫数据集），T5开源了模型和C4数据集，得以让外部的社区能够去使用谷歌生成的数据来训练他们的大语言模型，很多初始的科研都是由T5模型来驱动的。现在我们有新的基于decoder的模型，例如PaLM、Gemini。未来应该还会有更多更高效的基础模型被研发出来。

谷歌与OpenAI：从下至上，or自上而下

Q9：现在布局大模型风生水起，外界看来，谷歌和OpenAI在技术路线上有一定差异，内部如何看待呢？

A：风格不同，就是创业公司和大企业研究团队的差别。对于谷歌来讲，限制在于已有的商业模式和产品。我们的技术应该是补助已有的产品，从内部来讲很难做到颠覆原来的想法。在一个小的公司，却可以build from scratch，从0到1，有些谷歌需要考虑的限制问题，OpenAI就不需要考虑，因为只有成长到一定规模，实现盈利，才会出现很多包括数据在内的法律问题。

当然，现在OpenAI也面临很多社会影响的问题，有很多官司。但谷歌作为大公司，肯定会在比较早期就积极考虑这些问题，比如模型生成的不准确，会对社会产生的负面影响。以及语言模型训练成本的问题。简单说，我们自己挣钱养自己，这种模式和小公司拿投资人的钱养自己是两种思维。

好比Elon Musk去运营推特，拿自己的钱他一定会非常在意成本。假如我是一个创业者，想要推广一个非常新的技术，我是不关心要烧多少钱的，我在意的只有把技术做到极致，将这个产品从量的角度（DAU等）做到最好，而不是说想着如何节省成本。所以小公司和大公司里面做研发、做产品的基础理念是不一致的。

但从我个人角度，我不觉得有什么东西是OpenAI 本质上能够做成，谷歌做不成的，这只是一个早晚的问题。序幕拉开，谷歌方面认为，你是我的敌人，现在你有一点领先，那我要全力弯道超车，要投入更多的资源、人力，我觉得是谷歌可以做的。我们可以重新定义优先级，花更多的资源解除之前的很多限制，让这些产品能够尽快地上线。

正是因为OpenAI燃起了战火，所以才倒逼公司有这样的改变，我觉得对于谷歌来讲未尝不是一件好事。

Q：所以OpenAI发布了ChatGPT之后，谷歌内部才加速这种模型研发的紧张气氛？

A：肯定有，因为这（研发结果）直接反映出外界对公司的期望，反映出华尔街的期望。偶尔有一点风吹草动，公司的board member、CFO、CEO会非常紧张，他们会有一系列举措，去调整公司的资源结构，我明显感觉过去半年，公司内部大家处于一个非常紧张的状态。

Q10：OpenAI的领导层认为，之所以能做出爆款产品，工程能力是核心。其实谷歌也有很多资源和钱去做这件事，为什么OpenAI做成了呢？

A：还是方向的问题，从技术层面去说，我认为谷歌并没有说哪里落后，我们的研究团队正在做更前沿的东西，如何更高效地scale语言模型。从产品化上面，OpenAI最大的优势是他们的团队非常精炼，没有很多分散的投资和拖拖拉拉的团队参与，他们非常核心的团队，和自上而下的结构，带动决策。我听OpenAI的朋友都说，他们的CEO先做决策，给到首席科学家，首席科学家再将这种决策传达给下面的研究员，他们没有管理上的冗余，下面所有的研究员和工程师都要写代码，需要有很强的工程和实践功底，他们没有很冗杂多层的组织架构。目标明确，从上至下。

单凭这一点，和谷歌根本上很大差别，我们这边做研究可能更从下至上一点，大家思维更发散，项目更多，不集中。大家并没有说非要去做大语言模型，大语言模型也不是公司唯一需要的东西。

我们还有很多分散的并且更前沿的研究方向（比如计算机视觉、新的计算机语言、新的芯片、量子计算），所以在比如LLM这样集中的方向上可能不太有大力出奇迹的现象。但是在外部力量的这种推动下，OpenAI出现了非常爆款的产品，聚集了大量用户，他们自己声称要取代谷歌搜索，这对于我们来说就是个非常大的信号。于是我们想是不是要集中精力搞一搞LLM，至少拿出几个相应的产品与之抗衡。自从半年前，ChatGPT出现后，我们开始明确目标要把LLM的产品做好，要把这个产品放到谷歌所有的产品里面去。这是由外部推动产生的一系列变化。

Q11：Google brain和DeepMind合并以后会觉得项目更集中吗？合并后有什么变化？

A：现在仍是一个不确定的状态，未来3到6个月之后会有内部更细节的重组方案，谷歌大脑和DeepMind去更细节地讨论，项目reprioritize、合并、职务变动等细节，可能会在未来3到6个月内发生。因为整个谷歌大脑的目标都是去做generative AI，并将generative AI更好地deploy到谷歌的产品当中，可以说目标现在更明确了。

Q：您目前在谷歌大脑团队具体的职责，以及团队最新的研究方向是什么？

A：我的职位是staff research scientist，需要去定义新的研究方向和搭建自己的研究团队。找合作伙伴和争取计算资源是我一直需要做的事情。从团队研究方向上来看，我们最近发了一些ICML的文章，都是关于混合专家模型的。我从去年开始就已经在专攻混合专家模型，其实我并不是很信奉微调。我更从本质上关心的是让模型高效扩展，然后最终让这个语言模型在谷歌的体量上去更加经济地提供服务。

根据我之前对摩尔定律的理解，我觉得之前OpenAI CEO Sam的观点—万物摩尔定律有些过度乐观，很多事情都是有一个物理极限的，比如在晶体管（transistor）领域，到了原子级别就不可能再扩展，再往下会突破物理极限。在LLM上，scaling law是受限于投入的资金和算力。

所以我最近的研究都放在帮助大语言模型突破end of moore’s law的诅咒：如何在已有的计算能力下面，更有效扩展模型。我们最新的ICML的文章，都是关于MoE。

OpenAI GPT4也用了MoE, 他们有trillion级的参数，外界猜测的GPT4大概是100B16E (100 billon parameters per expert，16 experts) 这样的架构。自从知道OpenAI是MoE的模型之后，我们更加坚信了在MoE方向上的投入是正确的。去年我和我的合作者，包括杜楠、黄彦平、雷涛都做了很多关于MoE的基础模型的研究。

我的两篇ICML的paper，一个是关于做更好的模型架构，去做低秩和多专家的架构。

第二个 paper 是关于终生学习MoE。假设说我有一个数据流，而且不断有新的数据生成（coding数据，书和音乐的数据等等）。拿OpenAI ChatGPT为例，他们的训练数据截止到2021年，如果需要更新数据，很可能需要重新训练，效率很低。直接用新数据微调，难以避免会有过度拟合和catastropic forgetting的问题。而终生学习强调的是持续学习的能力。所以我的第二篇ICML paper说的是做基于MoE 架构的终生持续学习，可以不断地将模型adapt到不同的训练数据上面。

举个例子，比如原来的T5模型，训练数据可能是C4 数据集，过两年新的数据增加，我只需要增加一小部分experts，在新增加的expert上面，针对新增加的数据再去做第二轮的训练。这样的方法让模型训练更加scalable。

Q：你的思路和模型涌现（emergent abilities）应该是两种路线？

A：我觉得我做的课题和模型涌现是orthogonal的。模型涌现（emergent abilities），参数达到一定程度之后，模型可以解决一些原来不能解决的问题，新的能力就出现了。它提出了一种假设和解释了一种现象。可能我做的事情是在想办法如何更经济地实现模型涌现。

模型涌现体现的是模型的能力，但是模型的能力最终需要通过训练数据和训练时长来激发。我的研究解决的正是如何高效地激发模型的能力。我们知道数据的积累是一个连续的过程，同样训练大模型就需要用数据流去持续地激发模型的新能力。MoE的架构赋予了持续学习这个能力。如果用最原始的方法，直接微调模型，会有一个灾难性遗忘的问题，新的数据一来，再在原有的参数上面去做一个迭代，你的模型就会把之前的数据给覆盖掉。MoE的架构及大地缓解了这个问题。

举个具体的例子，我们的大模型都是先用文本数据去做预训练，这样模型具备了一些基本的语言能力和回答通用问题的能力。后来第二轮加入一堆对话的数据（像ChatGPT这样的数据），去做一轮微调，会发现对话的能力变得非常强，但是微调减弱了回答通用问题的能力。

模型，很自然地会有遗忘的问题，就相当于人，学了新的技能，勤加练习，却把旧的技能给生疏了。所以我们做这个基于MoE架构的终生学习，解决的就是遗忘的问题。一旦有新的数据，我们可以去增加模型里的专家数目，重点训练新增的参数，而不是需要重新训练或者重写这个模型。

Q12：关于团队搭建，谷歌团队内部是如何实现高效管理的？

A：我们在谷歌大脑的架构是一个比较精简的结构，没有过多的级别上的冗余。我们的director下面管理若干个研究科学家和工程师。整个谷歌大脑大概有个位数的高级总监。这些高级总监再去汇报给VP。我们每个人都有直接对话VP和Jeff的机会。

职责上没有特别强的界限划分，研究科学家也需要干工程，软件工程师也需要做研究。但对于研究科学家，需要对研究社区有贡献，或者说有创建一个新的研究领域的要求。

Q：团队之间如何去实现高效的协作？

A：非常从下至上，以项目为中心。基本上谁提出一个新课题，他可以去为了项目找上级拨资源。得到资源，就可以组建团队开始项目了。也有很多跨团队合作，我和其他组的同学都有很密切的合作，团队间没有很大的边界，自由度比较高。

Q：假如说你有一个idea，可以直接汇报给Jeff Dean吗？

A：当然是遇到比较大的事情才会去找他说。比如最近我们想要重新回归MoE，想要资源，我们会直接跟他拉个会说这个事情。

Q13：今年大会，作为一线研究者，在学术交流上您有什么样的诉求？

既然现在的趋势是，LLM基础模型会统领一切。我的问题是，如何让所有的产品基于LLM变得更加profitable。我们知道训练LLM大模型是非常昂贵的一件事，不是所有公司都可以做这件事。所有的公司都可以做finetuning，但做出类似GPT-4的万亿级别模型，才能在模型性能上面立于不败之地。

OpenAI现在有点close AI，他们总是对外界声称他们的模型10倍高效，但实际上又没有任何的recipe，告诉外界社区，通过什么让我的模型10倍高效。作为一个有责任感的公司，应该去宣扬共享的文化，不应该是宣扬一种纯粹的竞争，而是应该要把insight分享给社区里面的人，共同搭建更好的商业经济环境，给社会创造价值。

我们应有责任感去推进技术，但现在close AI并不是很好的办法。对于谷歌和OpenAI来说，都有责任更好地公开技术，让更多人能够在你的技术上去迭代，让技术从经济角度更服务大众，让大众受益。

而不是说把它做成一个secret recipe，凸显公司的优势，拿到高额投资，这不符合一个负责任的公司应该去追求的目标。现在 AI 已经发展到一个资本吹泡泡的阶段了。很难辨别，哪些是吹泡泡的部分，哪些是真正能够服务社会的。

Q：您完全支持开源开放？

A：软件的飞速发展得益于开源，OpenAI自己的发展，甚至任何一家科技公司之所以这么繁荣，都是归功于开源社区，如果没有开源就没有这么快的发展，如果当年谷歌如果没有开源transformer，其他公司也不能快速迭代出更好、更先进的方法。百花齐放的状态正是开源社区带来的现象。当然硬件方面的反例是，闭源会导致英伟达等玩家的一家独大。

为什么现在谷歌和OpenAI会变成敌对的状态，难道大家现在都去闭源吗？这对社会并不是很有益。

Q14：在模型安全伦理方向上您有什么关心的议题吗？

众所周知，Autoregressive model会出错，每一个 token都有一定出错的概率，累积起来去生成的几千、几万个 token 的回答当中肯定是容错率是非常高的。专业人士比较容易能够鉴别模型是否在说大话在说瞎话，通过google search等工具去验证生成内容的准确性。当如果是网络上受教育程度比较低的群众，看到模型生成的错误信息，大家无法甄别真伪。对普通用户来讲潜在危害性很大。

这是谷歌在过去好几年一直这么谨慎和保守的原因，因为谷歌是一个以 information retrieval起家的公司，所以它对信息准确性的阈值很高，在发布LLM的时候会更加谨慎，受到的监管也更多，关注它的眼睛会更多，所以难免会有一些限制。

个人生活

Q15：作为女性科学家，在这样的大公司技术团队中，女性还是相对较少，在这方面，您如何看待女性在科技领域的角色？

首先，我自己肯定相信女性在科技领域是中流砥柱的。越来越多的科技圈CEO和高管都是女性。女性在人文关怀和共情能力上有着天然的优势。之所以技术团队里多数成员是男性，我觉得是多方面的原因。第一是兴趣，社会上面刻板印象太多，可能本身来说对工程、对CS感兴趣的女性就不是特别多。从身边环境来看，和自己过去的同学去交流，女生大体上还是偏向喜欢人文社科类的方向居多。有些女孩子也有从众心理，如果自己的女生朋友都选择了文科专业，可能自己也会倾向于选择文科专业。第二是社会和家庭氛围，国内确实stereotype更严重，会倾向于认为男生比女生工科强，女生学文科比较稳妥。而我个人的经历恰恰相反，我父母都是学文科出身，他们都很崇拜学理工科的人，因为上一辈的理念都是说「学好数理化走遍天下都不怕」。

我父亲从小一直强调培养我理科的能力，他希望我数学好工科好，然后顺便能上个清华就更美了。实话说我学理科确实也挺轻松的，又带着父母的期待，何乐而不为。无奈高考被语文连累，与清华失之交臂，转而在上交结缘计算机工程，进而开始钻研计算机系统，再到人工智能的方向。

Q16：您除了科研，日程安排是什么样？

我每天白天主要在开会，大量时间和同事沟通，和我的合作者讨论，写代码或看论文的时间比较少，只能业余时间利用晚上或周末的时间去做一些coding，以及科研。早期我在刚进 Google 的时候可能自己亲自动手coding会比较多，但是到现在，更多的是需要我去沟通，想新的课题，并招募更多的人帮你实现这个想法。

我自己很愿意花一课余的时间去读论文，读点state of the arts 的东西。周末我喜欢运动，和朋友滑雪、打羽毛球，也会唱ktv、去城里觅食，过的就是普通人的生活。

Q17：两句话可以寄予一下今年的智源大会，期望得到什么样的交流成果？

我希望能够尽我的能力，用过去在AI研究方面的经验，去将LLM的能力和局限性去和大家做一个很好的交流。并且这是一个关键的学习和交流的机会，向学术圈和工业圈的专家学习，看看他们的想法和最新进展，也可以激发我的创造。此外，我认为确实有必要把LLM的局限性进行完善，很多问题亟待解决。在产品化、工业化的进程中，我作为一线研究者有责任去让大家认识到它的不完美和局限性，避免负面的社会影响。

推荐阅读

MIT教授Tegmark：GPT-4敲响警钟，百年后人类何去何从丨智源大会嘉宾风采

40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采

人大李崇轩：我的生成模型修炼之路丨智源大会嘉宾风采

你可能感兴趣的:(人工智能)

CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
Python与Web 3.0：重新定义数字身份验证的未来 Echo_Wish Python！实战！python 前端开发语言
Python与Web3.0：重新定义数字身份验证的未来随着Web3.0的迅猛发展，传统的身份验证方式正面临越来越大的挑战。从依赖中心化服务器存储用户数据，到如今去中心化、用户掌控数据的新时代，身份验证系统经历了前所未有的变革。而作为一个人工智能、区块链和Python技术的深度爱好者，我认为Python将成为构建Web3.0身份验证系统的重要工具。今天，我们就来聊聊如何结合Python与Web3.0
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
我们的AI人工智能，自动发布了一篇假新闻…… 数据断案数据人的故事人工智能数据库 sql oracle 数据分析
今天这个故事，还得从一个事故开始说起。前些日子，我们被XX公司投诉，说我们的资讯发布了关于他们公司授信额度的不实报道：告诉我们这篇资讯与他们公司最新公开披露的数据不一致，相关内容并不属实，可能对广大网友们造成严重误导，并对他们公司造成了严重负面影响……balabala一堆指责，并要求我们3小时内删除全部相关信息。然后，他们丢了2篇公告附件过来。我们对照着仔细一看，还真是我们搞错了：由于数据错误，“
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
建立高质量个人数据库：解锁DeepSeek的关键 CodeJourney. 人工智能算法 python
在人工智能飞速发展的时代，DeepSeek为普通人处理数据、提升工作效率带来了新的可能。然而，很多人在使用过程中存在误区，本文围绕如何正确利用DeepSeek搭建高质量个人数据库展开探讨，强调其对个人成长和发展的重要性，并通过具体实例展示其强大功能。重新理解DeepSeekDeepSeek的普及使普通人能够轻松搭建个人数据库，但不少人在使用时存在错误认知。他们将DeepSeek视为主角，把杂乱无章
如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践网罗开发实战实战源码 devops 运维
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
展望 AIGC 前景：通义万相 2.1 与蓝耘智算平台共筑 AI 生产力高地 accurater AIGC 人工智能神经网络深度学习
喜欢可以到主页订阅专栏引言人工智能生成内容（AIGC）技术正在重塑内容创作、影视制作、广告设计等行业的底层逻辑。作为该领域的革命性技术代表，通义万相2.1凭借其开源特性、多模态生成能力和技术突破，成为全球视频生成模型的标杆。而蓝耘智算平台则通过高性能算力支持与分布式架构优化，为AIGC技术的规模化应用提供了基础设施保障。两者的协同不仅推动了AI生产力的跃迁，更开启了从技术研发到商业落地的全链条创新
Python编码系列—Python代码重构：提升代码质量学步_技术 Python编码 python 重构开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
【人工智能】Model Context Protocol (MCP) 是一个开放协议，标准化了应用程序向大型语言模型（LLMs）提供上下文的方式本本本添哥 013 -AIGC 人工智能大模型人工智能语言模型 php
一、ModelContextProtocol(MCP)概述MCP，ModelContextProtocolMCP，是一个开放协议。MCP，标准化了应用程序向大型语言模型（LLMs）提供上下文的方式。‌MCP，旨在标准化应用程序如何为大型语言模型（LLM）提供上下文信息。MCP，提供了一个标准的接口，使得LLM可以无缝集成各种外部数据源和工具，从而扩展其能力和应用场景。二、MCP的定义和作用MCP定
从零开始大模型开发与微调：PyCharm的下载与安装 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyCharm的下载与安装1.背景介绍随着人工智能和深度学习技术的不断发展,大型语言模型(LargeLanguageModels,LLMs)已经成为当前最引人注目的研究热点之一。LLMs能够在各种自然语言处理任务上展现出惊人的性能,例如机器翻译、文本生成、问答系统等。PyTorch和TensorFlow等深度学习框架为训练和微调大型语言模型提供了强大的支持。PyCharm
PyTorch从入门到精通：探索深度学习新境界 lmtealily 深度学习 pytorch 人工智能
引言PyTorch作为当前最受欢迎的深度学习框架之一，凭借其动态计算图的独特设计和与Python生态的无缝集成，正重塑着人工智能开发的新范式1。从NVIDIA的研究实践到Meta的产业应用，PyTorch的价值已渗透至学术研究、工业部署的每个角落。本文将带领您从张量操作基础开始，逐步探索GPU加速、动态图机制、框架生态集成等高级主题，最终实现理论与实战的双重突破。一、PyTorch核心基础构建1.
【Python】已解决：pip安装第三方模块（库）与PyCharm中不同步的问题（PyCharm添加本地python解释器）屿小夏 python pip pycharm
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【AI大模型智能应用】Deepseek生成测试用例柳柳的博客 AI大模型测试用例
在软件开发过程中，测试用例的设计和编写是确保软件质量的关键。然而，软件系统的复杂性不断增加，手动编写测试用例的工作量变得异常庞大，且容易出错。DeepSeek基于人工智能和机器学习，它能够依据软件的需求和设计文档，自动生成高质量的测试用例，显著减轻人工编写测试用例的负担。体验一把用DeepSeek编写测试用例，还生成清晰直观的思维导图，整个流程十分顺畅。这篇文章讲解如何使用deepseek生成功能
人工智能之数学基础:线性代数中矩阵的初印象每天五分钟玩转人工智能机器学习深度学习之数学基础线性代数人工智能矩阵机器学习深度学习
本文重点从本篇文章开始，我们将开始学习矩阵的概念，矩阵，作为线性代数的核心概念之一，就像是一个个精心编织的网格，将复杂的数据和关系以一种简洁而直观的方式呈现出来。矩阵矩阵的初印象想象一下，你手里有一张空白的表格，上面布满了等待填充的格子。这些格子按照行和列整齐排列，形成了一个二维的平面结构。如果我们把数字、符号或者更复杂的元素填入这些格子中，那么这个表格就变成了一个“矩阵”。简单来说，矩阵就是一个
人工智能第五次笔记（python运算符）吴小白！笔记 python 开发语言
一.运算符运算符用于执行某种操作并返回一个结果，Python中的运算符可以分为：算数运算符，比较运算符，逻辑运算符，赋值运算符，位运算符，身份运算符，成员运算符，三目运算符八种1.1算数运算符用于执行基本的数学运算1.1.1常见的算数运算符+：加法-：减法*：乘法/：除法%：取模（取余数）**：幂运算//：整除（取整数部分）x1=5x2=2x3=(1,2)#元组x4=(3,4)x5=[1,2]x6
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
一文搞懂 AI Agent 与 AI 大模型的区别 a小胡哦人工智能 Manus Ai agent
在人工智能蓬勃发展的当下，新术语和新技术层出不穷。AIAgent和AI大模型便是其中的“明星”，但不少人对它们的区别感到困惑。今天，我们就以Manus这类AIAgent为例，深入剖析AIAgent与一般AI大模型的不同之处。Manus：Manus定义与核心能力AI大模型AI大模型是基于深度学习架构，通过海量数据训练得到的复杂模型，像GPT-4、文心一言等。它们具备强大的知识储备和语言理解生成能力，
一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal 数据分析能量站机器学习人工智能
微软Phi-4-multimodal模型是人工智能领域的一个重要进展，它标志着微软在多模态人工智能技术上的突破。以下是对该模型的详细解释：模型概述微软Phi-4-multimodal是一个能够同时处理文本、图像和语音的多模态大型语言模型。它通过创新的架构和训练方法，实现了在不同模态之间的无缝交互，为用户提供更自然、更智能的交互体验。模型架构该模型采用多模态Transformer架构，通过LoRA（
清华大学《DeepSeek赋能家庭教育》深度解析：AI如何重塑现代家庭教育模式硅基打工人 AI 人工智能经验分享大数据开源语言模型
引言：家庭教育的困境与AI的破局在数字化与智能化浪潮下，家庭教育面临多重挑战：家长教育能力不足、教育资源分配不均、亲子沟通效率低下、个性化需求难以满足等。清华大学发布的《DeepSeek赋能家庭教育》系列报告（共56页）提出了一种基于人工智能的解决方案，通过深度学习平台DeepSeek，为家庭教育注入科技动能。本文将从技术原理、核心功能、应用场景、伦理安全及未来展望等多维度展开分析。一、DeepS
小语言模型（SLM）技术解析：如何在有限资源下实现高效AI推理硅基打工人 AI 人工智能语言模型自然语言处理
引言：为什么小语言模型（SLM）是2025年的技术焦点？2025年，人工智能领域正经历一场“由大变小”的革命。尽管大语言模型（LLM）如GPT-4、GeminiUltra等在复杂任务中表现惊艳，但其高昂的算力成本、庞大的参数量（通常超过千亿）和依赖云端的特性，使得实际落地面临诸多瓶颈。**小语言模型（SmallLanguageModel,SLM）**应运而生，凭借其高效性、经济性和本地化部署能力，
AI开拓者指南：GenAI产品应用TIPs——从采购到使用（采购篇） ai开发
AI浪潮愈发澎湃的当下，生成式人工智能技术已成为企业创新与效率提升的重要工具。企业对生成式人工智能产品（以下简称为“GenAI产品”）的应用需求日益增长，其应用场景也愈发多样化：开展营销活动的过程中利用AI生成创意文案和视觉设计素材，极大地缩短了创作周期并降低了成本；使用AI客服机器人处理客户咨询，显著地提高了客户满意度和响应速度；使用AI还可以为客户提供个性化的产品推荐，提高销售转化率等等。然而
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
Prompt工程全解析：从入门到精通的终极指南二川bro 智能AI 人工智能 prompt
Prompt工程全解析：从入门到精通的终极指南发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师，拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块，要求：1.支持商品增删改查2.实时计算总价
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践小爷毛毛（卓寿杰）系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
免费DeepSeek与ChatGPT（200美元/月）大比拼！小焱创作 chatgpt 人工智能人工智能写作 ai写作深度学习神经网络 ai
目录免费DeepSeek与ChatGPT（200美元/月）大比拼！免费DeepSeek与ChatGPT（200美元/月）大比拼！在人工智能领域，DeepSeek与ChatGPT无疑是两位耀眼的明星。前者以免费服务迅速崛起，后者则以200美元/月的订阅费维持其高端定位。两者之间的竞争，不仅引发了业界对AI技术发展的关注，更深刻地影响了现代生活的方方面面。本文将从基本概念、深层次解读、具体落地实操等多
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多