訢詡

“万物皆可Seq2Seq” | 忠于原文的T5手写论文翻译

《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

摘要 / Abstract

Transfer learning, where a model is first pre-trained on a data-rich task before being finetuned on a downstream task, has emerged as a powerful technique in natural language processing (NLP). The effectiveness of transfer learning has given rise to a diversity of approaches, methodology, and practice. In this paper, we explore the landscape of transfer learning techniques for NLP by introducing a unified framework that converts all text-based language problems into a text-to-text format. Our systematic study compares pre-training objectives, architectures, unlabeled data sets, transfer approaches, and other factors on dozens of language understanding tasks. By combining the insights from our exploration with scale and our new “Colossal Clean Crawled Corpus”, we achieve state-of-the-art results on many benchmarks covering summarization, question answering, text classification, and more. To facilitate future work on transfer learning for NLP, we release our data set, pre-trained models, and code.1 Keywords: transfer learning, natural language processing, multi-task learning, attentionbased models, deep learning

迁移学习，把一个模型先在数据丰富的任务上进行预训练，然后再针对下游任务进行微调，这在自然语言处理中是一个强大的技术。迁移学习的有效性引起了方法、方式和实现的多样性。在本文中，我们探索了NLP的迁移学习技术的前景，通过引入一个统一框架将所有基于文本的语言问题转换为文本到文本格式。我们系统的比较了数十种语言理解任务的预训练目标，体系结构，未标记的数据集，迁移方法和其他因素。通过结合对规模的探索和新的“巨型清洁爬虫语料库（C4）”，我们在许多基准上获得了最先进的结果，包括文本摘要，问题解答，文本分类等。为了促进NLP迁移学习的发展，我们发布了数据集，预训练的模型和代码。

章节1 介绍 / Introduction

Training a machine learning model to perform natural language processing (NLP) tasks often requires that the model can process text in a way that is amenable to downstream learning. This can be loosely viewed as developing general-purpose knowledge that allows the model to “understand” text. This knowledge can range from low-level (e.g. the spelling or meaning of words) to high-level (e.g. that a tuba is too large to fit in most backpacks). In modern machine learning practice, providing this knowledge is rarely done explicitly; instead, it is often learned as part of an auxiliary task. For example, a historically common approach is to use word vectors (Mikolov et al., 2013b,a; Pennington et al., 2014) to map word identities to a continuous representation where, ideally, similar words map to similar vectors. These vectors are often learned through an objective that, for example, encourages co-occurring words to be positioned nearby in the continuous space (Mikolov et al., 2013b).

训练一个自然语言处理领域任务的机器学习模型经常需要这个模型能够处理文本数据以适应下游学习。可以将其大致看做让其学习通用的知识，使模型可以“理解”文本。这些知识的范围可能从低级（例如单词的拼写或含义）到高级（例如大号(低音铜管乐器)太大而无法容纳大多数背包）。在现代机器学习实践中，很少明确地提供这种知识；相反的，通常将其作为辅助任务的一部分来学习。例如，一种历史上常见的方法是使用词向量（Mikolov et al., 2013b,a; Pennington et al., 2014）将单词编码映射为连续表示，理想情况下，相似的单词映射到相似的向量。这些词向量通常是通过一个目标来学习的，例如，它鼓励将同时出现的单词放在连续空间的附近（对于word2vec来说在文本距离更近的单词映射的词向量拥有更近的空间距离）(Mikolov et al., 2013b).

Recently, it has become increasingly common to pre-train the entire model on a data-rich task. Ideally, this pre-training causes the model to develop general-purpose abilities and knowledge that can then be transferred to downstream tasks. In applications of transfer learning to computer vision (Oquab et al., 2014; Jia et al., 2014; Huh et al., 2016; Yosinski et al., 2014), pre-training is typically done via supervised learning on a large labeled data set like ImageNet (Russakovsky et al., 2015; Deng et al., 2009). In contrast, modern techniques for transfer learning in NLP often pre-train using unsupervised learning on unlabeled data. This approach has recently been used to obtain state-of-the-art results in many of the most common NLP benchmarks (Devlin et al., 2018; Yang et al., 2019; Dong et al., 2019; Liu et al., 2019c; Lan et al., 2019). Beyond its empirical strength, unsupervised pre-training for NLP is particularly attractive because unlabeled text data is available en masse thanks to the Internet—for example, the Common Crawl project2 produces about 20TB of text data extracted from web pages each month. This is a natural fit for neural networks, which have been shown to exhibit remarkable scalability, i.e. it is often possible to achieve better performance simply by training a larger model on a larger data set (Hestness et al., 2017; Shazeer et al., 2017; Jozefowicz et al., 2016; Mahajan et al., 2018; Radford et al., 2019; Shazeer et al., 2018; Huang et al., 2018b; Keskar et al., 2019a).

最近，在数据丰富的任务上对整个模型进行预训练变得越来越普遍。在理想情况下，这种预训练可使模型发展出通用的能力和知识，然后将其迁移到下游任务中。在将迁移学习应用于计算机视觉的过程中（Oquab et al., 2014; Jia et al., 2014; Huh et al., 2016; Yosinski et al., 2014），预训练通常是在大型计算机上进行有监督学习来完成的。比如已经标记的数据集ImageNet（Russakovsky et al., 2015; Deng et al., 2009）。相反，现在用于NLP中的迁移学习技术通常在未标记的数据上使用无监督学习进行预训练。在许多最常见的NLP基准测试中，近期用这种方法获得了最顶的结果（Devlin et al., 2018; Yang et al., 2019; Dong et al., 2019; Liu et al., 2019c; Lan et al., 2019）。除了其经验优势之外，对无监督预训练的NLP尤其具有吸引力，因为借助互联网，可以获得无标签文本数据，例如，Common Crawl project2每月会从网页提取大约20TB的文本数据。这自然适用于神经网络，神经网络已显示出卓越的可扩展性，即通常只需在较大的数据集上训练较大的模型，通常就有可能获得更顶的性能(Hestness et al., 2017; Shazeer et al., 2017; Jozefowicz et al., 2016; Mahajan et al., 2018; Radford et al., 2019; Shazeer et al., 2018; Huang et al., 2018b; Keskar et al., 2019a).

This synergy has resulted in a great deal of recent work developing transfer learning methodology for NLP, which has produced a wide landscape of pre-training objectives (Howard and Ruder, 2018; Devlin et al., 2018; Yang et al., 2019; Dong et al., 2019), unlabeled data sets (Yang et al., 2019; Liu et al., 2019c; Zellers et al., 2019), benchmarks (Wang et al., 2019b, 2018; Conneau and Kiela, 2018), fine-tuning methods (Howard and Ruder, 2018; Houlsby et al., 2019; Peters et al., 2019), and more. The rapid rate of progress and diversity of techniques in this burgeoning field can make it difficult to compare different algorithms, tease apart the effects of new contributions, and understand the space of existing methods for transfer learning. Motivated by a need for more rigorous understanding, we leverage a unified approach to transfer learning that allows us to systematically study different approaches and push the current limits of the field.

这种1+1>2的作用导致最近对NLP的迁移学习有了大量的工作进展，这产生了广泛的预训练目标（Howard and Ruder, 2018; Devlin et al., 2018; Yang et al., 2019; Dong et al., 2019），未标记的数据集（Yang et al., 2019; Liu et al., 2019c; Zellers et al., 2019），基准（Wang et al., 2019b, 2018; Conneau and Kiela, 2018），微调方法（Howard and Ruder, 2018; Houlsby et al., 2019; Peters et al., 2019）等。在这个迅速发展的领域中，快速的进步和技术的多样性可能使得很难比较不同的算法，难以梳理出新研究的效果，并难以理解现有的迁移学习方法的情况。由于需要更严谨的理解，我们利用统一的方法来迁移学习，使我们能够系统地研究不同的方法，并推动该领域的当前发展。

The basic idea underlying our work is to treat every text processing problem as a “text-to-text” problem, i.e. taking text as input and producing new text as output. This approach is inspired by previous unifying frameworks for NLP tasks, including casting all text problems as question answering (McCann et al., 2018), language modeling (Radford et al., 2019), or span extraction Keskar et al. (2019b) tasks. Crucially, the text-to-text framework allows us to directly apply the same model, objective, training procedure, and decoding process to every task we consider. We leverage this flexibility by evaluating performance on a wide variety of English-based NLP problems, including question answering, document summarization, and sentiment classification, to name a few. With this unified approach, we can compare the effectiveness of different transfer learning objectives, unlabeled data sets, and other factors, while exploring the limits of transfer learning for NLP by scaling up models and data sets beyond what has previously been considered.

我们工作的基本思想是将每个文本处理问题都视为“文本到文本”问题，即以文本作为输入并产生一个新的文本作为输出（万物皆可Seq2Seq）。这种方法受到以前用于NLP任务的统一框架的启发，包括将所有文本问题都转换为问答问题（McCann et al., 2018），语言建模（Radford et al., 2019）或跨度提取Keskar等任务。重要的是，文本到文本框架允许我们可以将相同的模型，目标，训练过程和解码过程直接应用于我们所考虑的每个任务。我们通过各种基于英语的NLP问题来评估这种性能，其中包括问答，文档摘要和情感分类等。使用这种统一的方法，我们可以比较不同的迁移学习目标，未标记的数据集和其他因素的有效性，同时通过扩大模型和数据集的范围以超越先前考虑的范围，探索NLP迁移学习的局限性。

Figure 1: A diagram of our text-to-text framework. Every task we consider—including translation, question answering, and classification—is cast as feeding our model text as input and training it to generate some target text. This allows us to use the same model, loss function, hyperparameters, etc. across our diverse set of tasks. It also provides a standard testbed for the methods included in our empirical survey. “T5” refers to our model, which we dub the “Text-to-Text Transfer Transformer”.

图1：我们的文本到文本框架图。我们考虑的每个任务（包括翻译，问题解答和分类）都将文本作为输入喂入我们的模型，并对其进行训练来生成一些目标文本。这使我们可以在各种任务中使用相同的模型，损失函数，超参数等。它还为我们调研中的方法提供了标准的测试方法。“Text-to-Text Transfer Transformer”是指我们的模型，我们将其称为“T5”。

We emphasize that our goal is not to propose new methods but instead to provide a comprehensive perspective on where the field stands. As such, our work primarily comprises a survey, exploration, and empirical comparison of existing techniques. We also explore the limits of current approaches by scaling up the insights from our systematic study (training models up to 11 billion parameters) to obtain state-of-the-art results in many of the tasks we consider. In order to perform experiments at this scale, we introduce the “Colossal Clean Crawled Corpus” (C4), a data set consisting of hundreds of gigabytes of clean English text scraped from the web. Recognizing that the main utility of transfer learning is the possibility of leveraging pre-trained models in data-scarce settings, we release our code, data sets, and pre-trained models.

我们强调，我们的目标不是提出新方法，而是提供有关这个领域现状的全面观点。因此，我们的工作主要包括对现有技术的研究，探索和经验的比较。我们还将通过扩大我们的系统研究（训练模型多达110亿个参数）的见解来探索当前方法的局限性，从而在我们考虑的许多任务中获得最顶的结果。为了进行如此大规模的实验，我们引入了“巨型清洁爬虫语料库”（C4），该数据集是从网络上抓取的数百GB干净的英语文本组成。我们认识到迁移学习的主要作用是让人们可以在数据稀缺的环境中利用预训练的模型，因此我们发布了代码，数据集和预训练的模型。

The remainder of the paper is structured as follows: In the following section, we discuss our base model and its implementation, our procedure for formulating every text processing problem as a text-to-text task, and the suite of tasks we consider. In Section 3, we present a large set of experiments that explore the field of transfer learning for NLP. At the end of the section (Section 3.7), we combine insights from our systematic study to obtain state-of-the-art results on a wide variety of benchmarks. Finally, we provide a summary of our results and wrap up with a look towards the future in Section 4.

在本文的其余结构如下：在下面的部分中，我们讨论基本模型及其实现，将每个文本处理问题表达为文本到文本任务的过程以及我们考虑的一系列任务。在第3节中，我们提供了大量的实验，探索NLP的迁移学习领域。在本节的最后（第3.7节），我们结合了系统研究的理解，从而获得了各种基准上的最顶结果。最后，我们对结果进行了总结，并在第4节中总结了对未来的展望。

车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
解决百度网盘上传请求中或上传慢的方法
百度网盘正常情况下是超快的，不应该是"上传请求中"或几k的速度。原因是因为DNS解释问题。尤其是海外用户。例如，使用DNS8.8.8.8PSC:\WINDOWS\system32>nslookupDefaultServer: dns.googleAddress: 8.8.8.8>server8.8.8.8DefaultServer: dns.googleAddress: 8.8.8.8>c.pcs
进口商品网购平台那个好？进口跨境电商平台排行榜！优惠券高省
随着跨境电商在人们的生活中越来越广泛，同时也为人们的生活提供了便利，下面就说一说我们常见的几款常用的进口商品网购平台，怎么省钱购买进口商品，如何利用进口商品红利期赚佣金！1、京东全球购分为法国馆、韩国馆、日本馆、澳大利亚馆、美国馆等区域特色馆。京东全球购致力于对全球重点上游资源做布局，通过合作或自营等方式建设京东全球化的仓储、物流体系。京东海外购是京东海淘业务的主要方向，同时京东严控产品的质量，力
2019-04-07只要方向对，就不怕路远阿牛时间管理笔记
昨天和公司的小伙伴一起聊天，谈到了价值观，相对我们这个小团队来说：自律、利他、走正道、以用户为中心，是我们一致的价值观。大家只有先在思维方面达成一致，才会拧成一股更有力量的绳，一起做有价值能沉淀的事业。实际上，查理·芒格在他的书中以及演讲中多次提到「价值观」。谈及自己的家庭，他说：「虽然我的家庭没有留下大笔财产，但为我提供了良好的教育，为我的行为规范树立了一个了不起的榜样。归根到底，这些比实际的钱
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
全球企业生成式AI应用图谱：601个案例揭示11行业×6类智能体实践，全网最详细！
写在前面：本文为谷歌发布的《601real-worldgenAIusecasesfromtheworld’sleadingorganizations》原文链接为：https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders?hl=en以下案例按照“汽车与物流、商业与专用
真相大曝光：卧虎藏隆应天书府隆国强免费荐股就是骗局！投资亏损无法出金!被骗不要慌墨守成法
在风起云涌的金融市场中，股票犹如一把双刃剑，既能创造财富神话，也可能让人跌入深渊。对于那些怀揣梦想的投资者而言，股票不仅是他们追求财富的舞台，更是寄托了无尽希望的载体。然而，现实往往残酷，股市的变幻莫测让许多人迷失了方向，甚至不幸成为了一些不法分子精心设计的骗局中的牺牲品。卧虎藏隆应天书府隆国强免费讲股博取信任后带股民参加慈善投票大赛套路曝光！若不幸被骗发现不能提现赶紧与我们联系正道顾问：【文章末
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
从Java到大模型应用：10天拿下5个Offer，我的转型逆袭之路 sky丶Mamba 感悟 java 开发语言
前言：本来准备5月发的，感觉现在的行情没有前几个月那么好了，培训机构出来了很多相关的人，然后就是有很多人也发现了这个方向不错，希望看到这篇文章的你能得到一些启发，个人真实经历。记住AI大模型是锦上添花，之前的那些架构能力，软件开发能力，编程思维才是内核。背景：Java开发的困境作为一名2年经验的Java程序员，我深刻感受到传统Java开发市场的“内卷”和瓶颈。根据2024年行业数据：Java岗位竞
2020北京大学西班牙语语言文学考研详情介绍、必看经验指导 xxxedu666
学习方式全日制招生人数2019拟招4人研究方向00.不区分研究方向考试科目①101思想政治理论②201英语一③620综合考试④844西班牙语语言文学复试线18年：总分330政治英语50/专业课9017年：总分330政治英语50/专业课9016年：总分340政治英语50/专业课902018录取闵逸菲初试分数386.5
关于自我的思考全力1以赴
安静的夜，总会带给我们很多的思考，最近一段时间发现自己的生活过得越来越安逸了，没有了太多的追求，每天过的一点都不充实，生活中总是缺了点什么，挑战自我的东西。这种感觉很难受，找不到了人生的方向和努力的意义。让我想到的只有八个字:不忘初心，砥砺前行。那到底我们出发的意义是什么呢？又是否能够坚持前行着？加入写作营已有半年之久，中间断断续续缺的文章不少，还记得当初刚看到营长在招募写作时，看到信息后内心的那
2023.2.27股市操盘记录一路长虹_2cb5
股市休市两天后，今天继续开张，大盘以-0.31%出场。各板块指数也是绿意盎然，古人云：春江水暖鸭先知。这是自然的现象而已，而大盘竟然也呼应自然，最近都是畅行在绿色通道中，一点也不给股民以春天的喜色，春意的暖流，春日的希望。大盘往何处走，不敢妄加猜测，也不能预测左右市场的方向，做本分的股民，保持一颗韭菜的心境，一切都在等待中，期盼中。最后大盘以-0.28%报收。看今日大盘分时图走势，权重股曾运行于均
android ROOM kotlin官方文档完全学习
androidROOMkotlin官方文档完全学习2.6使用Room将数据保存到本地数据库|AndroidDevelopers(google.cn)一、简介1.1引入dependencies{defroom_version="2.6.1"implementation"androidx.room:room-runtime:$room_version"//如下三选一annotationProcesso
忠骨流香太阳哥月亮妹
小狗旺旺，迷失方向。不见踪迹，三百晚上。梦中所见，似回身旁。悲凉吠鸣，难解衷肠。驱逐挥棒，千度彷徨。紧紧跟随，真诚形象。鞭策力尽，化骨成伤。竹筒状态，锅灶焚样。侧隐忽生，心想狗良。淬火光华，忠骨流香。悔恨当初，物是心妄。绵绵情谊，地久天长。
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
怎么加入广告联盟平台赚钱广告联盟平台(广告联盟挂机app)详细步骤小易的生活
加入广告联盟平台赚钱，是一个相对简单且有效的在线赚钱方式，特别适合拥有网站、博客、社交媒体账号或其他在线平台的个人或企业。以下是加入广告联盟平台并赚钱的详细步骤：选择合适的广告联盟平台搜索与了解：首先，你需要通过搜索引擎（如百度、谷歌）查找“广告联盟”或“网络广告”等关键词，找到一些知名的广告联盟平台，如GoogleAdSense、AmazonAssociates、百度联盟等。对比与选择：在选择平
琢磨琢磨，如何突破瓶颈，找到解决方案？ Viviancjq
今天公司迎来了一个辅导企业股改的一个老师，他们公司培训了大约2万个企业了。是个有思想有深度的大咖。他提了4个很好的问题，这也引发了我的思考，最近2个月，我都在思考自己去留问题，因为我觉得我到了一个职业瓶颈，不知道再朝哪个方向去发展，急需一个见识广泛，经验丰富的人生导师，引导我前行。他提的四个问题是：1）为什么公司这么多年都维持在2000多万的业绩，没有很大增长？2）如何破现在的瓶颈？3）公司的核心
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
旧习惯旺旺沫初
图片发自App旧的习惯和癖好会把你逼入过去和未来。当你想起，就放松、进入这个当下。旧习惯很滑稽、很可笑。我不是说要对抗它们，因为对抗只会徒增焦虑，只消嘲笑就好。每每逮到自己神游于过去和未来时，让自己像蛇蜕皮一样一一挣脱它们，不必抗争，抗争永远解决不了问题，而且会使事情更复杂，只要了解。明天有它自己的方向，届时你就会遇见它，而且未来总是以今天的形态出现。所以就学习让自己待在此时此地。Coco师父《心
（372）（3.18）心情有点烦躁~感赏所有的美好~ panmela2020
今天的妈妈有点烦躁，觉得孩子为什么不按照妈妈的期待早起呢！也没有开始画班上的班旗呢？还是玩游戏和刷剧!这是为什么呢？这明天能按时上学吗？今天也没好好吃饭，就忙着玩游戏去了!哎！我知道我又不放任了!我期待孩子都朝着我期待方向前进就好了！期待孩子早睡早起身体好！昨天晚上孩子因为想到要画班旗很生气，想到又要跑操和上体育课也很生气!为什么呢？妈妈是在聆听孩子所说的，结果就因为请假的事情，孩子跟我又生气了！
房道镇：以政治建设为统领，提升基层党组织战斗堡垒作用珉子任
习近平总书记指出，党的政治建设是党的根本性建设，决定党的建设方向和效果。只有把政治建设摆在首位，才能确保党始终成为中国特色社会主义事业的坚强领导核心。近日，《党建研究》杂志刊发了《增强党组织政治功能和组织功能——四论贯彻落实全国组织工作会议精神》，深刻阐明了增强党组织政治功能和组织功能的重要意义，提出了一系列具体要求和有效措施，为我们进一步加强基层党组织建设提供了重要遵循。作为一个以农业为主的县级
爱的故事||紫与蓝的心伤（1）译垚
原创文/译垚情感文字找一段心情故事，听一首经典老歌，颜色是故事中主角的心情......愿每一个人都少些悲伤，相信心的力量，可以带着自己找到走向快乐的方向。网图致谢原创者侵删爱的故事||紫与蓝的心伤（1）翻一段心情那是多久以前的清冷一个人的灵魂孤独时光那时所有的心事都可以深藏因为没有声响时间是一切的见证人就像叶到秋便黄秘密在天意中曝了光那是一颗心已无处可藏上天打开了锁心的那扇窗色彩的偏爱出卖了心中的
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
一个问题为你指明方向 Alicia2271
每个人都希望在职场中被重视，被认可。当我们还是小白或者发现自己不足时，也会想办法提升自身技能。但是，盲目的学习并不一定对自己职业生涯有显著的效果。看到别人手绘，想去学；看到别人演讲，想去学；看到别人PPT赏心悦目，还想去学。最后全去学了一遍，可能不够精通，可能对工作没有帮助。今天阅读《优秀到不能被忽视》中，作者提到：“在决定是不是应该追求某项有吸引力的活动，从而给自己的职业生涯增加自主力时，你应该
WebRTC_iOS: 革新的 iOS 实时音视频通信解决方案潘俭渝Erik
WebRTC_iOS:革新的iOS实时音视频通信解决方案去发现同类优质开源项目:https://gitcode.com/1、项目介绍在当今的移动应用世界中，实时通信能力已经成为许多应用程序的核心竞争力。WebRTC_iOS是一个专为iOS设备设计的开源项目，它利用了Google的WebRTC技术，为您提供了一套完整的音视频通信框架。这个项目的目标是简化开发者在iOS应用中集成高质量、低延迟的音视频
方向对，努力就行，剩下的交给时间梦红尘
我忘记了我曾经在哪里看过的一句话，原话是什么我也忘记了！只记得是让人努力的话语！“你管努力，剩下的交给时间”“努力就行，结果交给时间”真的忘却了原话！现在也不去说什么原话是什么东西了！文章只记得精髓就可！这句话适合任何时候！你还要你努力！只要方向对！就去做！结果怎么样！让时间去验证！我们每个人都在渴望成功，都在渴望目前难以达到的高度！都在给自己默默制定一个又一个伟大而又有人登顶的目标！那么我们自己
此刻 yeats_c8bd
此刻，身旁的人鼾声震耳欲聋。刚从电脑旁结束的我，一听这鼾声，心里很安然。我知道，此刻的自己是快乐的。虽然忙碌，但思想在飞舞的日子就是幸福的。也许，我会因此容颜逐渐老去，但，精神的富足比任何的东西，都更能治愈我。有时，我也会怀疑，这样忙碌的背后，有没有用？但只要一想到，比自己优秀的人，比自己还要努力千倍万倍，便不敢停下脚步，即使自己是爬，总会到达。更有时，我怕的是方向不对，就如南辕北辙里的那个人一样
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

“万物皆可Seq2Seq” | 忠于原文的T5手写论文翻译

《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

摘要 / Abstract

章节1 介绍 / Introduction

你可能感兴趣的:(深度学习NLP方向,T5,google,nlp)