数据分析v

超级干货：如何改善你的训练数据集？（附案例）

作者：Pete Warden；翻译：申利彬；校对：丁楠雅；

本文约6800字，建议阅读10分钟。

本文作者基于自身项目经验阐述训练数据的重要性并分享了一些改进的实用技巧。

Lisha Li 摄

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分，我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集中在新的和改进的模型上，使用的数据集是从公共数据集中选出的一小部分。相反，我认识的将深度学习作为实际应用的一部分人，他们大部分时间都在思考如何改善训练数据。

关于研究人员专注于模型架构有很多好的理由，但它确实意味着很少有资源可以引导那些专注于在生产中部署机器学习的人。我在会上的发言是“那些有效到不合常理的训练数据”。在这里我想稍微扩展一下，解释训练数据为什么如此重要，以及一些改进它的实用技巧。

因为工作的原因，我需要与许多研究人员和产品团队紧密合作。我对于改善数据可以带来效果提升的信念来源于我看到它们在构建模型时取得了巨大的成果。现实世界的大部分应用中，运用深度学习的最大障碍就是没有足够高的精度，而我看到提高精度的最快的方法就是改善训练数据集。即使你被困在延迟或存储大小等其他约束上，你可以通过更小的架构来换取一些性能特征，这样可以提高特定模型的准确性。

语音指令

我不能分享我对生产系统的大部分观察，但是我有一个开源例子可以证明同样的道理。去年，我用Tensorflow创建了一个简单的语音识别的例子，但是事实证明，没有现有的数据集可以很容易地用于训练模型。不过在很多志愿者慷慨的帮助下，我收集了60000个由他们说的短语音频片段。在此感谢“开放式语音录制网站”（Open Speech Recording site）的AIY团队帮我发起这个项目。最后得到的模型是可以使用的，但并没有达到我所希望的精度。

为了看看模型设计者的身份对我产生的局限性有多大，我使用相同的数据集发起了一个Kaggle比赛。参赛者的结果要比我最初的模型好很多，但即使有很多团队提出很多不同的方法，最后达到91%精度的只有很少的一部分人。对我来说，这意味着数据有一些根本上的错误，而且参赛者也确实发现了很多错误，比如不正确的标签或者截断的音频。更多的样本开始促使我关注数据集新版本中他们发现的固定的问题。

我查看了错误评价指标，来了解模型中哪些词的问题最多。结果发现“其它”类别（当语音被识别，但单词表不在模型的有限词汇表内）特别容易出错。为了解决这个问题，我增加了我们正在捕获的不同单词的数量，以提供更多样化的训练数据。

因为Kaggle参赛者提出的标签错误，我“众包”了一个额外的验证通道，要求人们听每个剪辑，并确保它可以匹配到期望的标签。另外，他们也发现了一些几乎无声或者被截断的文件，因此我编写了一个实用工具来做一些音频分析，并自动剔除糟糕的样本。尽管删除了一些糟糕的文件，最后我还是将总的说话数量增加到了100000。这要感谢更多志愿者和收费“众包”者的帮助。

为了帮助别人使用这个数据集（并从我的错误中学习），我将所有相关的事情和最新的精度结果写进了一篇论文（https://arxiv.org/abs/1804.03209）。最重要的结论是，在不改变模型或测试数据的前提下，第一名的精度提高了4%，从85.4%提高到了89.7%。这个提高让人很激动，并且当人们在Android 或 Raspberry Pi 演示应用中使用该模型时，反映了更高的满意度。我相信如果我花时间在模型架构的调整上，尽管我知道我的模型不如最好的模型，最终我得到的精度的提高肯定没有现在的多。

这就是在生产环境中一次又一次地产生伟大结果的过程。但是如果你想做同样的事情，很难知道从哪里开始，你可以从我处理语音数据所使用的技巧中得到一些启发。为了更加明确，这里有一些我发现的有用的方法。

首先，了解你的数据

这似乎是显而易见的，但你的第一步应该是随机浏览你将要开始使用的训练数据。复制一些数据文件到你本地的机器上，然后花费几个小时预览它们。如果你的数据集是图片，可以使用类似MacOS’s的查找器来滚动缩略图视图，可以很快的检查完数千张图片。

对于音频，可以使用取景器播放预览，对于文本可以将随机片段转存到终端上。

在第一个版本的语音指令中，我没有花费足够的时间来做这些。这也是为什么Kaggle参赛者一开始使用这个数据集就会发现很多问题。经历这个过程我总觉得有点傻，但事后我再也没有后悔过。每次我做完这个过程，我都会从数据中发现一些重要的事情。比如是否各类别中例子的数量不均衡，损坏的数据（例如，用JPG文件扩展标记的PNG），不正确的标签，或者只是令人惊讶的组合。

Tom White通过观察ImageNet得到了一些奇妙的发现，包括“太阳镜”标签实际上是一个古老的放大阳光的装置，用于“垃圾车”的魅力镜头，对不死女性的“斗篷”偏见。Andrej’s的工作是手工从ImageNet中分类照片，这也教会我关于数据集的很多东西。包括即使对于一个人来说，将所有不同品种的狗区分出来是有多难。

你将要做什么取决于你发现了什么。你应该在清洗数据之前总是进行一次这种数据观察，因为，对数据集的直观认识将会有助于你在接下来的流程中做决策。

快速选择一个模型

不要在选择模型上花费太多时间。如果你在做图片分类，可以参考AutoML（https://cloud.google .com/automl/），或者看看类似Tensorflow的模型库，再或者从Fast.AI搜集的例子中找一个解决类似问题的模型（http://www.fast.ai/）。重要的是尽快开始迭代，这样你就可以提前和真实用户一起尝试你的模型。你总是可以在以后得出一个改进的模型，并且也许可以得到更好的结果，但是你首先要得到数据。深度学习仍然遵循‘垃圾入，垃圾出’（“garbage in, garbage out”）的基本计算法则，所以即使是最好的模型也会受到训练集缺陷的限制。通过挑选一个模型并测试它，你将能够得知这些缺陷是什么并且开始改进它们。

为了加快你的迭代速度，可以尝试从一个已经在一个大的现有数据集上预先训练的模型开始，然后使用迁移学习在你收集的数据集（可能很小）上进行微调。这通常比只在较小的数据集上进行训练的效果要好得多，而且速度快得多，并且你可以快速地了解如何调整数据收集策略。最重要的是，你可以把你的结果反馈到你的收集过程中，以适应你学习的情况，而不是在训练之前把收集数据作为一个单独的阶段来进行。

成为它之前先假装它

研究模型和生产模型的最大区别在于研究通常在开始时有明确的问题陈述，但是实际应用的要求被锁定在用户的意识行为中，并且只能随着时间的推移而被提取。

例如，在Jetpac中我们想要找到一张好的照片去展现在城市自动旅行指南中。我们开始时要求评价人给他们认为好的照片打一个标签，但最后我们看到了很多微笑的人的照片，因为他们就是这样解释这个问题的。我们把这些放在产品的模型中，看看测试用户是如何反应的。结果是他们没有留下深刻的印象，也没有被这些照片所鼓舞。

为了解决这个问题，我们重新定义了提问的问题：“这张照片会让你想去它所展示的地方吗？”。这使我们得到了更好的结果，但也反应出我们使用的工人是东南亚人，他们认为会议照片看起来令人很惊异，因为大饭店里充满了穿西装和拿红酒杯的人。这种不匹配及时提醒了我们生活在“泡沫”里，但这也确实是一个现实的问题，因为我们美国的目标观众看到这些会议照片会感到沮丧和没有理想。最后，我们在JETPAC团队中的六个人手动评估了超过二百万张照片，因为我们比我们可以训练的任何人都要熟悉标准。

这是一个极端的例子，但是它证明了标记过程很大程度上取决于应用的需求。对大多数生产用例来说，存在一个要为模型找合适的问题去回答的过程，而且这才是关键所在。如果你用你的模型回答了错误的问题，你将永远无法在这个糟糕的基础上建立一个可靠的用户体验。

Thomas Hawk拍摄

我已经告诉你询问正确问题的唯一方法就是模仿你的应用，而不是一个人陷在机器学习循环中。因为有一个人在幕后，这有时被称为‘Wizard-of-Oz-ing’。我们让人们手动选择一些旅行指南的样本照片，而不是训练一个模型，然后使用来自测试用户的反馈来调整我们挑选图片的标准。

一旦我们从测试用户那里得到可靠的正向反馈，为了得到数百万张照片的训练集，我们会把制定的挑选照片的规则转换为标签集。然后，它训练了能够预测数十亿张照片质量的模型，但是它的DNA来自我们开发的原始手工规则。

在真实的数据上训练

在Jetpac，我们用来训练我们模型的图像来自相同的数据源（大部分来自Facebook和Instagram），也是我们想用在模型上的图像。我所看到的一个常见问题是训练数据集在重要的方面与模型最终会在生产中看到的输入不同。

目前世界上图像识别最大的数据库ImageNet

例如，我经常会看到团队在ImageNet上训练一个模型，但当他们试图在无人机或机器人中使用时就会碰到问题。原因ImageNet都是人拍摄的照片，这些照片有很多共同之处。它们是用手机或静态相机拍摄的，使用中性透镜，在大致的高度，白天或人工照明的条件下，把对象标记在中心突出的位置。

机器人和无人机使用的摄像机通常是高视野镜头。无论是从地面还是从上方，照明都很差，没有任何对象的智能框架，因此它们通常被裁剪。这种差异意味着如果你只接受一个从ImageNet的照片中训练出来的模型，并将其部署在这些设备上，那么你就会发现精确度不高。

有关你的训练数据偏离模型本来应该需要的训练数据，还存在很多微妙的形式。想象一下，你正在建造一个相机来识别野生动物，并利用世界各地的动物数据集进行训练。如果你只在Borneo丛林中部署，那么企鹅标签的正确率肯定是极低的。如果南极照片被包含在训练数据中，那么它将有更高的几率将其他东西误认为企鹅，所以你的总错误率会比你排除那些训练中的图像更糟糕。有一些方法可以根据已知的先验信息来校准你的结果（例如，在丛林环境下大规模的企鹅的概率），但是使用一个反映产品实际遇到的情况的训练集更容易和更有效。

我发现，最好的方法是使用直接从实际应用程序得到的数据，这些数据与上面提到的Wizard of Oz方法很好地联系在一起。循环中的人成为初始数据集的打标签者，即使收集的标签数量很小，它们也会反映实际使用情况，并且对于迁移学习的一些初步实验应该是足够的。

遵循指标

当我在做语音指令的例子时，看到的最频繁的报告就是训练过程中的混淆矩阵。这里有一个例子，展示了如何在控制台中显示：

这看起来可能很吓人，但实际上它只是一张表格，显示了网络所犯的错误的细节。这里有一份更漂亮的标签版本：

表格中的每一行代表一组样本，其中真实的标签是相同的。每一列代表样本被预测为对应标签的次数。例如，高亮显示的一行代表所有实际上是无声的音频样本，如果你从左读到右，你可以看到那些预测正确的标签，每一个都落在预测无声的列中。这告诉我们，这个模型可以很好地发现真正的无声样本，并且没有负样本。如果我们看一下展示有多少将音频预测为无声的一整列，就可以发现一些音频片段实际上是误分到无声的一列中的，这一列有很多假正例。事实证明这个是很有帮助的，因为它可以让我更加仔细地分析那些被错误地归类为无声的片段，从而发现他们大部分是极其安静的录音。根据混淆矩阵提供的线索，我清除了低音量的音频片段，这帮助我提高了数据质量。

虽然大多数结果是有用的，但是我发现混淆矩阵是一个很好的折衷，因为它比仅仅一个精确值给的信息要多，却又没有呈现太多复杂的细节。在训练过程中观察数字的变化是很有用的，因为它可以告诉你模型正在努力学习的类别，并且可以让你在清理和扩展数据集时集中精力。

相似的方法

我最喜欢的一种理解我的模型如何解释训练数据的方法就是可视化。TensorBoard可以很好的支持这种探索，虽然它经常用来可视化词嵌入，但是我发现它几乎对每一层都很有用，工作原理也像词嵌入。例如，图像分类网络通常在最后一层的全连接层或者softmax之前有一层网络可以用来作为嵌入（这就是简单的迁移学习的例子，和TensorFlow for Poets（地址如下）工作流程很像）。这些并不是严格意义上的嵌入，因为在训练过程中并没有任何机制去保证真正的嵌入布局中有理想的空间属性，但是对它们的向量进行聚类确实可以产生很多有趣的东西。（https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/#2）

举一个实际的例子，我合作的一个团队对某些动物的图像分类模型的高错误率感到很困惑。他们使用聚类可视化去观察训练数据中不同的类别是如何分布的。当他们在看“捷豹”这个类别时，很清楚的看到数据被分为两组之间的距离。

图片来自djblock99Dave Adams

这是他们看到的一幅图，一旦每个聚类的照片都显示出来，就可以很明显的发现许多捷豹品牌的汽车都被错误地贴上了捷豹猫的标签。如果团队成员知道了这些，那么就会去关注标注过程，并且可以意识到工人的方向和用于标注的用户界面不够完善。有了这些信息，他们就能够改进标注者（人）的培训过程并且去修复标注工具。这可以将所有的汽车图像从捷豹类别中移除，并为这一类别提供了一个更好的模型。

聚类通过让你对训练集进行深刻的了解，可以让你得到与你探索数据相似的好处。但是，网络实际上是按照它自己的学习理解将输入数据排序分组，然后指导你探索数据。人类很擅长在视觉信息中发现异常，因此将我们的直觉和计算机处理大量数据的能力结合起来是一种非常灵活的追踪数据集质量的解决方案。关于如何使用TensorBoard来做这件事超出了本文的范围（文章已经足够长了，我很感激你还在继续读下去）。但是如果你真的想提高你的结果，我强烈建议你熟悉这个工具。

收集数据不能停

我从来没有见过收集更多的数据不能提高模型准确性的例子，而且也有很多研究可以支持我的经验。

这张图片来自“重新审视那些有效到不合常理的训练数据”，并且展示了即使数据集已经增长到了数亿，图像分类模型的精度依然不断增加。（https://ai.googleblog.com/2017/07/revisiting-unreasonable-effectiveness.html）

Facebook最近更加深入的使用大数据量，例如，在ImageNet分类中使用了数十亿个带有标签的Instagram图片，以达到新的记录精度。这表明，即使对于大型、高质量数据集的问题，增加训练集的大小仍然可以提高模型结果。

这意味着只要用户可以从更高精度的模型中受益，你就需要一个不断改善数据质量的策略。如果可以的话，找到一种创造性的方法，利用即使微弱的信号也可以得到更大的数据集。Facebook使用Instagram标签就是一个很好的例子。还有一种方法是提高标注“管道”的智能性，例如通过增加由初始模型预测的建议标签的工具，这样可以使打标签的人快速做决定。这在刚开始可能有风险，但是在实际应用中受益往往超过了这种风险。通过雇佣更多的人来给新的训练数据贴上标签来解决这个问题通常也是一项有价值的投资。不过因为这种花费通常没有预算，组织过程中会有很多困难。如果是一个非盈利的组织，则可以让你的支持者通过某种公共工具自愿贡献数据，这是一种在不花费钱的同时提高数据集规模的好方式。

当然任何组织都希望有一个产品，当它在正常使用时可以生成标注数据。我不会太执着于这样的想法，它不符合很多现实世界的用例。即人们只是想尽快得到一个答案而并不涉及标签的复杂问题。如果你是一家创业公司，这是一个很好的投资项目，因为它就像是一台用于改进模型的永动机。但是在清理或增加你接收到的数据时，几乎总是会有一些单位成本，因此，最后花的钱往往最终看起来更像是一个廉价版的商业众包，而不是真正免费的东西。

通往危险区域的高速公路

模型错误对产品用户的影响往往要大于由损失函数捕捉到的错误。你应该提前想到可能发生的最糟糕的结果，并为模型设计一个辅助程序来避免发生。这也许是一个你永远都不想预测的类别黑名单，因为假正例的代价太大。或者你仅仅有一套简单算法去保证发生的结果不会超过你已经设定的参数边界。例如，你可能会保留一个永远不希望文本生成器输出的粗俗语言的列表，即使它们在训练集中，因为它们不适合出现在产品中。

因为我们不能总是知道未来可能会出现什么不好的结果，所以学习现实世界中的错误是很重要的。如果你有了合适的产品或市场，那么从现实中学习最简单的办法就是使用错误报告。另外，当用户使用你的应用程序出现他们不想要的东西时，应该给用户一个便捷的反馈路径。如果可以的话，获取模型的全部输入，但是如果数据是敏感数据，那么仅仅知道错误的输出是什么也可以帮助你调查原因。这些类别可以用来决定收集更多什么样的数据，并且这些类别可以让你理解当前标签的质量。

一旦你对模型进行了新的修改，就会有一组先前产生了坏结果的输入，并且除了正常的测试集之外，还对它们进行单独的评估。这个有点像一个回归测试，并给你一个方法追踪你改进用户体验的效果如何，因为单一的模型精度度量永远不会完全捕捉到人们关心的一切。通过看一些过去引起强烈反应的例子，你就有了一些独立证据表明你实际上是在为你的用户做得更好。如果在一些情况下因为数据太敏感而不能得到输入数据，可以使用内部测试或者内部实验来确定什么样的输入会产生这些错误，然后代替回归数据集中的那些数据。

故事是什么，昙花一现？

我希望我已经说服你花更多的时间在你的数据上，并且给你了一些关于如何投入精力改进它的想法。对数据领域的关注并没有它值得的那么多，而且我真的觉得我在这里的建议仅仅是涉及数据表面。我很感谢所有与我分享他们的策略的人，另外我希望我可以从更多的人那里听到你已经取得成功的方法。我认为会有越来越多的机构将工程师团队专门用于数据集的改进，而不是让机器学习研究人员来推动进展。我期待着看到整个领域的发展。我总是惊叹于即使是在有着严重缺陷训练数据的情况下模型依然可以运作良好。因此我迫不及待的想看看随着我们数据集质量的提高我们可以做些什么。

原文标题：

Why you need to improve your training data, and how to do it

原文链接：

https://petewarden.com/2018/05/28/why-you-need-to-improve-your-training-data-and-how-to-do-it/

译者简介：申利彬，研究生在读，主要研究方向大数据机器学习。目前在学习深度学习在NLP上的应用，希望在THU数据派平台与爱好大数据的朋友一起学习进步。

END

转自：数据派THU 公众号；本文获授权；

关联阅读

原创系列文章：

1：从0开始搭建自己的数据运营指标体系（概括篇）

2 ：从0开始搭建自己的数据运营指标体系（定位篇）

3 ：从0开始搭建自己的数据运营体系（业务理解篇）

4 ：数据指标的构建流程与逻辑

5 ：系列：从数据指标到数据运营指标体系

6: 实战：为自己的公号搭建一个数据运营指标体系

数据运营关联文章阅读：

运营入门，从0到1搭建数据分析知识体系

推荐：数据分析师与运营协作的9个好习惯

干货：手把手教你搭建数据化用户运营体系

推荐：最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始，构建数据化运营体系

干货：解读产品、运营和数据三个基友关系

干货：从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读：

干货：数据分析团队的搭建和思考

关于用户画像那些事，看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系，看这一文章就够了

干货：聚焦于用户行为分析的数据产品

如何构建大数据层级体系，看这一文章就够了

80%的运营注定了打杂？因为你没有搭建出一套有效的用户运营体系

从底层到应用，那些数据人的必备技能

读懂用户运营体系：用户分层和分群

做运营必须掌握的数据分析思维，你还敢说不会做数据分析

商务合作｜约稿请加qq：365242293

更多相关知识请回复：“ 月光宝盒 ”；

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

你可能感兴趣的:(超级干货：如何改善你的训练数据集？（附案例）)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

超级干货 ：如何改善你的训练数据集？（附案例）

本文作者基于自身项目经验阐述训练数据的重要性并分享了一些改进的实用技巧。

关联阅读

你可能感兴趣的:(超级干货 ：如何改善你的训练数据集？（附案例）)

超级干货：如何改善你的训练数据集？（附案例）

你可能感兴趣的:(超级干货：如何改善你的训练数据集？（附案例）)