数据分析v

推荐：如何改善你的训练数据集？（附案例）

作者：Pete Warden；翻译：申利彬；

本文约6800字，建议阅读10分钟。

本文作者基于自身项目经验阐述训练数据的重要性并分享了一些改进的实用技巧。

Lisha Li 摄

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分，我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集中在新的和改进的模型上，使用的数据集是从公共数据集中选出的一小部分。相反，我认识的将深度学习作为实际应用的一部分人，他们大部分时间都在思考如何改善训练数据。

关于研究人员专注于模型架构有很多好的理由，但它确实意味着很少有资源可以引导那些专注于在生产中部署机器学习的人。我在会上的发言是“那些有效到不合常理的训练数据”。在这里我想稍微扩展一下，解释训练数据为什么如此重要，以及一些改进它的实用技巧。

因为工作的原因，我需要与许多研究人员和产品团队紧密合作。我对于改善数据可以带来效果提升的信念来源于我看到它们在构建模型时取得了巨大的成果。现实世界的大部分应用中，运用深度学习的最大障碍就是没有足够高的精度，而我看到提高精度的最快的方法就是改善训练数据集。即使你被困在延迟或存储大小等其他约束上，你可以通过更小的架构来换取一些性能特征，这样可以提高特定模型的准确性。

语音指令

我不能分享我对生产系统的大部分观察，但是我有一个开源例子可以证明同样的道理。去年，我用Tensorflow创建了一个简单的语音识别的例子，但是事实证明，没有现有的数据集可以很容易地用于训练模型。不过在很多志愿者慷慨的帮助下，我收集了60000个由他们说的短语音频片段。在此感谢“开放式语音录制网站”（Open Speech Recording site）的AIY团队帮我发起这个项目。最后得到的模型是可以使用的，但并没有达到我所希望的精度。

为了看看模型设计者的身份对我产生的局限性有多大，我使用相同的数据集发起了一个Kaggle比赛。参赛者的结果要比我最初的模型好很多，但即使有很多团队提出很多不同的方法，最后达到91%精度的只有很少的一部分人。对我来说，这意味着数据有一些根本上的错误，而且参赛者也确实发现了很多错误，比如不正确的标签或者截断的音频。更多的样本开始促使我关注数据集新版本中他们发现的固定的问题。

我查看了错误评价指标，来了解模型中哪些词的问题最多。结果发现“其它”类别（当语音被识别，但单词表不在模型的有限词汇表内）特别容易出错。为了解决这个问题，我增加了我们正在捕获的不同单词的数量，以提供更多样化的训练数据。

因为Kaggle参赛者提出的标签错误，我“众包”了一个额外的验证通道，要求人们听每个剪辑，并确保它可以匹配到期望的标签。另外，他们也发现了一些几乎无声或者被截断的文件，因此我编写了一个实用工具来做一些音频分析，并自动剔除糟糕的样本。尽管删除了一些糟糕的文件，最后我还是将总的说话数量增加到了100000。这要感谢更多志愿者和收费“众包”者的帮助。

为了帮助别人使用这个数据集（并从我的错误中学习），我将所有相关的事情和最新的精度结果写进了一篇论文（https://arxiv.org/abs/1804.03209）。最重要的结论是，在不改变模型或测试数据的前提下，第一名的精度提高了4%，从85.4%提高到了89.7%。这个提高让人很激动，并且当人们在Android 或 Raspberry Pi 演示应用中使用该模型时，反映了更高的满意度。我相信如果我花时间在模型架构的调整上，尽管我知道我的模型不如最好的模型，最终我得到的精度的提高肯定没有现在的多。

这就是在生产环境中一次又一次地产生伟大结果的过程。但是如果你想做同样的事情，很难知道从哪里开始，你可以从我处理语音数据所使用的技巧中得到一些启发。为了更加明确，这里有一些我发现的有用的方法。

首先，了解你的数据

这似乎是显而易见的，但你的第一步应该是随机浏览你将要开始使用的训练数据。复制一些数据文件到你本地的机器上，然后花费几个小时预览它们。如果你的数据集是图片，可以使用类似MacOS’s的查找器来滚动缩略图视图，可以很快的检查完数千张图片。

对于音频，可以使用取景器播放预览，对于文本可以将随机片段转存到终端上。

在第一个版本的语音指令中，我没有花费足够的时间来做这些。这也是为什么Kaggle参赛者一开始使用这个数据集就会发现很多问题。经历这个过程我总觉得有点傻，但事后我再也没有后悔过。每次我做完这个过程，我都会从数据中发现一些重要的事情。比如是否各类别中例子的数量不均衡，损坏的数据（例如，用JPG文件扩展标记的PNG），不正确的标签，或者只是令人惊讶的组合。

Tom White通过观察ImageNet得到了一些奇妙的发现，包括“太阳镜”标签实际上是一个古老的放大阳光的装置，用于“垃圾车”的魅力镜头，对不死女性的“斗篷”偏见。Andrej’s的工作是手工从ImageNet中分类照片，这也教会我关于数据集的很多东西。包括即使对于一个人来说，将所有不同品种的狗区分出来是有多难。

你将要做什么取决于你发现了什么。你应该在清洗数据之前总是进行一次这种数据观察，因为，对数据集的直观认识将会有助于你在接下来的流程中做决策。

快速选择一个模型

不要在选择模型上花费太多时间。如果你在做图片分类，可以参考AutoML（https://cloud.google .com/automl/），或者看看类似Tensorflow的模型库，再或者从Fast.AI搜集的例子中找一个解决类似问题的模型（http://www.fast.ai/）。重要的是尽快开始迭代，这样你就可以提前和真实用户一起尝试你的模型。你总是可以在以后得出一个改进的模型，并且也许可以得到更好的结果，但是你首先要得到数据。深度学习仍然遵循‘垃圾入，垃圾出’（“garbage in, garbage out”）的基本计算法则，所以即使是最好的模型也会受到训练集缺陷的限制。通过挑选一个模型并测试它，你将能够得知这些缺陷是什么并且开始改进它们。

为了加快你的迭代速度，可以尝试从一个已经在一个大的现有数据集上预先训练的模型开始，然后使用迁移学习在你收集的数据集（可能很小）上进行微调。这通常比只在较小的数据集上进行训练的效果要好得多，而且速度快得多，并且你可以快速地了解如何调整数据收集策略。最重要的是，你可以把你的结果反馈到你的收集过程中，以适应你学习的情况，而不是在训练之前把收集数据作为一个单独的阶段来进行。

成为它之前先假装它

研究模型和生产模型的最大区别在于研究通常在开始时有明确的问题陈述，但是实际应用的要求被锁定在用户的意识行为中，并且只能随着时间的推移而被提取。

例如，在Jetpac中我们想要找到一张好的照片去展现在城市自动旅行指南中。我们开始时要求评价人给他们认为好的照片打一个标签，但最后我们看到了很多微笑的人的照片，因为他们就是这样解释这个问题的。我们把这些放在产品的模型中，看看测试用户是如何反应的。结果是他们没有留下深刻的印象，也没有被这些照片所鼓舞。

为了解决这个问题，我们重新定义了提问的问题：“这张照片会让你想去它所展示的地方吗？”。这使我们得到了更好的结果，但也反应出我们使用的工人是东南亚人，他们认为会议照片看起来令人很惊异，因为大饭店里充满了穿西装和拿红酒杯的人。这种不匹配及时提醒了我们生活在“泡沫”里，但这也确实是一个现实的问题，因为我们美国的目标观众看到这些会议照片会感到沮丧和没有理想。最后，我们在JETPAC团队中的六个人手动评估了超过二百万张照片，因为我们比我们可以训练的任何人都要熟悉标准。

这是一个极端的例子，但是它证明了标记过程很大程度上取决于应用的需求。对大多数生产用例来说，存在一个要为模型找合适的问题去回答的过程，而且这才是关键所在。如果你用你的模型回答了错误的问题，你将永远无法在这个糟糕的基础上建立一个可靠的用户体验。

Thomas Hawk拍摄

我已经告诉你询问正确问题的唯一方法就是模仿你的应用，而不是一个人陷在机器学习循环中。因为有一个人在幕后，这有时被称为‘Wizard-of-Oz-ing’。我们让人们手动选择一些旅行指南的样本照片，而不是训练一个模型，然后使用来自测试用户的反馈来调整我们挑选图片的标准。

一旦我们从测试用户那里得到可靠的正向反馈，为了得到数百万张照片的训练集，我们会把制定的挑选照片的规则转换为标签集。然后，它训练了能够预测数十亿张照片质量的模型，但是它的DNA来自我们开发的原始手工规则。

在真实的数据上训练

在Jetpac，我们用来训练我们模型的图像来自相同的数据源（大部分来自Facebook和Instagram），也是我们想用在模型上的图像。我所看到的一个常见问题是训练数据集在重要的方面与模型最终会在生产中看到的输入不同。

目前世界上图像识别最大的数据库ImageNet

例如，我经常会看到团队在ImageNet上训练一个模型，但当他们试图在无人机或机器人中使用时就会碰到问题。原因ImageNet都是人拍摄的照片，这些照片有很多共同之处。它们是用手机或静态相机拍摄的，使用中性透镜，在大致的高度，白天或人工照明的条件下，把对象标记在中心突出的位置。

机器人和无人机使用的摄像机通常是高视野镜头。无论是从地面还是从上方，照明都很差，没有任何对象的智能框架，因此它们通常被裁剪。这种差异意味着如果你只接受一个从ImageNet的照片中训练出来的模型，并将其部署在这些设备上，那么你就会发现精确度不高。

有关你的训练数据偏离模型本来应该需要的训练数据，还存在很多微妙的形式。想象一下，你正在建造一个相机来识别野生动物，并利用世界各地的动物数据集进行训练。如果你只在Borneo丛林中部署，那么企鹅标签的正确率肯定是极低的。如果南极照片被包含在训练数据中，那么它将有更高的几率将其他东西误认为企鹅，所以你的总错误率会比你排除那些训练中的图像更糟糕。有一些方法可以根据已知的先验信息来校准你的结果（例如，在丛林环境下大规模的企鹅的概率），但是使用一个反映产品实际遇到的情况的训练集更容易和更有效。

我发现，最好的方法是使用直接从实际应用程序得到的数据，这些数据与上面提到的Wizard of Oz方法很好地联系在一起。循环中的人成为初始数据集的打标签者，即使收集的标签数量很小，它们也会反映实际使用情况，并且对于迁移学习的一些初步实验应该是足够的。

遵循指标

当我在做语音指令的例子时，看到的最频繁的报告就是训练过程中的混淆矩阵。这里有一个例子，展示了如何在控制台中显示：

这看起来可能很吓人，但实际上它只是一张表格，显示了网络所犯的错误的细节。这里有一份更漂亮的标签版本：

表格中的每一行代表一组样本，其中真实的标签是相同的。每一列代表样本被预测为对应标签的次数。例如，高亮显示的一行代表所有实际上是无声的音频样本，如果你从左读到右，你可以看到那些预测正确的标签，每一个都落在预测无声的列中。这告诉我们，这个模型可以很好地发现真正的无声样本，并且没有负样本。如果我们看一下展示有多少将音频预测为无声的一整列，就可以发现一些音频片段实际上是误分到无声的一列中的，这一列有很多假正例。事实证明这个是很有帮助的，因为它可以让我更加仔细地分析那些被错误地归类为无声的片段，从而发现他们大部分是极其安静的录音。根据混淆矩阵提供的线索，我清除了低音量的音频片段，这帮助我提高了数据质量。

虽然大多数结果是有用的，但是我发现混淆矩阵是一个很好的折衷，因为它比仅仅一个精确值给的信息要多，却又没有呈现太多复杂的细节。在训练过程中观察数字的变化是很有用的，因为它可以告诉你模型正在努力学习的类别，并且可以让你在清理和扩展数据集时集中精力。

相似的方法

我最喜欢的一种理解我的模型如何解释训练数据的方法就是可视化。TensorBoard可以很好的支持这种探索，虽然它经常用来可视化词嵌入，但是我发现它几乎对每一层都很有用，工作原理也像词嵌入。例如，图像分类网络通常在最后一层的全连接层或者softmax之前有一层网络可以用来作为嵌入（这就是简单的迁移学习的例子，和TensorFlow for Poets（地址如下）工作流程很像）。这些并不是严格意义上的嵌入，因为在训练过程中并没有任何机制去保证真正的嵌入布局中有理想的空间属性，但是对它们的向量进行聚类确实可以产生很多有趣的东西。（https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/#2）

举一个实际的例子，我合作的一个团队对某些动物的图像分类模型的高错误率感到很困惑。他们使用聚类可视化去观察训练数据中不同的类别是如何分布的。当他们在看“捷豹”这个类别时，很清楚的看到数据被分为两组之间的距离。

图片来自djblock99Dave Adams

这是他们看到的一幅图，一旦每个聚类的照片都显示出来，就可以很明显的发现许多捷豹品牌的汽车都被错误地贴上了捷豹猫的标签。如果团队成员知道了这些，那么就会去关注标注过程，并且可以意识到工人的方向和用于标注的用户界面不够完善。有了这些信息，他们就能够改进标注者（人）的培训过程并且去修复标注工具。这可以将所有的汽车图像从捷豹类别中移除，并为这一类别提供了一个更好的模型。

聚类通过让你对训练集进行深刻的了解，可以让你得到与你探索数据相似的好处。但是，网络实际上是按照它自己的学习理解将输入数据排序分组，然后指导你探索数据。人类很擅长在视觉信息中发现异常，因此将我们的直觉和计算机处理大量数据的能力结合起来是一种非常灵活的追踪数据集质量的解决方案。关于如何使用TensorBoard来做这件事超出了本文的范围（文章已经足够长了，我很感激你还在继续读下去）。但是如果你真的想提高你的结果，我强烈建议你熟悉这个工具。

收集数据不能停

我从来没有见过收集更多的数据不能提高模型准确性的例子，而且也有很多研究可以支持我的经验。

这张图片来自“重新审视那些有效到不合常理的训练数据”，并且展示了即使数据集已经增长到了数亿，图像分类模型的精度依然不断增加。（https://ai.googleblog.com/2017/07/revisiting-unreasonable-effectiveness.html）

Facebook最近更加深入的使用大数据量，例如，在ImageNet分类中使用了数十亿个带有标签的Instagram图片，以达到新的记录精度。这表明，即使对于大型、高质量数据集的问题，增加训练集的大小仍然可以提高模型结果。

这意味着只要用户可以从更高精度的模型中受益，你就需要一个不断改善数据质量的策略。如果可以的话，找到一种创造性的方法，利用即使微弱的信号也可以得到更大的数据集。Facebook使用Instagram标签就是一个很好的例子。还有一种方法是提高标注“管道”的智能性，例如通过增加由初始模型预测的建议标签的工具，这样可以使打标签的人快速做决定。这在刚开始可能有风险，但是在实际应用中受益往往超过了这种风险。通过雇佣更多的人来给新的训练数据贴上标签来解决这个问题通常也是一项有价值的投资。不过因为这种花费通常没有预算，组织过程中会有很多困难。如果是一个非盈利的组织，则可以让你的支持者通过某种公共工具自愿贡献数据，这是一种在不花费钱的同时提高数据集规模的好方式。

当然任何组织都希望有一个产品，当它在正常使用时可以生成标注数据。我不会太执着于这样的想法，它不符合很多现实世界的用例。即人们只是想尽快得到一个答案而并不涉及标签的复杂问题。如果你是一家创业公司，这是一个很好的投资项目，因为它就像是一台用于改进模型的永动机。但是在清理或增加你接收到的数据时，几乎总是会有一些单位成本，因此，最后花的钱往往最终看起来更像是一个廉价版的商业众包，而不是真正免费的东西。

通往危险区域的高速公路

模型错误对产品用户的影响往往要大于由损失函数捕捉到的错误。你应该提前想到可能发生的最糟糕的结果，并为模型设计一个辅助程序来避免发生。这也许是一个你永远都不想预测的类别黑名单，因为假正例的代价太大。或者你仅仅有一套简单算法去保证发生的结果不会超过你已经设定的参数边界。例如，你可能会保留一个永远不希望文本生成器输出的粗俗语言的列表，即使它们在训练集中，因为它们不适合出现在产品中。

因为我们不能总是知道未来可能会出现什么不好的结果，所以学习现实世界中的错误是很重要的。如果你有了合适的产品或市场，那么从现实中学习最简单的办法就是使用错误报告。另外，当用户使用你的应用程序出现他们不想要的东西时，应该给用户一个便捷的反馈路径。如果可以的话，获取模型的全部输入，但是如果数据是敏感数据，那么仅仅知道错误的输出是什么也可以帮助你调查原因。这些类别可以用来决定收集更多什么样的数据，并且这些类别可以让你理解当前标签的质量。

一旦你对模型进行了新的修改，就会有一组先前产生了坏结果的输入，并且除了正常的测试集之外，还对它们进行单独的评估。这个有点像一个回归测试，并给你一个方法追踪你改进用户体验的效果如何，因为单一的模型精度度量永远不会完全捕捉到人们关心的一切。通过看一些过去引起强烈反应的例子，你就有了一些独立证据表明你实际上是在为你的用户做得更好。如果在一些情况下因为数据太敏感而不能得到输入数据，可以使用内部测试或者内部实验来确定什么样的输入会产生这些错误，然后代替回归数据集中的那些数据。

故事是什么，昙花一现？

我希望我已经说服你花更多的时间在你的数据上，并且给你了一些关于如何投入精力改进它的想法。对数据领域的关注并没有它值得的那么多，而且我真的觉得我在这里的建议仅仅是涉及数据表面。我很感谢所有与我分享他们的策略的人，另外我希望我可以从更多的人那里听到你已经取得成功的方法。我认为会有越来越多的机构将工程师团队专门用于数据集的改进，而不是让机器学习研究人员来推动进展。我期待着看到整个领域的发展。我总是惊叹于即使是在有着严重缺陷训练数据的情况下模型依然可以运作良好。因此我迫不及待的想看看随着我们数据集质量的提高我们可以做些什么。

原文标题：

Why you need to improve your training data, and how to do it

原文链接：

https://petewarden.com/2018/05/28/why-you-need-to-improve-your-training-data-and-how-to-do-it/

译者简介：申利彬，研究生在读，主要研究方向大数据机器学习。目前在学习深度学习在NLP上的应用，希望在THU数据派平台与爱好大数据的朋友一起学习进步。

END

转自：数据派THU 公众号；

合作请联系QQ：365242293

更多相关知识请回复：“ 月光宝盒 ”；

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

推荐 ：如何改善你的训练数据集？（附案例）

本文作者基于自身项目经验阐述训练数据的重要性并分享了一些改进的实用技巧。

你可能感兴趣的:(推荐 ：如何改善你的训练数据集？（附案例）)

推荐：如何改善你的训练数据集？（附案例）

你可能感兴趣的:(推荐：如何改善你的训练数据集？（附案例）)