产业智能官

【NPL】如何解决90％的自然语言处理问题：分步指南奉上

选自InsightDataScience

作者：Emmanuel Ameisen

机器之心编译

参与：白悦、李泽南

自然语言处理（NLP）与计算机视觉（CV）一样，是目前人工智能领域里最为重要的两个方向。如何让机器学习方法从文字中理解人类语言内含的思想？本文中，来自 Insight AI 的 Emmanuel Ameisen 将为我们简述绝大多数任务上我们需要遵循的思路。

文本数据的 5W 和 1H！

文本数据无处不在

无论是成立的公司，还是致力于推出新服务，你都可以利用文本数据来验证、改进和扩展产品的功能。从文本数据中提取信息并从中学习的科学是自然语言处理（NLP）的一个活跃的研究课题。

NLP 覆盖领域很广，每天都会有新的令人兴奋的结果。但经过与数百家公司合作，Insight 团队发现其中有几个重要应用出现得尤其频繁：

识别不同的用户/客户群（例如预测客户流失、顾客终身价值、产品偏好）
准确检测和提取不同类别的反馈（正面和负面的评论/意见，提到的特定属性，如衣服尺寸/合身度等）
根据意图对文本进行分类（例如寻求一般帮助，紧急问题）

尽管网上有很多 NLP 论文和教程，但我们很难找到从头开始高效学习这些问题的指南和技巧。

本文给你的帮助

结合每年带领数百个项目组的经验，以及全美国最顶尖团队的建议，我们完成了这篇文章，它将解释如何利用机器学习方案来解决上述 NLP 问题。我们将从最简单的方法开始，然后介绍更细致的方案，如特征工程、单词向量和深度学习。

阅读完本文后，您将会知道如何：

收集、准备和检验数据
建立简单的模型，必要时转化为深度学习
解释和理解模型，确保捕获的是信息而非噪声

这篇文章我们将给你提供一步一步的指导；也可以作为一个提供有效标准方法的高水平概述。

这篇文章附有一个交互式 notebook，演示和应用了所有技术。你可以随意运行代码，同步学习：https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb

第 1 步：收集数据

数据源示例

每个机器学习问题都从数据开始，例如电子邮件、帖子或推文（微博）。文本信息的常见来源包括：

产品评论（来自亚马逊，Yelp 和各种应用商店）
用户发布的内容（推文，Facebook 上的帖子，StackOverflow 上的问题）
故障排除（客户请求，支持票据，聊天记录）

「社交媒体中出现的灾难」数据集

本文我们将使用由 CrowdFlower 提供的一个名为「社交媒体中出现的灾难」的数据集，其中：

编者查看了超过 1 万条推文，其中包括「着火」、「隔离」和「混乱」等各种搜索，然后看推文是否是指灾难事件（排除掉用这些单词来讲笑话或评论电影等没有发生灾难的情况）。

我们的任务是检测哪些推文关于灾难性事件，排除像电影这种不相关的话题。为什么？一个可能的应用是仅在发生紧急事件时（而不是在讨论最近 Adam Sandler 的电影时）通知执法官员。

这篇文章的其它地方，我们将把关于灾难的推文称为「灾难」，把其它的推文称为「不相关事件」。

标签

我们已经标记了数据，因此我们知道推文所属类别。正如 Richard Socher 在下文中概述的那样，找到并标记足够多的数据来训练模型通常更快、更简单、更便宜，而非尝试优化复杂的无监督方法。

Richard Socher 的小建议

第 2 步：清理数据

我们遵循的首要规则是：「你的模型受限于你的数据」。

数据科学家的重要技能之一就是知道下一步的工作对象是模型还是数据。一个好的方法是先查看数据再清理数据。一个干净的数据集可以使模型学习有意义的特征，而不是过度拟合无关的噪声。

下面是一个清理数据的清单：（更多细节见代码 code (https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb)）：

1. 删除所有不相关的字符，如任何非字母数字字符

2. 把文字分成单独的单词来标记解析

3. 删除不相关的词，例如推文中的「@」或网址

4. 将所有字符转换为小写字母，使「hello」，「Hello」和「HELLO」等单词统一

5. 考虑将拼写错误和重复拼写的单词归为一类（例如「cool」/「kewl」/「cooool」）

6. 考虑词性还原（将「am」「are」「is」等词语统一为常见形式「be」）

按这些步骤操作并检查错误后，就可以使用干净的标签化的数据来训练模型啦！

第 3 步：寻找好的数据表示

机器学习模型的输入是数值。如图像处理的模型中，用矩阵来表示各个颜色通道中每个像素的强度。

一个笑脸可以表示为一个数字矩阵。

如果我们的数据集是一系列的句子，为了使算法可以从数据中提取特征，我们需要表示为可以被算法识别的形式，如表示为一系列数字。

One-hot encoding（词袋模型）

表示文本的一种常见方法是将每个字符单独编码为一个数字（例如 ASCII）。如果我们直接把这种简单的形式用于分类器，那只能基于我们的数据从头开始学习单词的结构，这对于大多数数据集是不可实现的。因此，我们需要一个更高级的方法。

例如，我们可以为数据集中的所有单词建立一个词汇表，每个单词对应一个不同的数字（索引）。那句子就可以表示成长度为词汇表中不同单词的一个列表。在列表的每个索引处，标记该单词在句子中出现的次数。这就是词袋模型（Bag of Words），这种表示完全忽略了句子中单词的顺序。如下所示。

将句子表示为词袋。左边为句子，右边为对应的表示，向量中的每个数字（索引）代表一个特定的单词。

可视化词嵌入

在「社交媒体中出现的灾难」一例中，大约有 2 万字的词汇，这代表每个句子都将被表示为长度为 2 万的向量。向量中有很多 0，因为每个句子只包含词汇表中非常小的一个子集。

为了了解词嵌入是否捕获到了与问题相关的信息（如推文是否说的是灾难），有一个很好的办法，就是将它们可视化并看这些类的分离程度。由于词汇表很大，在 20,000 个维度上可视化数据是不可能的，因此需要主成分分析（PCA）这样的方法将数据分到两个维度。如下图所示。

将嵌入的词袋可视化。

看起来很难分为两类，也不好去降低维度，这是嵌入的一个特点。为了了解词袋模型特征是否有用，我们可以基于它们训练一个分类器。

第 4 步：分类器

遇到一个问题时，通常从寻找解决问题的工具入手。当我们要对数据进行分类时，出于通用性和可解释性的考虑，通常使用 Logistic 回归（Logistic Regression）。训练非常简单，结果也可解释，因为易于从模型提取出最重要的参数。

我们将数据分成一个用于拟合模型的训练集和一个用于分析对不可见数据拟合程度的测试集。训练结束后，准确率为 75.4%。还看得过去！最频繁的一类（「不相关事件」）仅为 57%。但即使只有 75% 的准确率也足以满足我们的需要了，一定要在理解的基础上建模。

第 5 步：检验

混淆矩阵（Confusion Matrix）

首先要知道我们模型的错误类型，以及最不期望的是哪种错误。在我们的例子中，误报指将不相关的推文分类为灾难，漏报指将关于灾难的推文归为不相关事件。如果要优先处理每个可能的事件，那我们想降低漏报的情况。如果我们优先考虑资源有限的问题，那我们会优先降低误报的情况，从而减少误报的提醒。我们可以用混淆矩阵来可视化这些信息，混淆矩阵将我们模型预测的结果与真实情况进行比较。理想情况下（我们的预测结果与真实情况完全相符），矩阵为从左上到右下的一个对角矩阵。

混淆矩阵（绿色比例大，蓝色比例小）

我们的分类器的漏报情况（相对）高于误报情况。也就是说，这个模型很可能错误地将灾难归为不相关事件。如果误报情况下执法的成本很高，那我们更倾向于使用这个分类器。

解释模型

为了验证模型并解释模型的预测，我们需要看哪些单词在预测中起主要作用。如果数据有偏差，分类器会对样本数据作出准确的预测，但在实际应用时模型预测的效果并不理想。下图中我们给出了关于灾难和不相关事件的重要词汇。我们可以提取并比较模型中的预测系数，所以用词袋模型和 Logistic 回归来寻找重要词汇非常简单。

词袋：重要词汇

我们的分类器正确地找到了一些模式（广岛，大屠杀），但显然这是无意义数据的过度拟合（heyoo, x1392）。现在我们的词袋模型正在处理一个庞大的词汇表，所有词汇对它来说都是一样的。但一些词汇出现地非常频繁，而且只会对我们的预测加入噪声。接下来，我们试着用一个方法来表示词汇出现的频率，看我们能否从数据中获得更多的信号。

第 6 步：统计词汇

TF-IDF

为了使模型更关注有意义的单词，我们可以使用 TF-IDF（词频-逆文档频率）对我们的词袋模型进行评估。TF-IDF 通过对数据集中词汇出现的频率来加权，并减小高频但只是增加噪音的单词的权重。这是我们新嵌入的 PCA 预测。

将 TF-IDF 嵌入可视化。

由上图我们看到，两种颜色的数据差别更加明显。这使分类器分组更加容易。让我们来看一下这样结果是否会更好。训练新嵌入的 Logistic 回归，我们得到了 76.2％的准确率。

只是稍稍地进行了改进。那现在我们的模型可以选择更重要的单词了吗？如果模型预测时有效地绕过了「陷阱」，得到了更好的结果，那就可以说，这个模型得到了优化。

TF-IDF：重要词汇

挑出来的单词似乎更加相关了！尽管我们测试集的指标稍有增加，但模型使用的词汇更加关键了，因此我们说「整个系统运行时与客户的交互更加舒适有效」。

第 7 步：利用语义

Word2Vec

我们最新的模型可以挑出高信号的单词。但很可能我们运作模型时会遇到训练集中没有单词。因此，即使在训练中遇到非常相似的单词，之前的模型也不会准确地对这些推文进行分类。

为了解决这个问题，我们需要捕获单词的含义，也就是说，需要理解「good」和「positive」更接近而不是「apricot」或「continent」。用来捕获单词含义的工具叫 Word2Vec。

使用预训练的单词

Word2Vec 是寻找单词连续 embedding 的技术。通过阅读大量的文本学习，并记忆哪些单词倾向于相似的语境。训练足够多的数据后，词汇表中的每个单词会生成一个 300 维的向量，由意思相近的单词构成。

论文《Efficient Estimation of Word Representations in Vector Space》的作者开源了一个模型，对一个足够大的可用的语料库进行预训练，将其中的一些语义纳入我们的模型中。预训练的向量可以在这篇文章相关的资源库中找到：https://github.com/hundredblocks/concrete_NLP_tutorial。

句子的表示

快速得到分类器的 sentence embedding 的一个方法是平均对句子中的所有单词的 Word2Vec 评估。这和之前词袋模型是一个意思，但这次我们保留一些语言信息，仅忽略句子的语法。

以下是之前技术的新嵌入的可视化：

可视化 Word2Vec 嵌入

这两种颜色的数据更明显地分离了，我们新的嵌入可以使分类器找到两类之前的分离。经过第三次训练同一个模型后（Logistic 回归），我们得到了 77.7％的准确率，这是目前最好的结果！可以检验我们的模型了。

复杂性/可解释性的权衡

我们的 embedding 没有向之前的模型那样每个单词表示为一维的向量，所以很验证看出哪些单词和我们的向量最相关，。虽然我们仍可以使用 Logistic 回归的系数，但它们和我们 embedding 的 300 个维度有关，而不再是单词的索引。

它的准确率这么低，抛掉所有的可解释性似乎是一个粗糙的权衡。但对于更复杂的模型来说，我们可以利用 LIME 之类的黑盒解释器（black box explainers）来深入了解分类器的工作原理。

LIME

可以通过开源软件包在 Github 上找到 LIME：https://github.com/marcotcr/lime

黑盒解释器允许用户通过扰乱输入并观察预测的变化来解释一个特定例子的任何分类器的决定。

让我们看一下数据集中几个句子的解释。

挑选正确的灾难词汇并归类为「相关」。

这里，这个词对分类器的造成的影响似乎不太明显。

但是，我们没有时间去探索数据集中的数千个示例。我们要做的是在测试例子的代表样本上运行 LIME，看哪些词汇做的贡献大。使用这种方式，我们可以像之前的模型一样对重要单词进行评估，并验证模型的预测结果。

Word2Vec：重要单词

模型提取的高度相关的词意味它可以做出更加可解释的决定。这些看起来像是之前模型中最相关的词汇，因此我们更愿意将其加入到我们的模型中。

第 8 步：使用端到端（end-to-end）方法

我们已经介绍了生成简洁句嵌入快速有效的方法。但是由于忽略了单词的顺序，我们跳过了句子所有的语法信息。如果这些方法提供的结果不充分，那我们可以使用更复杂的模型，输入整个句子并预测标签，而不需要中间表示。一个常见的方法是使用 Word2Vec 或更类似的方法（如 GloVe 或 CoVe）将句子看作一个单词向量的序列。这就是我们下文中要做的。

高效的端到端结构

用于句子分类的卷积神经网络训练非常迅速，作为入门级深度学习体系效果非常理想。虽然卷积神经网络（CNN）主要因为在图像处理的使用而广为人知，但它们在处理文本相关任务时得到的结果也非常好，而且通常比大多数复杂的 NLP 方法（如 LSTMs 和 Encoder/Decoder 结构）训练地更快。这个模型考虑了单词的顺序，并学习了哪些单词序列可以预测目标类等有价值的信息，可以区别「Alex eats plants」和「Plants eat Alex」。

训练这个模型不用比之前的模型做更多的工作，并且效果更好，准确率达到了 79.5％！详见代码：https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb

与上述模型一样，下一步我们要使用此方法来探索和解释预测，以验证它是否是给用户提供的最好的模型。到现在，你应该对这样的问题轻车熟路了。

结语

下面对我们成功使用的方法进行简要回顾：

从一个简单快速的模型开始
解释其预测
了解其错误类型
根据以上知识来判断下一步的工作——处理数据还是寻找更复杂的模型

这些方法只用于特定的例子——使用适当的模型来理解和利用短文本（推文），但这种思想适用于各种问题。希望这篇文章对你有所帮助，也欢迎大家提出意见和问题！

原文链接：https://blog.insightdatascience.com/how-to-solve-90-of-nlp-problems-a-step-by-step-guide-fda605278e4e

为何 NLP 领域难以出现“独角兽”？ | 独家

来源：DeepTech深科技

年度订阅用户可加入科技英语学习社区，每周科技英语直播讲堂，详情查看“阅读原文”

2017 年，人工智能领域迎来了转折之年：在这一年，传统的计算机视觉和语音识别都达到了新的高度，也在性能方面趋于饱和。在 2017 年的 ImageNet 图片识别比赛中，参赛的 38 支队伍中有 29 支错误率低于 5%（2011年，表现最好的队伍也有四分之一左右的错误率）。部分由于这个原因，ImageNet 宣布将在 2018 年改变数据集，增加难度。

在产业方面，不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技，在经历了数轮大额融资之后，其隐隐有从独角兽变成巨头的趋势。

不过，人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面，这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平，技术产品（比如个人助手）经常被人讽刺只能用来调戏，缺少实际价值。在创业公司方面，自然语言处理领域也没有产生像商汤、旷视、依图、云从这样的“小巨头”。

这些现状都恰恰说明自然语言处理的难度。然而，可以说这项技术有多难，就有多重要。

微软创始人比尔·盖茨曾经表示，“语言理解是人工智能领域皇冠上的明珠”。微软全球执行副总裁沈向洋也在2017年底的公开演讲时说：“懂语言者得天下……下一个十年，人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面”。

人工智能包括两个重要的部分——“感知”和“认知”。其中，计算机视觉和语音识别等领域属于感知部分，而自然语言处理属于认知部分的重要内容。对一个“智能”而言，仅仅感知当然不够，理解和消化内容的认知能力才是真正意义上的核心。

那么，我们究竟何时才能摘下这个“人工智能领域皇冠上的明珠”？围绕这个问题，近日，DT 君分别采访了两位自然语言处理领域的领军人物：宾夕法尼亚大学教授 Dan Roth 和微软亚洲研究院副院长周明。

对于自然语言处理领域的从业者来说，这两位的名声如雷贯耳。

图 | Dan Roth 教授在 EmTech China 峰会演讲

Dan Roth 教授致力于通过机器学习和推理的方法帮助机器理解自然语言，他也是 AAAS、ACL、AAAI 和 ACM 的会士，曾在多个重要会议上担任程序主席一职，他也是中国计算机学会主办的国际自然语言处理和中文计算大会（NLPCC2018）的大会主席之一。

图 | 周明博士在 EmTech China 峰会演讲

而周明博士作为中国自然语言处理最顶尖的学者之一，目前担任微软亚洲研究院副院长、国际计算语言学协会（ACL）候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事等多个职务，还是哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。

在与两位 NLP 领军人物的对话中，DT君发现，两位受访者在一些热门话题上有所分歧，比如说近几年愈发火热的专业竞赛， Dan Roth 认为这样的竞赛长期来看对推动科学研究和发展价值不大，而周明的看法则正面得多。而在比较自然语言处理和计算机视觉的发展时，两位都认为，自然语言处理远比计算机视觉复杂，仍有许多问题没有解决。

尽管如此，在访谈的最后，Dan Roth 和周明也都表示出对于自然语言处理有望在 2018 年涌现新进展的信心。以下为访谈全文：

我们还没看到非常大的 NLP 创业公司

问：为什么自然语言处理领域没有产生非常大的创业公司？

周明：这个问题很值得研究。总的来说，这是因为自然语言处理的技术难度太大，和应用场景太复杂。

一个公司的成立和发展是由需求驱动。图像识别的需求巨大，例如安防和身份认证的应用场景很多，到处都有摄像头，谁也看不过来。所以，安防领域一直期待着一种技术，只要达到一个阈值，立刻就能用了，恰好这两年深度学习把计算机视觉水平升到了那个阈值。此外，就像上面的回答所说，图像识别问题更干净，再加上有现成且巨大的场景。所以，只要技术有一点突破，场景自然结合，公司一下子就做起来。

特别纯粹的自然语言应用（不包括搜索），主要就是机器翻译。机器翻译长期有需求，但没有安防和身份认证的需求那么大。而且，机器翻译水平一直不到位。即使到今天，机器也很难翻译有背景的复杂句子。

另外，自然语言处理的应用太依赖于UI了。图像识别基本不需要UI，直接在系统内部集成一些技术就行。包括微软在内的所有公司做翻译软件，如果UI做得不行，用户体验不行，人们就不会愿意使用。

技术产业化最重要的是商业模式，也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了，但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化，面临一系列的挑战。

目前的现状是，自然语言处理技术更多的是作为公司内部技术，比如内部的商业情报或人机接口功能。但这不代表我们未来找不到这样的渠道。

Dan Roth：在各种专业应用中，必须要选择正确的自然语言模型，没有任何单一模型可以解决自然语言领域中所遇到的所有问题，自然语言处理没有一个可以解决所有问题的魔术盒子存在，你必须要把所有相关的知识库放进盒子里，选择对的算法，并且针对性的处理特定问题，那么这个盒子最后才有作用。这种现状加大了技术落地的难度。

举例来说，计算机视觉发展到最后已经不是只有单纯识别图像或者是物体，而是要能够做到预测这些物体的本身的下一个动作，比如说在桌子上放了瓶水，然后把瓶子往外推，一个先进的计算机视觉系统就能够判断出瓶子最终的动作轨迹可能是掉到桌子下。然而自然语言处理技术达不到这种水平，它无法进行预测。它只能就现有的文字组合、数据库来判断所有文字应该有的意义。

计算机视觉的物体识别准确度已经可以达到将近百分之百，而自然语言目前的阅读准确度也不过将近9成，而这也是目前自然语言处理商用化的最大阻碍。如果要用到专业领域，那么现有的精准度明显不足。

即使我们不考虑基础研究的困难，就算是现有的自然语言处理的基础研究结果，似乎也没有很好地转化，很多产品在发布会上的效果往往和实际使用的效果完全不同。

周明：目前自然语言处理产品出现的问题，很多时候无关技术，而是在产品设计和UI方面做得不够好。

在做机器阅读理解和机器翻译研究的时候，我们往往有一个固定的评测集，以及F-分数和精确度这样的评测方法。但这些不代表用户的体验，即使在实验中分数达到100%也是这样。技术是独立于产品应用方向发展的，做产品的人应用技术的时候要运用之妙存乎一心。他们要考虑，无论是78%的技术，还是88%或者98%的技术，要怎么运用到产品里，才能让用户体验最好。

用户体验要考虑什么呢？最重要的是用户界面。因为系统很难达到100%的正确，所以要考虑用户怎么操作，怎么容错，让他们接受有缺陷的结果。比如说搜索引擎返回多个搜索结果的设计，其实非常巧妙。因为谁都知道搜索达不到那么好的水准，但当返回多个结果后，用户不抱怨搜索引擎，反而认为搜索引擎的结果扩大了他的思路，把坏事变成好事。

这种巧妙的用户界面设计和用户体验设计，是做自然语言处理的人要好好考虑的。系统和研究厉害，不代表能把用户体验做好。要从用户的角度看，如何把你的技术，融入到其他所有的相关的场景中，解决用户的实际问题。

还是以机器翻译为例，在实验室里，所有话都实验了很多遍，也没有什么噪声，效果肯定很好。但做产品的时候要考虑语音、环境噪声、背景噪声、远场识别、专有名词，以及口音等等。如果做不好，会导致翻译结果一塌糊涂。

但是，背景噪声怎么来解决呢？首先要好好调整UI，要解决语音识别的一些问题，然后可能要解决简单的多轮对话的问题，要对用户口音做自动调整，如果用户觉得翻译不好，要有方便的方式和他们互动。这样就能让用户觉得，这个系统虽然没有那么好，但是他也给我解决了很多问题了。这一块就是要考虑设计水平的能力了。

所以，这个不是科技要解决的问题，这个是产品设计要解决的问题。

2018年，我们可以期待哪些的 NLP 进展？

问：除了这些难点和问题，自然语言处理技术在研究和应用方面，可以在今年或未来几年出现较大的进展？

Dan Roth：利用知识库，未来自然语言处理应用会协助企业把专业知识转成特定的自然语言处理模型。利用这些模型，自然语言处理技术就能成为很好的工具，影响更深层次的人类生活。

周明：垂直领域有一定的保护门槛（比如有一些不公开的数据），导致大公司无法直接进入。在这样的领域可以做一些知识图谱的探索，还可以针对本领域特点，做一些特殊的优化和有的放矢的研究，而不是使用通用的自然语言技术。这样就可能会产生一个专业的知识图谱，以及基于专用图谱之上的自然语言理解的技术。最后提升整个领域的生产力。

此外，神经网络机器翻译、阅读理解、聊天对话，和创作辅助这四个应用在今年和明年就会有很多地方普及，相关的应用场景包括搜索引擎、个人助手、语音助手、机器翻译，还有个人制作音乐，个人制作新闻、撰写网络小说、问答系统等等。

另外一个重要的应用是机器客服。一般没人愿意看产品手册，但如果让计算机读一遍产品手册，你就能问它任何手册里出现过的产品问题，就能在客服、售后服务这些领域产生很好的应用。智能客服可以帮助提高效率，节省人员。系统也可以按照座席收费，有商业模式。

对成熟公司来说，首先搜索引擎还有进步空间。如果搜索引擎有阅读理解的能力，在手机屏幕上返回的结果特别精准，会产生很大的竞争优势。第二，现在信息流非常重要。例如今日头条背后的推荐技术需要理解文本，理解用户，然后匹配他们。如果我们的自然语言处理能力提高了以后，推荐水平就提高了。

对创业公司来说，第一个机会是机器翻译，但是要把用户体验和商业模式做好。第二个机会是客服。最后一个是开发垂直行业的自然语言处理技术。

“自然语言处理远比计算机视觉复杂”

问：和一般的机器学习、人工智能领域以及机器视觉这样的方向相比，自然语言处理领域是否有存在属于自己的独特挑战，有什么解决方案？

Dan Roth：计算机视觉基本上就是物体探测。虽然计算机视觉应用很多，但基本上核心算法都离不开物体探测这个方向，背后使用的逻辑也相当一致。

此外，由于计算机视觉的技术成熟度已经达到商用化的标准，所以我们可以看到很多不同的公司百花齐放。但自然语言处理的情况完全不同。不同场景、不同语言，甚至不同专业所需要用到的自然语言处理层次都不同，所以自然语言处理远比计算机视觉复杂，且目前的应用还是相当少，要为了这些少数应用而开发自己的算法并不划算。

周明：语音识别和图像识别都是一输入一输出，问题非常干净、简洁。比如输入一个图片，要判断里面有没有花或者草，直接判断就行了。这些方向中间没有多轮，不需要交互，一般不太依赖于知识图谱和常识，即使用也被证明没有什么太大效果。

但自然语言处理有三个重要的区别，让它变得很难：

第一，自然语言是多轮的，一个句子不能孤立的地看，要么有上下文，要么有前后轮对话。目前的深度学习技术，在建模多轮和上下文的时候，难度远远超过了一输入一输出的问题。所以语音识别做的好的人和图像识别做的好的人，不一定能做好自然语言。

第二，自然语言除了多轮特征之外，它还涉及到了背景知识和常识知识，这个也是目前大家不清楚怎么建模，都没有完全明白。

第三，自然语言处理要面对个性化问题。同样一句话，不同的人用不同的说法和不同的表达，图像一般没有这么多变化。这种个性化、多样化的问题非常难以解决。

因为人工智能包括感知智能（比如图像识别、语言识别和手势识别等）和认知智能（主要是语言理解知识和推理），而语言在认知智能起到最核心的作用。所以，我们可以很自信地说，如果我们把这些问题都解决了，人工智能最难的部分就基本上要解决了。

问：那怎么解决这些问题呢？

周明：虽然不保证可以改进技术，但有三个值得尝试的方向：

第一，上下文的建模需要建立大规模的数据集。比如多轮对话和上下文理解。数据标注的时候要注意前后文。没有这样的数据，很难取得突破。

第二，强化学习很重要。我们需要根据用户的反馈倒推模型并做参数修正，使模型更加优化。现在强化学习刚刚开始用在自然语言领域，性能并不稳定，但在未来很有机会。

第三，要引入常识和专业知识，并把这些知识构建好。这样就能更加精准地回答问题。没有人能证明现在常识知识用在语言问答和搜索中的作用有多大。所以，我们需要一个测试集来检验结果。这个测试集要专门测上下文和常识，可以让我们要不停用新模型（比如强化学习或者知识图谱）去试错，来看系统性能能不能提升。

机器理解竞赛究竟价值何在？

图丨SQuAD的全称是斯坦福问答数据集（Stanford Question Answering Dataset），是由斯坦福大学自然语言处理实验室开发的数据集和比赛。SQuAD的数据来自Wikipedia的文章。数据标注人员去掉了文章里的一些单词，并让参赛队伍利用模型重新填空，借以检测模型对文章的理解程度

问：2017年，微软亚洲研究院、阿里巴巴和哈工大·讯飞联合实验室分别宣布，自己开发的模型对文章的理解已经超过了人类标注员的水平，引起了很大的反响和争议。类似 SQuAD 这样的竞赛是否有一些技巧刷分？类似的竞赛对行业的意义有多大？我们需要什么样的数据集和比赛？

Dan Roth：这种竞赛对于提高技术基础建设会有一定的贡献，但是长期来看，对推动科学研究和发展方面并没有太多价值。

举例来说，如果用相同数据集来进行竞争，持续个一年或两年，比赛本身就会完全失去其意义。主要原因就是，如果人们只是为了竞赛的数据来进行训练，而不是我们所普遍关心的那些真正应该被解决的问题，那么，最后我们就不会看到真正的技术进展，而只剩为了拿到比赛名次而发展的各种小技巧。

图 | Dan Roth 教授接受 DT 君的采访

周明：SQuAD的一些设置可以有效防止刷分。例如，数据集很大，而且测试集也没有公布。总的来说，斯坦福的 SQuAD 可以说是自然语言处理领域一个里程碑式的创新。人们原来做阅读理解，都是泛泛的去做，从来都不知道到底做到什么水平。但是，现在斯坦福做了一个大规模的，不太容易通过微调改进性能（fine tune）的数据集。实际上很有力地来促进这个领域。

但 SQuAD 确实存在问题。但正确的态度应该是巧妙地设计测试集的新难点，针对这些难点一条一条地把阅读理解所涉及到的技术难点逐个攻关。久而久之，我们整体的阅读理解能力就会循环往复地上升，最后就真的逼近人的平均水平。

图 | 周明博士接受 DT 君的采访

例如，SQuAD 没有涉及太多的推理能力，我们就可以做一个专门测试推理能力的测试集。推理还可以分几级：简单推理可以根据上文就能推理，复杂推理可以根据全文推理，更复杂的推理甚至必须要用到背景和领域知识。如果能把这样一层一层的难度做出来的话，成功就有一半了。

未来研究的成功有两个重要的因素，一个是模型，一个是可以用来评测竞赛的数据集。

参考：

【1】Computational Linguistics and Deep Learning Christopher D. Manning∗ Chttps://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00239

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能金融”、“智能零售”、“智能驾驶”、“智能城市”；新模式：“财富空间”、“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

你可能感兴趣的:(【NPL】如何解决90％的自然语言处理问题：分步指南奉上)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end