美团技术团队

WSDM Cup 2019自然语言推理任务获奖解题思路

总第337篇

2019年第15篇

美美导读：美团团队在刚刚结束的WSDM Cup 2019比赛“真假新闻甄别任务”中获得了第二名的好成绩。本文将详细介绍他们本次获奖的解决方案，里面用到了很多黑科技比如BERT哦。

WSDM（Web Search and Data Mining，读音为Wisdom）是业界公认的高质量学术会议，注重前沿技术在工业界的落地应用，与SIGIR一起被称为信息检索领域的Top2。

刚刚在墨尔本结束的第12届WSDM大会传来一个好消息，由美团搜索与NLP部NLP中心的刘帅朋、刘硕和任磊三位同学组成的Travel团队，在WSDM Cup 2019大赛 “真假新闻甄别任务” 中获得了第二名的好成绩。队长刘帅朋受邀于2月15日代表团队在会上作口头技术报告，向全球同行展示了来自美团点评的解决方案。本文将详细介绍他们本次获奖的解决方案。

1. 背景

信息技术的飞速发展，催生了数据量的爆炸式增长。技术的进步也使得了人们获取信息的方式变得更加便捷，然而任何技术都是一把“双刃剑”，信息技术在为人们的学习、工作和生活提供便利的同时，也对人类社会健康持续的发展带来了一些新的威胁。目前亟需解决的一个问题，就是如何有效识别网络中大量存在的“虚假新闻”。虚假新闻传播了很多不准确甚至虚构的信息，对整个线上资讯的生态造成了很大的破坏，而且虚假新闻会对读者造成误导，干扰正常的社会舆论，严重的危害了整个社会的安定与和谐。因此，本届WSDM Cup的一个重要议题就是研究如何实现对虚假新闻的准确甄别，该议题也吸引了全球众多数据科学家的参与。

虽然美团点评的主营业务与在线资讯存在一些差异，但本任务涉及的算法原理是通用的，而且在美团业务场景中也可以有很多可以落地，例如虚假评论识别、智能客服中使用的问答技术、NLP平台中使用的文本相似度计算技术、广告匹配等。于是，Travel团队通过对任务进行分析，将该问题转化为NLP领域的“自然语言推理” (NLI)任务，即判断给定的两段文本间的逻辑蕴含关系。因此，基于对任务较为深入理解和平时的技术积累，他们提出了一种解决方案——一种基于多层次深度模型融合框架的虚假新闻甄别技术，该技术以最近NLP领域炙手可热的BERT为基础模型，并在此基础上提出了一种多层次的模型集成技术。

2. 数据分析

为了客观地衡量算法模型的效果，本届大会组织方提供了一个大型新闻数据集，该数据集包含32万多个训练样本和8万多个测试样本，这些数据样本均取材于互联网上真实的数据。每个样本包含有两个新闻标题组成的标题对，其中标题对类别标签包括Agreed、Disagreed、Unrelated等3种。他们的任务就是对测试样本的标签类别进行预测。

“磨刀不误砍柴功”，在一开始，Travel团队并没有急于搭建模型，而是先对数据进行了全面的统计分析。他们认为，如果能够通过分析发现数据的一些特性，就会有助于后续采取针对性的策略。

首先，他们统计了训练数据中的类别分布情况，如图1所示，Unrelated类别占比最大，接近70%；而Disagreed类占比最小，不到3%。训练数据存在严重的类别不均衡问题，如果直接用这样的训练数据训练模型，这会导致模型对占比较大类的学习比较充分，而对占比较小的类别学习不充分，从而使模型向类别大的类别进行偏移，存在较严重的过拟合问题。后面也会介绍他们针对该问题提出的对应解决方案。

图1 数据集中类别分布情况

然后，Travel团队对训练数据的文本长度分布情况进行了统计，如图2所示，不同类别的文本长度分布基本保持一致，同时绝大多数文本长度分布在20～100内。这些统计信息对于后面模型调参有着很大的帮助。

图2 数据集中文本长度分布情况

3. 数据的预处理与数据增强

本着“数据决定模型的上限，模型优化只是不断地逼近这个上限”的想法，接下来，Travel团队对数据进行了一系列的处理。

在数据分析时，他们发现训练数据存在一定的噪声，如果不进行人工干预，将会影响模型的学习效果。比如新闻文本语料中简体与繁体共存，这会加大模型的学习难度。因此，他们对数据进行繁体转简体的处理。同时，过滤掉了对分类没有任何作用的停用词，从而降低了噪声。

此外，上文提到训练数据中，存在严重的样本不均衡问题，如果不对该问题做针对性的处理，则会严重制约模型效果指标的提升。通过对数据进行了大量的分析后，他们提出了一个简单有效的缓解样本不均衡问题的方法，基于标签传播的数据增强方法。具体方法如图3所示：

图3 数据增强策略

如果标题A与标题B一致，而标题A与标题C一致，那么可以得出结论，标题B与标题C一致。同理，如果标题A与标题B一致，而标题A与标题D不一致，那么可以得出结论，标题B与标题D也不一致。此外，Travel团队还通过将新闻对中的两条文本相互交换位置，来扩充训练数据集。

4. 基础模型

BERT是Google最新推出的基于双向Transformer的大规模预训练语言模型，在11项NLP任务中夺得SOTA结果，引爆了整个NLP界。BERT取得成功的一个关键因素是Transformer的强大特征提取能力。Transformer可以利用Self-Attention机制实现快速并行训练，改进了RNN最被人所诟病的“训练慢”的缺点，可以高效地对海量数据进行快速建模。同时，BERT拥有多层注意力结构（12层或24层），并且在每个层中都包含有多个“头”（12头或16头）。由于模型的权重不在层与层之间共享，一个BERT模型相当于拥有12×12=224或24×16=384种不同的注意力机制，不同层能够提取不同层次的文本或语义特征，这可以让BERT具有超强的文本表征能力。

本赛题作为典型的自然语言推理（NLI）任务，需要提取新闻标题的高级语义特征，BERT的超强文本表征能力正好本赛题所需要的。基于上述考虑，Travel团队的基础模型就采用了BERT模型，其中BERT网络结构如图4所示：

图4 BERT网络结构图

在比赛中，Travel团队在增强后的训练数据上对Google预训练BERT模型进行了微调（Finetune），使用了如图5所示的方式。为了让后面模型融合增加模型的多样性，他们同时Finetune了中文版本和英文版本。

图5 基于BERT的假新闻分类模型结构

5. 多层次深度模型融合框架

模型融合，是指对已有的多个基模型按照一定的策略进行集成以提升模型效果的一种技术，常见的技术包括Voting、Averaging、Blending、Stacking等等。这些模型融合技术在前人的许多工作中得到了应用并且取得了不错的效果，然而任何一种技术只有在适用场景下才能发挥出最好的效果，例如Voting、Averaging技术的融合策略较为简单，一般来说效果提升不是非常大，但优点是计算逻辑简单、计算复杂度低、算法效率高；而Stacking技术融合策略较复杂，一般来说效果提升比较明显，但缺点是算法计算复杂度高，对计算资源的要求较苛刻。

本任务使用的基模型为BERT，该模型虽然拥有非常强大的表征建模能力，但同时BERT的网络结构复杂，包含的参数众多，计算复杂度很高，即使使用了专用的GPU计算资源，其训练速度也是比较慢的，因此这就要求在对BERT模型融合时不能直接使用Stacking这种高计算复杂度的技术，因此我们选择了Blending这种计算复杂度相对较低、融合效果相对较好的融合技术对基模型BERT做融合。

同时，Travel团队借鉴了神经网络中网络分层的设计思想来设计模型融合框架，他们想既然神经网络可以通过增加网络深度来提升模型的效果，那么在模型融合中是否也可以通过增加模型融合的层数来提升模型融合的效果呢？基于这一设想，他们提出了一种多层次深度模型融合框架，该框架通过增加模型的层数进而提升了融合的深度，最终取得了更好的融合效果。

具体来说，他们的框架包括三个层次，共进行了两次模型融合。第一层采用Blending策略进行模型训练和预测，在具体实践中，他们选定了25个不同的BERT模型作为基模型；第二层采用5折的Stacking策略对25个基模型进行第一次融合，这里他们选用了支持向量机（SVM）、逻辑回归（LR）、K近邻（KNN）、朴素贝叶斯（NB），这些传统的机器学习模型，既保留了训练速度快的优点，也保证了模型间的差异性，为后续融合提供了效率和效果的保证；第三层采用了一个线性的LR模型，进行第二次模型融合并且生成了最终的结果。模型融合的架构如图6所示：

图6 模型融合架构

整体方案模型训练分为三个阶段，如图7所示：

第一个阶段，将训练数据划分为两部分，分别为Train Data和Val Data。Train Data用于训练BERT模型，用训练好的BERT模型分别预测Val Data和Test Data。将不同BERT模型预测的Val Data和Test Data的结果分别进行合并，可以得到一份新的训练数据New Train Data和一份新的测试数据New Test Data。
第二阶段，将上一阶段的New Train Data作为训练数据，New Test Data作为测试数据。本阶段将New Train Data均匀的划分为5份，使用“留一法”训练5个SVM模型，用这5个模型分别去预测剩下的一份训练数据和测试数据，将5份预测的训练数据合并，可以得到一份新的训练数据NewTrainingData2，将5份预测的测试数据采用均值法合并，得到一份新的测试数据NewTestData2。同样的方法再分别训练LR、KNN、NB等模型。
第三阶段，将上一阶段的NewTrainingData2作为训练数据，NewTestData2作为测试数据，重新训练一个LR模型，预测NewTestData2的结果作为最终的预测结果。为了防止过拟合，本阶段采用5折交叉验证的训练方式。

图7 假新闻分类方案的整体架构和训练流程

6. 实验

6.1 评价指标

为了缓解数据集中存在的类别分布不均衡问题，本任务使用带权重的准确率作为衡量模型效果的评价指标，其定义如下所示：

其中，y为样本的真实类别标签，为模型的预测结果，为数据集中第i个样本的权重，其权重值与类别相关，其中Agreed类别的权重为1/15，Disagreed类别的权重为1/5，Unrelated类别的权重为1/16。

6.2 实验结果

在官方测试集上，Travel团队的最优单模型的准确率达到0.86750，25个BERT模型简单平均融合后准确率达0.87700（+0.95PP），25个BERT模型结果以加权平均的形式融合后准确率达0.87702（+0.952PP），他们提出的多层次模型融合技术准确率达0.88156（+1.406PP）。实践证明，美团NLP中心的经验融合模型在假新闻分类任务上取得了较大的效果提升。

图8 效果提升

7. 总结与展望

本文主要对解决方案中使用的关键技术进行了介绍，比如数据增强、数据预处理、多层模型融合策略等，这些方法在实践中证明可以有效的提升预测的准确率。由于参赛时间所限，还有很多思路没有来及尝试，例如美团使用的BERT预训练模型是基于维基百科数据训练而得到的，而维基百科跟新闻在语言层面也存在较大的差异，所以可以将现有的BERT在新闻数据上进行持续地训练，从而使其能够对新闻数据具有更好的表征能。

参考文献

[1] Dagan, Ido, Oren Glickman, and Bernardo Magnini. 2006. The PASCAL recognising textual entailment challenge, Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising tectual entailment. Springer, Berlin, Heidelberg, 177-190.
[2] Bowman S R, Angeli G, Potts C, et al. 2015. A large annotated corpus for learning natural language inference. In proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).
[3] Adina Williams, Nikita Nangia, and Samuel R Bowman. 2018. A broad-coverage challenge corpus for sentence understanding through inference. In NAACL.
[4] Rajpurkar P, Zhang J, Lopyrev K, et al. 2016. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250.
[5] Luisa Bentivogli, Bernardo Magnini, Ido Dagan, Hoa Trang Dang, and Danilo Giampiccolo. 2009. The fifth PASCAL recognizing textual entailment challenge. In TAC. NIST.
[6] Hector J Levesque, Ernest Davis, and Leora Morgenstern. 2011. The winograd schema challenge. In Aaai spring symposium: Logical formalizations of commonsense reasoning, volume 46, page 47.
[7] Bowman, Samuel R., et al. 2015. "A large annotated corpus for learning natural language inference." arXiv preprint arXiv:1508.05326.
[8] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. 2018. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv preprint arXiv:1804.07461.
[9] Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., & Inkpen, D. 2016. Enhanced lstm for natural language inference. arXiv preprint arXiv:1609.06038.
[10] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding with unsupervised learning. Technical report, OpenAI.
[11] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[12] David H. Wolpert. 1992. Stacked generalization. Neural Networks (1992). https: //doi.org/10.1016/S0893- 6080(05)80023- 1.
[13] Shuaipeng Liu, Shuo Liu, Lei Ren. 2019. Trust or Suspect? An Empirical Ensemble Framework for Fake News Classification. WSDM Cup 2019 Workshop, AU, February 2019, 4 pages.

作者简介

刘帅朋，硕士，美团点评搜索与NLP部NLP中心高级算法工程师，目前主要从事NLU相关工作。曾任中科院自动化研究所研究助理，主持研发的智能法律助理课题获CCTV-1频道大型人工智能节目《机智过人第二季》报道。

刘硕，硕士，美团点评搜索与NLP部NLP中心智能客服算法工程师，目前主要从事智能客服对话平台中离线挖掘相关工作。

任磊，硕士，美团点评搜索与NLP部NLP中心知识图谱算法工程师，目前主要从事美团大脑情感计算以及BERT应用相关工作。

会星，博士，担任美团点评搜索与NLP部NLP中心的研究员，智能客服团队负责人。目前主要负责美团智能客服业务及智能客服平台的建设。在此之前，会星在阿里达摩院语音实验室作为智能语音对话交互专家，主要负责主导的产品有斑马智行语音交互系统，YunOS语音助理等，推动了阿里智能对话交互体系建设。

富峥，博士，担任美团点评搜索与NLP部NLP中心的研究员，带领知识图谱算法团队。目前主要负责美团大脑项目，围绕美团吃喝玩乐场景打造的知识图谱及其应用。在知识图谱、个性化推荐、用户画像、时空数据挖掘等领域展开了众多的创新性研究，并在相关领域的顶级会议和期刊上发表30余篇论文，如KDD、WWW、AAAI、IJCAI、TKDE、TIST等，曾获ICDM2013最佳论文大奖，出版学术专著1部。

仲远，博士，美团点评搜索与NLP部负责人。在国际顶级学术会议发表论文30余篇，获得ICDE 2015最佳论文奖，并是ACL 2016 Tutorial “Understanding Short Texts”主讲人，出版学术专著3部，获得美国专利5项。此前，曾担任微软亚洲研究院主管研究员，以及美国Facebook公司Research Scientist。曾负责微软研究院知识图谱、对话机器人项目和Facebook产品级NLP Service。

欢迎加入美团深度学习技术交流群，跟作者零距离交流。进群方式：请加美美同学微信（微信号：MTDPtech02），回复：自然语言，美美会自动拉你进群。

---------- END ----------

也许你还想看

美团餐饮娱乐知识图谱——美团大脑揭秘

美团大脑：知识图谱的建模方法及其应用

美团外卖日单量破1600万背后的“超级大脑”之订单分配

Lan的ScalersTalk第四轮新概念朗读持续力训练Day 288 20190722 孙岚_9ff8
练习材料：[Day17602019-07-22]Lesson24-2BeautyThereisnoskyinJunesobluethatitdoesnotpointforwardtoabluer,nosunsetsobeautifulthatitdoesnotwakenthevisionofagreaterbeauty,avisionwhichpassesbeforeitisfullyglimps
LeetCode链表题解技巧归纳总结
最近集中刷了一批链表的题型，在这里总结一下解题技巧，以及对应题目的解题思路。解题思路并不会细致入微，主要是为了总结归类，并且希望用几句话来激发灵感，权当是没思路时的指引以及以后复习时的提纲了。还有一些重要或者总会绕晕的经典题目，也在这里记录一下代码的实现逻辑。一、链表题解的两个技巧遇到链表相关的题，无论问题是什么，先要想想是不是可以用上以下的两个技巧。哨兵节点双指针1、哨兵节点哨兵节点是一个非常常
破解 VMware 迁移难题：跨平台迁移常见问题及自动化解决方案七夜zippoe 运维自动化运维 VMware
在企业IT架构向混合云、多云演进的进程中，VMware虚拟化环境的跨平台迁移成为关键任务。无论是迁移至KVM、Hyper-V等开源虚拟化平台，还是AWS、Azure等公有云，迁移过程往往面临兼容性障碍、数据损耗、业务中断等难题。本文深入剖析跨平台迁移的核心痛点，结合自动化技术提出系统性解决方案，助力企业实现平滑迁移。一、跨平台迁移的常见痛点及根源分析VMware迁移的复杂性源于虚拟化层、硬件架构、
第98天 2019.4.8 我埋葬了一只喜鹊沉默岛主
图片发自App早上送完女儿上学，我转身去小公园跑步，刚走几步，一眼看到了公园小路旁边躺着一只死喜鹊。我稍微停住，看了它一下，就往前走起来。我在想，它不会是我天天看到的那只正在做窝的喜鹊吧，它是怎么死的，怎么来到这的。图片发自App我绕着公园一圈又经过它身边时，忽然想起了我老公，如果是他看到，他肯定会挖个坑把喜鹊埋掉，那我也可以啊，这个想法出现在脑子里后，我就一边跑步，一边看看四周哪里适合挖坑，可是
蓝桥杯零基础到获奖-第3章 C++ 变量和常量落笔映浮华丶蓝桥杯 c++
蓝桥杯零基础到获奖-第3章C++变量和常量文章目录一、变量和常量1.变量的创建2.变量初始化3.变量的分类4.常量4.1字⾯常量4.2#define定义常量4.3const定义常量4.4练习练习1：买票https://www.nowcoder.com/practice/0ad8f1c0d7b84c6d8c560298f91d5e66练习2：A+B问题https://www.luogu.com.cn
使用 CrewAI 进行股票分析：自动化投资决策的新途径 AI量化投资人工智能多智能体语言模型智能体 crewai
一、引言在当今快节奏的金融市场中，及时、准确的股票分析对于投资者做出明智决策至关重要。然而，传统的股票分析方法往往耗时且依赖人工，难以满足市场快速变化的需求。CrewAI框架的出现为股票分析带来了新的解决方案。本项目展示了如何利用CrewAI框架自动化股票分析过程，通过协调多个自主AI代理协作完成复杂任务，从而提高分析效率和准确性。二、CrewAI框架概述CrewAI旨在促进角色扮演AI代理之间的
2019-07-18 A天南
临夏市公安局交警大队城区一中队2019年7月18日交通工作日报2019年7月18日，临夏市公安局交警大队城区一中队共出动警力14人，警车1辆，在辖区内进行集中整治。当日查处违法行为，未使用安全带3起，限行车辆违反禁令标志1起，逾期未检验1起，图片发自App图片发自App图片发自App驾驶摩托车不戴头盔5起，醉酒处理2起，随车未携带驾驶证1起，劝阻电动车违法载人3起。
2023-05-30杂记：追剧所感方小相
知乎心累啊……这两天痴迷追剧……运动两天打卡两天打卡知乎公众号更加不要说……更加关键就是Q聊小火没有了花费又开通一个月会员25块钱续上加上断更两天花费六块钱去复活了31块钱……看来真的要定一个闹钟按时那个点去检查有没有完成任务没有完成任务就需要马上去完成其实昨天聊天也是自己的问题不主动去询问而且对方还是11点主动过来告诉结果可能结果不如意结果自己……也那个时时间点刚刚好在看上游大结局最后两集关电脑
2019-03-12 黄侠_美兮妈
【美兮修能】20190312识字营009期D110（学习力践行记录D499）早上读了《民国老课本》第121课，看了《森林里的小房子》，读了一本牛津树《Thejourey》。图片发自App下午从幼儿园回来的路上背了《望庐山瀑布》《瀑布》。晚饭后上外教课，玩得很开心。图片发自App然后和小伙伴一起做实验，熔岩大爆发、颜色变变变和彩虹糖水。图片发自App然后他们一起玩颜色。又拼了小猪佩奇的拼图。图片发自
趣闲赚是不是骗局,到底能不能够赚钱? 好项目高省
趣闲赚是一款备受关注的赚钱应用，它声称用户可以通过完成任务、看视频、填问卷等方式获得佣金。但是，这个应用真的能让人们赚到钱吗?我们来一起探讨一下。京东密令红包：最爱领红包828红包多多148今天给大家分享我长期在做的副业，也在这里赚到人生第3桶金！高省APP佣金高，资质靠谱，各大应用市场均可搜索使用。【高省】高省app是杭州长孚科技有限公司旗下一款新开发电商导购应用，为用户打造一个集成电商购物优惠
ONNX模型使用指南：从零开始掌握跨领域模型部署
ONNX模型使用指南：从零开始掌握跨领域模型部署ONNX模型作为一种开放式的神经网络交换格式，已成为AI模型部署的行业标准。当您获得一个没有使用说明的ONNX模型时，可以通过系统化的分析和部署流程，使其在不同领域发挥作用。本文将详细阐述如何分析模型结构、配置运行环境、准备特定领域输入数据、执行推理并处理结果，同时提供图像分类、自然语言处理、医疗影像分析、金融风控和自动驾驶等领域的具体应用示例，帮助
20190305【每日阅读】宁向东管理学课007讲：认知不协调｜改变他人态度的秘诀素SU然
2019年3月5日周二早安天气：7℃-11℃悦读开启美好的一天宁向东的管理学课007讲：认知不协调｜改变他人态度的秘诀不一定靠改变认知才能改变行为其实先改变行为，也可以反过来改变认知。
日有所思：开控辍保学会议有感（NO.323,周一，晴）田园花开
今天下午有个紧急套会在德润小学召开，会议的主题是城区“义务教育控辍保学联席会暨责任督学聘任仪式”。教育局局长和新任的常务区长先后作了发言，从他们的发言中我大致了解了城区控辍保学工作情况和存在问题。控辍保学是一项艰巨而又光荣的任务，特别是我区两镇的老师，经常假期也不休息，走家串户，反反复复做工作可能才能把这些辍学的孩子重新请回教室。如果每一个学生都是因为家贫而辍学的，都能像希望工程标志“大眼睛”苏明
2020年不一样的春节王小根
2020年鼠年春节，注定会让人记忆深刻，它是我陪伴父母时间最长的春节，它是我陪伴妻子孩子时间最长的春节，它是全家人呆在一起时间最长的春节。它是不需要拜年的春节，它是妻子最想要的春节，它是花钱最少的春节。只因2019-ncov病毒引起的肺炎快速传染，需要家人不出门、少出门。希望尽早结束疫情，同胞们身体健康，祖国继续繁荣昌盛！
基于python的文字识别系统_基于Python的图片文本识别系统的研究 weixin_39683368 基于python的文字识别系统
龙源期刊网http://www.qikan.com.cn基于Python的图片文本识别系统的研究作者：韩琳来源：《科学与财富》2019年第20期近年来随着计算机技术的不断发展，OpticalCharacterRecognition（光学字符识别，简称“OCR”）应用的领域更加的广泛，而图片文字识别就是其中重要的一个。目前图片文字识别的准确率并没有达到100%，这也成为了图片文字识别发展领域的一大瓶
离开手机第一天鲜栗子
2019年3月28日晴这是完整的第一天手机被搁置于两三米远无法知晓人们的笑颜衬的壹玖年的春天如何绚烂这个第一天的远离有一点孤单在向世界宣言我只关注着自己内在深奥的世界无限空窘填充进去的无数关联竟然从未注满平实和浅显越来越无界限的天和地嘲笑我被桎梏于小寸屏幕之趣里接下来无以计数的时间我无奈的我开启陌生的旅程又是探险若真的就此消失记得在你手边用笔写下自己都不认识的祝愿
2019-04-17 健康平安豆
今天，我们学校举行了《第三届读书节汇报演出表彰大会》。老师带领我们大家有秩序的走到操场上，入座后，我看到舞台上摆放着一个超大的大牌子，上面写着《壮丽70年.奋斗新时代》————童心向党做新时代好少年。大会开始第一项，我们学校全体师生起立，升国旗，唱国歌。然后，有大哥哥大姐姐们表演的节目，有老师为我们表演的节目，还有参加的叔叔阿姨们为我们表演的节目......我觉得我今天过得非常开心，也非常有意义，
MIPI CSI 通道初始化流程与 D-PHY 调试策略：从链路稳定到高带宽优化观熵影像技术全景图谱：架构调优与实战 Camera 人工智能影像
MIPICSI通道初始化流程与D-PHY调试策略：从链路稳定到高带宽优化关键词：MIPICSI、D-PHY、camera驱动、链路初始化、时钟通道、通道同步、误码调试、链路校准、高通平台、MTK平台、数据通道校验摘要：MIPICSI接口是现代手机相机模组连接ISP的主流数据传输通道，承担高速图像流的传输任务。其初始化流程涉及设备树配置、D-PHY配置、通道启用与同步、链路状态检测等多个关键环节，且
Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
2019-02-10 轻尘_b215
R：[阅读社会]真正会休息的人，是如何度过假期的？I：假期本来是用来休息的，让们恢复疲劳，放松神经。但是长假后多数人的体验就是一个字一一累。为什么会是这样，皆因不懂得休息所致。体验心流是最好的休息方法，心流是人陶醉于所专注的事物，内心纯净安宁，超越现实，物我两忘，获得极大的放松和满足。减少刷手机，看电视等被动式休闲投入，主动式休闲，从事个人爱好、运动、阅读等容易产生心流。A1:春节长假期间读到这篇
bug：定时任务因数据库时间滞后导致数据清理失效问题刘火锅 java spring cloud spring 后端 mybatis
问题背景：在数据清理定时任务中，发现理应被删除的数据未被正确清理。经排查发现：定时任务配置在每日00:00:00执行删除数据SQL语句逻辑正常应用服务器时间准确数据库服务器时间比应用服务器慢15秒数据清理SQL使用CURDATE()获取当前日期问题原因分析：当应用服务器在00:00:00触发任务时：应用服务器时间：2025-07-1800:00:00数据库服务器时间：2025-07-1723:59
仓库货物检测：基于YOLOv5的深度学习应用与UI界面开发 YOLO实战营 YOLO 深度学习 ui 目标跟踪目标检测人工智能
一、引言随着电商和物流行业的快速发展，仓库货物管理已经成为企业运营中至关重要的环节。为了提高仓库管理的效率和准确性，越来越多的企业开始应用自动化技术来完成货物的盘点、分类、分拣等任务。传统的货物管理方式通常依赖人工检查，不仅效率低下，而且容易出现误差。为了克服这些问题，利用计算机视觉和深度学习技术来实现仓库货物的自动化检测成为了一种有效的解决方案。本博客将介绍如何使用YOLOv5进行仓库货物检测，
【泽宇读书会18】突发事件打乱所有计划，四大法则傍身，谁来也不怕！暴富的小青
阅读《高效能人士的时间管理课：不可不知的8项黄金法则》P46-61第四天，进度只有20页。我们经常经常会碰到这样一种情况：花了很长时间制定好自己的一份完美的计划清单。当准备重新开始美好的一天时，却发现自己办公桌堆满新的任务，工作如大海波浪，一波未平一波又起，而且每一波都会被注明是“紧急任务”，看看计划清单，再看看堆积如山的新任务，瞬间更加焦虑了。元亨利在《高效能人士的时间管理课：不可不知的8项黄金
2019-06-07 d0945092c1e5
烤全羊很多人都吃过，把一头小羊肉弄好之后绑上铁架子上烤，烤到外皮焦脆的时候吃，非常香！但是烤全牛你见过吗？前所未闻是大多数人的感受！在这大众创新万众创业的高频率发展时代，为了响应市场发展需求，牛匠专利烤牛炉应运而生。整只全牛烤制的震慑感，手撕大口吃肉的强烈满足感，令人们风靡于“烤牛”世界。你们从未想过要了解的烤全牛炉牛匠专利烤牛炉1.原创烤牛炉，填补空白市场：人无我有。做别人没有的，是商机、是特色
[特殊字符] LLM（大型语言模型）：智能时代的语言引擎与通用推理基座大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理 LLM 大模型 Transformer
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从千亿参数到人类认知的AI革命一、核心定义与核心特征LLM（LargeLanguageModel）是基于海量文本数据训练的深度学习模型，通过神经网络架构（尤其是Transformer）模拟人类语言的复杂规律，实现文本理解、生成与推理任务。其核心特征可概
2019.3.22 a71d1e6193ed
今天家庭聚餐，儿子没有拼命的转桌子，并能照顾表弟，表现越来越好。之前没事就转个不停，越不让他转，他转的越起劲。原来以为只要不吼他就行了，从来没想到态度不好也对他影响也这么大，之前说两句他不听，我就不好好说话了，各种责备。兴趣班回家的路上聊了好多，知道了他为什么不喜欢背书，原来在他一年级时，强迫他背书，埋下了厌恶的果子，还好知道了原因。继续好好说好，仔细聆听。
还记得你的梦想吗？行走的_苹果
图片发自App2018年9月就要接近尾声了，距离2019年还有96天，希望用文字记录这美好的96天。今天晚上观看了“小狼女”的一直播，收获很多。由于晚上去练完瑜伽回来，一直播已经开始一段时间了，直接观看的第二位老师的分享。里面讲到了几个话题：一是关于创业者，在你的观念里“创业者”是怎样的，刚抛出这个话题的时候，我脑海中浮现的就是一个人出去自己去做一件事情，就叫创业者。显然这个认知是很不准确，很片面
十大赚钱软件有哪些？盘点网上十个最赚钱的软件一起高省
近年来，越来越多的人开始关注如何通过软件赚钱。那么，哪些赚钱软件比较靠谱呢？首先，我们要明白什么是赚钱软件。简单来说，就是利用你电脑、手机或平板电脑上的应用来完成一定的与金钱相关的任务，这些任务可能包括游戏、问答、网络投票、网络问卷、网络购物、理财等各种任务。大家好，我是高省APP最大团队导师蓓蓓，高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百
永澄周计划课程的听课感受上善若水在路上
今天听了永澄的周计划指导课程，我最大的感受是目标的制定是一个非常复杂和系统的工程，这种能力的掌握需要花费大量的时间。我在认知方面的最大的突破就是我终于明白了自己为什么，过去一直制定计划，但是很少有完成过计划的体验。这里面的主要原因是我过去的计划主要是停留在做计划的最低层。按照永澄老师的说法。目标的制定从低到高可以分为四个层次，第一层，简单的的把任务列在纸上面。第二层，重点任务突出，同时兼顾全局。第
亲子日记787 云哲云灿妈妈
2019.05.27星期一阴转晴这两天一直在帮妈妈套袋，没太顾上俩宝，二宝前两天发烧，今天看来已经痊愈，想今天再吃一天药就停，貌似今晚忘给吃了。今天有同学家长咨询关于初中网上报名的事情，因为看时间还算宽裕，这两天没顾得上，明天第一时间先研究研究这事。李云哲这两天自主学习还算不错，唯一不足还是效率不高，爱拖拉，每天放学后光作业写到很晚，什么也顾不上。继续这样下去，不知道升入初中后会怎么样？
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一