nkwshuyi

如何正确使用机器学习中的训练集、验证集和测试集？

王树义

读完需要

分钟

速读仅需7分钟

训练集、验证集和测试集，林林总总的数据集合类型，到底该怎么选、怎么用？看过这篇教程后，你就能游刃有余地处理它们了。

问题

审稿的时候，不止一次，我遇到作者错误使用数据集合跑模型准确率，并和他人成果比较的情况。

他们的研究创意有的很新颖，应用价值较高，工作可能也做了着实不少。

但因对比方法错误，得出来的结果，不具备说服力。几乎全部都需要返工。

这里，我帮你梳理一下，该怎么使用不同的数据集合：

训练集（training set）

验证集（validation set）

测试集（test set）

目的只有一个——避免你踩同样的坑。

其实这个问题，咱们之前的教程文章，已有涉及。

《如何用 Python 和深度迁移学习做文本分类？》一文中，我曾经给你布置了一个类似的问题。

在文章的末尾，我们对比了当时近期研究中， Yelp 情感分类的最佳结果。

下表来自于：Shen, D., Wang, G., Wang, W., Min, M. R., Su, Q., Zhang, Y., ... & Carin, L. (2018). Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms. arXiv preprint arXiv:1805.09843.

注意这里最高的准确率（Accuracy）数值，是 95.81 。

我们当时的模型，在验证集上，可以获得的准确率，是这个样子的：

97.28%，着实不低啊！

于是我问你：

咱们这种对比，是否科学？

你当时的答案是什么？

这么久过去了，又看了那么多新的教程和论文，你的答案发生变化了吗？

现在咱们公布一下答案吧。

不科学。

为什么？

因为对比方法有问题。

方法

原文中有这样一句：

这里数据集只提供了训练集和“测试集”，因此我们把这个“测试集”当做验证集来使用。

作为演示，数据集咱们想怎么用，就可以怎么用。

甚至你把测试集拿来做训练，然后在训练集上跑测试，都没有人管。

但是写学术论文，声称你的模型优于已有研究，却绝不能这么草率。

注意，比较模型效能数值结果时，你只能拿不同的模型，在同样的测试集上面比。

测试集不同，当然不可以。

但模型A用测试集，模型B用验证集（与A的测试集数据完全一致）比，可以吗？

很多人就会混淆了，觉得没问题啊。既然数据都一样，管它叫做什么名称呢？

可是请你注意，哪怕A模型用的测试集，就是B模型用的验证集，你也不能把这两个集合跑出来的结果放在一起比较。

因为这是作弊。

你可能觉得我这样说，颇有些吹毛求疵的意味。

咱们下面就来重新梳理一下，不同数据集合的作用。

希望你因此能看清楚，这种似乎过于严苛的要求，其实是很有道理的。

咱们从测试集开始谈，继而是验证集，最后是训练集。

这样“倒过来说”的好处，是会让你理解起来，更加透彻。

先说测试集吧。

测试

只有在同样的测试集上，两个（或以上）模型的对比才有效。

这就如同参加高考，两个人考同样一张卷子，分数才能对比。

甲拿A地区的卷子，考了600分，乙拿B地区的卷子，考了580分。你能不能说，甲比乙成绩高？

不行吧。

为了让大家更易于比较自己的模型效果，许多不同领域的数据集，都已开放了。而且开放的时候，都会给你指明，哪些数据用于训练，哪些用于测试。

以 Yelp 数据为例。

在 AWS 上存储的 fast.ai 公开数据集中，训练集和测试集都已为你准备好。

你不需要自己进行划分。

大家达成共识，做研究、写论文，都用这个测试集来比拼，就可以。

所以，如果你的研究，是靠着比别人的模型效果来说事儿，那就一定先要弄明白对方的测试集是什么。

但是，这个听起来很容易达成的目标，实践中却很容易遇到困难。

因为有的人写论文，喜欢把数据和代码藏着掖着，生怕别人用了去。

他们一般只提一下，是在某个公开数据集上切了一部分出来，作为测试集。

测试数据集不发布，切分方法（包括工具）和随机种子选取办法也不公开。

这是非常不靠谱的行为，纯属自娱自乐。

作为严肃的审稿人，根本就不应该允许这样的研究发表。

因为机器学习研究的数据集不开放，便基本上没有可重复性（Reproducibility）。

如果你没有办法精确重复他的模型训练和测试过程，那么他想汇报多高的准确率，就纯凭个人爱好了。

当然，我们不是活在理想世界的。

你在某一个领域，用机器学习做应用研究的时候，面对这种无法重复已发表论文的情境，该怎么办？

直接用他声称的结果与你的实际运行结果比较，你可能是在追逐海市蜃楼。累到气喘吁吁，甚至怀疑自我的程度，也徒劳无功。

忽视它？

也不行。

审稿人那关你过不去。

人家会说，某某研究跟你用的是一样的数据，准确率已经达到98%，你的才96%，有什么发表的意义呢？

看，左右为难不是？

其实解决办法很简单。

不要考虑对方声称达到了多高准确率。把他提供给你的数据全集，自行切分。之后复现对方的模型，重新跑。

模型架构，一般都是要求汇报的，所以这几乎不是问题。

至于这种复现，越是复杂的模型，我越推荐你用 PyTorch 。

之后把你的模型，和复现的对方模型在同样的测试集上做对比，就可以了。

当然，论文里要写上一句：

由于某篇文章未提供代码与具体数据切分说明，带来可重复性问题，我们不得不独立复现了其模型，并在测试集完全一致的情况下，进行了比对。

这里多说一句，一定要保证你自己的研究，是可重复的。

不要怕公布你的代码和数据。它们不是你的独门暗器，而是支撑你研究的凭据。

回看我们前面提到的 Yelp 公开数据的例子。

这时候你会发现一个奇怪的问题——为什么它只有训练集和测试集？

我们一直反复提到的验证集哪里去了？

验证

验证集，就如同高考的模拟考试。

不同于高考，模拟考只是你调整自己状态的指示器而已。

状态不够满意，你可以继续调整。

当然，参加过高考的同学都有经验——这种调整的结果（从模拟考到高考），有可能更好，也有可能更糟糕。

回到机器学习上，那就是测试集上检验的，是你最终模型的性能。

什么叫“最终模型”？

就是你参加高考时候的状态。包括你当时的知识储备、情绪心态，以及当天的外部环境（温度、湿度、东西是否带齐）等。

最终模型，只有一个。

就如同每年的高考，你只能参加一回。

考成什么样儿，就是什么样。

而验证集上跑的，实际上却是一个模型集合，集合的大小，你可能数都数不过来。

因为这里存在着超参数（hyper-parameter）设置的问题。不同超参数组合，就对应着不同的潜在模型。

验证集的存在，是为了从这一堆可能的模型中，帮你表现最好的那个。

注意这里的表现，是指在验证集上的表现。

好比说，有个超参数叫做训练轮数（epochs）。

在同样的训练集上，训练3轮和训练10轮，结果可能是不一样的模型。它们的参数并不相同。

那么到底是训练3轮好，还是10轮好？

或者二者都不好，应该训练6轮？

这种决策，就需要在训练后，在验证集上“是骡子是马牵出来溜溜”。

如果发现训练3轮效果更好，那么就应该丢弃掉训练6轮、10轮的潜在模型，只用训练3轮的结果。

这对应着一种机器学习正则化（Regularization）方式——提早停止训练（early stopping）。

其他的超参数选取，你也可以举一反三。总之就是按照验证集的效果，来选超参数，从而决定最终模型。

下一步，自然就是把它交给测试集，去检验。这个我们前面已经详细讲解过了。

至于这个最终选择模型，在新数据集（测试集）上表现如何，没人能打包票。

所以，回到咱们之前的问题。在《如何用 Python 和深度迁移学习做文本分类？》一文中，我故意用验证集上筛选出的最好模型，在验证集上跑出来分数，当成是测试成绩，这显然是不妥当的。

你不能把同样的题做他个三五遍，然后从中找最高分去跟别人比。

即便你的模拟考，用的是别人的高考真题。两张卷子完全一样，也没有说服力。

所以你看，验证集的目的，不是比拼最终模型效果的。

因此，怎么设定验证集，划分多少数据做验证，其实是每个研究者需要独立作出的决策，不应该强行设定为一致。

这就如同我们不会在高考前去检查每个考生，是否做过一样多的模拟试卷，且试卷内容也要一致。

极端点儿说，即便一个考生没参加过模拟考，可高考成绩突出，你也不能不算他的成绩，对吧？

不过，讲到这里，我们就得要把训练集拿进来，一起说说了。

训练

如果测试集是高考试卷，验证集是模拟考试卷，那么训练集呢？

大概包括很多东西，例如作业题、练习题。

另外，我们上高三那时候（噫吁嚱，已经上个世纪的事儿了），每周有“统练”，每月有“月考”。也都可以划定在训练集的范畴。

减负这么多年以后，现在的高中生应该没有那么辛苦了吧？真羡慕他们。

这样一对比，你大概能了解这几个集合之间本应有的关系。

学生平时练题，最希望的，就是考试能碰到原题，这样就可以保证不必动脑，却做出正确答案。

所以，出模拟考卷时，老师尽量要保证不要出现学生平时练过的题目，否则无法正确估量学生目前的复习备考状态，噪声过高容易误事儿。

验证集和训练集，应该是不交叠的。这样选择模型的时候，才可以避免被数据交叠的因素干扰。

每个学校的模拟考，却都恨不得能押中高考的题。这样可以保证本校学生在高考中，可以“见多识广”，取得更高分数。

高考出卷子的老师，就必须尽力保证题目是全新的，以筛选出有能力的学生，而不是为高校选拔一批“见过题目，并且记住了标准答案”的学生。

因此，测试集应该既不同于训练集，又不同于验证集。

换句话说，三个数据集合，最好都没有重叠。

学生应该学会举一反三，学会的是知识和规律。

用知识和规律，去处理新的问题。

我们对机器模型的期许，其实也一样。

在学术论文中，你见到的大部分用于机器学习模型对比的公开数据集（例如 fast.ai 公开数据集中的 Yelp, IMDB, ImageNet 等），都符合这一要求。

然而，例外肯定是有的。

例如我在 INFO 5731 课程里面给学生布置的某期末项目备选项，来源于某学术类数据科学竞赛，目标是社交媒体医学名词归一化。

其中就有数据，既出现在了训练集，又出现在了验证集，甚至测试集里也会有。

面对这种问题，你该怎么办？

你怎么判断自己的模型，究竟是强行记住了答案，还是掌握了文本中的规律？

这个问题，作为思考题留给你。

我希望在知识星球中和热爱学习的你，做进一步讨论。

另外的一个问题，是训练集要不要和别人的完全一致？

一般来说，如果你要强调自己的模型优于其他人，那么就要保证是在同样的训练集上训练出来。

回顾深度学习的三大要素：

数据（Data）

架构（Architecture）

损失（Loss）

如果你的训练数据，比别人多得多，那么模型自然见多识广。

对于深度学习而言，如果训练数据丰富，就可以显著避免过拟合（Overfitting）的发生。

GPT-2 模型，就是因为具备了海量 Reddit 数据做训练，才能傲视其他语言模型（Language Model），甚至以安全为理由，拒绝开放模型。

但是这时候，你跟别人横向比较，似乎就不大公平了。

你的架构设计，未必更好。假使对方用同样多的数据训练，结果可能不必你差，甚至会更优。

这就如同一个复读了5年的学生甲，充分利用每一分每一秒，做了比应届生乙多5倍的卷子。结果在高考的时候，甲比乙多考了1分（同一张卷子）。

你能说甲比乙更有学习能力，学习效果更好吗？

小结

这篇教程里，我为你梳理了机器学习中常见的三种不同数据集类别，即：

训练集

验证集

测试集

咱们一一分析了其作用，并且用“考试”这个大多数人都参加过，且容易理解的例子做了诠释。

希望读过本文之后，你的概念架构更为清晰，不再会误用它们，避免给自己的研究挖坑。

祝深度学习愉快，论文发表顺利哦！

作业

这里给你留一道思考题：

有的时候，你看到有人把训练集切分固定的一部分，作为验证集。但是另一些时候，你会看到有人采用“交叉验证”的方式，即每一轮训练，都动态轮转着，把一部分的数据，作为验证集。对吧？

那么问题来了，什么样的情况下，你应该采用第一种方式，即固定分配验证集？什么样的情况下，你应该采用“交叉验证”方式呢？后者的优势和缺点，又各是什么呢？

欢迎你留言回复，写下自己的判断标准与原因阐述。咱们一起交流讨论。

征稿

One more thing ……

这里还有个征稿启事。

国际学术期刊 Information Discovery and Delivery 要做一期关于 “Information Discovery with Machine Intelligence for Language” 的特刊（Special Issue）。

本人是客座编辑（guest editor）之一。另外两位分别是：

我在北得克萨斯大学（University of North Texas）的同事 Dr. Alexis Palmer 教授

南京理工大学章成志教授

征稿的主题包括但不限于：

Language Modeling for Information Retrieval

Transfer Learning for Text Classification

Word and Character Representations for Cross-Lingual Analysis

Information Extraction and Knowledge Graph Building

Discourse Analysis at Sentence Level and Beyond

Synthetic Text Data for Machine Learning Purposes

User Modeling and Information Recommendation based on Text Analysis

Semantic Analysis with Machine Learning

Other applications of CL/NLP for Information Discovery

Other related topics

具体的征稿启事（Call for Paper），请查看 Emerald 期刊官网的这个链接（http://dwz.win/c2Q）。

作为本专栏的老读者，欢迎你，及你所在的团队踊跃投稿哦。

如果你不巧并不从事上述研究方向（机器学习、自然语言处理和计算语言学等），也希望你能帮个忙，转发这个消息给你身边的研究者，让他们有机会成为我们特刊的作者。

谢谢！

延伸阅读

你可能也会对以下话题感兴趣。点击链接就可以查看。

如何在《玉树芝兰》快速找到你想要的教程文章？

如何快速写作论文初稿？

如何选研究题目？

数据科学入门后，该做什么？

文科生如何理解循环神经网络（RNN）？

《文科生数据科学上手指南》分享

喜欢别忘了点赞，并且把它转发给你身边有需要的朋友。

别忘了，赞赏就是力量。

由于微信公众号外部链接的限制，文中的部分链接可能无法正确打开。如有需要，请点击文末的“阅读原文”按钮，访问可以正常显示外链的版本。

订阅我的微信公众号“玉树芝兰”，第一时间免费收到文章更新。别忘了加星标，以免错过新推送提示。

如果你对 Python 与数据科学感兴趣，希望能与其他热爱学习的小伙伴一起讨论切磋，答疑解惑，欢迎加入知识星球。

题图： Photo by Jonah Pettrich on Unsplash

你可能感兴趣的:(如何正确使用机器学习中的训练集、验证集和测试集？)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s