「已注销」

注水、占坑、瞎掰：起底机器学习学术圈的那些“伪科学”（附链接）

来源：大数据文摘

本文约9968字，建议阅读10分钟。

本文对机器学习圈内有太多搞“伪科学”的现象做出了解释。

最近的机器学习圈让人有些看不懂。

一边是今年的NIPS迎来了创纪录的8000多篇投稿，一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认，机器学习发展已进入瓶颈期。

对此，卡耐基梅隆大学的Zachary C. Lipton教授和斯坦福的Jacob Steinhardt教授联合发表题为《Troubling Trends in Machine Learning Scholarship》的论文。

他们毫不留情面地指出：机器学习圈内有太多搞“伪科学”的现象！

我们对该文进行了翻译。让我们一起来看，这几年机器学习圈究竟出了哪些幺蛾子。

注：本文出现的方括号中的数字指向参考文献（如[18]）。在后台回复“伪科学”可获取本文参考文献的完整列表。

介绍

机器学习（ML）研究人员共同致力于创造和传播有关数据驱动算法的知识。在研究人员撰写的论文中，他们可能力求实现以下这些目标：理论地描述可学习的内容，通过严谨的实验来加深理解，或者构建具有高预测准确性的系统。

虽然确定对哪些课题进行调查研究可能是主观的，但一旦主题确立，论文只有（客观地）从读者的需求出发，创造基础性的知识，并尽可能表述清楚，才能做出最有价值的学术贡献。

什么样的论文能最好地为读者服务呢？我们可以列举出这样的论文需要满足的条件。这些论文应该：

帮助读者基于直觉进行理解，但直觉解释要和证据所支持的更强有力的结论区分开来;
描述那些考虑并排除了其他假设的实证调查[62];
明确理论分析与直觉或经验主张之间的关系[64];
使用正确的语言帮助读者理解，选择术语以避免误导或使用未经证实的概念内涵，防止与其他定义的冲突，或与其他相关但不同概念的混淆[56]。

机器学习不断有新的进展，尽管这些进展经常偏离这些理想目标。在本文中，我们着重关注以下四种ML学术上的偏离趋势：

未能区分解释和推测。
未能确定实验增益的来源，例如当增益实际上源于超参数调整时，却强调增益是源于对神经网络模型架构的不必要的修改。
滥用数学：数学的使用或混乱或表达过度而没有达到应使概念明晰的效果，例如：混淆技术和非技术概念。
滥用语言，例如通过选择具有口语内涵的专门术语或重载已有的技术术语。

这些趋势背后的原因未明，这可能是由于ML学术圈的快速扩张，由此导致的审核人员日益供不应求，以及学术和成功的短期衡量标准之间经常出现的错位激励（例如文献引用量，注意力和创业机会）等因素。虽然每种模式都或多或少有了相应的补救措施，但我们还是想整体讨论一下这个问题，对学术圈要如何应对这些趋势提出一些不成熟的小建议。

随着机器学习的影响日益增长，研究论文的受众逐渐拓展到了学生、记者和政策制定者，甚至更广泛的群体。我们希望研究论文可以通过清晰地传达更准确的信息，来加快研究进度，缩短新研究人员的入行时间，并在公共话语中发挥更具建设性的作用。

学术研究的漏洞会误导公众，动摇ML的知识基石，从而阻碍未来的研究。实际上，在人工智能的历史中，更广泛地说，在科学研究中，许多这些问题已经周而复始地循环发生。

1976年，德鲁麦克德莫特[53]指责人工智能学术圈放弃了自律，并预言警告说“如果我们不能做自我批评，别人迟早会替我们来完成。”类似的讨论在整个80年代，90年代[13,38,2]中再次出现。在心理学等其他领域，不良的实验标准削弱了大众对该学科权威的信任[14]。目前机器学习的强大力量要归功于迄今为止大量严谨的研究，包括理论研究[22,7,19]和实验研究[34,25,5]。通过提倡清晰的科学思考和交流沟通，我们可以继续维持我们学术圈目前所享有的来自学术社区的信任和投资。

声明

该文选取的案例多数来自于机器学习圈内的资深科研者。考虑到新人缺乏对等的渠道回应或反击我们的质疑，我们不对他们的作品作过多评价。

令人堪忧的趋势

在下面的每一小节中，我们将：

描述一个趋势;
提供相应的几个例子（正反皆有）;
解释后果。指出个别论文中的弱点可能比较敏感，所以为了最大限度地减少这样的影响，我们尽量使得例子简短而具体。

解释与推测

对新领域的研究通常涉及以直觉为基础的探索，这些直觉尚未融合成清晰的知识观点。我们认识到推测作为一种方式，可以让作者传授可能尚未经过严格科学审核的直觉理解。然而，有些论文通常以解释为幌子发表实则是推测的观点，而由于科学论文一贯严谨的声誉和作者被假定的专业性，这些推测被进一步视为了权威。

例如，[33]围绕一个称为内部协变量偏移（internal covariate shift）的概念提出了一个直观的理论。从摘要开始，对内部协变量偏移的阐述似乎表明了文章陈述的是技术事实。然而，文中没有清晰定义关键术语，因而不能最终确定真值。例如，该文指出批量标准化（batch normalization）通过减少训练过程中隐藏激活层（hidden activation）分布的变化来改进模型。

那么是通过哪种散度来度量这种变化的呢？该论文从未澄清过。有些研究表明这种对批量标准化的解释可能并不正确[65]。然而，[33]中给出的推测性解释已被作为事实引用，例如在[60]中指出，“众所周知，由于内部协变量偏移问题，深度神经网络很难被优化。”

我们自己也因为将解释包装成猜测而同样问心有愧。在[72]中，JS表示“高维度和大量的无关特征为攻击者提供更多空间来构建攻击”，却没有进行任何实验来衡量维度对攻击性的影响。而在[71]中，JS引入了直观的覆盖概念而没有对其进行定义，并将其用作一种解释形式，例如：“回想一下，缺乏覆盖率的一个症状是对不确定性的不良估计和无法产生高精度预测。”回顾过去，我们希望传达对论文中描述的工作具有重要意义的想法，我们不愿意将我们论证的核心部分标记为推测性的。

与上述例子相反，[69]将推测与事实做了区分。虽然这篇文章中介绍了dropout regularization（训练神经网络的一个小技巧），并详细推测了dropout和有性生殖之间的联系，但却专门把这些推测放入了一个名为“动机”的部分，明确地将两者区分开来。这种做法既避免了让读者感到困惑，同时作者也能够表达其非正式的想法。

在另一个正面的例子中，[3]提出了训练神经网络的实用指南。在这里，作者仔细验证了不确定性。该论文没有将指南作为权威提出，而是说：“虽然这些建议来自多年的实验，并且在某种程度上是经过数学验证的，但我们仍旧应该提出质疑并改进。这些建议是一个很好的起点，但通常没有经过正式的验证，留下许多问题可以通过理论分析或坚实的比较实验工作来解决。”

无法明确经验成果的真实来源

机器学习专家评审过程中非常重视技术创新。也许为了满足评论者的这一需要，许多论文都强调复杂的模型（在这里提到）和花哨的数学（见§3.3）。虽然复杂模型有时是合理的，但也还有其他很多方向同样可以带来经验成果：通过巧妙的问题公式、科学化的实验，优化上的经验积累，数据预处理技术，广泛的超参数调整，或通过将现有方法应用于有趣的新任务。有时，一系列提出的技术共同取得了重要的实证结果。在这些情况下，它需要读者自己去理解哪些技术是该报告所必需的核心技术。

很多时候，作者提出了很多调整，但没有进行适当的消融研究（ablation study，指通过切分研究/对照实验/条件删减等，来排除其他因素干扰），以至模糊了取得经验成果的来源。有时候，仅仅是其中一项的调整导致了结果的改进。这可能会给读者一种假象，即作者做了大量的工作（提出了几项改进措施），而事实上，作者做的并不够（没有进行适当的消融研究）。此外，这种做法误导读者相信所有提到的更改都是必要的。

最近，Melis等人[54]验证了其中一系列他们已经公布的成果：这些成果最初被归因于网络架构的复杂创新，实际上是由于更好的超参数调整。同样的，从1997年以来几乎没有被修改过的最初版本的LSTM（长短期记忆网络）一直表现卓越。所以说，Melis等人的研究最重要的部分其实是超参数调整。对于深层强化学习（deep reinforcement learning）[30]和生成性对抗网络(GAN)[51]，也已经发现类似的评估问题。有关经验严谨性和后果失误的更多讨论，请参见[68]。

相比之下，许多论文进行了良好的消融分析[41,45,77,82]，甚至回顾性的尝试将实验成果的来源分离开，这也可能导致新的发现[10,65]。不过，消融其实并不是我们理解一个新方法的充要条件，并且考虑到算力因素也不一定实际可行。对方法的理解同样可以源于对鲁棒性的检验（例如[15]发现现有的语言模型无法处理屈折语素）以及错误的定性分析。

经验性研究旨在加强理解，甚至可以在没有新算法的情况下发挥作用。例如，探测神经网络的行为导致识别它们对对抗性扰动的敏感性[74]。仔细的研究也经常揭示致力于刷新挑战数据集基线的局限性。[11]研究设计一个用于阅读理解新闻段落的任务，并发现73％的问题可以通过查看单个句子来回答，而只有2％的问题需要查看多个句子（其余25％的例子要么模棱两可、要么共指错误）。

此外，更简单的神经网络和线性分类器在此例中要优于以前任务中评估的复杂神经架构。基于同样的精神，[80]为Visual Genome Scene Graphs的数据集（视觉基因组）分析并构建了的强基线。

滥用数学

在我们（ZL）撰写早期的博士论文时，我们收到了一位经验丰富的博士后的反馈，他声称该论文需要更多的公式。博士后并没有认可该系统，但却清楚地透露了论文审核的“潜规则”——更多的公式更有助于评论者相信论文的技术深度，即使有些公式难以理解。

数学是科学交流的重要工具，正确使用时可传递精确性和清晰度。然而，并非所有的想法和主张都适用于精确的数学描述，自然语言同样是一种不可或缺的交流工具，尤其是关于直觉或经验主张的交流。

当数学和自然语言陈述混合在一起而没有清楚地说明它们的关系时，文章和理论都会受到影响：理论中的问题会被模糊的定义来掩盖，同时薄弱的论点会被技术深度的表象支持。我们将这种正式和非正式的主张的纠结称之为数学滥用，正如经济学家Paul Romer所描述的这种模式：“就像数学理论一样，数学滥用利用语言和符号的混合，但并没有做紧密的关系连接，而是在自然语言声明和正式语言声明之间留下了足够的滑动空间。”

数学滥用表现在几个方面：

第一，一些论文滥用数学来表示技术深度 – 旨在“威吓”而非澄清。假定理是常见的罪魁祸首，这些定理插入到论文中强行赋予经验主义结果权威性，即使定理的结论实际上并不支持论文的主要主张。我们（JS）在[70]中犯了这个错误，其中对“staged strong Doeblin chains”的讨论与提出的学习算法不怎么相关，但是给读者带来了一种理论深度感。

提出Adam优化器[35]的文章也犯了同样的错误，这证明了这个问题无处不在。在介绍它是一个在实证上表现强大的优化器的过程中，它还提出了其在凸案例中收敛的定理，而这在关注非凸优化的应用文章中是不必要的。这个后来在[63]被证明中是不正确的。
其次，看似正式却又不正式的主张同样带来诸多问题。例如，[18]认为优化神经网络的困难不是来自局部最小值，而是来自鞍点。作为一项证据，这项工作引用了一篇关于高斯随机场的统计物理论文[9]，并指出高维高斯随机场的所有局部最小值都可能有一个非常接近全局最小值的误差（类似的陈述也出现在[12]的相关研究中）。
这可能是一个正式的主张，但缺乏一个特定的定理使其很难验证声称的结果或确定其准确内容。我们的理解是相较于说（局部最小值和全局最小值）差值在高维度下会消失，这个主张其实算是更（部分）数学一些了。但我们需要一个更正式的声明来明确这一点。同样是在[18]我们发现另一个观点，即局部最小值比起鞍点上的损失函数要小，则被更明确地声明且测试论证。
最后，一些论文以过于宽泛的方式引用理论，或者引用一些不太具有针对性的定理。例如，“没有免费午餐”的定理通常作为使用没有保证的启发式方法的理由，即使该定理并没有将有保证的学习程序排除出去。

虽然数学滥用的最好补救方式就是避免它，但有些论文会进一步做出好的示范。最近的一篇关于反事实推理的论文[8]非常扎实的包含了大量的数学基础，并且与其应用的经验性问题有明确的关系。这个指导，清晰明了的提供给读者，有助于促进新兴社区研究机器学习中的反事实推理。

语言误用

我们发现在机器学习方面关于语言的误用通常可以分为三类：暗示性定义、术语重载、“行李箱词”。

暗示性定义

在这一类中，研究者会生造出一个一个新的技术术语，并使它具有一定的暗示性。这通常体现出拟人化特征（阅读理解[31]和音乐创作[59]）和技巧（好奇心[66]和恐惧[48]）。许多论文以提示人类认知的方式命名所提出的模型的组成部分，例如， “思想载体[36]”和“意识先验[4]”。

我们的目标不是要消除含有这些语言的所有学术文献; 如果合理，这些语言的运用可能会传达富有成效的灵感来源。然而，当一个暗示性术语被指定了技术含义时，其后的论文别无选择地会使自己的读者困惑，不管是通过接受该术语或通过替换它。

用不太严谨的“人类”表现来描述经验结果也会表现出对当前能力的错误认识。以[21]中报道的“皮肤病专家级的皮肤癌分类器”为例，将其与皮肤科医生比较，会掩盖皮肤癌的机器分类与皮肤科医生的诊断是根本不同的任务的事实。真实情况下，皮肤科医生会遇到各种各样的情况，尽管有不可预测的变化，但他们必须完成工作。但是，机器学习分类器仅在假设的i.i.d（样本互相独立并且满足同一分布）测试集上实现了低误差。

相比之下，[29]中的人类表现则明确声称是在ImageNet分类任务（而不是更广泛的对象识别）中表现得更出色。即使在这种情况下，一篇严谨的论文（在许多不那么谨慎的[21,57,75]中）也不足以扭转公共话语风向而使其重回正轨。流行文章继续将现代图像分类器描述为“超越人类能力并有效地证明更多的数据将导致更好的决策”[23]，尽管有证据表明这些关联依赖的是虚假的相关性，例如：将“穿红衣服的亚洲人”错误分类为乒乓球[73]。

深度学习的论文不是唯一犯过这一类错误的; 滥用语言困扰着ML的许多子领域。 [49]讨论了最近关于ML公平性的文献如何经常过多地使用从复杂的法律学说中借用的术语，例如“不同的影响”，来命名表述统计平等概念的简单方程。这导致了一类文献，其中“公平”，“机会”和“歧视”这些词常用来表示简单预测模型的统计量，这混淆了忽视差异的研究人员，以及让政策制定者误解了将道德需求纳入ML的难易程度。

技术术语重载

第二种滥用途径包括采用具有精确技术含义的术语，但以不精确或相互矛盾的方式使用它。例如“解卷积(deconvolution)”，它严格描述了数学上逆转卷积的过程，但现在在深度学习文献中，它用于指代自动编码器和生成对抗网络中常见的转置卷积（也称为向上卷积）。这个术语首先出现在[79]深入学习中，它确实解决了反卷积问题，但后来被过度放大为指代任何使用上卷积的神经架构[78,50]。

这种术语的过载会造成持久的混乱。涉及反卷积的新机器学习论文可能是：

调用其数学上的原始含义，
描述上卷积，
试图解决混淆，

如[28]中所述，其中被尴尬地用“上卷积（解卷积）”来描述这一过程。

我们另举一例，生成模型（generative models）传统上是输入为分布p（x）或联合分布p（x，y）的模型。相反，判别模型（discriminative models）是在给定输入标签的条件分布p（y | x）。

然而，在近期的研究工作中，“生成模型”被不太精确地用于指代能产生逼真结构化数据的任何模型。从表面上看，这似乎与p（x）定义一致，但它掩盖了几个缺点——例如，GAN（生成对抗网络）或VAE（差分网络）无法执行条件推理（例如从p（x2 | x1）采样，其中x1和x2是两个不同的输入特征）。

进一步解析这个术语，一些判别模型现在被误认为是生成模型因为它们能产出结构化的数据[76]，这是我们（ZL）在[47]中犯的错误。为了寻求解决困惑并提供可追溯的历史背景，[58]区分正统的和隐含的生成模型。

再来看看批量标准化，[33]将协变量偏移描述为模型的输入分布的变化。实际上，协变量偏移是指特定类型的偏移，即尽管输入分布p（x）可能会改变，但标记函数p（y | x）不会变[27]。此外，由于[33]的影响，谷歌学者搜索引擎将批量标准化列为搜索“协变量偏移”时的第一个返回参考。

误用语言的后果之一是（与生成模型一样），我们把一些未解决的问题重新定义成更简单的任务，以此隐瞒迟缓的进展。这通常通过拟人命名与暗示性定义相结合。语言理解和阅读理解，曾经是AI的巨大挑战，现在具体指向在特定数据集上做出准确的预测[31]。

“行李箱词”

最后，我们来讨论ML机器学习论文中过度使用“行李箱词”的情况。该词由Minsky在2007年出版的“情感机器”[56]一书中首次使用，指的是一个词汇集多种意义的现象。

Minsky描述了诸如意识，思考，注意力，情感和感觉一类，不只是由单一的原因或起源引起的心理过程。ML中的许多术语都属于这一类。例如，[46]指出，可解释性没有普遍认同的含义，并且经常引用不相交的方法和需求。因此，即使看起来彼此对话的论文也可能是不同的概念。

另举一例，“泛化”具有特定的技术含义（从训练集到测试集的泛化）和一种更通俗的含义，接近于转移（从一个群体推广到另一个群体）或外部有效性（从实验环境推广到现实世界）[67]。将这些概念混为一谈会高估当前系统的能力。

暗示定义和重载术语会导致新的行李箱词。在公平文献中，法律，哲学和统计语言经常被重载，类似“偏见”这样的术语会变成行李箱词而迫使我们将其拆解[17]。

在常见的演讲和鼓舞人心的话语中，行李箱词可以起到有效作用。有时行李箱词反映了将各种含义统一起来的总体概念。例如，“人工智能”可能是一个学术部门的理想名称。另一方面，在技术论证中使用行李箱词可能会导致混淆。例如，[6]写了一个涉及术语“智能”和“优化能力”的等式（方框4），隐含地假设这些行李箱词可以用一维标量来量化。

关于这些趋势背后的原因的一些思考

上述模式是否代表趋势，如果是，那么潜在原因是什么？我们推测这些模式正在扩大，并认为可以归因为几个可能的因素：面对进步的自满情绪，社区的迅速扩张，审查人员团体的人数有限，以及奖学金激励与短期成功措施的不一致。

面对进步的自满情绪

机器学习领域的快速进展有时会造成这样一种态度，即强有力的实证结果可以作为掩盖弱论点的借口。获得有效结果的作者可能会被许可插入任意缺乏论据支持的故事，只要存在能推导结果的因素（见§3.1），而省略那些旨在解开这些因素的实验（§3.2），采用夸大的术语（§3.4），或滥用数学公式（§3.3）。

与此同时，审查过程的单一性质可能会使审稿人感到他们别无选择，只能接受获得了强大的实证定量结果的论文。实际上，即使论文被拒绝，也不能保证在下一个阶段中这些缺陷会被注意或修正，因此审稿人可能会认为，接受有缺陷的论文是最好的选择了。

“成长”的烦恼

自2012年左右以来，由于深度学习表现出色，机器学习愈发受欢迎，该领域也发展迅速。我们将行业的快速扩张视为一种积极的发展信号，但它同时也存在一些副作用。

为了保护资历尚浅的作者们，我们倾向于引用我们自己的以及著名研究者的文章。然而，新研究者们可能会更容易受此模式影响。例如，对术语并不了解的作者们更容易错用或重新定义文字。另一方面，有经验的研究者同样会落入此陷阱。

快速增长还会从两方面减少文章审批者的数量——被提交文章的数量相对审批者的数量增加，同时富有经验的审批者的比例降低。经验不足的审批者更可能追求结构上的创新，而被虚假的定理所蒙蔽双眼，忽视严重却难以发觉的问题，如语言不当使用。这会助长甚至导致上述的几大趋势。同时，富有经验却负担过重的审批者可能会转为“打钩模式”，即他们倾向于更加八股文的文章，否决有创造力或聪明有远见的作品——这些作品与人们熟知的论文模板往往相去甚远。此外，过度工作的审批者可能并没有时间去解决甚至注意提交报告中所有的问题。

错位的激励

为论文作者们提供糟糕激励的并不只有审批者。随着机器学习逐渐引起媒体的关注，以及机器学习初创企业变得流行与常见，媒体（“他们会报道什么？”）与投资者（“他们会投资什么？”）在一定程度上也提供了激励。媒体激励了部分上述趋势。对机器学习算法的拟人化描述助长了新闻曝光度。

以本篇论文为例[55]，它将自动编码器拟人化为“模拟大脑”。稍有一点人类水平的表现就会被新闻夸大，比如[52]将一个使用深度学习为图像起标题的系统描述为“理解水平近乎人类”。投资者们也非常欢迎人工智能研究，他们经常仅仅基于一篇论文就决定投资某个初创企业。

根据我们（ZL）与投资者合作的经验，他们经常被那些研究方向被媒体报道过的初创企业所吸引——金钱激励与媒体关注度紧紧相连。我们注意到，最近对聊天机器人初创企业的热潮与学术与媒体上对话系统和强化学习拟人化同时出现。尽管确实很难知道，到底是奖学金的不足引起了投资者的兴趣，还是正好相反。

讨论

不少人可能会建议，在本领域正火热发展之时不要进行干预：你不该和成功过不去！我们将这样回击这些反对的声音。首先，上面论述的这些文献是机器学习最近的成功的结果，而非其原因。

事实上，许多指引深度学习成功之路的文献都是对训练深度网络原则进行的非常仔细的实证研究。这其中包括：随机参数搜索比序列性参数搜索更加有优势[5]，不同激活函数的行为特征[34, 25]，以及对无监督学习预训练的理解[20]。

第二，存在缺陷的学术研究已经负面影响到了研究界以及更广泛的社会认知。我们在第三部分内看到了许多例子。未被证实的断言被引用上千次，所谓变型改进的被简单基准推翻，看似测试高水平语义推理的数据实际上仅仅测试简单的语法通顺度，还有大量术语的不当使用使学术对话变得令人困惑。最后一个问题还影响研究结果对公众的发布。

例如，欧盟议会通过了一项报告，考虑当“机器变得/被制造成具有自我意识”时，进行法规约束[16]。尽管机器学习研究者们无需对所有对其研究的错误理解负责，拟人化权威同行审核的文章确实似乎该负起一部分责任。

我们相信，更严肃精确的表达，科学与理论对科学进步与面向大众的科普都非常关键。此外，作为在医疗，法律与无人驾驶等关键领域应用机器学习的从业者，对于机器学习系统能力与不足的精准认识将帮助我们负责任地应用机器学习。我们将在文章最后一个部分讨论一些反驳观点并提供一些背景知识。

反面因素的考虑

对于前述建议，我们也考虑了一些反面因素。一些阅读了本文草稿的读者指出，随机梯度下降通常比梯度下降收敛更快——也就是说，无视我们对于撰写一篇“更干净”的文章的建议，可能一个噪音更多但速度更快的过程可以帮助加快研究的进程。

例如ImageNet分类的那篇突破性文章[39]提出了数个方法，并没有进行消融学习。后来其中一些因素被认定为并非必要。然而，在实验结果如此重要并且计算成本非常高昂的时候，可能等待排除所有其它因素完全完成就可能不太划算。

另一个相关的顾虑是，高标准可能阻碍原创性观点的发表。这样的观点一般非同寻常并且非常冒险。在其他领域，比如经济学，高标准导致文章发表周期非常冗长，一篇文章可能会经过数年才能够正式发表。校对耗时过长，会占用原本可以花在新研究上的时间与资源。

最后，专业化可能会有所帮助：那些提出新概念与想法或建立新系统的研究者并不需要与那些仔细校勘提炼知识的研究者完全相同。

我们认为这些考虑非常实在，有时上述标准确实过于苛求。然而，在许多情况下他们都能够被直截了当地实施，仅需要多花几天在实验与仔细写作上。

并且，我们提出这些观点，不是让他们成为决不能被违背的守则，而是想启发大家——如果有些观点不违背这些标准就无法被分享，那我们更宁愿大家暂时无视此标准，分享观点。此外，我们几乎总是能发现，试图遵守这些标准总是非常值得。简而言之，我们并不相信研究界已经在增长-质量前沿上达到了帕累托最优状态。

历史上的先例

本问题并不仅存在于机器学习界，也并不仅存在于现在。他们反映了学术界一直以来周期性反复出现的问题。1964年，物理学家John R. Platt在其一篇关于强推理的论文[62]中讨论了类似的问题。他认为坚持某种用实证标准衡量致使了分子生物学界和高能物理相对于其他科学学科的快速发展。

在人工智能领域也有类似的讨论。正如在第一部分所述，在1976年，Drew McDermott在[53]中从数个方面批评了一个人工智能社团（基本上就是机器学习的前身），包括定义具有暗示性以及没有将猜测与技术声明分离开。在1988年，Paul Cohen与Adele Howe在[13]中强调了一个人工智能团体。该团体当时“几乎从不公开对其提出的算法的表现评估”，而仅仅是描述了一下系统。

他们建议建立一个有意义的量化过程的评估标准，并且建议分析“为什么它有用？”，“在什么情况下它会失效？”以及“该设计被证明可靠了么？”等一类直至今天仍然有用的问题。最后，在2009年，Armstrong及其共同作者们在[2]中讨论了信息查询研究的实证严谨度。

他们发现文章正倾向于将自己的研究结果与同样糟糕的标准进行对比，得到一系列压根就不会得到有意义的结果的所谓改进方法。

在其他领域，学术研究成果未经检查的减少已经引起了危机。2015年的一项著名研究[14]认为，心理学界一大部分发现并不能被重复实验得到相同结果。历史上发生过数次这样的事情，激情与未加约束的学术研究使得整个专业都误入歧途。例如，在发现X光后，一个研究N光的相关学科突然出现[61]，最终被揭穿其虚假的面具。

结束语

读者们也许会指出：这些问题其实是可以自我纠正的。没错，我们认同这一观点。然而，唯有通过对学术标准的不断讨论，机器学习研究圈才能“自我纠正”这一问题。这也正是本文希望作出的贡献。

相关报道：

http://approximatelycorrect.com/2018/07/10/troubling-trends-in-machine-learning-scholarship/

你可能感兴趣的:(注水、占坑、瞎掰：起底机器学习学术圈的那些“伪科学”（附链接）)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后