walilk

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2

序言　

　　机器学习栏目记录我在学习Machine Learning过程的一些心得笔记，包括在线课程或Tutorial的学习笔记，论文资料的阅读笔记，算法代码的调试心得，前沿理论的思考等等，针对不同的内容会开设不同的专栏系列。
　　机器学习是一个令人激动令人着迷的研究领域，既有美妙的理论公式，又有实用的工程技术，在不断学习和应用机器学习算法的过程中，我愈发的被这个领域所吸引，只恨自己没有早点接触到这个神奇伟大的领域！不过我也觉得自己非常幸运，生活在这个机器学习技术发展如火如荼的时代，并且做着与之相关的工作。
　　写博客的目的是为了促使自己不断总结经验教训，思考算法原理，加深技术理解，并锻炼自己的表述和写作能力。同时，希望可以通过分享经验帮助新入门的朋友，结识从事相关工作的朋友，也希望得到高人大神的批评指正！
　　

前言　　

　　[机器学习] Coursera笔记系列是以我在Coursera上学习Machine Learning（Andrew Ng老师主讲）课程时的笔记资料加以整理推出的。内容涵盖线性回归、逻辑回归、Softmax回归、SVM、神经网络和CNN等等，主要学习资料来自Andrew Ng老师在Coursera的机器学习教程以及UFLDL Tutorial，Stanford CS231n等在线课程和Tutorial，同时也参考了大量网上的相关资料。
　　
　　本篇博客主要整理自“Advice for Applying Machine Learning”课程的笔记资料，包括假设函数的评估、数据集划分、模型选择问题、偏差和方差，以及机器学习诊断法等方面，涵盖了大量的器学习应用的建议和技巧。
　　同时，我也会将自己在机器学习算法应用中的经验分享出来，供大家参考。
　　　　
　　文章小节安排如下：
　　1）如何评价一个模型（Evaluating a Hypothesis）
　　2）欠拟合与过拟合（Underfit and Overfit）
　　3）模型选择与数据集划分（Model Selection and Train/Validation/Test Sets）
　　4）如何诊断一个机器学习算法（How to diagnose a algorithm）
　　5）如何调试一个机器学习算法（How to debug a algorithm）
　　6）误差分析（Error Analysis）
　　7）偏斜类问题（Skewed Classes）
　　8）查全和查准的权衡（Trading Off Precision and Recall）
　　9）数据的重要性（Importance of Data）
　　10）最后的总结
　　
　　这是第二篇，前两篇请参考：
　　机器学习应用的建议与方法1
　　机器学习应用的建议与方法3
　　
　　机器学习算法的应用其实是个经验活儿，靠的是日积月累的不断试错和积累。课程里Ng给出了机器学习算法应用中常用的准则、技巧和建议，不过想要全面理解和掌握这些建议，需要反复练习。
　　
　　

四、如何诊断一个机器学习算法（How to diagnose a algorithm）

　　调试学习型算法的时候千万不能想当然，比如在缺少正确全面评估的情况下就去开展数据收集工作，或者设计更多的特征等等，这些工作都可以扩展成为一个很大的项目，花费半年或者一年的时间，但事实上我们并不知道最后效果会是怎样的。
　　
　　例如数据收集工作，根据我个人的经验，在利用学习型算法解决问题时，收集整理数据的时间差不多占了全部任务时间的一半（这并不夸张）。所以通常我会找到一小部分数据去快速实现一个算法系统，然后找到这个系统的瓶颈所在，是数据不足，还是模型能力不够等等，然后再针对性的开展工作。
　　
　　事实上通过前面的讲述可以发现，如果一个学习算法表现不理想，那么多半是两种原因，要么是欠拟合（偏差比较大），要么是过拟合（方差比较大）。
　　
　　这里又提出了偏差（bias）和方差（variance）的概念，Ng老师的课程里并没有展开分析机器学习背景下的偏差与方差问题，也许是假定各位童鞋的数学基础都很好……我们在统计学中都学过偏差与方差的概念和公式，一张图解释如下：
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第1张图片

　　简单来说，在统计学上，偏差反映了预测值偏离实际值的程度；偏差反映了预测值的离散程度。这里我暂时不对偏差与方差问题作深入的讨论，以后会专门撰写相关的博客详细分析机器学习背景下的偏差与方差问题。这里我们只要明确一点即可，在机器学习上，偏差与方差问题的研究对象是假设函数（也可以说是模型）。
　　
　　

4.1 诊断曲线（Diagnostic curve）

　　诊断曲线反映的是训练误差、验证误差随着多项式次数 d 改变或正则化参数 λ 改变的变化趋势，针对的是假设函数复杂度、正则化参数lambda选择问题。
　　首先我们来看如何用诊断曲线来选择最合适的多项式次数（假设我们在训练一个回归模型），还是用图来说明问题：
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第2张图片

　　如图所思，一开始 d 较小，对应着一个比较大的训练集误差和验证集误差，随着增大多项式的次数，我们将对训练集拟合得越来越好，同时验证集误差也逐渐下降。但是随着 d 进一步变大，训练集误差仍然是在继续减小，可验证集误差就会开始变大，说明我们过拟合了。
　　是不是很容易？多项式次数 d 与训练误差和验证误差的曲线，可以很好的反映出在当前训练样本集下，多项式次数d对模型欠拟合和过拟合的影响，同时可以选出最合适的 d。
　　
　　同理，我们可以诊断正则化参数 λ 对模型的影响，进而找到最合适的 λ 。
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第3张图片

　
　　关于正则化参数 λ 对模型的影响，展开来也可以讲很多，后面会专门开辟章节进行分析。
　　
　　

4.2 学习曲线（Learning curve）

　　学习曲线反映的是训练误差、验证误差随着训练样本数量 m 改变的变化趋势，针对的是假设函数参数选择问题。使用学习曲线可以很方便的判断某一个学习算法是否处于偏差问题/方差问题/或是二者皆有。
　　为何要分为曲线诊断曲线和学习曲线？统一称为学习曲线或者诊断曲线不行么？其实我认为是可以的，不过样本数量对模型的影响和分析更复杂一些，所以单独拿出来分析。
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第4张图片

　　如图所示，曲线反映出：在当前多项式次数和正则化参数下，训练样本数量 m 对模型欠拟合和过拟合的影响。但问题是，你没法确定说某个 m 值是最优的，事实上这也没有太大意义。
　　从上图中可以看出，随着训练数据量的增加，训练集误差和验证集误差都会随之减小，因为使用的数据越多，越能获得更好的泛化表现或者说对新样本的适应能力更强，也就是说，数据越多越能拟合出合适的模型。
　　
　　那问题就来了，利用学习曲线，如何判断模型处于高偏差（欠拟合）还是高方差（过拟合）？
　　
　　

模型处于高偏差

　　如果一个模型处于高偏差（欠拟合）状态，那么它的学习曲线基本上应该呈现如下样子。
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第5张图片

　　可以看出，如果模型处于高偏差，那么训练集误差曲线上升比较陡峭，噌地一下就上去了，同时验证误差下降的比较缓慢。当训练样本数量达到或超过了特定的数值，训练误差和验证误差（其实也包括测试集误差）就趋于接近且不变，并且处于较高的误差值上（这也是高偏差的主要判断依据）。
　　
　　多项式次数较低或者正则化参数过大等，都可能导致模型处于欠拟合（高偏差）状态。在高偏差情形中，当训练集误差和验证集误差趋于接近且不变时，可以得到最能拟合数据的那条曲线（虽然很差，但已经是此状态下最优的了）。
　　
　　

模型处于高方差

　　如果一个模型处于高方差（过拟合）状态，那么它的学习曲线差不多应该呈现如下样子。
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第6张图片

　　可以看出，处于高方差的模型有两个特点，一个是训练误差相对较小，并且随样本数量增加的涨幅比较平缓；另一个是训练误差和验证误差差之间有一段明显的差距（即训练集误差很小，验证集误差很大）。
　　
　　图中曲线图也反映出，随着训练集样本数量增加，训练误差和验证误差这两条学习曲线正在相互靠近，也就是说，训练集误差很可能会逐渐增大，而验证集误差则会持续下降。所以在高方差的情形中使用更多的训练数据对改进算法的表现是有效果的。
　　
　　
　　 新入门童鞋也许会问，为何模型过拟合时候增加训练样本是有效的呢？
　　首先要明确一点，增加训练样本的意思有两点：第一是增加样本的数量，第二是增加样本的多样性。举例来说，如果你一直给算法看黑猫，那算法可能永远都不会认识白猫；如果你只给算法看很少很少的白猫照片，那算法也可能无法形成对白猫完整的建模。所以训练样本的数量和多样性都很重要。
　　
　　其实拟合的过程，就是模型复杂程度和数据复杂程度的博弈。
　　
　　

高偏差与高方差的差异

　　在高偏差和高方差的情况下，learning curves中的训练误差（Jtrain）和和验证误差（Jcv）最终都是趋于接近的，这说明了什么呢？两种接近形式又有什么差异呢？
　　在high bias中，Jcv和Jtrain较早的趋于接近，且处于一个较高的error值；
　　在high variance中，Jcv和Jtrain较晚才趋于接近，且处于一个较低的error值；
　　可以看出，学习算法的欠拟合和过拟合状态分析看似简单，但实则并不是那么容易判断，需要方法和经验。
　　
　　

4.3 诊断/学习曲线的运用

　　上面绘制的诊断曲线和学习曲线都是相当理想化的，但在实际应用中总会有噪声或其他干扰，导致绘制的曲线变得复杂。但总的来说，绘制曲线确实有助于看清学习算法是否处于高偏差、高方差、或二者皆有的情形。
　　下面看几个诊断曲线。
　　1）固定多项式次数和lambda，观察学习曲线
　　lambda=1
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第7张图片

　　
　　lambda=1100
　　

　　
　　2）固定多项式次数和样本数量，观察诊断曲线
　　

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2_第8张图片

　　
　　是不是很崩溃，这些曲线拐弯交错，乍一看确实有点让人不知所措，但基本上还是可以分析的。
　　
　　 最后摘录Ng老师的良言。
　　诊断法提供了一系列测试方法和评价指标，通过执行这种测试能够深入了解某种算法是否有用，并且可以给出该算法改进的指导意见。
　　
　　很多算法改进方法都可以扩展开来成一个六个月或更长时间的项目，遗憾的是大多数人都是在凭借感觉选择算法的改进方案，很多情况下最后他们都会很遗憾地发现自己选择的是一条不归路。
　　
　　诊断方法的执行和实现需要花一些时间，因为这毕竟是一些额外的分析工作，但这样做的确可以更有效率地利用好你的时间，排除掉至少一半的改进措施，留下那些确实有前途的方法，让你在开发和改进学习算法时节省了几个月的时间，早点从不必要的尝试中解脱出来。
　　
　　
　　

五、如何调试一个机器学习算法（How to debug a algorithm）

　　掌握了前面所说的机器学习算法诊断方法，接下来的问题就是算法的调试了，就像在编程中调试的概念一样，我们需要掌握一些方法套路来完善和改进算法。
　　

5.1 常用算法调试方法

　　算法调试是一项复杂的、需要技巧的工作，也许你诊断出了算法处于过拟合状态，但你就是调不好……所以这是个经验活儿。但虽然经验很重要，但也有一些套路可用，总结一下无外乎以下几点。
　　1）增加训练样本
　　2）增加/减少特征
　　3）增加/减少多项式次数
　　4）增大/减小lambda
　　
　　如果你发现模型处于欠拟合，你就选那些能够增加模型复杂度的方法；如果你发现模型处于过拟合，你就选可以降低或者平衡模型复杂度的方法。注意这里我用了“降低”和“平衡”两个词，减少特征项可以降低模型复杂度，增加训练样本可以平衡模型复杂度。
　　

5.1 常用算法调试方法

　　正则化技术是通过正则化参数 λ 对参数 θ 进行惩罚或者说正则化，进而修正学习算法的高方差问题。本质上，正则化技术试图通过降低甚至去除假设函数中某些特征项（特征变量）的影响，进而平滑决策边界/拟合曲线，修正过拟合问题。
　　

为何需要正则化技术？

　　
　　在发生过拟合时，一种改进手段是弱化或者舍弃一些特征项，但是第一在成千上万的特征项中，我们没办法判断一个特征项的作用大小，也就没办法取舍；第二是每个特征项也许都对预测有那么一点点影响，我们不希望去掉任何任何一个。
　　
　　于是这就导致了正则化概念的发生。正则化技术将保留所有的特征变量，但是会改变每个特征变量的权重大小，从而调整模型的拟合状态。
　　
　　以下面的带正则化项的代价函数为例：
　　

　　我们在代价函数中加上了红色的正则化项，这其实就是一种对参数的惩罚措施，λ 控制着对参数的惩罚力度。正则化背后的思路就是，当我们加大对参数的惩罚（λ 设置较大使得参数都很小），就可以得到一个形式更加简单的模型，也就可以更好的避免过拟合。例如我们将 λ 设置为1000000，那么 h(θ) 的形式基本就是h(θ)=θ0，其他项几乎可以忽略不计了。
　　

正则化与优化目标

　　让我们再从代价函数的角度来分析。当我们假如了正则化项，那么我们的优化目标就变成了两个，第一个是想要更好地拟合训练数据；第二个是想要保持参数值较小。因此，λ 的作用就是控制代价函数中两个不同目标之间的平衡关系。既要保证模型对训练数据有较好的拟合，也要保证参数值较小（模型形式相对简单）。
　　
　　以上，就是对正则化技术的讲解。
　　
　　

5.3 模型选择的建议

　　我的建议是：复杂模型+正则化技术
　　为什么呢？因为过拟合时通过正则化技术来降低模型复杂度是比较简单的，而欠拟合时增加特征项或者增加多项式次数是比较麻烦的。通常我们都倾向于先选择一个看上去不错的模型，然后再做调整，而不是选择一个看上去就很差的模型。
　　
　　以神经网络举例。当你在使用神经网络算法拟合数据的时候，
　　
　　如果选择一个较简单的网络结构（隐藏单元比较少，甚至只有一个隐藏层，一个隐藏单元），那么该网络的参数就不会很多，很容易出现欠拟合，这种比较小型的神经网络最大优势在于计算量较小；
　　如果选择一个较大型的网络结构（要么隐藏层单元比较多，要么隐藏层比较多），那么该网络的参数一般较多，很容易出现过拟合，另外的一大劣势是计算量较大。
　　
　　但事实上，你会发现越大型的网络性能越好，如果发生了过拟合，可以使用正则化技术来修正。一般来说，使用一个大型的神经网络并使用正则化来修正过拟合问题，通常比使用一个小型的神经网络效果更好，但主要的问题是计算量相对较大。
　　
　　补充一点，在使用回归算法时，我们利用验证集去拟合多项式次数，那么在使用神经网络算法时，我们可以利用验证集去选择最合适的网络层数和每个隐层的节点数量。
　　
　　
　　

六、误差分析（Error Analysis）

6.1 什么是误差分析

　　简单来说，误差分析就是对预测错误的样本进行分析，以发现某些系统性的规律。除了学习曲线，误差分析也是也是一种非常有用的方法，误差分析过程往往是可以发现模型预测错误的原因所在，能够启发我们如何改进当前的算法。
　　
　　总结Ng老师在课程里的讲解：
　　
　　对于一个机器学习问题，不同的机器学习算法所遇到的问题一般是相同的，也就是说，对于一种特征设计和一组训练样本，如果分类算法A出现了某些问题，那么分类算法B通常也会出现。
　　
　　因此，对于一个机器学习问题，应该用一种简单快速的方法去实验，并手动分析一些错误的分类结果，找到一些错分的规律，错分样本的共同特点等，进而总结一些新的特征或改进分类器的设计。通过实践一些快速即便不完美的算法，我们能够更快地找到算法难以处理的例子，进而找到错误的根源所在，这样就能集中精力在真正的问题上。
　　

6.2 如何应用误差分析

　　其实在分类算法中，也存在着类似二八原则的问题，也就是80%的样本是很好分类的，而20%的样本分类是非常困难的。还是说一下我本人在色情图像分类任务中的经验，就我们遇到的样本而言，有90%左右都是非常容易分类的，也就是要么是色情淫秽，要么是正常的。剩下的10%，那可就非常头疼了，需要根据具体的应用环境做处理，举例来说，光膀子男性是否是敏感的？裸体婴儿是否是敏感的？两条大长腿是否是敏感的？甚至是比基尼泳装是否是敏感的？这些案例在不同场景下的处理尺度是不一致的，需要具体问题具体分析。
　　
　　但其实，很多客户也搞不清楚哪些样本是要屏蔽的，哪些是允许上传的，所以我们在研发算法时候，往往一开始只是训练一个基本准确的模型（误报会比较多，但很容易并且很快就能训练好），然后快速在客户那里部署测试，然后不断将误报的样本收集整理，跟客户一起进行误差分析，逐渐确定鉴定尺度，最终训练得到一个符合客户预期的分类模型。
　　
　　从我个人经验来看，误差分析是比较繁琐的工作，你需要不断去测试样本分析误报样本总结规律。这很花精力，你也会觉得这很low，不上档次……但事实上，误差分析会带给你两个好处：
　　1）快速找到算法的短处所在；
　　2）让你成为领域专家；
　　
　　不要觉得分析数据是很low的活儿，这是一个讲究理论结合实际的时代，如果你不解决实际问题，那么没人会觉得你很厉害。
　　
　　
　　
　　

参考资料

Coursera - Machine learning( Andrew Ng)
https://www.coursera.org/learn/machine-learning
　　
　　

　　End 机器学习应用的建议-Part2
　　

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

[机器学习] Coursera笔记 - 机器学习应用的建议-Part2

序言

前言

四、如何诊断一个机器学习算法（How to diagnose a algorithm）

4.1 诊断曲线（Diagnostic curve）

4.2 学习曲线（Learning curve）

模型处于高偏差

模型处于高方差

高偏差与高方差的差异

4.3 诊断/学习曲线的运用

五、如何调试一个机器学习算法（How to debug a algorithm）

5.1 常用算法调试方法

5.1 常用算法调试方法

为何需要正则化技术？

正则化与优化目标

5.3 模型选择的建议

六、误差分析（Error Analysis）

6.1 什么是误差分析

6.2 如何应用误差分析

参考资料

你可能感兴趣的:(机器学习,误差分析,机器学习算法调试,机器学习算法应用)

序言　

前言