别致的SmallSix

Python机器学习算法入门教程

机器学习（Machine Learning，简称 ML）是人工智能领域的一个分支，也是人工智能的核心，其涉及知识非常广泛，比如概率论、统计学、近似理论、高等数学等多门学科。

机器学习的目的是设计、分析一些让计算机可以自动“学习”的算法，最终让计算机拥有像人类一样的智慧，甚至于超越人类。这一结果的实现，要得益于机器学习算法（Machine Learning Algorithms），它提供了一整套解决问题的方案和思路，即先做什么、再做什么、最后做什么。

如果把机器学习比作一列火车的话，那么机器算法就是火车头，引领你成功抵达目的地。

Python机器学习

就当下而言，Python 无疑是机器学习领域最火的编程语言，这得益于 Python 对科学计算的强大支持。因此，本套教程中关于机器学习算法的代码均采用 Python 机器学习库 sklearn 编写。

机器学习的最主要的一项工作就是“训练模型”，训练模型的过程就是机器学习算法实现的过程，这里的算法和我们经常提及的算法有些区别，比如插入排序、归并排序等，它们的结果都是“计算出来的”，只要确定输入，就可以给定一个值，而机器学习的算法是“猜”出来的，既然是猜，那么就会有对有错，机器学习会根据猜的“结果”，不断的优化模型，从而得出正确率最高的“结果”。

机器学习的学习形式可以分为两大类：

有监督学习
无监督学习

每一类学习形式都对应着相应的算法，比如线性回归算法、KNN 分类算法、朴素贝叶斯分类算法、支持向量机算法等等，并且这些算法都有与其相适用的场景，本套教程将对上述算法的原理和应用做详细的介绍。

教程特点

机器学习算法，毫无疑问是比较难学的，它不仅拥有望而生畏的数学公式，还有晦涩难懂的逻辑思路。本教程尽量以通俗易懂的方式讲解所有算法，由于教程中会涉及较多的数学知识，我们在保证知识严谨性的基础上，尽量绕开繁琐、难懂的数学定义，让您更容易理解，从而尽快实现机器学习算法入门。

本套机器学习算法教程推崇“学以致用”，使用机器学习算法解决实际问题才是学习者的最终目的，所以教程中还会涉及如何将机器学习算法应有到实际场景中。除此之外，通过对本教程的学习，您还可以熟练掌握 Python 机器学习算法库 sklearn 的使用。

读者和阅读条件

本套教程的目标读者是想要学习 Python 机器学习算法的学生、程序员、研究人员或者爱好者，以及想要知道机器学习算法是什么和怎么用的读者。由于教程中代码是基于 Python 编写的，如果您对 Python 语言有较好的掌握，那么学习本教程将事半功倍，关于 Python，您可以跳转到《Python教程》进行系统学习。

一、什么是人工智能

很早就想写一门关于 Python“机器学习”的教程，不过碍于自身知识的局限性，不知如何下手。如果写的教程通篇只是探讨代码、数学知识、算法原理，这样的教程读起来必然索然无味。经过冥思苦想，终于突发灵感，可不可以写一部关于“机器学习算法”的入门教程呢？让初学者更容易理解常用的机器学习算法，从而帮助那些想要了解机器学习的人，打开通往人工智能世界的大门。

1、写在前面的话

机器学习是一门涉及了大量逻辑与算法的技术，令很多人望而却步，既想掌握，又害怕自己数学知识“拖后腿”，最终导致前功尽弃。

本教程本着“讲一点，透一点”尽量绕开繁琐的数学公式，以简单、通俗易懂的形式讲解“机器学习算法”。对于必须讲解的数学公式，也会竭尽所能“讲透彻，讲细致”，其次也会结合算法的原理与应用场景讲解具体实例，最终打通你的“任督二脉”，助你走进人工智能的世界。

在正式讲解机器学习算法之前，我们需要对人工智能做简单的认了解与认识。

2、人工智能应用

我们正处在一个日新月异、飞速变革的时代，层出不穷的新技术，无时无刻不刷新着我们的世界观，这其中信息技术发挥了巨大的作用，比如计算机、互联网、智能家居等技术的普及极大地方便了人们的生活，这在几十年前根本是无法想象的。

近些年“人工智能”热潮的兴起，这给我们的生活带来了巨大的改变。无人驾驶、机器翻译、语音识别、图像识别，这些都是“人工智能”的产物。比如 AlphaGo Zero 一台没有任何围棋知识的智能机器，经过几天的自我博弈成为了世界第一的围棋大师；“风格多变 app”能自动将用户的上传的照片转变为具有艺术风格的照片；“机器翻译”可以在很短的时间内将一种语言翻译成另外一种语言，以及 AI 智能医生能够将病情诊断变得更加精准。

图1：世界第一围棋大师

在过去的几年内，“人工智能”技术不仅在学术上取得了巨大的突破，也开始走向寻常百姓家，比如小度、天猫精灵等语音控制机器。

3、人工智能发展简史

“人工智能”（Artificial Intelligence），英文缩写为 AI 从字面意思来看，它指的是让机器获得像人一样的智慧。电影《黑客帝国》中的大 BOSS 就是一个名叫“矩阵”的智能机器。但“人工智能”真的会像科幻电影一样，在不久的将来控制世界与人类吗？其实这种担心就目前而言大可不必，这种可能只能存在于影片艺术表现形式中。不过你要问“人工智能”会取代人类吗？这一点倒值的你我深思。

（1）第一次兴起

“人工智能”并非一个新兴概念，早在 1950 年 艾伦·图灵 就提出了图灵测试机的构想。随后，在 Dartmouth (达特茅斯)学会上，“人工智能”的概念被首次提出。在这之后人工智能经历了一段崎岖的发展历程。

从 20 世纪 50 年代中期至 70 年代中期，众多学者、科学家投身于人工智能领域的研究。但是由于硬件设施、计算机技术发展还不成熟，远不能满足人工智能对计算机算力、数据获取与存储的要求，从而导致人工智能迎来了第一个低谷期。在这一时期许多具有指导意义的著作相继发表，这为后续的再度发展打下了理论基础。

寒冬虽然来临，不过有着坚韧不拔精神的学者们仍未放弃，直至于 20 世纪 80 年代，卡内基梅隆大学终于设计出了第一套专家系统——XCON，该专家系统具有一套强大的知识库和推算能力，可以模拟人类专家来解决特定领域问题。随后日本、美国相继成立专家团队希望用 10 年的时间研究出智能计算机，由此带来了“人工智能”的第二次发展热潮。

（2）第二次发展

在第二个发展热潮中，有一个最引人注目的成果，那就是“反向传播算法”得到了成功应用，它为神经网络的发展奠定了基础。1986 年第一届深度学习神经信息处理系统研讨会（简称 NIPS）在美国举办，该会议吸引了很多不同领域的研究人员。但是由于技术应用实现困难，加之计算机算力、数据等不足，从而导致了“人工智能”的第二个低谷期。

（3）第三次崛起

时间终于来到了 21 世纪，由于互联网和云计算的兴起，计算机硬件、性能也得到了大幅度提升，因此“人工智能”在经历了数十年的低谷期后终于迎来了第三次发展热潮。

2005 年美国国防部高级研究计划局（简称 DARPA）举办的自动驾驶挑战赛中，一辆由斯坦福大学研发的无人驾驶汽车 “Stanley” 赢得胜利，这是“无人驾驶技术”第一次出现在世人面前。截止目前为止，许多高端科技已经相继问世，比如谷歌机器翻译、AI 诊断医生、语音识别、图像识别、以及人工智能协同“AlphaGO”等等。

互联网和云计算之所以让“人工智能”再次复兴，其原因主要有两点：一是互联网能够提供海量的数据；二是云计算提供了超强的计算能力。科研工作者们坚信，在经历这些坎坷后人工智能定会在当下以及未来迎来更加蓬勃的发展。

4、机器学习&深度学习

人工智能（Artificial Intelligence）是计算机科学技术的一个分支，指的是通过机器和计算机来模拟人类智力活动的过程。人工智能自 1950 年诞生以来，理论和技术日益成熟，应用领域也不断扩大，涉足了领域包括机器人、语言识别、图像识别、自然语言处理等。人工智能并不是人的智能，而是让机器像人一样思考，甚至于超过人类。

如今人工智能已经走进了千家万户，对于普通大众来说，它已经是一个耳熟能详的名字。但还有两个词语您可能没有听说过，它就是机器学习和深度学习。

对于从事计算机领域的工作者或者技术爱好者来说，机器学习与深度学习并不陌生，然而对于初学者而言就可能傻傻分不清楚，那么它们之前到底存在什么关系呢？其实它们之间是包含与被包含关系，下面展示了它们之间的关系图，如下所示：

图2：三者关系图

从图中可以看出，机器学习是人工智能的一部分，而深度学习又是机器学习的一部分。人工智能的范围最为广泛，机器学习是人工智能的核心分支，也是当前发展最迅猛的一部分，而关于深度学习，它之前也属于“机器学习”的一个分支，其主要研究对象是神经网络算法，因想要区别于“机器学习”，它重新起了一个高大上的名字。下面以最具有代表性的机器学习来做进一步介绍。

单从定义上来说，机器学习是一种功能、方法，或者更具体的说是一种算法，它能够赋予机器进行学习的能力，从而使机器完成一些通过编程无法直接实现的功能。但从具体的实践意义来说，其实机器学习是利用大量数据训练出一个最优模型，然后再利用此模型预测出其他数据的一种方法。比如要识别猫、狗照片就要拿它们各自的照片提炼出相应的特征（比如耳朵、脸型、鼻子等），从而训练出一个具有预测能力的模型。

（1）学习形式分类

机器学习是人工智能的主要表现形式，其学习形式主要分为：有监督学习、无监督学习、半监督学习等，如果你之前没有接触过机器学习，那么对于“监督”一词会不明就里，其实你可以把这个词理解为习题的“参考答案”，专业术语叫做“标记”。比如有监督学习就是有参考答案的学习，而无监就是无参考答案。

1) 有监督学习

有监督学习（supervised learning），需要你事先需要准备好要输入数据（训练样本）与真实的输出结果（参考答案)，然后通过计算机的学习得到一个预测模型，再用已知的模型去预测未知的样本，这种方法被称为有监督学习。这也是是最常见的机器学习方法。简单来说，就像你已经知道了试卷的标准答案，然后再去考试，相比没有答案再去考试准确率会更高，也更容易。

2) 无监督学习

理解了有监督学习，那么无监督学习理解起来也变的容易。所谓无监督学习（unsupervised learning）就是在没有“参考答案”的前提下，计算机仅根据样本的特征或相关性，就能实现从样本数据中训练出相应的预测模型。

除了上述两种学习形式外，还有半监督学习和强化学习，它不在本教程的讨论范畴之内，有兴趣的可以自己研究一下。

（2）预测结果分类

根据预测结果的类型，我们可以对上述学习形式做具体的问题划分，这样就可以具体到实际的应用场景中，比如有监督学习可以划分为：回归问题和分类问题。如果预测结果是离散的，通常为分类问题，而为连续的，则是回归问题。

1) 回归&分类

连续和离散是统计学中的一种概念，全称为“连续变量”和“离散变量”。比如身高，从 1.2m 到 1.78m 这个长高的过程就是连续的，身高只随着年龄的变化一点点的长高。那么什么是“离散变量”呢？比如超市每天的销售额，这类数据就是离散的，因为数据不是固定，可能多也可能少。关于什么是“回归”和“分类”在后续内容中会逐步讲解。

2) 聚类

无监督学习是一种没有“参考答案”的学习形式，它通过在样本之间的比较、计算来实现最终预测输出，比如聚类问题，那什么是“聚类”？其实可以用一个成语表述“物以类聚，人以群分”，将相似的样本聚合在一起后，然后进行分析。关于聚类也会在后续内容中逐步讲解。

在学习机器学习技术的过程中，我们会遇到很多专业术语或者生僻词汇，这些名词大多数来自于数学或者统计学领域，比如模型、数据集、样本、熵，以及假设函数、损失函数等，这些属词汇于基本的常识，但是如果你第一次接触的话，也会感觉到些许惊慌。在下一节我们将介绍机器学习的常用术语。

二、机器学习常用术语

机器学习是一门专业性很强的技术，它大量地应用了数学、统计学上的知识，因此总会有一些蹩脚的词汇，这些词汇就像“拦路虎”一样阻碍着我们前进，甚至把我们吓跑。因此认识，并理解这些词汇是首当其冲的任务。本节将介绍机器学习中常用的基本概念，为后续的知识学习打下坚实的基础。

1、机器学习术语

（1）模型

模型这一词语将会贯穿整个教程的始末，它是机器学习中的核心概念。你可以把它看做一个“魔法盒”，你向它许愿（输入数据），它就会帮你实现愿望（输出预测结果）。整个机器学习的过程都将围绕模型展开，训练出一个最优质的“魔法盒”，它可以尽量精准的实现你许的“愿望”，这就是机器学习的目标。

（2）数据集

数据集，从字面意思很容易理解，它表示一个承载数据的集合，如果说“模型”是“魔法盒”的话，那么数据集就是负责给它充能的“能量电池”，简单地说，如果缺少了数据集，那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”，它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。

（3）样本&特征

样本指的是数据集中的数据，一条数据被称为“一个样本”，通常情况下，样本会包含多个特征值用来描述数据，比如现在有一组描述人形态的数据“180 70 25”如果单看数据你会非常茫然，但是用“特征”描述后就会变得容易理解，如下所示：

图1：样本&特征

由上图可知数据集的构成是“一行一样本，一列一特征”。特征值也可以理解为数据的相关性，每一列的数据都与这一列的特征值相关。

（4）向量

任何一门算法都会涉及到许多数学上的术语或者公式。在本教程写作的过程中也会涉及到很多数学公式，以及专业的术语，在这里我们先对常用的基本术语做一下简单讲解。

第一个常用术语就是“向量”，向量是机器学习的关键术语。向量在线性代数中有着严格的定义。向量也称欧几里得向量、几何向量、矢量，指具有大小和方向的量。您可以形象地把它的理解为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的量叫做数量（物理学中称标量），数量只有大小，没有方向。

在机器学习中，模型算法的运算均基于线性代数运算法则，比如行列式、矩阵运算、线性方程等等。其实对于这些运算法则学习起来并不难，它们都有着一定运算规则，只需套用即可，因此你也不必彷徨，可参考向量运算法则。向量的计算可采用 NmuPy 来实现，如下所示：

import numpy as np
#构建向量数组
a=np.array([-1,2])
b=np.array([3,-1])

#加法
a_b=a+b
#数乘
a2=a*2
b3=b*(-3)
#减法
b_a=a-b
print(a_b,a2,b3,b_a)

输出结果：

[2 1] [-2 4] [-9 3] [-4 3]

简而言之，数据集中的每一个样本都是一条具有向量形式的数据。

（5）矩阵

矩阵也是一个常用的数学术语，你可以把矩阵看成由向量组成的二维数组，数据集就是以二维矩阵的形式存储数据的，你可以把它形象的理解为电子表格“一行一样本，一列一特征”表现形式如下：

图2：矩阵表格

如果用二维矩阵的表示的话，其格式如下所示：

2、假设函数&损失函数

机器学习在构建模型的过程中会应用大量的数学函数，正因为如此很多初学者对此产生畏惧，那么它们真会有这么可怕吗？其实我认为至少没有你想的那么可怕。从编程角度来看，这些函数就相当于模块中内置好的方法，只需要调用相应的方法就可以达成想要的目的。而要说难点，首先你要理解你的应用场景，然后根据实际的场景去调用相应的方法，这才是你更应该关注的问题。

假设函数和损失函数是机器学习中的两个概念，它并非某个模块下的函数方法，而是我们根据实际应用场景确定的一种函数形式，就像你解决数学的应用题目一样，根据题意写出解决问题的方程组。下面分别来看一下它们的含义。

（1）假设函数

假设函数（Hypothesis Function）可表述为y=f(x)其中 x 表示输入数据，而 y 表示输出的预测结果，而这个结果需要不断的优化才会达到预期的结果，否则会与实际值偏差较大。

（2）损失函数

损失函数（Loss Function）又叫目标函数，简写为 L(x)，这里的 x 是假设函数得出的预测结果“y”，如果 L(x) 的返回值越大就表示预测结果与实际偏差越小，则证明预测值越来越“逼近”真实值，这才是机器学习最终的目的。因此损失函数就像一个度量尺，让你知道“假设函数”预测结果的优劣，从而做出相应的优化策略。

（3）优化方法

“优化方法”可以理解为假设函数和损失函数之间的沟通桥梁。通过 L(x) 可以得知假设函数输出的预测结果与实际值的偏差值，当该值较大时就需要对其做出相应的调整，这个调整的过程叫做“参数优化”，而如何实现优化呢？这也是机器学习过程中的难点。其实为了解决这一问题，数学家们早就给出了相应的解决方案，比如梯度下降、牛顿方与拟牛顿法、共轭梯度法等等。因此我们要做的就是理解并掌握“科学巨人”留下的理论、方法。

对于优化方法的选择，我们要根据具体的应用场景来选择应用哪一种最合适，因为每一种方法都有自己的优劣势，所以只有合适的才是最好的。

上述函数的关系图如下所示：

图3：函数关系图

3、拟合&过拟合&欠拟合

拟合是机器学习中的重要概念，也可以说，机器学习的研究对象就是让模型能更好的拟合数据，那到底如何理解“拟合”这个词呢？

（1）拟合

形象地说，“拟合”就是把平面坐标系中一系列散落的点，用一条光滑的曲线连接起来，因此拟合也被称为“曲线拟合”。拟合的曲线一般用函数进行表示，但是由于拟合曲线会存在许多种连接方式，因此就会出现多种拟合函数。通过研究、比较确定一条最佳的“曲线”也是机器学习中一个重要的任务。如下图所示，展示一条拟合曲线（蓝色曲线）：

图4：曲线拟合

提示：很多和数学相关的编程语言都内置计算拟合曲线的函数，比如 MATLAB 、Python Scipy 等，在后续内容中还会介绍。

（2）过拟合

过拟合（overfitting）与是机器学习模型训练过程中经常遇到的问题，所谓过拟合，通俗来讲就是模型的泛化能力较差，也就是过拟合的模型在训练样本中表现优越，但是在验证数据以及测试数据集中表现不佳。

举一个简单的例子，比如你训练一个识别狗狗照片的模型，如果你只用金毛犬的照片训练，那么该模型就只吸纳了金毛狗的相关特征，此时让训练好的模型识别一只“泰迪犬”，那么结果可想而知，该模型会认为“泰迪”不是一条狗。如下图所示：

图5：过拟合

过拟合问题在机器学习中经常原道，主要是因为训练时样本过少，特征值过多导致的，后续还会详细介绍。

（3）欠拟合

欠拟合（underfitting）恰好与过拟合相反，它指的是“曲线”不能很好的“拟合”数据。在训练和测试阶段，欠拟合模型表现均较差，无法输出理想的预测结果。如下图所示：

图6：欠拟合

造成欠拟合的主要原因是由于没有选择好合适的特征值，比如使用一次函数（y=kx+b）去拟合具有对数特征的散落点（y=log2x），示例图如下所示：

图7：欠拟合示例图

欠拟合和过拟合是机器学习中会遇到的问题，这两种情况都不是我期望看到的，因此要避免，关于如何处理类似问题，在后续内容中还会陆续讲解，本节只需要大家熟悉并理解常见的机器学习术语和一些概念即可。

三、Python机器学习环境搭建

常言道“工欲善其事，必先利其器”，在学习机器学习算法之前，我们需要做一些准备工作，首先要检查自己的知识体系是否完备，其次是要搭建机器学习的开发环境。本教程以讲解算法为主，不会涉及太复杂的应用案例，在讲解过程中会穿插一些示例代码，这样不仅能够帮助你理解算法原理，同时又能让你体会到算法的应用过程。

机器学习的研究方向有很多，比如图像识别、语音识别、自然语言处理、以及深度学习等，因此它是一门较为复杂的技术，有一定的“门槛”要求。如果你对编程知识一无所知，就想熟练应用机器学习，这几乎是天方夜谭。那么您应该掌握哪些知识才能更好地学习本教程呢？包括下列四大核心知识。

1、Python

对于编程人员来说，想到“机器学习”第一个关联起来的词汇就是“Python”。近几年， Python 之所成为炙手可热的“流量小生”，这与它对“人工智能”领域的“鲸吞”有很大关系。目前而言，在人工智能领域能与 “Python”一较高下的只有 R 语言。不过由于 Python 语言的简洁性、易读性，以及 Python 对科学计算和深度学习框架（Tensorflow、Pytorch 等）的良好支持等，使得 Python 处于远远领先的位置。

图1：2021年编程语言排行榜

目前为止，Python 是对“机器学习”最为友好的一门语言，因此学习机器学习的第一个前提条件就是熟练应用 Python 语言。关于 Python 的学习不再本教程介绍范围之内，您可以参考《Python编程基础》《（一）Python基础教程》进行针对性学习。

2020 年 Python 官方宣布暂停对 Python 2.x 版本的维护工作，并把 2.7 版本作为最后一个支持维护的版本。截止本教程书写前，Python 最新版本是 3.9 版本，因此建议你选择 3.6 以上版本来安装使用。Python 除了自身的拥有强大的标准库外，还有非常丰富的第三方支持库。您可使用 Python 内置的包管理器pip轻松地管理资源包的下载与更新。

Python 官方网站提供了完善的资料文档和版本下载支持（Welcome to Python.org）。

图2：Python官网首页(点击高清图)

2、NumPy

NumPy（NumPy）属于 Python 的第三方扩展程序包，它是 Python 科学计算的基础库，提供了多维数组处理、线性代数、傅里叶变换、随机数生成等非常有用的数学工具。

NumPy 的安装方式非常简单，在安装好 Python 的基础上使用包管理器来安装，命令如下所示：

pip install numpy

我们知道机器学习与数学有着非常紧密的关系，因此熟练的应用 NumPy 也是你要面对的第一个挑战，它可以让你认识到 Python 在科学计算方面的优势。NumPy 并不在本教程讲解范畴内，这里推荐大家参考《NumP教程》《NumP教程》进行学习。

图3：NumPy官方网站

3、Pandas

Pandas 属于 Python 第三方数据处理库，它基于 NumPy 构建而来，主要用于数据的处理与分析。我们知道对于机器学习而言数据是尤为重要，如果没有数据就无法训练模型。Pandas 提供了一个简单高效的 DataFrame 对象（类似于电子表格），它能够完成数据的清洗、预处理以及数据可视化工作等。除此之外，Pandas 能够非常轻松地实现对任何文件格式的读写操作，比如 CSV 文件、json 文件、excel 文件。Pandas 同样不在本教程的介绍范畴之内，推荐您阅读《Pandas教程》。

图4：Pandas官方网站

Pandas 安装非常简单，同样可以使用 pip 包管理器完成安装，如下所示：

pip install pandas

4、Scikit-Learn

最后介绍机器学习中的重要角色 Scikit-Leran（官网：scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation），它是一个基于 Python 语言的机器学习算法库。Scikit-Learn 主要用 Python 语言开发，建立在 NumPy、Scipy 与 Matplotlib 之上，它提供了大量机器学习算法接口（API），因此你可以把它看做一本“百科全书”。由于 Scikit-Learn 的存在极大地提高了机器学习的效率，让开发者无须关注数学层面的公式、计算过程，有更多的更多的时间与精力专注于业务层面，从而解决实际的应用问题。

图5：Scikit-Learn官方网站

Scikit-Learn 的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，模型选择和数据预处理。本教程将围绕机器算法的讲解 Scikit-Learn 实际的应用。 Scikit-Learn 安装也非常简单，执行以下命令即可安装：

pip install scikit-learn

安装完成后导入 scikit 即可应用 Scikit-Learn，如下所示：

import sklearn

当你想要调用机器学习算法时也非常简单，Scikit-Learn 已经将算法按模型分类，比如线性回归算法可以从线性模型中调用，如下所示：

from sklearn import linear_model
model = linear_model.LinearRegression()

后续内容会逐一讲解 Scikit-Learn 库中的常用算法示例应用。本节介绍了在学习机器学习算法前，你应该掌握的必备知识。如果你已经掌握了本节介绍的前三个核心知识，并且还具备一定的数学基本知识（高中即可），那么你就拥有了学习机器学习算法的能力。

四、线性回归算法详解

本节我们会认识第一个机器学习算法 —— 线性回归算法（Linear Regression），它是机器学习算法中较为简单，且容易理解的算法模型，你可以把它看做您的第一个“Hello World”程序。

我们先从语义上了解“线性回归”，如果您是第一次接触“线性回归”这个词，那么可以把它分开来看，其中“性代”表线性模型，而“回归”则表示回归问题，也就是用线性模型来解决回归问题。看完上述解释，您脑子中可能仍有许多“问号”，线性还可以理解，比如我们所熟知的直线、曲线、线性方程等，那么“回归”又代表什么呢？

其实“回归”一词最早由英国科学家弗朗西斯·高尔顿提出。1875 年，高尔顿利用子代豌豆与父代豌来确定豌豆尺寸的遗传规律。实验的大意是说：非常矮小的的父辈倾向于有偏高的子代，非常高大的的父辈倾向于有偏矮的子代。。这表明子代的身高向着父辈身高的平均值回退，后来人们把这种研究方法称为“回归预测”。

1、线性回归是什么

线性回归主要用来解决回归问题，也就是预测连续值的问题。而能满足这样要求的数学模型被称为“回归模型”。最简单的线性回归模型是我们所熟知的一次函数（即 y=kx+b），这种线性函数描述了两个变量之间的关系，其函数图像是一条连续的直线。如下图蓝色直线：

图1：线性连续函数

还有另外一种回归模型，也就是非线性模型(nonlinear model)，它指因变量与自变量之间的关系不能表示为线性对应关系(即不是一条直线)，比如我们所熟知的对数函数、指数函数、二次函数等。

图2：非线性连续函数

我们知道“线性回归”就是利用线性模型来解决“回归问题”，那到底什么是回归问题呢？你可以把它理解为“预测”真实值的过程。

在《三国演义》中有一个非常精彩的片段“七星坛诸葛祭风”说的是诸葛亮借东风的故事。其实我们抛开历史，单从科学角度出发，诸葛亮借东风就是一个“回归问题”。首先诸葛亮需要掌握大量的天文地理知识，并凭借自己的知识对以往的天气数据进行大量研究，最后才能预测某个时间将有“东风来临”。这种相似的回归问题，在实际生活中我们经常遇到，比如根据历史行情预测股票走势、预测房屋售价以及电影票房预估等等，而要实现这些预测就需要大量的“历史数据”作为支撑点。

在上述讲解过程中，我们反复提起“预测”与“历史数据”，既然是预测，那么就不能说它是 100 % 精确，所以线性回归只是无限地逼近“真实值”，而这个逼近的过程需要大量“历史数据”提供支持。因此线性回归就是利用线性模型来“预测”真实值的过程。

2、线性回归方程

那么线性回归是如何实现预测的呢？其实主要是通过“线性方程”，或叫“回归方程”来实现。下面列举一个简单的例子，现有以下一组数据：

输入	输出
1	2
2	4
3	6
...	...
9	?

根据上表中的规律预测出 9 所对应的输出值，并写出线性方程。这个示例是不是非常简单，我们很容易想到 9 对应的是“18”，这是一道小学生都能解出来题，但请您不要小看这么一个简单的示例，它同样说明了很多问题。线性方程如下所示：

Y = 2 * X

在上述线程方程中2代表权值参数，而求这个参数的过程就是“回归”，一旦有了这个参数，再给定输入，做预测就非常容易了。具体的做法就是用回归系数乘以输入值，这样就得到了预测值。上述示例的预测函数（或称假设函数）可记为：

y = w1x + b

在前面介绍专业术语时，我们提起过“假设函数”，上述函数就是线性模型的“假设函数”。其中 x 表示输入的样本数据，y 表示输出的预测结果，而 w1 指的是线性回归模型的权值参数，b 指的是线性回归模型的“偏差值”。解决线性回归问题的关键就在于求出权值参数、偏差值。

权值，可理解为个不同“特征”对于预测结果的重要性。权值系数越大，那么这一项属性值对最终结果的影响就越大。

在实际应有中，线性回归模型要更复杂一些，比如要分析实际特征值对结果影响程度的大小，从而调整相应特征值的回归系数。下面举一个简单的应用示例：

现在要判断一个西瓜是否是成熟，根据我们的日常经验可从以下几个特征来判断：外表色泽(x)、根蒂(y)、敲声(z)。而以上三个特征所占用的权值参数也不同。如下所示：

y = 0.2x1 + 0.5x2 + 0.3 x3 + 1

上述表达式可以看出每一个特征值对预测结果的影响程度不同，根蒂是否“枯萎”对结果影响最大，而外表色泽是否鲜亮，敲声是否沉闷则占据次要因素。

当然采集数据的时也会存在一些无用数据，比如西瓜的外形、价格，这些特征不会对预测结果产生影响，因此它们权值参数为“0”。从这个例子可以得出“权值参数”是决定预测结果是否准确的关键因素。

3、实现预测的流程

下面通过一个具体实例讲解线性回归预测的具体流程。

（1）数据采集

任何模型的训练都离不开数据，因此收集数据构建数据集是必不可少的环节。比如现在要预测一套房子的售价，那么你必须先要收集周围房屋的售价，这样才能确保你预测的价格不会过高，或过低。如下表所示：

图3：数据集样本

当然上述样本数量远远不足，如果想要更加准确的预测就要收集更多的数据，至少保证 100 条样本。表格中的最后一栏是“房屋售价”，这是“有监督学习”的典型特点，被称为“标签”也就是我们所说的“参考答案”。表格中的面积、数量、距离市中心距离（km），以及是否是学区房，这些都是影响最终预测结果的相关因素，我们称之为“特征”，也叫“属性”。

你可能会认为影响房屋售价的不止这些因素，没错，不过采集数据是一个很繁琐的过程，因此一般情况下，我们只选择与预测结果密切相关的重要“特征”。

（2）构建线性回归模型

有了数据以后，下一步要做的就是构建线性回归模型，这也是最为重要的一步，这个过程会涉及到一些数学知识，至于如何构建模型，下一节会做详细介绍。

构建完模型，我们需要对其进行训练，训练的过程就是将表格中的数据以矩阵的形式输入到模型中，模型则通过数学统计方法计算房屋价格与各个特征之间关联关系，也就是“权值参数”。训练完成之后，您就可以对自己的房屋价格进行预测了。首先将数据按照“特征值”依次填好，并输入到模型中，最后模型会输出一个合理的预测结果。示意图如下所示：

图4：流程示意图

从上图可知，回归模型承担着非常重要的作用，关于如何构建回归模型，在下一节将做详细介绍。

五、构建线性回归模型

本节讲解如何构建线性回归算法中的“线性模型”，所谓“线性”其实就是一条“直线”。因此，本节开篇首先普及一下初中的数学知识“一次函数”。

1、一次函数

一次函数就是最简单的“线性模型”，其直线方程表达式为y = kx + b，其中 k 表示斜率，b 表示截距，x 为自变量，y 表示因变量。下面展示了 y = 2x + 3 的函数图像：

图1：函数图像y=2x+3

函数中斜率 k 与截距 b 控制着“直线”的“旋转”与“平移”。如果斜率 k 逐渐减小，则“直线”会向着“顺时针”方向旋转，为 k= 0 的时候与 x 轴平行。截距 b 控制“直接”的上下平移，b 为正数则向上平移，b 为负数则表示向下平移。

在机器学习中斜率 k 通常用 w 表示，也就是权重系数，因此“线性方程”通过控制 w 与 b 来实现“直线”与数据点最大程度的“拟合”。如下图（黑色 x 号代表数据样本）所示：

图2：线性拟合

线性方程不能完全等同于“直线方程”，因为前者可以描述多维空间内直接，而后者只能描述二维平面内的 x 与 y 的关系。

2、构建线性模型

在线性回归问题中数据样本会呈现“线性”分布的态势，因此我们使用“线性方程”来最大程度的“拟合数据”。线性方程预测的结果具有连续性，下面通过示例简单说明：小亮今年 8 岁，去年 7 岁，前年 6 岁，那么他明年几岁呢？估计你闭着眼都能想到答案，但是我们要从机器学习的角度去看待这个问题。

首先年龄、时间是一组连续性的数据，也就是因变量随着自变量规律性地连续增长，显然它是一个“回归问题”。下面把上述数据以二维数组的形式表示出来，构建一个数据集，如下所示：

[[2021,8],

[2020,7],

[2019,6]]

我们知道两个点就可以确定一条“直线”，因此将两组数据带入 y = kx + b，最终求得“线程方程”：

y = x - 2013

上述函数就是所谓的“假设函数”，通过它即可实现对结果的预测。这个函数的图像如下所示：

图3：假设函数图像

从上述函数图像可以看出，直线对数据样本恰好“拟合”。这是最标准的拟合直线，通过它就可以“预测”出小亮明年的年龄了。上述示例就构建了一个简单的的“线性模型”。读到这里你会惊叹“怎么如此简单”，其实线性模型就是这么简单。对于机器学习而言，最关键的就是“学习”，在大量的数据中，通过不断优化参数，找到一条最佳的拟合“直线”，最终预测出一个理想的结果。

提示：上述示例是一个理想化的“线性模型”，在实际应用中要复杂的多，不过“万变不离其宗”。

机器学习是一门数学、统计学、计算机科学的结合技术，因此它有着独特的知识体系，比如会将数据集分为“训练集”与“测试集”，而且还会通过“损失函数”来不断优化预测结果，关于这些知识会在后需内容详细介绍。

六、线性回归：损失函数和假设函数

通过前面内容的介绍，我相信你对线性回归算法已经有了初步的认识。那我们应该如何在一大堆数据中求解出“线性方程呢”比如前面提及的房价预测问题？这种问题才是符合实际应用的。数据样本会散落在“线性方程”的周围（下图 2 所示），而我们要做就是让线性方程的“直线”尽可能“拟合”周围的数据点。本节我们将从数学角度解析线性回归模型。

1、假设函数

通过前面知识的学习，我们知道假设函数是用来预测结果的。前面讲述时为了让大家更容易理解“线性回归”，我们以“直线方程”进行了类比讲解，然而线性方程并不等同于“直线方程”，线性方程描绘的是多维空间内的一条“直线”，并且每一个样本都会以向量数组的形式输入到函数中，因此假设函数也会发生一些许变化，函数表达式如下所示：

乍一看你可能蒙圈了，记住不用紧张。其实它和 Y=wX + b 是类似的，只不过我们这个标量公式换成了向量的形式。如果你已经学习了《NumPy 教程》，那么这个公司很好理解，Y1仍然代表预测结果， X1表示数据样本， b表示用来调整预测结果的“偏差度量值”，而wT表示权值系数的转置。矩阵相乘法是一个求两个向量点积的过程，也就是按位相乘，然后求和，如下所示：

图1：矩阵乘法运算

矩阵 A 的每一行分别与矩阵 B 的每一列相乘，比如 1*5+2*5+3*7 =36 、1*2+2*6+3*6=32、1*6+2*7+3*4=32，即可得出结果的第一行数据。

转置操作的目的是为了保证第一个矩阵的列数（column）和第二个矩阵的行数（row）相同，只有这样才能做矩阵乘法运算。

您也可以将假设函数写成关于 x 的函述表达式，如下所示：

2、损失函数

我们知道，在线性回归模型中数据样本散落在线性方程的周围，如下图所示：

图2：线性回归模型

损失函数就像一个衡量尺，这个函数的返回值越大就表示预测结果与真实值偏差越大。其实计算单个样本的误差值非常简单，只需用预测值减去真实值即可：

单样本误差值 = Y1 - Y

但是上述方法只适用于二维平面的直线方程。在线性方程中，要更加复杂、严谨一些，因此我们采用数学中的“均方误差”公式来计算单样本误差：

公式是求“距离”因此要使用平方来消除负数，分母 2 代表样本的数量，这样就求得单样本误差值。当我们知道了单样本误差，那么总样本误差就非常好计算了：

最后，将假设函数带入上述损失函数就会得到一个关于 w 与 b 的损失函数（loss），如下所示：

在机器学习中使用损失函数的目的，是为了使用“优化方法”来求得最小的损失值，这样才能使预测值最逼近真实值。

在上述函数中 n、Y、X1 都是已知的，因此只需找到一组 w 与 b 使得上述函数取得最小值即可，这就转变成了数学上二次函数求极值的问题，而这个求极值的过程也就我们所说的“优化方法”。关于如何求极值会在下一节做详细介绍。

下一部分将在Python机器学习算法入门教程（第二部分）展开描述。

你可能感兴趣的:(Python语言学习,python,机器学习,算法)

Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析一起搞IT吧数码相机算法数据结构人工智能 android 图像处理计算机视觉
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：Camera相机人脸识别系列专题分析之十六：人脸特征检测FFD算法之libcvface_api.so数据结构详细注释解析目录一、libcvface_api.so数据结构详细注释解析一、libcvface_api.so数据结构详细注释解析///@brief人脸信息结构体typedefstructcv_face_t{cv_r
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
四、Actor-Critic Methods 沈夢昂志 DRL深度强化学习 python 深度学习
由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。再此说明，非常推荐B站“王树森老师的DRL强化学习”本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。目录A.书接上回1、Reinforce算法B.State-ValueFunctionC.PolicyNetWork（Actor）D.ActionValueNetwork(Critic)E.TraintheNeur
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
高压电缆护层电流监测系统的技术实现李子圆圆人工智能
目录文章目录概要高精度电流监测的技术实现多级预警机制的构建逻辑极端环境下的稳定运行技术远程运维的技术支撑概要高压电缆护层作为电力传输的关键防护结构，其接地电流的异常变化是判断设备状态的重要指标。TLKS-PLGD高压电缆护层电流监测系统通过传感器技术与智能算法的结合，构建了一套完整的电缆安全监测方案。高精度电流监测的技术实现高精度电流监测的技术实现护层电流监测的核心在于数据采集的精准性。该系统采用
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
数据结构实验解析(C++版)——实验一复杂度分析拯救三金数据结构 c++算法
目录一、实验例题例题1例题2二、实验原理与背景知识1、实验原理2、背景知识三、解题思路与算法1、解题思路2、算法四、代码实现例题1代码例题2代码五、实验结果分析与总结1、实验结果分析2、该实验与数据结构的联系一、实验例题例题1时间空间限制时间限制：1SEC空间限制：128MB问题描述分析以下代码：for(i=1;iusingnamespacestd;intmain(){longlongn;//输入
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {