cyoushika_Nara

【从零开始的机器学习】-06 多元线性回归问题

导语

我们在【从零开始的机器学习】-05 线性代数基础中介绍了一些线性代数的基础，包括矩阵的一些运算和操作。在本章，我们将运用这些操作，实现多元线性回归问题的参数最优化和预测。

1. 什么是多元线性回归问题？

在之前的章节里，我们以“用房屋面积来预测房价”为例，介绍了一元线性回归问题。其中，自变量（也被称为特征值）只有“房屋面积”这一个，而因变量则是“房价”。然而，在更为一般的问题中，自变量往往不不止一个，比如我们在预测房价时，不仅需要考虑房屋的面积，还会考虑房间的个数，楼层数，建筑年龄等因素。此时，因为自变量不再是一个，而是多个，因此问题从一元线性回归问题，变成了多元线性回归问题。

2. 多元线性回归模型表达式

所谓线性，根据数学的定义，

定义1：一个函数h(x)是只拥有一个自变量的一阶多项式函数，表达式为 $h (x) = k x + b$ ，k和b为常数，则称h(x)为线性函数
定义2：若有 $h (x + y) = h (x) + h (y)$ 成立，则称h(x+y)为线性函数。
更为"啰嗦"的定义：若h(x)可以拆成多个满足定义1的线性函数的和，则称h(x)为线性函数

多元线性回归的表达式：
$h(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\dots+\theta_nx_n$

如果我们用矩阵表示的话：设参数向量 $\theta = \left[ \begin{matrix} \theta_0\\ \theta_1\\ \theta_2\\ \vdots\\ \theta_n \end{matrix}\right]$ ，自变量向量 $\left[ \begin{matrix} 1\\ x_1\\ x_2\\ \vdots\\ x_n \end{matrix}\right]$ ， $h(x)=\theta^{T}x$ , $\theta$ 是一个 $1\times(n+1)$ 的向量， $x$ 是 $(n+1)\times 1$ 的向量，二者相乘，就是 $h(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\dots+\theta_nx_n$

3. 代价函数与梯度下降法

3-1 代价函数

现在我们已经知道多元线性回归的表达式了，该确定评价标准（代价函数）了。我们继续采用平方误差函数计算。如果我们用朴素的（非矩阵表达）方式描述代价函数的话，相比于一元线性回归，多项式的代价函数会稍微复杂一些，但因为我们使用了矩阵，因此看起来并没有很大的区别：

$J(\theta_0,\theta_1, \dots, \theta_n)=\frac{\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^{2}}{2m}\\\;\\ =\frac{\sum_{i=1}^{m}(\sum_{j=1}^{n}\theta_{j}x_{j}^{(i)}-y^{(i)})^{2}}{2m}\;\;\;\;\;\;\;——(变体1)\\\;\\ =\frac{\sum_{i=1}^{m}(\theta^{T}x-y^{(i)})^{2}}{2m}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;——(变体2)$

3-2 梯度下降法

为了实现梯度下降法，我们需要求代价函数 $J(\theta_0,\theta_1, \dots, \theta_n)$ 对于 $\theta_0,\theta_1,\dots,\theta_n$ 的偏导数来描述各参数在某个位置的变化趋势。和一元线性方程的解法一致，都是固定一个自变量，其他自变量当成常数系数，然后求导。

关于 $\theta_0$ 的偏导数： $\frac{\partial J(\theta_0,\theta_1, \dots, \theta_n)}{\partial \theta_0}=\frac{\sum_{i=1}^{m}(\theta^{T}x-y^{(i)})}{m}$

关于 $\theta_j (j=1,2,\dots,n)$ 的偏导数： $\frac{\partial J(\theta_0,\theta_1, \dots, \theta_n)}{\partial \theta_j}=\frac{\sum_{i=1}^{m}(\theta^{T}x-y^{(i)})x^{(i)}_{j}}{m}$

根据上面的偏导数，我们可以构建梯度下降法的函数表达式，学习率为α：
$\theta_0 := \theta_0-\alpha \frac{\partial J(\theta_0,\theta_1, \dots, \theta_n)}{\partial \theta_0} = \theta_0-\alpha \frac{\sum_{i=1}^{m}(\theta^{T}x-y^{(i)})}{m}$
$\theta_j := \theta_j-\alpha \frac{\partial J(\theta_0,\theta_1, \dots, \theta_n)}{\partial \theta_0} = \theta_{j} - \alpha \frac{\sum_{i=1}^{m}(\theta^{T}x-y^{(i)})x^{(i)}_{j}}{m}$

与一元线性回归问题相同，参数需要同步更新。

import numpy as np
import random

def h_true(x1,x2,x3,x4,x5) -> int: #用于生成测试数据的函数
    return 1+x1+2*x2+3*x3+4*x4+5*x5

def cost_function(data,theta)->float: #代价函数
    m = data.shape[0] #数据量
    n = data.shape[1] #特征量
    x = data[:,0:n-1] #1+自变量
    y = data[:,n-1] #真实值
    base = x.dot(theta)-y #h(x)-y
    return sum(base.T.dot(base))/(2*m)

def gradient_decrase_multi(x,y,m,n,theta,alpha)->[]: #梯度下降法
	#计算每个偏导数的公共部分，即：h(x) - y, 得到一个1000x1的矩阵
    base = x.dot(theta)-y
    # print(base.shape)
    #计算每个特征量的偏导数，因为特征量j的偏导数=m行的 base值乘以第i行的第j列的值的和
    #根据矩阵的计算方法，base.T是1x1000的矩阵，乘以第j列的每一项，然后相加
    #将base转置成1x1000的矩阵，然后和矩阵x相乘，就可以得到每个特征量的偏导数结果，得到一个1x6的矩阵
    partial = base.T.dot(x)
    # print(partial.shape)
    #将偏导数矩阵转置成6x1的矩阵，乘以学习率，然后用原本的theta减去得到的结果，就可以完成同步更新，得到一个6x1的矩阵
    theta = theta-alpha*(partial.T)
    # print(theta.shape)
    return theta

if __name__ == '__main__':
    data = []

    for i in range(0,1000):
        x1 = random.randrange(-100,100,1)
        x2 = random.randrange(-100, 100, 2)
        x3 = random.randrange(-100, 100, 3)
        x4 = random.randrange(-100, 100, 4)
        x5 = random.randrange(-100, 100, 5)
        data.append([1,x1,x2,x3,x4,x5,h_true(x1,x2,x3,x4,x5)]) #第i行输入x的向量的转置

    data = np.mat(data)
    theta = [[100],[-100],[100],[-100],[100],[-100]]
    theta = np.mat(theta)
    ans = cost_function(data,theta)
    mylogs = []

    m = data.shape[0]
    n = data.shape[1]
    x = data[:, 0:n - 1]
    y = data[:, n - 1]

    for i in range(0,10000):
        theta = gradient_decrase_multi(x,y,m,n,theta,0.0000005)
        if(i>9990):
            mylogs.append(cost_function(data,theta).item(0,0))

    print(theta)
    print(mylogs)

4. 特征缩放（Feature Scaling）

如果我们保证所有的特征值在相似的范围内，可以使梯度下降法更快收敛（因为梯度下降法在小范围内下降的很快，在大范围内下降的很慢。这个范围最后相对统一，且不会太大或者太小，比如-1 ~ 1，-3 ~ 3，0 ~ 3，都是可以接受的。但是想-100~100，10000~20000就太大了，而像0.00001~0.00002这样的又太小。

缩放的方法：

用该特征值下的每一个值都除以该特征的所有数据中最大值和最小值的差，就可以保证数据再一个相对小的范围了
均值归一化（mean normalization）：每个数据都减去该特征值的数据平均值，以此获得一个平均值为0的数据集（除了x0，不要用x0去减平均值，x0是我们为了方便计算，添加进矩阵的，而非特征值）
将上面的两个方法结合，先减去平均值，在除以最大值和最小值的差，或者除以标准差，进行缩放：
$x_{i}:=\frac{x_{i}-u_{i}}{max(x)-min(x)}\;或\;\frac{x_{i}-u_{i}}{SD(x)}$

需要注意的是，如果我们对训练集进行了缩放，那么对测试数据也要用相同的方法进行缩放，否则无法得到正确的预测值（这一点非常容易被忘记）

代码实现：

import numpy as np
import random

def h_true(x1,x2,x3,x4,x5) -> int: #用于生成测试数据的函数
    return 1+x1+2*x2+3*x3+4*x4+5*x5

def cost_function(data,theta)->float: #代价函数
    m = data.shape[0] #数据量
    n = data.shape[1] #特征量
    x = data[:,0:n-1] #1+自变量
    y = data[:,n-1] #真实值
    base = x.dot(theta)-y #h(x)-y
    return sum(base.T.dot(base))/(2*m)

def gradient_decrase_multi(x,y,m,n,theta,alpha)->[]: #梯度下降法
	#计算每个偏导数的公共部分，即：h(x) - y, 得到一个1000x1的矩阵
    base = x.dot(theta)-y
    # print(base.shape)
    #计算每个特征量的偏导数，因为特征量j的偏导数=m行的 base值乘以第i行的第j列的值的和
    #根据矩阵的计算方法，base.T是1x1000的矩阵，乘以第j列的每一项，然后相加
    #将base转置成1x1000的矩阵，然后和矩阵x相乘，就可以得到每个特征量的偏导数结果，得到一个1x6的矩阵
    partial = base.T.dot(x)
    # print(partial.shape)
    #将偏导数矩阵转置成6x1的矩阵，乘以学习率，然后用原本的theta减去得到的结果，就可以完成同步更新，得到一个6x1的矩阵
    theta = theta-alpha*(partial.T)
    # print(theta.shape)
    return theta

if __name__ == '__main__':
    data = []

    for i in range(0,10):
        x1 = random.randrange(-100,100,1)
        x2 = random.randrange(-100, 100, 2)
        x3 = random.randrange(-100, 100, 3)
        x4 = random.randrange(-100, 100, 4)
        x5 = random.randrange(-100, 100, 5)
        data.append([1,x1,x2,x3,x4,x5,h_true(x1,x2,x3,x4,x5)]) #第i行输入x的向量的转置

    data = np.mat(data,dtype='float32')

    theta = [[0],[0],[0],[0],[0],[-0]]
    theta = np.mat(theta)
    ans = cost_function(data,theta)
    mylogs = []

    m = data.shape[0]
    n = data.shape[1]
    x = data[:, 0:n - 1]
    y = data[:, n - 1]

    mean = [0]
    diff = [1]
    # 特征缩放
    for i in range(1,6):
        temp = data[:,i]
        mean.append(np.mean(temp)) #平均值
        diff.append((max(temp)-min(temp)).item(0,0)) #最大和最小值的差值
        data[:,i] = (temp-mean[i])/diff[i] #缩放

    mean = np.mat(mean,dtype="float32")
    diff = np.mat(diff,dtype="float32")

    for i in range(0,10000):
        theta = gradient_decrase_multi(x,y,m,n,theta,0.01)
        if(i>9990):
            mylogs.append(cost_function(data,theta).item(0,0))

    print(theta)
    print(mylogs)

结果为：

我们发现，怎么 $\theta$ 这么大？难道不应该是[1,2,3,4,5]吗？这是因为，我们仅对x进行了缩放，但是没有对y进行缩放（我们也不能对真实值进行缩放，否则会失真）。用缩放后的x得到原来的y，参数自然和不缩放时的参数不同了。重要的是代价，我们发现代价已经是10^-12次方级的了，可与默认为0，因此 $\theta$ 是正确的。同时，我们发现如果不缩放，我们的学习率必须设的很小，比如0.00000005才能正确地学习，而进行缩放之后，我们用0.01作为学习率就可以了。

5. 如何对梯度下降法Debug？

当特征量超过2个时，我们无法通过绘制图像的方法观察模型的样子。作为替代，我们可以观察迭代步数和代价之间的关系变化。

我们每次下降迭代时，都计算一下当前参数下的代价为多少。然后以迭代步数为横坐标，代价值为纵坐标，绘制曲线，观察变化趋势，调整学习率和迭代次数

5-1 学习率太低(0.00001)：曲线过于平缓，且还在下降，没有到达收敛值

5-2 合适的学习率(0.01)：末尾趋于平稳，说明学习率合适

学习率过大(0.215)：代价不降反升，或者呈波浪上下变动时，说明梯度下降法是失灵的，需要更小的学习速率

6. 正规方程求解最优参数（Normal Equation）

除了梯度下降法，还有一种方法可以求解最优参数，那就是正规方程（Normal Equation）。正规方程如下：
$\theta = (X^TX)^{-1}X^Ty$

上面方程是可以通过数学证明的，但证明的部分不在本系列的范围内，故省略。

X为 $m\times(n+1)$ 的矩阵，y为 $m\times1$ 的向量。正规方程不需要特征缩放，也不需要学习率，更不需要迭代，而是直接一步就计算出最优参数。但是，根据公式，我们需要计算 $X^TX$ 的逆矩阵，而 $X^TX$ 如果是奇异矩阵，则不存在逆矩阵，因而也无法用正规方程求解。

出现不可逆的原因：

特征冗余：比如有两个特征，一个是房子的面积，用英制单位，另一个也是房子的面积，用公制单位，由于英制和公制之间存在转换关系，所以两个特征实际上是同一个特征
特征太多，训练集太少（即m<=n)

应对方法：

删除一些特征
正规化（之后的章节里会讲）

代码实现：

import numpy as np
import random

def h_true(x1,x2,x3,x4,x5) -> int: #用于生成测试数据的函数
    return 1+x1+2*x2+3*x3+4*x4+5*x5

def normal_equation(x,y):
    return (x.T.dot(x)).I.dot(x.T).dot(y)

if __name__ == '__main__':
    data = []

    for i in range(0, 10):
        x1 = random.randrange(-100, 100, 1)
        x2 = random.randrange(-100, 100, 2)
        x3 = random.randrange(-100, 100, 3)
        x4 = random.randrange(-100, 100, 4)
        x5 = random.randrange(-100, 100, 5)
        data.append([1, x1, x2, x3, x4, x5, h_true(x1, x2, x3, x4, x5)])  # 第i行输入x的向量的转置

    data = np.mat(data, dtype='float32')

    m = data.shape[0]
    n = data.shape[1]
    x = data[:, 0:n - 1]
    y = data[:, n - 1]

    theta = normal_equation(x,y)
    print(theta)

结果：

7. 梯度下降法 vs 正规方程

项目	梯度下降法	正规方程
学习率	需要设置	不需要设置
迭代	需要迭代	不需要迭代
大量特征	能够很好的运行	会变的很慢 (O(n^3))
奇异矩阵	无影响	会出现错误，无法执行

对于线性回归问题，当特征量在1~10000之内时，可以考虑用正规方程，但是超过10000个特征，就需要考虑用梯度下降法。

8. 模型改进（特征融合）

有时我们会发现线性的函数模型未必能很好的拟合数据，这个时候我们需要对模型进行调整，比如引入其他一些曲线模型，调整特征的指数（融合一些特征，比如房屋的长和宽，我们可以融合成面积）等。

比如，我们假设函数为 $h(x)=\theta_0+\theta_1\times x_1$ ，然后我们基于x1，设 $x_2 = x_1^2$ ，设计一个二次函数：
$\theta_0+\theta_1\times x_1+\theta_2\times x_1^2$

或者我们基于x1，设 $x_2 = x_1^2, x_3 = x_1^3$ ，设计一个三次函数：
$\theta_0+\theta_1\times x_1+\theta_2\times x_1^2+\theta_3\times x_1^3$

这样操作，有时会比线性模型更好地拟合数据。需要注意的是，如果采用上面的方法改变函数模型，特征值的值域也会变化，因此需要用到缩放，假设x1的值域为1~ 1000，那么x2的范围就是1 ~ 10^6，需要进行100万的缩放，而x3的范围是1 ~ 10^9次方，因此需要进行10^9的缩放。

9. 预告

回归问题我们已经讨论的差不多了，接下来我们将进入分类问题的部分。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
【证明】对极几何：本质矩阵内在性质 Powerful_QI slam 线性代数矩阵
--这是目录--1.本质矩阵内在性质表述2.预备知识2.1线性代数基础2.1.1奇异值与特征值的关系2.1.2矩阵加减单位阵后特征值的变化2.2引理：一个常用的矩阵变换3.证明1.本质矩阵内在性质表述本质矩阵(EssentialMatrix)EEE是一个3阶方阵，满足E=t∧RE=t^{\land}RE=t∧R其中RRR为旋转矩阵，ttt为平移量，t∧t^{\land}t∧运算定义如下（参考了
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【从零开始的机器学习】-06 多元线性回归问题

导语

1. 什么是多元线性回归问题？

2. 多元线性回归模型表达式

3. 代价函数与梯度下降法

3-1 代价函数

3-2 梯度下降法

4. 特征缩放（Feature Scaling）

缩放的方法：

代码实现：

5. 如何对梯度下降法Debug？

5-1 学习率太低(0.00001)：曲线过于平缓，且还在下降，没有到达收敛值

5-2 合适的学习率(0.01)：末尾趋于平稳，说明学习率合适

学习率过大(0.215)：代价不降反升，或者呈波浪上下变动时，说明梯度下降法是失灵的，需要更小的学习速率

6. 正规方程求解最优参数（Normal Equation）

出现不可逆的原因：

应对方法：

代码实现：

7. 梯度下降法 vs 正规方程

8. 模型改进（特征融合）

9. 预告

你可能感兴趣的:(人工智能学习笔记,机器学习,线性回归,线性代数,python)