霜月帰蝶

机器学习基础算法笔记（一）——梯度下降算法（以housing数据集为例）

简述机器学习基础算法（一）——梯度下降算法（以housing数据集为例）

- 问题是从哪来的
- 过程综述
- 核心思想
- 数据的预处理
- 正则化
- 随机梯度下降
- 实现代码

问题是从哪来的

生活中，很多事情是有因果关系的，比如房价受地段，小区绿化程度，周围学校好坏等因素影响；一杯果汁的价格可能受水果的种类，果汁的含量影响；再比如一个男性的魅力值或许受身高，财产，身材，年龄，学历等因素影响。我们在进化的过程中总是想总结出更多的因果关系，定性的相关性是比较好发现的，可是我们更希望得到一个定量的结果，这样才是有实际意义和价值的东西。
好了，现在问题转化成了想求得一个函数 $y = f (x)$ ，其中y代表的是我们最终想得道的值，也就是上面所说的房价，果汁的价格，其中的x代表的则是影响因素的集合。
我们为了说明的方便，用一个具体的数据集，这里用的是housing数据集

housing.data 包含506个训练样本
该数据集包含 13 个不同的特征：
1.人均犯罪率。
2.占地面积超过 25000 平方英尺的住宅用地所占的比例。
3.非零售商业用地所占的比例（英亩/城镇）。
4.查尔斯河虚拟变量（如果大片土地都临近查尔斯河，则为 1；否则为 0）。
5.一氧化氮浓度（以千万分之一为单位）。
6.每栋住宅的平均房间数。
7.1940 年以前建造的自住房所占比例。
8.到 5 个波士顿就业中心的加权距离。
9.辐射式高速公路的可达性系数。
10.每 10000 美元的全额房产税率。
11.生师比（按城镇统计）。
12.1000 * (Bk - 0.63) ** 2，其中 Bk 是黑人所占的比例（按城镇统计）。
13.较低经济阶层人口所占百分比
14.房价

1~13也就是特征也就是X，14是最终结果也就是Y

过程综述

我们的任务就是用一个我们自己定义的函数 $f (x)$ 去接近真实的函数 $g (x)$ ，真实的函数是什么没人知道，像这种经典数据集，使用什么样的函数去拟合是已知的，但是在实际应用中使用什么样的函数来拟合是需要测试的。
我们的目标是让 $f (x)$ 去接近 $g (x)$ ，换一种表达方式也就是让 $∣ f (x) - g (x) ∣$ 尽可能的小，如果两个函数的差值小，也就是意味着他们接近了。不过我们手上有的不是 $g (x)$ 而是 $g (x)$ 上的若干个点，即训练集中的点，这些点都是真实存在的数据，是真实函数上的点。解决问题的一个办法是转而求解另一个函数，比如 $Min(\sum_{i=0}^{N}|f(x_i)-g(x_i)|)$ (N代表样本的数量）。这个函数也就是损失函数，当然，上面的不是最终的损失函数，它有很多计算层面上的问题和不方便，不过我们也知道了需要一个损失函数来告诉我们现在的接近程度。我们需要求解损失函数的最小值，这个过程需要使用梯度下降算法。当求得最小值时，其对应的 $f (x)$ 即是我们的最终结果。

核心思想

梯度下降是求解函数极值的方法，整个过程就是一个下山的过程（如下图），站在山顶上找最陡峭的地方向下一步步走（因为陡峭的地方下的快），直到你下一步前进的时候发现自己在上升，就知道刚刚自己已经到达山脚（最低点）了。显然，梯度下降找到一个极值点就会停止，这个极值点不一定是全局的最大值最小值。

对于梯度下降算法，我们需要定义一些变量：

步长：步长决定了在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。
特征：指的是样本中输入部分，即数据集中的特征值。数据集中的特征值是一个包含13个特征的向量，定义为X={ $x_1,x_2,...,x_{13 }$ }
假设函数：在监督学习中，为了拟合输入样本，而使用的假设函数，记为h_θ (x)。对于该数据集，特征数为13，样本数为506的样本 $(x^i_j,y_j)$ (j=1,2,…506)(i=1,2…13)。实验中选取的拟合函数为一次函数即 $h_θ (x)=θ_0+θ_1*x_1+⋯+θ_{13}*x_{13}$
代价函数：为了评估模型拟合的好坏，通常用损失函数来度量拟合的程度。损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。在线性回归中，损失函数通常为样本输出和假设函数的差取平方。比如对于m个样本 $(x^i_j,y_j)$ (i=1,2,…13;j=1,2,…,m),采用线性回归，损失函数为：
$J(θ_0,θ_1,...,θ_{13})$ = $\frac{1}{2m}\sum_{i=1}^m(h_θ(x^{i})-y^i)^2$
其中x_^((i) )表示第i个样本特征，y^((i) )表示第i个样本对应的输出，h_θ (x_^((i) ) )为假设函数。
参数的变化为：
$\left\{ \begin{aligned} θ_0 & =θ_0- \alpha\frac{1}{m}\sum_{i=1}^m(h_θ(x^{i})-y^i) \\ θ_1 & =θ_1-\alpha\frac{1}{m}\sum_{i=1}^m(h_θ(x^{i})-y^i)x^i_1 \\ θ_j & =θ_1-\alpha\frac{1}{m}\sum_{i=1}^m(h_θ(x^{i})-y^i)x^i_j \end{aligned} \right.$

参数的变化是怎么得到的？
首先梯度就是表示某一函数在该点处的方向导数沿着该方向取得较大值，即函数在当前位置的导数。
参数的变化应该是 $θ_j=θ_j-\alpha\frac{\partial J(θ_1,θ_2,...,θ_{13})}{\partial θ_j}$
其中 $\alpha$ 表示学习率，即控制每次下降的快慢

数据的预处理

在看了吴恩达老师的机器学习课程视频学习到的东西，由于这个数据集刚好也存在同样的问题，即不同特征值的取值范围差异十分大，可能会导致梯度下降时收敛速度过慢。

在有两个特征值 $θ_1,θ_2$ 的情况下，如果两个特征值的取值范围近似则会有较高的收敛速度，相反如果差距较为悬殊，会导致收敛速度过慢，如上图所示，所以需要进行特征缩放。
目标是将所有的特征值都限制在[-1,1]的范围内，求出每一列特征值的平均值 $\overline{X}$ ，最大值 $X_{max}$
对每一个特征值 $X_{ij}$ （i表示行，j表示列），进行计算 $X_{ij}'=\frac{(X_{ij} -\overline{X} )}{X_{max}}$ 得到新的特征值，特征值会出现负数，后续的计算需要使用到绝对值。

正则化

需要正则化的原因是为了防止过拟合，可能是参数数量过多，导致过度拟合各个点，而失去了预测的准确性，所以需要添加一个正则系数。
在代价函数的后面加入L2正则项 $λ\sum_{i=1}^mθ_j^2$ ，将新的代价函数带入参数更新函数中，化简得到新的更新函数
$θ_j=θ_j (1-α \frac{λ}{m})-α \frac{1}{m} \sum_{i=1}^m(h_θ x^i-y^i) x_j^i$
其中λ就是正则系数
正则化不止能防止过拟合，还能一定程度上加快收敛的速度

随机梯度下降

随机梯度下降与梯度下降不同的是，他不是算所有数据的代价，而是选取其中一行数据进行计算。可以预见的是，它的收敛速度会比梯度下降要快，因为它不用顾虑所有的数据，相应的它的结果肯定也不如梯度下降好，下降的效果也是在不断地波动中，因为是随机选取的所以效果不确定。他的更新参数为：
$θ_j=θ_j-α(h_θ x^i -y^i)x_j^i$
其中 $i \in [0 \dots m]$ ，且为随机选取的, $j \in [0 \dots n]$ n为参数的数量

实现代码

包括梯度下降源程序和留一法测试，使用RMSE作为评价标准
梯度下降

import sys
import copy
from numpy import *
import numpy as np
import matplotlib.pyplot as plt

f = open("housing.data", "r")
Data = f.readlines()

'''
处理数据，先对数据进行分割，并转换成float型变量
为了之后梯度下降的过程中减少消耗，进行特征缩放
获取平均值,与最大值：

平均值分别为
3.61352356, 11.36363636, 11.13677866, 0.06916996, 0.55469506, 6.28463439, 68.57490119, 3.79504269, 9.54940711, 408.23715415, 18.4555336, 356.67403162, 12.65306324
最大值分别为
88.9762, 100, 27.74, 1, 0.871, 8.78, 100, 12.1265, 24, 711, 22, 369.9, 37.97

大概的范围选择在-1~1
定义初始的参数向量为全 1
'''
for i in range(506):
    Data[i] = Data[i].rstrip('\n')
    Data[i] = Data[i].split()
    for j in range(13):
        Data[i][j] = float(Data[i][j])

Data = np.mat(Data)
Data = Data.astype("float64")
Average = Data.sum(axis=0)/506
Max = Data.max(axis=0)

#为了保证特征值范围进行调整
for i in range(14):
    Data[:, i] = (Data[:, i]-Average[0,i])/Max[0, i]

#梯度
Alpha = 0.01
#特征值向量
Feature = Data[:,0:13]
#结果向量
Result = Data[:,13]

#创建参数向量，为一个1*13的矩阵
Parameter = mat(ones((13,1)))
intercept = 0           #截距
Sub_value = sys.maxsize
count = 0
debugging = [0 for i in range(11)]
debugging_1 = [i for i in range(11)]
IsEnd = False
''''
#通过转置完成计算
Parameter = np.transpose(Parameter)
#计算结果

Feature = Feature*Parameter

Result = abs(Result - Feature)
print(Result)

进行梯度下降，定义代价函数，操作全局变量判断是否结果更加优化
'''
def Steepest_Descent(Feature_1,Result_1,x):
    global Parameter,Alpha,Sub_value,IsEnd,intercept,count

    Feature_temp = copy(Feature_1)                #防止特征向量被修改
    Forecast = Feature_temp*Parameter     #预测结果

    Forecast = Forecast - Result_1     #差值
    #print(Forecast)
    Value_mat = abs(Forecast)
    Value = Value_mat.sum(axis=0)
    #debugging[count] = Value[0,0]
    count = count + 1
    '''
    #计算限度
    if count==20000 or count==30000 or count==79000:
        print(Value)
    
    #print("Feature_temp",Feature_temp.shape)
    
    Forecast:506*1
    Feature_temp:506*13
    Parameter:13*1
    '''

    #print(Value)
    if Value[0,0]<Sub_value:
        Sub_value = Value[0,0]
    else:
        print(Value[0, 0])
        IsEnd = True
        return

    Delta = mat(ones((13,1)))
    #计算变化量
    for i in range(13):
        #temp = mat(ones((506,1)))
        temp = Feature_temp[:, i]       #因为要*Xij
        np.transpose(Forecast)
        temp_1 = temp*Forecast
        Delta[i,0] = temp_1[0,0]/x
    #更新系数
    Parameter = Parameter*0.9 - Alpha*Delta
    intercept = intercept -Alpha*Forecast.sum(axis=0)[0,0]/x
    #print("Parameter's shape:",Parameter.shape)

if __name__=="__main__":
    RootError = 0

    '''
    留一法测试的内容
    for n in range(506):
        Feature_left = copy(Feature)
        Result_left = copy(Result)
        delete(Feature_left,n,axis=0)
        delete(Result_left,n,axis=0)
        for i in range(30000):
            Steepest_Descent(Feature_left,Result_left,505)
        temp = Feature[n,:]        #取出这一行当做测试数据
        temp = temp*Parameter
        RootError = RootError +abs(temp[0,0]-Data[n,13])

        #初始化
        Parameter = mat(ones((13, 1)))
        Sub_value = sys.maxsize
        IsEnd = False
        intercept = 0
    
    RootError = RootError / 506
    IsEnd = False   
    #整体再算一遍

    '''
    while not IsEnd:
        Steepest_Descent(Feature,Result,506)

    print("总次数",count)
    print("参数向量为",Parameter)
   #print("常数项为",intercept)
    print("留一法得到RMSE为",RootError)

    plt.figure()
    plt.scatter(debugging_1, debugging, color="b")
    plt.xlabel('x')
    plt.ylabel('y')
    plt.show()

随机梯度下降

import sys
import copy
from numpy import *
import numpy as np
import matplotlib.pyplot as plt


f = open("housing.data", "r")
Data = f.readlines()

for i in range(506):
    Data[i] = Data[i].rstrip('\n')
    Data[i] = Data[i].split()
    for j in range(13):
        Data[i][j] = float(Data[i][j])

Data = np.mat(Data)
Data = Data.astype("float64")
Average = Data.sum(axis=0) / 506
Max = Data.max(axis=0)

# 为了保证特征值范围进行调整
for i in range(14):
    Data[:, i] = (Data[:, i] - Average[0, i]) / Max[0, i]

# 梯度
Alpha = 0.01
# 特征值向量
Feature = Data[:, 0:13]
# 结果向量
Result = Data[:, 13]

# 创建参数向量，为一个1*13的矩阵
Parameter = mat(ones((13, 1)))
intercept = 0  # 截距
Sub_value = sys.maxsize
count = 0
debugging = [0 for i in range(80000)]
debugging_1 = [i for i in range(80000)]
IsEnd = False



def Steepest_Descent(Feature_1, Result_1, x):
    global Parameter, Alpha, Sub_value, IsEnd, intercept, count


    Random_value = random.randint(0,506)
    Feature_temp = copy(Feature_1[Random_value,:])  #随机选取一行数据
    Result_temp = copy(Result_1[Random_value,:])
    Forecast = Feature_temp * Parameter  # 预测结果

    Forecast = Forecast - Result_temp  # 差值

    Value = abs(Forecast.sum(axis=0))      #误差
    debugging[count] = Value[0,0]
    count = count + 1
    '''
    曾经试过的收敛方式的判断
    rotio = abs(Value[0,0]/Result_temp[0,0])
    # print(Value)
    if rotio<0.05:
       # Sub_value = Value[0, 0]
        count = count + 1
    if count>10:
        print(Sub_value)
        IsEnd = True
        return
    '''
    Delta = mat(ones((13, 1)))
    # 计算变化量
    for i in range(13):
        # temp = mat(ones((506,1)))
        temp = Feature_temp[:, i]  # 因为要*Xij
        np.transpose(Forecast)
        temp_1 = temp * Forecast
        Delta[i, 0] = temp_1[0, 0]
    # 更新系数
    Parameter = Parameter - Alpha * Delta
    # print("Parameter's shape:",Parameter.shape)


if __name__ == "__main__":
    RootError = 0

    for i in range(80000):
        Steepest_Descent(Feature, Result, 506)
    print(len(debugging))
    plt.figure()
    plt.scatter(debugging_1, debugging, color="b")
    plt.xlabel('x')
    plt.ylabel('y')
    plt.show()
    print("总次数", count)
    print("参数向量为", Parameter)
    # print("常数项为",intercept)
    print("留一法得到RMSE为", RootError)

如何增强机器学习基础，提升大模型面试通过概率 weixin_40941102 机器学习面试人工智能
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈。面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手
使用python进行单因素方差分析（ANOVA）和事后多重比较(LSD) thinkwindows 数据分析 python 算法 excel
#idea来源#在使用spss帮朋友做单因素分析时，发现个别数据需要调整到符合显著性的要求，在spss中修改数据，再在spss中操作步骤太麻烦，于是有了这个想法。程序思路1、将数据放到excel里，确定两列数据，Group（分组数据）和B（对应数据列）2、程序读取excel数据3、整理数据格式，将数据分组，将数据从宽格式转换为长格式，以便于进行ANOVA分析。4、执行单因素方差分析（ANOVA），
linux-Openmanus本地部署-AI-Agent初探世转神风- manus manus
文章目录简介官网指导widows安装linux安装安装依赖项报错配置快速入门别急效果展示简介上来先不说其它的，先给你们稳定军心……要尝试的兄弟，放心尝试，占用空间并不大，部署下来，不超过10G。官网指导网址官网指导，比较全面。我只挑重点。widows安装在B站上，有人用过，我就不细讲了。condacreate-nopen_manuspython=3.12condaactivateopen_manu
从原理和公式出发：python实现One_Way_ANOVA ＾哪来的＆永远～ python 算法概率论
文章目录目的：python实现onewayANOVA单因素方差分析1.代码流程2.python代码实现0主要的函数1加载数据2查看数据统计结果3数据处理及可视化4方差分析4.1模型拟合4.2单因素方差分析5PostHoct-test组间比较分析6根据定义自行分解计算对比调用函数的结果7获取F分布对应的P值3.方差分析公式及原理参考目的：python实现onewayANOVA单因素方差分析方差分析(
2025年北京市海淀区信息奥赛真题解析（小学组）热爱编程的通信人 c++白名单信息学奥赛
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
python anova_使用Python进行双向ANOVA的三种方法 cumei1658 python 机器学习深度学习人工智能数据分析
pythonanovaInanearlierpostIshowedfourdifferenttechniquesthatenablestwo-wayanalysisofvariance(ANOVA)usingPython.Inthispostwearegoingtolearnhowtodotwo-wayANOVAforindependentmeasuresusingPython.在较早的文章中，我
熊猫烧香之手动查杀梦断九歌命令工具隐藏软件删除
对熊猫烧香进行手动查杀学习笔记：手动查杀：只不通过代码的方式对病毒进行查杀，通过鼠标指指点点+DOS命令实现杀毒粗浅，往往不能查杀干净并不代表什么软件都不用，专业分析软件手动查杀病毒木马固定的流程：1.排查可疑进程。因为病毒往往会创建出来一个或多个进程，因此我们需要分辨出哪些进程是由病毒所创建，然后删除可疑进程。2.检查启动项。病毒为了实现自启动，会采用一些方法将自己添加到启动项中，从而实现自启动
pythonSTL---sys MzKyle python库服务器运维 python
sys是Python标准库中的一个内置模块，它提供了许多与Python解释器和系统环境进行交互的功能。1.导入sys模块在使用sys库的功能之前，需要先导入它：importsys2.命令行参数(sys.argv)sys.argv是一个包含命令行参数的列表。其中，sys.argv[0]是脚本的名称，后续的元素是传递给脚本的参数。importsys#打印脚本名称print(f"脚本名称:{sys.ar
ANOVA：在Python中构建和理解ANOVA（方差分析） python收藏家 python 数据科学 python
ANOVA（方差分析）是一种统计技术，用于确定三个或更多独立（不相关）组的平均值之间是否存在任何统计学显著差异。它有助于检验关于组间均值差异的假设，在比较多个组时特别有用。在Python中，可以使用scipy.stats模块中的f_oneway函数来执行单因素方差分析（one-wayANOVA），或者使用statsmodels库中的ANOVA类来进行更复杂的方差分析。重要概念总体均值（Popula
【实践】Python爬取豆瓣电影排行榜页面数据大数据张老师 Python程序设计 python 开发语言
在本节中，我们将使用requests库爬取豆瓣电影排行榜页面数据。通过一步步实操，学习如何使用requests库发送HTTP请求、获取网页HTML数据，并为后续的网页解析做好准备。1.目标：获取豆瓣电影排行榜的网页数据豆瓣电影提供了电影排行榜页面，网址如下：https://movie.douban.com/top250在本节中，我们的目标是：访问豆瓣电影排行榜页面。获取该页面的HTML数据。解析并
Python----计算机视觉处理（opencv：像素，RGB颜色，图像的存储，opencv安装，代码展示）蹦蹦跳跳真可爱589 Python opencv 图像处理计算机视觉 python opencv 人工智能
一、计算机眼中的图像像素像素是图像的基本单元，每个像素存储着图像的颜色、亮度和其他特征。一系列像素组合到一起就形成了完整的图像，在计算机中，图像以像素的形式存在并采用二进制格式进行存储。根据图像的颜色不同，每个像素可以用不同的二进制数表示。日常生活中常见的图像是RGB三原色图。RGB图上的每个点都是由红（R）、绿（G）、蓝（B）三个颜色按照一定比例混合而成的，几乎所有颜色都可以通过这三种颜色按照不
【python】修改 python pip install 镜像源非晓为骁 python python pip 开发语言
要在使用python-mpipinstall-rrequirements.txt时添加腾讯的镜像源，可以通过-i或--index-url参数指定镜像源地址。腾讯云的PyPI镜像源地址是：https://mirrors.cloud.tencent.com/pypi/simple具体命令将腾讯云的镜像源添加到命令中，如下所示：python-mpipinstall-rrequirements.txt-i
CentOS7 部署flask和paddleX M1412 系统运维 centos paddlepaddle flask
CentOS7部署flask和paddleX1、官网下载anaconda，部署python环境#权限chmod+xAnaconda3-2020.11-Linux-x86_64.sh#安装anacondabashAnaconda3-2020.11-Linux-x86_64.sh#生效启动condasource~/.bashrc#创建虚拟环境condacreate-nweb_devpython=3.7
centos7正式服务器部署uwsgi+nginx+django项目-亲身研究[斜眼笑] pyswt Django centos python nginx centos
服务器是centos7的，首先从安装python3开始安装依赖包yuminstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgcc*make-y然后安装python3wgethttps://www.python.org/ftp/python/3.5.2/Python-3.5.2
【人工智能数学基础】——深入详解贝叶斯理论：掌握贝叶斯定理及其在分类和预测中的应用猿享天开人工智能数学基础专讲分类数据挖掘人工智能贝叶斯数学
深入详解贝叶斯理论：掌握贝叶斯定理及其在分类和预测中的应用贝叶斯理论（BayesianTheory）是概率论和统计学中的一个重要分支，它以托马斯·贝叶斯（ThomasBayes）命名，主要关注如何根据新的证据更新对某一事件的信念。贝叶斯定理作为贝叶斯理论的核心，在机器学习、数据分析、决策科学等多个领域中具有广泛的应用。本文将深入探讨贝叶斯定理的理论基础、数学表达及其在分类和预测中的应用，辅以实例和
文档处理的数字化和革新 - ComIDP
在当今快节奏的环境中，企业不断寻求创新解决方案以精简操作并自动化手动任务。ComIDP是由ComPDFKit提供的先进的智能文档处理（IDP）解决方案，它作为一个强大工具，旨在改变组织管理文档的方式。什么是智能文档处理？智能文档处理是一种结合了人工智能（AI）、机器学习（ML）和光学字符识别（OCR）的技术，用于自动提取各种文档格式中的有价值信息。与传统的数据捕获方法需要大量手动干预不同，IDP利
Centos部署Django 一万句的秘密 python 数据库开发 django 分布式 centos
1.安装miniconda(python3.7环境)wgethttps://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shshMiniconda3-latest-Linux-x86_64.sh刷新环境变量（第3步）出现（base）即可2.给miniconda添加镜像源condaconfig--addchannelshttp
Python——程序设计方法上课不要睡觉了 Python知识体系 python 算法 c++
Python——程序设计方法程序是完成一定功能的指令的集合,用于解决特定的计算问题。按照软件工程的思想,程序设计可以分为分析、设计、实现、测试、运行等阶段。结构化程序设计是一种典型的程序设计方法,是程序设计的基础思想,它是把一个复杂程序逐级分解成若干个相互独立的程序,然后再对每个程序进行设计与实现。程序在具体实现上遵循了一定的模式,典型的程序设计模式是IPO模式,也就是程序由输入(Input)、处
python中lambda函数如何使用用完记得换回去 python 开发语言
在Python中，lambda函数是一种匿名函数，即没有名字的函数。lambda函数可以接受任意数量的参数，但只能有一个表达式，这个表达式的值会被自动返回。lambda函数通常用于需要简单函数对象的场合，比如排序、映射等。以下是lambda函数的基本语法：lambdaarguments:expression以下是一些lambda函数的使用示例：1.简单的lambda函数add=lambdax,y:
Python数据可视化自动化工具：让数据跃然纸上 Echo_Wish Python 算法 Python 笔记从零开始学Python人工智能信息可视化 python 自动化
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
已解决FileNotFoundError: [Errno 2] No such file or directory: ‘xxx‘ 高质量海王哦 python python
在Python编程中，FileNotFoundError是一个常见的异常，通常意味着程序尝试访问一个不存在的文件或目录。这个错误可能会影响程序的正常运行，并让开发者困惑，尤其是当路径看似正确时。本文将深入探讨FileNotFoundError的成因，提供具体的代码示例，并详细阐述几种有效的解决方法，以帮助读者迅速定位和解决此问题。已成功解决FileNotFoundError:[Errno2]Nos
python能否控制plc_小说python操作PLC 狮子坤 python能否控制plc
PLC(ProgrammableLogicController)可编程逻辑控制器，可以理解为一个微型计算机，广泛应用于工业控制中，如楼宇智控、精密机床、汽车电子等等。随着物联网的兴起，越来越多的传统工业设备需要和外界通信，但很多情况下，类似PLC这种微控制器，由于自身硬件的因素，无法直接与外界互联互通，通过PC这种上位机作为一个中介桥梁，为PLC与外界沟通打开了一扇门。Python作为当前最火的语
Python - sys 库的详细介绍 wanglaqqqq #文件与系统操作 python 开发语言
Python的sys模块是一个与Python解释器交互的核心标准库，提供了对解释器参数、运行环境、系统资源的访问和控制。以下是sys模块的核心内容及常用函数详解：一、sys模块的核心功能类别功能描述命令行参数获取脚本启动时的命令行参数（sys.argv）。程序退出控制脚本退出状态（sys.exit()）。模块与路径管理管理模块导入路径（sys.path）和已加载模块（sys.modules）。系统
Sglang部署大模型常用参数详解小树苗m sglang vllm deepseek
Sglang部署大模型常用参数详解常用启动命令HTTP服务器配置API配置并行处理张量并行数据并行专家并行内存和调度其他运行时选项日志记录多节点分布式服务LoRA内核后端约束解码推测解码双稀疏性调试选项优化选项参数概览常用启动命令要启用多GPU张量并行性，请添加--tp2。如果报告错误“这些设备之间不支持对等访问”，请在服务器启动命令中添加--enable-p2p-check。python-msg
【Python】requests获取网络响应的时候，遇到url超过最大重试次数的解决方法翠花上酸菜 python Exception python 网络开发语言网络爬虫网络协议
我们在使用requests连接网址后，获取网络响应的时候，有时候可能会遇到这样的问题：问题：Maxretriesexceededwithurl:/tags-%E9%A1%B9%E7%9B%AE-5.html(CausedbySSLError(SSLEOFError(8,‘EOFoccurredinviolationofprotocol(ssl.c:1129)’)))这是指，在使用requests库
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
使用爬虫获取衣联网商品详情：实战指南小爬虫程序猿爬虫
在电商领域，快速获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何快速使用Python爬虫技术获取衣联网商品详情，并确保爬虫行为符合平台规范。一、环境准备（一）Python开发环境确保你的系统中已安装Python（推荐使用Python3.8及以上版本）。（二）安装所需库安装requests和BeautifulSoup库，用于发送HTT
python requests已解决Max retries exceeded with URL问题高质量海王哦爬虫 python 爬虫
错误信息Traceback(mostrecentcalllast):File"D:/1.py",line47,inresponse=requests.get(File"D:\Python3.8.10\lib\site-packages\requests\api.py",line73,ingetreturnrequest("get",url,params=params,**kwargs)File"D
Docker+Flask 实战：打造高并发微服务架构 TechStack 创行者 #服务器容器 Linux docker 运维微服务容器架构
Docker+Flask实战：打造高并发微服务架构今天我们要深入探讨一个非常热门且实用的主题：基于Docker部署PythonFlask应用。Docker作为当下最流行的容器化技术，已经广泛应用于各种开发和部署场景，尤其是在微服务架构中。而Flask作为Python世界里轻量级的Web框架，同样备受开发者青睐。将二者结合，能极大地提高我们应用的部署效率和可移植性。接下来，我们就一起通过一个完整的实
【模型调优的深入分析与Python实践】蝉叫醒了夏天机器学习 python 开发语言模型调优
模型调优的深入分析与Python实践一、模型调优的定义与目标模型调优（ModelTuning）是通过系统化调整机器学习模型的超参数和结构参数，使模型在特定数据集上达到最佳性能的过程。其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集/测试集的独立
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

机器学习基础算法笔记（一）——梯度下降算法（以housing数据集为例）

简述机器学习基础算法（一）——梯度下降算法（以housing数据集为例）

问题是从哪来的

过程综述

核心思想

数据的预处理

正则化

随机梯度下降

实现代码

你可能感兴趣的:(笔记,随便写写,机器学习,梯度下降,Python)