且听风吟~

机器学习算法（四）逻辑回归理论与python实现+经典示例（从疝气病预测病马的死亡率）

学习笔记更新

什么是逻辑回归？

简要介绍

逻辑回归是用来解决线性回归问题的，它将线性回归得到的结果通过逻辑函数映射到[0,1]之间，因此称逻辑回归。逻辑回归模型主要用于解决二分类问题，是一个分类模型。

基本问题形式

前面说的逻辑回归是用来解决线性回归问题的，什么是回归呢？最常见的例子，假设有一些数据点，需要用一条直线对这些数据点进行拟合，求得最佳拟合直线，拟合的过程就是回归。利用逻辑回归对线性问题进行分类的主要思想是：根据现有的数据对分类边界线建立回归公式，将线性回归得到的结果通过逻辑函数映射到 [0，1] 之间，并以此进行分类。

逻辑回归问题求解

逻辑函数

逻辑函数是一类返回值为逻辑值true或逻辑值false的函数。在二分类问题中，我们希望输入数据特征之后，函数输出0或1，表示两种不同的类别，同时我们希望函数在0到1之间有一个变化过程，而不是如赫维赛德阶跃函数那样在跳跃点上瞬间到 1，没有一个变化过程，函数不连续。Sigmod函数满足上述的需求，坐标轴范围小时，可以看到函数值从0到1是有一个慢慢上升的过程的，同时，坐标轴范围大一些，可以观察到函数值在0处发生明显变化。

sigmod 计算式为

因此，问题可以这样求解：

将现有待分类数据点的特征（X0，X1，X2……），每个特征乘以一个回归系数，然后将所有结果值相加，得到值z，

将z带入sigmod函数中，会得到一个在0~1之内的数字。将>0.5的值划分为第一类，小于0.5的值划分为第二类。
如果有一个样本被误分，本属于第一类，但分类结果是第二类，我们可以知道是因为z值输入所导致的。此时，需要通过调整回归系数w，进而调整z值，使其能够尽快的划分到正确的类别中。

想法固然美好，如何实现呢？学过梯度下降法的话不难想到，上述调整z值的任务可以用梯度下降法来实现，学习传送 -->（传送至梯度下降法）。函数值在每一点沿着梯度的方向走，如果函数是凸函数，便可找到函数的最优解，如果函数是非凸函数，求得的解可能为全局最优解也可能是局部最优解。线性函数是凸函数的特例，梯度下降法非常适用。

梯度上升与梯度下降本质一个道理，只是方向相反。梯度上升法迭代公式如下：

一直执行，直到达到设定的迭代次数或算法达到允许的误差的误差范围内。
梯度上升法的目的：（调整参数w1，w2，使得计算得到的z值输入sigmod后能将大多数样本正确分类）。

算法步骤

1、输入数据
2、初始化：参数w1，w2……=1，步长α=0.01。
3、设定梯度下降迭代次数，进行梯度下降，计算偏导，更新w。 (训练模型)
4、返回最终w，得到决策边界。
5、w值确定后，输入测试数据集，计算分类错误率。 (测试模型)

程序实现

加载数据

######加载数据###########
def loadDataSet():
    dataMat=[];datalabel=[]   #设置list，存储数据和标签
    fr=open('testSet.txt')     
    for line in fr.readlines():  
        lineClean=line.strip().split()  #对每一行数据进行处理，去掉前后空白字符，以空字符分割，空字符包括空格、制表符、回车符、换行符等
        dataMat.append([1,float(lineClean[0]),float(lineClean[1])])
        datalabel.append(int(lineClean[2]))
    return dataMat,datalabel

梯度上升

###################梯度上升#################
def gradAcent(dataMat,dataLabel):
    dataMatrix=numpy.mat(dataMat)
    dataLabel_Matrix=mat(dataLabel).transpose()  #转换为numpy矩阵，便于进行矩阵操作
    m,n=shape(dataMatrix)
    #print(n)
    alpha=0.001   #初始化步长
    maxCycles=500  #设置最大迭代次数
    weights=numpy.ones((n,1)) # #创建nX1的矩阵，矩阵元素全为1
    for k in range(maxCycles):     #进行参数更新，循环次数为maxCycles
        h=sigmod(dataMatrix*weights)
        error=dataLabel_Matrix-h
        weights=weights+alpha*dataMatrix.transpose()*error  #梯度上升，损失函数对各变量求偏导后得到w=w+α*x*(y-h)   #y为真实值
    return weights   #返回更新后的参数
   
################定义sigmod函数###############
def sigmod(inX):
    return 1.0/(1+numpy.exp(-inX))   

####执行上述函数
dataArr,dataLabel=loadDataSet()
weights=gradAcent(dataArr,dataLabel)
print(weights)   #输出更新后的参数

程序输出：

[[ 4.12414349]
 [ 0.48007329]
 [-0.6168482 ]]

可视化

##画出决策边界

def plotBestFit(weights):
    import matplotlib.pyplot as plt
    dataMat,labelMat=loadDataSet()
    dataArr = array(dataMat)
    n = shape(dataArr)[0] 
    xcord1 = []; ycord1 = []        
    xcord2 = []; ycord2 = []
    for i in range(n):
        if int(labelMat[i])== 1:
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])    #记录第一类点坐标
        else:
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])     #记录第二类点坐标
    fig = plt.figure()
    ax = fig.add_subplot(111)
    #分别绘制两种类型的点
    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')  #
    ax.scatter(xcord2, ycord2, s=30, c='green')
    x = arange(-3.0, 3.0, 0.1)
    y = (-weights[0]-weights[1]*x)/weights[2]
    ax.plot(x, y)
    plt.xlabel('X1'); plt.ylabel('X2')
    plt.show()

###执行上述函数
dataArr,dataLabel=loadDataSet()
weights=gradAcent(dataArr,dataLabel)
plotBestFit(weights.getA())  ##通过getA()这个方法可以将weights返回成一个数组对象

程序运行结果如下：

随机梯度上升法

一次仅用一个样本点来更新回归系数

###############3随机梯度上升法#########################
def stocGradAscent(dataArray,dataLabel):
    dataArray=array(dataArray)
    m,n=shape(dataArray)
    alpha=0.01
    weights=ones(n)  #返回一个数组，[1,1,1]
    for i in range(m):
        h=sigmod(sum(dataArray[i]*weights))
        error=dataLabel[i]-h
        weights=weights + alpha * dataArray[i] * error
    return weights


######################执行函数######################
dataArr,dataLabel=loadDataSet()
weights=stocGradAscent(dataArr,dataLabel)
print(weights)
plotBestFit(weights)

程序输出：

[ 1.01702007  0.85914348 -0.36579921]    #更新后的参数值

这里，随机梯度上升法分类效果直观上不如原梯度上升法，但不能这样直接比较。这样对第二种方法是不公平的，因为原始的梯度上升，是在整个数据集上迭代了500次才得到的结果，而随机梯度上升只遍历了一次数据集。有研究表明，将上述随机梯度上升算法在整个数据集上运行200次，特征X2的系数只经历50次迭代就达到了稳定值。而X0与X1的系数则需要更多的迭代，并且在大波动停止后，会有小范围的周期性波动。这里不难理解，参数上上下下在一定范围内波动，是因为有一些有一些样本点不能被正确分类，数据集不是完全线性可分的，每次更新参数，对这些特殊的点来说总是不能将他们正确分类。因此每次迭代都会引起系数较大变化。针对随机梯度上升算法种存在的问题，又产生了改进的随机梯度上升法，程序如下：（只想了解 解决逻辑回归问题主要步骤的伙伴，如果对这一部分不太感兴趣的话可以跳过，因为这里并不影响对整个问题的认识）

改进的随机梯度上升法

##改进的随机梯度上升法：
def Pro_stocGradAscent(dataArray,dataLabel,numIter=200):  
    dataArray=array(dataArray)
    m,n=shape(dataArray)
    alpha=0.01
    weights=ones(n)
    for j in range(numIter):
        dataIndex=list(range(m))
        for i in range(m):
            alpha=4/(1.0+j+i)+0.01     #每一次都会更新步长，随着迭代次数不断减小，但不会为0。目的：保证多次迭代后新参数仍具有影响
            randIndex=int(random.uniform(0,len(dataIndex)))  #随机选取一个来进行更新
            h=sigmod(sum(dataArray[randIndex]*weights))
            # print(type(h))
            # print(type(dataLabel[randIndex]))
            # print(dataLabel[randIndex])
            error=dataLabel[randIndex]-h
            weights=weights+alpha * dataArray[randIndex] * error
            del(dataIndex[randIndex])
    return weights

######################执行函数######################
dataArr,dataLabel=loadDataSet()
weights=stocGradAscent(dataArr,dataLabel)
print(weights)
plotBestFit(weights)

程序输出结果

[15.05877546  0.71607795 -1.97753643]    #更新后参数值

改进后的随机梯度上升法可以解决随机梯度上升中存在的参数周期性波动的问题，因为改进后的方法里并不是对所有样本按顺序逐次遍历，依次更新参数；而是随机挑选样本来进行更新。二者虽然最后都遍历了所有样本，但是遍历的顺序不同，因此也避免了特殊点引起的周期性波动。同时改进后的随机梯度上升可以使参数收敛的更快。读者有兴趣的话，可以对Pro_stocGradAscent() 中的三个参数进行调整，以达到更好的效果。

到目前为止，重点一直在分析如何更新回归系数，而对于具体的问题如何求解，仍是一个较为模糊的概念。通过下面这个示例，可以清晰地了解从数据输入到最后给出分类结果整个过程。

经典示例：从疝气病症预测病马的死亡率

使用逻辑回归来预测患有疝病的马的存活问题。数据中包含299个样本和20个特征。数据集中的特征包含了医院检的一些指标，有的比较主观，有的难以测量，另外存在数据缺失的问题，不过不用担心，对于数据预处理，已经有前辈处理好了，可以在此基础上来学习。
数据集：包含20个特征，最后一列是标签

问题求解：

不需要太多繁杂的步骤，所需要做的就是将测试集上每个特征向量乘以最优化方法得来的回归系数，再将该乘积结果求和，（这个过程就是文章开头说起的线性回归得到的参数后，带入特征，求得的线性回归结果z），最后输入到sigmod函数中即可。如果对应sigmod值>0.5,则预测为标签类别1（死亡率高），否则为0（死亡率低）。
程序如下：

def colicTest():
    trainArray=[];testArray=[]       #构建list,存储从文件中读取出来的训练集，测试集
    train_label=[];test_label=[]
    trainfile=open('horseColicTraining.txt')
    testfile=open('horseColicTest.txt')
    for line in trainfile.readlines():      #逐行读取训练集
        curentLine=line.strip().split()
        lineArr=[]
        for i in range(len(curentLine)):
            lineArr.append(float(curentLine[i]))  #存储训练集样本特征
        trainArray.append(lineArr)   #存储训练集标签
        train_label.append(float(curentLine[21]))   ####转为float，不然会当做字符串处理

    weights=Pro_stocGradAscent(array(trainArray),train_label,1000)   #使用改进的随机梯度上升法求参数
    numTest=0.0;errorCount=0.0                          #numTest：统计测试集样本数量，errorCount：统计分类错误的样本数量
    for line in testfile.readlines():   #逐行读取测试集
        numTest+=1
        currentLine=line.strip().split()
        lineArr=[]
        for i in range(len(curentLine)):
            lineArr.append(float(curentLine[i]))
        if classfiy(lineArr,weights)!=int(currentLine[21]):   #将分类结果与测试集样本真实标签对比
            errorCount+=1
    
    errorRate=float(errorCount)/numTest
    print("the error rate of this test is: %f" %errorCount)   #输出错误率
    return errorRate


#####执行函数
colicTest()

程序输出结果

the error rate of this test is: 0.402985

进行多次测试求平均错误率

def muliTest():
    numTest=10
    errorSum=0.0
    for i in range(numTest):
        errorSum+=colicTest()
    print("After %d iterations the average error rate is: %f" %(numTest,float(errorSum/numTest)))

####执行函数
muliTest()

程序输出：

the error rate of this test is: 0.343284
the error rate of this test is: 0.328358
the error rate of this test is: 0.283582
the error rate of this test is: 0.358209
the error rate of this test is: 0.358209
the error rate of this test is: 0.402985
the error rate of this test is: 0.343284
the error rate of this test is: 0.373134
the error rate of this test is: 0.268657
the error rate of this test is: 0.373134
After 10 iterations the average error rate is: 0.343284

总结

参考文章：逻辑回归的常见面试点总结。写的非常好，感谢博主分享。

优点：

1、形式简单，模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响，某个特征的权重值比较高，则这个特征最后对结果的影响会比较大。
2、模型效果不错。在工程上是可以接受的，如果特征工程做的好，效果不会太差，并且特征工程可以大家并行开发，大大加快开发的速度。
3、训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟，训练的速度可以通过堆机器进一步提高，这样我们可以在短时间内迭代好几个版本的模型。
4、资源占用小,尤其是内存。因为只需要存储各个维度的特征值，。
5、方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果，因为输出的是每个样本的概率分数，我们可以很容易的对这些概率分数进行划分。

缺点

1、准确率并不是很高。因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布。
2、很难处理数据不平衡的问题。举个例子：如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1.我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器，它对正负样本的区分能力不会很好。
3、处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下，只能处理线性可分的数据，或者进一步说，处理二分类的问题。
4、逻辑回归本身无法筛选特征。有时候，我们会用gbdt来筛选特征，然后再上逻辑回归。

学海无涯，个人整理，内容难免会有纰漏，欢迎道友指正，感激不尽！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
数学建模、运筹学之非线性规划 AgentSmart 算法学习算法动态规划线性代数线性规划
数学建模、运筹学之非线性规划一、最优化问题理论体系二、梯度下降法——无约束非线性规划三、牛顿法——无约束非线性规划四、只包含等值约束的拉格朗日乘子法五、不等值约束非线性规划与KKT条件一、最优化问题理论体系最优化问题旨在寻找全局最优值（或为最大值，或为最小值）。最优化问题一般可以分为两个部分：目标函数与约束条件。该问题的进一步细分也是根据这两部分的差异。最优化问题根据变量的取值范围不同可以划分为一
Python实现梯度下降法闲人编程 python python 开发语言梯度下降算法优化
博客：Python实现梯度下降法目录引言什么是梯度下降法？梯度下降法的应用场景梯度下降法的基本思想梯度下降法的原理梯度的定义学习率的选择损失函数与优化问题梯度下降法的收敛条件Python实现梯度下降法面向对象的设计思路代码实现示例与解释梯度下降法应用实例：线性回归场景描述算法实现结果分析与可视化梯度下降法的改进版本随机梯度下降（SGD）小批量梯度下降（Mini-batchGradientDesce
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

机器学习算法（四）逻辑回归理论与python实现+经典示例（从疝气病预测病马的死亡率）

什么是逻辑回归？

简要介绍

基本问题形式

逻辑回归问题求解

逻辑函数

算法步骤

程序实现

加载数据

梯度上升

可视化

随机梯度上升法

改进的随机梯度上升法

经典示例：从疝气病症预测病马的死亡率

问题求解：

总结

优点：

缺点

你可能感兴趣的:(机器学习,机器学习,逻辑回归,梯度下降)