nanashi_F

“机器学习实战”刻意练习——分类问题：逻辑(Logistic)回归

参考：
Python3《机器学习实战》学习笔记（六）：Logistic回归基础篇之梯度上升算法 - Jack-Cui - CSDN博客
Python3《机器学习实战》学习笔记（七）：Logistic回归实战篇之预测病马死亡率 - Jack-Cui - CSDN博客

一、概述

1.回归

假设现在有一些数据点，我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称作回归。

利用Logistic回归进行分类的主要思想是：
根据现有数据对分类边界线建立回归公式，以此进行分类。
这里的“回归”一词源于最佳拟合，表示要找到最佳拟合参数集，我们将使用最优化算法找到最佳拟合参数集。

2.Logistic回归的一般过程

收集数据：采用任意方法收集数据。
准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。
分析数据：采用任意方法对数据进行分析。
训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数。
测试算法：一旦训练步骤完成，分类将会很快。
使用算法：
首先，我们需要输入一些数据，并将其转换成对应的结构化数值；
接着，基于训练好的回归系数就可以对这些数值进行简单的回归计算，判定它们属于哪个类别；
在这之后，我们就可以在输出的类别上做一些其他分析工作。

二、数学原理

1.Sigmoid 函数

我们想要的函数应该是，能接受所有的输入然后预测出类别。
例如，在两个类的情况下，上述函数输出0或1。

Sigmoid函数可以近似实现在跳跃点上从0瞬间跳跃到1，其具体的计算公式如下：
$\sigma (z)=\frac{1}{1+e^{-z}}$
下面给出Sigmoid函数在不同坐标尺度下的两条曲线图：

可以看出，当x为0时，Sigmoid函数值为0.5；随着x的增大，对应的Sigmoid值将逼近于1；而随着x的减小，Sigmoid值将逼近于0。
如果横坐标刻度足够大，Sigmoid函数看起来很像一个阶跃函数。

2.基于最优化方法确定最佳回归系数

Sigmoid函数的输入记为z，由下面公式得出：
$z = w_{0}x_{0}+w_{1}x_{1}+ w_{2}x_{2}+ •••+ w_{n}x_{n}$

如果采用向量的写法，上述公式可以写成 $z = w^{T}x$ ，它表示将这两个数值向量对应元素相乘然后全部加起来即得到z值。

下面介绍梯度上升的最优化方法求得数据集的最佳参数的方法。

3.梯度上升法

梯度上升法基于的思想是：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。
如果梯度记为∇，则函数f(x,y)的梯度由下式表示：
$\bigtriangledown f(x,y)=\begin{pmatrix} \frac{\partial f(x,y)}{\partial x}\\ \\ \frac{\partial f(x,y)}{\partial y} \end{pmatrix}$

当然，函数 $f (x, y)$ 必须要在待计算的点上有定义并且可微。

到移动量的大小。该量值称为步长，记做α。
用向量来表示的话，梯度上升算法的迭代公式如下：
$w:=w+\alpha \triangledown f(w)$

该公式将一直被迭代执行，直至达到某个停止条件为止，比如迭代次数达到某个指定值或算法达到某个可以允许的误差范围。

三、代码实现（python3）

1.训练算法：使用梯度上升找到最佳参数

import numpy as np

def loadDataSet():
    """
    加载数据集
    - - - -
    """
    #数据列表
    dataMat = []
    #标签列表
    labelMat = [] 
    #从文件中读取数据
    fr = open('4-Logistic/testSet.txt') 
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2])) 
    fr.close() 
    return dataMat, labelMat

def sigmoid(inX):
    """
    sigmoid函数
    - - - -
    inX - 数据向量
    """
    return 1.0 / (1 + np.exp(-inX))

def gradAscent(dataMatIn, classLabels):
    """
    梯度上升算法
    - - - -
    dataMatIn - 数据集

    classLabels - 数据标签
    """
    #转换成numpy的矩阵形式
    dataMatrix = np.mat(dataMatIn) 
    #转换成numpy的矩阵形式，并转置
    labelMat = np.mat(classLabels).transpose()
    #返回dataMatrix的大小
    m, n = np.shape(dataMatrix) 
    #步长
    alpha = 0.001
    #最大迭代次数
    maxCycles = 500
    #矩阵相乘
    weights = np.ones((n,1))
    for k in range(maxCycles):
        h = sigmoid(dataMatrix * weights)
        #计算真实类别与预测类别的差值(公式推导见https://blog.csdn.net/c406495762/article/details/77723333)
        error = labelMat - h
        weights = weights + alpha * dataMatrix.transpose() * error
    #将矩阵转换为数组返回
    return weights.getA() 
    
if __name__ == '__main__':
    dataMat, labelMat = loadDataSet()           
    print(gradAscent(dataMat, labelMat))

结果：

[[ 4.12414349]
 [ 0.48007329]
 [-0.6168482 ]]

2.分析数据：画出决策边界

上面已经解出了一组回归系数，它确定了不同类别数据之间的分隔线。
下面画出该分隔线，从而使得优化的过程便于理解。

import matplotlib.pyplot as plt

def plotBestFit(wei):
    """
    画出数据集和Logistic回归最佳拟合直线的函数
    - - - -
    wei - 权重参数数组
    """
    dataMat, labelMat = loadDataSet() 
    dataArr = np.array(dataMat)
    n = np.shape(dataMat)[0]
    #正、负样本
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    #根据数据集标签进行分类
    for i in range(n):
        #1为正样本
        if int(labelMat[i]) == 1:
            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
        #0为负样本
        else:
            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
    fig = plt.figure()
    ax = fig.add_subplot(111) 
    #绘制正、负样本
    ax.scatter(xcord1, ycord1, s = 20, c = 'red', marker = 's',alpha=.5)
    ax.scatter(xcord2, ycord2, s = 20, c = 'green',alpha=.5)            
    x = np.arange(-3.0, 3.0, 0.1)
    y = (-wei[0] - wei[1] * x) / wei[2]
    ax.plot(x, y)
    plt.title('BestFit') 
    plt.xlabel('X1'); plt.ylabel('X2')
    plt.show()

if __name__ == '__main__':
    dataMat, labelMat = loadDataSet()           
    weights = gradAscent(dataMat, labelMat)
    plotBestFit(weights)

结果：

这个分类结果相当不错，从图上看只错分了两到四个点。
但是，尽管例子简单且数据集很小，这个方法却需要大量的计算（300次乘法）。
因此我们将对该算法稍作改进，从而使它可以用在真实数据集上。

3.训练算法：随机梯度上升

梯度上升算法在每次更新回归系数时都需要遍历整个数据集，该方法在处理100个左右的数据集时尚可，但如果有数十亿样本和成千上万的特征，那么该方法的计算复杂度就太高了。

一种改进方法是一次仅用一个样本点来更新回归系数，该方法称为随机梯度上升算法。

由于可以在新样本到来时对分类器进行增量式更新，因而随机梯度上升算法是一个在线学习算法。
与“在线学习”相对应，一次处理所有数据被称作是**“批处理”**。

def stocGradAscentO(dataMatrix, classLabels): 
    """
    随机梯度上升算法
    - - - -
    dataMatIn - 数据集

    classLabels - 数据标签
    """
    dataMatrix=np.array(dataMatrix)
    m,n = np.shape(dataMatrix)
    #参数初始化
    alpha = 0.01
    weights = np.ones(n)
    for i in range(m):
        h = sigmoid(sum(dataMatrix[i]*weights))
        error = classLabels[i] - h
        weights = weights + alpha * error * dataMatrix[i]
    return weights

if __name__ == '__main__':
    dataMat, labelMat = loadDataSet()           
    weights = stocGradAscentO(dataMat, labelMat)
    plotBestFit(weights)

可以看到，随机梯度上升算法与梯度上升算法在代码上很相似，但也有一些区别：
第一，后者的变量h和误差error都是向量，而前者则全是数值；
第二，前者没有矩阵的转换过程，所有变量的数据类型都是NumPy数组。

结果：

可以看到，拟合出来的直线效果还不错，但并不像梯度上升算法那样完美。这里的分类器错分了三分之一的样本。

所以我们增加了两处代码来进行改进随机梯度上升算法。

import random

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
    """
    随机梯度上升算法
    - - - -
    dataMatIn - 数据集

    classLabels - 数据标签
    """
    dataMatrix=np.array(dataMatrix)
    m,n = np.shape(dataMatrix) 
    #参数初始化
    weights = np.ones(n)
    for j in range(numIter):                                           
        dataIndex = list(range(m))
        for i in range(m):           
            #降低alpha的大小，每次减小1/(j+i)
            alpha = 4/(1.0+j+i)+0.01 
            #随机选取样本,计算h
            randIndex = int(random.uniform(0,len(dataIndex)))
            h = sigmoid(sum(dataMatrix[randIndex]*weights))
            #计算误差
            error = classLabels[randIndex] - h 
            #更新回归系数
            weights = weights + alpha * error * dataMatrix[randIndex]
            #删除已经使用的样本
            del(dataIndex[randIndex])
    return weights  

if __name__ == '__main__':
    dataMat, labelMat = loadDataSet()           
    weights = stocGradAscent1(dataMat, labelMat)
    plotBestFit(weights)

第一处改进:
alpha在每次迭代的时候都会调整，这会缓解数据波动或者高频波动。
另外，虽然alpha会随着迭代次数不断减小，但永远不会减小到0，这是因为还存在一个常数项。必须这样做的原因是为了保证在多次迭代之后新数据仍然具有一定的影响。
如果要处理的问题是动态变化的，那么可以适当加大上述常数项，来确保新的值获得更大的回归系数。
另一点值得注意的是，在降低alpha的函数中，alpha每次减少1/(j+i) ，其中j是迭代次数，i是样本点的下标。这样当j<不是严格下降的。
避免参数的严格下降也常见于模拟退火算法等其他优化算法中。
第二个改进:
通过随机选取样本来更新回归系数。这种方法将减少周期性的波动。
具体实现方法与决策树中类似，这种方法每次随机从列表中选出一个值，然后从列表中删掉该值（再进行下一次迭代）。
此外，改进算法还增加了一个迭代次数作为第3个参数。如果该参数没有给定的话，算法将默认迭代150次。如果给定，那么算法将按照新的参数值进行迭代。

四、实战：从疝气病症预测病马的死亡率

本节将使用Logistic回归来预测患有疝病的马的存活问题。
这里的数据集中包含368个样本和28个特征。该数据集中包含了医院检测马疝病的一些指标，有的指标比较主观，有的指标难以测量，例如马的疼痛级别。
另外需要说明的是，除了部分指标主观和难以测量外，该数据还存在一个问题，数据集中有30%的值是缺失的。下面将首先介绍如何处理数据集中的数据缺失问题，然后再利用Logistic回归和随机梯度上升算法来预测病马的生死。

1. 准备数据：处理数据中的缺失值

下面给出了一些处理数据中的缺失值可选的做法：

使用可用特征的均值来填补缺失值；
使用特殊值来填补缺失值，如-1；
忽略有缺失值的样本；
使用相似样本的均值添补缺失值；
使用另外的机器学习算法预测缺失值。

现在，我们对下一节要用的数据集进行预处理，使其可以顺利地使用分类算法。在预处理阶段需要做两件事：

第一，所有的缺失值必须用一个实数值来替换，因为我们使用的NumPy数据类型不允许包含缺失值。这里选择实数0来替换所有缺失值，这样在更新时不会影响系数的值。恰好能适用于Logistic回归。

第二，如果在测试数据集中发现了一条**数据的类别标签已经缺失，那么我们的简单做法是将该条数据丢弃。**这是因为类别标签与特征不同，很难确定采用某个合适的值来替换。

2.测试算法：用 Logistic 回归进行分类

使用Logistic回归方法进行分类并不需要做很多工作，所需做的只是把测试集上每个特征向量乘以最优化方法得来的回归系数，再将该乘积结果求和，最后输入到Sigmoid函数中即可。
如果对应的Sigmoid值大于0.5就预测类别标签为1，否则为0。

def classifyVector(inX, weights):
    """
    分类函数
    - - - -
    inX - 特征向量

    weights - 回归系数
    """
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: 
        return 1.0
    else: 
        return 0.0

def colicTest():
    """
    Logistic回归分类预测病马的死亡率
    - - - -
    """
    #打开训练集并读取
    frTrain = open('4-Logistic/horseColicTraining.txt') 
    trainingSet = []; trainingLabels = []
    for line in frTrain.readlines():
        currLine = line.strip().split('\t')
        lineArr = []
        for i in range(len(currLine)-1):
            lineArr.append(float(currLine[i]))
        trainingSet.append(lineArr)
        trainingLabels.append(float(currLine[-1]))
    #使用改进的随机上升梯度算法训练分类器
    trainWeights = stocGradAscent1(np.array(trainingSet), trainingLabels, 500)

    #测试分类器错误率
    errorCount = 0; numTestVec = 0.0
    #打开测试集并读取
    frTest = open('4-Logistic/horseColicTest.txt')
    for line in frTest.readlines():
        numTestVec += 1.0
        currLine = line.strip().split('\t')
        lineArr =[]
        for i in range(len(currLine)-1):
            lineArr.append(float(currLine[i]))
        if int(classifyVector(np.array(lineArr), trainWeights))!= int(currLine[-1]):
            errorCount += 1
    errorRate = (float(errorCount)/numTestVec)                                #错误率计算
    print("the error rate of this test is: %f" % errorRate)
    return errorRate

def multiTest(numTests):
    """
    计算平均错误率
    - - - -
    numTests - 分类次数
    """
    errorSum=0.0 
    for k in range(numTests):
        errorSum += colicTest()
    print ("after %d iterations the average error rate is:%f" % (numTests, errorSum/float(numTests)))

if __name__ == '__main__':
    #1.代码实现
    """ dataMat, labelMat = loadDataSet()           
    weights = stocGradAscent1(dataMat, labelMat)
    plotBestFit(weights) """
    #2.实战：从疝气病症预测病马的死亡率
    multiTest(10)

注意：
分类时，同前面一样，数据的最后一列仍然是类别标签。数据最初有三个类别标签，分别代表马的三种情况：“仍存活”、“已经死亡”和“已经安乐死”。这里为了方便，将“已经死亡”和“已经安乐死”合并成“未能存活”这个标签。

结果：

the error rate of this test is: 0.313433
the error rate of this test is: 0.462687
the error rate of this test is: 0.402985
the error rate of this test is: 0.328358
the error rate of this test is: 0.373134
the error rate of this test is: 0.373134
the error rate of this test is: 0.358209
the error rate of this test is: 0.388060
the error rate of this test is: 0.358209
the error rate of this test is: 0.388060
after 10 iterations the average error rate is:0.374627

从上面的结果可以看到，10次迭代之后的平均错误率为37%。事实上，这个结果并不差，因为有30%的数据缺失。
当然，如果调整colicTest()中的迭代次数和stochGradAscent1()中的步长，平均错误率可以降到20%左右。

五、小结

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程可以由最优化算法来完成。
在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法。
随机梯度上升算法与梯度上升算法的效果相当，但占用更少的计算资源。
此外，随机梯度上升是一个在线算法，它可以在新数据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算。
机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准答案，取决于实际应用中的需求。现有一些解决方案，每种方案都各有优缺点。

豆瓣电影信息爬虫【2024年6月】教程，赋完整代码桃宝护卫队爬虫 python
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：完整代码放到最后；完整代码放到最后；完整代码放到最后；重要的事情说三遍。1.技术栈介绍在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：Python:一种广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到开发者的喜爱。Request
Floyd最短路算法自由的dream 算法详解算法
Floyd算法是什么？Floyd算法（弗洛伊德算法）是一种求最短路的方法，别急着叫难，实际上这一个算法非常简单，虽然它用的是DP思想。好了，现在开始介绍它的原理。Floyd的原理啊说到Floyd算法，那么得讲讲最短路，最短路，是指从一个图中一个点到别的点的最短路径，有人就会问：“哎，这个图有距离吗？”问这种问题的人就是不懂图的人，一条边的权值，就是这一条边的长度，根据出发点划分，最短路可以分成单源
还教育一片蓝天，支持教育做减法生活健康倡导者
随着社会的发展，教育改革已经成为一个全球性的议题。在中国，教育改革也一直是政府和社会关注的焦点。在这个背景下，提倡"减法"教育，即减少教育的功利性，回归教育的本质，成为了许多学者和教育专家呼吁的重点。首先，我们需要理解什么是"减法"教育。简单来说，"减法"教育就是让教育回归其本质，即教育人如何做人，如何成为一个有道德、有知识、有能力的人。它反对过度强调考试成绩、升学率等功利性指标，而是更注重学生的
爬虫技术Requests实现模拟登录 incidite 爬虫
一、模拟登录的目的访问受限内容：获取需要登录才能查看的页面数据个性化数据采集：获取用户账户相关的定制化信息自动化操作：实现自动签到、自动任务等流程数据完整性：采集完整的用户视角数据（如社交网络信息）状态保持：维持会话状态以进行连续操作测试验证：用于网站功能测试和验证二、对Requests模拟登录的认识技术本质：通过PythonRequests库模拟浏览器登录行为实现原理：处理登录表单提交维护会话c
人工神经网络的拓扑结构,神经网络的神经元结构快乐的小蓝猫神经网络深度学习人工智能 rnn
bp神经网络BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经
动态规划入门（LIS模板）
动态规划是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法能用动态规划解决的问题，需要满足三个条件：最优子结构，无后效性和子问题重叠目录最长上升子序列（LIS）基本思路最长上升子序列贪心优化（二分优化）合唱队形参加算法竞赛！最长上升子序列（LIS）基本思路在做这种类型的题目时我们需要注意明确题目要求的状态一般来说题目问什么，我们的dp[]数组就可以用来表示什么状态之间的转移变换当下状
3.17 补题（字符串，模拟） ZZZS0516 算法 c++
目录E-书法（字符串操作，移动指针）题目描述思路分析代码实现G-女神节的魔法花园（思维）题目描述思路分析代码实现H-KNN算法(模拟，排序)题目描述思路分析代码实现E-书法（字符串操作，移动指针）链接：书法来源：2025常熟理工学院天梯选拔赛题目描述在计算机上打字就是赛博书法，键盘如同笔，输入框就像纸，在键盘上输入一个个指令，就可以在输入框中写下自己想写的文字。现在你需要体验一次计算机的生活，目前
〖新动力智慧父母〗每日一省43 敢敢想敢做
今天一家人都病倒了，两个孩子还算是比较坚强的，老二中午还帮忙把碗洗了。老大估计是太难受了，躺了一天。希望早日驱散病毒回归正常的生活。
Deepoc大模型重构核工业智能基座：混合增强架构与安全增强决策技术 Deepoch 人工智能创业创新科技自动化学习
面向复杂系统的高可靠AI赋能体系构建Deepoc大模型通过多维度技术突破，显著提升核工业知识处理与决策可靠性。经核能行业验证，其生成内容可验证性提升68%，关键参数失真率99.999%）。动态可信度评估系统：基于贝叶斯神经网络实时量化模型不确定性，为关键决策提供置信度评分（如堆芯功率控制置信区间±0.05%）。二、核心突破：物理增强型智能算法创新机理与数据双驱动建模神经微分方程求解器：将中子输运方
从 C# 到 Python：项目实战第五天的飞跃 AI、少年郎数据库 c#开发语言
在前面三天的学习中，我们已经掌握了Python的基础语法、数据结构以及一些核心库的使用。今天，我们将通过三个实战项目，深入对比C#和Python在命令行工具开发、Web应用开发以及数据处理方面的差异，感受Python在实际项目中的强大魅力。一、命令行工具开发：文件批量处理命令行工具是开发者日常工作中经常用到的工具，无论是文件处理、数据转换还是系统管理，都离不开命令行工具的身影。下面我们就来对比一下
章节十四：乱序中的“指挥家”：堆排序奥义 - (堆排序 / Heap Sort) 杨小扩常用算法详解算法
各位老铁，阿扩又来啦！前面我们聊了各种数据结构和算法，从基础的排序查找，到复杂的图算法、动态规划，再到巧妙的Trie树和布隆过滤器。今天，我们要再次回到排序算法的舞台，但这次的主角，可不是简单的“冒泡”或“选择”，而是一位在乱序中能高效组织、精准定位的“指挥家”——堆排序(HeapSort)！你可能听说过快速排序、归并排序，它们都是O(NlogN)级别的排序算法。堆排序也同样拥有这个优秀的性能，而
万界星空科技锂电池MES解决方案
万界星空科技的锂电池MES（制造执行系统）解决方案专注于提升锂电池生产过程的智能化、自动化和精细化管理水平，针对行业的高复杂性和严格的质量追溯需求，提供了一套全面的功能模块和定制化服务。以下是其核心内容及优势：一、核心功能模块1.生产调度与计划管理•根据订单需求、产能状况和物料供应，自动生成动态生产计划，支持基于优先级或资源的排程算法，实时调整以应对变化，确保高效执行。•集成APS（高级计划排程系
python docker 阿狸的家 SDN docker
我们的开发人员和布署人员经常因环境问题，而使得安装过程困难重重，相比于虚拟机较少硬件资源的虚拟化，同时不需要加载虚拟机操作系统的耗时，因为docker共享宿主机的操作系统Centos和Ubunta共用内核kernel即bootfs相同，但是加载内核的rootfs不同，即文件的结构目录不同docker三要素docker可以看作为一个小型的linux系统，部署时秒级启动镜像：模板（应用程序代码），一个
。。。。看毛片算法_(:з」∠)_ /FZU - 2275 StrongerIrene #日常刷题
参考1:链接“这个是我当时学的时候学长推荐我看的”（然而太长了。。。。。我看不懂……最后好难受_(:з」∠)_饭也不要吃的）然后看了精简版的...然后就明白了_(:з」∠)_【有关解释】（part）（1）模式串向右移动的位数为：失配字符所在位置-失配字符对应的next值next数组各值的含义：代表当前字符之前的字符串中，有多大长度的相同前缀后缀。此也意味着在某个字符失配时，该字符对应的next值会
和闺蜜一起穿进仙界救赎文(林黎昭昭)全本免费小说_完结版免费小说和闺蜜一起穿进仙界救赎文(林黎昭昭) 云朵美文
《和闺蜜一起穿进仙界救赎文》主角：林黎昭昭简介：和闺蜜穿越到仙侠文的第一千年。系统终于大发慈悲的告诉了我们，回归现实世界的方法。闺蜜站在诛仙台上，对着我笑道：“黎黎，我要回家了。”说完，她就当着他战神夫君的面一跃而下。前一秒还在指责她演戏，上不得台面的战神，顿时白了脸。而我则看向不远处，那正小心翼翼蒙着他白月光的眼睛，生怕惊吓到她的天族太子，淡然一笑。“夫君，我也要和昭昭一起走了。”我跟着闺蜜一同
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
rpg_trajectory_evaluation工具评估SLAM/VIO系统
rpg_trajectory_evaluation工具评估SLAM/VIO系统1、安装系统环境：ubuntu18.04+ROSmelodic代码：https://github.com/uzh-rpg/rpg_trajectory_evaluationtutorial:http://rpg.ifi.uzh.ch/docs/IROS18_Zhang.pdf1.1首先安装依赖的python库pipins
做人脸识别遇到的问题 princesshu python pycharm
最开始安装的时候直接用pipinstalldlib却一直显示错误提示“Failedbuildingwheelfordlib”之后去网上搜来了各种下载链接依然错误我发现问题是！！python版本问题，我下载所有的包都与我的python版本不匹配于是我先安装了cmakeboost之后最后直接在终端安好了dlib～
【Hugging Face全面拥抱LangChain：全新官方合作包】
文末有福利！❝最近HuggingFace官宣发布langchain_huggingface，这是一个由HuggingFace和LangChain共同维护的LangChain合作伙伴包。这个新的Python包旨在将HuggingFace最新功能引入LangChain并保持同步。通过HuggingFace官方包的加持，开发小伙伴们通过简单的api调用就能在langchain中轻松使用HuggingFa
【技术工具】python人员照片简介批量对照（千人级） Allen_Lyb 医疗高效编程研发 python 开发语言自然语言处理健康医疗语言模型
要实现根据照片上的工号批量添加人员姓名和工号到照片上，可以按照以下步骤操作（使用Python+PIL/Pillow+OpenCV+pytesseract）：解决方案步骤准备数据创建人员信息表（CSV格式）：姓名,工号确保所有照片文件名包含工号（如工号.jpg），或照片中有清晰可见的工号文本安装依赖库pipinstallpillowopencv-pythonpandaspytesseract#额外安
Linux机器上Selenium+Python3+Chrome使用driver.get()只能获取到标签而没有内容的解决方法
代码：#!/usr/bin/python3#coding=utf8fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=Options()chrome_options.add_argument('--headless')chrome_options.add_argume
解决 python 中的 huggingface_hub code_welike python 前端数据库
解决python中的huggingface_hub.utils._validators.HFValidationErrorRepoidmustbeintheformrepo_nameorname问题在使用python的huggingface_hub库时，有时候会遇到类似于“huggingface_hub.utils._validators.HFValidationErrorRepoidmustbe
迈向大型推理模型：基于大型语言模型的强化推理综述（附教程） LLM大模型人工智能自然语言处理知识库本地化部署吴恩达大模型 RAG
语言长期以来被认为是人类推理的基本工具。大型语言模型（LLM）的突破激发了大量研究兴趣，推动了利用这些模型解决复杂推理任务的探索。研究人员通过引入“思维”这一概念——即一系列代表推理过程中的中间步骤的标记——超越了简单的自回归标记生成。这一创新范式使LLMs能够模仿复杂的人类推理过程，如树搜索和反思性思维。近年来，学习推理的趋势逐渐兴起，强化学习（RL）被应用于训练LLMs掌握推理过程。这种方法通
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
和闺蜜一起穿进仙界救赎文小说(琉璃叶昭）小说全文免费阅读无弹窗大结局_（和闺蜜一起穿进仙界救赎文小说）琉璃叶昭小说全文免费阅读最新章节列表_笔趣阁（和闺蜜一起穿进仙界救赎文小说）细雨文库
和闺蜜一起穿进仙界救赎文小说(琉璃叶昭）小说全文免费阅读无弹窗大结局_（和闺蜜一起穿进仙界救赎文小说）琉璃叶昭小说全文免费阅读最新章节列表_笔趣阁（和闺蜜一起穿进仙界救赎文小说）主角配角：琉璃叶昭小说别名：和闺蜜穿越到仙侠文的第一千年。系统终于大发慈悲的告诉了我们，回归现实世界的方法。闺蜜不可置信的看着自己曾经的爱人。绝望的流出了血泪。“哈哈，入了魔的畜生。”“你竟然说小灰是入了魔的畜生，凌霄，你
深入解析与实战应用：利用Python和Amazon Product Advertising API实战分析不进则退i python 开发语言
在电商平台的运营中，关键词搜索接口是不可或缺的一部分，特别是在亚马逊这样的全球电商平台。通过关键词搜索接口，商家可以高效地获取商品信息，优化选品策略，提升销售业绩。本文将详细介绍如何接入亚马逊的关键字搜索接口，并提供一个Python代码示例。点击获取key和secret1.注册开发者账号并获取API权限首先，你需要访问亚马逊开发者中心，注册一个开发者账号，并获取相应的API权限。在注册过程中，你将
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
客流分析核心算法 trajectory_event_analyzer数据结构风吹落叶花飘荡 python 后端算法数据结构网络
客流分析核心算法trajectory_event_analyzerV4.py数据结构文章目录客流分析核心算法trajectory_event_analyzerV4.py数据结构一、算法描述1、描述2、客流分析模块trajectory_event_analyzerV4.py解析1.分层统计：2.状态一致性检查：3.区域状态统计：4、客流状态统计5.ReID集成：6.数据清理机制：二、核心模块解释1、
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http