Sarapines Programmer

Python | 机器学习之逻辑回归

个人主页：Sarapines Programmer
系列专栏：《人工智能奇遇记》
少年有梦不应止于心动，更要付诸行动。

目录结构

1. 机器学习之逻辑回归概念

1.1 机器学习

1.2 逻辑回归

2. 逻辑回归

2.1 实验目的

2.2 实验准备

2.3 实验题目

2.4 实验内容

2.5 实验心得

致读者

1. 机器学习之逻辑回归概念

1.1 机器学习

传统编程要求开发者明晰规定计算机执行任务的逻辑和条条框框的规则。然而，在机器学习的魔法领域，我们向计算机系统灌输了海量数据，让它在数据的奔流中领悟模式与法则，自主演绎未来，不再需要手把手的指点迷津。

机器学习，犹如三千世界的奇幻之旅，分为监督学习、无监督学习和强化学习等多种类型，各具神奇魅力。监督学习如大师传道授业，算法接收标签的训练数据，探索输入与输出的神秘奥秘，以精准预测未知之境。无监督学习则是数据丛林的探险者，勇闯没有标签的领域，寻找隐藏在数据深处的秘密花园。强化学习则是一场与环境的心灵对话，智能体通过交互掌握决策之术，追求最大化的累积奖赏。

机器学习，如涓涓细流，渗透各行各业。在图像和语音识别、自然语言处理、医疗诊断、金融预测等领域，它在智慧的浪潮中焕发生机，将未来的可能性绘制得更加丰富多彩。

1.2 逻辑回归

逻辑回归是一种用于解决二分类问题的统计学习方法。尽管其名字中包含"回归"一词，但实际上，逻辑回归是一种分类算法，用于预测一个样本属于两个类别中的哪一个。

逻辑回归的核心思想是通过一个称为"逻辑函数"或"sigmoid函数"的特殊函数，将线性组合的输入特征映射到0和1之间的概率值。该函数的输出可以被解释为属于正类别的概率。在二分类问题中，逻辑回归通过设置一个阈值（通常为0.5），将概率大于阈值的样本预测为正类别，而概率小于阈值的样本预测为负类别。

逻辑回归模型的训练过程涉及到找到最适合拟合训练数据的参数，通常使用最大似然估计等方法来实现。由于其简单、高效且易于解释的特点，逻辑回归在实际应用中广泛用于医学、社会科学、经济学等领域的二分类问题。

机器学习源文件https://download.csdn.net/download/m0_57532432/88521177?spm=1001.2014.3001.5503

2. 逻辑回归

2.1 实验目的

（1）加深对有监督学习的理解和认识；

（2）了解逻辑回归的损失函数；

（3）掌握逻辑回归的优化方法；

（4）了解sigmoid函数；

（5）了解逻辑回归的应用场景；

（6）应用LogisticRegression实现逻辑回归预测；

（7）理解精确率、召回率指标的区别。

2.2 实验准备

（1）安装机器学习必要库，如NumPy、Pandas、Scikit-learn等；

（2）配置环境用来运行 Python、Jupyter Notebook和相关库等内容。

2.3 实验题目

假设你是某大学招生主管，你想根据两次考试的结果决定每个申请者的录取机会。现有以往申请者的历史数据，可以此作为训练集建立逻辑回归模型，并用其预测某学生能否被大学录取。请按要求完成实验。建议使用 python 编程实现。

数据集：

文件 ex2data1.txt 为该实验的数据集，第一列、第二列分别表示申请者两次考试的成绩，第三列表示录取结果（1 表示录取，0 表示不录取）。2.4 实验内容

总体步骤：

1．请导入数据并进行数据可视化，观察数据分布特征。（建议用 python 的matplotlib）

2．将逻辑回归参数初始化为 0，然后计算代价函数（cost function）并求出初始值。

3．选择一种优化方法求解逻辑回归参数。

4．某学生两次考试成绩分别为 42、85，预测其被录取的概率。

5．画出分类边界。

具体内容：

1．导入数据并进行数据可视化，观察数据分布特征。（建议用 python 的matplotlib）

图3-1

运行结果：

图3-2

代码：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import ticker

def plot_data():
    # 首先需要读取数据
raw_data = pd.read_csv("data/data.csv")  

    # 从名为 "data.csv" 的文件中读取原始数据
raw_data.columns = ['first', 'second', 'admited']  

    # 为数据的列添加标签，分别为 'first', 'second', 'admited'
    # 接下来将数据中的 0 和 1 分开存储
admit_array_x = []  

    # 存储通过测试的数据的第一次考试成绩
admit_array_y = []  

    # 存储通过测试的数据的第二次考试成绩
not_admit_array_x = []  

    # 存储未通过测试的数据的第一次考试成绩
not_admit_array_y = []  

    # 存储未通过测试的数据的第二次考试成绩
    for i in range(raw_data.shape[0]):
        if raw_data.iloc[i][2] == 1:
            admit_array_x.append(raw_data.iloc[i][0])
            admit_array_y.append(raw_data.iloc[i][1])
        else:
            not_admit_array_x.append(raw_data.iloc[i][0])
            not_admit_array_y.append(raw_data.iloc[i][1])

    # 设置标题和横纵坐标的标注
    plt.xlabel("Exam 1 score")  
# 设置 x 轴标签为 "Exam 1 score"

    plt.ylabel("Exam 2 score")  
    # 设置 y 轴标签为 "Exam 2 score"

    # 设置通过测试和不通过测试数据的样式。
    # marker: 记号形状, color: 颜色, s: 点的大小, label: 标注
    plt.scatter(not_admit_array_x, not_admit_array_y, marker='o', color='red', s=15, label='Not admitted')
    plt.scatter(admit_array_x, admit_array_y, marker='x', color='green', s=15, label='Admitted')

    # 标注的显示位置：右上角
    plt.legend(loc='upper right')

    # 设置坐标轴上刻度的精度为一位小数。
# 因为训练数据中的分数的小数点太多，
# 若不限制坐标轴上刻度显示的精度，会影响最终散点图的美观度
    plt.gca().xaxis.set_major_formatter(ticker.FormatStrFormatter('%.1f'))
    plt.gca().yaxis.set_major_formatter(ticker.FormatStrFormatter('%.1f'))
   
 # 显示图像
plt.show()

plot_data() #绘制图像

源码分析：

函数plot_data()被定义用于绘制散点图。它的主要功能是读取原始数据，并根据通过测试和未通过测试的两类数据的考试成绩创建相应的数组。数据读取是通过调用pd.read_csv()方法来实现的，从名为"data.csv"的文件中读取数据，并为数据的列添加了相应的标签，即'first'、'second'和'admited'。假设数据集的结构为三列。

在创建了用于存储通过测试和未通过测试数据的考试成绩的空数组后，使用循环遍历数据集的每一行。通过检查"admited"列的值，将考试成绩数据分别存储到对应的数组中。当"admited"列的值为1时，表示该数据是通过测试的，将该行的第一次考试成绩添加到admit_array_x数组中，将第二次考试成绩添加到admit_array_y数组中。当"admited"列的值不为1时，表示该数据未通过测试，将相应的考试成绩分别添加到not_admit_array_x和not_admit_array_y数组中。

在数据准备完毕后，对图形进行设置。首先设置图的标题和横纵坐标的标注。将x轴标签设置为"Exam 1 score"，表示第一次考试成绩，将y轴标签设置为"Exam 2 score"，表示第二次考试成绩。

接下来使用plt.scatter()函数绘制散点图。通过设置不同的参数来指定通过测试和未通过测试数据的样式。未通过测试数据使用圆形作为标记（marker='o'），通过测试数据使用叉号作为标记（marker='x'）。未通过测试数据的颜色设置为红色（color='red'），通过测试数据的颜色设置为绿色（color='green'）。点的大小设置为15（s=15）。同时，通过设置标注的参数（label='Not admitted'和label='Admitted'），为未通过测试和通过测试的数据添加相应的标注。

使用plt.legend()函数将标注显示在右上角。

为了提高坐标轴刻度的可读性和美观度，使用plt.gca().xaxis.set_major_formatter()和plt.gca().yaxis.set_major_formatter()函数设置坐标轴上刻度的精度为一位小数。这里使用ticker.FormatStrFormatter('%.1f')指定显示格式为保留一位小数。

最后调用plt.show()函数显示图像，将图像呈现在屏幕上。

在定义完函数之后，调用plot_data()函数即可执行绘制图像的操作，根据数据绘制出相应的散点图。

2．将逻辑回归参数初始化为 0，然后计算代价函数（cost function）并求出初始值。

图3-3

代码：

def init_data():
    # 将数据初始化
    data = pd.read_csv("data/data.csv")  
    # 从名为 "data.csv" 的文件中读取数据
    data.columns = ['first', 'second', 'admited']  
    # 为数据的列添加标签，分别为 'first', 'second', 'admited'
    # 尝试对数据进行标准化
    column_list = list(data.columns)  
    # 获取数据集中的列名列表
    min_value = []  
    # 存储每一列的最小值
    max_value = []  
    # 存储每一列的最大值
    for j in range(data.shape[1] - 1):
        min_value.append(data[column_list[j]].min())  
        # 计算每一列的最小值并存储
        max_value.append(data[column_list[j]].max())  
        # 计算每一列的最大值并存储
        for i in range(data.shape[0]):
            # 对每一个数据点进行标准化，将其转换为0到1之间的值
            data.loc[i, column_list[j]] = (data.loc[i, column_list[j]] - min_value[j]) / (max_value[j] - min_value[j])
    data_x = data.iloc[:, 0:2]  
    # 特征值，取第一列和第二列作为特征
    data_y = data.iloc[:, -1]  
    # 标签，取最后一列作为标签
    return data_x.values, data_y.values, min_value, max_value

3．选择一种优化方法求解逻辑回归参数。

图3-4

图3-5

运行结果：

图3-6

代码：

# 与逻辑回归有关的函数

# 定义 sigmoid 函数，用于将输入值映射到0到1之间
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 定义代价函数，用于计算逻辑回归模型的代价
def cost_function(X, y, theta):
    m = len(y)  # 样本数量
    h = sigmoid(np.dot(X, theta))  # 计算假设函数的预测值
    J = -(1/m) * np.sum(y * np.log(h) + (1-y) * np.log(1-h))  # 代价函数表达式
    return J

# 定义梯度下降函数，用于更新模型参数
def gradient_descent(X, y, theta, alpha, num_iterations):
    m = len(y)  # 样本数量
    J_history = []  # 存储每次迭代的代价值

    for i in range(num_iterations):
        h = sigmoid(np.dot(X, theta))  # 计算假设函数的预测值
        gradient = np.dot(X.T, (h - y)) / m  # 计算梯度
        theta = theta - alpha * gradient  # 更新模型参数
        cost = cost_function(X, y, theta)  # 计算当前模型参数下的代价
        J_history.append(cost)  # 将代价添加到代价历史列表中
return theta, J_history

# 逻辑回归主函数
# 从 CSV 文件读取数据
data = pd.read_csv('data/data.csv')
data.columns = ['first','second','admited']

# 提取特征和标签
data_x, data_y, min_value, max_value = init_data()

# 初始化参数
theta = np.zeros(2)  # 将权重初始设置为0
alpha = 0.01  # 学习率
num_iterations = 1000  # 迭代次数

# 训练逻辑回归模型
theta, J_history = gradient_descent(data_x, data_y, theta, alpha, num_iterations)

# 绘制代价函数的变化曲线
plt.plot(J_history)  # 绘制迭代次数与代价值之间的关系曲线
plt.xlabel('iteration')  # 设置x轴标签
plt.ylabel('cost value')  # 设置y轴标签
plt.title('curve of cost values')  # 设置图的标题为"cost values的变化曲线"
# 显示图像
plt.show()

源码分析：

这里定义了逻辑回归相关的函数，包括sigmoid函数、代价函数和梯度下降函数。然后在逻辑回归主函数中读取数据，提取特征和标签，并初始化模型参数。通过调用梯度下降函数进行模型训练，并绘制代价函数的变化曲线，以评估模型的训练效果。这些步骤构成了一个基本的逻辑回归训练过程。

sigmoid函数。sigmoid函数将输入值映射到0到1之间的范围是逻辑回归中的核心函数之一。逻辑回归的目标是将线性加权和的输出转化为概率值，而sigmoid函数正是用于实现这个转化过程。

代价函数cost_function。该函数用于计算逻辑回归模型的代价。它接受输入数据X、标签y和模型参数theta作为参数，并根据逻辑回归的代价函数公式计算代价J。代价函数是衡量模型预测结果与实际标签之间差异的指标，逻辑回归的目标是最小化代价函数，以找到最优的模型参数。

梯度下降函数gradient_descent。该函数用于更新模型参数，以使代价函数逐步降低。它接受输入数据X、标签y、模型参数theta、学习率alpha和迭代次数num_iterations作为参数。在每次迭代中，函数通过计算假设函数的预测值h和计算梯度gradient来更新模型参数theta。梯度下降算法通过沿着梯度的反方向更新参数，使得代价函数逐步减小，从而逐步接近最优解。在每次迭代结束后，函数还计算当前模型参数下的代价cost，并将代价值添加到代价历史列表J_history中。

在逻辑回归主函数中，首先从CSV文件中读取数据，并将数据的列标签设置为'first'、'second'和'admited'。这些列标签指定了数据集中各列的含义。

调用函数init_data()来提取特征和标签。该函数的具体实现在代码中并未给出，但可以假设它用于对原始数据进行处理，提取特征和标签，并进行必要的数据预处理步骤。提取得到的特征存储在data_x中，标签存储在data_y中。

初始化模型参数theta为0，学习率alpha为0.01，迭代次数num_iterations为1000。这些参数将用于训练逻辑回归模型。

调用梯度下降函数gradient_descent进行模型训练。函数传入输入数据data_x、标签data_y、模型参数theta、学习率alpha和迭代次数num_iterations。函数将返回更新后的模型参数theta和代价历史列表J_history。

使用matplotlib库绘制代价函数的变化曲线。函数使用plt.plot()将迭代次数与代价值之间的关系绘制成曲线图。通过设置x轴标签为'iteration'，y轴标签为' cost value'，以及图的标题为'curve of cost values'，可以更直观地观察训练过程中代价函数的变化情况。最后，调用plt.show()函数显示绘制的图像，使得代价函数的变化曲线可见。

这个曲线图对于评估模型的训练效果非常有用。如果代价函数的值在每次迭代后都逐渐减小，说明模型的训练是有效的，参数在朝着最优值的方向更新。

训练模型：

图3-7

运行结果：

图3-8

图3-9

代码：

########## 使用测试集进行测试 #####################
# 读取测试集数据
test_data = pd.read_csv('data/data_test.csv')
test_data.columns = ['first','second','admited']

# 测试集数据标准化
column_list = list(test_data.columns)
for j in range(test_data.shape[1]-1):
    for i in range(test_data.shape[0]):
        test_data.loc[i,column_list[j]] = (test_data.loc[i,column_list[j]]-min_value[j]) / (max_value[j]-min_value[j])
test_data_x = test_data.iloc[:,0:2].values
test_data_y = test_data.iloc[:,-1].values

# 输入 sigmoid 函数进行预测
prediction = sigmoid(np.dot(test_data_x, theta))
print(prediction)

# 输出正确率
num = 0  # 预测正确的个数
for i in range(len(prediction)):
    if prediction[i] > 0.5:
        temp_value = 1
    else:
        temp_value = 0
    if test_data_y[i] == temp_value:
        num = num + 1
print(f"模型的正确率为：{num/len(prediction)}")

################# 绘制决策边界 #################
# 定义决策边界的阈值
threshold = 0.5

# 生成网格点
x_min, x_max = data_x[:, 0].min() - 0.01, data_x[:, 0].max() + 0.01
y_min, y_max = data_x[:, 1].min() - 0.01, data_x[:, 1].max() + 0.01
h = 0.0001  # 网格点的间隔
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# 对网格点进行预测
X_grid = np.c_[xx.ravel(), yy.ravel()]
Z = np.dot(X_grid, theta)
Z = sigmoid(Z)
Z = Z.reshape(xx.shape)

# 绘制决策边界和分类结果
plt.contourf(xx, yy, Z, alpha=0.8)  
# 绘制决策边界
plt.scatter(data_x[:, 0], data_x[:, 1], c=data_y)  
# 绘制样本点
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Decision Boundary')
plt.show()

源码分析：

1.读取测试集数据：

从名为'data_test.csv'的文件中读取测试集数据，并将列名改为'first'、'second'和'admited'。

2.测试集数据标准化：

获取列名列表column_list。

对每一列进行标准化，即将每个元素减去最小值(min_value[j])，然后除以最大值和最小值的差值(max_value[j]-min_value[j])，使得数据在0到1之间。

提取标准化后的特征值(test_data_x)和标签值(test_data_y)。

3.使用sigmoid函数进行预测：

根据预测模型的参数(theta)和测试集特征值(test_data_x)，计算预测概率值(prediction)。这里使用np.dot函数进行矩阵乘法，将特征值和参数进行相乘，并通过sigmoid函数将结果映射到0到1之间的概率值。

4.输出正确率：

初始化变量num为0，用于记录预测正确的个数。

遍历每个预测概率值(prediction)。

如果预测概率值大于0.5，将临时变量temp_value设为1，否则设为0。

如果测试集标签值(test_data_y)等于临时变量temp_value，表示预测正确，将num加1。

计算并输出模型的正确率。

5.绘制决策边界：

定义决策边界的阈值为0.5。

获取数据集中特征1和特征2的最小值和最大值，并略微扩展范围，生成一个网格点矩阵(xx, yy)。

对网格点进行预测，即根据模型参数(theta)和网格点特征值(X_grid)计算预测概率值(Z)。将预测概率值通过sigmoid函数进行映射，并重新调整形状为与网格点相同。

使用contourf函数绘制决策边界的等高线，alpha参数设置透明度。

使用scatter函数绘制数据集中的样本点，c参数根据标签值(data_y)设置样本点的颜色。

添加x轴和y轴标签，设置标题，并展示图像。

6.定义决策边界的阈值：

将决策边界的阈值设为0.5，即当预测概率值大于0.5时，将其判定为正类，否则为负类。

7.生成网格点：

获取数据集中特征1和特征2的最小值和最大值，并稍微扩展范围。

定义一个间隔大小h，用于生成网格点。

利用np.meshgrid函数生成一个网格点矩阵(xx, yy)，其中xx和yy分别是特征1和特征2在网格上的坐标值。

8.对网格点进行预测：

将网格点矩阵(xx, yy)转换为一维数组形式，便于进行预测。

利用np.dot函数计算预测概率值(Z)，即将网格点特征值与模型参数(theta)进行矩阵乘法。

将预测概率值(Z)通过sigmoid函数进行映射，将其转换为0到1之间的概率值。

将预测概率值(Z)重新调整形状，使其与网格点矩阵(xx, yy)的形状相同。

9.绘制决策边界和分类结果：

使用contourf函数绘制决策边界的等高线，将预测概率值(Z)作为填充颜色，alpha参数设置透明度。

使用scatter函数绘制数据集中的样本点，特征1和特征2作为坐标，标签值(data_y)决定样本点的颜色。

添加x轴和y轴标签，设置标题。

显示绘制的图像。

4．某学生两次考试成绩分别为 42、85，预测其被录取的概率。

图3-10

代码：

# 当输入为42和85时，计算通过概率
# 标准化输入值
x1 = (42 - min_value[0]) / (max_value[0] - min_value[0])
x2 = (85 - min_value[1]) / (max_value[1] - min_value[1])
# 将输入值转换为数组
arr = np.array((x1, x2))
# 计算最终通过概率
print(f"通过概率为：{sigmoid(np.dot(arr, theta))}")

5．画出分类边界。

分类边界在第三步已经完成，如图3-9。

2.5 实验心得

本次实验运用逻辑回归算法进行学生考试成绩和录取结果的分类预测，实现了数据可视化、参数初始化、代价函数计算、梯度下降优化、预测和决策边界绘制等关键步骤。

数据可视化阶段通过matplotlib库创建散点图，生动展示通过和不通过考试学生在两次考试成绩上的分布特征，直观呈现数据的分布情况。

参数初始化和代价函数计算中，将逻辑回归参数初始化为0，定义sigmoid函数和代价函数，用于映射输入值、度量预测与实际标签的差距，以及评估模型准确性。

在梯度下降优化中，通过迭代更新模型参数，减小代价函数的值，以找到最优模型参数。

预测阶段利用训练好的模型参数对测试集进行预测，计算模型的准确率，通过sigmoid函数输出的预测值表示学生被录取的概率。

决策边界绘制中，定义决策边界的阈值，生成网格点，通过对网格点预测和contourf函数绘制决策边界，直观观察模型的分类效果。使用scatter函数将训练集样本点绘制在图上，以不同颜色表示通过和不通过考试的学生，全面展示了模型的分类结果。

此实验深入理解了逻辑回归算法的原理和应用，并通过代码实现了相关功能。

致读者

风自火出，家人；君子以言有物而行有恒

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

Python | 机器学习之逻辑回归

1. 机器学习之逻辑回归概念

1.1 机器学习

1.2 逻辑回归

2. 逻辑回归

2.1 实验目的

2.2 实验准备

2.3 实验题目

2.5 实验心得

致读者

你可能感兴趣的:(人工智能,奇遇记,机器学习,算法,python,逻辑回归,人工智能)