精英的英

【手搓深度学习算法】用线性回归预测波士顿房价

线性回归

线性回归是一种监督学习方法，用于建立因变量与一个或多个自变量之间的关系。线性回归的目标是找到一条直线，使得所有数据点到这条直线的距离之和最小。

线性回归的基本形式如下：

$\beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon$

其中， $y$ 是因变量， $x_1, x_2, ..., x_n$ 是自变量， $\beta_0, \beta_1, ..., \beta_n$ 是参数， $\epsilon$ 是误差项。

线性回归的目标是通过最小化以下的均方误差（Mean Squared Error, MSE）来求解参数 $\beta$ ：

$\frac{1}{N}\sum_{i=1}^{N}(y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2$

其中， $N$ 是样本数量， $y_i$ 是第 $i$ 个样本的因变量值， $x_{ij}$ 是第 $i$ 个样本的第 $j$ 个自变量值。
这个问题可以转化为一个优化问题，通过梯度下降等方法求解。具体的步骤如下：

初始化参数 $\beta$ ；
计算当前参数下的均方误差；
根据均方误差的梯度，更新参数 $\beta$ ；
重复步骤2和3，直到收敛。

在这个过程中，参数 $\beta$ 的更新规则如下：

$\beta = \beta - \alpha\nabla MSE$

其中， $\alpha$ 是学习率， $\nabla MSE$ 是均方误差关于 $\beta$ 的梯度。

工具函数

对数据进行标准化

在线性回归中，数据标准化是一个非常重要的步骤，它可以使得不同的特征在模型中具有相同的重要性。数据标准化的一般步骤如下：

计算每个特征的均值 $\mu$ 和标准差 $\sigma$ ：

$\mu = \frac{1}{N}\sum_{i=1}^{N}x_i$

$\sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}$

其中， $N$ 是样本数量， $x_i$ 是第 $i$ 个样本的特征值。

将每个特征的值减去均值并除以标准差，得到标准化后的特征值：

$z_i = \frac{x_i - \mu}{\sigma}$

其中， $z_i$ 是第 $i$ 个样本的标准化后的特征值。

这样，我们就得到了标准化后的数据，其中每个特征的均值为0，标准差为1。这样可以保证不同的特征在模型中具有相同的重要性，而不会被大的特征值所主导。

def prepare_data(data, normalize_data=True):    
    # 标准化特征矩阵（可选）    
    if normalize_data:    
        features_mean = np.mean(data, axis=0)    #特征的平均值
        features_dev = np.std(data, axis=0)      #特征的标准偏差
        features = (data - features_mean) / features_dev    #标准化数据
    else:    
        features_mean = None    
        features_dev = None    
        
    ...

为数据集增加偏置项特征

在线性回归模型中，我们通常在数据集前面加一列1，这是因为我们需要一个偏置项（也称为截距项）。偏置项是一个常数，它表示当所有特征都等于0时的预期输出。在实际应用中，偏置项通常被添加到模型中，以便模型可以预测当所有特征都等于0时的输出。

在数学表达式中，线性回归模型可以写为：
$\hat{y} = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n$
其中， $\hat{y}$ 是预测的目标变量， $x_1, x_2, ..., x_n$ 是特征变量， $\theta_0, \theta_1, ..., \theta_n$ 是模型的参数。
在这个公式中， $\theta_0$ 就是偏置项。当所有的 $x_i$ 都等于0时， $\hat{y}$ 就等于 $\theta_0$ 。
我们通常将数据集的特征矩阵与一个全1的向量进行水平堆叠（horizontal stacking），以此来添加偏置项。例如，如果我们的特征矩阵是 $X$ ，那么我们可以这样添加偏置项：
这样，我们就得到了一个新的特征矩阵，其中第一列是全1的向量，表示偏置项。

    # 为特征添加偏置项     
    data_processed = np.hstack((np.ones((features.shape[0], 1)), features)).T
    # 返回处理后的数据
    return data_processed, features_mean, features_dev

预测结果评估函数

获取评分和分级以便可视化处理

def get_predict_score(predict_table):
    score_table = []
    pass_count = 0
    for pair in predict_table:
        if (abs(pair[0] - pair[1]) / pair[1] < 0.1):
            score_table.append("good")
            pass_count += 1
        elif (abs(pair[0] - pair[1]) / pair[1] < 0.4):
            score_table.append("around")
            pass_count += 0.8
        else:
            score_table.append("bad")
    accuracy = pass_count / len(predict_table)
    return score_table, accuracy

线性回归类

以下的代码位于名为 LinearRegression的类中

初始化

在初始化中获取处理后的数据，并初始化权重向量

def __init__(self, data,labels, normalize_data = True) -> None:
        (data_proccessed,
         features_mean,
         features_dev) = prepare_data(data, normalize_data)
        self.data = data_proccessed
        self.labels = labels
        self.features_mean = features_mean
        self.features_dev = features_dev
        self.normalize_data = normalize_data
        
        num_features = self.data.shape[0] #特征个数
        self.theta = np.zeros((num_features,1)) #初始化权重向量

训练过程

单步更新权重

首先计算权重和特征的点积，计算预测值
通过最小化以下的均方误差来求解参数 $\beta$ ：

MSE的定义是：

$\frac{1}{N} \sum_{i=1}^{N} (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2$

将 $(\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})$ 看作一个整体, 对它求偏导，MSE的梯度可以通过以下公式计算：

$\frac{dMSE}{d\theta} = \frac{1}{N} \sum_{i=1}^{N} -2 (y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in})) x_{ij}$
其中， $x_{ij}$ 是第 $i$ 个样本的第 $j$ 个特征的值。
这个公式的意思是，对于每一个样本，我们首先计算预测值和真实值之间的差距，然后乘以这个差距的符号（也就是 $-2(y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))$ ），再乘以这个特征的值 $x_{ij}$ 。这样，我们就得到了每个特征对MSE的贡献。

然后，我们可以使用这个梯度来更新参数theta。在这个函数中，首先计算了预测值和真实值之间的偏差向量delta，然后根据这个偏差向量来更新权重参数theta。

具体来说，这个更新过程是通过以下公式完成的：

$\theta -= lr \cdot \frac{1}{num\_examples} \cdot (np.dot(delta.T, self.data.T)).T$

其中，lr是学习率， $num\_examples$ 是样本数量，delta是偏差向量，self.data是特征矩阵。这个公式表示，我们把权重参数theta减去学习率乘以偏差向量和特征矩阵的点积的结果，从而实现参数的更新。

def gradient_step(self,lr):
        '''
        梯度下降参数更新，使用矩阵运算
        '''
        num_examples = self.data.shape[1] # 多少行
        prediction = LinearRegression.predict(self.data, self.theta) #每次计算所有样本的预测值，使用矩阵乘法
        delta = prediction - self.labels # 偏差向量
        theta = self.theta
        theta -= lr*(1/num_examples)*(np.dot(delta.T, self.data.T)).T #更新权重
        self.theta = theta #记录当前权重参数

损失函数

首先计算权重和特征的点积，计算预测值
通过最小化以下的均方误差来求解参数 $\beta$ ：

$\frac{1}{N}\sum_{i=1}^{N}(y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2$
通过添加表示偏置项的值为1的列得到
$\frac{1}{N}\sum_{i=0}^{N}(y_i - (\hat{\beta} \hat{x_i}))^2$
其中 $(\hat{\beta} \hat{x_i}))$ 即是如下代码中的 ‘delta’( $\hat{\delta}$ )，因为涉及向量的平方所以
$(\hat{\delta})^2 = (np.dot(delta.T, delta))$

def cost_function(self,data,labels):
        num_examples = data.shape[0]
        delta = LinearRegression.predict(self.data, self.theta) - labels #偏差
        cost = (1/2)*np.dot(delta.T, delta) #最小二乘法计算损失
        #print(cost.shape)
        return cost[0][0]

迭代执行梯度下降更新参数

这一部分没什么好说的，还是对迭代次数和学习率两个超参数做一下说明

在线性回归中，学习率（learning rate）和迭代次数（number of iterations）是两个非常重要的超参数，它们直接影响到模型的训练效果。

学习率（Learning Rate）：学习率决定了每一步梯度下降的步长。如果学习率太大，那么在搜索最优解的过程中可能会“跳过”最优解；如果学习率太小，那么训练过程可能会非常慢，甚至可能陷入局部最优解。因此，选择合适的学习率是非常重要的。
迭代次数（Number of Iterations）：迭代次数决定了梯度下降的迭代次数。如果迭代次数太少，那么模型可能还没有收敛到最优解；如果迭代次数太多，那么可能会导致过拟合，模型在训练集上的表现很好，但在测试集上的表现很差。因此，选择合适的迭代次数也是非常重要的。

def gradient_desent(self, lr, num_iter):
        cost_history = []
        for _ in range(num_iter): # 在规定的迭代次数里执行训练
            self.gradient_step(lr)
            cost_history.append(self.cost_function(self.data, self.labels)) # 记录损失值，以便可视化展示
        return cost_history

预测

线性回归模型的预测即是将权重向量和特征向量进行点积，有人可能会问偏置项去了哪里，其实偏置项就藏在权重向量的第一个元素里，因为我们在前面处理数据集的时候已经向数据集的开头添加了一列“1”，所以在进行点积的时候，自动就变成了 $y_i = bias*1 + x_{i1}w_{i1} + x_{i2}w_{i2} +... + x_{in}w_{in}$

def predict_test(self, data):
        data_proccessed = prepare_data(data, self.normalize_data)[0]
        prediction = LinearRegression.predict(data_proccessed, self.theta)
        return prediction
    @staticmethod
    def predict(data, theta):
        prediction = np.dot(data.T, theta) #特征值和权重参数做点积，计算预测值
        return prediction

训练，预测和可视化展示部分

没什么好说的，主要就是处理数据集和可视化展示

import pandas as pd
import matplotlib.pyplot as plt
def main():        
    data_file = "J:\\MachineLearning\\数据集\\housing.data"
    data = pd.read_csv(data_file, sep="\s+").sample(frac=1).reset_index(drop=True)
    train_data = data.sample(frac=0.8)
    test_data = data.drop(train_data.index)
    input_param_index = 'NOX'
    output_param_index = 'MEDV'
    x_train = train_data[input_param_index].values
    y_train = train_data[output_param_index].values
    x_test = test_data[input_param_index].values
    y_test = test_data[output_param_index].values
    
    x_train = train_data.iloc[:, :13].values
    y_train = train_data[output_param_index].values.reshape(len(x_train),1)
    x_test = test_data.iloc[:, :13].values
    y_test = test_data[output_param_index].values.reshape(len(test_data),1)
    print(x_train.shape)
    print(y_train.shape)
    
    linearReg = LinearRegression(x_train, y_train)
    train_theta, loss_history = linearReg.train(0.0001, 50000)
    fomula = 'Y = '
    index = 0
    for w in np.round(train_theta, 2)[1:]:
        fomula += "{}{}X{}".format(" + " if w >=0 else " - " if index != 0 else "", float(abs(w[0])), index)
        index += 1
    fomula += "{}{}".format(" + " if train_theta[0] >= 0 else "-", round(float(abs(train_theta[0][0])), 2))
    print(fomula)
    print(train_theta.shape)
    plt.plot(loss_history)
    plt.show()
    
    predic_result = np.round(linearReg.predict_test(x_test), 2)
    predict_table = np.column_stack((predic_result, y_test))
    score, accuracy = get_predict_score(predict_table)
    print("Accuracy is {}".format(accuracy))
    color_table = {"good": "green", "around":"yellow", "bad": "red"}
    #print(predic_result)
    fig, ax = plt.subplots()
    table = ax.table(cellText = predict_table, loc = 'center')
    for i, cell in enumerate(table._cells.values()):
        color_index = int(i / 2)
        cell.set_facecolor(color_table[score[color_index]])
    ax.axis("off")
    plt.show()

运行结果

损失值变化

得到的展开式
$Y = 0.59X_0 + 0.48X_1 - 0.55X_2 + 0.89X_3 - 1.18X_4 + 3.23X_5 + 0.0X_6 - 2.2X_7 + 1.0X_8 - 0.45X_9 - 1.82X_10 + 0.82X_11 - 3.66X_12 + 22.67$

得分展示

完整代码（数据集在绑定资源里，也可以自己去下载）

import numpy as np    
    
def prepare_data(data, normalize_data=True):    
    # 标准化特征矩阵（可选）    
    if normalize_data:    
        features_mean = np.mean(data, axis=0)    #特征的平均值
        features_dev = np.std(data, axis=0)      #特征的标准偏差
        features = (data - features_mean) / features_dev    #标准化数据
    else:    
        features_mean = None    
        features_dev = None    
        
    # 为特征添加偏置项     
    data_processed = np.hstack((np.ones((features.shape[0], 1)), features)).T
    # 返回处理后的数据
    return data_processed, features_mean, features_dev

def get_predict_score(predict_table):
    score_table = []
    pass_count = 0
    for pair in predict_table:
        if (abs(pair[0] - pair[1]) / pair[1] < 0.1):
            score_table.append("good")
            pass_count += 1
        elif (abs(pair[0] - pair[1]) / pair[1] < 0.4):
            score_table.append("around")
            pass_count += 0.8
        else:
            score_table.append("bad")
    accuracy = pass_count / len(predict_table)
    return score_table, accuracy
        
class LinearRegression:
    '''
    1. 对数据进行预处理操作
    2. 先得到所有的特征个数
    3. 初始化参数矩阵
    '''
    def __init__(self, data,labels, normalize_data = True) -> None:
        (data_proccessed,
         features_mean,
         features_dev) = prepare_data(data, normalize_data)
        self.data = data_proccessed
        self.labels = labels
        self.features_mean = features_mean
        self.features_dev = features_dev
        self.normalize_data = normalize_data
        
        num_features = self.data.shape[0] #特征个数
        self.theta = np.zeros((num_features,1)) #初始化权重向量
        
    def train(self, lr, num_iter = 500):
        #训练模块
        cost_history = self.gradient_desent(lr, num_iter) #梯度下降过程
        return self.theta,cost_history
        
    def gradient_step(self,lr):
        '''
        梯度下降参数更新，使用矩阵运算
        '''
        num_examples = self.data.shape[1] # 多少行
        prediction = LinearRegression.predict(self.data, self.theta) #每次计算所有样本的预测值，使用矩阵乘法
        delta = prediction - self.labels # 偏差向量
        theta = self.theta
        theta -= lr*(1/num_examples)*(np.dot(delta.T, self.data.T)).T #更新权重
        self.theta = theta #记录当前权重参数
    
    def gradient_desent(self, lr, num_iter):
        cost_history = []
        for _ in range(num_iter): # 在规定的迭代次数里执行训练
            self.gradient_step(lr)
            cost_history.append(self.cost_function(self.data, self.labels)) # 记录损失值，以便可视化展示
        return cost_history
    
    def cost_function(self,data,labels):
        num_examples = data.shape[0]
        delta = LinearRegression.predict(self.data, self.theta) - labels #偏差
        cost = (1/2)*np.dot(delta.T, delta) #最小二乘法计算损失
        #print(cost.shape)
        return cost[0][0]
    
    #针对测试集
    def get_cost(self, data, labels):
        data_proccessed = prepare_data(data, self.normalize_data)[0]
        return self.cost_function(data_proccessed, labels)
    
    def predict_test(self, data):
        data_proccessed = prepare_data(data, self.normalize_data)[0]
        prediction = LinearRegression.predict(data_proccessed, self.theta)
        return prediction
    @staticmethod
    def predict(data, theta):
        prediction = np.dot(data.T, theta) #特征值和权重参数做点积，计算预测值
        return prediction
        
import pandas as pd
import matplotlib.pyplot as plt
def main():        
    data_file = "J:\\MachineLearning\\数据集\\housing.data"
    data = pd.read_csv(data_file, sep="\s+").sample(frac=1).reset_index(drop=True)
    train_data = data.sample(frac=0.8)
    test_data = data.drop(train_data.index)
    input_param_index = 'NOX'
    output_param_index = 'MEDV'
    x_train = train_data[input_param_index].values
    y_train = train_data[output_param_index].values
    x_test = test_data[input_param_index].values
    y_test = test_data[output_param_index].values
    
    x_train = train_data.iloc[:, :13].values
    y_train = train_data[output_param_index].values.reshape(len(x_train),1)
    x_test = test_data.iloc[:, :13].values
    y_test = test_data[output_param_index].values.reshape(len(test_data),1)
    print(x_train.shape)
    print(y_train.shape)
    
    linearReg = LinearRegression(x_train, y_train)
    train_theta, loss_history = linearReg.train(0.0001, 50000)
    fomula = 'Y = '
    index = 0
    for w in np.round(train_theta, 2)[1:]:
        fomula += "{}{}X{}".format(" + " if w >=0 else " - " if index != 0 else "", float(abs(w[0])), index)
        index += 1
    fomula += "{}{}".format(" + " if train_theta[0] >= 0 else "-", round(float(abs(train_theta[0][0])), 2))
    print(fomula)
    print(train_theta.shape)
    plt.plot(loss_history)
    plt.show()
    
    predic_result = np.round(linearReg.predict_test(x_test), 2)
    predict_table = np.column_stack((predic_result, y_test))
    score, accuracy = get_predict_score(predict_table)
    print("Accuracy is {}".format(accuracy))
    color_table = {"good": "green", "around":"yellow", "bad": "red"}
    #print(predic_result)
    fig, ax = plt.subplots()
    table = ax.table(cellText = predict_table, loc = 'center')
    for i, cell in enumerate(table._cells.values()):
        color_index = int(i / 2)
        cell.set_facecolor(color_table[score[color_index]])
    ax.axis("off")
    plt.show()
    
    
 
if (__name__ == "__main__"):
    main()

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
骑昆明到北海—119 砚山县 61清风i
从十年前第一次长途骑行青海湖开始每年一次长途骑行看风景，尝各地美食，探访异域文化，记录途中美食美景美事，已逐渐形成习惯。每年春季详细规划好线路，夏季出行，2020年因为疫情迟迟不能确定线路和行程。总算到了暑期疫情逐渐消失，规划了50多天的云南昆明—广西北海计划。本次行程从云南昆明出发到广西北海市结束，五十一天骑行二千多公里线路昆明-官渡古镇-环滇池--澄江市一抚仙湖—路居镇--江川区--通海县—龙
无题琴韵无声
问了几家门诊部都没有科兴疫苗，突然自我感觉这种品牌的疫苗是不是少一些，于是又无端滋生焦虑感，可别一拖再拖影响孩子上学，学校要求下学期开学得接种完新冠疫苗。我在这种自制的焦虑的驱使下，立马上网查询看哪里能打到北京科兴的疫苗，终于找到了，大喜。与珊宝一起打车过去（路比较远，早想借此机会让她徒步拉练一下的计划泡汤了）。到达目的地，一看到医院大门前一条长龙似的队伍就知道那里应该是打疫苗的地方。迅速过去排队
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
数幸福D10 3c807316efec
王多妈妈幸福能力提升计划依靠皇上托举皇上做一个五半三平的小女人一：感知到的幸福和快乐1：点赞皇上①下班前皇上问我晚上吃饭准备怎么弄，我们买点菜回家做饭吧皇上问我想吃什么，我说多可以，皇上很用心的准备晚饭，一回到家皇上先回家做饭，我说后备箱还有我的行李，皇上说等一下我再下来拿好吗？语气特别好，眼神多是商量的，皇上现在总是有意识的考虑我的感受②吃完饭我们准备一起接女儿放学，皇上说碗他洗，我想着一起收拾
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
2023-06-19【感恩日记】第246篇 o泡沫o
思想日记：坚持下去，相信自己一定可以的【感恩日记】第246篇1.我真是太幸福啦！感恩孩子早起阅读，放学到学生之家完成作业，平安度过美好的一天。感恩！感恩！感恩！❤️2.我真是太幸福啦！感恩自己早起给孩子煮早餐，完成计划的工作，晚上学习。感恩！感恩！感恩！❤️3.我真是太幸福啦！感恩为我设计效果图的老师。感恩！感恩！感恩！❤️4.我真是太幸福啦！感恩父母养育了我，有妈的孩子真幸福。感恩！感恩！感恩！
“元宇宙”带不动Meta？基本业务已“后院起火”！小扎举步维艰！链科天下
由于宏观经济疲软、市场动荡，“放缓”已经成为美国科技股的主线逻辑，曾风光无限的科技巨头Meta也开始一路下行、举步维艰。据彭博社报道，Meta已宣布计划裁员并重组团队以削减预算，这是该公司2004年成立以来首次大幅削减预算。此次裁员或受到业绩低迷的影响，Q2财报显示Meta业绩远不及预期，上市以来营收同比出现首次下滑，净利连续三季度下降。扎克伯格表示，“希望经济能够稳定下来，但从目前的情况来看并非
2022-1-12晨间日记云卷云舒_a1b9
起床：6：20就寝：23：00天气：阴心情：还好纪念日：法考主观体出分的日子叫我起床的不是闹钟是梦想年度目标及关键点：备考初级会计师；坚持运动，减重，阅读，学习本月重要成果：报名今日三只青蛙/番茄钟学习听课；瑜伽课；记账盘点成功日志-记录三五件有收获的事务1.收到鲜花2.早起做早餐3.引导孩子做计划财务检视支出严重超预算，检视一月的预算是否合理人际的投入同学联系；开卷有益-学习/读书/听书听初级课
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
人要有自知之明孟冬廿六
今天中午跟一学妹聊天，谈起结婚找对象的问题，小姑娘年龄不算大，二十七岁，但是整个人很清醒很现实，她如今在一国企上班，吃住都不花钱，再加上她经常出差，补助奖金这一块儿也不少，一年下来七七八八的有个小二十万，这对于一个小姑娘来说已经非常不错了，她计划这两年自己付首付买房，然后想要买辆MINI，小姑娘一米七六的个子，长得漂亮有气质，家庭条件也不错，所以对于择偶方面也有一定的要求，最好是事业单位的，父母有
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。