亚马逊云开发者

LightGBM 算法框架运行之Amazon SageMaker应用

前言

在机器学习普遍之前，人们常常想到的方法就是基于规则来解决业务问题，比如在营销场景通过经验来抽象出规则，用于提高投放精准度，比如我们需要将某个物品的广告投放给能够获取高转换率的客户，这里就可以考虑哪些客户可能对要投放的广告感兴趣，比如通过SQL方式圈出对应人群，针对大数据集和复杂特征的场景可以通过大数据框架进行用户画像的构建，然后进行客户选取。但是在当前机器学习应用越来越广泛的背景下，更多的公司选择或者尝试使用机器学习来优化基于原有规则的模式，一方面随着时间的推移基于规则的系统越发复杂难以维护，另一方面基于规则的系统效果已经达到瓶颈，通过机器学习的创新方法来提升效果。

在此背景下本文将介绍如何使用LightGBM以及如何借助Amazon SageMaker来提高使用LightGBM的机器学习效率。

LightGBM介绍

LightGBM 是一个梯度提升框架，使用的是基于树的学习算法。LightGBM的优势是旨在分布式和高效，具有以下优点：

训练速度更快，效率更高。
较低的内存使用率。
更好的准确性。
支持并行、分布式和 GPU 学习。
能够处理大规模数据

介绍来源：LightGBM站点https://lightgbm.readthedocs.io/en/latest/
同样基于树的算法框架如XGBoost，针对XGBoost如果需要在Amazon Sagemaker上运行可以直接使用 Amazon Sagemaker提供的托管算法https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html，针对LightGBM当前Sagemaker还没有托管的算法，本文将重点介绍如何通过BYOC（Bring Your Own Container）的方式也就是自定义镜像的方式来实现在Amazon Sagemaker上运行LightGBM。

SageMaker介绍

Amazon SageMaker 是一项完全托管的机器学习服务。借助 Amazon SageMaker，数据科学家和开发人员可以快速轻松地构建和训练机器学习模型，然后将它们直接部署到生产就绪的托管环境中。它提供了一个集成的 Jupyter 创作笔记本实例，可轻松访问您的数据源以进行探索和分析，因此您无需管理服务器。它还提供了常见的机器学习算法，这些算法经过优化，可以在分布式环境中针对超大数据高效运行。凭借对自带算法和框架的原生支持，Amazon SageMaker 提供灵活的分布式训练选项，可根据您的特定工作流程进行调整。通过从 SageMaker Studio 或 Amazon SageMaker 控制台点击几下启动模型，将模型部署到安全且可扩展的环境中。训练和推理按使用分钟数计费，没有最低费用和提前预存费用。Amazon SageMaker详细介绍参见https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html

LightGBM本地测试

环境搭建

Mac下的安装方法

brew install LightGBM

其他环境安装参见：https://lightgbm.readthedocs.io/en/latest/Installation-Guide.html

本文将使用LightGBM Python SDK的方式进行介绍，首先需要安装LightGBM的python依赖

pip install LightGBM

输入格式

当前LightGBM Python 模块可以从以下位置加载数据：

LibSVM（索引从零开始）/TSV/CSV 格式的文本文件
NumPy 2D 数组、Pandas DataFrame、H2O DataTable 的 Frame、SciPy 稀疏矩阵
LightGBM 二进制文件
LightGBM 序列对象

本文将使用CSV作为输入进行介绍，参数设置训练推理部分的详细使用和说明参见：https://lightgbm.readthedocs.io/en/latest/Python-Intro.html

需求分析

针对此次试验已开始背景介绍为假设场景，当前的数据包含要推广的商品信息以及商品的推广记录，我们已推广记录为样本数据，同时针对推广是否成功作为标签数据，数据格式假设如下：

商品ID 商品名称用户ID 用户名称年龄城市是否成功
1 A 1 张三 30 西安是

通过如上数据训练一个模型，后续使用时当需要推广一款产品前，可以通过对应的商品和计划推广的人群信息数据集为输入进行批量推理，从而会得出该商品对应每个人的投放成功概率，再输出的结果集合中选取推广概率高的客户集合进行推广。由于该问题是一个二分类问题，因此选择LightGBM的二分类参数，同时我们使用auc作为评估指标，这个会指导后续我们的超参输配置。

本地训练

下面是本地的训练代码，LightGBM框架可以直接支持直接使用category特征直接作为输入，这样就不需要针对离散特征进行one-hot编码了，使用上更加便利，需要注意的是针对category特征需要在训练阶段需要通过categorical_feature指定对应的列。针对超参输设置部分此次实验使用的是二分类算法来解决

from sklearn.metrics import accuracy_score
import joblib
import pandas as pd
import lightgbm as lgb

if __name__ == "__main__":

    X_data = pd.read_csv('/home/sagemaker-user/sagemaker-lightgbm/datasets/CR_train_x.csv')
    Y_data = pd.read_csv('/home/sagemaker-user/sagemaker-lightgbm/datasets/CR_train_y.csv')

    X_test_data = pd.read_csv('/home/sagemaker-user/sagemaker-lightgbm/datasets/CR_test_x.csv')
    Y_test_data = pd.read_csv('/home/sagemaker-user/sagemaker-lightgbm/datasets/CR_test_y.csv')

    cf = ['pkg_name','pkg_size','category','sub_category','country','platform','device_brand_name']

*左滑查看更多

## 预处理训练数据，针对离散数据转换为category类型

obj_feat = list(X_data.loc[:, X_data.dtypes == 'object'].columns.values)
    for feature in obj_feat:
        X_data[feature] = pd.Series(X_data[feature], dtype="category")
    train_data = lgb.Dataset(X_data, label=Y_data,categorical_feature=cf)

*左滑查看更多

## 预处理测试数据，针对离散数据转换为category类型

obj_feat_test = list(X_test_data.loc[:, X_test_data.dtypes == 'object'].columns.values)
    for feature in obj_feat_test:
        X_test_data[feature] = pd.Series(X_test_data[feature], dtype="category")
    test_data = lgb.Dataset(X_test_data, label=Y_test_data,categorical_feature=cf)

*左滑查看更多

# 超参设置&模型训练

param = {'num_leaves': 31, 'objective': 'binary'}
    param['metric'] = 'auc'
    num_round = 10
    bst = lgb.train(param, train_data, num_round, valid_sets=[test_data],categorical_feature=cf)

*左滑查看更多

# 模型存储

joblib.dump(bst, 'classifier.pkl')

*左滑查看更多

超参设置，objective指定选择的具体目标比如是二分类，多分类还是回归问题，metric用于指定评估指标，num_round定义训练的轮次每个轮次会已全量数据集作为输入进行训练，lgb.train会触发具体的训练过程。

# 超参设置&模型训练

param = {'num_leaves': 31, 'objective': 'binary'}
    param['metric'] = 'auc'
    num_round = 10
    bst = lgb.train(param, train_data, num_round, valid_sets=[test_data],categorical_feature=cf)

*左滑查看更多

下来我们运行一下如上代码通过命令行执行 python train.py

bash-4.2$ python train.py 
[LightGBM] [Info] Number of positive: 3, number of negative: 2376
[LightGBM] [Warning] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000277 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 803
[LightGBM] [Info] Number of data points in the train set: 2379, number of used features: 14
/opt/conda/lib/python3.7/site-packages/lightgbm/basic.py:1780: UserWarning: Overriding the parameters from Reference Dataset.
  _log_warning('Overriding the parameters from Reference Dataset.')
/opt/conda/lib/python3.7/site-packages/lightgbm/basic.py:1513: UserWarning: categorical_column in param dict is overridden.
  _log_warning(f'{cat_alias} in param dict is overridden.')
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.001261 -> initscore=-6.674561
[LightGBM] [Info] Start training from score -6.674561
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[1]     valid_0's auc: 1
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[2]     valid_0's auc: 1
[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
[3]     valid_0's auc: 1
[4]     valid_0's auc: 1
[5]     valid_0's auc: 1
[6]     valid_0's auc: 1
[7]     valid_0's auc: 1
[8]     valid_0's auc: 1
[9]     valid_0's auc: 1
[10]    valid_0's auc: 1

*左滑查看更多

训练完成后会将模型保存为.pkl文件，该文件存储了训练好的模型数据信息（PKL 文件是由 pickle 创建的文件，pickle 是一个 Python 模块，可以将对象序列化为磁盘上的文件，并在运行时反序列化回程序。它包含一个表示对象的字节流）。

推理

针对该实验推理的过程就是使用业务数作为输入，通过模型进行计算和预测输出可能的标签值概率。
推理代码如下：

import joblib
import pandas as pd
import lightgbm as lgb

X_test_data = pd.read_csv('/home/sagemaker-user/sagemaker-lightgbm/datasets/CR_test_x.csv')

*左滑查看更多

## 预处理测试数据，针对离散数据转换为category类型

obj_feat_test = list(X_test_data.loc[:, X_test_data.dtypes == 'object'].columns.values)
for feature in obj_feat_test:
    X_test_data[feature] = pd.Series(X_test_data[feature], dtype="category"

*左滑查看更多

# # # # 模型加载

lgb = joblib.load('classifier.pkl')

*左滑查看更多

# 模型预测

y_pred = lgb.predict(X_test_data)
print(y_pred)

*左滑查看更多

命令行执行：python predict.py

ash-4.2$ python predict.py
[0.00059869 0.00117996 0.0004638 0.00046388 0.00046389 0.00046388
0.00046388 0.00046388 0.00046389 0.00046389 0.00046388 0.00046389
0.00046389 0.00046388 0.00046388 0.00046388 0.00046388 0.00046386
0.00046385 0.00046389 0.00042613 0.00046388 0.00046388 0.00100174
0.00046388 0.000449 0.00046389 0.00046388 0.00046388 0.00056108
0.00046388 0.00058866 0.00040568 0.00045066 0.00120037 0.0004514
0.00046389 0.00046389 0.00046388 0.0017976 0.00059873 0.00059872
0.00042908 0.00043004 0.00046388 0.00046385 0.00046388 0.00046388
0.00046388 0.00046389 0.00046389 0.00046388 0.00046389 0.0232526]

*左滑查看更多

当前本地测试LightGBM成功，下来我们看一下如何将训练和推理的过程集成到Amazon SageMaker并利用Amazon SageMaker 来提高训练和推理效率。

如何在Amazon SageMaker上运行LightGBM

Amazon SageMaker除了可以通过内置算法来使用之外，也可以使用自定义镜像的方式将自己的代码和框架集成到Amazon SageMaker中，下文将重点进行介绍。

构建LightGBM运行环境的镜像

首先我们需要将LightGBM框架打包成镜像并上传到Amazon ECR中，这里使用亚马逊云科技提供的内置Sklearn镜像作为基础镜像来构建步骤如下：

使用Amazon ECR仓库提示的命令进行镜像构建和上传https://docs.aws.amazon.com/AmazonECR/latest/userguide/getting-started-console.html
运行步骤1中Amazon ECR提示命令构建镜像

docker file 内容如下：

FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-scikit-learn:0.23-1-cpu-py3

COPY requirements.txt /requirements.txt
RUN pip install --no-cache -r /requirements.txt && \
    rm /requirements.txt

*左滑查看更多

训练

训练前需要根据自己的数据和镜像地址做如下修改：

替换image_uri 为自己上步骤构建的镜像地址
entry_point 指定训练代码的位置，训练代码同本地训练代码，需要注意的是增加超参数的传递
output_path 替换为模型输出位置
注意data_channels 数据替换为自己桶存储数据的位置

hyperparameters = {
    "tree_num_leaves": 31,
    "num_round": 5
}

_estimator = SKLearn(
    image_uri='517141035927.dkr.ecr.us-west-2.amazonaws.com/training-lightgbm:latest',
    entry_point='entry_point.py',
    source_dir='training_code',
    hyperparameters=hyperparameters,
    role=sagemaker.get_execution_role(),
    instance_count=1,
    instance_type='ml.c5.xlarge',
    output_path='s3://sagemaker-us-west-2-517141035927/output',
    base_job_name='lightgbm-model-training',
    disable_profiler=True
)
data_channels = {
    'x_train': 's3://sagemaker-us-west-2-517141035927/dataset/CR_train_x.csv',
    'y_train': 's3://sagemaker-us-west-2-517141035927/dataset/CR_train_y.csv',
    'x_test': 's3://sagemaker-us-west-2-517141035927/dataset/CR_test_x.csv',
    'y_test': 's3://sagemaker-us-west-2-517141035927/dataset/CR_test_y.csv'
                }
_estimator.fit(data_channels)

*左滑查看更多

训练代码调整

针对上文提到的训练代码超参数设置部分主要是针对模型存储路径和LightGBM的超参数设置需要通过Amazon SageMaker的超参输设置来传递，这个步骤是可选的也可以将相关参数在训练代码中设置为了代码的配置解耦以及后续的超参数优化更好的利用Amazon SageMaker可以将参数进行提取。修改后的代码如下：

import os
import sys

import argparse
import joblib

import numpy as np 
import pandas as pd 

from sklearn.metrics import confusion_matrix
from sklearn.metrics import roc_auc_score
from sklearn.metrics import accuracy_score

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

import lightgbm as lgb
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import joblib

def parse_args(sys_args):
    parser = argparse.ArgumentParser()

    parser.add_argument(
        "--tree_num_leaves",
        type=int,
        default=31
    )
    parser.add_argument(
        "--num_round",
        type=int,
        default=10
    )
    parser.add_argument(
        "--model_dir",
        type=str,
        default=os.environ.get("SM_MODEL_DIR")
    )

    args, _ = parser.parse_known_args(sys_args)
    return args

if __name__ == "__main__":
    args = parse_args(sys.argv[1:])

    # prepare datasets for model training with sagemaker ec2 local path
    X_data = pd.read_csv('/opt/ml/input/data/x_train/CR_train_x.csv')
    Y_data = pd.read_csv('/opt/ml/input/data/y_train/CR_train_y.csv')
    X_test_data = pd.read_csv('/opt/ml/input/data/x_test/CR_test_x.csv')
    Y_test_data = pd.read_csv('/opt/ml/input/data/y_test/CR_test_y.csv')

    cf = ['pkg_name','pkg_size','category','sub_category','country','platform','device_brand_name','lang','osv']

*左滑查看更多

## 预处理训练数据，针对离散数据转换为category类型

obj_feat = list(X_data.loc[:, X_data.dtypes == 'object'].columns.values)
    for feature in obj_feat:
        X_data[feature] = pd.Series(X_data[feature], dtype="category")
    train_data = lgb.Dataset(X_data, label=Y_data,categorical_feature=cf)

*左滑查看更多

## 预处理测试数据，针对离散数据转换为category类型

obj_feat_test = list(X_test_data.loc[:, X_test_data.dtypes == 'object'].columns.values)
    for feature in obj_feat_test:
        X_test_data[feature] = pd.Series(X_test_data[feature], dtype="category")
    test_data = lgb.Dataset(X_test_data, label=Y_test_data,categorical_feature=cf)

*左滑查看更多

# 模型训练

param = {'num_leaves': args.tree_num_leaves, 'objective': 'binary'}
    param['metric'] = 'auc'
    num_round = args.num_round
    gbm = lgb.train(param, train_data, num_round, valid_sets=[test_data],categorical_feature=cf)
    joblib.dump(gbm, args.model_dir + "/classifier.pkl")

*左滑查看更多

从代码可以看到读区训练和测试数据的路径是从/opt/ml/input/data/读取的，这个是Amazon SageMaker启动训练后开启的训练机器的默认训练数据存储路径Amazon Sagemaker会自动将存储在Amazon S3的数据下载到该目录用于训练，只需要将这里的文件名称修改为自己的训练数据名称可，如果是批量数据可以指定文件目录，关于不同训练数据输入模式的详细说明参见：https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo-running-container.html

批量推理

针对此次实验场景推理部分采用批量推理，Amazon SageMaker提供了简单易用，功能强大的批量推理能力，只需要通过Amazon SageMaker Python SDK启动批量推理任务就可以了，同时针对推理的输入的处理，输出的处理还提供了挂钩函数用于定制，此外批量推理函数还提供了输入和输出的过滤功能，比如当您需要将推理结果与输入数据关联时只需要在该方法配置output_filter就可以了。下面针对批量推理代码和过程进行详细说明：

首先需要根据训练好的模型数据，构建批量推理所需模型该模型包含了训练好的模型数据，推理的挂钩函数等，这里我们使用与训练阶段相同的Sklearn版本进行构建。

import sagemaker
from sagemaker.sklearn import SKLearnModel
model_data = "s3://sagemaker-us-west-2-517141035927/output/lightgbm-model-training-2021-10-27-12-17-13-171/output/model.tar.gz"
_model = SKLearnModel(
    model_data=model_data,
    role=sagemaker.get_execution_role(),
    entry_point='entry_point.py',
    source_dir='batch_code',
    framework_version = '0.20.0',
    py_version='py3'
)

*左滑查看更多

关于SklearnMode类的详细使用方法参见 https://sagemaker.readthedocs.io/en/stable/frameworks/sklearn/sagemaker.sklearn.html

推理挂钩函数包含四个方法

model_fn：用于模型加载，本示例需要加载model_data 中的classifier.pkl文件，名称与训练阶段保存的模型名称需保持一致

input_fn：解序列化输入数据用于传入模型，本示例在推理之前针对输入数据中的离散数据转换类型为category
predict_fn：使用input_fn输出的数据作为数据放入加载的模型进行推理，然后返回推理结果
output_fn：序列化模型推理的结果并返回，本示例为了返回结果能够与输入进行关联返回将返回数据用换行符换行，从而可以与输入数据对齐，如果无法对齐推理关联输入时会报错。

import sys
import os
os.system('pip install joblib pathlib lightgbm numpy==1.20.1 pandas==1.3.4')

import numpy as np
from pathlib import Path
import json
import joblib
import warnings
import pandas as pd

*左滑查看更多

##https://docs.aws.amazon.com/sagemaker/latest/dg/adapt-inference-container.html 推理预处理函数说明

def model_fn(model_dir):
    model_dir = Path(model_dir)
    # load regressor
    lgb = joblib.load(Path(model_dir, "classifier.pkl"))

    return lgb

def input_fn(request_body_str, request_content_type):
    print(str(request_body_str))
    data_lst = request_body_str.split('\n')
    request = [list(i.split(',')) for i in data_lst[:-1]]
    df  = pd.DataFrame(request)
    for idx, feature in enumerate(range(len(df.columns))):
        if idx < 9:
            df[feature] = pd.Series(df[feature], dtype="category")
        else:
            df[feature] = pd.Series(df[feature], dtype="float")
    return df

def predict_fn(request, model):
    response = model.predict(request)
    return response

*左滑查看更多

## 输出与输入必须对齐，否则transoformer的过滤就无法对齐

def output_fn(response, response_content_type):
    response = [str(i) for i in response]
    response = "\n".join(response)
    print('response:' + str(response))
    return response

*左滑查看更多

定义批量任务实现批量数据推理，下面我们需要指定用于推理的数据存储路径，推理结果的输出路径，推理所需的机器配置和数量，同时也可以指定推理最大并发数（_max_concurrent_transforms），最大的推理输入数据大小已M为单位（_max_payload）参数配置详情参见：https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html。同时针对转换任务的创建参数说明参见：https://sagemaker.readthedocs.io/en/stable/api/inference/model.html。

from sagemaker import get_execution_role
from time import strftime, gmtime
sagemaker_session = sagemaker.Session()

role = get_execution_role()
region = sagemaker_session.boto_session.region_name

prediction_data_path = 's3://sagemaker-us-west-2-517141035927/dataset/validate_data.csv'
out_predict_data_path = 's3://sagemaker-us-west-2-517141035927/output/'

_instance_type = 'ml.c5.4xlarge'
_instance_count = 1

_max_concurrent_transforms = 1
_max_payload = 10

_job_name = 'lightgbm-batch-{}'.format(strftime("%Y-%m-%d-%H-%M-%S", gmtime()))
print(_job_name)

lightgbm_transformer = _model.transformer(
                            instance_count=_instance_count,
                            instance_type=_instance_type,
                            strategy = 'MultiRecord',
                            max_concurrent_transforms=_max_concurrent_transforms,
                            max_payload=_max_payload,
                            output_path=out_predict_data_path,
                            assemble_with='Line',
                            accept='text/csv')

*左滑查看更多

批量推理所需的模型转换任务模版创建好后，就可以启动转换任务了，这里需要设置输入数据的存储位置，类型，分割方式，输入过滤器，关联的数据来源，输出过滤器等。本示例设置为使用原有输入数据不过滤，同时输出数据与输入数据关联，同时输出时只关联输入数据的第一列进行返回。
transform方法的参数配置详见https://sagemaker.readthedocs.io/en/stable/api/inference/transformer.html

lightgbm_transformer.transform(
    data=prediction_data_path,
    content_type='text/csv',
    split_type='Line',
    input_filter="$", 
    join_source="Input",
    output_filter="$[0 ,-1]",
    job_name=_job_name
)
lightgbm_transformer.wait()

*左滑查看更多

备注：如上代码块均包含在；lightgbm-sagemaker.ipynb https://github.com/VerRan/sagemaker-lightgbm/blob/main/lightgbm-sagemaker.ipynb，该文件可以通过Amazon SageMaker Notebook实例或者Amazon SageMaker Studio进行运行。
代码运行后，会在Amazon SageMaker 控制台推理→批量转换任务菜单对应页面中看到任务的执行情况，同时可以在该界面进行任务监控和执行日志查看。

任务执行成功后可以通过如上界面设置页面看到输出结果的存放目录，点击就可以进入Amazon S3查看推理结果，设置页的配置信息与如上代码设置的信息是一致的，下图为推理结果输出位置配置信息：

通过Amazon S3查看推理结果，为了方便查看可以使用Amazon S3的select功能直接查看推理结果，显示如下：

完整代码可以查看 https://github.com/VerRan/sagemaker-lightgbm

总结

本文介绍了LightGBM的使用以及如何运行在Amazon SageMaker中，同时针对Amazon SageMaker的批量推理部分做了详细说明。在实际的使用中可以根据自己的场景和需要对函数的输入参数进行修改，此外针对输入的数据集也可以目录这样便于大数据集的训练和推理，同时针对标签数据和特征数据也可以放置在一个文件中通过LightGBM进行区分。本文尽管是针对LightGBM框架做的集成介绍，实践中也可以将其他框架或者您自己的算法通过类似的方式进行集成，从而使用Amazon SageMaker的特性来加速和优化您的机器学习过程。

本篇作者

刘恒涛

亚马逊云科技解决方案架构师

负责基于亚马逊云科技的云计算方案架构咨询和设计。同时致力于亚马逊云科技云服务在国内的应用和推广，当前重点关注机器学习以及Serverless领域。

听说，点完下面4个按钮

就不会碰到bug了！

你可能感兴趣的:(大数据,python,机器学习,人工智能,深度学习)

OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
骗局套路：卧虎藏隆应天书府隆国强被骗无法提现！讲述背后事实！正义青天
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！近期作者接触到了很多投资者被所谓的“隆国强”（骗子假冒）在卧虎藏隆应天书府带单的案例。这些新平台打着
[特殊字符] 简易分贝仪制作（基于麦克风 + Python） qq_27684373 python 开发语言
一、基本原理1.什么是dBSPL？**声压级（SoundPressureLevel,SPL）**定义为：SPL(dB)=20⋅log⁡10(pp0)\text{SPL(dB)}=20\cdot\log_{10}\left(\frac{p}{p_0}\right)SPL(dB)=20⋅log10(p0p)ppp：声压值（单位Pa，帕斯卡）p0=20μPa=2×10−5Pap_0=20\mu\text
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
使用python对音频做去噪处理莫夭阏之 python 信号处理语音识别
要使用Python对音频进行去噪处理，您可以使用许多库和算法。以下是使用librosa和scipy库实现的基本去噪算法：首先，您需要安装所需的库。您可以使用以下命令安装它们：pipinstalllibrosascipynumpy接下来，您需要导入所需的库：importlibrosaimportscipy.signalassignalimportnumpyasnp加载音频文件并提取音频数据：y,sr
Python实现音频均衡和降噪 0Kilobyte 音视频
使用librosa库来读取音频文件，音频处理是一个复杂过程，这里只是简单的进行降噪和均衡。importlibrosaimportsoundfileassfdefimprove_audio_quality(input_file,output_file):#读取音频文件audio,sample_rate=librosa.load(input_file)sf.write(output_file,audi
Python的简单降噪应用 adaierya python 开发语言
音频降噪是使用Python进行信号处理的一个常见应用，通常会使用一些信号处理库，如NumPy和SciPy，以及一个用于音频处理的库，如Librosa。如下是一个简单的音频降噪实现步骤和代码示例：步骤1:安装必要的库若还没有安装这些库，请先使用pip进行安装：pipinstallnumpyscipylibrosasoundfile步骤2:导入必要的库在Python代码中，我们需要导入这些库：impo
python 源码安装_源码安装python weixin_39959794 python 源码安装
编译安装新版本python一般来说python是linux系统的标配，但是版本一般却很老，而系统上面的很多服务可能与老的python存在依赖关系，我们又不能直接卸载。所以一般，我们可以在一个单独的目录来安装python。python安装有两种方法：1.源码编译2.使用pyenv此处我们使用源码编译安装：1.下载源码：https://www.python.org/ftp/python/此处有各个版本
python 源码安装 thjinhao python
linux环境下python3.9安装yum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-develyum-yinstallgcc4.python环境的安装（安装pyenv
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
uvx.exe 跨环境 Python 工具执行器的原理与实战指南
在Windows安装uv时，系统会同时生成一个可执行文件uvx.exe。它并不是新的打包管理器，而是uvtoolrun命令的便捷别名：调用uvx.exe就能在瞬间解析依赖、构建隔离虚拟环境并执行来自Python生态的任意命令行工具，完成过程无需事先创建venv，也不会污染当前项目。官方文档把这种体验类比为npx或pipx的一次性执行，但uvx速度更快、磁盘开销更小，更能契合CI/CD流水线、临时脚
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
vscode怎么装python_vscode如何安装python
vscode安装python的方法：1、在vscode的扩展中输入"extinstallpython"安装python插件打开VScode，Ctrl+p输入"extinstallpython"，搜索时间可能会比较长安装过程不能停止，否则重新安装；2、在配置文件“settings.json”修改python的安装路径修改用户设置-settings.json，将"python.pythonPath":
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
关于python的一些面试题
1.技术面试题（1）TCP与UDP的区别是什么？答：在工作机制上TCP采用三次握手四次挥手的机制保障信息传递的稳定性，更适合文件的传输和下载。而UDP采用的是直接传输和直接接受的机制提高信息传递的高效性，更适合点对点的实时交流的环境。（2）DHCP和DNS的作用是什么？答：DHCP相当于网络中的智能管家，他会自动将局域网内的设备进行配置包括但不限于：IP地址、子网掩码、DNS服务器地址。而DNS相
假冒振我中华第六届内部操盘群毛振华不正规!未来低碳项目不能提现难友真实经历告诉你! 法律咨询维权
随着互联网的普及和金融科技的发展，越来越多的人开始使用线上平台进行投资、交易等活动。然而，一些不法分子也利用这些平台实施诈骗行为，给投资者带来了巨大的损失。本文将介绍一种常见的骗局——黑平台无法出金，以帮助大家提高警惕性，避免上当受骗。推荐网上投资理财、数字经济、数字体育、人工智能，数字农业慈善投票网站买数字的等等都是，广大市民对此要提高警惕，遇到此类情况一概不要相信。（注明：该文章出现名字为网上
python里面ca_Python SSL服务器提供中间CA证书洗心岛 python里面ca
我使用Python(2.7)SSL模块编写一些服务器代码，如下所示：ssock=ssl.wrap_socket(sock,ca_certs="all-ca.crt",keyfile="server.key",certfile="server.crt",server_side=True,ssl_version=ssl.PROTOCOL_TLSv1)全部-约阴极射线管'包含签名CA证书和根CA证书：-
服务器搭建python响应https,python实现简单的https服务器
以下提供一个简单的方式快速部署一个https服务器，用于非生产环境的测试使用，如果是正式的生产环境，考虑到性能安全等因素，就不要使用这个了。1、使用pyOpenSSL库：#coding:utf-8fromBaseHTTPServerimportHTTPServer,BaseHTTPRequestHandlerfromSocketServerimportThreadingMixInfromSocke
Leetcode刷题笔记——哈希表篇 code_lover_forever Leetcode刷题笔记 leetcode 笔记散列表 python
Leetcode刷题笔记——哈希表篇一、哈希表在面试中的高频考题第一题：两数之和Leetcode1:两数之和：中等题（详情点击链接见原题）给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标python代码解法classSolution:deftwoSum(self,nums:List[int],target:int)->
Various ways to integrate Python and C (C++) a13393665983 c/c++人工智能 python
VariouswaystointegratePythonandC(C++)KoichiTamura'sblog:VariouswaystointegratePythonandC(C++)VariouswaystointegratePythonandC(C++)ThisisoriginallywhatIwroteinamailIsenttoafriendofmine.Imodifieditalitt
How to setup a Mac with Python dev tools whackw mac mac
HowtosetupaMacwithPythondevtoolsNotesforhowtosetupa64-bitMacwithimportantPythondevelopmenttoolsDeprecated–clickhereforupdatedpageforYosemiteversionCreatedbyTrondKristiansenon27.7.2009,andlastupdated05
理解module, script, library, package in Python ikeepo #小白学Python module library script package setup
OverviewPythonmodulesandPythonpackagesaretwomechanismsthatfacilitatemodularprogramming.AscriptisaPythonfilethat’sintendedtoberundirectly.AmoduleisaPythonfilethat’sintendedtobeimportedintoscriptsorothe
Python 服务器端与客户端的加密通信（SSL/TLS）解析现实逃脱计划TA python ssl 网络
```htmlPython服务器端与客户端的加密通信（SSL/TLS）解析在当今互联网时代，数据安全变得越来越重要。为了保护数据在传输过程中的安全，使用SSL/TLS协议进行加密通信成为了一种常见的做法。本文将详细介绍如何在Python中实现服务器端和客户端之间的SSL/TLS加密通信。什么是SSL/TLS？SSL（SecureSocketsLayer）和TLS（TransportLayerSec
python教程修订版 Ethan learn English python
9/23Inthiscourse,I'mgoingtoteachyoueverythingyouneedtoknowtogetstartedprogramminginPython.Now,Pythonisoneofthemostpopularprogramminglanguagesoutthere在众多的……中.Andit'sbyfar目前为止oneofthemostsõughtafter受欢迎的
Three ways to run a python script file captainOO7 python
Pythonoffersthreedistinctwaystorunascriptormodule,andeachoneaffectssys.path,__name__,andimportbehaviorinsubtlebutimportantways.Let’sbreakthemdownclearly:TheThreeWaystoRunPythonCode1.DirectScriptExecut
Python自动化神器：Pyautogui库实战指南码界奇点 Python python 自动化开发语言 python3.11 ui
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录1.PyAutoGUI简介1.1什么是PyAutoGUI？1.2安装
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p