亚马逊云开发者

使用 Amazon SageMaker 构建机器学习应用

随着社会的发展和科技进步，人工智能变得无处不在，然而，人工智能广泛应用仍然面临着巨大的挑战：一是掌握人工智能专业知识的人才不足；二是构建和扩展人工智能的技术产品有难度；三是在生产经营中部署人工智能应用费时且成本高。最终导致缺乏低成本、易使用、可扩展的人工智能产品和服务。

开发者和数据科学家首先必须对数据进行可视化、转换和预处理，这些数据才能变成算法可以使用的格式，用以训练模型。即使是简单的模型，企业也需要花费庞大的算力和大量的训练时间，并可能需要招聘专门的团队来管理包含多台 GPU 服务器的训练环境。从选择和优化算法，到调节影响模型准确性的数百万个参数，训练模型的所有阶段都需要大量的人力和猜测。然后，在应用程序中部署训练好的模型时，算法工程师又需要另一套应用设计和分布式系统方面的专业技能。并且，随着数据集和变量数的增加，模型会过时，算法工程师又必须一次又一次地重新训练模型，让模型从新的信息中学习和进化。所有这些工作都需要大量的专业知识，并耗费庞大的算力、数据存储和时间成本。而且，由于没有集成化的工具用于整个机器学习的工作流，机器学习模型的传统开发方式是复杂、繁复和昂贵的。

自从2018年起，亚马逊云科技发布了一系列的产品和服务，例如 Amazon SageMaker、Amazon Aurora ML、Amazon Redshift ML 和2021年 reInvent 发布的 Amazon SageMaker Canvas，使得不同角色的工程师越来越容易构建机器学习应用，降低应用机器学习的门槛，以实现普惠机器学习。本系列文章将以上述产品为核心，从不同的角度帮助企业中不同部门的人员构建机器学习应用。

Amazon SageMaker：

https://aws.amazon.com/cn/sagemaker/

Amazon Aurora ML：

https://aws.amazon.com/cn/rds/aurora/machine-learning/

Amazon Redshift ML：

https://aws.amazon.com/cn/redshift/features/redshift-ml/

Amazon SageMaker Canvas：

https://aws.amazon.com/cn/sagemaker/canvas/

本普惠机器学习系列文章包含以下5篇:

篇一：使用 Amazon SageMaker 构建机器学习应用（本篇）

在本篇文章中，我们将介绍如何在 Amazon SageMaker 上开展机器学习模型训练，我们将在 Notebook 上面分别演示针对同一个数据集，分别使用 XGBoost、SageMaker 内置算法和 AutoGluon 进行模型训练。

Amazon SageMaker：

https://aws.amazon.com/cn/sagemaker/

XGBoost：

https://xgboost.readthedocs.io/en/stable/

AutoGluon：

https://auto.gluon.ai/

篇二：使用数据可视化工具加载 Amazon Redshift 数仓数据完成机器学习数据准备和模型快速验证

https://aws.amazon.com/cn/blogs/china/use-the-visualization-tool-to-load-amazon-redshift-data-warehouse-data-to-complete-machine-learning-data/

在本篇文章中，我们将会为您展示一个简单的2分类预测的机器学习场景，通过加载存放于数据仓库 Amazon Redshift 中的银行客户画像和业务行为特征，来完成建模前特征的快速准备和预测是否办理存款业务模型的快速验证。

Amazon Redshift：

https://aws.amazon.com/cn/redshift/

篇三：使用 Amazon Redshift ML 构建机器学习应用

https://aws.amazon.com/cn/blogs/china/building-machine-learning-applications-using-amazon-redshift-ml/

在本篇文章中，我们将介绍使用标准 SQL 在 Amazon Redshift 集群上快速应用机器学习。从数据导入，到模型训练，到模型编译和部署，最后通过 Redshift Function 调用模型进行预测。

篇四：如何在数据库里面使用 SQL 语句直接调用 Amazon 机器学习服务进行推理

https://aws.amazon.com/cn/blogs/china/how-to-use-sql-statements-in-the-database-to-directly-call-amazon-machine-learning-service-for-reasoning/

在本篇文章中，我们将介绍如何在 Amazon Aurora 数据库里面使用 SQL 语句直接调用 Amazon Comprehend 和 Amazon SageMaker 机器学习服务进行推理，让业务后端开发人员即使没有机器学习知识，也可以快速使用最熟悉的 SQL 语句调用机器学习服务，为业务提升价值。

Amazon Aurora：

https://aws.amazon.com/cn/rds/aurora/

Amazon Comprehend：

https://aws.amazon.com/cn/comprehend/

篇五：基于 Amazon SageMaker Canvas 无代码构建分类模型

https://aws.amazon.com/cn/blogs/china/build-a-classification-model-without-code-based-on-amazon-sagemaker-canvas/

在本篇文章中，我们将介绍如何无需写代码即可构建机器学习应用，Amazon SageMaker Canvas 提供无代码、可视化的工作环境，即使没有机器学习背景知识，也可以基于自己业务需要构建机器学习模型。

介绍

本文作为该系列文章的第一篇，我们将介绍数据科学家和算法工程师训练机器学习模型时常采用的方式，即在单台主机上安装 Jupyter Notebook，并安装相关的依赖包，然后在其上进行代码编写与测试。

Amazon SageMaker 是一个端到端的机器学习平台，SageMaker 支持您的模型开发全流程，从数据准备，数据处理，算法构建，模型训练，超参调优，模型部署与监控等环节，SageMaker 都提供了相应的功能帮助算法工程师们专注于业务和模型本身，提高开发效率。

Amazon SageMaker：

https://aws.amazon.com/cn/sagemaker/

接下来我们将介绍在 Amazon SageMaker Notebook 实例上面训练机器学习模型的过程，我们将展示三种方式：基于开源算法 XGBoost，基于 AutoGluon 和基于 SageMaker 内置算法 XGBoost。

创建 SageMaker Notebook 实例

Amazon SageMaker 提供了两种方式的 Jupyter Notebook、Notebook 实例和 SageMaker Studio Notebook。不管哪种方式，SageMaker 都提供了预置的开发环境，如 TensorFlow、PyTorch、Numpy、Pandas 等等，算法工程师无需自行安装，而且 SageMaker 也支持自定义环境，充分保证了灵活性。

Notebook 实例：

https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/nbi.html

SageMaker Studio Notebook：

https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/notebooks.html

接下来我们将创建一个 SageMaker Notebook 实例。

在 SageMaker 控制台左侧边栏上找到 Notebook，在 Notebook instances 界面下，右上角点击 Create notebook instance。

在新的界面下，输入该 Notebook 实例的名称，并在 Notebook instance type 处选择实例的类型。实例的类型是可以后期更换的，一般我们用 Notebook 实例针对少量数据做测试，无需太大的实例类型，当然您也可以为了保持和之前使用习惯的一致，选取合适的机型。同时，您可以设置该实例的存储磁盘大小，默认是 5GB，截图中我们手动改为 30GB，该容量后期同样可以调大。

接下来在 Permissions and encryption 中设置 IAM role。在 SageMaker 上进行模型开发的最佳实践中会涉及 Amazon S3、Amazon Elastic Container Registry (Amazon ECR)，此处设置的将保证 SageMaker 具备访问这些服务的权限。

Amazon S3：

https://aws.amazon.com/cn/s3/

Amazon Elastic Container Registry (Amazon ECR)：

https://aws.amazon.com/cn/ecr/

如果是首次使用 SageMaker，您将需要选择 Create a new role，在弹出的界面中，可以设置允许 SageMaker 访问哪些 S3 存储桶。如果之前已经创建过 Notebook 实例，此处在 Use existing role 中将出现之前创建的 role，可以根据情况决定是否新建 role。

最后在 Network 部分，可选是否启用 Amazon VPC 连接。如果选择了某一个您自己的 VPC，则继续设置子网和安全组，以及是否允许该 Notebook 直接访问外网资源或是通过 VPC 内的 NAT 网关访问外网资源。

Amazon VPC：

https://aws.amazon.com/cn/vpc/

如果设置了 VPC 该 Notebook 实例将获取一个该 VPC 对应子网下的弹性网卡及其内网 IP、Notebook 实例将具备访问 VPC 内其他资源的可能（如 EC2，RDS 等）。

设置 Tag（可选），以方便 Notebook 实例的管理以及成本的追踪（通过费用详单）。

通过费用详单：

https://docs.aws.amazon.com/zh_cn/awsaccountbilling/latest/aboutv2/cost-alloc-tags.html

最后选择 Create notebook instance，SageMaker 就将创建该 Notebook 实例。在 Notebook instances 界面您可以看到您当前的实例列表及其状态，如果状态为 InService (新建的 Notebook 实例通常有5分钟左右的创建时间)，在 Actions 列有 Open Jupyter | Open JupyterLab 的选项。

点击 Open Jupyter，将自动弹出一个新的页面，加载完成后，出现我们熟悉的 Jupyter Notebook 界面。

其中在 SageMaker Examples 页面下，在右侧 New 下拉菜单中，您可以选择创建的开发环境，此处我们选择 conda_python3 以进行后面的内容。

数据集探索

在本文示例中，我们将用 UCI 机器学习数据集中的 Bank Makerting Data Set。该数据与一家葡萄牙银行机构的直接营销活动有关。营销活动是基于电话，通常，同一客户需要多次联系，以便了解其对产品（如银行定期存款）是否加入（“yes”或“no”）。

UCI 机器学习数据：

https://archive.ics.uci.edu/ml/index.php

Bank Makerting Data Set：

https://archive.ics.uci.edu/ml/datasets/bank+marketing

该数据集中有四个数据集：

1) bank-additional-full.csv 包含所有样本（41188），每个样本有20个特征，按日期排序（从2008年5月到2010年11月），非常接近 [Moro 等人，2014] 分析的数据。

2) bank-additional.csv 中有10%的样本（4119），从1）所述的全量数据集中随机采样，同样有20个特征。

3) bank-full.csv 包含所有的样本，每个样本17个特征，按日期排序（旧版本的数据集，特征较少）。

4) bank.csv 中有10%的样本，每个样本17个特征，从3）中所述数据集中随机采样。

分类目标是预测客户是否会加入定期存款(标签为 y，取值为 yes 或 no)。

3.1

数据集下载

在第二节中新建的 Notebook 中新建 cell，输入如下代码，下载数据集并解压：

!wget -N https://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank-additional.zip
!unzip -o bank-additional.zip

左滑查看更多

3.2

数据集一览

我们将使用 bank-additional-full.csv 数据集文件，将其通过 pandas 读入并展示：

import numpy as np  # For matrix operations and numerical processing
import pandas as pd  # For munging tabular data
import os


data = pd.read_csv("./bank-additional/bank-additional-full.csv", sep=";")
pd.set_option("display.max_columns", 500)  # Make sure we can see all of the columns
pd.set_option("display.max_rows", 50)  # Keep the output on one page
data

左滑查看更多

得到如下数据预览图：

由此可知：

● 我们有 40K 多一点的样本（客户记录），每个样本有20个特征；

● 这些特征的类型有些数字类型，有些分类类型；

● 这些数据似乎是按时间和联系方式排序的；

每个特征的简单解释如下：

3.3

数据预处理

数据清洗是机器学习中重要一环，常见方法有：

（1）处理缺失值：一些机器学习算法能够处理缺失值，但大多数并不能自动处理。方法包括：

● 删除具有缺失值的样本：如果只有一小部分样本具有不完整的信息，则此方法效果很好。

● 删除具有缺失值的特征：如果有少量特征具有大量缺失值，则此方法效果很好。

● 估算缺失值：关于这个主题有人已经写了本书，但常见的选择是用该列的非缺失值的众数或平均值替换缺失值。

（2）将分类转换为数字表示：最常见的方法是一种独热编码（one hot encoding），其方法是使用 N 位状态寄存器来对 N 个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

（3）异常分布的数据：虽然对于像梯度提升树这样的非线性模型影响有限，但像回归这样的模型在输入高度倾斜的数据时会产生非常不准确的估计。在某些情况下，简单地取特征的自然对数就足以产生更正态分布的数据。在其他情况下，可以将值分桶到离散范围。然后，这些分桶后的数据可以被视为分类类型的特征，并应用在独热编码中。

（4）处理更复杂的数据类型：以不同的粒度对图像、文本或数据进行处理。

在本数据集中，许多样本的 pdays 值为“999”，即最后一次联系客户后经过的天数。这很可能是一个特定的数字，表示之前没有联系过。考虑到这一点，我们创建一个名为“no_previous_contact”的新特征列，然后在 pdays 为999时赋值“1”，否则赋值“0”。

在“job”特征列中，有表示客户没有工作的类别，例如“student”、“retire”和“unemployed”。由于客户是否在工作很可能会影响他/她加入定期存款的决定，因此我们生成一个新特征列以根据“job”列显示客户是否在工作。

最后我们将分类类型数据通过独热编码转换为数字。

Python

data["no_previous_contact"] = np.where(
    data["pdays"] == 999, 1, 0
)  # Indicator variable to capture when pdays takes a value of 999
data["not_working"] = np.where(
    np.in1d(data["job"], ["student", "retired", "unemployed"]), 1, 0
)  # Indicator for individuals not actively employed
model_data = pd.get_dummies(data)  # Convert categorical variables to sets of indicators
model_data

左滑查看更多

在构建模型之前要问自己的另一个问题是某些特征是否会在您的最终用例中增加价值。下雨与雨伞销售具有高度相关性，但是预测足够远的天气情况以计划雨伞库存可能与在不了解天气的情况下预测雨伞销售一样困难。按照这个逻辑，我们将删除数据中当前季度经济相关的特征和 duration 特征，因为这些特征需要进行高精度预测才能用作未来预测的输入。即使我们使用上一季度的经济指标值，这个值对于下个季度早期接触到的潜在客户和季度晚期接触到的客户的影响可能并不一样。

Python

model_data = model_data.drop(
["duration", "emp.var.rate", "cons.price.idx", "cons.conf.idx", "euribor3m", "nr.employed"], axis=1)
model_data = model_data.drop(["y_no"], axis=1)
model_data

左滑查看更多

然后，我们将数据集拆分为训练（90%）和测试（10%）数据集，并将数据集转换为算法期望的正确格式。我们将在训练期间使用训练数据集。测试数据集将在模型训练完成后用于评估模型性能。

Python

train_data, test_data = np.split(
    model_data.sample(frac=1, random_state=1729),
    [int(0.9 * len(model_data)),],
)


train_x = train_data.iloc[:,:-1]
train_y = train_data.iloc[:,59]


test_x = test_data.iloc[:,:-1]
test_y = test_data.iloc[:,59]

左滑查看更多

使用 XGBoost 训练模型

XGBoost 是一个优化的分布式梯度提升库，它是在 Gradient Boosting 框架下实现的机器学习算法。XGBoost 提供了一种并行提升树（也称为 GBDT、GBM），可以快速准确地解决许多数据科学问题，相同的代码可以在主流的分布式环境（Hadoop、SGE、MPI）上运行，是算法工程师广泛应用的机器学习算法之一。

XGBoost：

https://xgboost.readthedocs.io/en/stable/

接下来我们将采用 XGBoost 来训练模型。

4.1

XGBoost 安装：

!pip install xgboost

4.2

XGBoost Python API

XGBoost 提供了多种开发语言包，这里我们继续使用 Python 开发语言。

Python

import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split


# 用sklearn.cross_validation进行训练数据集划分，这里训练集和交叉验证集比例为8：2，可以自己根据需要设置
X, val_X, y, val_y = train_test_split(
    train_x,
    train_y,
    test_size=0.2,
    random_state=2022,
    stratify=train_y
)


# xgb矩阵赋值
xgb_val = xgb.DMatrix(val_X, label=val_y)
xgb_train = xgb.DMatrix(X, label=y)
xgb_test = xgb.DMatrix(test_x)


# xgboost模型 #####################
params = {
    'booster': 'gbtree',
    'objective': 'binary:logistic',
    'eval_metric': 'auc', #logloss
    'gamma': 0.1,  # 用于控制是否后剪枝的参数,越大越保守，一般0.1、0.2
    'max_depth': 8,  # 构建树的深度，越大越容易过拟合
    'alpha': 0,   # L1正则化系数
    'lambda': 10,  # 控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合
    'subsample': 0.7,  # 随机采样训练样本
    'colsample_bytree': 0.5,  # 生成树时进行的列采样
    'min_child_weight': 3,
    # 这个参数默认是 1，是每个叶子里面 h 的和至少是多少，对正负样本不均衡时的 0-1 分类而言
    # ，假设 h 在 0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100 个样本。
    # 这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。
    'silent': 0,  # 设置成1则没有运行信息输出，最好是设置为0.
    'eta': 0.03,  # 如同学习率
    'seed': 1000,
    'nthread': -1,  # cpu 线程数
    'missing': 1,
    'scale_pos_weight': (np.sum(y==0)/np.sum(y==1))  # 用来处理正负样本不均衡的问题,通常取：sum(negative cases) / sum(positive cases)
}


plst = list(params.items())
num_rounds = 500  # 迭代次数
watchlist = [(xgb_train, 'train'), (xgb_val, 'val')]


# 训练模型并保存
# early_stopping_rounds 当设置的迭代次数较大时，early_stopping_rounds 可在一定的迭代次数内准确率没有提升就停止训练
model = xgb.train(plst, xgb_train, num_rounds, watchlist, early_stopping_rounds=200)
model.save_model('./xgb.model')  # 用于存储训练出的模型


preds = model.predict(xgb_test)


# 导出结果
threshold = 0.5
ypred = np.where(preds > 0.5, 1, 0)


from sklearn import metrics


print ('AUC: %.4f' % metrics.roc_auc_score(test_y,ypred))
print ('ACC: %.4f' % metrics.accuracy_score(test_y,ypred))
print ('Recall: %.4f' % metrics.recall_score(test_y,ypred))
print ('F1-score: %.4f' %metrics.f1_score(test_y,ypred))
print ('Precesion: %.4f' %metrics.precision_score(test_y,ypred))
print(metrics.confusion_matrix(test_y,ypred))

左滑查看更多

执行如上代码，将在该 Notebook 上面启动模型训练，并在完成后保存模型。然后将前面预留出的测试数据集送入模型中进行推理，我们将推理结果大于阈值（0.5）的认为是1，否则为0，然后与测试集中的标签进行对比来评估模型效果。

当然我们也可以输出模型中不同特征的重要性，这通常帮忙我们更好的理解模型行为。

Python

from xgboost import plot_importance
from matplotlib import pyplot as plt


plt.rcParams['figure.figsize'] = (10.0, 8.0) #


# 显示重要特征
plot_importance(model)
plt.show()

左滑查看更多

4.3

XGBoost Scikit-Learn 接口

XGBoost 同时还提供了Scikit Learn 风格的 API 封装，如下示例：

Python

# Scikit-Learn style API
from xgboost import XGBClassifier


model = XGBClassifier(**params,n_estimators=500)
eval_set = [(val_X, val_y)]
model.fit(X, y, early_stopping_rounds=200, eval_set=eval_set, eval_metric='auc', verbose=True)


#输出概率
preds = model.predict(test_x)


# 导出结果
y_pred = [round(pred) for pred in preds]


from sklearn import metrics
print ('AUC: %.4f' % metrics.roc_auc_score(test_y,ypred))
print ('ACC: %.4f' % metrics.accuracy_score(test_y,y_pred))
print ('Recall: %.4f' % metrics.recall_score(test_y,y_pred))
print ('F1-score: %.4f' %metrics.f1_score(test_y,y_pred))
print ('Precesion: %.4f' %metrics.precision_score(test_y,y_pred))
print(metrics.confusion_matrix(test_y,y_pred))

左滑查看更多

这样，我们在 SageMaker Notebook 实例上训练出一个预测银行客户是否会加入定期存款计划的二分类模型。XGBoost 在训练模型时会将训练数据载入到内存中，考虑到实际很多机器学习项目中，数据集规模庞大，这将需要大内存的实例类型，如果长期运行一台高配置的 Notebook 实例其成本也会较高，如何节省成本呢，下一节我们将介绍使用 SageMaker Training API 的方式节省训练模型的成本。

使用 SageMaker 内置算法训练模型

SageMaker 除了提供 Notebook 实例之外，还提供了模型训练和模型部署等功能，算法工程师可以高效、经济的开展机器学习项目。在模型训练方面，SageMaker 提供了 Training 相关的 API，在该 API 调用中，指定模型训练需要的实例类型，数量，运行环境容器镜像以及数据集在 S3 中的位置等参数，SageMaker 将创建相应的实例资源，自动将数据集从 S3 下载到新建的实例资源中，并自动启动模型训练脚本，训练完成后（生成模型），自动将模型文件上传回 S3，并自动终止训练实例资源，以停止计费。训练实例的计费是按秒计费，并且支持 Spot 实例，节省高达90%的费用。

Spot 实例：

https://aws.amazon.com/cn/ec2/spot/

SageMaker Training API 的调用脚本可以在前面介绍的 SageMaker Notebook 实例上执行，此时您只需要一个小型号的实例即可，无需使用大机型，甚至可以在您的云端 EC2 实例，本地个人电脑 IDE 等等，并且可以使用 Java、.NET 等开发语言进行 SageMaker Training API 的调用。

本地个人电脑 IDE：

https://aws.amazon.com/cn/blogs/machine-learning/run-your-tensorflow-job-on-amazon-sagemaker-with-a-pycharm-ide/

除此之外，SageMaker 在训练环节还提供了17种内置算法，您无需编写算法脚本，而只需要准备好数据集然后调用 API 即可。SageMaker 还提供了用于实验追踪管理的功能 — SageMaker Experiments，实时捕获训练过程中的指标并分析训练作业功能 – SageMaker Debugger，超参自动调优、分布式训练等等。

内置算法：

https://docs.amazonaws.cn/sagemaker/latest/dg/algos.html

SageMaker Experiments：

https://docs.amazonaws.cn/sagemaker/latest/dg/experiments.html

SageMaker Debugger：

https://docs.amazonaws.cn/sagemaker/latest/dg/train-debugger.html

超参自动调优：

https://docs.amazonaws.cn/sagemaker/latest/dg/automatic-model-tuning.html

分布式训练：

https://docs.amazonaws.cn/sagemaker/latest/dg/distributed-training.html

5.1

使用 SageMaker Training API

开展模型训练

接下来我们看下如何使用 SageMaker Training API 开展模型训练。

初始化：

Python

import sagemaker
import boto3


import numpy as np  # For matrix operations and numerical processing
import pandas as pd  # For munging tabular data
from time import gmtime, strftime
import os


region = boto3.Session().region_name
smclient = boto3.Session().client("sagemaker")


role = sagemaker.get_execution_role()


bucket = sagemaker.Session().default_bucket()
prefix = "sagemaker/DEMO-hpo-xgboost-dm"

左滑查看更多

加载数据，数据处理过程同4.2中。

Python

data = pd.read_csv("./bank-additional/bank-additional-full.csv", sep=";")
pd.set_option("display.max_columns", 500)  # Make sure we can see all of the columns
data["no_previous_contact"] = np.where(
    data["pdays"] == 999, 1, 0
)  # Indicator variable to capture when pdays takes a value of 999
data["not_working"] = np.where(
    np.in1d(data["job"], ["student", "retired", "unemployed"]), 1, 0
)  # Indicator for individuals not actively employed
model_data = pd.get_dummies(data)  # Convert categorical variables to sets of indicators
model_data = model_data.drop(
    ["duration", "emp.var.rate", "cons.price.idx", "cons.conf.idx", "euribor3m", "nr.employed"],
    axis=1,


)

左滑查看更多

这里我们将数据集拆分为训练（70%）、验证（20%）和测试（10%）数据集，并将数据集转换为 SageMaker 内置 XGBoost 算法期望的正确格式。我们将在训练期间使用训练和验证数据集。测试数据集将在部署到端点后用于评估模型性能。

SageMaker 内置 XGBoost 算法：

https://docs.amazonaws.cn/sagemaker/latest/dg/xgboost.html

Python

train_data, validation_data, test_data = np.split(
    model_data.sample(frac=1, random_state=1729),
    [int(0.7 * len(model_data)), int(0.9 * len(model_data))],
)


pd.concat([train_data["y_yes"], train_data.drop(["y_no", "y_yes"], axis=1)], axis=1).to_csv(
    "train.csv", index=False, header=False
)
pd.concat(
    [validation_data["y_yes"], validation_data.drop(["y_no", "y_yes"], axis=1)], axis=1
).to_csv("validation.csv", index=False, header=False)
pd.concat([test_data["y_yes"], test_data.drop(["y_no", "y_yes"], axis=1)], axis=1).to_csv(
    "test.csv", index=False, header=False
)

左滑查看更多

将生成的数据集上传到 S3，供下一步模型训练时使用。

Python

boto3.Session().resource("s3").Bucket(bucket).Object(
    os.path.join(prefix, "train/train.csv")
).upload_file("train.csv")
boto3.Session().resource("s3").Bucket(bucket).Object(
    os.path.join(prefix, "validation/validation.csv")
).upload_file("validation.csv")




from sagemaker.inputs import TrainingInput


s3_input_train = TrainingInput(
    s3_data="s3://{}/{}/train".format(bucket, prefix), content_type="csv"
)
s3_input_validation = TrainingInput(
    s3_data="s3://{}/{}/validation/".format(bucket, prefix), content_type="csv"
)

左滑查看更多

对于 SageMaker XGBoost 训练任务，SageMaker Debugger 提供了自动生成 XGBoost 模型训练报告的功能，该报告中有数据集样本标签分布，损失曲线变化，特征重要性，混淆矩阵等内容。我们可以在模型训练完成后，在 S3 中下载该报告。

XGBoost 模型训练报告：

https://docs.amazonaws.cn/en_us/sagemaker/latest/dg/debugger-training-xgboost-report.html

Python

from sagemaker.debugger import Rule, rule_configs


rules=[
    Rule.sagemaker(rule_configs.create_xgboost_report())
]


sess = sagemaker.Session()


container = sagemaker.image_uris.retrieve("xgboost", boto3.Session().region_name, "1.2-1")


xgb = sagemaker.estimator.Estimator(
    container,
    role,
    instance_count=1,
    instance_type="ml.m4.xlarge",
    base_job_name="bank-dm-xgboost-report",
    output_path="s3://{}/{}/output".format(bucket, prefix),
    sagemaker_session=sess,
    rules=rules
)


xgb.set_hyperparameters(
    max_depth=5,
    eta=0.2,
    gamma=4,
    min_child_weight=6,
    subsample=0.8,
    objective="binary:logistic",
    num_round=500,
)


xgb.fit({"train": s3_input_train, "validation": s3_input_validation})

左滑查看更多

执行如上代码，从输出的日志可以看到如下日志（示例）：

2022-02-18 09:16:46 Starting - Starting the training job...
2022-02-18 09:17:09 Starting - Launching requested ML instancesCreateXgboostReport: InProgress
ProfilerReport-1645175806: InProgress
......
2022-02-18 09:18:15 Starting - Preparing the instances for training...............
2022-02-18 09:20:38 Downloading - Downloading input data...
2022-02-18 09:21:10 Training - Downloading the training image.. 
2022-02-18 09:21:30 Training - Training image download completed. Training in progress.
.........等等训练过程日志

左滑查看更多

在日志最后有本次训练的用时，可以看到启用 SPOT 实例功能后，此次训练成本可以节省59.2%。

2022-02-18 09:22:16 Uploading - Uploading generated training model
2022-02-18 09:22:16 Completed - Training job completed
Training seconds: 98
Billable seconds: 40
Managed Spot Training savings: 59.2%

左滑查看更多

5.2

训练任务管理

您也可以在 SageMaker 控制台 Training – Training Jobs 中看到此次训练任务，并可以进一步的查看详情（任务启动时间，持续时间，超参，训练数据集，实例资源使用监控，模型输出位置等信息）。

在详情页下方，您可以在 S3 中找到该次训练模型存储在 S3 中的位置，点击该链接可以跳转到 S3 存储桶中该文件页面。

5.3

SageMaker XGBoost 训练报告

在如上 S3 存储桶对象路径（model.tar.gz）上一级目录下可以看到 rule-output 目录，在该目录下，即可找到 SageMaker Debugger 生成的 XGBoost 报告

（CreateXgboostReport/xgboost_report.html）。

下载到本地即可阅读该报告。

使用 AutoGluon 训练模型

AutoGluon 是一个流行的开源易用的 AutoML 模型训练包，支持文本、图像和表格数据的应用场景，AutoGluon 面向 ML 初学者和专家，使您能够：

AutoGluon：

https://auto.gluon.ai/stable/index.html

● 只需几行代码，即可为您的原始数据快速构建深度学习和传统机器学习模型原型。

● 在没有专业知识的情况下自动利用最先进的技术（在适当的情况下）。

● 自动超参数调整、模型选择/集成、架构搜索和数据处理。

● 轻松改进/调整您的定制模型和数据管道，或为您的用例定制 AutoGluon。

接下来我们将介绍如何在前面创建的 SageMaker Notebook 上面使用 AutoGluon 来自动化训练出模型。

6.1

AutoGluon 安装

# Install AutoGluon
!pip install -U setuptools wheel
!pip install -U "mxnet<2.0.0"
!pip install autogluon

左滑查看更多

6.2

使用 AutoGluon Tabular 训练模型

针对本用例，我们将使用 AutoGluon.Tabular 训练一个二分类模型，只需通过一个简单的 fit()调用，AutoGluon 可以生成高度精确的模型，根据数据表中其他列的值来预测其中一列中的值，您可以使用 AutoGluon 解决表格数据分类和回归问题。

Python

from autogluon.tabular import TabularDataset, TabularPredictor
ag_data = pd.read_csv("./bank-additional/bank-additional-full.csv", sep=";")
label = 'y'
print("Summary of y variable: \n", ag_data[label].describe())


ag_train_data, ag_test_data = np.split(
    ag_data.sample(frac=1, random_state=1729),
    [int(0.9 * len(model_data)),],
)

左滑查看更多

使用 AutoGluon，我们无需像3.3小节中做数据处理（缺失值处理，独热编码等），AutoGloun 会自动帮我们做这些工作。

Python

ag_test_data_X = ag_test_data.iloc[:,:-1]
ag_test_data_y =ag_test_data.iloc[:,20]


save_path = 'agModels-predictClass'  # specifies folder to store trained models


learner_kwargs = {'ignored_columns':[["duration", "emp.var.rate", "cons.price.idx", "cons.conf.idx", "euribor3m", "nr.employed"]]}


predictor = TabularPredictor(label=label, path=save_path, 
                             eval_metric='recall', learner_kwargs=learner_kwargs
                            ).fit(ag_train_data)
predictor = TabularPredictor.load(save_path)  # unnecessary, just demonstrates how to load previously-trained predictor from file


ag_y_pred = predictor.predict(ag_test_data_X)
ag_y_pred_proa = predictor.predict_proba(ag_test_data_X)


print("Predictions:  \n", ag_y_pred)
perf = predictor.evaluate_predictions(y_true=ag_test_data_y, y_pred=ag_y_pred, auxiliary_metrics=True)
# perf = predictor.evaluate_predictions(y_true=ag_test_data_y, y_pred=ag_y_pred_proa, auxiliary_metrics=True) #when eval_metric='auc' in TabularPredictor()

左滑查看更多

从上面代码可见，使用 AutoGluon 可以以少量代码即可完成机器学习任务，无需进行数据处理，算法挑选等复杂工作，非常适合机器学习领域初学者也能帮助机器学习专家节省大量调试时间。

总结

本文作为普惠机器学习系列文章的第一篇，介绍了如何创建 SageMaker Notebook 实例，并基于 UCI 机器学习数据集中的 Bank Makerting Data Set 介绍了如何使用开 XGBoost、SageMaker 内置算法以及 AutoGluon 开展机器学习任务，针对数据库工程师，大数据工程师亚马逊云科技同样提供了相应的产品和功能帮助数据工程师快速、高效的应用机器学习，也推荐您继续阅读本系列的其他文章。

参考资料

● XGBoost Python API

https://xgboost.readthedocs.io/en/stable/python/python_api.html

● XGBoot XGBClassifier

https://xgboost.readthedocs.io/en/stable/python/python_api.html#xgboost.XGBClassifier

● XGBoost 代码示例

https://www.cnblogs.com/nxf-rabbit75/p/9748345.html

● SageMaker Python SDK

https://sagemaker.readthedocs.io/en/stable/api/training/estimators.html

● SageMaker 内置算法示例1

https://github.com/aws/amazon-sagemaker-examples/blob/c7ffabe26e873803c2cdf5b66c9a7c36f493ea39/introduction_to_applying_machine_learning/xgboost_customer_churn/xgboost_customer_churn.ipynb

● SageMaker 内置算法示例2

https://github.com/aws/amazon-sagemaker-examples/blob/c7ffabe26e873803c2cdf5b66c9a7c36f493ea39/hyperparameter_tuning/xgboost_direct_marketing/hpo_xgboost_direct_marketing_sagemaker_python_sdk.ipynb

● AutoGluon Quickstart

https://auto.gluon.ai/stable/tutorials/tabular_prediction/tabular-quickstart.html

● AutoGluon TabularPredictor

https://auto.gluon.ai/stable/_modules/autogluon/tabular/predictor/predictor.html#TabularPredictor

本篇作者

王世帅

亚马逊云科技机器学习产品技术专家，负责基于亚马逊云科技的机器学习方案的咨询与设计，专注于机器学习的推广与应用，对于云端深度学习模型分布式训练，NLP 等领域有丰富经验，多次面向开发者进行云端机器学习产品的介绍与最佳实践经验分享。

听说，点完下面4个按钮

就不会碰到bug了！

你可能感兴趣的:(机器学习,人工智能,大数据,数据挖掘)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo