Lvcx

Python调用scikit-learn实现机器学习

第一章机器学习介绍及环境部署

1-1 课程介绍

1. 课程目标

1.了解人工智能（AI）及其主流算法

AI是什么、有什么特点；机器学习与AI的关系。

2.熟练使用python及scikit-learn工具包

环境配置与安装、基本语法、数据操作。

3.掌握完成机器学习任务的能力

数据预处理、模型加载、训练及预测。

4.运用不同的机器学习模型、评估模型表现

K-邻近（KNN）算法、逻辑回归；混淆矩阵。

2. 课程目录

机器学习介绍及其原理
及其学习开发环境部署
机器学习实现之数据预处理
机器学习实现之模型训练
机器学习实现之模型评估

3. 机器学习介绍及其原理

人工智能、机器学习是什么？
机器学习的主要类别有哪些？（监督式学习、非监督式学习、强化学习）
机器学习案例介绍
机器学习的基本原理

4. 什么是人工智能

人工智能就其本质而言，是机器对人的思维信息过程的模拟，让机器能向人一样思考。

举例：电影兴趣度判断。
根据输入信息进行模型结构、权重更新，实现最终优化。
特点：信息处理、自我学习、优化升级。

5. 人工智能核心方法：机器学习、深度学习

机器学习是一种实现人工智能的方法，深度学习是一种实现机器学习的技术。
举例：空间点距求解。
机器学习：使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。比如：垃圾邮件检测、房价预测。
深度学习：模仿人类神经网络，建立模型，进行数据分析。比如：人脸识别、语义理解、无人驾驶。

6. 机器学习的主要类别有哪些？

1. 监督式学习

基于数据及结果进行预测。
举例：垃圾邮件检测、房价预测。
特点：一组输入数据对应一个“正确的”输出结果。（即有输入数据和标签）

2. 非监督式学习

从数据中挖掘关联性。
举例：数据聚类、相关新闻自动推送。
特点：不存在“正确的”答案。（有数据，无标签）

3. 强化学习

会根据你给机器的奖励和惩罚，让机器自动地去寻找模型的结构或者是数据的规律。

7. 机器学习的基本原理

1. 监督式学习

监督式学习核心步骤：

使用标签数据训练机器学习模型。

“标签数据”是指由输入数据对应的正确的输出结果。
“机器学习模型”将学习输入数据与之对应的输出结果间的函数关系。

调用训练好的机器学习模型，根据新的输入数据预测对应的结果。

2. 非监督式学习

相比与监督式学习，非监督式学习不需要标签数据，而是通过引入预先设定的优化准则进行模型训练，比如自动将数据分为三类。

1-2 开发环境介绍

1. Python介绍

Python是一种解释型的、面向对象的、移植性强的高级程序设计语言。
开发者：吉多·范罗苏姆（Guide van Rossum）

解释型：不需要编译成二进制代码，可以直接从源代码运行。
面向对象：Python既支持面向过程编程，也支持面向对象编程。
高层语言：无需考虑如何管理程序使用的内存一类的底层细节。

优点：

简单易学
开发效率高
高级语言
可移植性
可扩展性
可嵌入性

缺点：

速度慢
代码不能加密

2. scikit-learn介绍

Python语言中专门针对机器学习应用而发展起来的一款开源框架（算法库），可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法。

特点：

集成了机器学习中各类成熟的算法，容易安装和使用，样例丰富，教程和文档也非常详细。
不支持Python之外的语言，不支持深度学习和强化学习。
Scikit-learn官网：https://scikit-learn.org/stable/

3. jupyter notebook介绍

jupyter Notebook是一个开源的Web应用程序，旨在方便开发者创建和共享代码文档。用户可以在里面写代码、运行代码、查看结果，并在其中可视化数据。
特点：
允许把代码写入独立的cell中，然后单独执行。用户可以在测试项目时单独测试特定代码块，无需从头开始执行代码。
基于web框架进行交互开发，非常方便。
jupyter官网：https://jupyter.org/

1-3 开发环境部署

安装Python
安装anaconda
新建开发环境、安装numpy、scikit-learn库

conda create -n 环境名
pip(conda) install 包名

jupyter notebook界面优化
参考：https://github.com/dunovank/jupyter-themes
安装相应的优化界面的包：pip install jupyterthemes
进行界面设置：jt -t ocens16 -f fira -fs 17 -cellw 90% -ofs 14 -dfs 14 -T

第二章机器学习变编程实战

2-1 数据预处理：iris数据介绍、数据加载、数据展示、维度确认

1. 目标

iris数据集是什么、它与机器学习有什么关系。
如何通过scikit-learn加载iris数据。
如何进行数据展示。
使用scikit-learn进行数据处理的四个关键点。

2. Iris数据集

Iris鸢尾花数据集是一个经典数据集，在统计学习和机器学习领域都经常被用作示例。
有3类，共150条记录，每类各50个数据。
每条记录都有4项特征：花萼长度（Sepal Length）、花萼宽度（Sepal Width）、花瓣长度（Petal Length）、花瓣宽度（Petal Width），可以通过这4个特征预测鸢尾花卉属于（iris-setosa、iris-versicolour、iris-virginica）中的哪一品种。

1. iris数据集在机器学习的应用

属于监督式学习应用：根据花的四个特征预测鸢尾花卉属于（iris-setosa、iris-versicolour、iris-virginica）中的哪一品种。
机器学习经典案例，原因：简单而具有代表性。

3. 使用Python进行基本的数据操作

iris数据加载
数据展示
确认数据维度
使用scikit-learn进行数据处理的四个关键点
- 1.区分属性数据和结果数据
- 2.属性数据与结果数据都是量化的
- 3.运算过程中，属性数据与结果数据的类型都是Numpy数组
- 4.属性数据与结果数据的维度是对应的

4. 代码实战

# Iris数据加载
from sklearn import datasets
iris = datasets.load_iris()


# 展示iris数据
print(iris.data)
# 每一行数据是一个样本
# 每一列数据代表不同样本同一属性下对应的数值


# 查看对应属性名称
print(iris.feature_names)


# 查看输出的结果
print(iris.target)


# 查看结果的含义
print(iris.target_names)   
# 对应3种类别


# 分类问题 是对应结果为类别（非连续性）的监督式学习问题
# 每个预测的数值即是结果数据（或称为：目标、输出、标签）


# 确认数据类型
print(type(iris.data))


print(type(iris.target))


# 确认维度
print(iris.data.shape) 
# 150行、4列


print(iris.target.shape)
# 150行，1列


# X是输入数据赋值，y是输出数据赋值
X = iris.data
y = iris.target


print(X)


print(y)

2-2 模型训练：分类问题、KNN模型、模型加载、训练、预测

1. 目标

Iris数据回顾
分类问题介绍
K近邻分类模型介绍
使用scikit-learn进行模型训练与预测的四步骤

2. 分类问题介绍

Email：是否为垃圾邮件？
动物：识别图片中的动物是猫还是狗
iris花：鸢尾花识别

分类：根据数据集目标的特征或属性，划分到已有的类别中。
常用的分类算法：K近邻（KNN）、逻辑回归、决策树、朴素贝叶斯。

3. K近邻分类模型（KNN）

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。
通俗来说，如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
该方法的不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最邻近点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。另外还有一种 Reverse KNN法，它能降低KNN算法的计算复杂度，提高分类的效率。
KNN算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
最简单的机器学习算法之一。
举例：
- K=3，绿色源点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，判定绿色的待分类点属于红色的三角形一类。
- 如果K=5，绿色源点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，判定绿色的待分类点属于蓝色的正方形一类。

4. KNN分类图

5. 使用scikit-learn进行模型训练与预测

iris数据加载
使用scikit-learn建模四步骤
- 1.调用需要使用的模型类
- 2.模型初始化（创建一个模型实例）
- 3.模型训练
- 4.模型预测

6. 代码实战

# iris数据加载


# 通过sklearn自带数据包加载iris数据
from sklearn import datasets
iris = datasets.load_iris()
# 样本数据与结果分别赋值给“X”，“y”
X = iris.data
y = iris.target


# 确认样本和输出数据维度
print("X维度：", X.shape)
print("y维度：", y.shape)


# 模型调用
from sklearn.neighbors import KNeighborsClassifier


# 创建实例
knn = KNeighborsClassifier(n_neighbors=1)


print(knn)


# 模型训练(拟合)
knn.fit(X, y)


# 进行样本的预测
knn.predict([[1, 2, 3, 4]])

# 同时预测多个样本
x_test = [[1, 2, 3, 4], [2, 4, 1, 2]]
knn.predict(x_test)


# 设定一个新的K值进行KNN建模
knn_5 = KNeighborsClassifier(n_neighbors=5)
# 确认模型结构的方法：在上一行代码的小括号中按Shift + Tab键


knn_5.fit(X, y)
knn_5.predict(x_test)

2-3 模型评估一：准确率、数据分离、参数选择

1. 目标

模型训练回顾
模型评估：全数据集训练与预测
模型评估：训练数据集、测试数据集分离
如何为模型选择合适的关键参数，预测新数据对应结果

2. 模型训练回顾

分类任务：根据花特征数据预测其所属的品种
已使用分类模型：K近邻分类（K=1），K近邻分类（K=5）
需要一个选择合适模型额方法
解决办法：尝试模型评估流程。

3. 评估流程：

1. 将整个数据集用于训练与测试

使用整个数据集进行模型训练
使用相同的数据集进行测试，并通过对比预测结果与实际结果来评估模型表现

1. 准确率：

正确预测的比例
用于评估分类模型表现的常用指标

2. 训练数据与测试数据相同导致的问题：

训练模型的最终目标是为了预测新数据对应的结果
最大化训练准确率通常会导致模型复杂化（比如增加维度），因此将降低模型的通用性
过度复杂模型容易导致训练数据的过度拟合（绿色线）

2. 分离训练数据与测试数据

1. 步骤：

把数据分成两部分：训练集、测试集
使用训练集数据进行模型训练
使用测试集数据进行预测，从而评估模型表现

2. 分离训练集与测试集数据的作用：

可以实现在不同的数据集上进行模型训练与预测
建立数学模型的目的是对新数据的预测，基于测试数据计算的准确率能更有效地评估模型表现

3. 模型关键参数选择：

目标：确定合适的参数（组），提高模型预测准确率
方法：

1.遍历参数组合，建立对应的模型
2.使用训练集数据进行模型训练
3.使用测试集数据进行预测，评估每个模型表现
4.通过图形展示参数（组）与准确率的关系，确定合适的参数（组）

4. 代码实战

# 评估流程：1. 将整个数据集用于训练与测试
# 1. 使用整个数据集进行模型训练
# 2. 使用相同的数据集进行测试，并通过对比测结果与实际结果来评估模型表现


# 数据加载 模型训练与预测
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target


from sklearn.neighbors import KNeighborsClassifier
knn_5 = KNeighborsClassifier(n_neighbors = 5)
# 训练模型
knn_5.fit(X, y)


y_pred = knn_5.predict(X)
print(y_pred)
print(y_pred.shape)


# 准确率：
	# 正确预测的比例
	# 用于评估分类模型表现的常用指标



# 准确率计算
from sklearn.metrics import accuracy_score
print(accuracy_score(y, y_pred))


# K近邻分类KNN（K = 1）


knn_1 = KNeighborsClassifier(n_neighbors = 1)
knn_1.fit(X, y)
y_pred = knn_1.predict(X)
print(accuracy_score(y, y_pred))



# 训练数据与测试数据相同导致的问题：
	# 训练模型的最终目标是为了预测新数据对应的结果
	# 最大化训练准确率通常会导致模型复杂化（比如增加维度），因此将降低模型的通用性
	# 过度复杂模型容易导致训练数据的过度拟合


# 确认数据条数
print(X.shape)  # 150条
print(y.shape)


# 数据分离
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4)    # 训练的数据，测试的数据、训练的结果、测试的结果


# 分离后，数据集的维度确认
print(X_train.shape)  # 训练的数据
print(X_test.shape)   # 测试的数据
print(y_train.shape)  # 训练的结果
print(y_test.shape)   # 测试的结果


# 分离训练集与测试集数据的作用：
	# 可以实现在不同的数据集上进行模型训练与预测
	# 建立数学模型的目的是对新数据的预测，基于测试数据计算的准确率能更有效地评估模型表现


# 分离后，数据集的训练和评估
knn_5_s = KNeighborsClassifier(n_neighbors = 5)
knn_5_s.fit(X_train, y_train)
y_train_pred = knn_5_s.predict(X_train)
y_test_pred = knn_5_s.predict(X_test)


# 查看分离后在训练集上模型预测的准确率
print(accuracy_score(y_train, y_train_pred))


# 查看分离后在测试集上模型预测的准确率
print(accuracy_score(y_test, y_test_pred))


# KNN模型(K=1)
knn_1_s = KNeighborsClassifier(n_neighbors = 1)
knn_1_s.fit(X_train, y_train)
y_train_pred = knn_1_s.predict(X_train)
y_test_pred = knn_1_s.predict(X_test)


# 查看准确率
print(accuracy_score(y_train, y_train_pred))
print(accuracy_score(y_test, y_test_pred))


# 如何确定更合适的K值
	# K ：1-25
	# 遍历所有可能的参数组合
	# 建立相应的模型
	# 模型的训练以及预测
	# 基于测试数据的准确率计算
	# 查看最高的准确率对应的K值


k_range = list(range(1, 26))
print(k_range)


# 定义存储所有训练集准确率和测试集准确率的列表
score_train = []
score_test = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors = k)
    # 训练模型
    knn.fit(X_train, y_train)
    # 预测模型
    y_train_pred = knn.predict(X_train)
    y_test_pred = knn.predict(X_test)
    # 获得准确率
    train_score = accuracy_score(y_train, y_train_pred)
    test_score = accuracy_score(y_test, y_test_pred)
    # 保存每一次的准确率
    score_train.append(train_score)
    score_test.append(test_score)


# 训练集的准确率
for k in k_range:
    print(k, score_train[k - 1])


# 测试集的准确率
for k in k_range:
    print(k, score_test[k - 1])


# 用图形展示准确率
# 导入matplotlib模块并使图像在notebook中展示
import matplotlib.pyplot as plt
# -*- coding: utf-8 -*-
%matplotlib inline  
# 直接在界面展示结果

# 展示k值与训练数据集预测准确率之间的关系
plt.plot(k_range, score_train)  # x轴，y轴数据
plt.xlabel("K(KNN model)")
plt.ylabel("Training Accuracy")


# 导入matplotlib模块并使图像在notebook中展示
import matplotlib.pyplot as plt
# -*- coding: utf-8 -*-
%matplotlib inline  
# 直接在界面展示结果

# 展示k值与测试数据集预测准确率之间的关系
plt.plot(k_range, score_test)  # x轴，y轴数据
plt.xlabel("K(KNN model)")
plt.ylabel("Testing Accuracy")


# 训练数据集准确率 随着模型复杂而提高
# 测试数据集准确率 在模型过于简单或过于复杂的情况下更低
# KNN模型中，模型复杂度由K值决定（K越小，模型复杂度越高）


# 对新数据进行预测
knn_6 = KNeighborsClassifier(n_neighbors = 6)
knn_6.fit(X_train, y_train)
y_pred = knn_6.predict([[1, 2, 3, 4]])
print(y_pred)

2-4 模型评估二：逻辑回归、混淆矩阵、召回率、F1分数

1. 目标

逻辑回归模型（在二分类问题用使用广泛）
皮马印第安人糖尿病数据集
使用准确率进行模型评估的局限性
混淆矩阵、模型衡量指标及其意义

2. 逻辑回归模型

用于解决分类问题的一种模型。根据数据特征或属性，计算其归属于某一类别的概率P(x)，根据概率数值判断其所属类别。主要应用场景：二分类问题。
数学表达式：

其中，y为类别结果，P为概率，x为特征值，a、b为常量。

3. 皮马印第安人糖尿病数据集

简介：基于数据集中包括的某些诊断测量来诊断性地预测患者是否患有糖尿病。
输入变量：独立变量包括患者的怀孕次数、葡萄糖量、血压、皮褶厚度、体重指数、胰岛素水平、糖尿病谱系功能、年龄。
输出结果：是否患有糖尿病。
数据来源：Pima Indians Diabetes dataset
数据预览：
任务：通过怀孕次数、胰岛素水平、体重指数、年龄四个特征预测是否患有糖尿病。

4. 使用准确率进行模型评估的局限性

模型评估回顾：

目的：通过模型评估对比模型表现、确定合适的模型参数（组）。
方法：计算测试数据集预测准确率以评估模型表现。
预测准确率的局限性：
无法真实反映模型针对各个分类的预测准确度。
准确率可以方便的用于衡量模型的整体预测效果，但无法反应细节信息，具体表现在：
没有体现数据的实际分布情况。
没有体现模型错误预测的类型。

空准确率：当模型总是预测比例较高的类别，其预测准确率的数值。

5. 混淆矩阵

混淆矩阵，又称为误差矩阵，用于衡量分类算法的准确程度。
True Positives(TP)：预测准确、实际为正样本的数量（实际为1，预测为1）
True Negatives(TN)：预测准确、实际为负样本的数量（实际为0，预测为0）
False Positives(FP)：预测错误、实际为负样本的数量（实际为0，预测为1）（错误地被预测成正样本）
False Negatives(FN)：预测错误、实际为正样本的数量（实际为1，预测为0）（错误地被预测成负样本）

1. 混淆矩阵指标

2. 混淆矩阵指标特点：

分类任务中，相比单一的预测准确率，混淆矩阵提供了更全面的模型评估信息。
通过混淆矩阵，我们可以计算出多样的模型表现衡量指标，从而更好地选择模型。

3. 哪个衡量指标更关键？

衡量指标的选择取决于应用场景。
垃圾邮件检测（正样本为“垃圾邮件”）：希望普通邮件（负样本）不要被判断为垃圾邮件（正样本），需要关注精确率，希望判断为垃圾邮件的样本都是判断正确的；还需要关注召回率，希望所有的垃圾邮件尽可能被判断出来。
异常交易检测（正样本为“异常交易”）：希望所有的异常交易都被检测到，即判断为正常的交易中尽可能不存在异常交易，需要关注特异度。

6. 代码实战

# 逻辑回归模型
# 皮马印第安人糖尿病数据集
# 使用准确率进行模型评估的局限性
# 混淆矩阵、模型衡量指标及其意义


# 皮马印第安人糖尿病数据集
# 简介：基于数据集中包括的某些诊断测量来诊断性地预测患者是否患有糖尿病。
# 输入变量：独立变量包括患者的怀孕次数、葡萄糖量、血压、皮褶厚度、体重指数、胰岛素水平、糖尿病谱系功能、年龄。
# 输出结果：是否患有糖尿病。
# 数据来源：Pima Indians Diabetes dataset
# 任务：通过怀孕次数、胰岛素水平、体重指数、年龄四个特征预测是否患有糖尿病。


# 数据预处理
import pandas as pd
path = "./PimaIndiansdiabetes.csv"
pima = pd.read_csv(path)
pima.head()   # 展示前5行


# X，y赋值（从csv文件中取出需要用到的指标）
feature_names = ["Pregnancies", "Insulin", "BMI", "Age"]
X = pima[feature_names]   # 取出多列数据
y = pima.Outcome   # 取出最后一列的数据（最后一列表头“Outcome”）


# 维度确认
print(X.shape)
print(y.shape)


# 数据分离（分成训练数据集合测试数据集）
from sklearn.model_selection import train_test_split 
# random_state=0保证每一次分离是一样的
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)


# 查看分离后的维度
print(X_train.shape)  # 训练集数据
print(y_train.shape)  # 训练集标签
print(X_test.shape)   # 测试集数据
print(y_test.shape)   # 测试集标签


# 模型训练（逻辑回归模型）
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(X_train, y_train)


# 测试数据集结果预测
y_test_pred = logreg.predict(X_test)


# 使用准确率进行评估
from sklearn import metrics
print(metrics.accuracy_score(y_test, y_test_pred))


# 预测准确率的局限性：无法真实反映模型针对各个分类的预测准确度。

# 任务：计算并对比预测模型预测准确率、空准确率。

# 空准确率：当模型总是**预测比例较高**的类别，其预测准确率的数值。


# 确认正负样本数据量
y_test.value_counts()


# 1的比例
y_test.mean()


# 0的比例
1 - y_test.mean()


# 空准确率
max(y_test.mean(), 1-y_test.mean())


# 分类准确率可以方便地用于衡量模型的整体预测效果，但无法反应细节信息，具体表现在：
	# 没有体现数据的实际分布情况
	# 没有体现模型的错误预测的类型


# 混淆矩阵：又称为误差矩阵，用于衡量分类算法的准确程度。


# 名词解释：
# True Positives（TP）：预测准确、实际为正样本的数量（实际为1，预测为1）
# True Negatives（TN）：预测准确、实际为负样本的数量（实际为0，预测为0）
# False Positives（FP）：预测错误、实际为负样本的数量（实际为0，预测为1）（错误地被预测成正样本）
# False Negatives（FN）：预测错误、实际为正样本的数量（实际为1，预测为0）（错误地被预测成负样本）


# 计算并展示混淆矩阵
print(metrics.confusion_matrix(y_test, y_test_pred))


# 展示部分实际结果（25组）
print("true: ", y_test.values[0 : 25])
print("pred: ", y_test_pred[0 : 25])


# 四个因子赋值
confusion = metrics.confusion_matrix(y_test, y_test_pred)
TN = confusion[0, 0]   # 行、列
FP = confusion[0, 1]
FN = confusion[1, 0]
TP = confusion[1, 1]
print("TN: ", TN)
print("FP: ", FP)
print("FN: ", FN)
print("TP: ", TP)


# 混淆矩阵指标


# 准确率：整体样本中，预测正确样本数的比例
# Accuracy = (TP + TN) / (TN + FP + FN + TP)

# 计算准确率：
# 方法一：
accuracy = (TP + TN) / (TP + TN + FN + FP)
print(accuracy)
# 方法二：
accuracy = metrics.accuracy_score(y_test, y_test_pred)
print(accuracy)


# 错误率：整体样本中，预测错误样本数的比例
# Misclassification = (FP + FN) / (TP + TN + FN + FP)

# 计算错误率：
# 方法一：
mis_rate = (FP + FN) / (TP + TN + FN + FP)
print(mis_rate)
# 方法二：
mis_rate = 1 - accuracy
print(mis_rate)


# 灵敏度（召回率）：正样本中，预测正确的比例
# Sensitivity = Recall = TP / (TP + FN)

# 计算召回率：
recall = TP / (TP + FN)
print(recall)


# 特异度：负样本中，预测正确的比例
# Specificity = TN / (TN + FP)

# 计算特异度：
specificity = TN / (TN + FP)
print(specificity)


# 精确率：预测结果为正的样本中，预测正确的比例
# Precision = TP / (TP + FP)


# 计算精确率：
precision = TP / (TP + FP)
print(Precision)


# F1分数：综合Precision和Recall的一个判断指标
# F1Score = 2 * Precision * Recall / (Precision + Recall) 


# 计算F1分数：
f1_score = 2 * precision * recall / (precision + recall)
print(f1_score)


# 结论：
# 分类任务中，相比单一的 预测准确率，混淆矩阵提供了更全面的模型评估信息。
# 通过混淆矩阵，我们可以计算出多样的模型表现衡量指标，从而更好地选择模型。
# 哪个指标更关键？
# 衡量指标的选择取决于应用场景
# 垃圾邮件检测（正样本为“垃圾邮件”）：希望普通话邮件（负样本）不要被判断为垃圾邮件（正样本），需要关注精确率，希望判断为垃圾邮件的样本都是正确的；还需要关注召回率，希望所有的垃圾邮件尽可能被判断出来。
# 异常交易检测（正样本为“异常交易”）：希望所有的异常交易都被检测到，即判断为正常的交易中尽可能不存在异常交易，需要关注特异度。

2-5 人工智能实战提升

进一步学习需要掌握的一些技术：

参考课程地址：https://www.imooc.com/learn/1174

你可能感兴趣的:(Python深度学习,机器学习,python,scikit-learn)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

Python调用scikit-learn实现机器学习

第一章 机器学习介绍及环境部署

1-1 课程介绍

1. 课程目标

2. 课程目录

3. 机器学习介绍及其原理

4. 什么是人工智能

5. 人工智能核心方法：机器学习、深度学习

6. 机器学习的主要类别有哪些？

1. 监督式学习

2. 非监督式学习

3. 强化学习

7. 机器学习的基本原理

1. 监督式学习

2. 非监督式学习

1-2 开发环境介绍

1. Python介绍

2. scikit-learn介绍

3. jupyter notebook介绍

1-3 开发环境部署

第二章 机器学习变编程实战

2-1 数据预处理：iris数据介绍、数据加载、数据展示、维度确认

1. 目标

2. Iris数据集

1. iris数据集在机器学习的应用

3. 使用Python进行基本的数据操作

4. 代码实战

2-2 模型训练：分类问题、KNN模型、模型加载、训练、预测

1. 目标

2. 分类问题介绍

3. K近邻分类模型（KNN）

4. KNN分类图

5. 使用scikit-learn进行模型训练与预测

6. 代码实战

2-3 模型评估一：准确率、数据分离、参数选择

1. 目标

2. 模型训练回顾

3. 评估流程：

1. 将整个数据集用于训练与测试

1. 准确率：

2. 训练数据与测试数据相同导致的问题：

2. 分离训练数据与测试数据

1. 步骤：

2. 分离训练集与测试集数据的作用：

3. 模型关键参数选择：

4. 代码实战

2-4 模型评估二：逻辑回归、混淆矩阵、召回率、F1分数

1. 目标

2. 逻辑回归模型

3. 皮马印第安人糖尿病数据集

4. 使用准确率进行模型评估的局限性

5. 混淆矩阵

1. 混淆矩阵指标

2. 混淆矩阵指标特点：

3. 哪个衡量指标更关键？

6. 代码实战

2-5 人工智能实战提升

你可能感兴趣的:(Python深度学习,机器学习,python,scikit-learn)

第一章机器学习介绍及环境部署

第二章机器学习变编程实战