Fang GL

机器学习算法——K近邻算法详解

文章目录

k近邻算法
- - 学习目标
- 1.1K- 近邻简介
- - 学习目标
  - 1.1.1 k-近邻算法概念
  - 1.1.2 简单理解k-进邻算法
  - 1.1.3 knn的算法思想
  - 1.1.4 knn 算法流程
- 1.2K近邻算法api初步使用
- - 1.2.1主要任务
  - 1.2.2 Scikit-learn⼯具介绍
  - 1.1.3 K近邻算法API
  - 1.1.4 案例-初步了解KNeighborsClassifier
- 1.3距离度量
- - 学习目标
  - 1.3.1距离公式的基本性质
  - 1.3.2常见的距离公式
  - - 1.3.2.1欧式距离
    - 1.3.2.2曼哈顿距离(Manhattan Distance)
    - 1.3.2.3切比雪夫距离 (Chebyshev Distance)
    - 1.3.2.4闵可夫斯基距离(Minkowski Distance)：
- 1.4 k值的选择
- - 学习目标
  - 1.4.1 k值的选择
  - 1.4.2误差
- 1.5 KD树
- - 1.5.1 问题导入：
  - 1.5.2什么是kd树
  - 1.5.3原理
  - 1.5.4 kd树的构造
  - 1.5.5最近邻域搜索
- 1.6 案例一：鸢尾花种类预测--数据集介绍
- - 1.6.1 关于数据集的具体介绍：
  - 1.6.2 scikit-learn数据集API介绍
  - 1.6.3 sklearn数据集返回值的介绍
  - 1.6.4 查看数据分布
  - 1.6.5数据集的划分
- 1.7特征工程-特征预处理
- - 1.7.1学习目标
  - 1.7.2什么是特征预处理
  - 1.7.3归一化
  - 1.7.4标准化
  - 1.7.5knn算法总结
- 1.8 案例二：鸢尾花种类预测—流程实现
- - 步骤分析
- 1.9 交叉验证和网格搜索
- - 学习目标
  - 1.9.1 什么是交叉验证validation)
  - - 分析
    - 为什么需要交叉验证？
  - 1.9.2什么是⽹格搜索(Grid Search)
  - 1.9.3 交叉验证，网格搜索（模型选择与调优）API
  - 1.9.4 案例—鸢尾花增加K值调优
- 1.10 案例三：预测facebook签到位置
- - 项目描述
  - 数据集介绍
  - 总体代码

k近邻算法

学习目标

掌握K-近邻算法实现过程
理解K-近邻算法的距离公式
理解K-近邻算法的k值问题
知道kd树实现搜索过程
知道k-进邻算法的优缺点

1.1K- 近邻简介

学习目标

了解什么是 knn 算法
知道knn算法求解过程

1.1.1 k-近邻算法概念

K近邻（K-Nearest Neighbor, KNN）是一种基本的机器学习算法，所谓k进邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表。比如：判断一个人的人品，只需要观察与他来往最密切的几个人的人品的好坏可以得出，即“近朱者赤，近墨者黑“

1.1.2 简单理解k-进邻算法

1.1.3 knn的算法思想

计算已知类别中数据集的点与当前点的距离[即计算所有样本点与待分类样本之间的距离]

按照距离递增次序排序[计算完样本距离进行排序]

选取与当前点距离最小的k个点[选取距离样本最近的k个点]

确定前k个点所在类别的出现频率[针对这k个点，统计下各个类别分别有多少个]

返回前k个点出现频率最高的类别作为当前点的预测分类[k个点中某个类别最多，就将样本划归在那个类别

1.1.4 knn 算法流程

搜集数据：如网络爬取，数据库，文件

准备数据：格式化处理，对不同类别的数据进行统一的格式化处理

分析数据：观察数据特点，有没有缺失值

训练数据：不适用于knn算法

测试算法：计算错误率

应用算法：针对完善的模型进行分装重构，然后进行实际应用

1.2K近邻算法api初步使用

1.2.1主要任务

1.了解sklearn工具的优点和包含内容

2.应⽤skyline中的api实现KNN算法的简单使⽤

3.机器学习流程复习

1.获取数据集

2.数据基本处理

3.特征工程

4.机器学习

5.模型评估

1.2.2 Scikit-learn⼯具介绍

1.Python语⾔的机器学习⼯具

2.Scikit-learn包括许多知名的机器学习算法的实现

3.Scikit-learn⽂档完善，容易上⼿，丰富的API

4.⽬前稳定版本0.19.1

（1）安装

 pip3 install scikit-learn==0.19.1

（2）Scikit-learn所包含的内容

在 Sklearn 里面有六大任务模块：分别是分类、回归、聚类、降维、模型选择和预处理

1.1.3 K近邻算法API

 sklearn.neighbors.KNeighborsClassifier(n_neighbors=5) 关于k的取值我们后面会讲到

1.1.4 案例-初步了解KNeighborsClassifier

1.导入模块

from sklearn.neighbors import KNeighborsClassifier

2.数据处理

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])#调用numpy定义一个矩阵
y = [1, 1, 1, 0, 0, 0]                          # 分类值确定

3.调用fit方法进行训练

使⽤fit⽅法进⾏训练模型

estimator = KNeighborsClassifier(n_neighbors=2) # 使⽤fit⽅法进⾏训练确定k=2
estimator.fit(X, y)                             # 导入训练值

4.进行预测并输出结果

result = estimator.predict([[1, 0]])
print(result)

5.为了更好的展示算法特性，我们引入了numpy和matplotlib对代码内容进行展示。

import numpy as np  # 导入 numpy
from sklearn.neighbors import KNeighborsClassifier  # 导入sklearn模块
import matplotlib.pyplot as plt  # 导入 matplotlib.plot

# 数据处理
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])  # 调用numpy模块定义一个矩阵
y = ["左下", "左下", "左下", "右上", "右上", "右上"]  # 类别

# 使⽤fit⽅法进⾏训练模型
estimator = KNeighborsClassifier(n_neighbors=2)  # 使⽤fit⽅法进⾏训练确定k=2
estimator.fit(X, y)  # 导入训练值 

# 进行预测并输出结果
result = estimator.predict([[1, 0]])
print("[1,0]点被归类为:", result)

# 可视化
plt.scatter(1, 0)  # 同第九行数值 使用matplotlib绘制预测点在图中的位置
plt.scatter(X[:, 0], X[:, 1])  # 对矩阵内元素进行切片
plt.show()

输出结果分析：[1,0]点被归类为: [‘右上’]

通过上方输出结果我们可以看出，经过我么的6个数据的训练，我们的算法已经可以确认出我们指定的被预测点的相对方位为左上方还是右下方。由此体现出我们的K近邻算法，是根据近邻数据从而确定自己的位置，从而实现一个分类的功能。

1.3距离度量

学习目标

1. 了解距离公式的基本性质
2. 知道机器学习中常见的距离计算公式

1.3.1距离公式的基本性质

1.3.2常见的距离公式

在机器学习过程中，对于函数 dist(., .)，若它是⼀"距离度量" (distance measure)，则需满⾜⼀些基本性质:
⾮负性： dist(X , X ) >= 0 ；
同⼀性：dist(x , x ) = 0。当且仅当 X = X ；
对称性： dist(x , x ) = dist(x , x )；
直递性： dist(x , x ) <= dist(x , x ) + dist(x , x ) 直递性常被直接称为“三⻆不等式”

1.3.2.1欧式距离

X=[[1,1],[2,2],[3,3],[4,4]]; 
 
经计算得: 
d = 1.4142 2.8284 4.2426 1.4142 2.8284 1.4142

1.3.2.2曼哈顿距离(Manhattan Distance)

顾名思义，在曼哈顿街区要从一个十字路口开车到另一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

 X=[[1,1],[2,2],[3,3],[4,4]]
    经计算得: d = 2 4 6 2 4 2

1.3.2.3切比雪夫距离 (Chebyshev Distance)

国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？这个距离就叫切比雪夫距离。

X=[[1,1],[2,2],[3,3],[4,4]];

 经计算得: 

d = 1 2 3 1 2 1

1.3.2.4闵可夫斯基距离(Minkowski Distance)：

闵⽒距离不是⼀种距离，⽽是⼀组距离的定义，是对多个距离度量公式的概括性的表述。两个n维变量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离定义为

其中p是⼀个变参数：

当p=1时，就是曼哈顿距离；
当p=2时，就是欧⽒距离；当
p→∞时，就是切⽐雪夫距离。

根据p的不同，闵⽒距离可以表示某⼀类/种的距离

1.4 k值的选择

学习目标

⽬标

知道KNN中K值⼤⼩选择对模型的影响

知道估计误差和近似误差

1.4.1 k值的选择

k值过大，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单容易受到异常点的影响
k值过小相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减⼩，只有与输⼊实例较近或相似的训练实例才会对预测结果起作⽤，与此同时带来的问题是“学习”的估计误差会增⼤，换句话说，K值的减⼩就意味着整体模型变得复杂，容易发⽣过拟合；受到样本均衡的问题
K=N（N为训练样本个数）,则完全不⾜取，因为此时⽆论输⼊实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单，忽略了训练实例中⼤量有⽤信息。
在实际应⽤中，K值⼀般取⼀个⽐较⼩的数值，例如采⽤交叉验证法（简单来说，就是把训练数据在分成两组:训练 k值的选择 18 集和验证集）来选择最优的K值。

1.4.2误差

近似误差：对现有训练集的训练误差，关注训练集，如果近似误差过⼩可能会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较⼤偏差的预测。模型本身不是最接近最佳模型。估计误差：可以理解为对测试集的测试误差，关注测试集，估计误差⼩说明对未知数据的预测能⼒好，模型本身最接近最佳模型。

1.5 KD树

1.5.1 问题导入：

实现K近邻算法时，主要考虑的问题就是如何对训练数据进行快速的k近邻搜索

k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存储好以后，再查找K近邻。当训练集很大时，计算非常耗时。为了提高kNN搜索的效率，可以考虑使用特殊的结构存储训练数据，以减小计算距离的次数。这里介绍的就是KD树。

1.5.2什么是kd树

根据KNN每次需要预测⼀个点时，我们都需要计算训练数据集⾥每个点到这个点的距离，然后选出距离最近的k个点进⾏投票。当数据集很⼤时，这个计算成本⾮常⾼，针对N个样本，D个特征的数据集，其算法复杂度O（**DN **）。

kd树：为了避免每次都重新计算⼀遍距离，算法会把距离信息保存在⼀棵树⾥，这样在计算之前从树⾥查询距离信息，

尽量避免重新计算。其基本原理是，如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，

就可以在合适的时候跳过距离远的点。这样优化后的算法复杂度可降低到O（DNlog（N））。感兴趣的读者可参阅论⽂：Bentley，J.L.，Communications of the ACM（1975）。

1989年，另外⼀种称为Ball Tree的算法(用来解决多维特征的算法)，在kd Tree的基础上对性能进⼀步进⾏了优化。感兴趣的读者可以搜索Five

balltree construction algorithms来了解详细的算法信息。

1.5.3原理

⻩⾊的点作为根节点，上⾯的点归左⼦树，下⾯的点归右⼦树，接下来再不断地划分，分割的那条线叫做分割超平⾯（splitting hyperplane），在⼀维中是⼀个点，⼆维中是线，三维的是⾯。

⻩⾊节点就是Root节点，下⼀层是红⾊，再下⼀层是绿⾊，再下⼀层是蓝⾊。

1.树的建立；

2.最近邻域搜索（Nearest-Neighbor Lookup）

kd树(K-dimension tree)是⼀种对k维空间中的实例点进⾏存储以便对其进⾏快速检索的树形数据结构。kd树是⼀种⼆叉树，表示对k维空间的⼀个划分**，构造kd树相当于不断地⽤垂直于坐标轴的超平⾯将K维空间切分，构成⼀系列的K维超矩形区域**。kd树的每个结点对应于⼀个k维超矩形区域。利⽤kd树可以省去对⼤部分数据点的搜索，从⽽减少搜索的计算量。

类⽐“⼆分查找”：给出⼀组数据：[9 1 4 7 2 5 0 3 8]，要查找8。如果挨个查找（线性扫描），那么将会把数据集都遍历⼀遍。⽽如果排⼀下序那数据集就变成了：[0 1 2 3 4 5 6 7 8 9]，按前⼀种⽅式我们进⾏了很多没有必要的查找，现在如果我们以5为分界点，那么数据集就被划分为了左右两个“簇” [0 1 2 3 4]和[6 7 8 9]。

因此，根本就没有必要进⼊第⼀个簇，可以直接进⼊第⼆个簇进⾏查找。把⼆分查找中的数据点换成k维数据点，这样的划分就变成了⽤超平⾯对k维空间的划分。空间划分就是对数据点进⾏分类，“挨得近”的数据点就在⼀个空间⾥⾯。

1.5.4 kd树的构造

1.构造根节点，使根结点对应于K维空间中包含所有实例点的超矩形区域；

2.通过递归的方法，不断地对k维空间进行切分，生成子节点。

3.重复第二步骤，直到子区域中没有示例时终止

4. 通常，循环的选择坐标轴对空间切分，选择训练实例点在坐标轴上的中位数为切分点，这样得到的kd树是平衡的（平衡⼆叉树：它是⼀棵空树，或其左⼦树和右⼦树的深度之差的绝对值不超过1，且它的左⼦树和右⼦树都是平衡⼆叉树）。

5.需要关注细节：a.选择向量的哪一维进行划分；

b.如何划分数据

案例:

题目:给定一个二维空间数据集：T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}，构造一个平衡kd树。

根结点对应包含数据集T的矩形，选择x(1)轴，6个数据点的x(1)坐标中位数是6，这里选最接近的(7,2)点，以平面x(1)=7将空间分为左、右两个子矩形(子结点);

接着左矩形以x(2)=4分为两个子矩形（左矩形中{(2,3),(5,4),(4,7)}点的x(2)坐标中位数正好为4），右矩形以x(2)=6分为两个子矩形，如此递归，最后得到如下图所示的特征空间划分和kd树。

1.5.5最近邻域搜索

假设标记为星星的点是 test point，绿⾊的点是找到的近似点，在回溯过程中，需要⽤到⼀个队列，存储需要回溯的点，在判断其他⼦节点空间中是否有可能有距离查询点更近的数据点时，做法是以查询点为圆⼼，以当前的最近距离为半径画圆，这个圆称为候选超球（candidate hypersphere），如果圆与回溯点的轴相交，则需要将轴另⼀边的节点都放到回溯队列⾥⾯来。

样本集{(2,3),(5,4), (9,6), (4,7), (8,1), (7,2)}

查找点(2.1,3.1)

在(7,2)点测试到达(5,4)，在(5,4)点测试到达(2,3)，然后search_path中的结点为<(7,2),(5,4), (2,3)>，从search_path中取出(2,3)作为当前最佳结点nearest, dist为0.141；维护一个队列

然后回溯⾄(5,4)，以(2.1,3.1)为圆⼼，以dist=0.141为半径画⼀个圆，并不和超平⾯y=4相交，如上图，所以不必跳到结点(5,4)的右⼦空间去搜索，因为右⼦空间中不可能有更近样本点了。

于是再回溯⾄(7,2)，同理，以(2.1,3.1)为圆⼼，以dist=0.141为半径画⼀个圆并不和超平⾯x=7相交，所以也不⽤跳到结点(7,2)的右⼦空间去搜索。

⾄此，search_path为空，结束整个搜索，返回nearest(2,3)作为(2.1,3.1)的最近邻点，最近距离为0.141。

查找点(2,4.5)

在(7,2)处测试到达(5,4)，在(5,4)处测试到达(4,7)【优先选择在本域搜索】，然后search_path中的结点为==<(7,2),(5,4), (4,7)>==，从search_path中取出(4,7)作为当前最佳结点nearest, dist为3.202；

然后回溯⾄(5,4)，以(2,4.5)为圆⼼，以dist=3.202为半径画⼀个圆与超平⾯y=4相交，所以需要跳到(5,4)的左⼦空间去搜索。所以要将(2,3)加⼊到search_path中，现在search_path中的结点为<(7,2),(2, 3)>；另外，(5,4)与(2,4.5)的距离为3.04 < dist = 3.202，所以将(5,4)赋给nearest，并且dist=3.04。

回溯⾄(2,3)，(2,3)是叶⼦节点，直接平判断(2,3)是否离(2,4.5)更近，计算得到距离为1.5，所以nearest更新为(2,3)，dist更新为(1.5)

回溯⾄(7,2)，同理，以(2,4.5)为圆⼼，以dist=1.5为半径画⼀个圆并不和超平⾯x=7相交, 所以不⽤跳到结点(7,2)的右⼦空间去搜索。

==⾄此，==search_path为空，结束整个搜索，返回nearest(2,3)作为(2,4.5)的最近邻点，最近距离为1.5。

总结：

kd树的构建过程【知道】

1.构造根节点
2.通过递归的⽅法，不断地对k维空间进⾏切分，⽣成⼦节点
3.重复第⼆步骤，直到⼦区域中没有示例时终⽌
需要关注细节：a.选择向量的哪⼀维进⾏划分；b.如何划分数据

kd树的搜索过程【知道】

1.⼆叉树搜索⽐较待查询节点和分裂节点的分裂维的值，（⼩于等于就进⼊左⼦树分⽀，⼤于就进⼊右⼦树分⽀直到叶⼦结点）

2.顺着“搜索路径”找到最近邻的近似点

3.回溯搜索路径，并判断搜索路径上的结点的其他⼦结点空间中是否可能有距离查询点更近的数据点，如果有可能，则需要跳到其他⼦结点空间中去搜索

4.重复这个过程直到搜索路径为空

1.6 案例一：鸢尾花种类预测–数据集介绍

Iris数据集是常⽤的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是⼀类多重变量分析的数据集。（共计150行）

1.6.1 关于数据集的具体介绍：

g)]收集数据

Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集

1.6.2 scikit-learn数据集API介绍

sklearn.datasets
- 加载获取流⾏数据
- datasets.load_*()
  - 获取⼩规模数据集，数据包含在datasets⾥
- datasets.fetch_*(data_home=None)
  - 获取⼤规模数据集，需要从⽹络上下载，函数的第⼀个参数是data_home，表示数据集下载的⽬录,默认是 ~/scikit_learn_data/

sklearn小数据集

sklearn.datasets.load_iris()

加载并返回鸢尾花数据集

sklearn大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)

subset：‘train’或者’test’，‘all’，可选，选择要加载的数据集。
训练集的“训练”，测试集的“测试”，两者的“全部”

1.6.3 sklearn数据集返回值的介绍

load和fetch返回的数据类型datasets.base.Bunch(字典格式)

data：特征数据数组，是 [n_samples * n_features] 的⼆维 numpy.ndarray 数组
target：标签数组，是 n_samples 的⼀维 numpy.ndarray 数组
DESCR：数据描述
feature_names：特征名,新闻数据，⼿写数字、回归数据集没有target_names：标签名
target_names：标签名

import sklearn.datasets
# 获取鸢尾花数据集
iris = sklearn.datasets.load_iris()
print("鸢尾花数据集的返回值：\n", iris)
# 返回值是一个继承自字典的Bench
print("鸢尾花的特征值:\n", iris["data"])
print("鸢尾花的目标值：\n", iris.target)
print("鸢尾花特征的名字：\n", iris.feature_names)
print("鸢尾花目标值的名字：\n", iris.target_names)
print("鸢尾花的描述：\n", iris.DESCR)

1.6.4 查看数据分布

seaborn介绍

1️⃣Seaborn 是基于 Matplotlib 核⼼库进⾏了更⾼级的 API 封装，可以让你轻松地画出更漂亮的图形。⽽ Seaborn的漂亮主要体现在配⾊更加舒服、以及图形元素的样式更加细腻。

2️⃣安装 pip3 install seaborn

3️⃣seaborn.lmplot() 是⼀个⾮常有⽤的⽅法，它会在绘制⼆维散点图时，⾃动完成回归拟合

sns.lmplot() ⾥的 x, y 分别代表横纵坐标的列名,
data= 是关联到数据集,
hue=代表按照 species即花的类别分类显示,
fit_reg=是否进⾏线性拟合。

from sklearn.datasets import load_iris
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 把数据转换成dataframe的格式
iris = load_iris()
iris_d = pd.DataFrame(iris['data'], columns=['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width'])
iris_d['Species'] = iris.target


def plot_iris(iris, col1, col2):
    sns.lmplot(x=col1, y=col2, data=iris, hue="Species", fit_reg=False)
    plt.xlabel(col1)
    plt.ylabel(col2)
    plt.title('鸢尾花种类分布图')
    plt.show()


plot_iris(iris_d, 'Petal_Width', 'Sepal_Length')

1.6.5数据集的划分

机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效
划分比例：

训练集：70% 80% 75%
测试集：30% 20% 25%

数据集划分api

sklearn.model_selection.train_test_split(arrays, *options)
参数：
x 数据集的特征值
y 数据集的标签值
test_size 测试集的大小，一般为float
random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return
x_train, x_test, y_train, y_test
先训练后测试

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 获取鸢尾花数据集
iris = load_iris()
# 对鸢尾花数据集进行分割
# 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)
print("x_train:\n", x_train.shape)
# 随机数种子
x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)
print("如果随机数种子不一致：\n", x_train == x_train1)
print("如果随机数种子一致：\n", x_train1 == x_train2)

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 获取鸢尾花数据集
iris = load_iris()
print(iris)

iris_d = pd.DataFrame(iris['data'], columns = ['Sepal_Length', 'Sepal_Width', 'Petal_Length', 'Petal_Width'])
iris_d['Species'] = iris.target

print(iris_d)
# 对鸢尾花数据集进行分割
# 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target,test_size=0.2, random_state=22)
print("x_train:\n", x_train.shape)
# 随机数种子
x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)
x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=3)
# print("训练集的特征值：\n", x_train1)
# print("测试集的特征值：\n", x_test1)
#
# print("训练集的目标值：\n", y_train1)
# print("测试集的目标值：\n", y_test1)
#
# print("训练集的目标值：\n", y_train)
# print("测试集的目标值：\n", y_test)

print("测试集的目标值：\n", y_test)

print("训练集的目标值：\n", y_test1)
print("测试集的目标值：\n", y_test2)


# print("如果随机数种子不一致：\n", x_train1)
# print("如果随机数种子一致：\n", x_train2)

# print("如果随机数种子不一致：\n", x_train == x_train1)
# print("如果随机数种子一致：\n", x_train1 == x_train2)

1.7特征工程-特征预处理

1.7.1学习目标

了解什么是特征预处理

知道归一化和标准化的原理及区别

1.7.2什么是特征预处理

特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.

翻译过来：通过⼀些转换函数将特征数据转换成更加适合算法模型的特征数据过程

为什么我们要进⾏归⼀化/标准化？

特征的单位或者⼤⼩相差较⼤，或者某特征的⽅差相⽐其他的特征要⼤出⼏个数量级，容易影响（⽀配）⽬标结果，使得⼀些算法⽆法学习到其它的特征

我们需要⽤到⼀些⽅法进⾏⽆量纲化，使不同规格的数据转换到同⼀规格

包含内容（数值型数据的无量纲化）

- 归一化
- 标准化

特征预处理的API

sklearn.preprocessing

1.7.3归一化

定义: 通过对原始数据进⾏变换把数据映射到(默认为[0,1])之间

公式

作⽤于每⼀列，max为⼀列的最⼤值，min为⼀列的最⼩值,那么X’’为最终结果，mx，mi分别为指定区间值默认 mx为1,mi为0

那么怎么理解这个过程呢？我们通过⼀个例⼦

API介绍

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )

MinMaxScalar.fit_transform(X)

X:numpy array格式的数据[n_samples,n_features]

返回值：转换后的形状相同的array

只对特征值进行特征预处理

步骤：

1.实例化MinMaxScalar
2.通过fit_transform转换

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def minmax_demo(): 
   """
   归⼀化演示
   :return: None
   """
   data = pd.read_csv("./data/dating.txt") 
   print(data)
   # 1、实例化⼀个转换器类
   transfer = MinMaxScaler(feature_range=(2, 3)) //给一个范围
   # 2、调⽤fit_transform  将需要的数据放入
   data = transfer.fit_transform(data[['milage','Liters','Consumtime']]) //二维且只有特征值
   print("最⼩值最⼤值归⼀化处理的结果：\n", data)

return None

结果

归⼀化总结

注意最⼤值最⼩值是变化的，另外，最⼤值与最⼩值⾮常容易受异常点影响，所以这种⽅法鲁棒性较差，只适合传统精确⼩数据场景。

1.7.4标准化

定义：

通过对原始数据进⾏变换把数据变换到均值为0,标准差为1范围内

作⽤于每⼀列，mean为平均值，σ为标准差

对于归⼀化来说：如果出现异常点，影响了最⼤值和最⼩值，那么结果显然会发⽣改变

对于标准化来说：如果出现异常点，由于具有⼀定数据量，少量的异常点对于平均值的影响并不⼤，从⽽⽅差改变较⼩

API介绍

sklearn.preprocessing.StandardScaler( )

处理之后每列来说所有数据都聚集在均值0附近标准差差为1

StandardScaler.fit_transform(X)

X:numpy array格式的数据[n_samples,n_features]

返回值：转换后的形状相同的array

数据计算

同样对上面数据进行处理

1.实例化StandardScaler

2.通过fit_transform转换

import pandas as pd
from sklearn.preprocessing import StandardScaler

def stand_demo():
   """
   标准化演示
   :return: None 
   """
   data = pd.read_csv("dating.txt") print(data)
   # 1、实例化⼀个转换器类
   transfer = StandardScaler() 
   # 2、调⽤fit_transform
   data = transfer.fit_transform(data[['milage','Liters','Consumtime']]) 
   print("标准化的结果:\n", data)
   print("每⼀列特征的平均值：\n", transfer.mean_) 
   print("每⼀列特征的⽅差：\n", transfer.var_)

return None

结果

标准化总结

在已有样本⾜够多的情况下⽐较稳定，适合现代嘈杂⼤数据场景。

1.7.5knn算法总结

优点：

简单有效
重新训练的代价低
适合类域交叉样本
- KNN⽅法主要靠周围有限的邻近的样本,⽽不是靠判别类域的⽅法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN⽅法较其他⽅法更为适合。
适合⼤样本⾃动分类
- 该算法⽐较适⽤于样本容量⽐较⼤的类域的⾃动分类，⽽那些样本容量较⼩的类域采⽤这种算法⽐较容易产⽣误分。

缺点：

惰性学习
- KNN算法是懒散学习⽅法（lazy learning,基本上不学习），⼀些积极学习的算法要快很多
类别评分不是规格化
- 不像⼀些通过概率评分的分类
输出可解释性不强
- 例如决策树的输出可解释性就较强
对不均衡的样本不擅⻓
- 当样本不平衡时，如⼀个类的样本容量很⼤，⽽其他类样本容量很⼩时，有可能导致当输⼊⼀个新样本时，该样本的K个邻居中⼤容量类的样本占多数。该算法只计算“最近的”邻居样本，某⼀类的样本数量很⼤，那么或者这类样本并不接近⽬标样本，或者这类样本很靠近⽬标样本。⽆论怎样，数量并不能影响运⾏结果。可以采⽤权值的⽅法（和该样本距离⼩的邻居权值⼤）来改进。
计算量较⼤
- ⽬前常⽤的解决⽅法是事先对已知样本点进⾏剪辑，事先去除对分类作⽤不⼤的样本。

1.8 案例二：鸢尾花种类预测—流程实现

近邻算法API再次介绍

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

n_neighbors：
int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}
快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索，
brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。
kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。

ball tree是为了克服kd树高维度失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体

步骤分析

1.获取数据集

2.数据基本处理

3.特征工程

4.机器学习(模型训练)

5.模型评估

'''
1.获取数据集
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
'''
from sklearn.datasets import load_iris               #导入数据
from sklearn.model_selection import train_test_split #模型选择
from sklearn.preprocessing import StandardScaler     #标准化
from sklearn.neighbors import KNeighborsClassifier   #机器学习
 
#1.获取数据集
iris=load_iris()
 
#2.数据基础处理
#2.1数据分割
# 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=22,test_size=0.2)
 
#3.特征工程 标准化
#3.1实例化一个转换器
transfer=StandardScaler()
#3.2调用fit_trainform方法
x_train=transfer.fit_transform(x_train)
x_test=transfer.fit_transform(x_test)
 
#4.机器学习（模拟训练）
#4.1实例化一个估计器
estimator=KNeighborsClassifier(n_neighbors=5)
#4.2模型训练
estimator.fit(x_train,y_train)
 
#5模型训练
#5.1输出预测值
y_pre=estimator.predict(x_test)
print("预测值是:\n",y_pre)
print("预测值和真实值对比:\n",y_pre==y_test)
 
#5.2输出准确率
ret=estimator.score(x_test,y_test)
print("准确率是:\n",ret)
 
'''
预测值是:
 [0 2 1 1 1 1 1 1 1 0 2 1 2 2 0 2 1 1 1 1 0 2 0 1 1 0 1 1 2 1]
预测值和真实值对比:
 [ True  True  True False  True  True  True False  True  True  True  True
  True  True  True  True  True  True False  True  True  True  True  True
 False  True False False  True False]
准确率是:
 0.7666666666666667
进程已结束,退出代码0
'''

1.9 交叉验证和网格搜索

学习目标

知道交叉验证、⽹格搜索的概念

会使⽤交叉验证、⽹格搜索优化训练模型

1.9.1 什么是交叉验证validation)

交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将训练数据分成4份，其中⼀份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。⼜称4折交叉验证。

分析

我们之前知道数据分为训练集和测试集，但是为了让从训练得到模型结果更加准确。做以下处理训练集：训练集+验证集

测试集：测试集

为什么需要交叉验证？

1.交叉验证⽬的：为了让被评估的模型更加准确可信不能提高准确率

问题：这个只是让被评估的模型更加准确可信，那么怎么选择或者调优参数呢？

1.9.2什么是⽹格搜索(Grid Search)

通常情况下，有很多参数是需要⼿动指定的（如k-近邻算法中的K值），这种叫超参数。但是⼿动过程繁杂，所以需要对模型预设⼏种超参数组合。每组超参数都采⽤交叉验证来进⾏评估，最后选出最优参数组合建⽴模型。可以调高精确度

1.9.3 交叉验证，网格搜索（模型选择与调优）API

APIsklearn.model_selection.GridSearchCV(estimator,param_grid=None,cv=None)

对估计器的指定参数值进行详尽搜索
estimator:估计器对象
param_grid：估计器参数
cv:指定几折交叉验证

fit()：输入训练数据
score()：模型的准确率

结果分析：
最佳参数:best_params_
最佳结果:best_score_
最佳估计器:best_estimators_
交叉验证结果:cv_results_

模型的评估
1.直接对比预测值与真实值
y_predict=estimator.predict(x_test)
print(“y_predict:\n”,y_predict)
print(“直接比对真实值与预测值:\n”,y_test==y_predict)

2.计算准确率
score=estimator.score(x_test,y_test)
print(“准确率:\n”,score)

3.最佳参数
print(“最佳参数:\n”,estimator.best_params_)
print(“最佳结果:\n”,estimator.best_score_)
print(“最佳估计器:\n”,estimator.best_estimator_)
print(“交叉验证结果:\n”,estimator.cv_results_)

1.9.4 案例—鸢尾花增加K值调优

使⽤GridSearchCV构建估计器

GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。
这两个名字都非常好理解。网格搜索，搜索的是参数，即在指定的参数范围内，
按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，
这其实是一个训练和比较的过程。

from sklearn.model_selection import GridSearchCV

def knn_iris_gscv():
    """
    用KNN算法对鸢尾花进行分类，添加网格搜索和交叉验证
    :return:
    """
    # 1）获取数据
    iris = load_iris()
    # 2）划分数据集
    x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, random_state=6)
    # 3）特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    # 注意：这里的测试集采用的是训练集中的平均值和标准差，所以采用的是 transform，而不是上面的 fit_transform
    x_test = transfer.transform(x_test)
    # 4）KNN算法预估器
    estimator = KNeighborsClassifier()
    # 加入网格搜索和交叉验证
    # 参数准备
    param_dict = {"n_neighbors":[1,3,5,7,9,11]}
    estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)
    estimator.fit(x_train, y_train) # x_train 是训练的数据，y_train 是数据对应的标签. 最终会得到训练模型
    # 5）模型评估
    # 方法一：直接对比真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n", y_predict)
    print("直接对比真实值和预测值：\n", y_test == y_predict)
    # 方法二：计算准确率
    score = estimator.score(x_test, y_test)
    print("准确率为：\n", score)

    # 最佳参数：best_params_
    print("最佳参数：\n", estimator.best_params_)
    # 最佳结果：best_score_
    print("最佳结果：\n", estimator.best_score_)
    # 最佳估计器：best_estimator_
    print("最佳估计器：\n", estimator.best_estimator_)
    # 交叉验证结果：cv_result_
    print("交叉验证结果：\n", estimator.cv_results_)
    return None
knn_iris_gscv()

然后进⾏评估查看最终选择的结果和交叉验证的结果

1.10 案例三：预测facebook签到位置

项目描述

本次比赛的目的是预测一个人将要签到的地方。为了本次比赛，Facebook创建了一个虚拟世界，其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集，您的任务将根据用户的位置，准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。请注意：您只能使用提供的数据进行预测。

数据集获取：

链接：https://pan.baidu.com/s/1gLyjsoWfHJpuamSr7HjuVA?pwd=1gin
提取码：1gin

数据集介绍

文件说明train.csv, test.csv
  row id：签入事件的id
  x y：坐标
  accuracy: 准确度，定位精度
  time: 时间戳
  place_id: 签到的位置，这也是你需要预测的内容

本例根据地点坐标和签到时间等特征来训练模型，最终得到目标地点的ID。训练集与测试集比例为8：2。

引入python库：

import pandas as pd
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# 1、获取数据集
facebook = pd.read_csv('E:\\train.csv')

在进行数据模型训练时，首先要进行数据预处理

缩小数据范围：因为数据集有2000W+条数据，程序跑起来会非常慢，因此适当缩小数据范围，如果电脑配置够或者租了服务器请随意
选择时间特征：数据中的时间分离出day，hour，weekend去掉签到较少的地方：剔除意义不大的特殊地点，减少过拟合确定特征值和目标值分割数据集

# 2.基本数据处理
# 2.1 缩小数据范围
facebook_data = facebook.query("x>5.0 & x<6 & y>5.0 & y<6.0")   #选择（2,2.5）这一范围的数据，使用query
# 2.2 选择时间特征
time = pd.to_datetime(facebook_data["time"], unit="s")  #提取时间
time = pd.DatetimeIndex(time)
facebook_data["day"] = time.day  #加一列day
facebook_data["hour"] = time.hour  #加一列hour
facebook_data["weekday"] = time.weekday   #加一列weekday
# 2.3 去掉签到较少的地方
place_count = facebook_data.groupby("place_id").count()   #分组聚类，按数目聚类
place_count = place_count[place_count["row_id"]>3]       #选择签到大于3的
facebook_data = facebook_data[facebook_data["place_id"].isin(place_count.index)]   #传递数据
#facebook_data.shape()
# 2.4 确定特征值和目标值
x = facebook_data[["x", "y", "accuracy", "day", "hour", "weekday"]]  #特征值
y = facebook_data["place_id"]     #目标值
# 2.5 分割数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

# 3.特征工程--特征预处理(标准化)
# 3.1 实例化一个转换器
transfer = StandardScaler()
# 3.2 调用fit_transform
x_train = transfer.fit_transform(x_train)   #特征训练集
x_test = transfer.fit_transform(x_test)     #特征测试集
# 4.机器学习--knn+cv
# 4.1 实例化一个估计器
estimator = KNeighborsClassifier()
# 4.2 调用gridsearchCV
param_grid = {"n_neighbors": [1, 3, 5, 7, 9]}
estimator = GridSearchCV(estimator, param_grid=param_grid, cv=5)
# 4.3 模型训练
estimator.fit(x_train, y_train)

交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。本实例cv=5，则为5折交叉验证。

# 5.模型评估
# 5.1 基本评估方式
score = estimator.score(x_test, y_test)
print("最后预测的准确率为:\n", score)

y_predict = estimator.predict(x_test)
print("最后的预测值为:\n", y_predict)
print("预测值和真实值的对比情况:\n", y_predict == y_test)

# 5.2 使用交叉验证后的评估方式
print("在交叉验证中验证的最好结果:\n", estimator.best_score_)
print("最好的参数模型:\n", estimator.best_estimator_)
print("每次交叉验证后的验证集准确率结果和训练集准确率结果:\n",estimator.cv_results_)

总体代码

import pandas as pd
from sklearn.model_selection import train_test_split , GridSearchCV  #交叉验证 网格搜索
from sklearn.preprocessing import StandardScaler                     #特征预处理
from sklearn.neighbors import KNeighborsClassifier                   #机器学习

# 导入数据
facebook = pd.read_csv('train.csv')#将文件放入与源代码相同的文件夹下

# 2.1 缩小数据范围
facebook_data = facebook.query("x>2.0 & x<2.5 & y>2.0 & y<2.5")

# 2.2 选择时间特征
time = pd.to_datetime(facebook_data["time"], unit="s")  # 提取时间使用pd.to_datetime() 将以上第一列的time(时间戳)的值转化成datetime。
time = pd.DatetimeIndex(time)
facebook_data["day"] = time.day          # 加一列day
facebook_data["hour"] = time.hour        # 加一列hour
facebook_data["weekday"] = time.weekday  # 加一列weekday
'''
 unit=“s”. 解释: unix的timestamp(时间戳)是从1970年1月1日（UTC/GMT的午夜）开始所经过的秒数, 
 即timestamp的单位为s，所以在将其转换成datetime时，使用的是单位“秒”。这里的参数unit使用的是s，
 而不是毫秒或微秒等其他时间单位。
'''


# 2.3 去掉签到较少的地方
place_count = facebook_data.groupby("place_id").count()                           # 分组聚类，按数目聚类
place_count = place_count[place_count["row_id"]>3]                                # 择签到大于3的
facebook_data = facebook_data[facebook_data["place_id"].isin(place_count.index)]  # 传递数据

# 2.4 确定特征值和目标值
x = facebook_data[["x", "y", "accuracy", "day", "hour", "weekday"]]  # 特征值
y = facebook_data["place_id"]                                        # 目标值


# 2.5 分割数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
# x_train是训练数据
# x_text是测试数据

# y_test数据具有测试数据的类别标签
# y_train测试出的标签

# 3.特征工程--特征预处理(标准化)
# 3.1 实例化一个转换器
transfer = StandardScaler()

# 3.2 调用fit_transform
x_train = transfer.fit_transform(x_train)  # 特征训练集
x_test = transfer.fit_transform(x_test)    # 特征测试集

# 4.机器学习--knn+cv
# 4.1 实例化一个估计器
estimator = KNeighborsClassifier()

# 4.2 调用GridSearchCV进行网格搜索和交叉验证
param_grid = {"n_neighbors": [1, 3, 5, 7, 9]}
estimator = GridSearchCV(estimator, param_grid=param_grid, cv=5)

'''
交叉验证：将拿到的训练数据，分为训练和验证集。
以将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，
每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。
又称4折交叉验证。本实例cv=5，则为5折交叉验证。

GridSearchCV的名字其实可以拆分为两部分，GridSearch和CV，即网格搜索和交叉验证。
这两个名字都非常好理解。网格搜索，搜索的是参数，即在指定的参数范围内，
按步长依次调整参数，利用调整的参数训练学习器，从所有的参数中找到在验证集上精度最高的参数，
这其实是一个训练和比较的过程。
'''

# 4.3 模型训练
estimator.fit(x_train, y_train)

# 5.模型评估
# 5.1 基本评估方式
score = estimator.score(x_test, y_test)  # 对预测出的数据进行评分
print("最后预测的准确率为:\n", score)

y_predict = estimator.predict(x_test)
print("最后的预测值为:\n", y_predict)
print("预测值和真实值的对比情况:\n", y_predict == y_test)

# 5.2 使用交叉验证后的评估方式

print("在交叉验证中验证的最好结果:\n", estimator.best_score_)
print("最好的参数模型:\n", estimator.best_estimator_)
print("每次交叉验证后的验证集准确率结果和训练集准确率结果:\n", estimator.cv_results_)

输出结果

最后预测的准确率为:
 0.36567336567336567
 
最后的预测值为:
 [9983648790 6329243787 9674001925 ... 2990018952 4830766946 7065571836]
 
预测值和真实值的对比情况:
 24703810     True
19445902    False
18490063     True
7762709     False
6505956     False
            ...  
27632888    False
23367671    False
6692268      True
25834435    False
13319005    False
Name: place_id, Length: 17316, dtype: bool

在交叉验证中验证的最好结果:
 0.3546044971864908
 
最好的参数模型:
 KNeighborsClassifier(n_neighbors=1)
 
每次交叉验证后的验证集准确率结果和训练集准确率结果:
 {
  'mean_fit_time': array([0.05160828, 0.04941196, 0.05000744, 0.04960699, 0.04960599]),     'std_fit_time': array([0.00162514, 0.0008035 , 0.00062731, 0.00120043, 0.00102043]), 
 
  'mean_score_time': array([0.29386988, 0.32027264, 0.34508204, 0.3606843 , 0.39229727]),   'std_score_time': array([0.01042686, 0.00773276, 0.00829634, 0.0020539 , 0.01215737]), 
 
  'param_n_neighbors': masked_array(data=[1, 3, 5, 7, 9],
                     mask=[False, False, False, False, False],
 fill_value='?',
            dtype=object), 'params': [{'n_neighbors': 1}, {'n_neighbors': 3}, {'n_neighbors': 5}, {'n_neighbors': 7}, {'n_neighbors': 9}], 
            
            'split0_test_score': array([0.35948027, 0.34311838, 0.35235804, 0.35303176, 0.34927815]), 
            'split1_test_score': array([0.35466795, 0.34369586, 0.35563041, 0.35370549, 0.34821944]), 
            'split2_test_score': array([0.35524543, 0.34119346, 0.3506256 , 0.35129933, 0.34860443]), 
            'split3_test_score': array([0.3514294 , 0.34141881, 0.35681971, 0.35537588, 0.35075561]), 
            'split4_test_score': array([0.35219944, 0.34161132, 0.35152565, 0.34757917, 0.34132255]), 
            'mean_test_score': array([0.3546045 , 0.34220757, 0.35339188, 0.35219832, 0.34763604]), 
            'std_test_score': array([0.00283032, 0.00100506, 0.00240687, 0.00265359, 0.00327312]), 
            'rank_test_score': array([1, 5, 2, 3, 4])}

补充介绍：

Jupyter数据的常用方法	输出结果
date.head()	数据的前几行
date.describe()	数据信息，最大值，最小值，平均值
date.shaape	数据的行数和列数
date.query()	数据范围划分

你可能感兴趣的:(#,AI—机器学习,机器学习,算法,近邻算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL