Sunburst7

实验——参数估计与非参数估计

1 最大似然估计
- 1.1 实验要求
- 1.2 实验思路
- 1.3 代码实现
- 1.4 实验结果
2 Parzen窗
- 2.1 实验要求
- 2.2 实验思路
- 2.3 代码实现
- 2.4 实验结果
3 K近邻
- 3.1 实验要求
- 3.2 实验思路
- 3.3 代码实现及结果
- - 3.3.1 一维情况
  - 3.3.2 二维情况
  - 3.3.3 三维情况
4 KNN实战
- 4.1 实验要求
- 4.2 实验思路
- 4.3 实验结果与思考

1 最大似然估计

1.1 实验要求

使用上面给出的三维数据：

编写程序，对类1和类2中的三个特征分别求解最大似然估计的均值̂和方差 $\sigma^2$ 。
编写程序，处理二维数据的情形()~(µ, Σ)。对类1和类2中任意两个特征的组合分别求解最大似然估计的均值̂和方差 $\Sigma$ （每个类有3种可能）。
编写程序，处理三维数据的情形()~(µ, Σ)。对类1和类2中三个特征求解最大似然估计的均值̂和方差。
假设该三维高斯模型是可分离的，即 $\Sigma=diag(\sigma^1,\sigma^2,\sigma^3)$ ，编写程序估计类1和类2中的均值和协方差矩阵中的参数。
比较前 4 种方法计算出来的每一个特征的均值 $\mu$ 的异同，并加以解释。
比较前 4 种方法计算出来的每一个特征的方差 $\sigma$ 的异同，并加以解释。

1.2 实验思路

根据最大似然估计的原理，可以推导出：**均值的最大似然估计就是样本的均值，而协方差的最大似然估计是n个 $(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t$ 的算术平均。**实际上对方差的最大似然估计是有偏的估计，样本的协方差矩阵 $C=\frac{1}{n-1}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t$ ，而我们估计的方差是 $\hat{\sigma}=\frac{n-1}{n}C$ ，具体原理可以看：参数估计—最大似然估计与贝叶斯估计

对于任意一个多元的高斯分布，这里的多元就对应着数据的多特征（例如本次实验中的x1,x2,x3），此高斯分布的采样是以列向量的形式，每行的值为一个随机变量，因此计算统计属性：

均值：分别计算每个特征的均值，以向量的形式输出，即均值向量
方差：数据集中所有向量（列向量）计算 $(\textbf{x}-\mu)(\textbf{x}-\mu)^T$ ，在求和取平均

当高斯模型是可分离的时，说明每个特征（随机变量）相互独立，则任意两个特征的协方差为0（Cov(x1,x2)=0）,因此协方差矩阵的形式如下：
$\begin{bmatrix} \sigma_{1}^2 & 0 & ... & 0\\ 0 & \sigma_{2}^2 & & 0\\ ... & & ... & \\ 0 & 0 & & \sigma_{n}^2 \end{bmatrix}$

1.3 代码实现

数据以DataFrame的形式存储，计算均值向量的函数：

# 通用的计算一个数据集的平均向量
def calculateAvg(vectors:pd.DataFrame):
    # 创建一个空Series存储平均数
    avg = pd.Series(index=vectors.columns,dtype=float)
    for column in vectors.columns:
        # 分别计算每个特诊的平均值
        avg[column] = vectors[column].mean()
    return np.array(avg)

计算协方差矩阵的函数：

# 通用的计算一个数据集的估计协方差矩阵：对每个向量求其协方差矩阵再求和取平均
# 返回一个协方差矩阵，训练集内是一维向量的话返回的矩阵只有一个元素
def calculateCov(vectors:pd.DataFrame):
    # 计算数据集的均值列向量
    mu = np.matrix(calculateAvg(vectors)).T
    # 获取训练集中每个随机变量的维度
    dimension = vectors.shape[1]
    Cov = np.zeros((dimension,dimension))
    for index,row in vectors.iterrows():
        # 取出训练集中的每一个数据，形式为列向量
        xi = np.matrix(row).T
        diff = xi - mu
        Cov+=diff*diff.T
    # 取平均
    return Cov/vectors.shape[0]

利用DataFrame[[特征1,特征2,..]]来提取训练集中的某几个特征，分别实现计算。

问（1）编写程序，对类1和类2中的三个特征分别求解最大似然估计的均值̂和方差 $\sigma^2$ 。

# 创建数据帧
trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

# (1)对类 1 和类 2 中的三个特征分别求解最大似然估计的均值̂和方差2。
print("(1): ")
print("类1：")
trainSet_1_x1 = trainSet_1['x1'].to_frame()
print("x1的最大似然估计:μ："+str(calculateAvg(trainSet_1_x1))+" ^2: "+str(calculateCov(trainSet_1_x1)))
trainSet_1_x2 = trainSet_1['x2'].to_frame()
print("x2的最大似然估计:μ："+str(calculateAvg(trainSet_1_x2))+" ^2: "+str(calculateCov(trainSet_1_x2)))
trainSet_1_x3 = trainSet_1['x3'].to_frame()
print("x3的最大似然估计:μ："+str(calculateAvg(trainSet_1_x3))+" ^2: "+str(calculateCov(trainSet_1_x3)))
print("------------------------------------------------------------------------------")
print("类2：")
trainSet_2_x1 = trainSet_2['x1'].to_frame()
print("x1的最大似然估计:μ："+str(calculateAvg(trainSet_2_x1))+" ^2: "+str(calculateCov(trainSet_2_x1)))
trainSet_2_x2 = trainSet_2['x2'].to_frame()
print("x2的最大似然估计:μ："+str(calculateAvg(trainSet_2_x2))+" ^2: "+str(calculateCov(trainSet_2_x2)))
trainSet_2_x3 = trainSet_2['x3'].to_frame()
print("x3的最大似然估计:μ："+str(calculateAvg(trainSet_2_x3))+" ^2: "+str(calculateCov(trainSet_2_x3)))

问（2）编写程序，处理二维数据的情形()~(µ, Σ)。对类1和类2中任意两个特征的组合分别求解最大似然估计的均值̂和方差 $\Sigma$ （每个类有3种可能）。

# 创建数据帧
trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

# (2)处理二维数据的情形()~(µ, Σ)。对类 1 和类 2 中任意两个特征的组合分别求解最大似然估计的均值̂和方差（每个类有3种可能）。
print("(2): ")
print("类1：")
trainSet_1_x1x2 = trainSet_1[['x1','x2']]
print("(x1,x2)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_1_x1x2)))
print("^2: ")
print(calculateCov(trainSet_1_x1x2))
trainSet_1_x1x3 = trainSet_1[['x1','x3']]
print("(x1,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_1_x1x3)))
print("^2:")
print(calculateCov(trainSet_1_x1x3))
trainSet_1_x2x3 = trainSet_1[['x2','x3']]
print("(x2,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_1_x2x3)))
print("^2: ")
print(calculateCov(trainSet_1_x2x3))
print("------------------------------------------------------------------------------")
print("类2：")
trainSet_2_x1x2 = trainSet_2[['x1','x2']]
print("(x1,x2)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_2_x1x2)))
print("^2: ")
print(calculateCov(trainSet_2_x1x2))
trainSet_2_x1x3 = trainSet_2[['x1','x3']]
print("(x1,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_2_x1x3)))
print("^2: ")
print(calculateCov(trainSet_2_x1x3))
trainSet_2_x2x3 = trainSet_2[['x2','x3']]
print("(x2,x3)的最大似然估计:")
print("μ："+str(calculateAvg(trainSet_2_x2x3)))
print("^2: ")
print(calculateCov(trainSet_2_x2x3))

（3）编写程序，处理三维数据的情形()~(µ, Σ)。对类1和类2中三个特征求解最大似然估计的均值̂和方差。

# 创建数据帧
trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')
# (3)编写程序，处理三维数据的情形()~(µ, Σ)。对类 1 和类 2 中三个特征求解最大似然估计的均值̂和方差
print("(3)")
print("类1")
print("(x1,x2,x3)的最大似然估计: µ"+str(calculateAvg(trainSet_1)))
print("Σ:")
print(calculateCov(trainSet_1))
print("------------------------------------------------------------------------------")
print("类2")
print("(x1,x2,x3)的最大似然估计: µ"+str(calculateAvg(trainSet_2)))
print("Σ:")
print(calculateCov(trainSet_2))

（4）假设该三维高斯模型是可分离的，即 $\Sigma=diag(\sigma^1,\sigma^2,\sigma^3)$ ，编写程序估计类1和类2中的均值和协方差矩阵中的参数。

# 创建数据帧
trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')

# 取出每一个特征
trainSet_1_x1 = trainSet_1['x1'].to_frame()
trainSet_1_x2 = trainSet_1['x2'].to_frame()
trainSet_1_x3 = trainSet_1['x3'].to_frame()
trainSet_2_x1 = trainSet_2['x1'].to_frame()
trainSet_2_x2 = trainSet_2['x2'].to_frame()
trainSet_2_x3 = trainSet_2['x3'].to_frame()

# (4)
# 因为该模型是可分离的，所以各个特征之间相互独立，每个训练样本向量(x1,x2,x3)的Cov(xi,xj)=0 所以协方差是一个对角矩阵，对角线即为一维数据的方差。
print("类1")
print("(x1,x2,x3)的最大似然估计:")
print("µ"+str(calculateAvg(trainSet_1)))
Cov_1 = np.zeros((3,3))
Cov_1[0, 0] = calculateCov(trainSet_1_x1)
Cov_1[1, 1] = calculateCov(trainSet_1_x2)
Cov_1[2, 2] = calculateCov(trainSet_1_x3)
print("Σ:")
print(Cov_1)
print("----------------------------------------------------------")
print("类2")
print("(x1,x2,x3)的最大似然估计:")
print("µ"+str(calculateAvg(trainSet_2)))
Cov_2 = np.zeros((3,3))
Cov_2[0, 0] = calculateCov(trainSet_2_x1)
Cov_2[1, 1] = calculateCov(trainSet_2_x2)
Cov_2[2, 2] = calculateCov(trainSet_2_x3)
print("Σ:")
print(Cov_2)

（5）（6）比较前 4 种方法计算出来的每一个特征的均值 $\mu$ 与方差 $\Sigma$ 的异同，并加以解释。

均值的计算与向量维度无关，都是每一维数据求和再除以n。

因为该模型是可分离的，所以各个特征之间相互独立，每个训练样本向量(x1,x2,x3)的Cov(xi,xj)=0 所以协方差是一个对角矩阵，除对角线外其他处的值为0，对角线即为一维数据的方差。

1.4 实验结果

问题1

问题2

(2): 
类1：
(x1,x2)的最大似然估计:
μ：[-0.0709 -0.6047]
^2: 
[[0.90617729 0.56778177]
 [0.56778177 4.20071481]]
(x1,x3)的最大似然估计:
μ：[-0.0709 -0.911 ]
^2:
[[0.90617729 0.3940801 ]
 [0.3940801  4.541949  ]]
(x2,x3)的最大似然估计:
μ：[-0.6047 -0.911 ]
^2: 
[[4.20071481 0.7337023 ]
 [0.7337023  4.541949  ]]
------------------------------------------------------------------------------
类2：
(x1,x2)的最大似然估计:
μ：[-0.0426  0.4299]
^2: 
[[ 0.06478984 -0.01184426]
 [-0.01184426  0.04597009]]
(x1,x3)的最大似然估计:
μ：[-0.0426   0.00372]
^2: 
[[ 0.06478984 -0.00306033]
 [-0.00306033  0.00726551]]
(x2,x3)的最大似然估计:
μ：[0.4299  0.00372]
^2: 
[[0.04597009 0.00850987]
 [0.00850987 0.00726551]]

问题3
问题4

2 Parzen窗

2.1 实验要求

Parzen 窗估计：使用上面表格中的数据进行 Parzen 窗估计和设计分类器。窗函数为一个球形的高斯函数如下所示：

编写程序，使用 Parzen 窗估计方法对任意一个的测试样本点进行分类。对分类器的训练则使用表格中的三维数据。令h = 1，分类样本点为 $0.5,1.0,0.0)^t，(0.31,1.51,-0.50)^t，(-0.3,0.44,-0.1)^t$ 。

2.2 实验思路

实验给出的训练集数据分类三个类别，记为w1,w2,w3，我们分别对这三类数据计算每个训练集样本的关于样本测试点的窗函数值，在求和取平均，计算出估计的后验概率。

由于先验知识我的得到，这三类的先验概率应相等，所以由最大后验概率决策变为最大似然决策，根据以下公式计算出每个类的估计类条件概率密度，比大小判断即可。

值得注意的是，Parzen窗是将测试样本点放在窗的中心，让训练集中的每个数据去与窗中心比对，也就是 $\textbf{x}$ 代表测试集数据， $\textbf{x}_i$ 代表训练集数据

2.3 代码实现

11行定义了一个窗函数计算函数，输入一个测试样本点、一个训练集样本点以及窗宽，输出窗函数的值。
21行定义了一个求和取平均的函数，用于计算每个类的类条件概率密度
31行定义了一个分类器，传入测试点，通过已经输入好的训练集对该测试数据进行分类

import pandas as pd
import numpy as np
import math

# 导入训练集数据
trainSet_1 = pd.read_csv('w1.csv')
trainSet_2 = pd.read_csv('w2.csv')
trainSet_3 = pd.read_csv('w3.csv')

# 计算sample测试数据在训练数据trainSample下的窗函数
def window(sample:pd.Series,trainSample:pd.Series,h):
    # 将Series转化为列向量
    vector_s = np.matrix(sample).T
    vector_ts = np.matrix(trainSample).T
    # 计算 x-xi
    diff = vector_s - vector_ts
    # 返回窗函数值
    return math.exp(-diff.T*diff/(2*h**2))

# Parzen窗方法估计该类的条件概率密度
def Parzen(sample:pd.Series,trainSet:pd.DataFrame):
    # 初始化似然
    likelihood = 0.0
    for index, row in trainSet.iterrows():
        # 对样本的每个点计算窗函数(h=1)，累加
        likelihood+=window(sample,row,1)
    likelihood = likelihood/10
    # 返回估计的后验概率
    return likelihood

# 该实验的Parzen窗分类器，训练集中每个类的先验概率相等，因此后验概率就等于类条件概率密度
def ParzenClassifier(sample:pd.Series):
    posterior_1 = Parzen(sample, trainSet_1)
    posterior_2 = Parzen(sample, trainSet_2)
    posterior_3 = Parzen(sample, trainSet_3)
    print(sample)
    print("p(w1): "+  str(posterior_1))
    print("p(w2): " + str(posterior_2))
    print("p(w3): " + str(posterior_3))
    if posterior_1>posterior_2:
        if posterior_1>posterior_3:
            print("Sample belong 类1")
        else:
            print("Sample belong 类3")
    else:
        if posterior_2>posterior_3:
            print("Sample belong 类2")
        else:
            print("Sample belong 类3")
    print("-------------------------------------")


ParzenClassifier(pd.Series([0.5,1.0,0.0]))
ParzenClassifier(pd.Series([0.31,1.51,-0.50]))
ParzenClassifier(pd.Series([-0.3,0.44, -0.1]))

2.4 实验结果

可以看到这三个测试数据都属于类2

3 K近邻

3.1 实验要求

k-近邻概率密度估计：对上面表格中的数据使用k-近邻方法进行概率密度估计：

编写程序，对于一维的情况，当有 n 个数据样本点时，进行k-近邻概率密度估计。对表格中的类3的特征1，用程序画出当 k=1，3，5 时的概率密度估计结果。
编写程序，对于二维的情况，当有 n 个数据样本点时，进行k-近邻概率密度估计。对表格中的类2的特征(1, 2)，用程序画出当 k=1，3，5 时的概率密度估计结果。
编写程序，对表格中的3个类别的三维特征，使用k-近邻概率密度估计方法。并且对下列点处的概率密度进行估计： (-0.41,0.82,0.88)，(0.14,0.72, 4.1)，(-0.81,0.61, -0.38)

3.2 实验思路

$p(\textbf{x})\approx \frac{k_R/n}{V_R}$

实验的核心公式就是（3）式，给定一个测试数据点，以测试数据点为中心，我们分别计算从该点到训练集中样本点的数据的距离作为度量的标准，排序。然后选出距离测试数据点第k近的样本点距离 $h_k$ ，计算出包括k个训练集数据点的超立方体体积 $V_R$ ，带入公式计算。具体的针对不同维度：

一维： $V_R=2h_k$ ，超立方体的体积就是以测试点为中心， $2h_k$ 的线段长度。
二维： $V_R=\pi h_k^2$ ，超立方体体积是以测试点为中心， $h_k$ 为半径的圆
三维： $V_R=\frac{4}{3}\pi h_k^3$

指的注意的是，在画图的过程中，可能出现测试点与样本点重合的情况，这时最好在分母加上一个极小项防止/0。

当我们估计出类条件概率密度后，因为由表中数据得到，每个类别的训练数据数量相等先验概率相同，因此对于每个测试数据只需要计算三种情况下的类条件概率密度，再用最大类条件概率密度估计进行决策即可。

3.3 代码实现及结果

3.3.1 一维情况

编写了一个1维KNN方法计算一个测试数据集的概率密度，输入测试数据（一维）、训练集、K值。输出概率密度

# 对于一维的情况，当有 n 个数据样本点时，进行k-近邻概率密度估计，
# 对于类3_x3特征，估计任意一个点关于类3的类条件概率密度
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 定义1维KNN方法计算一个测试数据集的概率密度，输入测试数据、训练集、K值 输出概率密度
def one_dimension_KNN(testData:float,trainSet:pd.Series,k:int):
    distance = []
    for i in range(trainSet.shape[0]):
        # 计算测试数据点 与 训练集中每个样本点的距离
        d = np.abs(testData-trainSet[i])
        distance.append(d)
    # 距离数组进行排序 提取出第k个数据
    distance.sort()
    posterior = (k/trainSet.shape[0])/(2*distance[k-1])
    return posterior

# 导入实验1数据，w3类的x3特征
trainSet1 = pd.read_csv('w3.csv')['x3']
# 随机产生n=500个-2~2的1维随机数
dimension1_randoms = np.random.uniform(-2, 2, 500)
# 进行升序排序
dimension1_randoms = np.sort(dimension1_randoms)
# 声明三个一维数组用于存储K值不同情况下的后验概率
dimension1_posterior_1 = []
dimension1_posterior_3 = []
dimension1_posterior_5 = []
# 对随机数计算后验概率
for i in range(500):
    dimension1_posterior_1.append(one_dimension_KNN(dimension1_randoms[i], trainSet1, 1))
    dimension1_posterior_3.append(one_dimension_KNN(dimension1_randoms[i], trainSet1, 3))
    dimension1_posterior_5.append(one_dimension_KNN(dimension1_randoms[i], trainSet1, 5))
# 画出三张一维的图像
plt.subplot(131)
plt.plot(dimension1_randoms,dimension1_posterior_1)
plt.title('k=1 pdf')
plt.subplot(132)
plt.plot(dimension1_randoms,dimension1_posterior_3)
plt.title('k=3 pdf')
plt.subplot(133)
plt.plot(dimension1_randoms,dimension1_posterior_5)
plt.title('k=5 pdf')
plt.show()

实验结果如图，可以看到在k=1时，在训练集样本点周围有着明显的尖峰，表示图中充满噪音（可能测试样本只是和某个训练样本接近而不是该类，但类条件概率密度却很大）当k增大时曲线变得平滑最后收敛为一个极值，表示类条件概率密度的估计慢慢变得准确。

3.3.2 二维情况

定义2维KNN方法

输入n个测试数据的x1特征取值矩阵与x2特征取值矩阵、训练数据集、k值。
输出后验概率估计数组

生成x1、x2特征的测试数据是在一定范围内每隔0.05采样。

# 对于2维的情况，当有 n 个数据样本点时，进行k-近邻概率密度估计，
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# 定义2维knn方法(x1,x2) 输入x1特征取值矩阵与x2特征取值矩阵、训练数据集、k
# x1矩阵代表二维坐标轴的所有点的x1特征值 x2矩阵代表二维坐标轴的所有点的x2特征值
def two_dimension_KNN(x1:np.matrix,x2:np.matrix,trainSet:pd.DataFrame,k:int):
    # 声明一个后验概率矩阵存储计算出的后验概率 行(x轴)代表x2的取值，列(y轴)代表x1取值
    posteriorMatrix = np.zeros((x1.shape[0],x1.shape[1]))
    # 每一个x2特征
    for i in range(x1.shape[0]):
        # 每一个x1特征
        for j in range(x1.shape[1]):
            # 存储二维的欧氏距离
            distance = []
            for index,row in trainSet.iterrows():
                # 计算测试数据点 与 训练集中每个样本点的欧式距离
                d = np.sqrt((x1[i,j]-row[0])**2+(x2[i,j]-row[1])**2)
                distance.append(d)
            # 距离数组进行排序 提取出第k个数据
            distance.sort()
            # 分母加上一个极小的数防止测试点与样本点重合导致分布为0的情况
            posterior = (k / trainSet.shape[0]) / (np.pi * (distance[k - 1]**2)+np.spacing(1))
            posteriorMatrix[i,j] = posterior
    return posteriorMatrix



# 导入实验2数据 w2类的x1,x2特征
trainSet2 = pd.read_csv('w2.csv')[['x1','x2']]
# 生成x1 100个 x2 80个测试数据
test_x1 = np.arange(-3, 2, 0.05)
test_x2 = np.arange(0, 4, 0.05)
# 将x1与x2网格化
matrix_x1,matrix_x2 = np.meshgrid(test_x1, test_x2)
# 计算不同k值情况下网格中每个点的后验概率
posterior1 = two_dimension_KNN(matrix_x1,matrix_x2,trainSet2,1)
posterior3 = two_dimension_KNN(matrix_x1,matrix_x2,trainSet2,3)
posterior5 = two_dimension_KNN(matrix_x1,matrix_x2,trainSet2,5)


# 画图配置
fig = plt.figure(figsize=(12, 6), facecolor='w')
ax1 = fig.add_subplot(131, projection='3d')
ax1.plot_surface(matrix_x1,matrix_x2,posterior1,
                    rstride=1,  # rstride（row）指定行的跨度
                    cstride=1,  # cstride(column)指定列的跨度
                    cmap=plt.get_cmap('rainbow'))  # 设置颜色映射
ax1.set_xlabel('x2')
ax1.set_ylabel('x1')
ax1.set_zlabel('likelihood')
plt.title('k=1 pdf')

ax2 = fig.add_subplot(132, projection='3d')
ax2.plot_surface(matrix_x1,matrix_x2,posterior3,
                    rstride=1,
                    cstride=1,
                    cmap=plt.get_cmap('rainbow'))
ax1.set_xlabel('x2')
ax1.set_ylabel('x1')
ax1.set_zlabel('likelihood')
plt.title('k=3 pdf')

ax3 = fig.add_subplot(133, projection='3d')
ax3.plot_surface(matrix_x1,matrix_x2,posterior5,
                    rstride=1,
                    cstride=1,
                    cmap=plt.get_cmap('rainbow'))
ax1.set_xlabel('x2')
ax1.set_ylabel('x1')
ax1.set_zlabel('likelihood')
plt.title('k=5 pdf')

plt.show()

实验结果如图所示：同一维的情况，在k=1时，在训练集样本点周围有着明显的尖峰，表示图中充满噪音（可能测试样本只是和某个训练样本接近而不是该类，但类条件概率密度却很大）当k增大时曲线变得平滑最后收敛为一个极值，表示类条件概率密度的估计慢慢变得准确。

3.3.3 三维情况

该情况与前面的有所不同，实验要求导入三个类别全部特征，判断具体的三个测试数据属于哪个类别，因此对于每个测试数据需要计算三种情况下的类条件概率密度，再用最大类条件概率密度估计进行决策。

import numpy as np
import pandas as pd

# 导入实验3数据 三个类别的全部特征
trainSet3_1 = pd.read_csv('w1.csv')
trainSet3_2 = pd.read_csv('w2.csv')
trainSet3_3 = pd.read_csv('w3.csv')
trainSet = [trainSet3_1, trainSet3_2, trainSet3_3]


# 三维的KNN方法，该方法输入一个三维列向量，k值；输出该向量的类别
def three_dimension_KNN(testData:np.matrix,k:int):
    # 声明距离数组用于保存距离
    distance = [[],[],[]]
    posterior = []
    for i in range(3):
        # 对每类的数据集计算测试数据点与训练集中每个样本点的距离
        for j in range(10):
            d = np.sqrt((testData[0,0]-trainSet[i].iloc[j]['x1'])**2 +
                        (testData[1,0]-trainSet[i].iloc[j]['x2'])**2 +
                        (testData[2,0]-trainSet[i].iloc[j]['x3'])**2)
            distance[i].append(d)
        # 距离数组进行排序 提取出第k个数据
        distance[i].sort()
        V = 4 * np.pi * (distance[i][k - 1] ** 3) / 3
        posterior.append(k/10/V)

    print("类条件概率密度数组:"+str(posterior))
    return posterior.index(max(posterior))

# [0.14],[0.72],[4.1]  [-0.81],[0.61],[-0.38]]
print("(-0.41,0.82,0.88)属于w"+str(three_dimension_KNN(np.matrix([[-0.41],[0.82],[0.88]]),3)))
print("(0.14,0.72,4.1)属于w"+str(three_dimension_KNN(np.matrix([[0.14],[0.72],[4.1]]),3)))
print("(-0.81,0.61,-0.38)属于w"+str(three_dimension_KNN(np.matrix([[-0.81],[0.61],[-0.38]]),3)))

分类的结果如图：

4 KNN实战

现有一数据集存放在 e2.txt 中，共有 1000 条数据。e2.txt 中数据格式如下图所示：

三个特征： 1.每年的出行里程 2.玩游戏所占用的时间百分比 3.每三天喝的牛奶总升数。三个标签： 1.不喜欢 2.一般 3.喜欢

用学过的 KNN 方法来构建一个分类器，判断一个样本所属的类别

4.1 实验要求

数据预处理
- 将 e2.txt 中的数据处理成可以输入给模型的格式
- 是否还需要对特征值进行归一化处理？目的是什么？
数据可视化分析：将预处理好的数据以散点图的形式进行可视化，通过直观感觉总结规律，感受KNN模型思想与人类经验的相似之处。
构建 KNN 模型并测试
- 输出测试集各样本的预测标签和真实标签，并计算模型准确率。
- 选择哪种距离更好？欧氏还是马氏？
- 改变数据集的划分以及 k 的值，观察模型准确率随之的变化情况。注意：选择训练集与测试集的随机性
使用模型构建可用系统利用构建好的 KNN 模型实现系统，输入为新的数据的三个特征，输出为预测的类别。

4.2 实验思路

KNN模型的核心方法还是之前构造的三维KNN方法，简单的修改了一点输出：我们这里拿欧式距离度量

# 三维的KNN方法，该方法输入一个三维列向量，k值；输出该向量的类别
def three_dimension_KNN(testData:np.matrix,k:int):
    # 声明距离数组用于保存距离
    distance = [[],[],[]]
    posterior = []
    # 对三种预测标签分别计算后验概率
    for i in range(3):
        # 对每类的数据集计算测试数据点与训练集中每个样本点的距离
        for j in range(trainSet[i].shape[0]):
            # 计算欧氏距离
            d = np.sqrt((testData[0,0]-trainSet[i].iloc[j]['mileage'])**2 +
                        (testData[1,0]-trainSet[i].iloc[j]['game'])**2 +
                        (testData[2,0]-trainSet[i].iloc[j]['milk'])**2)
            distance[i].append(d)
        # 距离数组进行排序 提取出第k个数据
        distance[i].sort()
        V = 4 * np.pi * (distance[i][k - 1] ** 3) / 3
        posterior.append(k/10/V)
    print("概率密度数组："+str(posterior))
    if posterior.index(max(posterior)) == 0:
        return 'largeDoses'
    elif posterior.index(max(posterior)) == 1:
        return 'smallDoses'
    else:
        return 'didntLike'

先导入实验数据：

data = pd.DataFrame(columns=['mileage','game','milk','isLike'])
# 读取文件
with open('e2.txt','r') as f:
    # 按行读取
    content = f.readlines()
    for line in content:
        # 按照'\t'分割
        newLine = pd.Series(line.split('\t'),index=['mileage','game','milk','isLike'])
        # 去除预测标签末尾的'\n'
        newLine['isLike'] = newLine['isLike'].strip('\n')
        data = data.append(newLine,ignore_index=True)

由于每个特征的度量值不同，有的特征取值很大，有的特征取值很小，如果直接进行计算欧式具体不合理，我们需要进行归一化的处理：使用最小归一化的方法，将所有的特征值映射到[0,1]区间上。计算公式如下：
$x'=\frac{x-min}{max-min}$
实际过程我们使用一个库：

# 归一化
features = data.iloc[:,0:3]
features = MinMaxScaler().fit_transform(features)
data.iloc[:,0:3] = features # 覆盖原来数据

然后是对训练集与测试集的划分，因为有选择训练集与测试集的随机性，我们采用留出法：直接将原数据集划分为两个互斥的数据集，即训练集与测试集。具体的就是每隔10行选取一行作为测试集，余下的数据作为训练集，同时按照预测标签进行分组。

# 每隔10行选取一行作为测试集，余下的数据作为训练集,按照预测标签进行分组
testSet = data.iloc[::10,:]
for index,row in testSet.iterrows():
    data.drop(index=index,inplace=True)
group = data.groupby('isLike')
trainSet = [group.get_group('largeDoses'),group.get_group('smallDoses'),group.get_group('didntLike')]

最后进行预测，画图即可。

4.3 实验结果与思考

完整代码如下：

import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
import matplotlib.pyplot as plt

# 三维的KNN方法，该方法输入一个三维列向量，k值；输出该向量的类别
def three_dimension_KNN(testData:np.matrix,k:int):
    # 声明距离数组用于保存距离
    distance = [[],[],[]]
    posterior = []
    # 对三种预测标签分别计算后验概率
    for i in range(3):
        # 对每类的数据集计算测试数据点与训练集中每个样本点的距离
        for j in range(trainSet[i].shape[0]):
            # 计算欧氏距离
            d = np.sqrt((testData[0,0]-trainSet[i].iloc[j]['mileage'])**2 +
                        (testData[1,0]-trainSet[i].iloc[j]['game'])**2 +
                        (testData[2,0]-trainSet[i].iloc[j]['milk'])**2)
            distance[i].append(d)
        # 距离数组进行排序 提取出第k个数据
        distance[i].sort()
        V = 4 * np.pi * (distance[i][k - 1] ** 3) / 3
        posterior.append(k/10/V)
    print("概率密度数组："+str(posterior))
    if posterior.index(max(posterior)) == 0:
        return 'largeDoses'
    elif posterior.index(max(posterior)) == 1:
        return 'smallDoses'
    else:
        return 'didntLike'


data = pd.DataFrame(columns=['mileage','game','milk','isLike'])
# 读取文件
with open('e2.txt','r') as f:
    # 按行读取
    content = f.readlines()
    for line in content:
        # 按照'\t'分割
        newLine = pd.Series(line.split('\t'),index=['mileage','game','milk','isLike'])
        # 去除预测标签末尾的'\n'
        newLine['isLike'] = newLine['isLike'].strip('\n')
        data = data.append(newLine,ignore_index=True)

# 归一化
features = data.iloc[:,0:3]
features = MinMaxScaler().fit_transform(features)
data.iloc[:,0:3] = features # 覆盖原来数据

# 每隔10行选取一行作为测试集，余下的数据作为训练集,按照预测标签进行分组
testSet = data.iloc[::10,:]
for index,row in testSet.iterrows():
    data.drop(index=index,inplace=True)
group = data.groupby('isLike')
trainSet = [group.get_group('largeDoses'),group.get_group('smallDoses'),group.get_group('didntLike')]

# 进行预测
T = 0 # 预测正确的个数
F = 0 # 预测错误的个数
forecast = []
for index,row in testSet.iterrows():
    columnVector = np.matrix([
        [row[0]],
        [row[1]],
        [row[2]]
    ])
    forecast.append(three_dimension_KNN(columnVector,3))
    if forecast[int(index/10)] == row[3]:
        T+=1
    else:
        F+=1
print("正确率:"+str(T/(T+F)))

# 给测试集添加预测标签列
testSet['forecast'] =  forecast

# 画图
fig = plt.figure(figsize=(12, 6), facecolor='w')
ax1 = plt.axes(projection='3d')
ax1.legend(loc='best') # 添加图例
ax1.scatter3D(trainSet[0]['mileage'],trainSet[0]['game'],trainSet[0]['milk'],c='r',label='largeDoses')
ax1.scatter3D(trainSet[1]['mileage'],trainSet[1]['game'],trainSet[1]['milk'],c='y',label='smallDoses')
ax1.scatter3D(trainSet[2]['mileage'],trainSet[2]['game'],trainSet[2]['milk'],c='b',label='didntLike')

for index,row in testSet.iterrows():
    if row[3] == row[4]:
        ax1.scatter3D(row[0], row[1], row[2], c='g')
    else:
        ax1.scatter3D(row[0], row[1], row[2], c='k')

ax1.set_xlabel('mileage')
ax1.set_ylabel('game')
ax1.set_zlabel('milk')
plt.legend(loc='best')
plt.show()

当k=3时

图中绿色的点是预测正确的点，黑色的点是预测错误的点，其他颜色的点是训练集，可以看到在三种类别交汇的地方（决策边界处）有误判的出现。而在每种类别密集的地方基本没有误判的情况。

你可能感兴趣的:(机器学习,概率论,机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s