Twilight Sparkle.

【机器学习笔记9】K邻近（KNN）原理、手动实现与具体应用

KNN算法简介

算法原理

基本流程

KNN算法的三要素

距离度量

K值选择-交叉验证

KNN算法的优缺点以及改进方法

KNN改进算法介绍

KD树

Ball树

Annoy

HNSW

KNN算法手动实现并完成鸢尾花分类

主体部分

交叉验证选择最适K值

导入数据和预处理

完整代码

利用Sklearn实现KNN完成鸢尾花分类

利用Sklearn的KNN完成手写数字识别

导入数据并查看数字图像

数据预处理

选择最佳K值

训练模型，测试模型得分

应用手写数字识别

图片预处理

将彩色图片以灰度图片导入

黑白颠倒以及二值化

使用模型识别手写数字

完整代码

对模型的总结和评价

KNN算法简介

k近邻法（k-nearest neighbor，k-NN）属于监督学习中的分类算法，是机器学习中最简单的算法之一，同时也是最常用的分类算法之一。这篇文章将会基于numpy手动实现KNN，在此之后，将会利用sklearn实现的KNN完成数字识别。

KNN需要数据标准化。

算法原理

KNN不同于其他机器学习算法，它不需要训练过程，当使用该算法预测一个新的值时，它会根据距离最近的K个点的类型来判断自己的类型：K个点中哪个类型多就属于哪个类型。

例：

当K等于3时，根据上述规则可得预测为红类；

当K等于5时，根据上述规则可得预测为蓝类。

基本流程

计算新数据与每一个已知样本的距离
按距离从小到大排序
选出距离最小的K个点
通过这K个点的分类决策新数据所属类别

KNN算法的三要素

根据上面的例子，可以看出不同K的选择对预测结果有较大影响。实验表明，K值越小，越容易发生过拟合；K值越大，越容易发生欠拟合。除K值的选择外，影响KNN算法的还有距离度量、分类决策规则。

分类决策规则一般采用多数表决，即最近的K个样本中哪个种类多就属于哪一类。

距离度量

设有同维度特征空间向量 $\vec A = (a_1,a_2,...,a_n),\vec B = (b_1,b_2,...,b_n)$ ，则 $\vec A,\vec B$ 的距离为：

$L_p(\vec A,\vec B) = (\sum_{i=1}^n|a_i-b_i|^p)^{\frac 1 p}$

曼哈顿距离： $L_1 = \sum_{i=1}^n|a_i-b_i|$

欧式距离: $L_2 = \sqrt{\sum_{i=1}^n|a_i-b_i|^2}$

切比雪夫距离 $(P=\infty)$ ： $L_{\infty} = max(|a_1-b_1|,|a_2-b_2|,...,|a_n-b_n|)$

一般采用欧式距离作为距离度量。

K值选择-交叉验证

交叉验证简介：将原始数据集可以分为训练集、验证集、测试集。利用训练集和验证集测试模型好坏的方法叫做交叉验证。注：交叉验证是没有用到测试集的！如果用测试集进行交叉验证，会导致预测结果乐观化。

通过交叉验证方法可以得到最合适的K值。

KNN算法的优缺点以及改进方法

优点：

原理简单，便于实现。
KNN是惰性模型，不需要训练。
预测效果好。
对异常值不敏感。

缺点：通过KNN算法原理可以得知，如果要预测一个新数据，需要将它和每一个样本都计算一次距离，然后排序，选出最小的K个样本进行决策。那么预测一次的时间复杂度为O(n)，时间复杂度较高。并且需要将所有样本都储存在内存，空间复杂度较高，即对内存要求较高。所以KNN算法的缺点主要是：

效率比较低，运行时间可能比较长。
对内存要求较高。

KNN适用于数据集较小的分类。对于数据集较大的可使用神经网络进行分类。

KNN改进算法介绍

这里不会说明各算法的原理与实现，只会简单介绍，参考文章：盘点高效的KNN实现算法-技术圈 (proginn.com)

上述提到的均是KNN的线性扫描实现方法，即暴力法。通过分析，可知线性扫描不适用于数据规模较大的数据集。

实际上，KNN的实现方法高大10种，下面将介绍几种改进方法。

KD树

KD树是一种树形结构存储算法。

适用范围：

KD树在特征维度小于20时效率最高，一般适用于训练样本数远大于空间维数时的k近邻搜索。当空间维数接近训练实例数时，效率会迅速下降，几乎接近线形扫描。

Ball树

ball树是KD树的一种改良算法。

Annoy

Annoy，全称“Approximate Nearest Neighbors Oh Yeah”，是一种适合实际应用的快速相似查找算法。

Annoy 同样通过建立一个二叉树，使得每个点查找时间复杂度是O(log n)。和KD树不同的是，Annoy没有对k维特征进行切分。

HNSW

HNSW（Hierarchcal Navigable Small World graphs）是基于图存储的数据结构。

上述四种算法中，Annoy和HNSW是可以在实际业务中落地的算法。

KNN算法手动实现并完成鸢尾花分类

主体部分

详细解释都写代码里了，因为主体部分实在太短了没必要分开写，就直接写在一个模块了：

import numpy as np
import operator

# 使用KNN预测数据类别
def run_KNN(X,X_train,y_train,K):
    '''
    :param X: 需要预测的数据集
    :param X_train: X训练集
    :param y_train: Y训练集
    :param K: K个最近
    :return: 预测集
    '''
    dataSize = X_train.shape[0]
    y_predict = []
    for x in X:
        # 计算未知数据到每一个样本的欧氏距离
        diff = np.tile(x,(dataSize,1)) - X_train # 把X扩大然后矩阵相减
        squaredDist = np.sum(diff**2,axis=1) # axis = 1计算每一行的和
        distance = squaredDist ** 0.5

        # 对距离递增排序获取最前面K个样本的种类并统计各种类出现次数
        nearIds = distance.argsort() # 按值排序，得到对应下标数组
        classesCount = {}
        for i in range(K):
            y = y_train[nearIds[i]] # 得到对应的种类
            classesCount[y] = classesCount.get(y,0)+1 # 0为设置默认值
        # print(classesCount)
        # 对字典按值进行递减排序
        sortClassesCount = sorted(classesCount.items(),key=operator.itemgetter(1),reverse=True)
                                                        # 获取对象第二个元素           逆序
        y_predict.append(sortClassesCount[0][0])  # 预测种类为出现次数最多的那一类
    return y_predict

到这里，就已经手动实现了KNN算法，可以拿来预测类别了，确实很简单。

但我们还需要利用交叉验证集选择最好的K，本来想借助sklearn的交叉验证，但是对我们自己手写的KNN好像不太好用，所以还是自己写一个简易的吧。

不过像拆分训练集和计算Score这种事就交给sklearn吧。

交叉验证选择最适K值

注意，交叉验证集不能涉及到测试集！

这里用多次交叉验证计算score取均值：

import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

# 交叉验证集
def chooseK(X_train_old,y_train_old,K = 10,C = 5):
    '''
    :param X_train_old: 原训练特征集
    :param y_train_old: 原训练目标集
    :param K: 最大K
    :param C: 计算次数
    :return: 最好的K值
    '''

    # K从1取到maxK，分别计算Score
    scores = [0]
    for k in range(1,K+1):
        score = 0
        for j in range(1,C+1):
            # 拆分训练集为训练集和验证集
            X_train, X_check, y_train, y_check = train_test_split(X_train_old, y_train_old, train_size=0.6)
            y_predict = run_KNN(X_check,X_train,y_train,k)
            # 计算Score
            score = score + f1_score(y_check, y_predict, average='weighted')
        score = score/(C)
        # print(f"k = {k},score = {score}")
        scores.append(score)

    scores = np.array(scores)
    bestK = scores.argmax()
    plt_KScore(scores,K,bestK)
    return bestK

# 绘制K对应的Score图像
def plt_KScore(scores,K,bestK):
    k_range = range(1,K+1)
    plt.plot(k_range,scores[1:])
    plt.scatter(bestK,scores[bestK],marker='o',c='red')
    plt.xlabel('Value of K in KNN')
    plt.ylabel('Score')
    plt.show()'Score')
    plt.show()

下面将测试交叉验证集选择K值。

这里使用sklearn自带的鸢尾花数据集，数据标准化之前的文章已经手动实现过，这里直接用sklearn进行数据标准化。

导入数据和预处理

import time
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

if __name__ == '__main__':
    # 导入鸢尾花数据集
    iris = datasets.load_iris()
    dataSet = iris.data
    target = iris.target

    # 拆分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(dataSet,target, train_size=0.7, random_state=10)
    # 数据标准化
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)  # 标准化训练集X
    X_test = scaler.transform(X_test)

现在开始测试交叉验证集选择K：

    # 接主函数
    
    start = time.time()
    K = chooseK(X_train,y_train,50)
    print(f"bestK is {K}")

    end = time.time()
    print(f"run time is {end-start}")

结果：

bestK is 7
run time is 2.0105364322662354

实际上会发现每次计算出来的“Best K”都不一样，不过都在那几个值跳动，这是因为在分割测试集和验证集时没有设置随机种子的原因。

现在，让我们用最好的K值来测试分类效果吧！

    # 接主函数
    
    start = time.time()
    best_K = chooseK(X_train,y_train,50)
    print(f"bestK is {best_K}")
    y_predict = run_KNN(X_test,X_train,y_train,best_K)
    score = f1_score(y_test, y_predict, average='weighted')
    print(f"predict score is {score}")
    end = time.time()
    print(f"run time is {end-start}")

结果：

bestK is 4
predict score is 0.9778242192035296
run time is 0.400089502334594704

可以看出bestK和上一次算的不一样，不过最后分类的结果还是非常好的。

完整代码

import time
import numpy as np
import operator
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 使用KNN预测数据类别
def run_KNN(X,X_train,y_train,K):
    '''
    :param X: 需要预测的数据集
    :param X_train: X训练集
    :param y_train: Y训练集
    :param K: K个最近
    :return: 预测集
    '''
    dataSize = X_train.shape[0]
    y_predict = []
    for x in X:
        # 计算未知数据到每一个样本的欧氏距离
        diff = np.tile(x,(dataSize,1)) - X_train # 把X扩大然后矩阵相减
        squaredDist = np.sum(diff**2,axis=1) # axis = 1计算每一行的和
        distance = squaredDist ** 0.5

        # 对距离递增排序获取最前面K个样本的种类并统计各种类出现次数
        nearIds = distance.argsort() # 按值排序，得到对应下标数组
        classesCount = {}
        for i in range(K):
            y = y_train[nearIds[i]] # 得到对应的种类
            classesCount[y] = classesCount.get(y,0)+1 # 0为设置默认值
        # print(classesCount)
        # 对字典按值进行递减排序
        sortClassesCount = sorted(classesCount.items(),key=operator.itemgetter(1),reverse=True)
                                                        # 获取对象第二个元素           逆序
        y_predict.append(sortClassesCount[0][0])  # 预测种类为出现次数最多的那一类
    return y_predict

# 交叉验证集
def chooseK(X_train_old,y_train_old,K = 10,C = 5):
    '''
    :param X_train_old: 原训练特征集
    :param y_train_old: 原训练目标集
    :param K: 最大K
    :param C: 计算次数
    :return: 最好的K值
    '''

    # K从1取到maxK，分别计算Score
    scores = [0]
    for k in range(1,K+1):
        score = 0
        for j in range(1,C+1):
            # 拆分训练集为训练集和验证集
            X_train, X_check, y_train, y_check = train_test_split(X_train_old, y_train_old, train_size=0.6)
            y_predict = run_KNN(X_check,X_train,y_train,k)
            # 计算Score
            score = score + f1_score(y_check, y_predict, average='weighted')
        score = score/(C)
        # print(f"k = {k},score = {score}")
        scores.append(score)

    scores = np.array(scores)
    bestK = scores.argmax()
    # plt_KScore(scores,K,bestK)
    return bestK

# 绘制K对应的Score图像
def plt_KScore(scores,K,bestK):
    k_range = range(1,K+1)
    plt.plot(k_range,scores[1:])
    plt.scatter(bestK,scores[bestK],marker='o',c='red')
    plt.xlabel('Value of K in KNN')
    plt.ylabel('Score')
    plt.show()

if __name__ == '__main__':
    # 导入鸢尾花数据集
    iris = datasets.load_iris()
    dataSet = iris.data
    target = iris.target

    # 拆分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(dataSet,target, train_size=0.7, random_state=10)
    # 数据标准化
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)  # 标准化训练集X
    X_test = scaler.transform(X_test)

    start = time.time()
    best_K = chooseK(X_train,y_train,50)
    print(f"bestK is {best_K}")
    y_predict = run_KNN(X_test,X_train,y_train,best_K)
    score = f1_score(y_test, y_predict, average='weighted')
    print(f"predict score is {score}")
    end = time.time()
    print(f"run time is {end-start}")

利用Sklearn实现KNN完成鸢尾花分类

关于sklearn封装的KNN的参数说明详细请参考文章： KNN算法详解及实现__dingzhen的博客-CSDN博客_knn

读懂每一个需要的参数很很很重要！！一定要去看参数说明。

sklearn的KNN实现方式包括了之前提到的线性扫描、KDTree和ballTree，没有规定特定参数时它会自己选则实现方法。详细说明都在链接里了。

这次我们用Sklearn封装的KNN来完成上面提到的例子，即鸢尾花分类。同样也用了交叉验证寻找最佳K值。

详见代码：

import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets
from sklearn.preprocessing import StandardScaler

# 交叉验证找最好K
def findBestK(X_train,y_train,max_k = 50):
    k_scores = [0]
    for k in range(1,max_k+1):
        Knn = KNeighborsClassifier(n_neighbors=k)
        # 交叉验证，scoring='f1_weighted' 使用的与之前手写的交叉验证使用同一个F1-score规则
        scores = cross_val_score(Knn,X_train,y_train,cv=5,scoring='f1_weighted')
        k_scores.append(scores.mean())
    k_scores = np.array(k_scores)
    bestK = k_scores.argmax()
    plt_KScore(k_scores,max_k,bestK)
    return bestK

# 绘制K对应的Score图像
def plt_KScore(scores,K,bestK):
    k_range = range(1,K+1)
    plt.plot(k_range,scores[1:])
    plt.scatter(bestK,scores[bestK],marker='o',c='red')
    plt.xlabel('Value of K in KNN')
    plt.ylabel('Score')
    plt.show()


if __name__ == '__main__':
    # 导入鸢尾花数据集
    iris = datasets.load_iris()
    dataSet = iris.data
    target = iris.target

    # 拆分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(dataSet,target, train_size=0.7, random_state=10)
    # 数据标准化
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)  # 标准化训练集X
    X_test = scaler.transform(X_test)

    # 寻找最好K值
    start = time.time()
    best_K = findBestK(X_train,y_train)
    print(f"best_k is {best_K}")
    model = KNeighborsClassifier(n_neighbors=best_K)
    model.fit(X_train,y_train)
    y_predict = model.predict(X_test)
    score = f1_score(y_test, y_predict, average='weighted')
    print(f"predict score is {score}")
    end = time.time()
    print(f"run time is {end - start}")

交叉验证集选择K：

最终结果：

best_k is 11
predict score is 0.9778242192035296
run time is 0.7521629333496094

通过自己实现的KNN与sklearn实现的KNN对比，发现：

自己实现的KNN寻找到的最佳K值不固定，而sklearn每次寻找的最佳K值都一样。导致自己实现的KNN最佳K值不固定的原因是拆分数据集和验证集时每次的随机种子不固定。偶尔有几次自己算出来的结果和sklearn算出来的结果完全一致。
使用同种实现方式（即线性扫描实现KNN）时，sklearn用的时间比自己实现的要长那么一点点，暂时不清楚原因。

利用Sklearn的KNN完成手写数字识别

到此为止，你已经学会了如何自己实现KNN算法，并且取得了不错的分类效果。现在我们用sklrean封装好的KNN来完成一些有趣的事吧！

手写数据识别是计算机视觉方面的入门级图像识别，一般都是用神经网络实现的，不过我们可以使用KNN来完成数据规模比较小的手写数字识别。

在此之前，请确保你已经安装tensorflow和keras，我们的数据集将来自keras。

当然也可以自己找数据。

需要的包：

import numpy as np
import matplotlib.pyplot as plt
from keras.datasets import mnist
from sklearn.neighbors import KNeighborsClassifier

导入数据并查看数字图像

if __name__ == '__main__':
    # 加载数据
    (X_train,y_train),(X_test,y_test) = mnist.load_data()
    # 绘制训练集的部分数字图像
    for i in range(6):
        plt.figure()
        plt.imshow(X_train[i],cmap='gray')
    plt.show()

查看X_train训练集的形状：

    print(X_train.shape)

输出：

(60000, 28, 28)

看得出是个三维的，大概意思是60000张图片，像素，且是灰色(因为如果是彩色，应该是)

要用KNN算法，需要先将三维转化为二维矩阵，每一行代表一张图片，共60000张。

数据预处理

    # 将训练集和测试集转化为二维数组
    X_train = X_train.reshape([-1,28*28])
    X_test = X_test.reshape([-1,28*28])
    # 归一化
    X_train /= 255
    X_test /= 255

选择最佳K值

# 交叉验证法求最好K值
def findBestK(X_train,y_train,max_k = 50):
    k_scores = [0]
    for k in range(1,max_k+1):
        print(f"{k} time")
        Knn = KNeighborsClassifier(n_neighbors=k)
        # 交叉验证，scoring='f1_weighted' 使用的与之前手写的交叉验证使用同一个F1-score规则
        scores = cross_val_score(Knn,X_train,y_train,cv=5,scoring='f1_weighted')
        k_scores.append(scores.mean())
    k_scores = np.array(k_scores)
    bestK = k_scores.argmax()
    # plt_KScore(k_scores,max_k,bestK)
    return bestK

# 绘制K对应的Score图像
def plt_KScore(scores,K,bestK):
    k_range = range(1,K+1)
    plt.plot(k_range,scores[1:])
    plt.scatter(bestK,scores[bestK],marker='o',c='red')
    plt.xlabel('Value of K in KNN')
    plt.ylabel('Score')
    plt.show()

    # 接主函数内

    start = time.time()
    # 选择最佳K值，这一步如果觉得耗时太长，其实可以去掉
    # 为了缩短时间，我们只取10000个数据用于选择最佳K值
    best_K = findBestK(X_train[:10000], y_train[:10000])
    print(f"best_k is {best_K}")


    end = time.time()
    print(f"run time is {end - start}")

结果：

best_k is 4
run time is 54.95526051521301

这一步太慢了！！整整耗时55秒。强烈建议不要进行，如果需要最佳K值，上面已经算出来了。

训练模型，测试模型得分

    start = time.time()
    # 选择最佳K值，这一步如果觉得耗时太长，其实可以去掉
    # 为了缩短时间，我们只取10000个数据用于选择最佳K值
    # best_K = findBestK(X_train[:10000], y_train[:10000])
    # print(f"best_k is {best_K}")

    # 训练模型
    model = KNeighborsClassifier(n_neighbors=4)
    model.fit(X_train,y_train)
    # 计算得分
    y_predict = model.predict(X_test)
    score = f1_score(y_test, y_predict, average='weighted')
    print(f"predict score is {score}")
    end = time.time()
    print(f"run time is {end - start}")

结果：

predict score is 0.9681286795453637
run time is 7.25964617729187

可以看出模型很不错！到此为止，使用KNN进行手写数字识别可以说完成了。

但是，作为一个合格的玩具，它还没完。

接下来是可选内容：把它变成可以玩的玩具！

应用手写数字识别

现在假设你拿到了这样一张图片：

很显然，它是彩色的，但是我们之前训练用的图片是灰色的，而且，中间是白色的,像这样：

另外，两张像素可能不一样，前者像素不确定，后者为28*28所以我们需要先把图片做一些预处理:

将彩色图片变为灰色图片（即将三图层变为单图层）
将图片像素压缩为28*28
可以将图片二值化（即0和255），可能识别效果会更好。

图片预处理

接下来会用到opencv-python包，但是注意高版本的tensorflow和opencv-python可能出现不兼容的问题。最开始我用的tensorflow2.9.0，对应的numpy为1.23。但是安装opencv后会自动把numpy降为1.16，导致tensorflow用不了。所以这里可能需要切换一下环境。

我用的环境：tensorflow2.6.0+opencv4.5.5+numpy1.19.5

tensorflow版本降低后，数据集的导入可能会发生变化。

改变导入形式：

import cv2
import time
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.datasets import mnist
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

将彩色图片以灰度图片导入

查看原图片：

    path = 'number1.png' # path为图片储存位置
    # 原图像
    img1 = plt.imread(path) 
    plt.imshow(img1) 
    plt.show()

以灰度图片导入并查看：

    imgOriginal = cv2.imread(path,0)
    img = np.asarray(imgOriginal)
    print(f"before resize shape is:{img.shape}")
    img = cv2.resize(img,(28,28))
    print(f"after resize shape is:{img.shape}")
    plt.imshow(img,cmap='Greys_r') # cmap='Greys_r' 使plt显示灰度图像
    plt.show()

如果不加cmap='Greys_r'，matplotlib会把这张灰色图片由低维（1维）映射到高维（3维），然后以彩色图片的形式展出，这显然不符合我们这里的需求。

输出：

before resize shape is:(188, 186)
after resize shape is:(28, 28)

黑白颠倒以及二值化

我们的样本数据集为黑底白字，所以需要将这张图片也要变为黑底白字。同时我们可以将其二值化，变为黑白图像：

这里的二值化只是简单实现了下，还有更好的二值化方法，以后再学了。

# 二值化
def Binarization(img,Reverse = False):
    '''
    :param img:
    :param Reverse: 是否黑白颠倒
    :return:
    '''
    if Reverse == False:
        img = np.where(img > 160,255,0)
    else:
        img = np.where(img > 160,0,255)
    return img

现在将图片二值化：

    img = Binarization(img,Reverse = True)
    plt.imshow(img, cmap='Greys_r')  # cmap='Greys_r' 使plt显示灰度图像
    plt.show()

最后不要忘记了归一化和转化矩阵：

    X = img/255.0
    X = X.reshape(-1,28*28)

使用模型识别手写数字

    predict = model.predict(X)
    print(f"手写数字识别为:{predict[0]}")

结果：

手写数字识别为:2

完整代码

import cv2
import time
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.datasets import mnist
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier


# 交叉验证法求最好K值
def findBestK(X_train,y_train,max_k = 50):
    k_scores = [0]
    for k in range(1,max_k+1):
        print(f"{k} time")
        Knn = KNeighborsClassifier(n_neighbors=k)
        # 交叉验证，scoring='f1_weighted' 使用的与之前手写的交叉验证使用同一个F1-score规则
        scores = cross_val_score(Knn,X_train,y_train,cv=5,scoring='f1_weighted')
        k_scores.append(scores.mean())
    k_scores = np.array(k_scores)
    bestK = k_scores.argmax()
    # plt_KScore(k_scores,max_k,bestK)
    return bestK

# 绘制K对应的Score图像
def plt_KScore(scores,K,bestK):
    k_range = range(1,K+1)
    plt.plot(k_range,scores[1:])
    plt.scatter(bestK,scores[bestK],marker='o',c='red')
    plt.xlabel('Value of K in KNN')
    plt.ylabel('Score')
    plt.show()

# 计算模型得分
def cal_score(model,X_test,y_test):
    y_predict = model.predict(X_test)
    score = f1_score(y_test, y_predict, average='weighted')
    print(f"predict score is {score}")

# 二值化
def Binarization(img,Reverse):
    '''
    :param img:
    :param Reverse: 是否黑白颠倒
    :return:
    '''
    if Reverse == False:
        img = np.where(img > 160,255,0)
    else:
        img = np.where(img > 160,0,255)
    return img

# 识别数字
def identification_number(path,model = None,Reverse = False):
    # 原图像
    # img1 = plt.imread(path)
    # plt.imshow(img1)
    # plt.show()

    imgOriginal = cv2.imread(path,0)
    img = np.asarray(imgOriginal)
    img = cv2.resize(img,(28,28))
    # plt.imshow(img,cmap='Greys_r') # cmap='Greys_r' 使plt显示灰度图像
    # plt.show()

    img = Binarization(img,Reverse)
    # plt.imshow(img, cmap='Greys_r')  # cmap='Greys_r' 使plt显示灰度图像
    # plt.show()

    X = img/255.0
    X = X.reshape(-1,28*28)
    predict = model.predict(X)
    print(f"手写数字识别为:{predict[0]}")

if __name__ == '__main__':
    # 加载数据
    (X_train,y_train),(X_test,y_test) = mnist.load_data()
    # 归一化
    X_train = X_train /255.0
    X_test = X_test /255.0
    # 将训练集和测试集转化为二维数组
    X_train = X_train.reshape([-1,28*28])
    X_test = X_test.reshape([-1,28*28])

    # start = time.time()

    # 选择最佳K值，这一步如果觉得耗时太长，其实可以去掉
    # 为了缩短时间，我们只取10000个数据用于选择最佳K值
    # best_K = findBestK(X_train[:10000], y_train[:10000])
    # print(f"best_k is {best_K}")

    # 构建模型，喂数据
    model = KNeighborsClassifier(n_neighbors=4)
    model.fit(X_train,y_train)
    #
    # # 计算得分
    # cal_score(model,X_test,y_test)

    # 识别图片
    img_path = 'number1.png'
    identification_number(img_path,model,Reverse=True) # 在这里修改是否需要颠倒图像
    # end = time.time()

对模型的总结和评价

实际上因为没有用神经网络来做这个手写数字识别模型，加上二值化写的比较草率，它对于真实手写数字识别效果并没有预料的好。待会儿会举两个识别自己手写数字的例子。

在二值化时阈值的选择影响比较大，最开始阈值设置的200，结果自己手写的数字二值化后变成了一片白或黑色。后来调整到160-170左右，感觉比较合适。

咱也是第一次做手写数字识别玩具，整个过程还是很有意思的。

自己写的数字：

二值化和预测结果：

手写数字识别为:5

识别失败：

手写数字识别为:1

你可能感兴趣的:(机器学习,分类算法,机器学习,算法,python,分类算法)

动态路由RIP的总结 nihuhui666 网络智能路由器 RIP
动态路由所有路由器运行相同的路由协议,之后通过路由器之间的沟通,协商计算到达未知网段的路由信息静态路由优点:1.选路由管理员选择,更好掌控2.路由器资源占用更少3.静态路由相对动态路由更加安全缺点:1.配置量大2.静态路由无法根据网络拓扑结构的变化而变化—收敛动态路由:缺点:1.通过单一算法计算出来的路径,可能出现选路不佳2.资源占用多3.没有静态路由安全优点:1.配置量少2.动态路由可以根据网络
OSPF总结 nihuhui666 网络 ospf 网络协议
OSPF–开放式最短路径优先协议1.选路–应为ospf是链路状态协议,收集拓扑信息之后将图形结构通过SPF算法转化为树形结构,计算出的路径不会有环路,并且以带宽作为开销的评判标准,所以OSPF选路优于rip2.收敛–因为OSPF的计数器短与rip,所以收敛快3.占用资源–从单一数据包角度来说,因为rip传递的是路由信息,所以资源占用不大而ospf传递拓扑信息,从单个数据包角度说,大于rip.但是o
算法在各领域的广泛应用：100 个实例全解析软件职业规划 AI&模型算法
一、互联网与信息技术领域搜索引擎算法：如谷歌的PageRank算法，用于根据网页的重要性和相关性对搜索结果进行排序，帮助用户快速找到所需信息。推荐系统算法：例如亚马逊和Netflix使用的协同过滤算法。根据用户的历史行为（购买、观看记录等）和其他相似用户的偏好，为用户推荐可能感兴趣的产品或内容。社交网络分析算法：用于分析社交网络中的用户关系，如Facebook通过算法发现用户的好友推荐、社区划分等
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
算法训练-拓扑排序2 往往歌咏理想算法深度优先
洛谷P1807最长路https://www.luogu.com.cn/problem/P1807本题数据范围过大盲目使用dfs容易超时爆栈题目要求中提到i#defineintlonglong#defineendl'\n'/*===\\================//\\===================//\\============//\\==========//=========\\=
代码随想录算法训练营DAY05之栈和队列失序空间跟着代码随想录学算法算法 c++
题目和链接232.用栈实现队列225.用队列实现栈20.有效的括号1047.删除字符串中的所有相邻重复项150.逆波兰表达式求值239.滑动窗口最大值347.前k个高频元素232.用栈实现队列题意：请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作（push、pop、peek、empty）：实现MyQueue类：voidpush(intx)将元素x推到队列的末尾intpop()从
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
PDF合并工具，免费快捷开源。python脚本实例演示 zhangood pdf python 开源
主要功能：完全免费相当方便可以合并PDF合并后自动删除原始PDF可设置原始文件夹，和目标文件夹路径支持生成EXE可执行文件，可在非python环境运行通过python脚本编写的，先给大家看脚本，方便了解配置和学习。importosfromPyPDF2importPdfMergerfromosimportlistdirresource_path='D:/111111/'#设定源文件夹，把要合并的pd
【数据结构】数据结构，算法概念王_哈_哈 Jw 数据结构(考研知识点)数据结构
0.本篇问题：数据、数据元素、数据对象、数据项之间的基本关系？ADT是什么？数据结构的三要素？数据的逻辑结构有哪些？数据的存储结构有哪些？算法的五个特征？O(1)O(logn)O(n^n)O(n)O(n^2)O(n^3)O(2^n)O(n!)O(nlogn)大小关系？★错题&典型题1.可以用（）定义一个完整的数据结构A.数据元素B.数据对象C.数据关系D.抽象数据类型2.以下属于逻辑结构的是（）A
草根版外卖避雷计划「数据库寄生 2.0」优化方案 cainiaojunshi 预算方案智慧城市
接上回计划省钱版【打败美团和饿了吗的机会越来越大了！#外卖避雷计划#】[特殊字符][特殊字符]-CSDN博客（含三端流程图+预算穿透表+风险应对）一、策划目标（草根版核心）实现单城外卖后厨监督轻量化：✅创作端：骑手/打假人扫码接单，视频自动同步（省90%录入时间）✅服务端：AI+算法自动跑批，日省2小时人工干预（年省2.22万）✅观看端：实时暴雷指数+悬赏助力，用户信任度提升40%✅终极目标：单城
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
百度快速收录2025秒收方法实战解析 SEO黑猫百度
医疗门户网站48小时收录奇迹2023年底，某三甲医院官网改版后遭遇收录难题。通过我们部署的蜘蛛池智能调度系统，配合标题关键词矩阵布局（含’标题内提取’技术），成功实现48小时内全站收录。核心操作步骤：页面指纹构建采用动态TDK模板（例：『科室{科室}科室{病症}_${年份}最新诊疗方案』）植入地域长尾词（如’北京医保报销政策’）蜘蛛池配置方案#智能蜘蛛路由算法示例defschedule_spide
贪心算法（5）（java）k次取反后最大化的数组和奋进的小暄贪心算法 java 算法
题目：给定一个整数数组`nums`和一个整数`k`，你可以进行最多`k`次取反操作。每次操作可以选择数组中的一个元素并将其取反（即`x`变为`-x`）。最终返回经过`k`次取反操作后，数组可能的最大总和。解法：分情况讨论。设：整个数组中负数的个数是m个1.m>k:把前k小负数转化成正数2.m==k:把所有负数全部转化成正数3.mk){//情况一：负数个数多于k次反转Arrays.sort(nums
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，