xjl271314

机器学习实战(一)——十大经典算法之K-近邻算法

最近在学习一些python的技术知识和机器学习的相关知识，本章是十大算法的起始篇，K-近邻算法，让我们一起走进机器学习的世界把。

前言

笔者本身是计算机相关专业，机器学习算法在数据挖掘的学习过程中已经接触过了，但是之前的学习是理论知识方面的学习，说实在之前学习也不知道学了有什么用处。等到现在用到了才发现之前也没有好好认真的学习，现在就从头学习把。

引言

先用书本上的栗子来引出为什么学习这个算法。

众所周知，电影可以按照题材来分类，然而题材本身是如何定义的呢？我们根据什么来判断这部电影是属于哪个题材呢？

比如说动作片与爱情片，爱情片中很多也存在动作的镜头，而动作片中也有很多接吻的镜头等。如何判断电影是属于爱情片还是动作片呢？

相对来说肯定是动作片里面的动作镜头更加的多，然后爱情片里面的爱情戏份更加的多，我们就通过判断电影里面相对占的次数比较多来判断属于哪种类型的电影。

K-近邻算法（KNN）概述

简单的说，K-近邻算法就是采用测量不同特征值之间的距离进行分类。通常K是不大于20的整数。

详细的描述就是：在已有一个样本数据集的情况下，我们已知每个样本对应的所属分类，然后输入新的数据样本，将新的数据样本特征值与已有的数据样本的特征值进行比较，然后得到新的数据样本属于数据集的哪个分类。

优点：

精度高
对异常值不敏感
无数据输入假定

缺点：

计算复杂度高
空间复杂度高

适用数据范围：

数值型
标称型

开始

我们回归到电影分类的栗子，使用 K-近邻算法分类爱情片和动作片：

下图显示了研究的6部电影的打斗和接吻镜头：

图中的？号所在的位置是该位置电影出现的镜头数图形化展示，具体数字参见下表：

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He’s Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	爱情片
Robo Slayer 3000	99	5	爱情片
Amped II	98	2	爱情片
?	18	90	爱情片

即使不知道电影属于哪种类型，我们也可以通过某种方法计算出来，首先计算未知电影与样本中其他电影的距离，得到如下表的数据，暂时不关心如何计算得到。

电影名称	与未知电影的距离
California Man	20.5
He’s Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

现在我们得到了样本集中所有的电影与未知电影的距离，按照距离递增排序，可以找到K个距离最近的电影。假定K=3，则得到三个电影分别是California Man,He’s Not Really into Dudes ,Beautiful Woman。这三部电影都是爱情片，所以我们的结论为未知电影属于爱情片。

接下来我们将使用python来开发K-近邻算法：

K-近邻算法的一般流程：

1.收集数据：可以使用任何方法。
2.准备数据：距离计算所需要的数值，最好是结构化的数据格式。
3.分析数据：可以使用任何方法。
4.训练算法：此步骤不适用于K-近邻算法。
5.测试算法：计算错误率。
6.使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K-近邻算法判断输入的新样本数据属于哪个分类，最后应用对计算出的分类执行后续的处理。

####python实现开始

######1.使用python导入数据

我们已经准备好了一个名为kNN.py的文件，可以在kNN.py网址中选择源代码进行下载，也可以跟随本教程一步一步自己来理解并实现这个算法。

#######2.实施kNN分类算法

我们先来看一下使用伪代码表述的算法：

对未知类别属性的数据集中的每个点依次执行以下操作：

1.计算已知类别数据集中的每个点与当前点之间的距离。(常用欧几里得距离或曼哈顿距离)
2.按照距离递增次序排序。
3.选取与当前点次序最小的K个点。
4.确定前K个点所在类别的出现概率。
5.返回前K个点出现频率最高的类别作为当前点的的预测分类。

import numpy as np
import operator
# k-近邻算法
# 距离计算采用欧几里得距离


# inX      用于分类的输入向量
# dataSet  输入的训练样本集
# labels   标签向量
# K        选择的邻近样本数量


def classify(inX, dataSet, labels, K):
      #得到数据集的行数  shape方法用来得到矩阵或数组的维数  shape[0]表示行数 shape[1]表示列数
      dataSetSize = dataSet.shape[0]

      #tile:numpy中的函数。tile将原来的一个数组复制成一个新的数组
      # a = [1,2] 
      # tile(a,2) [1 2 1 2]
      # tile(a,(1,2)) [[1 2 1 2]] 扩展列数
      # tile(a,(2,1)) [[1 2][1 2]] 扩展行数

      #diffMat 就是将输入向量扩展成与dataSet相同行数的新向量 - dataSet 得到的结果其实就是x1-x0
      diffMat = np.tile(inX, (dataSetSize,1)) - dataSet

      # 计算得到 （x1 - x0)^2
      sqDiffMat = diffMat**2

      # 得到平方和
      # 当axis为0时,是压缩行,即将每一列的元素相加,将矩阵压缩为一行 
      # 当axis为1时,是压缩列,即将每一行的元素相加,将矩阵压缩为一列 
      sqDistances = sqDiffMat.sum(axis=1)

      # 计算距离
      distance = sqDistances**0.5

      # 对得到的距离进行索引排序
      # a [1,3,2]
      # a.argsort()  [0,2,1]
      sortedDistIndicies = distance.argsort()
      
      classCount = {
     }  
      
      for i in range(K):
          #voteIlabel的值等于给定labels[距离的索引排序]
          voteIlabel = labels[sortedDistIndicies[i]]
          #依次查询classCount中是否有该key，有则将取出value再+1，没有则返回添加该key并置value为0，再+1  
          classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
      # sorted函数进行临时排序 排序为从大到小进行排序 python3.5之后都是.items
      sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1), reverse=True)
      # 返回结果中最大的值 即是最接近的分类值
      return sortedClassCount[0][0]



# 构造训练样本集
def createDataSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

group = createDataSet()[0]
labels = createDataSet()[1]


result = classify([1,1.2],group,labels,3)

print(result) # A

上述代码亲测在python3.6.3环境下可以正常的运行。但是实际上上述栗子只是现实世界中非常简单的一个栗子，接下来我们将来继续探讨K-近邻算法在现实世界中的应用。

####示例：使用K-近邻算法改进约会网站的配对效果

帮助海伦在约会网站中将他的意向匹配对象划到相对应的分类中。

######1.准备数据：从文本文件中解析数据

海伦已经收集了某些历史数据，存放在data.txt中下载地址——>源代码——>Ch02——>datingTestSet2.txt。其中每个样本数据占据一行，总共1000行，海伦的样本数据主要包含以下3个特征：

每年获得的飞行常客里程数
玩视频游戏所耗时间百分比
每周消费的冰淇淋公升数

我们将创建一个file2matrix函数来将输入的文件名字符串转化为训练样本矩阵和类标签向量。

import numpy as np
import operator

# 将文本记录转化为Numpy解析的数组

def file2matrix(filename):
    # open() 函数用于打开一个文件，创建一个 file 对象
    fr = open(filename)
    # 读取文件的每一行 readlines() 自动将文件内容分析成一个行的列表
    arrayOLines = fr.readlines()
    # 得到所有数据的条数
    numberOfLines = len(arrayOLines)
    # 得到用0填充的数组  zeros(shape, dtype=float, order='C') 返回一个给定形状和类型的用0填充的数组
    # 至于后面为什么是3列呢？ 因为我们的特征主要是3大特征
    # returnMat 为一个1000行 3列的0元素填充的数组
    returnMat = np.zeros((numberOfLines,3))
    # 控制循环与分类标签
    classLabelVector = []
    index = 0
    # 遍历每行数据
    for line in arrayOLines:
        # 去除前后空格
        line = line.strip()
        # 对于每一行，按照制表符切割字符串，得到的结果构成一个数组，数组的每个元素代表一行中的一列
        listFormLine = line.split('\t')
        # 将得到的数组中的 前三列赋值给构造的数组的每一行
        returnMat[index,:] = listFormLine[0:3]
        # 将训练样本数据集的分类全部添加进classLabelVector
        classLabelVector.append(int(listFormLine[-1]))
        index += 1
    return returnMat, classLabelVector

print(file2matrix('data.txt'))

######2.使用matplotlib来创建散点图

在我们得到了需要的数据格式之后，我们将使用matplotlib来进行散点图的绘制，观察数据的分布情况。

# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"/System/Library/Fonts/PingFang.ttc", size=14)  
# 这个引入的就是上方编写的那段代码
from test2 import file2matrix,datingDataMat,datingLabels

# 新建一个名叫 fig的画图窗口
fig = plt.figure()

# 参数111的意思是：将画布分割成1行1列，图像画在从左到右从上到下的第1块
ax = fig.add_subplot(1,1,1)
# 构造横纵坐标  
x = datingDataMat[:,1]  # type ndarray
y = datingDataMat[:,2] # type ndarray
# 匹配参数
ax.scatter(
    x, 
    y,
    15.0*np.array(datingLabels), 
    15.0*np.array(datingLabels)
)

plt.title(u'游戏与冰淇淋散点图', FontProperties=font)
plt.xlabel(u'玩视频游戏所耗时间百分比', FontProperties=font)
plt.ylabel(u'每周消费的冰淇淋公升数', FontProperties=font, verticalalignment='baseline',horizontalalignment='center', rotation='vertical')

plt.show()

我们再来看一下另外两个参数的比较

# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"/System/Library/Fonts/PingFang.ttc", size=14)
from test2 import file2matrix, datingDataMat, datingLabels

# 设置图例的显示中文
plt.rcParams['axes.unicode_minus'] = False 

# 新建一个名叫 fig的画图窗口
fig = plt.figure()

# 参数111的意思是：将画布分割成1行1列，图像画在从左到右从上到下的第1块
ax = fig.add_subplot(1, 1, 1)

 # 一共有3类，所以定义3个空列表准备接受数据
type1_x = [] 
type1_y = []
type2_x = []
type2_y = []
type3_x = []
type3_y = []

# 1000组数据，i循环1000次
for i in range(len(datingLabels)): 
    # 根据标签进行数据分类
    if datingLabels[i] == 1: 
        print(datingDataMat[i][0]) 
        type1_x.append(datingDataMat[i][0])  # 取的是样本数据的第一列特征和第二列特征
        type1_y.append(datingDataMat[i][1])

    if datingLabels[i] == 2:
        type2_x.append(datingDataMat[i][0])
        type2_y.append(datingDataMat[i][1])

    if datingLabels[i] == 3:
        type3_x.append(datingDataMat[i][0])
        type3_y.append(datingDataMat[i][1])

ax.scatter(type1_x, type1_y, s=20, c='r', label=u'不喜欢')
ax.scatter(type2_x, type2_y, s=20, c='b', label=u'魅力一般')
ax.scatter(type3_x, type3_y, s=20, c='k', label=u'极具魅力')


plt.title(u'飞行里程数与玩游戏散点图', FontProperties=font)
plt.xlabel(u'每年获取的飞行常客里程数', FontProperties=font)
plt.ylabel(u'玩视频游戏所耗时间百分比', FontProperties=font, verticalalignment='baseline',
           horizontalalignment='center', rotation='vertical')

# 设置图例的字体
plt.legend(prop=font)

plt.show()

######3.进行数据归一化

什么是数据归一化呢？

简单来说就是把原有的数据映射到0到1或者-1到1之间。

newValue = ( oldValue - min ) / ( max - min )

我们看下表：

玩视频游戏所耗时间百分比 | 每年获得的飞行常客里程数 | 每周消耗的冰淇淋公升数 | 样本分类

| :-: |
0.8 | 400 | 0.5 | 1
12 | 134000 | 0.9 | 3
0 | 2000 | 1.1 | 2
67 | 32000 | 0.1 | 2

比如我们计算样本3和样本4之间的距离，发现每年获取的飞行常客里程数对于计算结果远远大于其他的两个特征，然而这样的结果是不太公平的，所以我们将对数据进行归一。

import numpy as np

def autoNorm(dataSet):
    # 在每一列中选取最小值，而不是选取当前行的最小值
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges  = maxVals - minVals
    normDataSet = np.zeros(np.shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - np.tile(minVals, (m,1))
    normDataSet = normDataSet/np.tile(ranges, (m,1)) 

    return normDataSet, ranges, minVals

在进行归一化数据后，我们将进行检测我们的算法错误率。

import numpy as np
from test2 import datingDataMat, datingLabels, autoNorm, classify

def datingClassTest():
    hoRatio = 0.1
    # 归一化后的原始数据
    normMat, ranges, minVals = autoNorm(datingDataMat)
    # 原始数据总共1000行
    m = normMat.shape[0]
    # 使用10%的数据作为测试数据  100条记录
    numTestVecs = int(m*hoRatio)
    # 设置初始错误计数
    errorCount = 0.0
    # 0 - 1000
    for i in range(numTestVecs):
        print(str(i),normMat[i,:])
        classifierResult = classify(normMat[i,:],normMat[numTestVecs:m,:], datingLabels[numTestVecs:m], 3)
        print("the result sort is:%d,the real answer is:%d" %(classifierResult, datingLabels[i]))
        if(classifierResult != datingLabels[i]):errorCount += 1.0
    print("the total error rate is:%f"%(errorCount/float(numTestVecs)))

datingClassTest()



# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:3
# the result sort is:1,the real answer is:1
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:3
# the result sort is:3,the real answer is:3
# the result sort is:2,the real answer is:2
# the result sort is:1,the real answer is:1
# the result sort is:3,the real answer is:1
# the total error rate is:0.050000

最后我们来模拟一下真实的筛选现场，我们把打分的输入交给用户输入，然后根据输入判断是否是海伦喜欢的类型：

def classfiyPerson():
    resultList = ['一点也不喜欢','有一点喜欢','愿意进一步交往']
    percentTats = float(input("花费在打游戏的时间比例?"))
    ffMiles = float(input("每年获取的飞行常客里程数?"))
    iceCream = float(input("每年消费多少公升的冰淇淋?"))
    normMat, ranges, minVals = autoNorm(datingDataMat)
    inArr = np.array([ffMiles, percentTats, iceCream])

    classifierResult = classify((inArr - minVals) / ranges,normMat,datingLabels, 3)

    print("the result is:",resultList[classifierResult - 1])

classfiyPerson()

####手写识别系统

本节我们继续学习使用K-近邻算法实现一个手写识别算法。简单起见，这里的构造系统只能识别数字0-9，需要识别的数字已经使用图形软件处理成具有相同的色彩和大小,32*32。

K-近邻算法实现手写识别系统：

1.收集数据：提供文本文件。
2.准备数据：编写img2vector，将图像格式转化为分类器使用的向量格式。
3.分析数据：检查数据是否符合要求。
4.训练算法：此步骤不适用于K-近邻算法。
5.测试算法：计算错误率。
6.使用算法：首先需要输入样本数据和结构化的输出结果，然后运行算法判断输入的新样本数据属于哪个数字，最后应用对计算出的分类执行后续的处理。

######准备数据，将图像转化为向量

我们构造一个方法，将输入的图像转化为一个向量

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

######测试算法，使用K-近邻算法识别手写数字

这里用到的数据同样可以在上述地址进行下载。

# 测试识别手写数字
def handwritingClassTest():
    # 正确的结果集
    hwLabels = []
    # 使用listdir方法可以列出所给定目录的文件名
    trainingFileList = listdir('trainingDigits')
    # 1934
    m = len(trainingFileList)
    print(m)
    # np.zeros((1934,1024)) 1934行1024列数组
    trainingMat = np.zeros((m,1024))
    for i in range(m):
        # 获取完整文件名
        fileNameStr = trainingFileList[i]
        # 截取文件名
        fileStr = fileNameStr.split('.')[0]
        # 获取数字实际结果  我们的文件名类似长这样 0_1.txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        # 构造转化后的数据
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    # 构造测试数据
    testFileList = listdir('testDigits')
    # 初始错误计数
    errCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        # 获得预测结果
        classifierResult = classify(vectorUnderTest,trainingMat,hwLabels,3)

        print("the result is:%d ,the real answer is:%d" % (classifierResult, classNumStr))

        if(classifierResult != classNumStr):errCount += 1.0
        # 打印错误计数和错误率
        print("the total error count is:%d" % errCount)
        print("the error rate is:%f" % (errCount/float(mTest)))

    
handwritingClassTest()

到目前为止，K-近邻算法介绍基本结束了，总结一下K-近邻算法。

K-近邻算法是一种最简单有效的算法，但是使用该算法的时候，我们必须要有足够量的训练数据，如果训练数据集比较大，我们就要消耗大量的存储空间，而且由于算法需要对每个数据计算距离值，实际效率可能不是很好。

有没有什么更好的解决办法呢？下章我们将探讨k决策树，一种K-近邻算法的优化版本。后面如果还有示例，会追加到尾部。

[生活杂项][运动教程]自由泳 xcy6666 生活
https://v.youku.com/v_show/id_XMzgzMjkwMzg0MA==.html?spm=a2h0k.11417342.soresults.dtitlehttps://v.youku.com/v_show/id_XMzgxNjM2NjY4NA==.html?spm=a2h0k.11417342.soresults.dtitle
python 山脊图_（数据科学学习手札98）纯Python绘制满满艺术感的山脊地图 weixin_39780255 python 山脊图
1简介下面的这幅图可能很多读者朋友们都看到过，这是英国摇滚乐队JoyDivision在1979年发行的其第一张录音室专辑UnknownPleasures的封面，由艺术家PeterSaville基于射电脉冲星信号的数据图创作而成，成为了一种流行文化的符号标志。图1类似图1的风格，在地图制作中也存在着一种山脊地图，基于记录地表海拔信息的高程数据，我们可以利用水平方向上的基于实际位置海拔高度的曲线，来对
【Python 学习 / 5】函数详解（定义、参数、作用域、lambda、内置函数）卜及中 Python基础 python 学习开发语言
文章目录一、函数1.定义函数1.1基本函数定义1.2带参数的函数1.3带返回值的函数2.参数传递2.1位置参数2.2默认参数2.3可变参数2.3.1使用`*args`2.3.2使用`**kwargs`2.4参数的混合使用3.作用域3.1局部和全局变量3.2`global`关键字输出：3.3`nonlocal`关键字输出：4.lambda表达式4.1基本用法4.2与`map()`、`filter()
哈希表（C语言版） coding_rui 数据结构与算法 C语言散列表 c语言数据结构
文章目录哈希表原理实现(无自动扩容功能)代码运行结果分析应用哈希表如何统计一段文本中，小写字母出现的次数?显然，我们可以用数组inttable[26]来存储每个小写字母出现的次数，而且这样处理，效率奇高。假如我们想知道字母’k’出现的次数，直接访问元素table['k'-'a']即可，时间复杂度为O(1)。在现实生活中，我们经常需要存储键值对(key-value)数据，比如上面的‘a’:10,‘b
leetcode简单(181-200)python 九日火 leetcode python
762.PrimeNumberofSetBitsinBinaryRepresentation(e-181)GiventwointegersLandR,findthecountofnumbersintherange[L,R](inclusive)havingaprimenumberofsetbitsintheirbinaryrepresentation.(Recallthatthenumberofs
Leetcode 3458. Select K Disjoint Special Substrings Espresso Macchiato leetcode笔记 leetcode 3458 leetcode medium leetcode周赛437 动态规划字符串切分
Leetcode3458.SelectKDisjointSpecialSubstrings1.解题思路2.代码实现题目链接：3458.SelectKDisjointSpecialSubstrings1.解题思路这一题我的思路的话就是找出给定的字符串当中做多能得到的特殊子串的数目，然后判断其是否大于给定值kkk即可。然后关于如何求字符串能够获得的特殊子串的最大数目，我的思路是使用动态规划的思路。首先
小米红米手机澎湃2.0解锁BL 绕澎湃社区验证救砖以及9008授权我叫小特智能手机电脑经验分享手机
2025年小米降级刷机系统政策，小特刷机科技写高通处理器：澎湃2.0或者K50/K50Pro/Note11TPro/Note12Tpro的最新澎湃1.0就是代表高版本小米红米高版本无法解锁bl的，无法绕过绑定的，免解锁降级的，黑砖救砖的，可邮寄拆字库进行物理层面的底层刷写。物理刷写支持手机降级，救砖等，修复基带小米14系列，K70至尊你要降级的话，你就不用看了，让你邮寄你肯定也没有备用机。小米13
Jfinal websocket onMessage无法接收二进制音频数据问题 withme977 websocket 网络协议网络
最开始，和vue联调的时候是可以接收二进制音频流数据的，大小在5k左右；后面音频流数据每条8k多9k的时候就接收不到二进制音频数据了，并且刚请求连接上webcoket，发送一条消息后，就直接被动关闭websocket连接；最重要的是还不报错！！刚开始还没找到是数据大小限制的问题（由于要测试好多其它语音包，例如vad4j，webrctvad这些），以为是自己哪里搞错了，就找websocket什么时候
PaddleOCR面板恢复python脚本--针对pdf的面板恢复 zsh669 paddlepaddle ocr 百度 python pdf
问题在做一个项目的时候，使用PaddleOCR提供的模型，实现对图片或者pdf进行面板恢复，并保存为.docx文档。但是，官方的文档只提供了针对图片进行面板恢复的python脚本，没有提供pdf进行面板恢复的python脚本，官方只提供了pdf面板恢复的命令行使用方法，因此，我去看了PaddleOCR的源码，将命令行方法转换为python脚本准备工作环境配置和文档请参考：\ppstructure/
Python库 - transformers 司南锤 PYTHON库 python机器学习 python 开发语言
transformers库是由HuggingFace开发的一个非常流行的Python库，用于自然语言处理（NLP）任务。它提供了大量的预训练模型，这些模型可以用于各种NLP任务，如文本分类、问答、翻译、摘要生成等。以下是关于transformers库的详细介绍：1.主要特点预训练模型：transformers库包含了多种预训练的语言模型，如BERT、GPT、T5、XLNet等。这些模型在大规模文本
【NLP-04】tranformers库保姆级使用教程---以BERT模型为例云天徽上 NLP bert 人工智能深度学习自然语言处理机器学习 numpy 信息可视化
安装要安装一个非常轻量级的Transformers库，您可以执行以下步骤：1、打开终端或命令提示符。2、运行以下命令来安装Transformers库：pipinstalltransformers这将使用pip工具从PythonPackageIndex（PyPI）下载并安装Transformers库。请确保您的计算机上已经安装了pip。然后，您可以在Python代码中导入Transformers库：
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
conda更换环境版本（比如torch版本）挨打且不服66 python python
找到想要的torch版本pytorch官网torch过往的版本创建新环境condacreate--namemyenvpython=3.8condaactivatemyenvconda虚拟环境中安装CUDA和CUDNN深度学习用显卡训练的时候，需要安装与显卡对应的cuda和cudnn。但不同的项目所支持的pytorch版本是不一样的，而pytorch版本和cuda版本之间又是互相依赖的，所以如果可以
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
用conda虚拟环境解决py+torch环境问题 SevenZS Note anaconda python
要事先安装wheelpipinstallwheelcondainstallnb_conda安装nb_conda这样可以在shell切换虚拟环境启动jupyternotebook后切换到虚拟环境创建虚拟环境condacreate-npython36python=3.6condaactivatepython36加载后再pip安装torch1.4+cu101所有版本torch放在某个文件夹，比如桌面后p
【报错】ImportError: cannot import name ‘get_refined_artifact_map‘ from ‘basicsr.losses.loss_util‘ 之群害马 python 深度学习 pytorch
ImportError:cannotimportname'get_refined_artifact_map'from'basicsr.losses.loss_util'(xxx/lib/python3.10/site-packages/basicsr/losses/loss_util.py)解决办法：找到basicsr库网站缺失的部分如下，补充到原来的xxx/lib/python3.10/site
Python 用pytorch从头写Transformer源码，一行一解释；机器翻译实例代码；Transformer源码解读与实战医学小达人 NLP LLMs GPT 深度学习人工智能 transformer python 机器学习
1.Transformer简介Transformer模型被提出的主要动机是解决序列处理任务的长距离依赖问题。传统的RNN和LSTM虽然能够处理序列任务，但因为它们在处理序列时需要一步步前进，因此其他信息无法立即对其产生影响，当序列变长时，长距离依赖的信息很可能会被丢失。为了解决这个问题，Transformer模型被设计出来，内核思想是利用自注意力机制，这样模型可以直接对输入序列的任意两个位置建立直
【自学笔记】机器学习基础知识点总览-持续更新 Long_poem 笔记机器学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.强化学习四、机器学习处理流程五、机器学习常见问题与解决方法六、机器学习应用领域总结机器学习重点知识点总览一、机器学习基础概念定义：机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。本质：找到
解锁机器学习核心算法 | 逻辑回归：不是回归的“回归” 紫雾凌寒 AI 炼金厂机器学习算法逻辑回归深度学习 python scikit-learn matplotlib
引言前面一篇文章我们介绍了机器学习算法中我们最先会接触到的算法——线性回归：机器学习的基石。今天我们继续学习机器学习中的另一个算法模型——逻辑回归（LogisticRegression）。一、逻辑回归：不是回归的“回归”在机器学习的庞大算法体系中，逻辑回归（LogisticRegression）虽然名字中带有“回归”，但却是一位不折不扣的“分类高手”，主要用于解决二分类问题，在众多领域发挥着关键作
python正则表达式快速入门_Python 正则表达式入门 weixin_39955938 python正则表达式快速入门
本文主要为没有使用正则表达式经验的新手入门所写。转载请写明出处引子首先说正则表达式是什么？正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语：RegularExpression，在代码中常简写为regex、regexp或RE)，计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
在conda虚拟环境中安装jupyter lab-----deepseek问答记录溯源006 deepseek回答记录 conda jupyter ide
在Conda虚拟环境中安装JupyterLab的步骤如下：1.创建并激活Conda虚拟环境如果你还没有创建虚拟环境，可以使用以下命令创建一个新的虚拟环境并激活它：condacreate-nmyenvpython=3.x#将`myenv`替换为你的环境名称，`3.x`替换为所需的Python版本condaactivatemyenv2.安装JupyterLab在激活的虚拟环境中，使用以下命令安装Jup
单片机、嵌入式Linux开发大学自学路径 Oriental Son 嵌入式 MCU 单片机单片机学习 stm32 mcu linux
笔者所修读的专业为物联网工程，物联网工程是一门新兴的、热门的专业，其所涉及的学科更是又多又杂，既有计算机方向的编程语言（如C、C++、Java、Python等）、数据结构与算法、操作系统、移动端应用开发、机器学习等；软硬结合的方向有数字电路单片机开发、嵌入式Linux开发等；硬件、电路方向有电路分析、数字电路、模拟电路、传感器原理、RFID、FPGA开发等；涉及信号处理的有信号与系统、通信原理等。
深入解析 Poetry：Python 项目依赖管理的新宠，安装、使用及最佳实践潘智祥 python java 人工智能
在Python的世界里，管理项目依赖和虚拟环境一直是一个令人头疼的问题。虽然有pip和virtualenv这样的工具，但随着项目的复杂性增加，它们的局限性也逐渐显露出来。这时候，Poetry作为一个现代化的依赖管理工具应运而生。它不仅解决了项目依赖管理的问题，同时也集成了虚拟环境管理、发布等功能，成为了Python开发者的新宠。Poetry是什么？Poetry是一个用于管理Python项目依赖和构
【JAVA工程师从0开始学AI】，第二步：从强类型到动态语言：Java工程师的Python语法避坑指南架构默片 JAVA工程师从0开始学AI python java windows
这是一篇介绍Python语法与JAVA语法区别文章，让我们以对比的方式，来学习一下Python的语法。首先我们看一下下面的Python代码，和具体在java当中分别代表了什么意思numbers=[1,2,3,4,5,6,7,8,9]#①创建数字列表（像Java的ArrayList，但不用写泛型）odd_numbers=[]#②准备装奇数的空列表（类似Java的newArrayListnumbers
052_爬虫_爬虫相关概念（引用《尚硅谷Python爬虫教程（小）小白零基础速通》052章）一个有趣的昵称 python 爬虫开发语言
爬虫解释：通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息实用程序模拟浏览器，去向服务发送请求，获取响应信息爬虫的核心爬取网页：爬取整个网页包含了网页中所的内容解析数据：将网页中得到的数据进行解析难点：爬虫和但爬虫之间的博弈爬虫的类型实例通用爬虫百度，360，Google，搜狗等搜索引擎功能访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务robot
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
随机梯度下降一定会收敛么？ AndrewHZ 人工智能深度学习算法
1.什么是随机梯度下降？随机梯度下降（StochasticGradientDescent，SGD）是一种用于最小化目标函数的迭代优化算法，在机器学习和深度学习领域应用广泛。2.随机梯度下降算法的基本原理1.基于梯度的优化基础该算法是基于梯度的优化算法，用于寻找函数的最优解，通常是最小化损失函数。在机器学习和深度学习中，模型通过调整参数来最小化损失函数，以达到最佳的预测性能。2.迭代更新参数从初始的
【Python基础】Python闭包：如何让你的代码拥有‘读心术’？陈序不懂程序 python 服务器 apache 网络开发语言数据库学习
第1章闭包概念与背景1.1闭包定义与理论基础闭包，这一术语源自数学逻辑，如今在计算机科学中占据着核心地位，尤其在面向对象和函数式编程领域中发挥着无可替代的作用。它是一种特殊的函数对象，不仅包含自身的代码逻辑，还携带着其定义时所处环境的部分状态，即对外部自由变量的引用。这种独特的“携带状态”特性赋予了闭包强大的功能和灵活性，使其成为实现抽象、封装、数据隐藏以及控制程序执行的关键工具。1.1.1闭包的
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

机器学习实战(一)——十大经典算法之K-近邻算法

前言

引言

K-近邻算法（KNN）概述

优点：

缺点：

适用数据范围：

开始

你可能感兴趣的:(python,python,机器学习,K)