Azoobie

机器学习实战笔记--kNN

本文为《机器学习实战》学习笔记

1. 相关数据类型&函数介绍

SciPy 基于Python生态系统提供了数学运算、科学和工程的开源软件，主要包括基本N维数组包NumPy，科学计算基本库SciPy library，用于2D绘图的Matplotlib，交互式控制台IPython，用于符号数学Sympy，用于数据结构和分析的pandas。

1.1 NumPy

NumPy是python科学计算的基础包。包括强大的N维数组对象；复杂的函数；集成C/C++和Fortran代码的工具；线性代数、傅里叶变换和随机数功能。
标准python库中的array是一维的，功能更少。numpy的数组是ndarray，可以是多维的，拥有更多功能和属性。ndarray的主要属性如下：
ndim – 数组维度
shape – 数组形状，使用tuple表示数组在各个维度的大小，对于一个n行m列的数组，返回值为(n, m)，该元组的长度为数组维度的数量，即ndim。
size – 数组中元素的总数
dtype –数组中元素的类型
ndarray的基本运算如下：
A * B表示两个数组对应位置的元素相乘
A.dot(B) / dot(A, B) 表示矩阵积
A.sum(axis = ) 对数组元素求和。A.sum()表示对数组中的所有元素求和，axis = 0表示对每一列求和，axis = 1表示对每一行求和。
不同数据类型的数据运算时，结果向上转型（upcasting）

1.2 Matplotlib

Matplotlib是Python 2D绘图库。matplotlib.pyplot集合了命令行风格的函数，使得Matplotlib能够像MATLAB一样工作。每个pyplot函数都会导致图片的一些改变。

1.3 operator

operator模块包含了Python的标准操作函数，也定义了用于通用属性和item查找的工具。

1.4 io

io模块主要提供处理多种类型I/O的工具。

1.5 os

os模块与依赖操作系统的功能有关。其中，通过open()函数读写文件，os.path模块提供了操作路径的方法，fileinput模块能够在命令行中读取所有文件的所有行，tempfile模块提供创建临时文件和目录的操作，shutil模块提供高级的文件和目录处理。

2. kNN算法

2.1 构造数据集

#构造数据集
from numpy import *
def createDataSet():
    #group为样本，labels为样本对应标签
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels

numpy.array(object, dtype=None, copy=True, order=’K’, subok=False, ndmin=0)建立数组。object为数组，dtype指定数据类型，ndmin指定最小维度

2.2 kNN分类器

#kNN算法
#inX为待分类向量，dataSet为训练样本集， labels为标签，k
def kNN(inX, dataSet, labels, k):
    #计算待分类向量与所有训练样本的欧氏距离
    dataSetSize = dataSet.shape[0] #获得训练样本的个数
    difMat = tile(inX, (dataSetSize, 1)) - dataSet #待分类向量与所有训练样本的差值矩阵
    sqDifMat = difMat ** 2  #差值平方
    sqDistances = sqDifMat.sum(axis = 1) # 对每行求和
    distances = sqDistances ** 0.5 #开根号，得到待分类向量与所有训练样本的距离
    sortedDistIndicies = distances.argsort() #得到使距离有序的索引数组
    #统计k个最近邻样本的标签数
    classCounts = {} #使用字典记录不同类别的样本数
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCounts[voteIlabel] = classCounts.get(voteIlabel, 0) + 1
    #按照标签的数量对标签逆序排序
    sortedClassCount = sorted(classCounts.items(), key = operator.itemgetter(1), reverse = True)
    return sortedClassCount[0][0]

numpy.tile(A, reps)函数通过将A重复reps次，构造数组。A为输入的数组，reps为A在每个维度上的重复次数。
numpy.argsort(a, axis=-1, kind=’quicksort’, order=None)返回能够使数组有序的索引数组index_array，a[index_array]使数组a有序。a为待排序数组；axis为排序维度，默认为-1，表示最后一个维度；kind为排序算法，可为’quicksort’, ‘mergesort’,’heapsort’；order为指定的顺序，当a具有字段定义时有效。
sorted(iterable[, key][, reverse])返回可迭代对象iterable的有序列表，是稳定排序。key为函数，指定用于比较的自变量，默认为None，表示直接进行排序；reverse为bool变量，指定是否逆序。
operator.itemgetter(item)返回可调用的对象，实现operator._getitem_(a, b)函数的功能，返回a在索引b处的值，item即为b。如果指定多个对象，返回元组。operator.itemgetter函数获取的不是值，而是定义了一个函数，通过该函数作用到对象上才能获取值。
如，f = operator.itemgetter(2, 3)定义函数f，获取索引(2, 3)处的值, 调用f(r)返回(r[2], r[3])

3. 使用kNN改进约会网站的配对效果

3.1 从文本文件中解析数据

文本文件中的数据如下所示：

需要将待处理数据改为分类器可接受的格式，即每个样本的特征为一行，存入数组，所有样本的标签存入列表。

#将文本转换为特征矩阵和标签列表
def file2matrix(filename):
    fr = open(filename, 'r')
    try:
        #得到文件的行数
        arrayOfLines = fr.readlines()   #按行读入文件，存入list
        numberOfLines = len(arrayOfLines)   #得到文件的行数
        #创建返回的Numpy特征矩阵
        returnMat = zeros((numberOfLines, 3)) #全0填充指定大小的矩阵
        classLabelVector = []
        #解析文本
        index = 0
        for line in arrayOfLines:
            line = line.strip() #去掉文本前后的空白符
            listFromLine = line.split('\t') #用'\t'划分整行数据，得到元素列表
            returnMat[index, :] = listFromLine[0 : 3]  
            classLabelVector.append(listFromLine[-1])   
            index += 1
    finally:
        fr.close()
    return returnMat, classLabelVector

numpy.zeros(shape, dtype=float, order=’C’)返回给定形状和数据类型，用0填充的数组
io.readline(size=-1)从流中读并返回1行，如果指定size，最多读入size字节。
io.readlines(hint=-1)从流中读入并返回行组成的列表，可以指定hint控制读入行的数量。
str.strip([chars])拷贝并移除str首尾的chars的任意组合。chars缺失，移除首尾空格。例如，

>>> strA = '  www.helloworld.com  '
>>> strB = strA.strip()
>>> strC = strB.strip('.wcdo') #移除首尾'.wcdo的任意组合'
>>> strA
'  www.helloworld.com  '
>>> strB
'www.helloworld.com'
>>> strC
'helloworld.com'

3.2 分析数据–图形化展示数据

图形化展示数据更直观，有助于了解数据的真实含义。可使用Matplotlib制作原始数据的散点图。

#分析数据--画散点图
import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']    #动态设置添加中文黑体
mpl.rcParams['axes.unicode_minus'] = False  #更改字体导致显示不出负号，所以设置为true，保证负号的显示
fig = plt.figure()  #创建图
ax1 = fig.add_subplot(211)   #创建子图,ax1位于两行一列的第一个
#在子图区域绘制散点图，后两项为不同的标签设置不同的节点大小和颜色
#将list转换为array，才能给每项*15，否则为将list重复15次
ax1.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0 * array(datinglabels), 15.0 * array(datinglabels))
plt.xlabel('玩游戏所耗时间百分比')
plt.ylabel('每周消费的冰淇淋公升数')
#添加图例，将不同类型的点分开添加到散点图中
ids_1 = []
ids_2 = []
ids_3 = []
for i in range(len(datinglabels)):
    if datinglabels[i] == 1:
        ids_1.append(i)
    elif datinglabels[i] == 2:
        ids_2.append(i)
    else:
        ids_3.append(i)
ax2 = fig.add_subplot(212)  #ax2位于两行一列的第二个
ax2.scatter(datingDataMat[ids_1, 0], datingDataMat[ids_1, 1], marker = 'x', c = 'g', label = '极具魅力')
ax2.scatter(datingDataMat[ids_2, 0], datingDataMat[ids_2, 1], marker = '+', c = 'y', label = '魅力一般')
ax2.scatter(datingDataMat[ids_3, 0], datingDataMat[ids_3, 1], marker = 'o', c = 'b', label = '不喜欢')
plt.ylabel('玩游戏所耗时间百分比')
plt.xlabel('每年获取的飞行常客里程数')
ax2.legend(loc = 4) #4等价于'lower right'
plt.show()

figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True, **kwargs)创建新的图片，所有参数均可选，不指定则设为默认值。num为图片的id，可以为整数或字符串，如果不指定num，默认递增，如果指定的num已存在，将会激活对应图片，否则创建新图片；figsize指定图片宽度和长度（以英寸为单位），整数元组；dpi指定图片分辨率，整数；facecolor指定背景颜色；edgecolor指定边界颜色。
add_subplot(*args, **kwargs)添加子图。包含若干参数，数字’ABC’或’A, B, C’表示将figure划分为A行，B列，对划分后的区域按行从1编码到A*B，当前plot为编码为C的区域。
subplot()函数创建子图，但会把之前存在的重叠子图覆盖。而add_subplot()激活之前存在的子图。
scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, hold=None, data=None, **kwargs)绘制x, y的散点图，x, y的形状均为(n,)；s为点的大小；c为点的颜色，当使用RGB时，c应为2维数组，行为RGB。
legend(*args, **kwargs)为axes添加图例，loc表示图例的位置，可用数字0-10和对应字符串表示：

Location String	Location Code
‘best’	0
‘upper right’	1
‘upper left’	2
‘lower left’	3
‘lower right’	4
‘right’	5
‘center left’	6
‘center right’	7
‘lower center’	8
‘upper center’	9
‘center’	10

还有许多参数可用来设置列数，背景色等。当图中包含不同类型的数据，添加图例时，需要为不同类型的数据设置标签分别添加到axes中，然后在legend函数中设置图例的样式。
结果如图所示：

3.3 准备数据–归一化数值

在计算距离时，特征值大的属性对结果的影响越大。如果认为所有的属性重要程度相同，可以对所有的属性进行归一化，使得它们的取值范围相同。使用最大最小值归一化，能够使结果在[0,1]区间。

n e w V a l u e = ( o l d V a l u e - m i n ) m a x - m i n

#归一化特征值
def autoNorm(dataSet):
    minVals = dataSet.min(0) #从每列中取最小值
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    rows = dataSet.shape[0]     #数据集的行数
    normDataSet = dataSet - tile(minVals, (rows, 1))    #分子
    normDataSet = normDataSet / tile(ranges, (rows, 1))  #归一化后结果
    return normDataSet, ranges, minVals

3.4 测试算法

使用错误率评估分类器的性能，即分类器给出的错误结果次数除以测试数据的总数。通常从已有数据中选择90%的数据作为训练样本训练分类器，其余10%的样本测试分类器，检测分类器的正确率。
在函数中，使用errorCount对错误分类结果计数，除以预测的总数即可得到错误率。

def datingClassTest(filename, holdRatio = 0.10):
    datingDataMat, datinglabels = file2matrix(filename) #解析文本文件
    normDataSet, ranges, minVals = autoNorm(datingDataMat)
    rows = datingDataMat.shape[0]
    numTestVecs = int(rows * holdRatio)    #得到验证集的数量
    #预测并对错误结果计数
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = kNN0(datingDataMat[i, ], normDataSet[numTestVecs :,], datinglabels[numTestVecs :], 3)
        #打印预测结果和实际结果
        print('kNN 分类结果为%d，实际结果为%d' % (classifierResult, datinglabels[i]))
        if classifierResult != datinglabels[i]:
            errorCount += 1
    print('kNN分类器的错误率为%f' % (errorCount / rows))

结果如下所示：

kNN 分类结果为3，实际结果为1
kNN 分类结果为3，实际结果为2
kNN 分类结果为3，实际结果为3
kNN 分类结果为3，实际结果为3
kNN 分类结果为3，实际结果为3
...
kNN 分类结果为3，实际结果为2
kNN 分类结果为3，实际结果为3
kNN 分类结果为3，实际结果为3
kNN分类器的错误率为0.061000

3.5 使用算法–构建完整可用系统

使用kNN分类器分类。当输入某个人的信息时，给出对该人喜欢程度的预测值。

#约会网站预测函数
def classifyPerson():
    #结果列表，分类结果和标签的对应关系，根据file2matrix中的dicFromLabels构造，标签按照从前到后的顺序对应1,2,3
    resultList = ['largeDoses', 'smallDoses', 'didntLike']
    gameTime = float(input('玩游戏所占时间百分比：'))
    flyMiles = float(input('每年的飞行里程数：'))
    iceCream = float(input('每年冰淇淋公升数：'))
    filename = 'C:/Users/hp/Desktop/SH/python/MLInAction/machinelearninginaction/Ch02/datingTestSet.txt'
    datingDataMat, datinglabels = file2matrix(filename)
    normDataSet, ranges, minVals = autoNorm(datingDataMat)
    inArr = array([flyMiles, gameTime, iceCream])   #分类器的输入数据
    classifierResult = kNN0((inArr - minVals) / ranges, normDataSet, datinglabels, 3)   #分类时对输入数据归一化处理
    print('喜欢这个人的程度为：%s' % (resultList[classifierResult -1]))

结果如下所示：

玩游戏所占时间百分比：10
每年的飞行里程数：10000
每年冰淇淋公升数：0.5
喜欢这个人的程度为：smallDoses

4. 使用kNN的手写识别系统

识别数字0-9。所有的图片被处理为宽高为32像素*32像素的黑白图像。再将图像转换为文本文件，0为空白部分，1为字迹部分。

4.1 准备数据–将图像转换为测试向量

将32*32的二进制图像矩阵转换为1*1024的向量，便于使用分类器处理分类。
给定文件，循环读出文件的32行，并将每行的前32个字符存在NumPy数组中并返回数组。

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename, 'r')
    try:
        for i in range(32):
            lineStr = fr.readline()
            for j in range(32):
                returnVect[0, i * 32 + j] = int(lineStr[j])
        return returnVect
    finally:
        fr.close()

4.2 测试算法–使用kNN算法识别手写数字

import os
def handwritingClassTest(trainPath, testPath, k):
    #处理训练集，将所有的训练样本处理为特征矩阵和对应的类别标签
    trainFileList = os.listdir(trainPath)    #得到该路径下的文件名列表
    mTrain = len(trainFileList)   #得到文件数量
    #将文件解析到训练特征矩阵和标签
    trainDataMat = zeros((mTrain, 1024))     #训练特征矩阵
    trainLabels = []
    for i in range(mTrain):
        trainFilePath  = trainPath + '/' + trainFileList[i]
        trainDataMat[i, :] = img2vector(trainFilePath)
        trainLabel = int(trainFileList[i].split('_')[0])
        trainLabels.append(trainLabel)
    #处理测试集，计算错误率
    testFilelist = os.listdir(testPath)
    mTest = len(testFilelist)
    errorCount = 0.0
    for i in range(mTest):
        testFilePath = testPath +  '/' + testFilelist[i]
        VectorUnderTest = img2vector(testFilePath)
        testLabel = int(testFilelist[i].split('_')[0])
        classifierResult = kNN0(VectorUnderTest, trainDataMat, trainLabels, k)
        #打印预测结果和实际结果
        # print('kNN 分类结果为%d，实际结果为%d' % (classifierResult, writeLabel))
        if classifierResult != testLabel:
            errorCount += 1
            print('kNN 分类结果为%d，实际结果为%d' % (classifierResult, testLabel))
    print('手写字符识别kNN分类器的错误率为%f' % (errorCount / mTest))

os.listdir(path=’.’)返回给定path下所有条目name构成的list。list以任意的顺序排列，不包括’.’和’..’。如果path为字节，返回的文件名也为字节，否则返回的文件名为字符串，fsencode()函数将字符串文件名编码为字节。scandir()函数能够返回目录的条目和文件属性信息。
打印错误分类的结果和错误率如下：

kNN 分类结果为7，实际结果为1
kNN 分类结果为9，实际结果为3
kNN 分类结果为9，实际结果为3
kNN 分类结果为3，实际结果为5
kNN 分类结果为6，实际结果为5
kNN 分类结果为6，实际结果为8
kNN 分类结果为3，实际结果为8
kNN 分类结果为1，实际结果为8
kNN 分类结果为1，实际结果为8
kNN 分类结果为1，实际结果为9
kNN 分类结果为7，实际结果为9
手写字符识别kNN分类器的错误率为0.011628

如果要在IDLE中调用该函数，首先使用os.chdir(‘path’)函数将目录改为kNN.py所在目录，然后导入kNN，调用handwritingClassTest函数。

>>> os.chdir('D:\Python\ML\kNN')
>>> import kNN
>>> kNN.handwritingClassTest(kNN.trainPath, kNN.validPath, 3)
kNN 分类结果为7，实际结果为1
kNN 分类结果为9，实际结果为3
kNN 分类结果为9，实际结果为3
kNN 分类结果为3，实际结果为5
kNN 分类结果为6，实际结果为5
kNN 分类结果为6，实际结果为8
kNN 分类结果为3，实际结果为8
kNN 分类结果为1，实际结果为8
kNN 分类结果为1，实际结果为8
kNN 分类结果为1，实际结果为9
kNN 分类结果为7，实际结果为9
手写字符识别kNN分类器的错误率为0.011628

5. 小结

kNN算法简单有效，不用训练。可以直接根据训练数据集预测待分类样本。但必须保存全部数据集，占用大量的存储空间，需要计算每个训练样本和待分类样本的距离，执行效率低。并且无法给出数据的内在含义。
k决策树是kNN的优化版，可以节省大量计算开销。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要