Solarzhou

机器学习实战笔记

文章目录

2 k近邻算法
- 2.1 实施kNN算法
- - 代码清单1：
  - 测试，结果：
- 2.2使用kNN改进约会网站的配对效果
- - 2.2.1 准备数据，从文本中解析数据
  - 2.2.2 分析数据：使用Matplotlib创建散点图
  - 2.2.3 准备数据：归一化数值
  - 测试算法：作为完整程序验证
- 2.3使用算法：构建完整可用系统
- - 2.3.1 准备数据：将图像转换为测试向量
  - 2.3.2 测试算法：使用kNN近邻算法识别手写数字
3 决策树
- 3.1 决策树构造
- - 3.1.1信息增益
  - 3.1.2 划分数据集
  - 3.1.3 递归构建决策树
- 3.3 测试和存储分类器
- - 3.3.1 测试算法：使用决策树执行分类
  - 3.3.2 决策树存储
- 3.4 示例：使用决策树预测隐形眼镜类型
3 朴素贝叶斯 & 4 Logistic回归

2 k近邻算法

2.1 实施kNN算法

代码清单1：

'''
Author: Solarzhou
Email: [email protected]
'''
from numpy import *
import operator
def createDataSet():
     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
     labels = ['A', 'A', 'B', 'B']
     return group, labels
def classify0(inX, dataSet, labels, k):
    #获取数据集维度，集有多少个向量
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    # 对应的每一行相加
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5

    # 先按由小到大排列，在获取原来数组中对应的索引号
    # 这里数值最小的就是关系最紧密的
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    # sorted() 排序函数，这里采用降序；
    # 其中第二个参数key表示，通过第一个参数获取的键值对中的值进行排序
    sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)
    print(sortedClassCount)
    return sortedClassCount[0][0]

测试，结果：

from LearningSpark import KNN
group, labels = KNN.createDataSet()
KNN.classify0([0, 0], group, labels, 3)
[('B', 2), ('A', 1)]
'B'
KNN.classify0([1, 1], group, labels, 3)
[('A', 2), ('B', 1)]
'A'

2.2使用kNN改进约会网站的配对效果

2.2.1 准备数据，从文本中解析数据

# 将文本记录转换为NumPy的解析程序
def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        transfomation = listFromLine[-2]

        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

测试结果
注意：书中的源码在这里有出错误。
1）在读取文本文件时，应该是datingTestSet2.txt，否则会报错：


int()  invalid literal for int() with base 10: ''

importlib.reload(KNN)
<module 'LearningSpark.KNN' from 'E:\\Users\\Administrator\\PycharmProjects\\TestCases\\LearningSpark\\KNN.py'>
datingDataMat, datingLabels = KNN.file2matrix('LearningSpark/Ch02/datingTestSet2.txt')
datingDataMat
array([[4.0920000e+04, 8.3269760e+00, 9.5395200e-01],
       [1.4488000e+04, 7.1534690e+00, 1.6739040e+00],
       [2.6052000e+04, 1.4418710e+00, 8.0512400e-01],
       ...,
       [2.6575000e+04, 1.0650102e+01, 8.6662700e-01],
       [4.8111000e+04, 9.1345280e+00, 7.2804500e-01],
       [4.3757000e+04, 7.8826010e+00, 1.3324460e+00]])
datingLabels[0:20]
[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3]

2.2.2 分析数据：使用Matplotlib创建散点图

使用Matplotlib制作原始数据的散点图

import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(datingDataMat[:,1], datingDataMat[:,2])
<matplotlib.collections.PathCollection object at 0x00000245657F1C88>
plt.show()

利用datingLabels中的类标签属性，在散点图上绘制色彩不等的点

ax.scatter(datingDataMat[:,0], datingDataMat[:,1],
           15.0*np.array(datingLabels), 15.0*np.array(datingLabels)) 
<matplotlib.collections.PathCollection object at 0x000002456E563EB8>
plt.show()

测试效果图：

2.2.3 准备数据：归一化数值

归一化特征值

# 归一化特征值
def autoNorm(dataSet):
    minVals = dataSet.min(0) # min得到的每一列中的最小值
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet/tile(ranges, (m, 1))
    return normDataSet, ranges, minVals

运行测试：

normMat, ranges, minVals = KNN.autoNorm(datingDataMat)
normMat
array([[0.44832535, 0.39805139, 0.56233353],
       [0.15873259, 0.34195467, 0.98724416],
       [0.28542943, 0.06892523, 0.47449629],
       ...,
       [0.29115949, 0.50910294, 0.51079493],
       [0.52711097, 0.43665451, 0.4290048 ],
       [0.47940793, 0.3768091 , 0.78571804]])
ranges
array([9.1273000e+04, 2.0919349e+01, 1.6943610e+00])
len(ranges)
3

测试算法：作为完整程序验证

分类器分类器针对约会网站的测试代码

# 测试代码
def datingClassTest():
    hoRatio =0.10
    datingDataMat, datingLables = file2matrix('LearningSpark/Ch02/datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDataMat)
    m = normMat.shape[0]
    # 训练集的向量数
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],
                                     datingLables[numTestVecs:m], 5)
        print("the classifier come back with: %d, the real answer is: %d"
              %(classifierResult, datingLables[i]))
        if (classifierResult != datingLables[i]):
            errorCount += 1.0

    print('the total error rate is：%f'%(errorCount/float(numTestVecs)))

测试结果：

2.3使用算法：构建完整可用系统

2.3.1 准备数据：将图像转换为测试向量

将图像转换为测试向量

# 手写识别系统
# 将图像转换为测试向量
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

测试结果：

testVector = KNN.img2vector('LearningSpark/Ch02/digits/testDigits/0_13.txt')
testVector[0,0:31]
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.,
       1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

2.3.2 测试算法：使用kNN近邻算法识别手写数字

手写数字识别系统的测试代码。
首先需要导入listdir，读取文件目录；因此我们首先要确保from os import listdir写入文件的其实部分。

# 手写数字识别系统的测试代码
def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('LearningSpark/Ch02/digits/trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('LearningSpark/Ch02/digits/trainingDigits/%s' % fileNameStr)
    testFileList = listdir('LearningSpark/Ch02/digits/testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('LearningSpark/Ch02/digits/testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

测试结果：

3 决策树

3.1 决策树构造

首先我们需要理解信息熵，条件信息熵，信息增益。
信息熵是代表随机变量的复杂度（不确定性）；
条件熵代表在某一个条件下，随机变量的复杂度（不确定度）；
信息增益：信息熵-条件熵。也就是说，信息增益代表了在一个条件下，信息复杂度（不确定性）减少程度。
参考文档–知乎专栏

3.1.1信息增益

在划分数据集之前之后信息发生的变化成为信息增益。
计算给定数据集的香农熵。

# 香农熵
def calcShannonEnt(dataset):
    numEntries = len(dataset)
    labelCounts = {}
    for feaVec in dataset:
        currentLabel = feaVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key]/numEntries)
        shannonEnt -= prob * log(prob, 2)
    return shannonEnt

创建自己的数据集

# 创建自己的数据集
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

测试结果：

myDat, labels = treeCopy.createDataSet()
myDat
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
treeCopy.calcShannonEnt(myDat)
0.9709505944546686
myDat[0][-1] = 'maybe'
myDat
[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
treeCopy.calcShannonEnt(myDat)
1.3709505944546687

可以看到分类越多，信息熵越大；信息熵天生偏向选择分支多的属性。

3.1.2 划分数据集

按照给定的特征划分数据集

def splitDataSet(dataSet, axis, value):
    '''
    :param dataSet: 带划分的数据集
    :param axis: 划分数据集的特征
    :param value: 需要返回的特制的值
    也即，获取某一特征的其余值
    :return: 
    '''
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

测试结果：

选择最好的数据集划分方式

#选择组好的数据集划分方式
def chooseBestReatureToSplit(dataSet):
    numFeatures = len(dataSet[0])-1
    baseEntroy = calcShannonEnt(dataSet)
    print('baseEntroy:',baseEntroy)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntroy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)           
            prop = len(subDataSet)/float(len(dataSet))
           # 这里是在算条件熵
            newEntroy += prop * calcShannonEnt(subDataSet)
            print("newEntroy:", newEntroy)
        infoGain = baseEntroy - newEntroy
        print('infoGain:', infoGain)
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

这里我们将 baseEntroy, newEntroy, infoGain打印出来，便于查看测试结果：

3.1.3 递归构建决策树

递归调用时非常复杂，要想想明白挺不容易。
之前看过一本外国人写的 Python书籍，提到递归这一块，给的建议是：相信你写的是正确的，那就是正确的。

# 创建树
def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    bestFeat = chooseBestReatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    del(labels[bestFeat])
    bestValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(bestValues)
    for value in uniqueVals:
        subLables = labels[:]

        myTree[bestFeatLabel][value] = createTree(splitDataSet\
                        (dataSet, bestFeat, value), subLables)
    return myTree

3.3 测试和存储分类器

3.3.1 测试算法：使用决策树执行分类

构建决策树分类函数

# 使用决策树的分类函数
def classify(inputTree, featLabels, testVec):
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__=='dict':
                classLable = classify(secondDict[key], featLabels, testVec)
            else: classLable = secondDict[key]
    return classLable

测试结果：

myDat, labels = treeCopy.createDataSet()
labels
['no surfacing', 'flippers']
myTree = treePlotterCopy.retrieveTree(0)
myTree
{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}
treeCopy.classify(myTree, labels, [1, 0])
'no'
treeCopy.classify(myTree, labels, [1, 1])
'yes'

3.3.2 决策树存储

# 使用 pickle 模块存储决策树
def storeTree(inputTree, filename):
    import pickle
    fw = open(filename, 'wb+')
    pickle.dump(inputTree, fw, 0)
    fw.close()
def grabTree(filename):
    import pickle
    fr = open(filename, 'rb')
    readTree = pickle.load(fr)
    return readTree

**注意：**按书中的方式写入文件会报错，我们这里指定格式为：fw = open(filename, 'wb+')

3.4 示例：使用决策树预测隐形眼镜类型

    fr = open('LearningSpark/Ch03/lenses.txt')
    lenses = [inst.strip().split('\t') for inst in fr.readlines()]
    len(lenses)
    24
    lenses
    [['young', 'myope', 'no', 'reduced', 'no lenses'], ['young', 'myope', 'no', 'normal', 'soft'], ['young', 'myope', 'yes', 'reduced', 'no lenses'], ['young', 'myope', 'yes', 'normal', 'hard'], ['young', 'hyper', 'no', 'reduced', 'no lenses'], ['young', 'hyper', 'no', 'normal', 'soft'], ['young', 'hyper', 'yes', 'reduced', 'no lenses'], ['young', 'hyper', 'yes', 'normal', 'hard'], ['pre', 'myope', 'no', 'reduced', 'no lenses'], ['pre', 'myope', 'no', 'normal', 'soft'], ['pre', 'myope', 'yes', 'reduced', 'no lenses'], ['pre', 'myope', 'yes', 'normal', 'hard'], ['pre', 'hyper', 'no', 'reduced', 'no lenses'], ['pre', 'hyper', 'no', 'normal', 'soft'], ['pre', 'hyper', 'yes', 'reduced', 'no lenses'], ['pre', 'hyper', 'yes', 'normal', 'no lenses'], ['presbyopic', 'myope', 'no', 'reduced', 'no lenses'], ['presbyopic', 'myope', 'no', 'normal', 'no lenses'], ['presbyopic', 'myope', 'yes', 'reduced', 'no lenses'], ['presbyopic', 'myope', 'yes', 'normal', 'hard'], ['presbyopic', 'hyper', 'no', 'reduced', 'no lenses'], ['presbyopic', 'hyper', 'no', 'normal', 'soft'], ['presbyopic', 'hyper', 'yes', 'reduced', 'no lenses'], ['presbyopic', 'hyper', 'yes', 'normal', 'no lenses']]
    lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
    lensesTree = treeCopy.createTree(lenses, lensesLabels)
    lensesTree
    {'tearRate': {'normal': {'astigmatic': {'no': {'age': {'pre': 'soft', 'presbyopic': {'prescript': {'myope': 'no lenses', 'hyper': 'soft'}}, 'young': 'soft'}}, 'yes': {'prescript': {'myope': 'hard', 'hyper': {'age': {'pre': 'no lenses', 'presbyopic': 'no lenses', 'young': 'hard'}}}}}}, 'reduced': 'no lenses'}}
    treePlotterCopy.createPlot(lensesTree)

测试结果：

3 朴素贝叶斯 & 4 Logistic回归

机器学习实战–朴素贝叶斯 & 4 Logistic回归

用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
《Operating System Concepts》阅读笔记：p309-p330 操作系统
《OperatingSystemConcepts》学习第29天，p309-p330总结，总计22页。一、技术总结1.Python中的并发编程(1)semaphoreclassthreading.Semaphore(value=1)。(2)conditionvariableclassthreading.Condition(lock=None)书上使用的是Java,因本人在开发工作中使用的是Pytho
PDF合并工具，免费快捷开源。python脚本实例演示 zhangood pdf python 开源
主要功能：完全免费相当方便可以合并PDF合并后自动删除原始PDF可设置原始文件夹，和目标文件夹路径支持生成EXE可执行文件，可在非python环境运行通过python脚本编写的，先给大家看脚本，方便了解配置和学习。importosfromPyPDF2importPdfMergerfromosimportlistdirresource_path='D:/111111/'#设定源文件夹，把要合并的pd
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
如何使用Flask或Django框架构建一个简单的Web应用？清水白石008 Python题库 python flask django 前端
如何使用Flask或Django框架构建一个简单的Web应用？Flask和Django是两个流行的PythonWeb框架，用于构建Web应用。Flask是一个轻量级、易于扩展的框架，而Django则是一个功能全面的框架，包含了更多开箱即用的工具和功能。下面将分别介绍如何使用Flask和Django构建一个简单的Web应用。使用Flask构建简单Web应用1.安装Flask首先，确保安装了Flask
Flask 高并发部署方案详细教程！爬遍天下无敌手
前言虽然标题写的是Flask，但是下面这个教程不仅仅只适用于Flask,还适用于其他Pythonweb框架，记得帮忙点赞！众所周知Flask是一个同步的框架，处理请求的时候是以单进程的方式，当同时访问的人数过多时，Flask服务就会出现阻塞的情况。就像我们买火车票一样，当买火车票的人多的时候，排队的人就会很多，队伍就会很长，相应的等待的时间会变得很长！因此Flask,Django，webpy等框架
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
【python】setuptools Eternal-Student Python python 开发语言
setuptools是Python的一个核心工具包，用于构建、打包和分发Python项目。它是Python生态系统中最重要的工具之一，主要用于定义项目的元数据（如名称、版本、依赖等）以及构建和安装过程。以下是关于setuptools的详细介绍：1.setuptools的主要功能setuptools提供了以下核心功能：项目元数据管理：定义项目的名称、版本、作者、描述、依赖等信息。通过setup()函
【Visual Studio 2019 C++ 编译器的路径添加到系统 PATH 环境变量】 Eternal-Student Windows visual studio c++java
对于某些Python包，特别是那些涉及本地扩展或需要编译C/C++代码的包，需要一个支持C++开发的环境。VisualStudio是一个全面的开发环境，它提供了编译器、调试器以及其他许多工具，这些工具对于开发和编译C++代码非常有用。下载网址：ThankYouforDownloadingVisualStudioCommunityEdition(microsoft.com)以下是安装VisualSt
元组（tuple）转换为列表（list） Eternal-Student Python list windows 数据结构
在编程中，特别是在Python中，经常需要将元组（tuple）转换为列表（list）。元组通常使用圆括号()表示，如(x,y)，而列表使用方括号[]表示，如[x,y]。以下是如何将(x,y)转换为[x,y]的详细方法和示例。一、单个元组转换为列表方法1：使用list()函数Python提供了内置的list()函数，可以将元组直接转换为列表。示例代码：#定义一个元组tuple_point=(3,5)
【python】flask-Web 应用程序框架 3L_csdn #python flask python 前端 python web框架 http
目录简介一、简单示例二、Flask详细使用总结1、HTML转义2、路由2.1、使用route()装饰器将函数绑定到URL。2.2、变量规则2.3、唯一的URLs/重定向行为2.4、网址构建2.5、HTTP方法2.5、有json体返回的HTTPGET请求示例(请求中不带参数)2.6、有json体返回的HTTPGET请求示例(请求中带参数)简介Flask是一个轻量级的WSGIWeb应用程序框架。它旨在
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
Pycharm中import torch报错解决方案（Python+Pycharm+Pytorch cpu版）波波仔86 人工智能 python pycharm pytorch import 解释器配置
pycharm环境搭建完毕后，编写一个py文件demo，importtorch报错，提示没有。设置python解释器：选择conda环境，使用现有环境，conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe，最后选择含有torch软件包的虚拟环境，题主创建名为pytorch。创建完解释器后，下方会显示出该解释器/虚拟环境下的所有软件包，看到有pytorch包即选
flask--基础知识点--6--flask高并发处理 Raging__Fire #flask python flask
Flask是一个轻量级的PythonWeb框架，适合构建中小型应用。但是，对于高并发场景，Flask本身可能需要一些辅助工具和配置来提升性能。以下是一些优化Flask应用以处理高并发的方法：1.使用WSGI服务器Flask自带的开发服务器性能和稳定性不足以应对生产环境中的高并发请求，可以考虑使用更强大的WSGI服务器，如：Gunicorn:一个基于Python的WSGIHTTP服务器。uWSGI:
【python error】cannot import name ‘TorchDispatchMode‘ from ‘torch.utils._python_dispatch‘ Eternal-Student Jetson Orin NX Python python 开发语言
报错：cannotimportname‘TorchDispatchMode’from‘torch.utils._python_dispatch’(/home/nvidia/.conda/envs/pytorch/lib/python3.8/site-packages/torch/utils/_python_dispatch.py)File“/media/nvidia/Ubuntu/xxxxx/ev
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

机器学习实战笔记

文章目录

2 k近邻算法

2.1 实施kNN算法

代码清单1：

测试，结果：

2.2使用kNN改进约会网站的配对效果

2.2.1 准备数据，从文本中解析数据

2.2.2 分析数据： 使用Matplotlib创建散点图

2.2.3 准备数据：归一化数值

测试算法：作为完整程序验证

2.3使用算法：构建完整可用系统

2.3.1 准备数据：将图像转换为测试向量

2.3.2 测试算法：使用kNN近邻算法识别手写数字

3 决策树

3.1 决策树构造

3.1.1信息增益

3.1.2 划分数据集

3.1.3 递归构建决策树

3.3 测试和存储分类器

3.3.1 测试算法：使用决策树执行分类

3.3.2 决策树存储

3.4 示例：使用决策树预测隐形眼镜类型

3 朴素贝叶斯 & 4 Logistic回归

你可能感兴趣的:(机器学习,Python,机器学习实战)

2.2.2 分析数据：使用Matplotlib创建散点图