七层楼的疯子

十四、机器学习进阶知识：KNN分类算法

文章目录

1、KNN分类介绍
2、KNN分类核心要素
3、KNN分类实例
- 1.1 鸢尾花分类
- 1.2 手写数字识别

1、KNN分类介绍

分类是数据分析中非常重要的方法，是对己有数据进行学习,得到一个分类两数或构造出一个分类模型（即通常所说的分类器(Classifier))。分类是使用已知类别的数据样本，训练出分类器，使其能够对未知样本进行分类。分类算法是最为常用的机器学习算法之一，属于监督学习算法。
KNN分类（K-Nearest-Neighbors Classification）算法是分类算法中的一种，又叫做K近邻算法。该算法于于1987年由 Cover T和 Hart P提出，算法概念较为简单，其核心思想是，如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。虽然该算法中心思想简单，但是分类的效果相当优秀。
下面来简单了解一下其分类过程，例如假设已经获取一些动物的特征，且已知这些动物的类别分别是什么。现在需要识别一只新动物，判断它是哪类动物。首先找到与这个物体最接近的k个动物。令k=3，假设可以找到2只猫和1只狗，由于找到的结果中大多数是猫，则把这个新动物划分为猫类。

2、KNN分类核心要素

KNN没有专门的学习过程，是基于数据实例的一种学习方法，从刚刚介绍的分类过程可以看出，在KNN分类过程中，存在三种核心要素。
第一个核心要素是K值，也就是在上述的分类过程中找到与这个物体最接近的k个动物，如果k取值太小，好处是近似误差会减小。但同时预测结果对近邻的样本点非常敏感，仅由非常近的训练样本决定预测结果。使模型变得复杂，容易过拟合。如果k值太大，学习的近似误差会增大，导致分类模糊，即欠拟合。
例如假设在刚刚的例子中设置k值分别为3和6，当k值等于3是还是可以找到2只猫和1只狗，那么对应的就是属于猫，但是若k取值为6时找到2只猫、1只狗和3只熊，那么对应的类别就属于熊了，所以K值的选取会直接影响到最终的分类效果，而如何进行K值的选取就涉及到第二个核心要素，距离的度量。
是否相似主要是由距离的度量决定，距离决定了哪些物体之间是相似的，哪些是不相似的。距离的度量方法有很多种，不同的距离所确定的近邻点不同。二维上常用的度量方法是欧氏距离，此外还有曼哈顿距离、余弦距离、球面距离等。欧氏距离的计算公式如下：

同样以刚刚的分类过程为例，假设存在三个已知点cat1，cat2以及dog1，它们的位置信息分别为（1，3）、（4，5）、（3，5），存在一个未知类别点（2，2），分别计算该点到三个已知点的欧式距离，按照欧式距离从小到大排序依次是cat1，dog1以及cat2，若设置k为1，则选择最近的一个位置进行分类，即该动物属于猫类。
当k值设置不为1时，分类结果的确定往往由第三个要素，分类决策规则来决定，即多数表决原则，由输入实例的k个最邻近的训练实例中的多数类决定输入实例的类别。

3、KNN分类实例

下面分别通过鸢尾花分类和手写数字识别两个实例介绍KNN分类的具体实现过程。

1.1 鸢尾花分类

鸢尾花数据集最初由科学家Anderson 测量收集而来，1936 年因用于公开发表的Fisher 线性判别分析的示例，在机器学习领域广为人知。
鸢尾花数据集共收集了三类鸢尾花，即Setosa 山鸢尾花、Versicolour 杂色鸢尾花和 Virginica 弗吉尼亚鸢尾花，每类鸢尾花有50条记录，共150 条数据。数据集包括4 个属性特征，分别是花瓣长度、花瓣宽度、花萼长度和花萼宽度。
在对鸢尾花数据集进行操作之前，先对数据进行详细观察。SKlearn 中的iris 数据集有5个key，分别如下：
(1) target_names: 分类名称，包括 setosa、versicolor 和 virginica类。
(2) data：特征数据值。
(3) target：分类（150个）。
(4) DESCR：数据集的简介。
(5) feature_names：特征名称。
首先可以使用sklearn库中的datasets模块导入鸢尾花数据集，同时查看该数据的各方面特征。

from sklearn.datasets import load_iris
iris_dataset = load_iris()
#下面是查看数据的各项属性
print("数据集的Keys:\n",iris_dataset.keys())     #查看数据集的keys。
print("特征名:\n",iris_dataset['feature_names'])  #查看数据集的特征名称
print("数据类型:\n",type(iris_dataset['data']))    #查看数据类型
print("数据维度:\n",iris_dataset['data'].shape)    #查看数据的结构
print("前五条数据:\n{}".format(iris_dataset['data'][:5]))  #查看前5条数据
#查看分类信息
print("标记名:\n",iris_dataset['target_names']) 
print("标记类型:\n",type(iris_dataset['target']))
print("标记维度:\n",iris_dataset['target'].shape)
print("标记值:\n",iris_dataset['target'])
#查看数据集的简介
print('数据集简介：\n',iris_dataset['DESCR'][:20] + "\n.......")  #数据集简介前20个字符

然后针对鸢尾花数据集进行训练集与测试集的拆分操作，可以使用train_test_split()函数来实现，该函数属于sklearn.model_selection中的交叉验证功能，随机的将样本数据集拆分为训练集和测试集，该函数的语法格式如下：

x_train,x_test,y_train,y_test=cross_validation.train_test_split(train_data,train_target,test_size,random_state)

其中train_data与train_target分别为数据集特征以及标签,test_size表示测试集比例,random_state为随机种子，在要求每次划分数据一致时可以使用。
下面对iris鸢尾花数据集进行拆分，并查看拆分结果。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris_dataset = load_iris()
X_train, X_test, y_train, y_test = train_test_split( iris_dataset['data'], iris_dataset['target'], random_state=2)
print("X_train",X_train)
print("y_train",y_train)
print("X_test",X_test)
print("y_test",y_test)
print("X_train shape: {}".format(X_train.shape))
print("X_test shape: {}".format(X_test.shape))

在训练模型时，可以尽量去选取关联明显的特征进行学习，而特征之间关联度的高低可以通过绘制一组变量的多个散点图来进行观察，绘制时可以使用Pandas的scatter_matrix()函数来实现，该函数的语法格式如下：

scatter_matrix(frame,alpha,c,figsize,ax,diagonal,market,density_kwds,hist_kwds,range_padding,**kwds)

其中frame表示DataFrame对象；alpha表示图像透明度，一般取0到1之间的小数；c表示颜色值；figsize表示以英寸为单位的图像大小，一般以元组（宽度，高度）的形式进行设置；ax为轴向，一般设置为None；diagonal必须且只能在hist和kde中选择一个，hist表示直方图，kde表示核密度估计,该参数为函数的关键参数；market表示可用的标记类型；density_kwds为可选项，表示与kde相关的字典参数；hist_kwds为可选项，表示与hist有关的字典参数；range_padding为可选项，表示图像在x轴、y轴原点附近的留白(padding)，该值越大，留白距离越大，图像远离坐标原点；**kwds为可选项，表示与scatter_matrix函数本身相关的字典参数。
对于上述拆分的数据集，使用scatter_matrix()函数显示训练集。

import pandas as pd
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# 创建一个scatter matrix，颜色值来自y_train
pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={'bins': 20}, s=60, alpha=.8)

可以看到散点矩阵图呈对称结构，除对角上的密度函数图之外，其他子图分别显示了不同特征列之间的关联关系。例如petal_length与petal_width之间近似成线性关系，说明这对特征关联性很强。而有的特征之间分布状态较为杂乱，基本没有规律可寻，说明特征之间的关联度不强。
在对数据集有一定的了解之后，需要选取合适的模型并对模型进行初始化，然后对数据集进行分类学习，得到训练好的模型。即使用Scikit learn中的neighbors包，利用其中的KNeighborsClassifier类。该类的实现思路比较简单，核心操作包括以下三步：
第一步、创建KNeighborsClassifier对象，并对其进行初始化。
基本格式如下：

sklearn.neighbors.KNeighborsClassifier(n_neighbors,weights,algorithm,leaf_size,p,metric,metric_params,n_jobs,**kwds)

其中主要的参数里，n_neighbors表示KNN中的近邻数量k值，默认值是5；weights表示计算距离时使用的权重，默认值是“uniform”,表示平等权重，也可以取值“distance”，表示按照距离的远近设置不用的权重，此外还可以自主设置加权方式；algorithm表示快速k近邻搜索算法，默认参数为auto；leaf_size默认是30，表示构造的kd树和ball树的大小。这个值的设置会影响树构建的速度和搜索速度，同样也影响着存储树所需的内存大小；p表示距离度量公式，默认为2，表示欧氏距离，另外取值为1时表示曼哈顿距离；metric用于距离的计算，默认是“minkowski”。
第二步、调用fit()，对数据集进行训练。
函数格式如下：

fit(x,y)

表示以x为训练集，以y为测试集对模型进行训练。
第三步、调用predict()函数，对测试集进行预测。
函数格式如下：

predict(x)

表示根据给定的数据预测其所属的标签。
结合上述过程使用KNN对鸢尾花数据集进行分类的完整代码如下：

from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
#导入鸢尾花数据并查看数据特征
iris = datasets.load_iris()
print('数据集结构：',iris.data.shape)
# 获取属性
iris_X = iris.data
# 获取类别
iris_y = iris.target
# 划分成测试集和训练集
iris_train_X,iris_test_X,iris_train_y,iris_test_y=train_test_split(iris_X,iris_y,test_size=0.2, random_state=0)
#分类器初始化
knn = KNeighborsClassifier()
#对训练集进行训练
knn.fit(iris_train_X, iris_train_y)
#对测试集数据的鸢尾花类型进行预测
predict_result = knn.predict(iris_test_X)
print('测试集大小：',iris_test_X.shape)
print('真实结果：',iris_test_y)
print('预测结果：',predict_result)
#显示预测精确率
print('预测精确率：',knn.score(iris_test_X, iris_test_y))

程序运行结果如下：

从结果中可以看出，拆分的测试集总共有30个样本，其中有1个判断错误，总体精确率约为96.7%，精度较高。

1.2 手写数字识别

文字识别中难度较高的是手写文字识别，因为手写体与印刷体相比，个人风格迥异、图片大小不一。手写数宇识别的目标相对简单，是从图像中识别出数字0~9，经常用于自动邮件分拣等生产领域。在机器学习中，有时将识别问题转换为分类问题。本实验使用的数据集修改自“手写数字光学识别数据集”，该数据集由Alpaydin和Kaynak提供，于1998年发布，共保留了 1600 张图片。通过拆分，其中1068张作为训练集，其余的532张为测试集。图片为长宽都是32px的二值图，为方便处理，将图片预存为文本文件。
本实例中素材文件夹为HWdigits，子目录trainSet下存放训练数据，子目录testSet存放测试数据。使用KNN对训练数据集进行训练，然后对测试数据集进行测试并返回测试结果的相关代码如下：

#coding=utf-8
import numpy as np
#os库中的listdir方法用于返回指定文件夹下的文件或文件列表
from os import listdir

def loadDataSet():   #加载数据集
    #获取训练数据集
    print("1.Loading trainSet...")    
    trainFileList = listdir('HWdigits/trainSet') 
    trainNum = len(trainFileList)  #获取训练数据集长度
    trainX = np.zeros((trainNum, 32*32))   #保存训练数据集向量，先定义为全0
    trainY = []    #保存每条数据标签值
    for i in range(trainNum):
        trainFile = trainFileList[i]
        #将训练数据集向量化
        trainX[i, :] = img2vector('HWdigits/trainSet/%s' % trainFile,32,32)
        label = int(trainFile.split('_')[0]) #读取文件名的第一位作为标记，文件名的第一位为对应的数字
        trainY.append(label)  #将标签值即数字保存到训练数据标签中
    #获取测试数据集
    print("2.Loadng testSet...")
    testFileList = listdir('HWdigits/testSet')
    testNum = len(testFileList)  #获取测试数据集长度
    testX = np.zeros((testNum, 32*32))  #保存测试数据集向量，先定义为全0
    testY = []    #保存每条数据标签值
    for i in range(testNum):
        testFile = testFileList[i]
        #将测试数据集向量化
        testX[i, :] = img2vector('HWdigits/testSet/%s' % testFile,32,32)
        label = int(testFile.split('_')[0])  #读取文件名的第一位作为标记
        testY.append(label)  #将标签值即数字保存到测试数据标签中
    return trainX, trainY, testX, testY
    
def img2vector(filename,h,w):      # 将32*32的文本转化为向量
    imgVector = np.zeros((1, h * w))
    fileIn = open(filename)
    for row in range(h):
        lineStr = fileIn.readline()
        for col in range(w):
            imgVector[0, row * 32 + col] = int(lineStr[col])
    return imgVector
    
def myKNN(testDigit, trainX, trainY, k):  
    numSamples = trainX.shape[0]  #shape[0]代表行，每行一个图片，得到样本个数    
    #1.计算欧式距离    
    diff=[]
    for n in range(numSamples):        
        diff.append(testDigit-trainX[n])  #每个个体差
    diff=np.array(diff)                 #转变为ndarray
    #对差求平方和，然后取和的平方根
    squaredDiff = diff ** 2  
    squaredDist = np.sum(squaredDiff, axis = 1)
    distance = squaredDist ** 0.5
    #2.按距离进行排序    
    sortedDistIndices = np.argsort(distance)
    classCount = {}                   #存放各类别的个体数量 
    for i in range(k):
        #3.按顺序读取标签
        voteLabel = trainY[sortedDistIndices[i]]
        #4.计算该标签次数        
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
    
    #5.查找出现次数最多的类别，作为分类结果
    maxCount = 0
    for key, value in classCount.items():
        if value > maxCount:
            maxCount = value
            maxIndex = key
    return maxIndex

train_x, train_y, test_x, test_y = loadDataSet()  #获取训练数据集、测试数据集
numTestSamples = test_x.shape[0]  #获取测试数据集数量
matchCount = 0
print("3.Find the most frequent label in k-nearest...")
print("4.Show the result...")
for i in range(numTestSamples):
    predict = myKNN(test_x[i], train_x, train_y, 3)    #获取分类得到的标签值
    print("result is: %d, real answer is: %d" % (predict,test_y[i]))
    if predict == test_y[i]:  #将分类得到的标签值与实际标签值进行对比，若相同则分类成功的个数加1
        matchCount += 1        
accuracy = float(matchCount) / numTestSamples  #计算准确率
# 5.输出结果
print("5.Show the accuracy...")
print("  The total number of errors is: %d" % (numTestSamples-matchCount))
print('  The classify accuracy is: %.2f%%' % (accuracy * 100))

可以看到分类准确率达到97.93%，效果相对较好。

KNN进行手写数字识别源码及数据集

【甲烷数据集】Sentinel-5P 卫星获取的全球甲烷数据集-TROPOMI L2 CH₄ WW、forever 数据集 sentinel
目录数据概述传感器&卫星信息监测目标：甲烷（CH₄）数据产品内容空间与时间覆盖云筛选与协同观测技术文档资源数据下载Python代码绘制CH4数据参考数据概述Sentinel-5PrecursorLevel2Methane(TROPOMIL2CH₄)数据集是由欧洲哥白尼计划的Sentinel-5P卫星获取的，用于监测大气中的甲烷浓度。数据集名称：Sentinel-5PrecursorLevel2Me
非对称加密算法（RSA、ECC、SM2）——密码学基础
对称加密算法（AES、ChaCha20和SM4）Python实现——密码学基础(Python出现Nomodulenamed“Crypto”解决方案)这篇的续篇，因此实践部分少些；文章目录一、非对称加密算法基础二、RSA算法2.1RSA原理与数学基础2.2RSA密钥长度与安全性2.3RSA实现工具与库2.4RSA的局限性三、椭圆曲线密码学(ECC)3.1ECC原理与数学基础3.2常用椭圆曲线标准3.
重磅！LM Studio AI编程全面免费
从今天起，LMStudio在家和工作中均可免费使用。查看更新后的条款了解详情。我们的隐私政策保持不变，您可以在此处阅读。在家免费使用，现在也可在工作场所使用LMStudio一直以来都免费供个人使用。这源于我们秉持的根本信念：人工智能应该让人们在自己的机器上轻松访问，无需依赖任何外部资源，并且完全保护隐私。此前，LMStudio应用条款规定，公司或组织若要使用LMStudio，必须联系我们并获得单独
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
JAVA 和Python对比 xiayu98020214 在深蓝的日子 python
JAVA和Python对比1.数据类型pythonInt，float，complexnumbers都没有定义到底占用多少个字节空间。都是没有取值范围，也没有无符号的情况。JAVAJAVA有基础数据类型，都有确定占多少个字节2.全局变量python类似c语言，可以定义全局变量，全局的函数。JAVAjava都要定义类才行。3.变量声明python无需声明类型，直接使用。会造成一个困扰，这个变量到底是新
牛客华为机试题解（python版更新中）
目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统计（较难）自己研究的题解，也有借鉴评论区牛人思路，答案不唯一，仅供学习参考，也欢迎大家指
python比java_对比java和python对比
对比java和python对比java和python2011年04月18日1.难易度而言。python远远简单于java。2.开发速度。Python远优于java3.运行速度。java远优于标准python，pypy和cython可以追赶java，但是两者都没有成熟到可以做项目的程度。4.可用资源。java一抓一大把，python很少很少，尤其是中文资源。5.稳定程度。python3和2不兼容，造
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石大千AI助手人工智能 Python #Prompt 人工智能机器学习神经网络算法大模型幻觉 LLM
本文综合其在逻辑学、心理学及人工智能领域的核心定义、技术实现与前沿进展来对Self-Consistency（自洽性）进行系统性解析。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与跨学科内涵基础概念逻辑学定义：指理论或系统内部逻辑自洽，无矛盾或悖论。例如物理理论中，狭义相对论的速度变换
2023-04-12 王松奇
京心❤️达理想城店：王松奇2023年4月12日日精进落地真经严格就是爱，放纵既是害正能量语录每一颗螺丝都有标准每一颗螺丝都是标准产值目标：13万台次目标:80台油卡目标：13张今日体验今天开数据分析会台次少保养预存一定要盯紧中间10天要努力冲刺一下
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
QuecPython-正则表达式移远通信正则表达式 python
该模块通过正则表达式匹配数据。目前支持的操作符较少，部分操作符暂不支持。示例：importureres='''$GNRMC,133648.00,A,3149.2969,N,11706.9027,E,0.055,,311020,,,A,V*18$GNGGA,133648.00,3149.2969,N,11706.9027,E,1,24,1.03,88.9,M,,M,,*6C$GNGLL,3149.2
华为牛客网python考试题库及答案 2401_86114846 服务器
亲爱的朋友们，今天我们要讨论，牛客网华为软件测试题库牛客网华为机试题答案，让我们开始吧！目录一、字符串（知识点）HJ1字符串最后一个单词的长度（简单）HJ2计算某字符出现次数（简单）HJ4字符串分隔（简单）HJ5进制转换（简单）HJ10字符个数统计（简单）HJ11数字颠倒（简单）HJ12字符串反转（简单）HJ14字符串排序（简单）HJ17坐标移动（中等）HJ18识别有效的IP地址和掩码并进行分类统
【Python】LEGB作用域 + re模块 + 正则表达式
文章目录一LEGB作用域二re（RegularExpression）预览1.`re.match()`——从字符串开头匹配2.`re.search()`——搜索整个字符串3.`re.findall()`——返回所有匹配的字符串列表4.`re.finditer()`——返回所有匹配的迭代器5.`re.sub()`——替换匹配的字符串6.`re.split()`——按正则表达式分割字符串7.`re.co
java和ptyhon对比悟能不能悟 java 开发语言
1.语言特性对比维度JavaPython语法风格静态类型，需显式声明变量类型；代码冗长（需分号、大括号）动态类型，变量类型自动推断；简洁（缩进代替大括号，无分号）编程范式严格面向对象（OOP），强制类与对象结构多范式支持（OOP、函数式、命令式），更灵活执行方式编译型（JVM运行字节码）解释型（逐行执行）⚡2.性能与效率执行速度：Java：编译优化后运行效率高，尤其擅长高并发（如电商秒杀系统）。P
数字图像处理与Python语言实现-Box模糊CUDA实现视觉与物联智能数字图像处理与Python实现 python 深度学习计算机视觉图像处理 CUDA
Box模糊CUDA实现文章目录Box模糊CUDA实现1、Box模糊的基本原理2、算法优化：滑动窗口技术3、参数对模糊效果的影响4、Box模糊的优缺点5、与高斯模糊的对比6、实际应用场景7、算法实现7.1PyCUDA实现7.2CuPy实现7.3C++与CUDA实现8、总结在图像处理领域，**Box模糊（方框模糊或均值模糊）**是一种基础且高效的模糊算法，其核心思想是通过对像素邻域内的颜色值取平均值来
关于Python3绕过指纹识别解决ja3指纹的案例水兵没月 python
注意！！！！某XX网站实例仅作为学习案例，禁止其他个人以及团体做谋利用途！！！场景Python采集某网址页面内容aHR0cHM6Ly9jcmVkaXRiai5qeGouYmVpamluZy5nb3YuY24vY3JlZGl0LXBvcnRhbC9jcmVkaXRfc2VydmljZS9wdWJsaWNpdHkvcmVjb3JkL2JsYWNr报错信息requests.exceptions.SSLE
网页返回title“Just a moment...“，python 绕过tls指纹的几种方式记录一下
第一种：使用tls_client第三方库进行绕过importtls_clientsession=tls_client.Session(ja3_string="771,4865-4866-4867-49195-49199-49196-49200-52393-52392-49171-49172-156-157-47-53,0-23-65281-10-11-35-16-5-13-18-51-45-43-
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
人工智能学习指南：从菜鸟到大神的进击之路橡晟人工智能深度学习计算机视觉算法学习 python
人工智能学习指南：从菜鸟到大神的进击之路前言：别慌，AI没那么可怕嘿！想学人工智能？恭喜你，你已经比90%的人更有眼光了！很多人一听到"人工智能"就开始头疼，仿佛这是什么高深莫测的巫术。其实不然，AI就像学做饭一样——刚开始可能会糊锅，但掌握了方法，你也能做出一桌好菜！目录第一章：认清现实，别被忽悠第二章：建立知识地图第三章：实战为王第四章：自检清单——你真的学会了吗？第五章：进阶之路结语：成为A
如何用 Python 绕过 cloudflare（5秒盾）抓取数据：也不是很难嘛！炒青椒不放辣 Web爬虫进阶实战 python cloudflare 爬虫 5秒盾逆向
大家好！我是爱摸鱼的小鸿，关注我，收看每期的编程干货。逆向是爬虫工程师进阶必备技能，当我们遇到一个问题时可能会有多种解决途径，而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式，带你全面了解cloudflare（5秒盾）以及如何绕过使用cloudflare服务的网站从而抓取数据特别声明：本篇文章仅供学习与研究使用，不用做任何非法用途，相关URL和API等均已做脱敏处理，若有侵权请联系作
python请求有关ja3指纹问题王太歌 python 爬虫开发语言
遇见一个网站采集，无论怎样都返回空数据(实际上是有数据的)，但是抓包下来又确实是那样的，请教了一些人推测是指纹验证，拜读了网上其他大佬的博客文章后实验了一下，发现确实是这个问题！第一次知道tcp还有这个东西，让我大受震撼，值此搬运一下。参考链接及来源：Python爬虫进阶必备|JA3指纹在爬虫中的应用与定向突破python爬虫requests、httpx、aiohttp、scrapy突破ja3指纹
技术演进中的开发沉思-35 MFC系列：消息映射与命令 chilavert318 熬之滴水穿石 c++mfc windows
个人认为windows编程里最为重要的就是通讯机制了，而这里消息映射与命令传递，正是MFC世界里的“通讯协议”。当用户移动鼠标、点击菜单，甚至窗口被风吹得晃动了一下，程序都能接收到对应的“消息”，并按部就班地做出反应。这背后的逻辑，既是技术的精妙，也藏着当年的我对“人机交互”最朴素的理解。一、消息分类在MFC程序的世界里，消息就像穿梭于城市各个角落的通讯信号，有着不同的种类和特性。如果把程序比作一
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
【干货】pythonJA3指纹绕过 kisloy 爬虫逆向 python 爬虫
requests/scrapyJA3指纹绕过requests绕过importrequestsimportrandomfromrequests.adaptersimportHTTPAdapterfromrequests.packages.urllib3.util.ssl_importcreate_urllib3_contextORIGIN_CIPHERS=("ECDH+AESGCM:DH+AESGC
阴谋爆仓！社科院课堂朱民ST-balance节能风电被骗揭秘！受害者亲述不能出金真相！正义青天
随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁。因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局若你也不幸被骗遇到此类平台一定不要打草惊蛇，早期不
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码桃宝护卫队爬虫 python
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：完整代码放到最后；完整代码放到最后；完整代码放到最后；重要的事情说三遍。1.技术栈介绍在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：Python:一种广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到开发者的喜爱。Request
爬虫技术Requests实现模拟登录 incidite 爬虫
一、模拟登录的目的访问受限内容：获取需要登录才能查看的页面数据个性化数据采集：获取用户账户相关的定制化信息自动化操作：实现自动签到、自动任务等流程数据完整性：采集完整的用户视角数据（如社交网络信息）状态保持：维持会话状态以进行连续操作测试验证：用于网站功能测试和验证二、对Requests模拟登录的认识技术本质：通过PythonRequests库模拟浏览器登录行为实现原理：处理登录表单提交维护会话c
娱乐主播分为几种，赶紧来看看糖葫芦很甜
在当今这个数字化时代，娱乐直播已成为大众休闲娱乐不可或缺的一部分，它不仅丰富了人们的日常生活，也为无数怀揣梦想的年轻人提供了一个展示自我、连接世界的舞台。免费加入，一对一指导扶持↓随着直播行业的蓬勃发展，娱乐主播这一群体也日益壮大，并逐渐形成了多样化的分类。今天，就让我们一起来探讨娱乐主播主要分为哪几种类型，以及他们各自独特的魅力所在。游戏主播无疑是娱乐直播界的中流砥柱。他们以高超的游戏技巧、风趣
从 C# 到 Python：项目实战第五天的飞跃 AI、少年郎数据库 c#开发语言
在前面三天的学习中，我们已经掌握了Python的基础语法、数据结构以及一些核心库的使用。今天，我们将通过三个实战项目，深入对比C#和Python在命令行工具开发、Web应用开发以及数据处理方面的差异，感受Python在实际项目中的强大魅力。一、命令行工具开发：文件批量处理命令行工具是开发者日常工作中经常用到的工具，无论是文件处理、数据转换还是系统管理，都离不开命令行工具的身影。下面我们就来对比一下
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu