Claire_chen_jia

python机器学习 | K近邻算法学习（1）

K近邻算法学习

1 K近邻算法介绍
- 1.1算法定义
- 1.2算法原理
- 1.3算法讨论
- - 1.3.1 K值选择
  - 1.3.2距离计算
  - 1.3.3 KD树
2 K近邻算法实现
- 2.1scikit-learn工具介绍
- 2.2scikit-learn实现K近邻算法——分类问题
- 2.3scikit-learn深入（流程）介绍- 以鸢尾花数据为例
- - 2.3.1数据集获取
  - 2.3.2特征直观绘图
  - 2.3.3数据分割
  - 2.3.4 处理特征化工程
  - 2.3.5 交叉验证、网格搜索api
  - - 2.3.5.1交叉验证
    - 2.3.5.2网格搜索
    - 2.3.5.3交叉验证、网格搜索api

1 K近邻算法介绍

1.1算法定义

（1）K-近邻(K-Nearest Neighboor)算法定义：
基于检测样本与k个在特征空间中最相似的样本中的多数类别，来推测样本是属于哪一个类别。

（2）举个例子理解：
已知《战狼》《红海行动》《碟中谍 6》是动作片，而《前任 3》《春娇救志明》《泰坦尼克号》是爱情片。但是如果一旦现在有一部新的电影《美人鱼》，有没有一种方法让机器也可以掌握一个分类的规则，这里的分类规则就是特征，自动的将新电影进行分类？

在这里，我们将打斗次数和接吻次数视作我们提取的特征。然后我们就看《美人鱼》的打斗次数和接吻次数和哪个或者哪些片子（哪个或者哪些就是K）的特征分布最为相似或相近，进而根据哪个或者哪些片子主导什么类型进行《美人鱼》影片类型的定义。

当然，我们可以先直接对各个影片特征进行可视化分析，得出直观结论。如：

# 导入模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一（替换sans-serif字体）
plt.rcParams['axes.unicode_minus'] = False   # 步骤二（解决坐标轴负数的负号显示问题）

# 设置数据
x = [5,3,31,59,60,80,20]
y = [100,95,105,2,3,10,3]
labels = ["《战狼》","《红海行动》","《碟中谍6》","《前任3》","《春娇与志明》","《泰坦尼克号》","《美人鱼》"]

plt.scatter(x,y,s=120)
plt.xlabel("亲吻次数")
plt.ylabel("打斗次数")
plt.xticks(range(0,150,10))
plt.yticks(range(0,150,10))


count = 0
for x_i,y_i in zip(x,y):
    plt.annotate(f"{labels[count]}",xy=(x_i,y_i),xytext=(x_i,y_i))
    count+=1

1.2算法原理

通过图片展示，我们可以发现《美人鱼》与《春娇与志明》距离最相近，而《春娇与志明》又是爱情片，所以《美人鱼》就是爱情片。
通过这里，我们就知道它是通过特征空间的距离来预测分类的。但K是什么呢？又有什么用处呢？需要注意我们根据一个影片来推断硬盘类型太武断了，我们需要根据与它K个邻近的影片的主导类型来推断《美人鱼》属于哪一类才更准确。
那么下面我们就用编程来实现一下。问题来了：距离要用什么来算呢？我们常用的就是欧式距离，我们初高中就接触过了呀。
形式如下

大概计算方式如下.我们通过两种来实现，1种是糙的算一下各自距离，1种是根据K邻近来推断

# 1 粗糙的算一下各自距离
mv_df = pd.read_excel("电影数据.xlsx",sheet_name=0)
dis = np.sqrt((mv_df["打斗次数"] - mv_df.loc[6,"打斗次数"])**2 + (mv_df["接吻次数"] - mv_df.loc[6,"接吻次数"])**2)
mv_df["美人鱼和其他影片的特征距离"] = dis
mv_df  # 美人鱼与前任三、春娇与志明距离最近

# 2 根据K邻近来推断
"""
- 准备 训练特征 + 训练目标
- 准备 预测数据
- 计算 预测数据 与 训练数据 的 欧氏距离
- 获取到 k个 欧氏距离最小的值
- 将获取到的 k个 临近的点 进行分类统计，谁占大头，预测值就属于哪个类
"""

"""
# 计算预测数据 与 训练数据的 距离
# 选择距离最小k个值
# 计算k个值当中 的类别 占比
"""
class MyKnn(object):
    def __init__(self,train_df,k=3):
        self.k = k
        self.train_df = train_df
        
    def predict(self,x_new_test):
        # 计算距离列 添加列
        self.train_df["dis"] = np.sqrt((x_new_test["打斗次数"]-self.train_df["打斗次数"])**2+(x_new_test["接吻次数"]-self.train_df["接吻次数"])**2)
        
        # 获取距离最小的 前k个值 的类别
        mv_types = self.train_df.sort_values(by="dis").iloc[:self.k]["电影类型"]
        
        # 对k个点的分类进行统计，看谁占大头，预测值就属于哪个类
        # value_counts  按值排序 
        new_mv_type = mv_types.value_counts().index[0]
        return new_mv_type

def main():
    # 1.读取数据
    mv_df = pd.read_excel("电影数据.xlsx",sheet_name=0)
    
    # 2.特征化特征：打斗次数，接吻次数  初始化目标(标签)：电影类型
    train_df = mv_df.loc[:5,["打斗次数","接吻次数","电影类型"]]
    
    # 3.预测数据
    x_new_test = mv_df.loc[6,["打斗次数","接吻次数"]]
    
    # 4.实例化类 设定k值为3
    mk = MyKnn(train_df,k=3)
    new_mv_type = mk.predict(x_new_test)
    print(f"预测类型为：{new_mv_type}")

    
main()

1.3算法讨论

1.3.1 K值选择

前文我们对K值是什么，应该有个大概的了解。那么K值该取多大呢？这就需要出于实际问题实际考虑了。具体而言：
1）如果 K 值比较小，就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是，如果邻居点是个噪声点，那么未分类物体的分类也会产生误差，这样 KNN 分类就会产生过拟合。

2）如果== K 值比较大==，相当于距离过远的点也会对未知物体的分类产生影响，虽然这种情况的好处是稳健性强，但是不足也很明显，会产生欠拟合情况，也就是没有把未分类物体真正分类出来。

所以 K 值应该是个实践出来的结果，并不是我们事先而定的。在工程上，我们一般采用交叉验证的方式选取 K 值。

交叉验证的思路就是，把样本集中的大部分样本作为训练集，剩余的小部分样本用于预测，来验证分类模型的准确性。所以在 KNN 算法中，我们一般会把 K 值选取在较小的范围内，同时在验证集上准确率最高的那一个最终确定作为 K 值。

1.3.2距离计算

前面我们讲的是欧式距离的计算，常用有的距离计算方法有欧氏距离(欧几里得距离)、曼哈顿距离、闵可夫斯基距离、切比雪夫距离、余弦距离。

欧氏距离(欧几里得距离)：两点在n维空间中的距离
曼哈顿距离:在几何空间中用的比较多

二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离：

n维空间点(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离：
切比雪夫距离:在国际象棋中，国王可以直行、横行、斜行，所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？这个距离就叫切比雪夫距离。

二维平面两点a(x1,x2)与b(x2,y2)间的切比雪夫距离：

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离：
闵可夫斯基距离:一类距离的统称，是对多个距离度量公式的概括性的表述。
其中p是一个变参数：
• 当p=1时，就是曼哈顿距离；
• 当p=2时，就是欧氏距离；
• 当p→∞时，就是切比雪夫距离。
余弦距离:计算的是两个向量的夹角，是在方向上计算两者之间的差异，对绝对数值不敏感。两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦为：

1.3.3 KD树

KNN 的计算过程是大量计算样本点之间的距离。为了减少计算距离次数，提升 KNN 的搜索效率，人们提出了 KD 树（K-Dimensional 的缩写）。KD 树是对数据点在 K 维空间中划分的一种数据结构。在 KD 树的构造中，每个节点都是 k 维数值点的二叉树。既然是二叉树，就可以采用二叉树的增删改查操作，这样就大大提升了搜索效率。

2 K近邻算法实现

先总结KNN工作流程：
• 1.计算待分类物体与其他物体之间的距离；
• 2.统计距离最近的 K 个邻居；
• 3.对于 K 个最近的邻居，它们属于哪个分类最多，待分类物体就属于哪一类。

2.1scikit-learn工具介绍

scikit-learn 是基于 Python 语言的机器学习工具。
（1）特点：

Scikit-learn包括许多知名的机器学习算法的实现
Scikit-learn文档完善，容易上手，丰富的API

（2）学习文档：http://scikitlearn.com.cn/ （文档是中文的，可以学习一下噢~）

（3）安装：pip3 install scikit-learn
注意：安装scikit-learn需要Numpy，Scipy等库

2.2scikit-learn实现K近邻算法——分类问题

步骤：

构建特征数据与目标数据
构建k个近邻的分类器
使用fit进行训练
预测数据

语法：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto5)

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索.
1）auto理解为算法自己决定合适的搜索算法。
2）brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。
3）kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。
4）ball tree是为了克服kd树高纬失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。

"""简单原理实现"""
from sklearn.neighbors import KNeighborsClassifier

x = [[-1],[-2],[2],[3]] # 构建特征数据：x为训练集样本的特征工程，这里训练集有4个样本，特征为一维

y = [0,0,1,1]  # 构建目标数据：y为训练集样本的目标，有4个样本，所以有4个目标值，目标分类为0或者1

estimator = KNeighborsClassifier(n_neighbors=2) # 构建k个近邻的分类器： k邻近值设置为2

estimator.fit(x,y)  # 使用fit进行训练

estimator.predict([[5]]) # 预测集为5 ，结果（目标）：array([1])

"""电影分类api实现"""
from sklearn.neighbors import KNeighborsClassifier

# 1.读取数据
mv_df = pd.read_excel("电影数据.xlsx",sheet_name=0)

# 2.构建训练集的特征数据
x = mv_df.loc[:5,"打斗次数":"接吻次数"].values

# 3.构建训练集的目标数据
y = mv_df.loc[:5,"电影类型"].values

# 4.实例化api k值为4
knn_cls = KNeighborsClassifier(n_neighbors=4)

# 5.进行训练
knn_cls.fit(x,y)

# 6.预测数据 美人鱼 结果：array(['爱情'], dtype=object)
knn_cls.predict([[5,29]])

2.3scikit-learn深入（流程）介绍- 以鸢尾花数据为例

2.3.1数据集获取

sklearn.datasets 加载获取流行数据集
• datasets.load_***() 获取小规模数据集，数据包含在datasets里
• datasets.fetch_***(data_home=None) 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/

from sklearn.datasets import load_iris,fetch_20newsgroups

iris = load_iris()
iris

news = fetch_20newsgroups()
news

"""
返回集
load和fetch返回的数据类型(字典格式)
• data：特征数据数组
• target：标签数组
• DESCR：数据描述
• feature_names：特征名
• target_names：标签名
"""
from sklearn.datasets import load_iris

iris = load_iris()
print("鸢尾花数据集的返回值：\n", iris)

print("鸢尾花的特征值:\n", iris["data"])

print("鸢尾花的目标值：\n", iris.target)

print("鸢尾花特征的名字：\n", iris.feature_names)

print("鸢尾花目标值的名字：\n", iris.target_names)

print("鸢尾花的描述：\n", iris.DESCR)

2.3.2特征直观绘图

import seaborn as sns
# 构建dataframe数据
iris_data = pd.DataFrame(data=iris.data,columns=['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'])
# iris_data.head()

# 添加target目标列
iris_data["target"] = iris.target
iris_data

# 两两特征之间的关系对分类的影响
sns.pairplot(iris_data,hue="target")

2.3.3数据分割

(1)数据分割规则
• 训练数据：用于训练，构建模型
• 测试数据：在模型检验时使用，用于评估模型是否有效。

(2)划分比例：
• 训练集：70% 80% 75%
• 测试集：30% 20% 25%

(3)数据分割api
sklearn.model_selection.train_test_split(arrays, *options)
sklearn.model_selection.train_test_split(x,y,test_size=,random_size)

参数解释：
• x 数据集的特征值
• y 数据集的标签值
• test_size 测试集的大小，一般为float
• random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
• 返回值：训练特征值，测试特征值，训练目标值，测试目标值

from sklearn.model_selection import train_test_split

# iris.data:特征值；iris.target：目标值  test_size：测试集的大小 
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2)  

print("训练集的特征值：",x_train)
print("测试集的特征值：",x_test)
print("训练集的目标值：",y_train)
print("测试集的目标值：",y_test)

print("训练集的目标值形状:",y_train.shape)  # 120/150
print("测试集的目标值形状:",y_test.shape)   # 30/150

# 随机数种子，不同种子造成不同的随机采样结果。相同的种子采样结果一致
x_train1,x_test1,y_train1,y_test1 = train_test_split(iris.data,iris.target,test_size=0.2,random_state=2)
x_train2,x_test2,y_train2,y_test2 = train_test_split(iris.data,iris.target,test_size=0.2,random_state=23)
x_train3,x_test3,y_train3,y_test3 = train_test_split(iris.data,iris.target,test_size=0.2,random_state=23)

print(y_test1)
print(y_test2)
print(y_test3)

"""
[0 0 2 0 0 2 0 2 2 0 0 0 0 0 1 1 0 1 2 1 1 1 2 1 1 0 0 2 0 2]
[2 2 1 0 2 1 0 2 0 1 1 0 2 0 0 2 1 1 2 0 2 0 0 0 2 0 0 2 1 1]
[2 2 1 0 2 1 0 2 0 1 1 0 2 0 0 2 1 1 2 0 2 0 0 0 2 0 0 2 1 1]
"""

2.3.4 处理特征化工程

处理特征化工程就是处理特征里存在的异常值，消除可能存在的偏误。常用方法有归一化和标准化（之前在数据分析那一块也有讲过）。所以简单提一下就好啦

归一化特征工程（将原始数据映射到[0,1]之间）

公式：

归一化api：sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
• MinMaxScalar.fit_transform(X)
• X:numpy array格式的数据[n_samples,n_features]

评价：归一化只是减轻了波动性，完整消除异常值影响。如如有一个值错误，它是最大值，那么就会影响整体的数值，并且归一化是无法解决这个异常值。所以归一化只适合传统精确小数据场景

标准化特征工程（将原始数据转为正态分布：均值为0,标准差为1范围内）

公式：

标准化api：sklearn.preprocessing.StandardScaler( )
• 处理之后每列来说所有数据都聚集在均值0附近标准差差为1
• StandardScaler.fit_transform(X)
• X:numpy array格式的数据[n_samples,n_features]

下面示例一哈：
数据来源

data = pd.read_csv("餐饮.csv",encoding="gbk",usecols=["人均","环境","服务"]).dropna()
data.info()
data.describe()

"""
导入归一化api模块和标准化api模块
归一化api： MinMaxScaler
标准化api：StandardScaler
"""
from sklearn.preprocessing import MinMaxScaler,StandardScaler
import pandas as pd

"""
归一化：
1）实例化一个转换器
2）调用 fit_transform  注意：传入dataframe
"""
# 实例化一个转换器
transfer = MinMaxScaler(feature_range=(0,1))

# 调用 fit_transform  注意：传入dataframe
min_max_data = transfer.fit_transform(data)
min_max_data

"""
标准化：
1）实例化一个转换器
2）调用 fit_transform  注意：传入dataframe
"""
# 实例化一个转换器
s_tran = StandardScaler()

# 调用 转换 方法
standar = s_tran.fit_transform(data)
standar

2.3.5 交叉验证、网格搜索api

2.3.5.1交叉验证

在K值选择那里，我们说过可以采用交叉验证，选择适合的K值，并且提到交叉验证的思路就是，把样本集中的大部分样本作为训练集，剩余的小部分样本用于预测，来验证分类模型的准确性。

我们讲到KNN 算法中，我们一般会把 K 值选取在较小的范围内，同时在验证集上准确率最高的那一个最终确定作为 K 值。那么现在就来讲一下交叉验证是什么东东？
交叉验证（Cross Validation）也称为循环估计（Rotation Estimation），在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。这个过程一直进行，直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和。

那么在KNN它是如何应用的呢？简单来讲，假设交叉验证参数设定为10份，循环取其中的一份作为预测集，其他部分作为训练集。然后利用训练集训练出来的模型预测测试集。接着，计算测试集的RMSE，判断模型的稳定性。

简而言之，交叉验证目的是为了得到可靠稳定的模型。它通常与网格搜索相结合

2.3.5.2网格搜索

网格搜索（Grid Search）用简答的话来说就是你手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。

2.3.5.3交叉验证、网格搜索api

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)
对估计器的指定参数值进行详尽搜索
• estimator：估计器对象
• param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]} （这里就是K值的选择）
• cv：指定几折交叉验证

# 建立模型
knn = KNeighborsClassifier(n_neighbors=7)

# 交叉验证网格搜索
params_grid = {"n_neighbors":[1,3,5,7,9]}
knn = GridSearchCV(knn,param_grid=params_grid,cv=3)

# 训练
knn.fit(x_train,y_train)

Python中的分支结构 xiaojimao1 python 开发语言 Python中的分支结构
文章目录前言一、顺序结构与选择结构1.顺序结构2、选择结构二、单分支、双分支与多分支1、单分支2、双分支3、多分支三、分支嵌套代码逻辑解释四、pass关键字总结前言在编程中，分支结构是一种重要的控制结构，它允许程序根据不同的条件执行不同的代码。Python中的分支结构主要包括顺序结构、选择结构，以及单分支、双分支、多分支和分支嵌套等多种形式。此外，pass关键字在分支结构中也有其独特的用途。本文将
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
Python：数学，排列组合，可重复的组合。好开心啊没烦恼数学 python 数据分析数据挖掘开发语言
目录1示例代码2欢迎纠错3论文写作/Python学习智能体1示例代码直接上代码。deftest1():"""有“a/b/c/d/e”五个字符用以组成八位字符串，可完全重复如“aaaaaaaa”，也可部分重复如“aaaabcde”。将“aaaabcde”和“bcdeaaaa”、“bacadaea”视作一种组合。问：这样的组合一共有多少种？""""""问题定性：可重复的组合。首先是个组合问题，因为
易语言数据分析小实例：数人头。用到：易数据库好开心啊没烦恼易语言数据分析数据库数据挖掘开发语言
目录（不如Python方便，已弃用易语言，但以“易语言”为工具的朋友可作参考。已测试通过。）------0需求1直接操作Excel表2易语言实现2.1导库2.2处理小插曲3欢迎纠错4论文写作/Python学习智能体------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内
Python爬虫网安-beautiful soup+示例
目录beautifulsoup:解析器：节点选择器：嵌套选择：关联选择：子节点：子孙节点：父节点：祖先节点：兄弟节点：上一个兄弟节点：下一个兄弟节点：后面所有的兄弟节点：前面所有的兄弟节点：方法选择器：CSS选择器：beautifulsoup:bs4用于解析htmlandxml文档解析器：html.parser、lxml解析器和XML的内置解析器文档遍历：跟xpath差不多，也是整理成树形结构搜索
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
【Python爬虫实战】全面抓取网页资源（图片、JS、CSS等）——超详细教程与源码解析 Python爬虫项目 python 爬虫 javascript 新浪微博开发语言 css 旅游
前言在互联网时代，网页数据已经成为重要的信息来源。许多时候，我们不仅需要抓取网页中的文字信息，还需要将网页中的各种资源文件（如图片、CSS样式表、JavaScript脚本文件等）一起抓取并保存下来。这种需求广泛应用于网页备份、离线浏览、数据分析等场景。本篇文章将带你从零开始，系统讲解如何使用Python最新技术，一步步实现抓取网页中所有静态资源的完整流程，包括：页面结构分析爬虫基本架构搭建异步爬取
用Python爬虫抓取网页中的视频文件：从数据获取到处理与保存的完整教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
一、引言随着在线视频平台的快速发展，视频成为了互联网中最重要的媒介之一。无论是用于娱乐、教育还是技术学习，视频内容都极大地改变了我们的信息获取方式。对于开发者、数据分析师或者研究者而言，获取和分析视频文件的数据不仅可以帮助他们深入理解某些平台的运营模式，也有助于建立自定义的多媒体内容库。爬虫技术是自动化抓取网页数据的一种工具。它通过模拟浏览器行为，抓取目标网页的内容。对于视频文件的抓取，尤其是那些
使用Python爬虫抓取免费音乐下载网站：从数据抓取到下载 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言
目录：前言爬虫基础知识什么是Web爬虫爬虫的工作原理抓取音乐下载网站的目标目标网站分析确定抓取数据的元素爬虫技术栈介绍Python爬虫的常用库requests库BeautifulSoup库Selenium库aiohttp和异步抓取抓取音乐下载网站的步骤选择目标网站并分析页面结构使用requests获取网页内容使用BeautifulSoup解析HTML解析音频文件下载链接使用Selenium抓取动态
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
【web安全】远程命令执行(RCE)漏洞深度解析与攻防实践 KPX web安全安全 web安全 windows linux 漏洞
目录摘要1.RCE漏洞概述1.1基本概念1.2漏洞危害等级2.RCE漏洞原理深度分析2.1漏洞产生条件2.2常见危险函数2.2.1PHP环境2.2.2Java环境2.2.3Python环境3.RCE利用技术进阶3.1基础注入技术扩展3.1.1命令分隔技术3.1.2参数注入技术3.2高级绕过技术3.2.1编码混淆3.2.2字符串拼接3.3盲注技术3.3.1时间延迟检测3.3.2DNS外带数据3.3.
SQLmap 使用指南：开启安全测试高效之旅
SQLmap作为一款强大的开源自动化SQL注入工具，在安全测试领域扮演着至关重要的角色，它能够精准检测并有效利用Web应用程序中潜藏的SQL注入漏洞。但请务必牢记，其使用必须严格限定在合法授权的范围内，以确保不触碰法律红线。安装SQLmap在Windows系统中安装SQLmap，首先要确保已成功安装Python环境。因为SQLmap是基于Python开发的，Python环境是其运行的基础。安装好P
学习笔记(28):随机噪声的原理、作用及代码实现详解宁儿数据安全 #机器学习学习笔记 python
学习笔记(28):随机噪声的原理、作用及代码实现详解一、什么是随机噪声？为什么需要添加？在机器学习中，随机噪声是指数据中无法用特征解释的随机波动，通常符合某种概率分布（如正态分布）。在房价模拟中添加噪声的核心原因如下：1.模拟真实世界的不确定性真实房价除了受面积、房龄影响，还受装修情况、学区、交通、政策等未被建模的特征影响，这些因素的综合效应可抽象为“噪声”。示例：两套面积和房龄相同的房子，房价可
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
Python 3.11.6 Windows 64位版安装程序下载：轻松上手Python最新版本惠凯忱Montague
Python3.11.6Windows64位版安装程序下载：轻松上手Python最新版本去发现同类优质开源项目:https://gitcode.com/项目介绍在编程领域，Python无疑是一种极为流行且强大的编程语言。Python3.11.6Windows64位版安装程序的推出，为Windows用户提供了官方最新版本的安装便利。这个版本不仅包含了许多优化和新特性，而且确保了在64位Windows
【YOLOv11】ultralytics最新作品yolov11 AND 模型的训练、推理、验证、导出以及使用 Jackilina_Stone #Deep Learning 【改进】YOLO系列 YOLO 人工智能 python 计算机视觉深度学习
目录一ultralytics公司的最新作品YOLOV111yolov11的创新2安装YOLOv113PYTHONGuide二训练三验证四推理五导出模型六使用文档：https://docs.ultralytics.com/models/yolo11/代码链接：https://github.com/ultralytics/ultralyticsPerformanceMetrics
python中常用函数表_Python列表中几个常用函数总结 weixin_39934613 python中常用函数表
1、append()方法用于在列表末尾添加新的对象。语法：list.append(obj)参数：list定义的列表obj所要添加到列表的对象例：list=['Microsoft','Amazon','Geogle']list.append('Apple')print(list)显示结果为：['Microsoft','Amazon','Geogle','Apple']2、extend()函数用于在列
Python 与面向对象编程（OOP） lanbing 面向对象（OOP）python 开发语言面向对象
Python是一种支持面向对象编程（OOP）的多范式语言，其OOP实现简洁灵活，但在某些设计选择上与传统OOP语言（如Java、C#）存在显著差异。以下是Python面向对象编程的核心特性、优势和局限性的全面解析：一、Python的OOP核心特性1.万物皆对象Python中所有数据类型（如整数、字符串）均为对象，继承自object基类。函数、模块、异常等也都是对象，可以赋值、传递或动态修改。例如n
【Python】Python —— 列表 (文末附思维导图）
Python——列表1定义用于存储任意数目、任意类型的数据集合。List（列表）是Python内置的一种数据类型。标准语法格式：1.a=[10,20,30,40]2.a=[10,20,‘abc’,True]是一种有序的集合，可以随时增加或删除其中的元素。标识是中括号[]。2创建2.1基本语法创建a=[10,20,'yangyaqi','石家庄学院',True]a[10,20,‘yangyaqi’,
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
python源码编译安装和常见问题解决运维天坑笔记 python 开发语言 linux
python编译安装1、下载源码包wgethttps://www.python.org/ftp/python/3.9.10/Python-3.9.10.tgztar-zxfPython-3.9.10.tgzcdpython39/2、编译安装./configure--prefix=/usr/local/python39--enable-shared--enable-optimizationsmake
Python语法笔记 XiTang1 python 笔记开发语言
Python的基本语法1.计算机相关的名词知识1.1计算机的组成计算机之父：冯.诺依曼，根据冯.诺依曼结构体系，计算机是分为5部分的1.输入设备把信息传递到计算机中，比如键盘、鼠标2.输出设备信息从计算机中传递出来，比如音响、显示器、打印机等等3.存储区计算机被发明出来就是用于数据的存储和计算的计算机上有两个存储数据的设备：内存、硬盘硬盘：电脑上的磁盘分区，存储在硬盘中的数据都是持久化存储【只要不
Python编程：实现文件比对倔强老吕 C++与python交互编程 python 哈希算法
Python提供了多个用于文件比对的库，适用于不同的比较场景。以下是主要的文件比对库及其特点：1.标准库中的比对工具1.1filecmp模块功能：文件和目录比较特点：比较文件内容（浅层和深层比较）比较目录结构内置dircmp类用于目录比较典型用途：importfilecmp#文件比较filecmp.cmp('file1.txt','file2.txt',shallow=False)#目录比较com
Python, C ++,C #开发全球英才阐教版集结令APP Geeker-2025 python c++c语言
以下是为使用**Python、C++和C#**开发**全球英才(阐教版)集结令APP**的深度技术方案，融合三语言优势构建跨平台、高智能的玄门英才聚合系统：---###一、系统架构设计```mermaidgraphTDA[多端客户端]-->B{C#阐道引擎}B-->C[C++玄法核心]C-->D[Python慧识层]D-->E[AI英才匹配]C-->F[天机推演]B-->G[三界通信]G-->H[
Python, Rust 开发教育/医疗/文化资源去中心化分配APP Geeker-2025 python rust
以下是为教育、医疗、文化资源设计的**去中心化分配APP**的完整技术方案，结合Python的灵活性和Rust的高性能与安全性，实现公平透明的资源分配：---###系统架构设计```mermaidgraphTDA[用户终端]-->B[区块链网络]A-->C[分配引擎]B-->D[智能合约]C-->E[资源数据库]D-->F[分配记录]subgraph技术栈C-.Rust.->G[核心分配算法]D-
Python, Go 开发客户服务软件APP Geeker-2025 python golang
以下是一个结合Python和Go开发的**客户服务软件APP**的完整技术方案，充分利用Python的AI能力和Go的高并发特性，构建高性能、智能化的客户服务系统：---###系统架构设计```mermaidgraphTDA[客户端]-->B[GoAPI网关]B-->C[工单管理]B-->D[实时聊天]B-->E[知识库]B-->F[AI引擎]C-->G[工单数据库]D-->H[消息队列]F-->
基于nodejs+vue.js服装商店电子商务管理系统
如果你是一个小白,你不懂得像javaPHP、Python等编程语言，那么Node.js是一个非常好的选择。采用vscode软件开发,配套软件安装.包安装调试部署成功,有视频讲解前端:html+vue+elementui+jQuery、js、css数据库：mysql,Navicatvue框架于Node运行环境的Web框架,随着互联网技术的飞速发展，世界逐渐成了一个地球村，空间的距离也不再是那么重要。
《Effective Python》第十一章性能——延迟加载模块，通过动态导入减少 Python 程序启动时间不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第11章:性能中的Item98：Lazy-LoadModuleswithDynamicImportstoReduceStartupTime。本文旨在总结书中关于延迟加载模块的核心观点，并结合我自己的开发经验，深入探讨其在实际项目中的应用场景与优化价值。Pytho
「日拱一码」010 Python常用库——statistics 胖达不服输「日拱一码」python python常用库 statistics
目录平均值相关mean()：计算算术平均值，即所有数值相加后除以数值的个数fmean()：与mean()类似，但使用浮点运算，速度更快，精度更高geometric_mean()：计算几何平均值，即所有数值相乘后开n次方根（n为数值的个数）harmonic_mean()：计算调和平均值，即数值个数除以每个数值的倒数之和median()：计算中位数，即将一组数值按大小顺序排列后位于中间的数。如果数值个
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end