打工人王某

手写Kmeans

K-means聚类算法

1、聚类思想

所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证同一类的数据有相似的特征

2、导入所需的包

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

iris = pd.read_csv("iris.csv",header = None)
iris.head()

3、K-均值算法的python实现

根据K-均值算法的工作流程，我们写出伪代码：

创建k个点为初始质点（通常随机选择）
当任意一个点的簇分配结果发生改变时：
对数据集中的每个点：
对每个质心：
计算质心与数据点之间的距离
将数据点分配到距其最近的簇
对每个簇，计算簇中所有点的均值并将均值作为新的质心
直到簇不再发生改变或者达到最大迭代次数（自己设定）

伪代码中提到的“最近”在这里我们使用欧氏距离

3.1、构建一个计算距离的函数

统一量纲

如果数据中X整体都比较小，比如都是1到10之间的数，Y很大，比如都是1000以上的数，那么，在计算距离的时候Y起到的作用就比X大很多，X对于距离的影响几乎可以忽略，这也有问题。因此，如果K-Means聚类中选择欧几里德距离计算距离，数据集又出现了上面所述的情况，就一定要进行数据的标准化（normalization），即将数据按比例缩放，使之落入一个小的特定区间。(下面函数没有开平方以减少计算量）

def distEclud(arrA,arrB):
    d = arrA - arrB
    dist = np.sum(np.power(d,2),axis=1)
    return dist

3.2、编写自动生成随机质心的函数

在定义随机质心生成函数时，首先需要计算每列数值的范围，然后在该范围中随机生成指定个数的质心。
此处我们使用numpy.random.uniform()函数生成随机质心

"""
函数功能：随机生成k个质心
参数说明：
        dataSet：包含标签的数据集
        k:簇的个数
    返回：
        data_cent：k个质心
"""
def randCent(dataSet,k):
    n = dataSet.shape[1]
    data_min = dataSet.iloc[:,:n-1].min()
    data_max = dataSet.iloc[:,:n-1].max()
    data_cent = np.random.uniform(data_min,data_max,(k,n-1))
    return data_cent

函数用法（上面n-1不包含标签）

3.3、编写K-Means聚类函数

在执行k-means的时候，需要不断的迭代质心，因此我们需要两个可迭代容器来完成该目标：

第一个容器用于存放和更新质心，该容器可考虑使用list来执行，list不仅可迭代对象，同时list内不同元素索引位置也可
用于标记和区分各质心，即各簇的编号。

第二个容器泽需要记录、保存和更新各点到质心之间的距离，并能够方便对其进行比较，该容器可以使用一个三列的数组来
执行，其中第一列用于存放最近一次完成后某点到各质心的最短距离，第二列用于存放迭代后根据最短距离得到的代表对应
质心的数值索引，即所属簇，第三类用于存放上一次迭代后的所属簇，后两列用于比较所属簇是否发生变化，确定迭代结束。

def kMeans(dataSet,k,distMeas=distEclud,createCent=randCent):
    m,n = dataSet.shape
    centroids = createCent(dataSet,k)
    clusterAssment = np.zeros((m,3))
    clusterAssment[:,0] = np.inf
    clusterAssment[:,1:3] = -1
    result_set = pd.concat([dataSet,pd.DataFrame(clusterAssment)],axis = 1,ignore_index = True)
    clusterChanged = True
    time = 1
    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            dist = distMeas(dataSet.iloc[i,:n-1].values,centroids)
            result_set.iloc[i,n] = dist.min()
            result_set.iloc[i,n+1] = np.where(dist == dist.min())[0]
        clusterChanged = not (result_set.iloc[:,-1] == result_set.iloc[:,-2]).all()
        if clusterChanged:
            cent_df = result_set.groupby(n+1).mean()
            centroids = cent_df.iloc[:,:n-1].values
            result_set.iloc[:,-1] = result_set.iloc[:,-2]
        time = time+1
        if(time==1000):
            break
    return centroids,result_set

4、有以下几点值得注意：

4.1、设置统一的操作对象result_set

为了调节和使用方便，此处将clusterAssment容易转换为了DataFrame并与输入原始数据集合并，组成的对象可作为后续调用的统一对象，该对象内既保留了原始数据也保存了迭代运算的中间结果，包括数据所属簇标记和数据质心距离等，该对象同时也作为最终函数返回结果；

4.2、判断质心是否发生改变条件

注意，在k-means中判断质心是否发生改变，即判断是否进行下一次迭代的依据并不是某点距离新的质心距离变短，而某点新的距离向量（到各质点的距离）中最短的分量位置是否发生改变，即质心变化后某点是否归属于另外的簇。在质心变化导致各点所属簇发生变化的过程中，点到质心的距离不一定会变短，即判断条件不能用下述语句表示

4.3、合并DataFrame后索引值为n列

这里有个小技巧，能够帮助迅速定位DataFrame合并后的索引，即两个DF合并后后者的第一列在合并后的DF索引值为n，第二列索引值为n+1

4.4、质心和类别一一对应

即在最后生成的结果中，centroids的行标即为result_set中各点所属类别

5、算法验证

数编写完成后，先以testSet数据集测试模型运行效果（为了可以直观看出聚类效果，此处采用一个二维数据集进行验证）。testSet数据集是一个二维数据集，每个观测值都只有两个特征

6、把质心和散点数据集画到一起

plt.scatter(test_cluster.iloc[:,0],test_cluster.iloc[:,1],c=test_cluster.iloc[:,-1])
plt.scatter(test_cent[:,0],test_cent[:,1],color = "red",marker = "x",s=80);

7、误差平方和SSE计算

误差平方和（SSE）是聚类算法模型最重要的评估指标，根据n个观察值拟合适当的模型后，余下未能拟合部份(ei=yi一y平均)称为残差，其中y平均表示n个观察值的平均值，所有n个残差平方之和称误差平方和。以为各点所到质心的距离没有开方（即为平方）我们直接对所有列求和就好了

"""
函数功能：聚类学习曲线
参数说明：
    dataSet：原始数据集
    cluster：K-means聚类方法
    k:簇的个数
返回：误差平方和SSE
"""
def kcLearningCurve(dataSet, cluster = kMeans,k = 10):
    n = dataSet.shape[1]
    SSE = []
    for i in range(1,k):
        centroids,result_set = cluster(dataSet,i+1)
        SSE.append(result_set.iloc[:,n].sum())
    plt.plot(range(2,k+1),SSE,"--o")
    return SSE

kcLearningCurve(iris)

8、K-Means的优缺点

8.1、优点：

1、原理比较简单，实现也是很容易，收敛速度快。

2、当结果簇是密集的，而簇与簇之间区别明显时, 它的效果较好。

3、主要需要调参的参数仅仅是簇数k。

8.2、缺点：

1、K值需要预先给定，很多情况下K值的估计是非常困难的。

2、K-Means算法对初始选取的质心点是敏感的，不同的随机种子点得到的聚类结果完全不同，对结果影响很大。

3、对噪音和离群点比较的敏感。

4、采用迭代方法，可能只能得到局部的最优解，而无法得到全局的最优解。

5、无法发现任意簇,因为K-Means算法主要采用欧式距离函数度量数据对象之间的相似度,并且采用误差平方和作为准则函数,通常只能发现数据对象分布较均匀的球状簇.

8.3、改进方法：

针对 1 ：1、中存在的问题主要是 K 的值必须认为预先设定，并且在整个算法执行过程中无法更改。此时，可以利用 ISODATA 算法：当属于某个类别的样本数过少，就将这个类别剔除；当属于这个类别的样本过多、分散程度很大的时候，就将这个类别分为两个子类，此时 K 也就会 + 1了

针对 2 ：K-means ++ 不再随机选择 K 个聚类中心：假设已经选取了 m 个聚类中心（ 0 < m < K）,m = 1时，随机选择一个聚类中心点；在选取第 m+1 个点的时候，距离当前 m 个聚类中心点的中心越远的点，越会以更高的概率被选为第 m+1 个聚类中心。这种方法在一定程度上可以让“随机”选择的聚类中心点的分布更均匀。此外还有 canopy 算法等。

针对 3 ：针对离群点和噪声点，我们可以使用一些算法，比如 RANSAC 、LOF 等剔除离群点。此外，基于 K-means 的改进算法有 k-medoids 和 k-medians

针对 4 ：对于只能得到局部最优解，我们可以采用二分K-means，将所有点作为一个簇，然后将该簇一分为二，选择下一个簇继续进行划分。选择哪一个簇进行划分取决于：该簇的SSE（误差平方和）的值最大。而划分的方法还是K-means的方法，只是簇的个数k=2。通过不断重复直，到达到需要的簇数量。

针对 5 ：K-means 是使用欧式距离来测量，显然，这种度量方式并不适合于所有的数据集。换句话说，K-means 比较适合聚那些球状的簇。参照 SVM 中核函数的思想，将样本映射到另外一个特征空间，就可以改善聚类效果。代表算法是;kernel K-means。

改进算法一：K-means++

import math
import random
from sklearn import datasets

def euler_distance(point1, point2):
    """
    计算两点之间的欧式距离，支持多维
    """
    distance = 0.0
    for a, b in zip(point1, point2):
        distance += math.pow(a - b, 2)
    return math.sqrt(distance)
#计算最小距离
def get_closest_dist(point, centroids):
    min_dist = math.inf  # 初始设为无穷大
    for i, centroid in enumerate(centroids):
        dist = euler_distance(centroid, point)
        if dist < min_dist:
            min_dist = dist
    return min_dist

def kpp_centers(data_set, k):
    """
    从数据集中返回 k 个对象可作为质心
    """
    cluster_centers = []
    cluster_centers.append(random.choice(data_set))
    d = [0 for _ in range(len(data_set))]
    for _ in range(1, k):
        total = 0.0
        for i, point in enumerate(data_set):
            d[i] = get_closest_dist(point, cluster_centers) # 与最近一个聚类中心的距离
            total += d[i]
        total *= random.random()
        for i, di in enumerate(d): # 轮盘法选出下一个聚类中心；
            total -= di
            if total > 0:
                continue
            cluster_centers.append(data_set[i])
            break
    return cluster_centers

iris = datasets.load_iris()
cent = kpp_centers(iris.data, 3)
cent

改进算法二：isodata算法

图像展示

从图中可以看出，在第八次迭代之后，聚类就已经收敛了，从第八次到第十次迭代，聚类的状态就已经不再发生变化啦。
这个数据最好的分类中心是三个，即使初始设置的类别中心为5类，但是经过ISODATA聚类之后，还是能得到客观上所看到的三个类别中心。而如果是K-Means分类法，如果我们设置初始类别中心为5的话，最后得到的一定也是5类，和客观类别中心不符合。

算法优点

可以在聚类过程中自动调整类别个数和类别中心，使聚类结果能更加靠近客观真实的聚类结果。

算法缺点

需要设置的参数比较多，参数值不好确定。不同的参数之间相互影响，而且参数的值和聚类的样本集合也有关系，要得到好的聚类结果，需要有好的初始设置值，可以通过多次设置不同的值进行不同的实验，然后取一些已知的样本来检验聚类结果的精度，以最后取得更好的分类结果的那次实验为准；或者考虑和其他方法相结合来得到更好的分类结果。

二分K-means

1、所有点作为一个簇
2、将其一分为二
3、将误差平方和大的簇划分为两个簇
4、以此进行下去，直到达到用户所需的簇的个数

你可能感兴趣的:(kmeans,聚类,python)

简单分享下Python数据可视化小软件大世界信息可视化 python 开发语言
在数据科学的广阔天地里，数据可视化是不可或缺的一环，它让复杂的数据变得易于理解。对于Python初学者而言，掌握Matplotlib和Seaborn这两个强大的库，无疑能让你的分析报告更加生动有趣。本文专为渴望提升数据可视化技能的你设计，通过15个实用技巧，带你从基础走向高级，探索数据背后的精彩故事。1.基础条形图-简单入手Matplotlib示例：import matplotlib.pyplot
轻量级python编辑器内存_vscode-轻量级实用编辑器 weixin_39557402 轻量级python编辑器内存
前言：经网友推荐，下载vscode，发现速度确实快，度娘看了下，是微软抽调的一小波人做的。这样就不担心windows平台插件支持了。js，python都支持高亮，本身自带插件也都实用。自带控制台，终端，emmet格式插件，图标插件，小地图插件。占用内存少，推荐!先整理部分觉得不错的插件，体验一段时间再修改一、常用插件1.vscode-icon让vscode的文件夹目录添加上对应的图标注：安装好如果
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate elemen 挽风821 软件测试 selenium 测试工具
报错原因：页面还没加载完，就开始找元素了使用time.sleep()等待几秒就可以了#创建ChromeWebDriverdriver=webdriver.Chrome(service=Service('D:\ProgramFiles\python\python3.10.0\chromedriver.exe'),options=chrome_options)driver.maximize_windo
python反爬虫处理--处理动态内容加载（Selenium库）范哥来了 python 爬虫开发语言
使用Selenium处理动态加载的内容Selenium是一个强大的工具，可以用来模拟真实用户与网页进行交互。这对于处理那些通过JavaScript动态加载内容的网站特别有用。下面我将介绍如何安装Selenium库以及如何使用它来抓取动态加载的内容。1.安装Selenium库首先，您需要确保已经安装了Selenium库。您可以使用pip来安装Selenium：pipinstallselenium此外
Python与数据可视化案例：电影评分可视化 master_chenchengg python python 办公效率 python开发 IT
Python与数据可视化案例：电影评分可视化电影评分数据的魅力：为什么可视化很重要数据收集：如何获取电影评分数据使用API接口网络爬虫技术数据清洗与预处理：让数据变得干净整洁可视化实战：用Matplotlib和Seaborn绘制电影评分图表电影评分数据的魅力：为什么可视化很重要对于电影爱好者而言，电影评分不仅仅是数字那么简单，它承载着无数影迷的期待与梦想。想象一下，当你站在电影院门口，面对琳琅满目
Python与数据可视化库Seaborn实战 master_chenchengg python 信息可视化 python 开发语言
Python与数据可视化库Seaborn实战一、引言二、技术概述Seaborn介绍核心特性和优势代码示例：简单散点图三、技术细节技术原理技术难点四、实战应用应用场景问题与解决方案五、优化与改进潜在问题改进建议六、常见问题七、总结与展望一、引言Python，作为一门功能强大且易于学习的编程语言，近年来在数据科学领域取得了显著地位。其丰富的库支持，尤其是数据可视化库，极大地促进了数据分析和洞察能力的提
小甲鱼零基础入门python教程视频_小甲鱼零基础入门学习python 共96集（含源码+课件+课后习题）百度云盘... weixin_39725154
【Python教程】小甲鱼零基础入门学习python共96集（含源码+课件+课后习题）小甲鱼零基础入门学习python共96集（含源码+课件+课后习题）百度云盘下载链接1：http://pan.baidu.com/s/1i5eR1fZ密码：8juz??解压密码：www.zygx8.com小甲鱼零基础入门学习Python视频（无课件）http://pan.baidu.com/s/1eRANzPK小甲
python前闭后开_opencv 形态学变换(开运算，闭运算，梯度运算) weixin_39814126 python前闭后开
形态学里把腐蚀和膨胀单独拿了出来，其他操作(保括膨胀和腐蚀的组合操作)都叫形态学变换。opencv里有包：cv2.morphologyEx()morphology：译文形态学使用python+opencv讲解开运算开运算：对图像先进行腐蚀，然后对腐蚀后的图进行膨胀morphologyEx运算结果=cv2.morphologyEx(源图像img,cv2.MORPH_OPEN,卷积核k)cv2.MOR
python的pandas函数 soputasmile11 python python pandas 开发语言
Pandas是Python中一个强大且广泛使用的数据分析库，它提供了高效的数据结构和数据操作工具，主要的数据结构有Series（一维数组）和DataFrame（二维表格）。下面将详细介绍Pandas中一些常用函数和方法的用法。1.安装与导入使用pip安装Pandas：pipinstallpandas在Python代码中导入Pandas，通常使用pd作为别名：importpandasaspd2.创建
[Python入门学习记录(小甲鱼)]第4章分支与循环 LIN-JUN-WEI python 学习开发语言嵌入式硬件单片机
第4章分支和循环讲些条件语句和循环语句4.1完整条件语句ifx>1:print(1)elifxstopstep0forxinrange(10)print(x)#打印0-9加上list()会像列表一下展示print(list(range(0,-10,-1)))#[0,-1,-2,-3,-4,-5,-6,-7,-8,-9]4.6break语句就一样，跳出这整个循环fornuminrange(1,11)
华为OD机试2025年真题题库（E卷+D卷+C卷+B卷+A卷）（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od c语言 python
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2024年8月14日，华为官方已经将华为OD机试（D卷）切换为E卷。目前正在考的是E卷，按照华为OD往常的操作，E卷题目是由往
华为OD机试 - 没有回文串（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述回文串Q的定义：正读和反读都一样的字符串。
华为OD机试 - 三阶积幻方（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述九宫格是一款广为流传的游戏，起源于河图洛书
华为OD机试 - 士兵过河 - 二分查找（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述一支N个士兵的军队正在赶夜夜行军，途中遇到
华为OD机试真题 - 精准核酸检测 - 深度优先搜索DFS（Python/JS/C/C++ 2024 D卷 200分）哪吒华为od 深度优先 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述为了达到新冠疫情精准防控的需要，为了避免全
华为OD机试 - 最优策略组合下的总的系统消耗资源数（Python/JS/C/C++ 2024 D卷 100分）哪吒 python 华为od java c c++javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述在通信系统中有一个常见的问题是对用户进行不
华为OD机试 - 信道分配 - 贪心算法（Python/JS/C/C++ 2024 D卷 200分）哪吒 python 华为od 贪心算法
一、题目描述算法工程师Q小明面对着这样一个问题，需要将通信用的信道分配给尽量多的用户：信道的条件及分配规则如下：所有信道都有属性"阶"。阶为r的信道的容量为2^r比特；所有用户需要传输的数据量都一样：D比特；一个用户可以分配多个信道，但每个信道只能分配给一个用户；当且仅当分配给一个用户的所有信道的容量和>=D，用户才能传输数据；给出一组信道资源，最多可以为多少用户传输数据？二、输入描述第一行，一个
【精辟】venv和Anaconda的区别? 王摇摆 ANACONDA python
venv和Anaconda是两种不同的工具，用于管理Python环境和包依赖，它们之间有以下区别：来源和适用性：venv：venv是Python的标准库中提供的模块，从Python3.3版本开始引入。它是Python官方推荐的创建和管理虚拟环境的工具，适用于任何Python安装。Anaconda：Anaconda是一个跨平台的Python发行版，提供了用于科学计算和数据分析的大量库和工具。它包含了
【路径规划】基于A算法和Dijkstra算法的路径规划附Python代码天天Matlab科研工作室无人机matlab仿真电子资源算法 python 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍路径规划作为人工智能和机器人技术领域的核心问题之一，在导航、交通运输、游戏开发等领域有着广泛的应用。解决路径规划问题，旨在找到一条从起始点到目标点，并满足特定约束条件（如最短
蓝牙协议栈BlueZ：Linux下的无线通信利器 /Linux 谢璋声Shirley
蓝牙协议栈BlueZ：Linux下的无线通信利器/LinuxbluezMyblueztree.项目地址:https://gitcode.com/gh_mirrors/bl/bluez项目基础介绍与编程语言BlueZ是一个专为Linux系统设计的蓝牙协议栈，自2000年起，由Qualcomm、MarcelHoltmann等贡献者持续维护与发展。此项目采用C作为主要编程语言，并辅以少量的Python代
FastGPT 引申：混合检索完整实例窝窝和牛牛 FastGPT 开源
文章目录FastGPT引申：混合检索完整实例1.各检索方式的初始结果2.RRF合并过程3.合并后的结果4.Rerank重排序后5.最终RRF合并6.内容总结FastGPT引申：混合检索完整实例下边通过一个简单的例子说明不同检索方式的分值变化过程，假设我们有一个查询：“如何使用Python进行数据分析”1.各检索方式的初始结果向量检索结果(相似度分数0-1):1.{id:"doc1",q:"Pyth
【Python】【Conda 】Conda 与 venv 虚拟环境优缺点全解：如何做出明智选择丶2136 python #conda python conda 虚拟环境
目录引言一、基本概念1.1Conda虚拟环境1.2Pythonvenv虚拟环境二、主要区别对比三、优缺点分析3.1Conda虚拟环境的优缺点3.2Pythonvenv虚拟环境的优缺点四、使用场景推荐4.1使用Conda虚拟环境的场景4.2使用Pythonvenv虚拟环境的场景五、虚拟环境管理工具对比图总结引言在开发Python项目时，使用虚拟环境可以隔离不同项目之间的依赖，避免包版本冲突。Pyth
迅投QMT交易系统延迟委托/成交/持仓/账号信息延迟 get_trade_detail_data延迟 wtsolutions qmt量化交易 QMT 迅投延迟
很多朋友问过我，为什么感觉迅投的QMT有延迟：委托order数据延迟，order_callback()成交deal数据延迟,deal_callback()持仓position数据延迟,position_callback()账号account数据延迟,account_callback()第一类原因：官方给的提示如下：委托/成交/持仓/账号信息的更新,是在客户端后台进行的,python策略中无法手动控
Python自动化实现PDF水印添加：核心代码解析与万能方法朴拙Python交易猿 python 自动化 pdf
Python自动化实现PDF水印添加：核心代码解析与实践指南一、技术背景与应用场景在商业文档处理、知识产权保护等场景中，PDF水印功能具有重要作用。本文介绍基于Python的自动化PDF水印实现方案，适用于：企业文档添加版权标识机密文件防泄密处理定制化报告生成系统自动化文档处理工作流二、技术实现原理本方案采用双阶段处理模式：水印模板生成：使用ReportLab创建透明水印层文档合并处理：通过PyP
windows 10 python哪个版本的好-windows支持哪个版本的python weixin_37988176
Windows操作系统支持Python的Python2版本和Python3版本，下载安装时要根据windows的操作系统来选择对应的Python安装包，否则将不能安装成功。Python是跨平台的，免费开源的一门计算机编程语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。支持常见的主流平台，如A
Python 机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习算法链管道网格搜索
Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明目录Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明一、简单介绍二、算法链与管道1、算法链与管道的概念2、使用Pipeline的示例3、关键点说明三、用预处理进行参数选择四、构建管道五、在网格搜索中使用管道1、举例说
pdb/ipdb 调试 Python 注意事项 DEDSEC_Roger 深度学习 python 深度学习
pdb/ipdb调试Python注意事项推荐采用ipdb进行调试，有代码高亮，容易区分在__getitem__里设置断点（插入pdb.set_trace()）时，若num_workers不为0会出错，因此在调试__getitem__时，num_workers要设为0。（推荐在调试时，num_workers固定为0）
【实战项目】Python 手撕一个基于最新端到端大模型的语音聊天系统 kakaZhui 解码前沿多模态大模型：认知分析和工业级实战 python 开发语言 AIGC 人工智能 chatgpt
写在前面：为什么需要端到端语音交互近年来，随着深度学习技术的飞速发展，语音交互技术取得了显著的进步。从智能音箱到虚拟助手，语音交互已经渗透到我们生活的方方面面。然而，传统的语音交互系统往往采用“语音识别（ASR）-自然语言理解（NLU）-对话管理（DM）-自然语言生成（NLG）-语音合成（TTS）”的级联式架构，这种架构存在着诸多弊端，如：错误累积：每个模块的错误都会传递到下一个模块，导致最终结果
利用Python爬虫精准获取淘宝商品详情的深度解析 Jason-河山 API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是在电子商务领域。淘宝作为中国最大的电商平台之一，拥有海量的商品数据，对于研究市场趋势、分析消费者行为等具有重要意义。本文将详细介绍如何使用Python编写爬虫程序，精准获取淘宝商品详情信息。环境准备在开始之前，我们需要准备以下环境和工具：Python环境：确保你的计算机上安装了Python。IDE：推荐使用PyCharm或VSCode。网络请求库：我们将使用
如何规避反爬虫机制 Jason-河山爬虫
在面对网站的反爬虫机制时，尤其是像eBay这样有严格反爬措施的平台，你可以采取以下几种策略来应对：1.伪装请求头（User-Agent）许多网站会通过检查HTTP请求头中的User-Agent字段来判断请求是否来自浏览器。默认情况下，爬虫发送的请求头可能包含明显的标识（如“Python”或“PHP”），这很容易被识别为爬虫行为。解决方法：设置一个常见的浏览器User-Agent值来伪装爬虫请求。可
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他