Eastmount

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍

这次课程主要讲述一个关于Kmeans聚类的数据分析案例，通过这个案例让同学们简单了解大数据分析的基本流程，以及使用Python实现相关的聚类分析。
主要内容包括：
1.Anaconda软件的安装过程及简单配置
2.聚类及Kmeans算法介绍
3.案例分析：Kmeans实现运动员位置聚集
前文推荐：【Python数据挖掘课程】一.安装Python及爬虫入门介绍
希望这篇文章对你有所帮助，尤其是刚刚接触数据挖掘以及大数据的同学，同时准备尝试以案例为主的方式进行讲解。如果文章中存在不足或错误的地方，还请海涵~

一. Anaconda软件安装及使用步骤

前面两节课我是通过Python命令行和IDLE工具进行介绍的，但是里面的配置比较麻烦，包括pip安装，selenium、lda各种第三方包的安装。

从这节课我准备使用Anacaonda软件来讲解，它集成了各种Python的第三方包，尤其包括数据挖掘和数据分析常用的几个包。
下载地址：https://www.continuum.io/downloads/
云盘分享：http://pan.baidu.com/s/1hrEQ9xi

1. 配置过程

首先简单介绍安装过程以及如何使用。

安装Anaconda
安装过程如下所示：

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第1张图片

安装最好在C盘默认路径下（空间不大，方便配置），同时不要使用中文路径。

安装完成后，点击“Finish”。点击Anaconda文件夹，包括这些exe执行文件：

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第2张图片

这里我们使用Spyder进行编写Python程序。运行如下所示，左边是进行代码编写的，右下角Console是输出结果的地方。

安装第三方包
虽然Anaconda软件集成了各种各样的包，但是还是缺少一些第三方包，需要通过调用pip或easy_install命令进行安装。

然后使用cd ..去到C盘根目录，cd去到Anaconda的Scripts目录下，输入"pip install selenium"安装selenium相应的包，"pip install lda"安装lda包。

推荐文章：Windows下Anaconda的安装和简单使用 - yido

2. 机器学习常用包

下面这四个包通常用于Python数据挖掘和大数据分析的，包括：

Scikit-Learn
Scikit-Learn是一个基于python的用于数据挖掘和数据分析的简单且有效的工具，它的基本功能主要被分为六个部分：分类(Classification)、回归(Regression)、聚类(Clustering)、数据降维(Dimensionality Reduction)、模型选择(Model Selection)、数据预处理(Preprocessing)。
详见官网：http://scikit-learn.org/stable/

NumPy
NumPy（Numeric Python）系统是Python的一种开源的数值计算扩展，一个用python实现的科学计算包。它提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。

SciPy
SciPy (pronounced "Sigh Pie") 是一个开源的数学、科学和工程计算包。它是一款方便、易于使用、专为科学和工程设计的Python工具包，包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等等。

Matplotlib
Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。它是python最著名的绘图库，它提供了一整套和matlab相似的命令API，十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件，嵌入GUI应用程序中。

二. 聚类及Kmeans介绍

这部分内容主要简单介绍聚类的原理及Kmeans相关知识。
机器学习的基本思想，我还是介绍下面这张图，非常经典。

这里讲述聚类的部分，我简单推荐"简书-程sir"的文章，简单易懂，很不错。
推荐地址：http://www.jianshu.com/p/fc91fed8c77b

1. 分类与聚类

聚类
俗话说“物以类聚”，其实从广义上说，聚类就是将数据集中在某些方面相似的数据成员放在一起。一个聚类就是一些数据实例的集合，其中处于相同聚类中的数据元素彼此相似，但是处于不同聚类中的元素彼此不同。
由于在聚类中那些表示数据类别的分类或分组信息是没有的，即这些数据是没有标签的，所有聚类及时通常被成为无监督学习（Unsupervised Learning）。
下图是800篇文章，每个点可以看成一篇文章，然后对文本进行聚类分析，可以看到相同主题的文章是聚集在一起的。总共四个主题，红色表示景区Spot、蓝色表示人物People、黑色表示国家Country、绿色表示动物Animal。

分类
在理解聚类之前，必须要先理解聚类和分类的区别，简单举个例子。
分类其实是从特定的数据中挖掘模式，作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器，一开始的时候可能什么都不过滤，在日常使用过程中，我人工对于每一封邮件点选“垃圾”或“不是垃圾”，过一段时间，Gmail就体现出一定的智能，能够自动过滤掉一些垃圾邮件了。
这是因为在点选的过程中，其实是给每一条邮件打了一个“标签”，这个标签只有两个值，要么是“垃圾”，要么“不是垃圾”，Gmail就会不断研究哪些特点的邮件是垃圾，哪些特点的不是垃圾，形成一些判别的模式，这样当一封信的邮件到来，就可以自动把邮件分到“垃圾”和“不是垃圾”这两个我们人工设定的分类的其中一个。

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第3张图片

分类学习主要过程如下：
（1）训练数据集存在一个类标记号，判断它是正向数据集（起积极作用，不垃圾邮件），还是负向数据集（起抑制作用，垃圾邮件）；
（2）然后需要对数据集进行学习训练，并构建一个训练的模型；
（3）通过该模型对预测数据集进预测，并计算其结果的性能。

聚类的的目的也是把数据分类，但是事先我是不知道如何去分的，完全是算法自己来判断各条数据之间的相似性，相似的就放在一起。在聚类的结论出来之前，我完全不知道每一类有什么特点，一定要根据聚类的结果通过人的经验来分析，看看聚成的这一类大概有什么特点。
总之，聚类主要是"物以类聚"，通过相似性把相似元素聚集在一起，它没有标签；而分类通过标签来训练得到一个模型，对新数据集进行预测的过程，其数据存在标签的。

2. Kmeans算法

该部分转载简书-程sir的文章：聚类、K-Means、例子、细节

K-Means是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类。
下面，我们描述一下K-means算法的过程，为了尽量不用数学符号，所以描述的不是很严谨，大概就是这个意思，“物以类聚、人以群分”：
1、首先输入k的值，即我们希望将数据集经过聚类得到k个分组。
2、从数据集中随机选择k个数据点作为初始大哥（质心，Centroid）
3、对集合中每一个小弟，计算与每一个大哥的距离（距离的含义后面会讲），离哪个大哥距离近，就跟定哪个大哥。
4、这时每一个大哥手下都聚集了一票小弟，这时候召开人民代表大会，每一群选出新的大哥（其实是通过算法选出新的质心）。
5、如果新大哥和老大哥之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），可以认为我们进行的聚类已经达到期望的结果，算法终止。
6、如果新大哥和老大哥距离变化很大，需要迭代3~5步骤。

下面这个例子很好的，真心推荐大家学习他的博客。

他搞了6个点，从图上看应该分成两推儿，前三个点一堆儿，后三个点是另一堆儿。现在手工执行K-Means，体会一下过程，同时看看结果是不是和预期一致。

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第4张图片

1.选择初始大哥：
我们就选P1和P2

2.计算小弟和大哥的距离：
P3到P1的距离从图上也能看出来（勾股定理），是√10 = 3.16；P3到P2的距离√((3-1)^2+(1-2)^2 = √5 = 2.24，所以P3离P2更近，P3就跟P2混。同理，P4、P5、P6也这么算，如下：

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第5张图片

P3到P6都跟P2更近，所以第一次站队的结果是：
• 组A：P1
• 组B：P2、P3、P4、P5、P6

3.人民代表大会：
组A没啥可选的，大哥还是P1自己
组B有五个人，需要选新大哥，这里要注意选大哥的方法是每个人X坐标的平均值和Y坐标的平均值组成的新的点，为新大哥，也就是说这个大哥是“虚拟的”。
因此，B组选出新大哥的坐标为：P哥（（1+3+8+9+10）/5，（2+1+8+10+7）/5）=（6.2，5.6）。
综合两组，新大哥为P1（0，0），P哥（6.2，5.6），而P2-P6重新成为小弟。

4.再次计算小弟到大哥的距离：

这时可以看到P2、P3离P1更近，P4、P5、P6离P哥更近，第二次站队的结果是：
• 组A：P1、P2、P3
• 组B：P4、P5、P6（虚拟大哥这时候消失）

5.第二届人民代表大会：
按照上一届大会的方法选出两个新的虚拟大哥：P哥1（1.33，1） P哥2（9，8.33），P1-P6都成为小弟。

6.第三次计算小弟到大哥的距离：

这时可以看到P1、P2、P3离P哥1更近，P4、P5、P6离P哥2更近，所以第二次站队的结果是：
• 组A：P1、P2、P3
• 组B：P4、P5、P6

我们发现，这次站队的结果和上次没有任何变化了，说明已经收敛，聚类结束，聚类结果和我们最开始设想的结果完全一致。

三. 案例分析：Kmeans聚类运动员数据

1. 数据集

现在存在下面的数据集，是篮球球员比赛的数据。
数据集地址：KEEL-dataset - Basketball data set
该数据集主要包括5个特征（Features），共96行数据。

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第6张图片

特征描述：共5个特征，每分钟助攻数、运动员身高、运动员出场时间、运动员年龄和每分钟得分数。

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第7张图片

20行数据集如下：

assists_per_minute  height  time_played  age  points_per_minute
0               0.0888     201        36.02   28             0.5885
1               0.1399     198        39.32   30             0.8291
2               0.0747     198        38.80   26             0.4974
3               0.0983     191        40.71   30             0.5772
4               0.1276     196        38.40   28             0.5703
5               0.1671     201        34.10   31             0.5835
6               0.1906     193        36.20   30             0.5276
7               0.1061     191        36.75   27             0.5523
8               0.2446     185        38.43   29             0.4007
9               0.1670     203        33.54   24             0.4770
10              0.2485     188        35.01   27             0.4313
11              0.1227     198        36.67   29             0.4909
12              0.1240     185        33.88   24             0.5668
13              0.1461     191        35.59   30             0.5113
14              0.2315     191        38.01   28             0.3788
15              0.0494     193        32.38   32             0.5590
16              0.1107     196        35.22   25             0.4799
17              0.2521     183        31.73   29             0.5735
18              0.1007     193        28.81   34             0.6318
19              0.1067     196        35.60   23             0.4326
20              0.1956     188        35.28   32             0.4280

需求：现在需要通过运动员的数据，判断他是什么位置。
如果某些运动员得分高，他可能是得分后卫；如果某些运动员身高高或篮板多，他可能是中锋；助攻高可能是控卫。

2. 代码

这里我仅仅使用两列数据，助攻数和得分数进行实验，相当于20*2的矩阵，其中输出y_pred结果表示聚类的类标。类簇数设置为3，类标位0、1、2，它也是与20个球员数据一一对应的。
Sklearn机器学习包中导入了KMeans聚类，同时需要注意Matplotlib包绘制图形的过程。代码如下，并包括详细注释：

"""
第一部分：导入包
从sklearn.cluster机器学习聚类包中导入KMeans聚类
"""
# coding=utf-8  
from sklearn.cluster import Birch
from sklearn.cluster import KMeans

"""
第二部分：数据集
X表示二维矩阵数据，篮球运动员比赛数据
总共20行，每行两列数据
第一列表示球员每分钟助攻数：assists_per_minute
第二列表示球员每分钟得分数：points_per_minute
"""

X = [[0.0888, 0.5885],
     [0.1399, 0.8291],
     [0.0747, 0.4974],
     [0.0983, 0.5772],
     [0.1276, 0.5703],
     [0.1671, 0.5835],
     [0.1906, 0.5276],
     [0.1061, 0.5523],
     [0.2446, 0.4007],
     [0.1670, 0.4770],
     [0.2485, 0.4313],
     [0.1227, 0.4909],
     [0.1240, 0.5668],
     [0.1461, 0.5113],
     [0.2315, 0.3788],
     [0.0494, 0.5590],
     [0.1107, 0.4799],
     [0.2521, 0.5735],
     [0.1007, 0.6318],
     [0.1067, 0.4326],
     [0.1956, 0.4280]   
    ]

#输出数据集
print X


"""
第三部分：KMeans聚类
clf = KMeans(n_clusters=3) 表示类簇数为3，聚成3类数据，clf即赋值为KMeans
y_pred = clf.fit_predict(X) 载入数据集X，并且将聚类的结果赋值给y_pred
"""

clf = KMeans(n_clusters=3)
y_pred = clf.fit_predict(X)

#输出完整Kmeans函数，包括很多省略参数
print(clf)
#输出聚类预测结果，20行数据，每个y_pred对应X一行或一个球员，聚成3类，类标为0、1、2
print(y_pred)


"""
第四部分：可视化绘图
Python导入Matplotlib包，专门用于绘图
import matplotlib.pyplot as plt 此处as相当于重命名，plt用于显示图像
"""

import numpy as np
import matplotlib.pyplot as plt

#获取第一列和第二列数据 使用for循环获取 n[0]表示X第一列
x = [n[0] for n in X]
print x
y = [n[1] for n in X]
print y

#绘制散点图 参数：x横轴 y纵轴 c=y_pred聚类预测结果 marker类型 o表示圆点 *表示星型 x表示点
plt.scatter(x, y, c=y_pred, marker='x')

#绘制标题
plt.title("Kmeans-Basketball Data")

#绘制x轴和y轴坐标
plt.xlabel("assists_per_minute")
plt.ylabel("points_per_minute")

#设置右上角图例
plt.legend(["A","B","C"])

#显示图形
plt.show()

注意：后面会介绍如何读取数据进行聚类的。
聚类核心代码：
  from sklearn.cluster import KMeans
  clf = KMeans(n_clusters=3)
y_pred = clf.fit_predict(X)

绘图核心代码：
  import matplotlib.pyplot as plt
plt.scatter(x, y, c=y_pred, marker='x')
plt.title("Kmeans-Basketball Data")
plt.xlabel("assists_per_minute")
plt.ylabel("points_per_minute")
plt.show()

3. 运行结果

运行结果如下所示：

#数据集
[[0.0888, 0.5885], [0.1399, 0.8291], [0.0747, 0.4974], [0.0983, 0.5772], [0.1276, 0.5703], [0.1671, 0.5835], [0.1906, 0.5276], [0.1061, 0.5523], [0.2446, 0.4007], [0.167, 0.477], [0.2485, 0.4313], [0.1227, 0.4909], [0.124, 0.5668], [0.1461, 0.5113], [0.2315, 0.3788], [0.0494, 0.559], [0.1107, 0.4799], [0.2521, 0.5735], [0.1007, 0.6318], [0.1067, 0.4326], [0.1956, 0.428]]

#KMeans函数
KMeans(copy_x=True, init='k-means++', max_iter=300, n_clusters=3, n_init=10,
    n_jobs=1, precompute_distances='auto', random_state=None, tol=0.0001,
    verbose=0)

#y_pred 预测的聚类类标结果
[0 2 0 0 0 0 0 0 1 1 1 0 0 0 1 0 0 0 0 1 1]

#获取x、y坐标
[0.0888, 0.1399, 0.0747, 0.0983, 0.1276, 0.1671, 0.1906, 0.1061, 0.2446, 0.167, 0.2485, 0.1227, 0.124, 0.1461, 0.2315, 0.0494, 0.1107, 0.2521, 0.1007, 0.1067, 0.1956]
[0.5885, 0.8291, 0.4974, 0.5772, 0.5703, 0.5835, 0.5276, 0.5523, 0.4007, 0.477, 0.4313, 0.4909, 0.5668, 0.5113, 0.3788, 0.559, 0.4799, 0.5735, 0.6318, 0.4326, 0.428]

输出图形如下所示：

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第8张图片

如果设置marker='o'，输出圆形，可以看到红色点很高，他得分和助攻都比较高，相当于篮球里面的"乔丹"，然后中间一部分，右下角一部分助攻很高、得分低，可能是控卫。当然数据集越多，聚类的效果越好。

【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍_第9张图片

常见问题：
1、安装Anaconda不能使用中文路径，以及电脑名称为中文；
2、Spyder如何显示中文，而不是"口口口"乱码，需要改Fonts；
3、Matplotlib如何显示颜色，定义样式等；
4、如何读取数据，赋值给变量，在让其显示。

希望这篇文章对你有所帮助，主要是介绍一个基于Python的Kmeans聚类案例，后面会陆续详细介绍各种知识。非常想上好这门课，因为是我的专业方向，另外学生们真的好棒，好认真，用手机录像、问问题、配环境等等，只要有用心的学生，我定不负你！同时，这节课的思路好点了，摸着石头过马路，需要慢慢学吧，但还是挺享受的，毕竟9800，哈哈哈！
(By:Eastmount 2016-10-10 晚上10点 http://blog.csdn.net/eastmount/ )

最后提供篮球的完整数据集：

@relation basketball
@attribute assists_per_minuteReal real [0.0494, 0.3437]
@attribute heightInteger integer [160, 203]
@attribute time_playedReal real [10.08, 40.71]
@attribute ageInteger integer [22, 37]
@attribute points_per_minuteReal real [0.1593, 0.8291]
@inputs assists_per_minuteReal, heightInteger, time_playedReal, ageInteger, points_per_minuteReal
@data
0.0888, 201, 36.02, 28, 0.5885
0.1399, 198, 39.32, 30, 0.8291
0.0747, 198, 38.8, 26, 0.4974
0.0983, 191, 40.71, 30, 0.5772
0.1276, 196, 38.4, 28, 0.5703
0.1671, 201, 34.1, 31, 0.5835
0.1906, 193, 36.2, 30, 0.5276
0.1061, 191, 36.75, 27, 0.5523
0.2446, 185, 38.43, 29, 0.4007
0.167, 203, 33.54, 24, 0.477
0.2485, 188, 35.01, 27, 0.4313
0.1227, 198, 36.67, 29, 0.4909
0.124, 185, 33.88, 24, 0.5668
0.1461, 191, 35.59, 30, 0.5113
0.2315, 191, 38.01, 28, 0.3788
0.0494, 193, 32.38, 32, 0.559
0.1107, 196, 35.22, 25, 0.4799
0.2521, 183, 31.73, 29, 0.5735
0.1007, 193, 28.81, 34, 0.6318
0.1067, 196, 35.6, 23, 0.4326
0.1956, 188, 35.28, 32, 0.428
0.1828, 191, 29.54, 28, 0.4401
0.1627, 196, 31.35, 28, 0.5581
0.1403, 198, 33.5, 23, 0.4866
0.1563, 193, 34.56, 32, 0.5267
0.2681, 183, 39.53, 27, 0.5439
0.1236, 196, 26.7, 34, 0.4419
0.13, 188, 30.77, 26, 0.3998
0.0896, 198, 25.67, 30, 0.4325
0.2071, 178, 36.22, 30, 0.4086
0.2244, 185, 36.55, 23, 0.4624
0.3437, 185, 34.91, 31, 0.4325
0.1058, 191, 28.35, 28, 0.4903
0.2326, 185, 33.53, 27, 0.4802
0.1577, 193, 31.07, 25, 0.4345
0.2327, 185, 36.52, 32, 0.4819
0.1256, 196, 27.87, 29, 0.6244
0.107, 198, 24.31, 34, 0.3991
0.1343, 193, 31.26, 28, 0.4414
0.0586, 196, 22.18, 23, 0.4013
0.2383, 185, 35.25, 26, 0.3801
0.1006, 198, 22.87, 30, 0.3498
0.2164, 193, 24.49, 32, 0.3185
0.1485, 198, 23.57, 27, 0.3097
0.227, 191, 31.72, 27, 0.4319
0.1649, 188, 27.9, 25, 0.3799
0.1188, 191, 22.74, 24, 0.4091
0.194, 193, 20.62, 27, 0.3588
0.2495, 185, 30.46, 25, 0.4727
0.2378, 185, 32.38, 27, 0.3212
0.1592, 191, 25.75, 31, 0.3418
0.2069, 170, 33.84, 30, 0.4285
0.2084, 185, 27.83, 25, 0.3917
0.0877, 193, 21.67, 26, 0.5769
0.101, 193, 21.79, 24, 0.4773
0.0942, 201, 20.17, 26, 0.4512
0.055, 193, 29.07, 31, 0.3096
0.1071, 196, 24.28, 24, 0.3089
0.0728, 193, 19.24, 27, 0.4573
0.2771, 180, 27.07, 28, 0.3214
0.0528, 196, 18.95, 22, 0.5437
0.213, 188, 21.59, 30, 0.4121
0.1356, 193, 13.27, 31, 0.2185
0.1043, 196, 16.3, 23, 0.3313
0.113, 191, 23.01, 25, 0.3302
0.1477, 196, 20.31, 31, 0.4677
0.1317, 188, 17.46, 33, 0.2406
0.2187, 191, 21.95, 28, 0.3007
0.2127, 188, 14.57, 37, 0.2471
0.2547, 160, 34.55, 28, 0.2894
0.1591, 191, 22.0, 24, 0.3682
0.0898, 196, 13.37, 34, 0.389
0.2146, 188, 20.51, 24, 0.512
0.1871, 183, 19.78, 28, 0.4449
0.1528, 191, 16.36, 33, 0.4035
0.156, 191, 16.03, 23, 0.2683
0.2348, 188, 24.27, 26, 0.2719
0.1623, 180, 18.49, 28, 0.3408
0.1239, 180, 17.76, 26, 0.4393
0.2178, 185, 13.31, 25, 0.3004
0.1608, 185, 17.41, 26, 0.3503
0.0805, 193, 13.67, 25, 0.4388
0.1776, 193, 17.46, 27, 0.2578
0.1668, 185, 14.38, 35, 0.2989
0.1072, 188, 12.12, 31, 0.4455
0.1821, 185, 12.63, 25, 0.3087
0.188, 180, 12.24, 30, 0.3678
0.1167, 196, 12.0, 24, 0.3667
0.2617, 185, 24.46, 27, 0.3189
0.1994, 188, 20.06, 27, 0.4187
0.1706, 170, 17.0, 25, 0.5059
0.1554, 183, 11.58, 24, 0.3195
0.2282, 185, 10.08, 24, 0.2381
0.1778, 185, 18.56, 23, 0.2802
0.1863, 185, 11.81, 23, 0.381
0.1014, 193, 13.81, 32, 0.1593

写一个新的Python微信机器人程序员
前言之前写的Python微信机器人系列，看数据倒是有一些人关注，交流群也有两百多人，但是真正使用的没几个，而会去看文章学习原理的没有一个。Python其实并不适合做hook，注入Python去实现hook和主动调用甚至都不如frida，因为注入特征太明显，Python会将所有的dll都会加载到目标进程，而frida只会加载一个dll到目标进程。当然，注入Python在实现和写代码上是比frida要
《Python实战进阶》第38集：机器学习模型优化与调参——Grid Search 与 Hyperopt 带娃的IT创业者 Python实战进阶 python 机器学习开发语言
第38集：机器学习模型优化与调参——GridSearch与Hyperopt摘要在机器学习项目中，超参数的设置对模型性能至关重要。本集聚焦于如何通过网格搜索（GridSearch）和Hyperopt这两种超参数优化方法，提升模型的性能。我们将从理论入手，介绍超参数搜索的核心概念，并通过两个对比实战案例展示如何使用这两种方法优化支持向量机（SVM）和XGBoost模型。最后，我们还将探讨自动化调参工具
《Python实战进阶》第39集：模型部署——TensorFlow Serving 与 ONNX 带娃的IT创业者 Python实战进阶 python tensorflow neo4j
第39集：模型部署——TensorFlowServing与ONNX摘要在机器学习项目中，训练好的模型需要被部署到生产环境中才能发挥实际价值。本集聚焦于如何将模型高效地部署到生产环境，涵盖TensorFlowServing和ONNX两种主流工具的使用方法。我们将从理论入手，介绍模型部署的核心概念，并通过实战案例展示如何使用TensorFlowServing部署图像分类模型，以及如何利用ONNX实现跨
YOLOv8--绘制中文标签耗时优化你的陈某某跑通YOLOv8 YOLO YOLOv8 中文标签绘制
设备：RTX4080运行环境：Python=3.8（要求>=3.8），torch1.12.0+cu113（要求>=1.8）问题：ultralytics代码绘制中文标签乱码，以及其他网上中文绘制推理脚本进行中文可视化时，绘制时间较长（甚至远大于推理时间），尤其目标数量100+时，可视化时间可能上百毫秒，对要求实时推理需求很不友好。本文方法：CPU/GPU上中文绘制耗时几乎忽略不计，接口代码可以集成到
labelimg 打框就闪退 TypeError: setValue(self, int): argument 1 has unexpected type ‘float‘ Jackyyy1go python 数学建模
问题详情：解决办法：1.将canvas.py文件526、530、531行的float改为int。2.在报错文件labelImg.py第965行将float改为int。具体办法：一、更改canvas.py文件文件地址：x:\xxxxx\python-310\Lib\site-packages\libs\canvas.py第526行p.drawRect(left_top.x(),left_top.y(
python的基本数据类型心愿王 python 开发语言
一.数值类型数值类型主要包括整数、浮点数和复数1.整数（int）整数类型用于表示没有小数部分的数值x=10y=-5z=0特点：可以是正数、负数或零在Python3中，整数不受大小限制，仅受内存限制2.浮点数（float）浮点数类型用于表示带小数部分的数值a=3.14b=-2.718c=0.0特点：表示实数，可以包括小数部分使用64位双精度表示3.复数（complex）复数类型用于表示复数，包含实部
思维链在环境污染源追踪中的新角色 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 ai
《思维链在环境污染源追踪中的新角色》关键词：环境污染源追踪，思维链，人工智能，数据挖掘，环境监测摘要：随着全球环境污染问题的日益严峻，如何有效地追踪环境污染源已成为当前环保领域的重要任务。本文将探讨思维链这一新兴技术手段在环境污染源追踪中的应用，分析其理论基础、组成结构、核心概念及其在实际操作中的应用。通过对环境污染源追踪问题的背景介绍、核心概念与联系的分析、算法原理的讲解以及系统分析与架构设计的
《Python Web部署应知应会》No2：如何基于FastAPI 和 OLLAMA 架构实现高并发 AI 推理服务带娃的IT创业者 Python Web部署应知应会 python fastapi 架构 flask
《PythonWeb部署应知应会》No2：如何基于FastAPI和OLLAMA架构实现高并发AI推理服务（上）摘要：在FastAPI和OLLAMA架构中实现高并发AI推理服务，并优化性能指标采集和缓存策略，可以充分利用asyncio的异步I/O操作来提升吞吐量和响应速度。以下是一个详细的解决方案，分为基础实现架构概述、实现步骤、性能指标采集、结合FastAPI和OLLAMA、优化方案详细实现（批量
关于matlab和python谁快的问题小蜗笔记 matlab学习笔记 matlab python 算法
关于matlab和python谁快的问题，python比matlab在乘法上快10倍，指数计算快4倍，加减运算持平，略慢于matlab。或许matlab只适合求解特征值。importtorchimporttimen=50000#矩阵规模M=torch.rand(n,31)start_time=time.time()F_M=torch.exp(M)#将矩阵M映射到其指数值end_time=time.
python 桌面程序开发一醉千秋 WebGL 3D python+银河麒麟 python 开发语言
作为python新手，通过编写代码，与java、nodejs相比较，差别还有的。环境配置：IDE：VisualStudioCodePyInstaller:5.13.2Python:3.7.0Platform:Windows-10-10.0.22621-SP0功能描述：编写带UI界面的桌面程序，读取终端设备历史轨迹数据，采用多线程高并发，模拟终端设备实时定位发送，检测服务端程序的性能。1.线程写锁l
PYTHON 桌面开发 iteye_9973 杂七杂八 Python WinForm wxPython Delphi Eclipse
充分体验到知识循环再用的好处，原本对Python、wxWidgets没有接触的，天黑天亮之间，已经作了一个半成品的桌面程序出来。1.选型通常选型之后，都会迫切的告诉别人自认为正确的原因，这时候路过的人就比较不幸了。我选Python和wxWidgets，是因为.......因为是发布到网上的小程序，要它很小，Java和.Net这两个还算当红但要装虚拟机的笨家伙最先out了，而Python在py2ex
pywebview中文文档穿透云 python
pywebview是一个轻量级的BSD许可证下的跨平台webview组件。它允许在自身原生GUI窗口中显示HTML内容。它让您可以在桌面应用程序中使用WEB技术，同时隐藏GUI依赖浏览器的事实。pywebview集成了内置HTTP服务器、Python中的DOM支持以及窗口管理功能。pywebview中文文档安装pipinstallpywebview根据您所使用的平台，可能需要安装其他库。请参阅安装
告别传统GUI：用FastAPI + PyWebView + 现代前端技术打造Python应用界面 Ktovoz python fastapi 前端 python
告别传统GUI：用FastAPI+PyWebView+现代前端技术打造Python应用界面引言在Python应用程序开发中，GUI（图形用户界面）的实现一直是一个痛点。传统的GUI库如PySide6、Tkinter、wxPython等虽然功能强大，但开发复杂、样式定制困难，且难以适应现代前端技术的快速发展。此外，像Kivy这样的库虽然支持跨平台和丰富的交互效果，但其学习曲线较陡，且对现代Web技术
LeetCode Hot100 刷题路线（Python版）熬夜造bug LeetCode Hot100刷题笔记 leetcode 算法职场和发展
目录1.LeetCodeHot100刷题笔记（1）——哈希、双指针、滑动窗口2.LeetCodeHot100刷题笔记（2）——子串、普通数组、矩阵3.LeetCodeHot100刷题笔记（3）——链表4.LeetCodeHot100刷题笔记（4）——二叉树、图论-CSDN博客5.LeetCodeHot100刷题笔记（5）——回溯-CSDN博客6.LeetCodeHot100刷题笔记（6）——栈、堆
Python自动化办公：开启高效工作新时代 CodeJourney. 人工智能 python excel
一、引言在当今数字化时代，办公效率的提升对于个人和企业的发展至关重要。传统的手动办公方式不仅耗时费力，还容易出现人为错误。Python作为一种功能强大、简单易学的编程语言，正逐渐成为实现自动化办公的得力工具。它拥有丰富的库和模块，能够轻松处理各种办公任务，如数据处理、文档编辑、报表生成等，让繁琐的办公流程变得高效、精准。本文将深入探讨Python自动化办公的应用场景、实用技巧以及实战案例，帮助读者
python之selenium中的窗口切换满满呀 selenium 测试工具
前提：触发一个事件打开一个新的窗口1，先获取所有的句柄：handles=driver.window+handlers2，获取当前窗口cururl=driver.current_url3，循环遍历所有句柄forhandleinhandles:driver.switch_to.window(handle)ifcururl=='目标窗口'break方式二：1，获取当前句柄driver.current_w
Python,Selenium京东扫码登录保存cookie并爬取完整实例吃数据的崽 python selenium 开发语言
Python,Selenium京东扫码登录cookie完整实例前言1.安装下载对应版本的selenium.最新chrome驱动网址（先查看本机浏览器版本号，再下载对应的驱动版本）https://googlechromelabs.github.io/chrome-for-testing/#最新的edge驱动网址（先查看本机浏览器版本号，再下载对应的驱动版本）https://developer.mic
Selenium库详解：Python实现模拟登录与反爬限制的进阶指南小白学大数据 python selenium python 测试工具
一、Selenium库简介Selenium是一个开源的自动化测试框架，广泛应用于Web自动化测试和爬虫开发。它支持多种编程语言（如Python、Java、C#等）和主流浏览器（如Chrome、Firefox、Safari等）。通过Selenium，开发者可以模拟用户的各种操作，例如点击按钮、填写表单、滚动页面等，从而实现对网页的自动化控制。在爬虫开发中，Selenium特别适合处理动态加载的内容（
conda create --prefix 命令安装虚拟环境到指定路径报错 Javy Wang Python conda python 虚拟环境路径
安装conda虚拟环境到指定路径时，很多教程介绍如下命令condacreate--prefix=/usr/local/py36python=3.6但是我在两台不同的ubuntu服务器上使用上述命令却出现了不同的结果，一台成功安装，另一台报错。最后试了很多次，发现使用condacreate--p命令成功了，如下所示百思不得解就去看了一些官方文档，发现正确的命令是condacreate-p，p就表示p
MATLAB之数据分析图系列：从二维到三维（直接套用）技术干货贩卖机科研攻坚栈：技术论文写作从 0 到 1 全栈实战指南 matlab 数据分析算法
MATLAB以其强大的矩阵运算和可视化功能，成为科研、工程领域的标配工具。本文提供从基础二维图形到复杂三维模型的即用代码块，涵盖数据标注、多图排版、动态演示等核心技巧所有代码均经过MATLAB2023a实测，替换数据即可生成专业级图表。”一、二维图形1.带误差带的折线图%数据准备 x= 1:10; y=rand(1,10)*5; err= 0.2 +rand(1,10)*0.5; %绘制误差折线图
基于Selenium的IEEE Xplore论文数据爬取实战指南帅小柏声音的未来：语音识别文献解读 selenium 测试工具深度学习语音识别人工智能
基于Selenium的IEEEXplore论文数据爬取实战指南一、项目背景与目标IEEEXplore作为全球知名的学术资源平台，收录了大量高质量科技文献。本教程将演示如何通过Python的Selenium库实现：自动化获取指定领域论文列表（以"构音障碍"为例）完整提取论文标题、摘要、收录日期等核心信息智能处理分页和动态加载内容结构化存储至CSV文件完整项目代码已托管至GitHub仓库，链接在文章末
ERP、MES和CRM三大企业系统的详细介绍及对比分析 jakeswang coreJava java ERP
以下是关于ERP、MES和CRM三大企业系统的详细介绍及对比分析：1.ERP（企业资源计划，EnterpriseResourcePlanning）核心功能：集成管理：财务、采购、库存、生产、人力资源等核心业务流程资源优化：实现企业人、财、物等资源的统一规划和调度数据分析：提供跨部门报表和决策支持典型模块：财务管理（总账、应收应付）供应链管理（SCM）生产计划（MRP）人力资源管理（HRM）优势：打
Python只读取Excel文件的一部分数据，比如特定范围的行和列？自不量力的A同学 python excel 开发语言
如何只读取Excel文件的一部分数据，比如特定范围的行和列？在Python中，如果你只想读取Excel文件的特定范围，可以使用以下方法：pandas:Pandas是一个强大的数据处理库，它有一个内置函数read_excel()用于读取Excel文件。你可以通过指定sheet_name参数选择特定的工作表，并通过iloc或loc（基于行和列标签）来选择特定的行和列。例如：Pythonimportpa
python---linux系统CPU、内存、磁盘监控，钉钉告警大眼、不聚光 python python linux 钉钉
使用以下公式生成签名：importtimeimporthmacimporthashlibimportbase64timestamp=str(int(time.time()*1000))secret='你的加签密钥'string_to_sign=timestamp+"\n"+secrethmac_code=hmac.new(secret.encode('utf-8'),string_to_sign.
毕设成品基于机器学习的乳腺癌数据分析 m0_71572237 毕业设计 python 毕设
文章目录0简介模型评估KNNClassifierLogisticRegressionClassifierRandomForestClassifierDecisionTreeClassifierGBDT(GradientBoostingDecisionTree)ClassifierAdaBoostBaggingSVM最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于机器学习的乳腺癌数据分析项目
【数据可视化应用】绘制类别插值地图（附Python代码）文宇肃然可视化工具数据分析实战应用 python 机器学习 sklearn
sklearn.KNeighborsClassifier()终于这篇推文将机器学习和可视化完美的结合起来，即：机器学习处理数据，数据可视化技术展现、美化数据（以后的深度学习部分也会延续这个风格，只不过比重不同而已）。首先，我们给出我们今天的数据：散点数据和四川省的地图文件，python读取操作如下：import pandas as pdimport numpy as npfrom sklearn.
Python二维列表的使用 sunshine8426 python
1.直接定义二维列表verse=[['千','山','鸟','飞','绝'],['万','径','人','踪','灭'],['孤','舟','蓑','笠','翁'],['独','钓','寒','江','雪']]print(verse)print(verse[0][0])#表示二维列表的第一行，第一列元素。print(verse[1][0])#表示二维列表的第二行，第一列元素。print(verse
python中的pickle *Major*
python中的picklepython中的picklepython中的picklepickle模块是对Python对象结构进行二进制序列化和反序列化的协议实现.pickle可以把字典、列表等结构化数据存到本地文件，读取后返回的还是字典、列表等结构化数据importpicklea={'name':'Major','age':22}withopen('text.txt','wb')asfile:pi
python和c中作用域的差异 m0_55576290 python c++python c语言开发语言
好的，我将详细列举Python和C语言在作用域规则上的主要差异，并为每种差异提供具体的代码示例，以便更清晰地理解它们之间的不同。1.块级作用域（BlockScope）C语言在C语言中，任何用{}包裹的代码块（如if语句、for循环等）都会创建一个新的作用域。示例#includeintmain(){intx=10;//局部变量，作用域为整个main函数if(x>5){inty=20;//局部变量，作
探索全球大都市：世界城市数据集裴辰垚Simone
探索全球大都市：世界城市数据集去发现同类优质开源项目:https://gitcode.com/该项目提供了一个全面的全球主要城市数据库，源自权威的地理信息资源——GeoNames。这个开源的数据包专为那些寻求全球城市信息的开发者、研究人员和数据分析爱好者而设计。项目介绍这个数据集包含了人口超过15,000的城市，每条记录都附有国家和次级行政区域（如美国的州或法国的地区）信息，以减少名称歧义。对于像
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置