十三先生po

python机器学习之分类预测

逻辑回归
- 水位判断案例引入逻辑回归计算原理
- 逻辑回归
- 单次项逻辑回归代码示例
- 二阶项及以上项式的边界函数计算和绘制
- - 二阶多项式逻辑回归案例
  - - 尝试用一阶函数画出边界
    - 二阶项逻辑回归
K近邻分类模型(K-nearest neighbors)
- K近邻分类模型算法步骤
决策树
- 决策树原理
- 核心问题：树结构的每个分支先看哪个特征指标？
- - ID3算法
- 实战：决策树判断员工是否适合相关工作
- - 修改leaf参数查看效果，改最小50个样本
朴素贝叶斯
- 条件概率
- 全概率
- 贝叶斯
- - 贝叶斯公式
- 贝叶斯用于机器训练
- - 朴素贝叶斯公式
- 总结
- 实战：朴素贝叶斯预测学生录取及奖学金情况
K-means聚类分析
- 核心流程
- K均值聚类 (KMeans) VS K近邻分类 (KNN)
- 实战1：普通数值类数据分类
- - knn建模部分
  - 逐步迭代查看KMeans模型训练效果
- 实战2：K均值聚类实现图像分割
- - 修改分类数（4）
未完待续……

逻辑回归

计算机自动寻找垃圾信息共同特征

在新信息中检测是否包含垃圾信息特征内容，
判断其是否为垃圾邮件

部分特征：发件人、是否群发、网址、元、赢、微信、免费

根据数据类别与部分特征信息，自动寻找类别与特征信息的关系，
判断一个新的样本属于哪种类别

特征信息以列为单位，行是不同人的信息，输出数据类别（如0是正常，1是垃圾），然后去寻找关系

通过股价预测任务区分回归任务与分类任务

分类：非连续性判断类别
模型输出：非连续型标签
（明天股价预测为：上涨)

回归：连续性数值预测
模型输出：连续型数值
(明天股价预测为：125.1）

水位判断案例引入逻辑回归计算原理

任务：根据水位，判断水池是否需要蓄水或放水

特征信息：水位数据
数据类别：待蓄水（0）、放水（1）

先尝试用线性回归判断（复杂场景就不适用了）

求得一元线性回归直线方程


但如果数据样本复杂度增加，模型准确率下降明显

例如增加了一个x=50后，y的直线方程输出了异常的数据，如x=1时，方程判断结果=0

逻辑回归

根据数据特征，计算样本归属于某一类别的概率P(x)，根据概率数值判断其所属类别

Y(x)界线明显，分类效果好！

逻辑回归处理更复杂的分类任务1

需要画分界线，将p（x）中的x变成了函数g（x），如果g（x）>0 ，则输出方形；如果g（x）<0，则输出三角形

逻辑回归处理更复杂的分类任务2

g（x）大于0，小于0，等于0分别对应值在圆圈外，圆圈内，圆圈上

通过以上两个复杂任务的探索，可以知道：
逻辑回归结合多项式边界函数可解决复杂的分类问题
模型求解的核心，在于寻找到合适的多项式边界函数

因此求解边界函数变成了主要的问题
求解边界函数（可以理解为找到回归方程，但输出的未必是一条直线，而是分界线），需要用到损失函数J来判断预测值和实际值的偏差程度：

求损失函数J（判断预测值和实际值的偏差程度），由原来计算一元线性回归时计算预测yi值与实际y值差的平方和变成了如下图的公式，此时yi就是实际要判断出来值（不是机器预测的值），而-log（p(x)）、-log（1-p(x)）就是对p（x）这个预测值计算出损失函数J

P（x）就是刚刚的逻辑函数，公式为：

输出的是偏向0或1的值

损失函数J计算值的解释

如果y=1，而p（x）=1，则计算出的J=0

如果y=1，而p（x）=0（说明预测错了），则计算出的J会很大，即损失值很大

同理，对于要测出的实际值是0，如果y=0，而p（x）=1，则计算出的J=0，是符合的


如果y=0，而p（x）=1（说明预测错了），则计算出的J会很大，即损失值很大，也是符合我们的预期判断的

损失函数有关计算汇总

损失函数的两个公式可以整合成一个，也是合理的，当yi=0时，yi*log（p（x））就会=0，而恰好log（1-P（x））就可以输出值；当yi=0时，同理可得，也能得到相应的值

而g（x）中各个θ需要通过梯度下降法进行求解，令θ=tempθ，重新代入计算，直到收敛

单次项逻辑回归代码示例

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression # 逻辑回归

# 数据读取
data = pd.read_csv(r'task1_data.csv')
data.head()

# 可视化数据
fig1 = plt.figure()
plt.scatter(data.loc[:,'尺寸1'],data.loc[:,'尺寸2'])
plt.title('size1-size2')
plt.xlabel('size1')
plt.ylabel('size2')
plt.show()

# 建立一个用于筛选类别的变量
mask = data.loc[:,'y'] ==1 
print(mask)

# 重新数据可视化，利用布尔筛选显示的数值
ok = plt.scatter(data.loc[:,'尺寸1'][mask],data.loc[:,'尺寸2'][mask])
ng = plt.scatter(data.loc[:,'尺寸1'][~mask],data.loc[:,'尺寸2'][~mask])
plt.title('size1-size2')
plt.xlabel('size1')
plt.ylabel('size2')
plt.legend((ok,ng),('ok','ng'))
plt.show()

# x,y赋值
x = data.drop(['y'],axis=1)
y = data.loc[:,'y']
x.head()

# 创建模型
model = LogisticRegression()
print(model)

# 模型训练
model.fit(x,y)

# 预测值
y_predict = model.predict(x)
print(y_predict)

# 预测值
y_test = model.predict([[1,10]])
print('ok' if y_test == 1 else 'ng')

二阶项及以上项式的边界函数计算和绘制

如果想输出这样的边界函数

需要用到的g(x)函数就会变成如下图的二阶边界函数


而二阶函数其实也是一个二次函数（抛物线方程），数值方面可以进行变成，变成如下图的：

二阶多项式逻辑回归案例

就是有更多的θ，画的边界曲线也更加复杂，如

尝试用一阶函数画出边界

	边界函数：  0+11+22=0 

	二阶边界函数： 0+11+22+321+422+512=0

#数据加载
import pandas as pd
import numpy as np
data = pd.read_csv('task2_data.csv')
data.head()

#数据可视化
from matplotlib import pyplot as plt
fig1= plt.figure()
plt.scatter(data.loc[:,'pay1'],data.loc[:,'pay2'])
plt.title('pay1_pay2')
plt.xlabel('pay1')
plt.ylabel('pay2')
plt.show()

#创建mask
mask= data.loc[:,'y']==1
print(mask)

fig1= plt.figure()
abnormal = plt.scatter(data.loc[:,'pay1'][mask],data.loc[:,'pay2'][mask])
normal = plt.scatter(data.loc[:,'pay1'][~mask],data.loc[:,'pay2'][~mask])

plt.title('pay1_pay2')
plt.xlabel('pay1')
plt.ylabel('pay2')
plt.legend((abnormal,normal),('abnormal','normal'))
plt.show()

#X y赋值
X = data.drop(['y'],axis=1)
y = data.loc[:,'y']
X.head()
y.head()
print(X.shape,y.shape)

#建立线性边界分类模型
from sklearn.linear_model import LogisticRegression
LR1 = LogisticRegression()
LR1.fit(X,y)

#模型预测
y_predict = LR1.predict(X)
print(y_predict)
print(y)

#准确率计算
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y,y_predict)
print(accuracy)

准确率挺高的，但是我们来看一下实际画出的线

#边界函数参数获取
theta0 = LR1.intercept_
theta1,theta2 = LR1.coef_[0][0],LR1.coef_[0][1]
print(theta0,theta1,theta2)

X1 = data.loc[:,'pay1']
print(X1)

X2_new = -(theta0+theta1*X1)/theta2
print(X2_new)

fig2= plt.figure()
abnormal = plt.scatter(data.loc[:,'pay1'][mask],data.loc[:,'pay2'][mask])
normal = plt.scatter(data.loc[:,'pay1'][~mask],data.loc[:,'pay2'][~mask])
plt.plot(X1,X2_new)
plt.title('pay1_pay2')
plt.xlabel('pay1')
plt.ylabel('pay2')
plt.legend((abnormal,normal),('abnormal','normal'))
plt.show()

其实并没有很好的输出分类情况，这个时候就要用二阶的边界函数进行计算绘制

二阶项逻辑回归

# 对x2进行赋值
X2 = data.loc[:,'pay2']
X2

# 生成二次项
X1_2 = X1*X1
X2_2 = X2*X2
X1_X2 = X1*X2
print(X1_2.shape,X2_2.shape,X1_X2.shape)
# 检查
print(X1[0],X2[0],X1_2[0],X2_2[0],X1_X2[0])

# 创建二次分类边界数据
X_new = {'X1':X1,'X2':X2,'X1_2':X1_2,'X2_2':X2_2,'X1_X2':X1_X2}
X_new = pd.DataFrame(X_new)
X_new

# 建立新模型
LR2 = LogisticRegression()
LR2.fit(X_new,y)

# 模型预测
y2_predict = LR2.predict(X_new)
print(y2_predict)

# 准确率
accuracy2 = accuracy_score(y,y2_predict)
print(accuracy2)

# 二阶的效果明细要比一阶的好

#边界函数参数获取
theta0 = LR2.intercept_
theta1,theta2,theta3,theta4,theta5 = LR2.coef_[0][0],LR2.coef_[0][1],LR2.coef_[0][2],LR2.coef_[0][3],LR2.coef_[0][4]
print(theta0,theta1,theta2,theta3,theta4,theta5)

# x1需要排序，否则画图比较乱
X1_new = X1.sort_values()
X1_new

a = theta4
b = theta5*X1_new + theta2
c = theta0+theta1*X1_new+theta3*X1_new*X1_new
x2_new_2 = (-b+np.sqrt(b*b-4*a*c))/(2*a)
print(x2_new_2)

fig2= plt.figure()
abnormal = plt.scatter(data.loc[:,'pay1'][mask],data.loc[:,'pay2'][mask])
normal = plt.scatter(data.loc[:,'pay1'][~mask],data.loc[:,'pay2'][~mask])
plt.plot(X1_new,x2_new_2)
plt.title('pay1_pay2')
plt.xlabel('pay1')
plt.ylabel('pay2')
plt.legend((abnormal,normal),('abnormal','normal'))
plt.show()

预测值需要这么多数值是因为函数问题，需要的参数有5个

# 预测
x_test = np.array([[80,20,80*80,20*20,80*20]])

# 第二个模型预测
y_predict = LR2.predict(x_test)
print(y_predict)

K近邻分类模型(K-nearest neighbors)

物以类聚，人以群分

通过计算新数据与训练数据之间的距离，然后选取K（K>=1个距离最近的邻居进行分类判断（K个邻居），这K个邻居的多数属于某个类，就把该新数据实例分类到这个类中。（看看我周围的伙伴是什么类型的）

案例

K=3，绿色圆点(50,50)的最近的3个邻居是2个红色小三角形(60,50)、(50,60)和1个蓝色小正方形(40,40)，判定其属于红色的三角形一类。

K=5，绿色圆点的最近的5个邻居是2个红色三角形(60,50)、K=5(50,60)和3个蓝色的正方形(40,40)、(40,80)、(30,60)，判定其属于蓝色的正方形一类。

K值是认为给的

我和谁一队？看看你周围哪个队的人多！

K近邻分类模型算法步骤

输入:训练数据集D={(x1. Y1)。。。(xm,ym)}
xi为数据的特征向量，yi代表数据所属类别;对于新样本数据Xtest：
(1)计算训练数据集每个样本x;与新的样本数据xtest的距离di-test;
(2）将计算出的距离按照升序排列，并取出前K个距离最小的样本;
(3）统计这K个样本的标签值y，并找出出现频率最高的标签;
(4）新的样本数据xtest的标签值ytest即为该频率最高的标签值。

计算距离的方法

欧氏距离：两点之间的直线距离，KNN计算中应用最多的距离。

曼哈顿距离：两个点在标准坐标系上的绝对轴距总和

K值越小，分类边界越曲折，抗干扰性更弱（噪声数据影响结果明显）
k=1时，分界会很明显，可能会对结果造成影响，虽然很精确

决策树

案例
根据求职者的相应技能、工作经验、学历背景和薪资要求判断能否安排该求职者面试。

逻辑回归的做法，把他们变成参数代入进行并使用激励函数simgod分类

决策树则是问不同的问题，一步一步走下去

问：求职者是否有本岗位相应的专业技能？
答：有
问：求职者是否有本岗位相关的工作经验？
答：有
问：求职者是否符合学历要求？
答：符合
问：公司给出的待遇是否达到求职者薪资要求？
答：达到

结论：该求职者可以安排面试

决策树原理

一种基于样本分布概率，以树形结构的方式，实现多层判断从而确定目标所属类别

根据数据集D的分布，生成树形结构，实现最终类别判断

核心问题：树结构的每个分支先看哪个特征指标？

有这么多列，该先从哪一列开始看起呢？

三种求解方法：
ID3、C4.5、CART

参考资料：
1、https://blog.csdn.net/dfly_zx/article/details/107797695
2、https://blog.csdn.net/dfly_zx/article/details/107797864

ID3算法

ID3是利用信息熵原理选择信息增益最大的属性作为分类属性，依次确定决策树的分枝，完成决策树的构造

信息熵（entropy）是度量随机变量不确定性的指标，熵越大，样本的不确定性就越大。假定当前样本集合D中第k类样本所占的比例为pk，则D的信息熵为

Ent(D)的值越小，样本分布的不确定性越小。其实通过pk也可以看到他的不确定性，当pk=0或者1时（即样本完全确定）Ent(D)=0

根据信息熵，可以计算以属性a进行样本划分带来的信息增益：V为根据属性a划分出的类别数（注意和信息熵中的y区分）、D为当前样本总数，Dv为类别v样本数

目标：划分后样本分布不确定性尽可能小，即划分后信息熵小，信息增益大，例如右边的结点第一次分类出30和70后，70又分出去30和40，反而没有左边分的好

案例

这里有10个样本（k=10），类别有2种（y=2），

y为结果的类别，而不是k有几种，像如下图中

技能这一列得到的结果（y）只有两种：适合和不适合因此计算为

计算出信息熵后计算信息增益

拿第二列——经验做计算演示，注意不要搞混y的比例和D中v的比例（y为总类别的不同，v为各列中不同属性值，可以明显的看到计算时分母有变化）

总的计算结果如图

实战：决策树判断员工是否适合相关工作

导入文件

import pandas as pd
import numpy as np

data = pd.read_csv('task1_data.csv')
data.head()

# x,y赋值
x = data.drop(['y'],axis=1)
y = data.loc[:,'y']

y.head()

检查结构是否正确

print(x.shape,y.shape)

创建决策树模型

# 创建决策树模型
from sklearn import tree

# criterion='entropy':以信息嫡的变化作为建立树结构的标准
# min_samples_leaf=5:建立树结构最小分支的样本数(最少也得有5个样本)


dc_tree = tree.DecisionTreeClassifier(criterion='entropy',min_samples_leaf=5)
dc_tree.fit(x,y)

测试

# 测试
x_test = np.array([[1,0,1,1]])
y_test = dc_tree.predict(x_test)
print('yes' if y_test == 1 else 'no')

预测准确率

# 预测准确率
y_predict = dc_tree.predict(x)
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y,y_predict)
print(accuracy)

可视化决策树结构（图片过大，可以保存下来看）

# 可视化决策树结构

from matplotlib import pyplot as plt

fig = plt.figure(figsize=(200,200))

# filled是否填充颜色，feature_names属性名称，各指标名称；class_name对应结果
tree.plot_tree(dc_tree,filled='True',feature_names=['Skill','Experience','Degree','Income'],class_names=['Un-qualified','Qualified'])

中文化

# 中文化
import matplotlib as mpl
mpl.rcParams['font.family']='SimHei'

fig1 = plt.figure(figsize=(200,200))

# feature_names结构名称，各指标名称；class_name对应结果
tree.plot_tree(dc_tree,filled='True',feature_names=['技能','经验','学历','薪资'],class_names=['不适合','适合'])

模型保存

# 模型保存
fig.savefig('test1.png')

修改leaf参数查看效果，改最小50个样本

修改leaf参数查看效果，改最小50个样本

# 修改leaf参数查看效果，改最小50个样本
dc_tree2 = tree.DecisionTreeClassifier(criterion='entropy',min_samples_leaf=50)
dc_tree2.fit(x,y)

预测准确率

# 预测准确率
y_predict2 = dc_tree2.predict(x)
from sklearn.metrics import accuracy_score
accuracy2 = accuracy_score(y,y_predict2)
print(accuracy2)

可视化决策树结构

# 可视化决策树结构

from matplotlib import pyplot as plt

fig = plt.figure(figsize=(200,200))

# filled是否填充颜色，feature_names属性名称，各指标名称；class_name对应结果
tree.plot_tree(dc_tree2,filled='True',feature_names=['Skill','Experience','Degree','Income'],class_names=['Un-qualified','Qualified'])

中文化

# 中文化
import matplotlib as mpl
mpl.rcParams['font.family']='SimHei'

fig2 = plt.figure(figsize=(200,200))

# feature_names结构名称，各指标名称；class_name对应结果
tree.plot_tree(dc_tree2,filled='True',feature_names=['技能','经验','学历','薪资'],class_names=['不适合','适合'])

模型保存

# 模型保存
fig2.savefig('test2.png')

朴素贝叶斯

分类任务中，逻辑回归模型直接预测的结果是某种情况对应的概率。机器预测出来的就是某个概率

市场交易预测中，操作建议基于股票价格的涨、跌的概率。

参考链接：
https://blog.csdn.net/dfly_zx/article/details/104461097

条件概率

两个白球、两个黑球，从中抽取一个，如果为白球，退还下注并奖励1.1倍，玩家是否应该下注？如果抽取的第一个为白球并且不放回，游戏继续，玩家是否应该下注？

按照题意，解题思路如下，如果是第一种情况，就是拿白球：

长久来看是有收益的，如果是第二种情况，会是负的：

由此我们引申出条件概率：
定文∶事件A已经发生的条件下事件B发生的概率，表示为P(B|A)

刚刚的计算我们引入这个公式，可以得到相同的答案：

全概率

两个箱子中，第一箱装有4个黑球1个白球，第二箱装有3个黑球2个白球，现任取一箱，再从该箱中任取一球，试求：取出的球是白球的概率。
我们引申出全概率的定义：将复杂事件A的概率求解问题，转化为在不同情况下发生的简单事件的概率的求和问题。

变成B1发生的情况下，A发生的概率，随着不同事件Bi的出现，

对于事件Bi来说：

就可以写成是子事件的概率之和

原来的计算方式

也可以变成：事件A为拿到白球，B12分别是拿到第1，2个箱子

练习：有三个盒子甲乙丙，甲装了两个红球，乙装了一红一蓝两个球，丙装了两个蓝球。随机取一个盒子，从该盒子中随机取一个球，计算是红球的概率。如果第一个球确实是红球，求该盒子中另一个球也是红球的概率？

贝叶斯

案例：两个箱子中，第一箱装有4个黑球1个白球，第二箱装有3个黑球2个白球，现任取一箱，再从该箱中任取一球为白球，试求：取出的球是第一个箱子的概率。

案例转化:该箱子为第1个箱子的事件记为事件B1,
去出来为白球的事件记为事件A，相当于计算P（B1|A）

转化一下可以得到：

计算的结果为：

贝叶斯公式

核心：基于事件先验概率，及可能性函数（事件发生的约束条件），得到特定情况下事件发生的概率（后验概率）

案例：猫对你叫，猫喜欢你的概率是多少？
已知：猫喜欢一个人的概率是0.1，它对喜欢的人叫的概率是0.4，它平时叫的概率是0.2

转化一下问题就是，在猫对你叫（A）的情况下，喜欢你（B）的概率，求P（B|A）

再将已知的条件转化一下，计算出结果

贝叶斯用于机器训练

基于训练数据集（X,Y）与贝叶斯概率公式，机器学习从输入到输出的概率分布，计算求出使得后验概率最大的类别作为预测输出。

朴素贝叶斯公式

现实案例的输入特征高于1维，假设特征之间相互独立:

贝叶斯和朴素贝叶斯公式的关系如下两张图（后一张图是自己的理解）

y是输出的结果，如y=0或者y=1

案例

手写计算

总结

概率是反映随机事件出现的可能性大小的量度
条件概率则是给定某事件A的条件下,另一事件B发生的概率。
全概率公式则是利用条件概率,将复杂事件A分割为若干简单事件概率的求和问题。
贝叶斯公式则是利用条件概率和全概率公式计算后验概率。

实战：朴素贝叶斯预测学生录取及奖学金情况

文件读取

data2 = pd.read_csv('task2_data.csv')

data2.head()

x,y赋值

# x,y赋值
x2 = data2.drop(['y'],axis=1)
y2 = data2.loc[:,'y']

data2.groupby('y').size()

y2.head()

查看维度

print(x2.shape,y2.shape)

创建朴素贝叶斯模型

# 创建朴素贝叶斯模型
from sklearn.naive_bayes import CategoricalNB

model = CategoricalNB()
model.fit(x2,y2)

概率预测

# 概率预测
y_predict_prob = model.predict_proba(x2)
print(y_predict_prob)
# 有三种结果，分别对应三种概率，0没有录取，1录取了也奖学金，2录取了有奖学金

类别预测

# 类别预测
y2_predict = model.predict(x2)
print(y2_predict)

预测准确率

# 预测准确率
from sklearn.metrics import accuracy_score
accuracy2 = accuracy_score(y2,y2_predict)
print(accuracy2)

测试数据集预测

# 测试数据集预测
x2_test = np.array([[2,1,1,1,1],
                    [2,1,1,1,0],
                    [2,1,1,0,0],
                    [2,1,0,0,0],
                    [2,0,0,0,0]])
# 预测的概率
y2_test_predict_proba = model.predict_proba(x2_test)
# 预测的结果
y2_test_predict = model.predict(x2_test)
# 不符合项增加，无奖学金录取的概率（第二列）在增加
print(y2_test_predict)

y2_test_predict_proba
# 录取但不获奖（第二列）的概率在不断降低

确认存储的数据：测试样本，预测的概率，预测的结果

# 确认存储的数据：测试样本，预测的概率，预测的结果
x2_test

y2_test_predict_proba

该列需要置换一下，没有列维度

y2_test_predict,y2_test_predict.shape

# y2_test_predict没有列维度，需要reshape重置一下
test_data_result = np.concatenate((x2_test,y2_test_predict_proba,
                                  y2_test_predict.reshape(5,1)),axis=1)

格式转换

# 格式转换
test_data_result2 = pd.DataFrame(test_data_result)
test_data_result2.head()

修改列名

test_data_result2.columns = ['score','school','award',
                             'gender','english','p0','p1','p2','y_test_predict']

test_data_result2.head()

保存文件

test_data_result2.to_csv('test_data_result2.csv')

K-means聚类分析

在样本数据空间中选取K个点作为中心，计算每个样本到各中心的距离，根据距离确定数据类别，是聚类算法中最为基础但也最为重要的算法。

中心点会根据类别内样本数据分布进行更新

核心流程

核心公式
可视化流程

K均值聚类 (KMeans) VS K近邻分类 (KNN)

实战1：普通数值类数据分类

调入库

import pandas as pd
import numpy as np

导入文件

#无结果的数据
data1 = pd.read_csv('task1_data1.csv')
# 有结果的数据
data1_result = pd.read_csv('task1_data2.csv')
data1.head()

获取唯一一个有标签的数据点

# 获取唯一一个有标签的数据点
x_label = data1.iloc[0,:]
x_label

获取用于模型评估的正确结果

# 获取用于模型评估的正确结果
y = data1_result.loc[:,'y']
y.head()

数据可视化

# 数据可视化
from matplotlib import pyplot as plt
import matplotlib as mlp
font2 = {'family':'SimHei','weight':'normal','size':14}
# 创建画布
fig1 = plt.figure()
# 绘制
plt.scatter(data1.loc[:,'x1'],data1.loc[:,'x2'],label='unlabeled')
# 将带有标签的点单独画出
plt.scatter(x_label['x1'],x_label['x2'],label='labeled')

plt.title('原始数据分布',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend(loc='upper left')
plt.show()

和已经带结果的数据对比一下

# 已经带结果的数据可视化

# 创建画布
fig2 = plt.figure()
# 绘制
label0 = plt.scatter(data1_result.loc[:,'x1'][y==0],data1_result.loc[:,'x2'][y==0],label='labeled1')
# 将带有标签的点单独画出
label1 = plt.scatter(data1_result.loc[:,'x1'][y==1],data1_result.loc[:,'x2'][y==1],label='labeled2')

plt.title('label_data',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend((label0,label1),('label0','label2'),loc='upper left')
plt.show()

模型建立与训练

# 模型建立与训练

# 去掉y值，保留两个特征列
x = data1.drop(['y'],axis=1)

from sklearn.cluster import KMeans

# n_clusters类别数，init初始中心点寻找方式，random_state随机状态为0才能重复结果
KM = KMeans(n_clusters=2,init='random',random_state=0)
KM.fit(x)

查看聚类中心

# 查看聚类中心
centers = KM.cluster_centers_
print(centers)

重新可视化，并将中心点也绘制出来

# 创建画布
fig2 = plt.figure()
# 绘制
label0 = plt.scatter(data1_result.loc[:,'x1'][y==0],data1_result.loc[:,'x2'][y==0],label='labeled1')
# 将带有标签的点单独画出
label1 = plt.scatter(data1_result.loc[:,'x1'][y==1],data1_result.loc[:,'x2'][y==1],label='labeled2')
# 加入中心点可视化
plt.scatter(centers[:,0],centers[:,1],100,marker='x',label='centers')

plt.title('原始数据分布',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend((label0,label1),('label0','label2'),loc='upper left')
plt.show()

结果预测

# 结果预测
y_predict = KM.predict(x)
print(pd.value_counts(y_predict),pd.value_counts(y))

准确率计算

# 准确率计算
from sklearn.metrics import accuracy_score 
accuracy = accuracy_score(y,y_predict)
print(accuracy)

创建两张图同时对比预测结果y_predict和原来的结果

# 创建两张图同时对比预测结果y_predict和原来的结果y_result

fig5 = plt.figure(figsize=(16,8))

fig3 = plt.subplot(121)
1
# 绘制已有结果的
label0 = plt.scatter(data1_result.loc[:,'x1'][y==0],data1_result.loc[:,'x2'][y==0],label='labeled1')
# 将带有标签的点单独画出
label1 = plt.scatter(data1_result.loc[:,'x1'][y==1],data1_result.loc[:,'x2'][y==1],label='labeled2')
# 加入中心点可视化
plt.scatter(centers[:,0],centers[:,1],100,marker='x',label='centers')

plt.title('原始数据分布',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend((label0,label1),('label0','label2'),loc='upper left')



fig4 = plt.subplot(122)

# 绘制计算结果的
plt.scatter(x.loc[:,'x1'][y_predict==0],x.loc[:,'x2'][y_predict==0],label='labeled1')
# 将带有标签的点单独画出
plt.scatter(x.loc[:,'x1'][y_predict==1],x.loc[:,'x2'][y_predict==1],label='labeled2')
# 加入中心点可视化
plt.scatter(centers[:,0],centers[:,1],100,marker='x',label='centers')

plt.title('预测结果',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend((label0,label1),('label0','label2'),loc='upper left')
plt.show

对于训练后的数据，如果直接按结果筛选的话也是可行的，尽管并没有创造这个列出来，如：

x[y_predict==0]

x.loc[:,'x1'][y_predict==0]

查看第一个带有正确结果标签的样本点的标签

# 查看第一个带有正确结果标签的样本点的标签
print(x_label)
print(y_predict[0])

由于算法的计算问题，并没有提前分类好对应值的类别，有可能出了正确的结果，但是标签却掉反了，因此需要矫正（如果有需要的话）

# 结果矫正（如果结果掉反了的话）
# y_corrected = []
# for i in y_predict:
#     if i==0:
#         y_corrected.append(1)
#     elif i==1:
#         y_corrected.append(0)
        
# print(y_corrected)
# print(y_predict)

# 转化成numpy结构
# y_corrected = np.array(y_corrected)

值被成功掉反

统计分布

# 统计分布
pd.value_counts(y_predict)

knn建模部分

用knn算法对比一下结果

knn建模与训练

# knn建模部分

# knn建模与训练
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(x,y)

knn预测

# knn预测
y_predict_knn = knn.predict(x)
accuracy_knn = accuracy_score(y,y_predict_knn)
accuracy_knn

统计类别分布

# 统计类别分布

pd.value_counts(y_predict_knn),pd.value_counts(y)

创建两张图同时对比预测结果y_predict和原来的结果

# 创建两张图同时对比预测结果y_predict和原来的结果y_result

fig6 = plt.figure(figsize=(16,8))

fig7 = plt.subplot(121)
1
# 绘制已有结果的
label0 = plt.scatter(data1_result.loc[:,'x1'][y==0],data1_result.loc[:,'x2'][y==0],label='labeled1')
# 将带有标签的点单独画出
label1 = plt.scatter(data1_result.loc[:,'x1'][y==1],data1_result.loc[:,'x2'][y==1],label='labeled2')
# 加入中心点可视化
plt.scatter(centers[:,0],centers[:,1],100,marker='x',label='centers')

plt.title('原始数据分布',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend((label0,label1),('label0','label2'),loc='upper left')



fig8 = plt.subplot(122)

# 绘制计算结果的
plt.scatter(x.loc[:,'x1'][y_predict_knn==0],x.loc[:,'x2'][y_predict_knn==0],label='labeled1')
# 将带有标签的点单独画出
plt.scatter(x.loc[:,'x1'][y_predict_knn==1],x.loc[:,'x2'][y_predict_knn==1],label='labeled2')
# 加入中心点可视化
plt.scatter(centers[:,0],centers[:,1],100,marker='x',label='centers')

plt.title('knn预测结果',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend((label0,label1),('label0','label2'),loc='upper left')
plt.show

有一点点不太一样

逐步迭代查看KMeans模型训练效果

可以利用一下代码实现逐步观察中心点的变化过程

kmeans迭代一次的结果

# kmeans迭代一次的结果

# n_init随机取了一组中心点,因为原本是同时生成几组点数进行区分；max_iter是迭代次数
km2 = KMeans(n_clusters=2,init='random',random_state=1,n_init=1,max_iter=1)
km2.fit(x)
# 中心点
centers2 = km2.cluster_centers_
y_perdict2 = km2.predict(x)

# 创建画布
fig2 = plt.figure()
# 绘制
label0 = plt.scatter(x.loc[:,'x1'][y_perdict2==0],x.loc[:,'x2'][y_perdict2==0],label='labeled1')
# 将带有标签的点单独画出
label1 = plt.scatter(x.loc[:,'x1'][y_perdict2==1],x.loc[:,'x2'][y_perdict2==1],label='labeled2')
# 加入中心点可视化
plt.scatter(centers2[:,0],centers2[:,1],100,marker='x',label='centers')

plt.title('predict_result_max_inter=1',font2)
plt.xlabel('x1',font2)
plt.xlabel('x2',font2)
plt.legend(loc='upper left')
plt.show()

此时是聚类中心计算出的第一次结果

逐步迭代查看KMeans模型训练效果

#逐步迭代查看KMeans模型训练效果
centers = np.array([[0,0,0,0]])
for i in range(1,10):
    KM = KMeans(n_clusters=2,random_state=1,init='random',n_init=1,max_iter=i)
    KM.fit(x)

    centers_i = KM.cluster_centers_
    centers_i_temp = centers_i.reshape(1,-1)
    centers = np.concatenate((centers,centers_i_temp),axis=0)
    #predict based on training data
    y_predict = KM.predict(x)

    #visualize the data and results
    fig_i = plt.figure()
    label0 = plt.scatter(x.loc[:,'x1'][y_predict==0],x.loc[:,'x2'][y_predict==0])
    label1 = plt.scatter(x.loc[:,'x1'][y_predict==1],x.loc[:,'x2'][y_predict==1])

    plt.title("predicted data")
    plt.xlabel('x1')
    plt.ylabel('x2')
    plt.legend((label0,label1),('label0','label1'), loc='upper left')
    plt.scatter(centers_i[:,0],centers_i[:,1],100,marker='x')
    fig_i.savefig('2d_output/{}.png'.format(i),dpi=500,bbox_inches = 'tight')

可以看到聚类中心的变化过程

实战2：K均值聚类实现图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域的技术，是由图像处理到图像分析的关键步骤。

最基础的实现方法：灰度阈值分割
导入图像学习库

from skimage import io as io

导入数据（任意一张图片）

img = io.imread('2.jpg')
plt.imshow(img)

查看数据结构与维度

# 查看数据结构与维度
print(type(img))
print(img.shape)

图片是由三个颜色通道rgb构成的

print(img)#对应的是rgb三个颜色通道上的数值

维度存储

# 维度存储
img_width = img.shape[1]
img_height = img.shape[0]
print(img_height,img_width)

数据维度转化，想办法把他的维度降低，这样我们才能进行分割

# 数据维度转化
img_data = img.reshape(-1,3)
print(img.shape,img_data.shape)
print(img_data)

x赋值

# x赋值
x = img_data

模型建立与训练

# 模型建立与训练
model = KMeans(n_clusters=3,random_state=0)
model.fit(x)

聚类结果预测

# 聚类结果预测
label = model.predict(x)
print(label)
print(pd.value_counts(label))

结果数据维度转化

# 结果数据维度转化
label = label.reshape([img_height,img_width])
print(label)
print(label.shape)

后续的灰度处理

# 后续的灰度处理
label = 1/(label+1)
print(label)

可视化

# 可视化
plt.imshow(label)

存储

# 存储
io.imsave('result_k33.png',label)

修改分类数（4）

和上面的步骤一样，只不过把分类数n_clusters修改成其他值

# 模型建立与训练
model = KMeans(n_clusters=4,random_state=0)
model.fit(x)

# 聚类结果预测
label = model.predict(x)
print(label)
print(pd.value_counts(label))

# 结果数据维度转化
label = label.reshape([img_height,img_width])
print(label)
print(label.shape)

# 后续的灰度处理
label = 1/(label+1)
print(label)

# 可视化
plt.imshow(label)

可以看到颜色分类区域更多了一些

# 存储
io.imsave('result_k34.png',label)

未完待续……

你可能感兴趣的:(数据分析,机器学习,机器学习,python,分类)

【无标题】Python ---Day2 复合类型之序列类型、映射类型和集合类型的学习！！！
系列文章目录文章目录系列文章目录前言一、复合类型初识1.1列表类型1.1.1列表创建1.1.2列表运算1.1.3列表访问1.1.3.1索引1.1.3.2反向索引1.1.3.3切片1.1.4列表操作1.1.4.1添加数据1.1.4.2修改数据1.1.4.3删除数据1.2元组类型1.2.1元组创建1.2.2元组操作1.2.2.2查看元组1.2.2.3解包技能1.2.3元组运算1.2.4元组不可变二、映
脑电分析入门指南：信号处理、特征提取与机器学习 Ao000000 信号处理机器学习人工智能
脑电分析入门指南一、为什么要研究脑电1.课题目标（解决什么问题）2.输入与输出二、脑电分析的整体流程三、每一步详解1.数据采集2.预处理3.特征提取4.特征选择/降维5.分类与识别四、研究过程中遇到的挑战与解决方法五、学习感受一、为什么要研究脑电1.课题目标（解决什么问题）本课题旨在通过对脑电（EEG）的采集与分析，提取有用的神经信息，实现对某类脑状或行为的识别/预测/评估。例如：情绪识别、疾病诊
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
【机器学习-08】参数调优宝典：网格搜索与贝叶斯搜索等攻略云天徽上机器学习机器学习人工智能
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Python中字符串的操作方法幻鸩605 python java 开发语言
字符串拼接使用+运算符将多个字符串连接起来。例如：s1="Hello"s2="World"result=s1+""+s2print(result)#输出：HelloWorld字符串重复使用*运算符重复字符串。例如：s="abc"result=s*3print(result)#输出：abcabcabc字符串长度使用len()函数获取字符串长度。例如：s="Python"length=len(s)pr
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
【2025B卷专题】华为OD机试2025B卷统一考试题库清单，时间紧张就刷这个（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od python javascript 华为OD机试 2025B卷
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
【图像处理基石】如何检测到画面中的ppt并对其进行增强？
1.入门版ppt检测增强工具我们介绍一个使用Python进行PPT检测并校正画面的实现方案。这个方案主要利用OpenCV进行图像处理，通过边缘检测和透视变换技术来识别并校正PPT画面。importcv2importnumpyasnpfromPILimportImageimportmatplotlib.pyplotaspltclassPPTDetector:def__init__(self):#初始
富集分析——GO、KEGG ersanshi055 生信小菜鸟富集分析 GO kegg
一、富集分析的基础认知在生物信息学研究领域，基因功能解析及通路阐释是众多分析流程中的关键环节，富集分析（EnrichmentAnalysis）是将基因或蛋白列表按照功能进行分类的统计方法，目的是找出在特定基因集中显著富集的功能类别或通路。通过这种方法，研究人员可以理解一组基因（如差异表达基因）在哪些生物学过程、分子功能或通路中代表。1.富集分析分类基因本体论富集分析（GeneOntologyEnr
Python中什么时候需要返回值，什么时候不需要返回值？？？似乎很简单 Python学习日记 python 开发语言
在Python中，函数是否需要返回值取决于它的设计目的和功能需求。需要返回值的情况计算结果需要被后续代码使用当函数的主要目的是计算或生成数据，且调用方需要这些结果时：defadd(a,b):returna+b#结果需要被其他代码使用total=add(3,5)#需要返回值需要传递状态或信息如果函数执行后需要告诉调用方是否成功、返回状态码或错误信息：defvalidate_input(input):
Python中的高阶函数---便捷的语法书写！！！！，可以简化一些函数的书写！！！似乎很简单 Python学习日记 python 开发语言学习笔记
目录1.map()函数示例1：单可迭代对象（平方运算）示例2：多可迭代对象（元素相加）2.mapvs列表推导式什么是列表推导式（ListComprehension）？对比示例列表推导式的优势map的优势5.实际应用场景场景1：批量转换数据类型场景2：多列数据处理场景3：链式操作6.性能与注意事项总结3.sorted()函数1.语法：sorted(iterable,*,key=None,revers
Seaborn高阶玩法全解析：从复杂图表到多图布局的可视化实战指南
数据可视化就像给数据“画肖像”——初级阶段是勾勒轮廓，高级阶段则是赋予灵魂。在Python可视化生态中，Seaborn凭借“一行代码出美图”的优雅，成为数据分析的“画笔利器”。但你是否遇到过这样的场景：想同时展示数据分布与统计量，却被基础图表限制；想批量绘制分面图，手动拼接效率低下；想让图表更具设计感，却对颜色搭配和注解技巧一知半解？本文将带你解锁Seaborn的高阶玩法，从复杂图表绘制到多图布局
scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
AAAI—24—Main—paper（关于Multi—Modal的全部文章摘要）
我们生活在一个由多种模态（Multimodal）信息构成的世界，包括视觉信息、听觉信息、文本信息、嗅觉信息等等，当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态学习多模态机器学习旨在处理学习（视觉，听觉，语言等）不同模态融合交织的信息。下游任务（1）视觉问答1.视觉问答(visualquestionanswering,VQA).给予视觉输入(图像或视频),VQA代表了正确提供一个问题
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Softhub软件下载站实战开发（十四）：软件收藏集设计叹一曲当时只道是寻常 softHub 前端 golang
文章目录Softhub软件下载站实战开发（十四）：软件收藏集设计引言：为什么我们需要收藏集功能？收藏集功能的核心价值1.资源整合与分类管理技术架构设计数据库设计核心接口设计后端实现详解1.收藏集服务层2.列表查询实现3.添加软件实现前端实现详解1.收藏集列表页面2.软件管理弹窗组件3.软件选择与添加逻辑Softhub软件下载站实战开发（十四）：软件收藏集设计前面几篇我们讲了软件管理相关实现，本篇我
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
Softhub软件下载站实战开发（十七）：用户端API设计
文章目录Softhub软件下载站实战开发（十七）：用户端API设计前言用户端API概览1.分类管理API2.首页API3.资源集管理API4.软件管理API5.资源下载API⬇️API设计原则‍Softhub软件下载站实战开发（十七）：用户端API设计前言在Softhub软件下载站的开发过程中，我们终于来到了用户端API的设计阶段！用户端API是整个系统与前端交互的核心桥梁，良好的API设计能极大
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

python机器学习之分类预测

目录

逻辑回归

水位判断案例引入逻辑回归计算原理

逻辑回归

单次项逻辑回归代码示例

二阶项及以上项式的边界函数计算和绘制

二阶多项式逻辑回归案例

尝试用一阶函数画出边界

二阶项逻辑回归

K近邻分类模型(K-nearest neighbors)

K近邻分类模型算法步骤

决策树

决策树原理

核心问题：树结构的每个分支先看哪个特征指标？

ID3算法

实战：决策树判断员工是否适合相关工作

修改leaf参数查看效果，改最小50个样本

朴素贝叶斯

条件概率

全概率

贝叶斯

贝叶斯公式

贝叶斯用于机器训练

朴素贝叶斯公式

总结

实战：朴素贝叶斯预测学生录取及奖学金情况

K-means聚类分析

核心流程

K均值聚类 (KMeans) VS K近邻分类 (KNN)

实战1：普通数值类数据分类

knn建模部分

逐步迭代查看KMeans模型训练效果

实战2：K均值聚类实现图像分割

修改分类数（4）

未完待续……

你可能感兴趣的:(数据分析,机器学习,机器学习,python,分类)