Data艺术家

【机器学习】二分类算法实现及算法精度比较

文章目录

- 一.数据集选择
- - 1.感知机
  - 2.K近邻（knn）
  - 3.朴素贝叶斯
  - 4.决策树id3
  - 5.逻辑斯蒂回归
  - 总结

一.数据集选择

鸢尾花数据集-iris.data
Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性（分别是：花萼长度，花萼宽度，花瓣长度，花瓣宽度）。可通过这4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类的鸢尾花中的哪一类。
Iris里有两个属性iris.data，iris.target。data是一个矩阵，每一列代表了萼片或花瓣的长宽，一共4列，每一列代表某个被测量的鸢尾植物，一共有150条记录。

数据集链接
数据集预处理：

由于数据集较小，易于划分，对测试集加入噪声后测试精确率

1.感知机

特点：
（1）二类分类线性模型。
（2）输入为实例的特征向量，输出为实例的类别。
（3）导入基于误分类的损失函数。
（4）利用梯度下降法对损失函数进行极小化。
算法实现：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd  # 读取数据集，读为表格数据
from sklearn import metrics

# 引进数据集
df = pd.read_csv('../data/iris.data', header=None)  # 读取数据集的数据
df.tail()  # 对数据进行矩阵形式的显示
# 抽取出前100条样本，这正好是Setosa和Versicolor对应的样本，我们将Versicolor对应的数据作为类别1，Setosa对应的作为-1。
# 对于特征，我们抽取出sepal length和petal length两维度特征，然后用散点图对数据进行可视化
# We extract the first 100 class labels that correspond to 50 Iris-Setosa and 50 Iris-Versicolor flowers.
y = df.iloc[0:25, 4].values  # 抽取0--25行和75-100行，第4列数据
y1 = df.iloc[75:100, 4].values
y = np.concatenate([y, y1])
y = np.where(y == 'Iris-setosa', -1, 1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
X = df.iloc[0:25, [0, 2]].values
X1 = df.iloc[75:100, [0, 2]].values
X = np.row_stack((X, X1))

print("数据集规模：" + str(X.shape[0]))  # (100,2) (100,3)  读取矩阵的形态

p_x = np.array(X)  # 创建数据集     x值
y = np.array(y)  # 标记数据集     1：正类；-1：负类    y值
plt.figure()  # 创建图像

for i in range(len(p_x)):  # 遍历数据集  在图中标记数据集各点
    if y[i] == 1:
        plt.plot(p_x[i][0], p_x[i][1], 'ro')  # 将数据集中正类点标记为红色实心点
    else:
        plt.plot(p_x[i][0], p_x[i][1], 'bo')  # 负类标记为蓝色实心点

w = np.array([0, 0])  # 初始化权重系数w
b = 0  # 初始化偏移常数b
delta = 1  # 步长 1
count = 0

while 1:
    choice = -1  # 初始化标记参数choice
    for j in range(len(p_x)):
        if y[j] != np.sign(np.dot(w, p_x[j]) + b):  # w与p_x内积 + b > 0 则sign=1;< 0 则sign=-1   （sign == y[i] 正确分类）
            choice = j
            w = w + delta * y[choice] * p_x[choice]  # 更新参数
            b = b + delta * y[choice]
            break
    if choice == -1:
        break
    for i in range(len(p_x)):
        if y[i] == np.sign(np.dot(w, p_x[i]) + b):
            count += 1
        else:
            count = 0
            break
    if count == len(p_x):
        break

print("输出模型：")
print("y=" + str(round(w[0], 1)) + "x1+" + str(w[1]) + "x2" + str(b))

line_x = [0, 10]  # 绘制x坐标系
line_y = [0, 0]

for i in range(len(line_x)):
    line_y[i] = (-w[0] * line_x[i] - b) / w[1]  # 绘制超平面

plt.plot(line_x, line_y)
plt.savefig("picture.png")

# 抽取0--100行，第4列数据
y = df.iloc[25:50, 4].values
y1 = df.iloc[50:75, 4].values
y = np.concatenate([y, y1])
y = np.where(y == 'Iris-setosa', -1, 1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
X = df.iloc[25:50, [0, 2]].values
X1 = df.iloc[50:75, [0, 2]].values
X = np.row_stack((X, X1))
# 抽取第0列，第2列数据
print("测试集规模：" + str(X.shape[0]))  # (100,2) (100,3)  读取矩阵的形态
print()
p_x = np.array(X)  # 创建数据集     x值
y = np.array(y)  # 标记数据集     1：正类；-1：负类    y值

zhen = 0
fu = 0
y_predict = []
for i in range(len(p_x)):
    print("测试数据：" + str([p_x[i][0], p_x[i][1]]))
    print("真实结果：" + str(y[i]))
    y_predict.append(int(np.sign(np.dot(w, p_x[i]) + b)))
    print("预测结果:" + str(y_predict[i]))
    print()

M = metrics.confusion_matrix(y_predict, y)
print('混淆矩阵:\n', M)

n = len(M)
for i in range(n):
    rowsum, colsum = sum(M[i]), sum(M[r][i] for r in range(n))
    precision = M[i][i] / float(colsum)
    recall = M[i][i] / float(rowsum)
    F1 = precision * recall * 2 / (precision + recall)
    print('y=%d 精确率: %s' % (i, precision), '召回率: %s' % recall, 'F1值: %s' % F1)
print("感知机模型精度：{:.5f}".format(np.mean(y_predict == y)))

分类图像展示：

运行结果：

类别	精确率	召回率	F1
0	0.96	0.96	0.96
1	0.96	0.96	0.96

模型精度（准确率）：0.96000

2.K近邻（knn）

特点：
优点：
（1）简单好用，容易理解，精度高，理论成熟，既可以用来做分类也可以用来做回归；
（2）可用于数值型数据和离散型数据；
（3）训练时间复杂度为O(n)；无数据输入假定；
（4）对异常值不敏感。
缺点：
（1）计算复杂性高；空间复杂性高；
（2）样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
（3）一般数值很大的时候不用这个，计算量太大。但是单个样本又不能太少，否则容易发生误分。
（4）最大的缺点是无法给出数据的内在含义。
算法实现：

import pandas as pd
import numpy as np # 导入科学计算包
import operator  # 导入运算符模块
import json
from numpy import *

def createDataSet():
    # 引进数据集
    df = pd.read_csv('../data/iris.data',
                     header=None)  # 读取数据集的数据
    df.tail()  # 对数据进行矩阵形式的显示
    # 抽取出前100条样本，这正好是Setosa和Versicolor对应的样本，我们将Versicolor对应的数据作为类别1，Setosa对应的作为-1。
    # 对于特征，我们抽取出sepal length和petal length两维度特征，然后用散点图对数据进行可视化
    # We extract the first 100 class labels that correspond to 50 Iris-Setosa and 50 Iris-Versicolor flowers.
    y = df.iloc[0:25, 4].values  # 抽取不同的数据行，第4列数据进行训练
    y1 = df.iloc[75:100, 4].values
    y = np.concatenate([y, y1])

    y = np.where(y == 'Iris-setosa', -1, 1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
    X = df.iloc[0:25, [0, 2]].values
    X1 = df.iloc[75:100, [0, 2]].values
    X = np.row_stack((X, X1))
    # 抽取第0列，第2列数据
    # print(X.shape, y.shape)  # (100,2) (100,3)  读取矩阵的形态
    data = np.array(X)  # 创建数据集     x值
    labels = np.array(y)  # 标记数据集     1：正类；-1：负类    y值
    labels1 = []
    for i in labels:
        if labels[i] == 1:
            labels1.append(1)
        else:
            labels1.append(-1)
    
   
    return data, labels1


def classify(inX, data, labels, k):
    dataSetSize = data.shape[0]  # 计算共有多少条训练数据
    # print(dataSetSize)
    # print('复制输入向量 用于和样本中的每条数据进行计算 [矩阵的加减乘除]')
    # print(tile(inX, (dataSetSize, 1)))

    # 矩阵的减法 结果:每一项为输入向量和各个样本对应特征点的差值构成的新矩阵
    diffmat = tile(inX, (dataSetSize, 1)) - data
    # print('\n相减后:')
    # print(diffmat)

    sqDiffMat = diffmat ** 2  # 平方 矩阵中每一项都平方
    # print('\n平方后:')
    # print(sqDiffMat)
    sqDistances = sqDiffMat.sum(axis=1)  # axis=1 行向量相加 / axis=0 列向量相加
    # print('\n各个特征点差值相加[即坐标差值相加]:')
    # print(sqDistances)

    distances = sqDistances ** 0.5  # 开方
    # print('\n距离:')
    # print(distances)
    sortedDistIndexes = distances.argsort()  # 从小到大将距离向量排序并返回其索引值
    # 参数：
    # a为要排序的数组
    # axis：按哪一维进行排序

    classCount = {}  # dict 保存对应标签出现的次数
    for i in range(k):
        # print("循环次数：" + i.__str__())
        voteLabel = labels[sortedDistIndexes[i]]  # 获得类别标签
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
    print('标签出现的次数:')
    print(json.dumps(classCount, ensure_ascii=False))
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)

    print('排序后:')
    print(json.dumps(sortedClassCount, ensure_ascii=False))
    # 如: print sortedClassCount ———— [('A', 2), ('B', 1)]

    return sortedClassCount[0][0]  # 返回次数出现次数最多的标签

测试

import pandas as pd
from sklearn import metrics

import knn
import numpy as np

data, labels = knn.createDataSet()

df = pd.read_csv('../data/iris.data', header=None)  # 读取数据集的数据
df.tail()  # 对数据进行矩阵形式的显示
# 抽取0--100行，第4列数据
y = df.iloc[25:50, 4].values
y1 = df.iloc[50:75, 4].values
y = np.concatenate([y, y1])
# print(y)
y = np.where(y == 'Iris-setosa', 1, -1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
# print(y)
X = df.iloc[25:50, [0, 2]].values
X1 = df.iloc[50:75, [0, 2]].values
X = np.row_stack((X, X1))
# 抽取第0列，第2列数据
# print(X)
# print(X.shape, y.shape)  # (100,2) (100,3)  读取矩阵的形态
p_x = np.array(X)  # 创建数据集     x值
y = np.array(y)  # 标记数据集     1：正类；-1：负类    y值
train_data, train_lable = knn.createDataSet()

# print('测试模型分类样本数据,结果是否和样本中的分类一致')
y_predict = []
for i in range(len(p_x)):
    print("测试数据："+str([p_x[i][0], p_x[i][1]]))
    print("真实结果：" + str(y[i]))
    y_predict.append(knn.classify([p_x[i][0], p_x[i][1]], train_data, train_lable, 3))
    print('预测结果:' + str(y_predict[i])+"\n")

M = metrics.confusion_matrix(y_predict, y)
print('混淆矩阵:\n', M)

n = len(M)
for i in range(n):
    rowsum, colsum = sum(M[i]), sum(M[r][i] for r in range(n))
    precision = M[i][i] / float(colsum)
    recall = M[i][i] / float(rowsum)
    F1 = precision * recall * 2 / (precision + recall)
    print('y=%d 精确率: %s' % (i, precision), '召回率: %s' % recall, 'F1值: %s' % F1)
print("KNN模型精度：{:.5f}".format(np.mean(y_predict == y)))

运行结果

类别	精确率	召回率	F1
0	0.96	0.96	0.96
1	0.96	0.96	0.96

模型精度（准确率）：0.96000

3.朴素贝叶斯

特点：
朴素贝叶斯的主要优势有：
1）朴素贝叶斯模型有稳定的分类效率。
2）对小规模的数据表现很好，能处理多分类任务，适合增量式训练，尤为是数据量超出内存时，能够一批批的去增量训练。
3）对缺失数据不太敏感，算法也比较简单，经常使用于文本分类。
朴素贝叶斯的主要缺点有：　　　
1）理论上，朴素贝叶斯模型与其余分类方法相比具备最小的偏差率。可是实际上并不是老是如此，这是由于朴素贝叶斯模型给定输出类别的状况下,假设属性之间相互独立，这个假设在实际应用中每每是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果很差。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法经过考虑部分关联性适度改进。
2）须要知道先验几率，且先验几率不少时候取决于假设，假设的模型能够有不少种，所以在某些时候会因为假设的先验模型的缘由致使预测效果不佳。
3）因为咱们是经过先验和数据来决定后验的几率从而决定分类，因此分类决策存在必定的错误率。
4）对输入数据的表达形式很敏感。
代码展示：

import numpy as np
import pandas as pd
from sklearn import metrics


def createDataSet():
    # 引进训练数据集
    df = pd.read_csv('../data/iris.data',
                     header=None)  # 读取数据集的数据
    df.tail()  # 对数据进行矩阵形式的显示
    # 抽取出前100条样本，这正好是Setosa和Versicolor对应的样本，我们将Versicolor对应的数据作为类别1，Setosa对应的作为-1。
    # 对于特征，我们抽取出sepal length和petal length两维度特征，然后用散点图对数据进行可视化
    # We extract the first 100 class labels that correspond to 50 Iris-Setosa and 50 Iris-Versicolor flowers.
    y = df.iloc[0:25, 4].values  # 抽取0--100行，第4列数据
    y1 = df.iloc[75:100, 4].values
    y = np.concatenate([y, y1])
    y = np.where(y == 'Iris-setosa', -1, 1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
    X = df.iloc[0:25, [0, 2]].values
    X1 = df.iloc[75:100, [0, 2]].values
    X = np.row_stack((X, X1))
    dataSet = np.column_stack((X, y))
    labels = ['x1', 'x2', 'y']
    return dataSet, labels


# 统计yi的个数
def typeCount(typeList, t):
    cnt = 0
    for tL in typeList:
        if tL == t:
            cnt += 1
    return cnt


# 计算Y=-1或1的条件下，X等于某值 个数
def featCount(dataSet, i, feat, y):
    cnt = 0
    # print(i, feat, y)
    for row in dataSet:
        if row[i] == feat and row[-1] == y:
            cnt += 1
    return cnt


def calcBayes(dataSet, X):
    # 以 x = (2, 'S') 为例

    lenDataSet = len(dataSet)
    typeList = [row[-1] for row in dataSet]
    typeSet = set(typeList)  # 类别集合
    print(typeList, typeSet)
    typeLen = len(typeSet)
    # 遍历一类 t=1; t=-1
    pList = []  # 记录预计 各类类别 概率
    for t in typeSet:
        yNum = typeCount(typeList, t)  # 计算yi的个数
        print(f'{t} num =', yNum)
        py = yNum / lenDataSet
        print(f'P(Y = {t}) =', py)
        pSum = py
        # 对每个特征分量计数
        for i in range(len(X)):
            xiNum = featCount(dataSet, i, X[i], t)  # 统计Y条件下 Xi取相应特征 的数量
            print(f'特征{X[i]} num =', xiNum)
            # 条件概率P{X = xi | Y = yi}
            pxy = xiNum / yNum
            print(f'条件概率 =', pxy)
            pSum *= pxy
        pList.append(pSum)
    # print(pList)
    return pList, typeSet


# 就是找最大的概率，记录下标
def predict(pList, typeList):
    for i in range(len(pList)):
        if pList[i] == max(pList):
            print(f'预测类 为 = {typeList[i]}')
            print('*' * 50)
            return typeList[i]


if __name__ == '__main__':
    # 测试集
    df = pd.read_csv('../data/iris.data',
                     header=None)  # 读取数据集的数据
    df.tail()  # 对数据进行矩阵形式的显示
    # 抽取0--100行，第4列数据
    y = df.iloc[25:50, 4].values
    y1 = df.iloc[50:75, 4].values
    y = np.concatenate([y, y1])
    # print(y)
    y = np.where(y == 'Iris-setosa', -1, 1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
    # print(y)
    X = df.iloc[25:50, [0, 2]].values
    X1 = df.iloc[50:75, [0, 2]].values
    X = np.row_stack((X, X1))
    # 抽取第0列，第2列数据
    # print(X)
    # print(X.shape, y.shape)  # (100,2) (100,3)  读取矩阵的形态
    p_x = np.array(X)  # 创建数据集     x值
    y = np.array(y)  # 标记数据集     1：正类；-1：负类    y值
    data = np.column_stack((p_x, y))
    data = np.array(data)
    dataSet, labels = createDataSet()
    predict_result = []

    for i in data:
        pList, typeSet = calcBayes(dataSet, [i[0], i[1]])
        predict_result.append(predict(pList, list(typeSet)))

    M = metrics.confusion_matrix(predict_result, y)
    print('混淆矩阵:\n', M)

    n = len(M)
    for i in range(n):
        rowsum, colsum = sum(M[i]), sum(M[r][i] for r in range(n))
        precision = M[i][i] / float(colsum)
        recall = M[i][i] / float(rowsum)
        F1 = precision * recall * 2 / (precision + recall)
        print('y=%d 精确率: %s' % (i, precision), '召回率: %s' % recall, 'F1值: %s' % F1)
    print("朴素贝叶斯模型精度：{:.5f}".format(np.mean(predict_result == y)))

运行结果：

类别	精确率	召回率	F1
0	0.68	0.94	0.79
1	0.96	0.75	0.84

模型精度（准确率）：0.82000

4.决策树id3

特点：
决策树的核心思想是：相似的输入必然产生相似的输出。决策树通过把数据样本分配到树状结构的某个叶子节点来确定数据集中样本所属的分类。决策树可用于回归和分类。当用于回归时，预测结果为叶子节点所有样本的均值。
①优点
• 简单易懂，容易解释，可视化，适用性广。
• 可用于分类、回归问题。
②缺点
• 容易过拟合。
• 数据中的小变化会影响结果，不稳定。
• 每一个节点的选择都是贪婪算法，不能保证全局最优解。
使用场景：
适合于标称型（在有限目标集中取值）属性较多的样本数据。
具有较广的适用性，当对模型不确定时可以使用决策树进行验证。

代码实现

# -*- coding: UTF-8 -*-
import math
from math import log
import operator

import numpy as np
import pandas as pd
from sklearn import metrics

import 决策树可视化 as treePlot

"""
函数说明:创建测试数据集
"""


def createDataSet():
    # 引进数据集
    df = pd.read_csv('../data/iris.data',
                     header=None)  # 读取数据集的数据
    df.tail()  # 对数据进行矩阵形式的显示
    # 抽取出前100条样本，这正好是Setosa和Versicolor对应的样本，我们将Versicolor对应的数据作为类别1，Setosa对应的作为-1。
    # 对于特征，我们抽取出sepal length和petal length两维度特征，然后用散点图对数据进行可视化
    # We extract the first 100 class labels that correspond to 50 Iris-Setosa and 50 Iris-Versicolor flowers.
    y = df.iloc[0:25, 4].values  # 抽取0--100行，第4列数据
    y1 = df.iloc[75:100, 4].values
    y = np.concatenate([y, y1])
    y = np.where(y == 'Iris-setosa', 1, -1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
    X = df.iloc[0:25, 0:4].values
    X1 = df.iloc[75:100, 0:4].values
    X = np.row_stack((X, X1))
    print(X.shape[0])
    for i in range(X.shape[0]):
        for j in range(X.shape[1]):
            X[i][j] = math.ceil(X[i][j])
    dataSet = np.column_stack([X, y])
    dataSet = np.array(dataSet).tolist()

    labels = ['A1', 'A2', 'A3', 'A4']  # 分类属性
    return dataSet, labels  # 返回数据集和分类属性


"""
函数说明:计算给定数据集的经验熵(香农熵)
Parameters:
    dataSet - 数据集
Returns:
    shannonEnt - 经验熵(香农熵)
"""


def calcShannonEnt(dataSet):
    numEntires = len(dataSet)  # 返回数据集的行数
    labelCounts = {}  # 保存每个标签(Label)出现次数的字典
    for featVec in dataSet:  # 对每组特征向量进行统计
        currentLabel = featVec[-1]  # 提取标签(Label)信息
        if currentLabel not in labelCounts.keys():  # 如果标签(Label)没有放入统计次数的字典,添加进去
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1  # Label计数
    shannonEnt = 0.0  # 经验熵(香农熵)
    for key in labelCounts:  # 计算香农熵
        prob = float(labelCounts[key]) / numEntires  # 选择该标签(Label)的概率
        shannonEnt -= prob * log(prob, 2)  # 利用公式计算
    return shannonEnt  # 返回经验熵(香农熵)


"""
函数说明:按照给定特征划分数据集
Parameters:
    dataSet - 待划分的数据集
    axis - 划分数据集的特征
    value - 需要返回的特征的值
"""


def splitDataSet(dataSet, axis, value):
    retDataSet = []  # 创建返回的数据集列表
    for featVec in dataSet:  # 遍历数据集
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]  # 去掉axis特征
            reducedFeatVec.extend(featVec[axis + 1:])  # 将符合条件的添加到返回的数据集
            retDataSet.append(reducedFeatVec)
    return retDataSet  # 返回划分后的数据集


"""
函数说明:选择最优特征
Parameters:
    dataSet - 数据集
Returns:
    bestFeature - 信息增益最大的(最优)特征的索引值
"""


def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1  # 特征数量
    baseEntropy = calcShannonEnt(dataSet)  # 计算数据集的香农熵
    bestInfoGain = 0.0  # 信息增益
    bestFeature = -1  # 最优特征的索引值
    for i in range(numFeatures):  # 遍历所有特征
        # 获取dataSet的第i个所有特征
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)  # 创建set集合{},元素不可重复
        newEntropy = 0.0  # 经验条件熵
        for value in uniqueVals:  # 计算信息增益
            subDataSet = splitDataSet(dataSet, i, value)  # subDataSet划分后的子集
            prob = len(subDataSet) / float(len(dataSet))  # 计算子集的概率
            newEntropy += prob * calcShannonEnt(subDataSet)  # 根据公式计算经验条件熵
        infoGain = baseEntropy - newEntropy  # 信息增益
        print("第%d个特征的增益为%.3f" % (i, infoGain))  # 打印每个特征的信息增益
        if (infoGain > bestInfoGain):  # 计算信息增益
            bestInfoGain = infoGain  # 更新信息增益，找到最大的信息增益
            bestFeature = i  # 记录信息增益最大的特征的索引值
    return bestFeature  # 返回信息增益最大的特征的索引值


"""
函数说明:统计classList中出现此处最多的元素(类标签)
Parameters:
    classList - 类标签列表
Returns:
    sortedClassCount[0][0] - 出现此处最多的元素(类标签)
"""


def majorityCnt(classList):
    classCount = {}
    for vote in classList:  # 统计classList中每个元素出现的次数
        if vote not in classCount.keys():
            classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  # 根据字典的值降序排序
    return sortedClassCount[0][0]  # 返回classList中出现次数最多的元素


"""
函数说明:递归构建决策树
Parameters:
    dataSet - 训练数据集
    labels - 分类属性标签
    featLabels - 存储选择的最优特征标签
Returns:
    myTree - 决策树
"""


def createTree(dataSet, labels, featLabels):
    classList = [example[-1] for example in dataSet]  # 取分类标签(是否放贷:yes or no)
    if classList.count(classList[0]) == len(classList):  # 如果类别完全相同则停止继续划分
        return classList[0]
    if len(dataSet[0]) == 1:  # 遍历完所有特征时返回出现次数最多的类标签
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)  # 选择最优特征
    bestFeatLabel = labels[bestFeat]  # 最优特征的标签
    featLabels.append(bestFeatLabel)
    myTree = {bestFeatLabel: {}}  # 根据最优特征的标签生成树
    del (labels[bestFeat])  # 删除已经使用特征标签
    featValues = [example[bestFeat] for example in dataSet]  # 得到训练集中所有最优特征的属性值
    uniqueVals = set(featValues)  # 去掉重复的属性值
    for value in uniqueVals:
        subLabels = labels[:]
        # 递归调用函数createTree(),遍历特征，创建决策树。
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels, featLabels)
    return myTree


"""
函数说明:使用决策树执行分类
Parameters:
    inputTree - 已经生成的决策树
    featLabels - 存储选择的最优特征标签
    testVec - 测试数据列表，顺序对应最优特征标签
Returns:
    classLabel - 分类结果
"""


def classify(inputTree, featLabels, testVec):
    global classLabel
    firstStr = next(iter(inputTree))  # 获取决策树结点
    secondDict = inputTree[firstStr]  # 下一个字典
    featIndex = featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel


if __name__ == '__main__':
    dataSet, labels = createDataSet()
    featLabels = []
    myTree = createTree(dataSet, labels, featLabels)
    treePlot.createPlot(myTree)
    print(myTree)

    df = pd.read_csv('../data/iris.data',
                     header=None)  # 读取数据集的数据
    df.tail()  # 对数据进行矩阵形式的显示
    # 抽取出前100条样本，这正好是Setosa和Versicolor对应的样本，我们将Versicolor对应的数据作为类别1，Setosa对应的作为-1。
    # 对于特征，我们抽取出sepal length和petal length两维度特征，然后用散点图对数据进行可视化
    # We extract the first 100 class labels that correspond to 50 Iris-Setosa and 50 Iris-Versicolor flowers.
    y = df.iloc[25:50, 4].values  # 抽取0--100行，第4列数据
    y1 = df.iloc[50:75, 4].values
    y = np.concatenate((y, y1))
    y = np.where(y == 'Iris-setosa', 1, -1)  # 满足条件(condition)，输出x，不满足输出y。#向量推导
    X = df.iloc[25:50, 2].values
    X1 = df.iloc[50:75, 2].values
    X = np.concatenate([X, X1])
    for i in range(X.shape[0]):
        X[i] = math.ceil(X[i])


    predict_result = []
    for i in X:
        i = [i]
        result = classify(myTree, featLabels, i)
        print(result)
        if result == 1.0:
            predict_result.append(1.0)
        else:
            predict_result.append(-1.0)
    M = metrics.confusion_matrix(predict_result, y)
    print('混淆矩阵:\n', M)

    n = len(M)
    for i in range(n):
        rowsum, colsum = sum(M[i]), sum(M[r][i] for r in range(n))
        precision = M[i][i] / float(colsum)
        recall = M[i][i] / float(rowsum)
        F1 = precision * recall * 2 / (precision + recall)
        print('y=%d 精确率: %s' % (i, precision), '召回率: %s' % recall, 'F1值: %s' % F1)
    print("决策树Id3模型精度：{:.5f}".format(np.mean(predict_result == y)))

决策树可视化

import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from matplotlib.font_manager import FontProperties
import matplotlib.pyplot as plt

# 定义文本框和箭头格式
decisionNode = dict(boxstyle='sawtooth', fc='0.8')
leafNode = dict(boxstyle='round4', fc='0.8')
arrow_args = dict(arrowstyle='<-')
# 设置中文字体
font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)

"""
函数说明:获取决策树叶子结点的数目
Parameters:
    myTree - 决策树
Returns:
    numLeafs - 决策树的叶子结点的数目
"""


def getNumLeafs(myTree):
    numLeafs = 0  # 初始化叶子
    # python3中myTree.keys()返回的是dict_keys,不在是list,所以不能使用myTree.keys()[0]的方法获取结点属性，
    # 可以使用list(myTree.keys())[0]
    firstStr = next(iter(myTree))
    secondDict = myTree[firstStr]  # 获取下一组字典
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':  # 测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
            numLeafs += getNumLeafs(secondDict[key])
        else:
            numLeafs += 1
    return numLeafs


"""
函数说明:获取决策树的层数
Parameters:
    myTree - 决策树
Returns:
    maxDepth - 决策树的层数
"""


def getTreeDepth(myTree):
    maxDepth = 0  # 初始化决策树深度
    # python3中myTree.keys()返回的是dict_keys,不在是list,所以不能使用myTree.keys()[0]的方法获取结点属性，
    # 可以使用list(myTree.keys())[0]
    firstStr = next(iter(myTree))
    secondDict = myTree[firstStr]  # 获取下一个字典
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':  # 测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:
            thisDepth = 1
        if thisDepth > maxDepth:
            maxDepth = thisDepth  # 更新层数
    return maxDepth


"""
函数说明:绘制结点
Parameters:
    nodeTxt - 结点名
    centerPt - 文本位置
    parentPt - 标注的箭头位置
    nodeType - 结点格式
"""


def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    arrow_args = dict(arrowstyle="<-")  # 定义箭头格式
    font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)  # 设置中文字体
    createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords='axes fraction',  # 绘制结点
                            xytext=centerPt, textcoords='axes fraction',
                            va="center", ha="center", bbox=nodeType, arrowprops=arrow_args, fontproperties=font)


"""
函数说明:标注有向边属性值
Parameters:
    cntrPt、parentPt - 用于计算标注位置
    txtString - 标注的内容
"""


def plotMidText(cntrPt, parentPt, txtString):
    xMid = (parentPt[0] - cntrPt[0]) / 2.0 + cntrPt[0]  # 计算标注位置
    yMid = (parentPt[1] - cntrPt[1]) / 2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)


"""
函数说明:绘制决策树
Parameters:
    myTree - 决策树(字典)
    parentPt - 标注的内容
    nodeTxt - 结点名
"""


def plotTree(myTree, parentPt, nodeTxt):
    decisionNode = dict(boxstyle="sawtooth", fc="0.8")  # 设置结点格式
    leafNode = dict(boxstyle="round4", fc="0.8")  # 设置叶结点格式
    numLeafs = getNumLeafs(myTree)  # 获取决策树叶结点数目，决定了树的宽度
    depth = getTreeDepth(myTree)  # 获取决策树层数
    firstStr = next(iter(myTree))  # 下个字典
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs)) / 2.0 / plotTree.totalW, plotTree.yOff)  # 中心位置
    plotMidText(cntrPt, parentPt, nodeTxt)  # 标注有向边属性值
    plotNode(firstStr, cntrPt, parentPt, decisionNode)  # 绘制结点
    secondDict = myTree[firstStr]  # 下一个字典，也就是继续绘制子结点
    plotTree.yOff = plotTree.yOff - 1.0 / plotTree.totalD  # y偏移
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':  # 测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
            plotTree(secondDict[key], cntrPt, str(key))  # 不是叶结点，递归调用继续绘制
        else:  # 如果是叶结点，绘制叶结点，并标注有向边属性值
            plotTree.xOff = plotTree.xOff + 1.0 / plotTree.totalW
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0 / plotTree.totalD


"""
函数说明:创建绘制面板
Parameters:
    inTree - 决策树(字典)
"""


def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')  # 创建fig
    fig.clf()  # 清空fig
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)  # 去掉x、y轴
    plotTree.totalW = float(getNumLeafs(inTree))  # 获取决策树叶结点数目
    plotTree.totalD = float(getTreeDepth(inTree))  # 获取决策树层数
    plotTree.xOff = -0.5 / plotTree.totalW;
    plotTree.yOff = 1.0;  # x偏移
    plotTree(inTree, (0.5, 1.0), '')  # 绘制决策树
    plt.show()

生成决策树：

因为数据集仅对A3特征存在可分，所以此数据集对于决策树只生成一个节点

运行结果：

类别	精确率	召回率	F1
0	0.96	0.96	0.96
1	0.96	0.96	0.96

模型精度（准确率）：0.96000

5.逻辑斯蒂回归

特点：
逻辑斯谛回归是经典的分类方法，它属于对数线性模型，原理是根据现有的数据对分类边界线建立回归公式，以此进行分类。（主要思想）

定义：
在线性回归模型的基础上，使用Sigmoid函数，将线性模型的结果压缩到[0,1]之间，使其拥有概率意义，它可以将任意输入映射到[0,1]区间，实现值到概率转换。

属于概率性判别式模型
线性分类算法

在学习逻辑回归模型之前，先来看一下逻辑斯谛分布，因为我们的逻辑斯蒂模型就是根据逻辑斯蒂分布得到的；通过参数估计方法直接估计出参数，从而得到P(Y|X)。

import pandas as pd
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
from math import exp
from math import *
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from numpy import *
import numpy as np


class LogisticRegressionClassifier(object):
    def __init__(self, eta=0.1, loop=30):
        self.eta = eta
        self.loop = loop

    def sigmoid(self, x):
        return 1.0 / (1 + exp(-x))

    def data_tranforce(self, x_train):
        data = []
        d = []
        for x in x_train:  # x因为是数组类型
            data.append([1.0, *x])  # 将每一行数组增加一个1.0数值,*x是去掉[]符号，形成一行数值
            # c=list(x)  #将一维数组变成列表
            # c.insert(0, 1.0)  #这种insert()方法必须是列表
            # print(list(x).insert(0,1.0))
            # d.append(c)  #类似d=[[1.0,2,3],[1.0,3,4.8]]

        return data

    def fit(self, x_train, y_train):
        data_mat = self.data_tranforce(x_train)  # 处理每个样本的特征值
        n = shape(data_mat)[1]  # 求出data_mat对应参数的个数
        self.weight = ones((n, 1))  # 初始化参数w数组
        cls = self.loop
        for k in range(cls):  # 循环多少次
            for i in range(len(x_train)):  # 遍历每一个样本
                h = self.sigmoid(np.dot(data_mat[i], self.weight))
                err = (y_train[i] - h)
                # 随着每次更新err下面就会更新self.weight的向量
                self.weight += self.eta * err * np.transpose([data_mat[i]])  # [data_mat[i]]变成1*4的数组，一维数组转置必须加一个[]

    # 测试训练模型的准确性
    def test(self, x_test, y_test):
        numbers = 0
        x_test = self.data_tranforce(x_test)  # 处理每个样本的特征值加一个1.0
        y_predict = []
        for x, y in zip(x_test, y_test):
            result = np.dot(x, self.weight)
            if result > 0 and y == 1 or result > 0 and y == 0:
                y_predict.append(1)
            if result < 0 and y == 0 or result < 0 and y == 1:
                y_predict.append(0)
        return np.array(y_predict)


def main():
    df = pd.read_csv('../data/iris.data',
                     header=None)  # 读取数据集的数据
    df.tail()  # 对数据进行矩阵形式的显示
    x = df.iloc[:100, :2].values
    y = df.iloc[:100, 4].values
    y = np.where(y == 'Iris-setosa', 1, 0)
    x_train = x[0:25]
    x_train = np.concatenate((x_train, x[75:100]))
    x_test = x[25:75]
    y_train = y[0:25]
    y_train = np.concatenate((y_train, y[75:100]))
    y_test = np.array(y[25:75])
    print('train', y_train)
    print('test', y_test)
    my_l = LogisticRegressionClassifier()
    my_l.fit(x_train, y_train)

    y_predict = my_l.test(x_test, y_test)
    print('ptedict', y_predict)
    M = metrics.confusion_matrix(y_predict, y_test)
    print('混淆矩阵:\n', M)

    n = len(M)
    for i in range(n):
        rowsum, colsum = sum(M[i]), sum(M[r][i] for r in range(n))
        precision = M[i][i] / float(colsum)
        recall = M[i][i] / float(rowsum)
        F1 = precision * recall * 2 / (precision + recall)
        print('y=%d 精确率: %s' % (i, precision), '召回率: %s' % recall, 'F1值: %s' % F1)
    print("逻辑斯蒂回归模型精度：{:.5f}".format(np.mean(y_predict == y_test)))


if __name__ == "__main__":
    main()

运行结果：

类别	精确率	召回率	F1
0	1	0.61	0.76
1	0.36	1	0.52

模型精度（准确率）：0.68000

总结

机器学习算法有很多，本学期及本实验以分类算法为主，讲解了经典的分类算法，如感知机，knn，朴素贝叶斯，决策树，逻辑斯蒂回归，最大熵模型，SVM（支持向量机），AdaBoost ，k-means（聚类算法）等，通过对于分类算法的学习，我学习到了各算法的原理以及实现，还有与其他算法的比较，及一些相关知识点：

随机梯度下降（SGD）：
是一种简单但又非常高效的方法，主要用于凸损失函数下线性分类器的判别式学习，例如(线性) 支持向量机和逻辑斯蒂回归。
优势:
• 高效。
• 易于实现 (有大量优化代码的机会)。
劣势:
• SGD 需要一些超参数，例如正则化参数和迭代次数。
• SGD 对特征缩放敏感。

最小二乘法与梯度下降法比较：
最小二乘法跟梯度下降法都是通过求导来求损失函数的最小值，首先它们都是机器学习中，计算问题最优解的优化方法，但它们采用的方式不同，前者采用暴力的解方程组方式，直接，简单，粗暴，在条件允许下，求得最优解；而后者采用步进迭代的方式，一步一步的逼近最优解。实际应用中，大多问题是不能直接解方程求得最优解的，所以梯度下降法应用广泛。

KNN最近邻：
原理是从训练样本中找到与新点在距离上最近的预定数量的几个点，然后从这些点中预测标签。这些点的数量可以是用户自定义的常量（K-最近邻学习），也可以根据不同的点的局部密度（基于半径的最近邻学习）确定。距离通常可以通过任何度量来衡量：标准欧式距离是最常见的选择。尽管它简单，但最近邻算法已经成功地适用于很多的分类和回归问题，例如手写数字或卫星图像的场景。作为一个非参数化方法，它经常成功地应用于决策边界非常不规则的分类情景下。最近邻分类属于基于实例的学习或非泛化学习：它不会去构造一个泛化的内部模型，而是简单地存储训练数据的实例。分类是由每个点的最近邻的简单多数投票中计算得到的：一个查询点的数据类型是由它最近邻点中最具代表性的数据类型来决定的。

朴素贝叶斯：
朴素贝叶斯方法是基于贝叶斯定理的一组有监督学习算法，即“简单”地假设每对特征之间相互独立。基于训练集所求得概率，根据贝叶斯概率模型求得测试集各类别概率大小，取概率最大的类别为预测类别；朴素贝叶斯算法假设了数据集属性之间是相互独⽴的，因此算法的逻辑性⼗分简单，并且算法较为稳定，当数据呈现不同的特点时，朴素贝叶斯的分类性能不会有太⼤的差异。换句话说就是朴素贝叶斯算法的健壮性⽐较好，对于不同类型的数据集不会呈现出太⼤的差异性。当数据集属性之间的关系相对⽐较独⽴时，朴素贝叶斯分类算法会有较好的效果。
缺点：性独⽴性的条件同时也是朴素贝叶斯分类器的不⾜之处。数据集属性的独⽴性在很多情况下是很难满⾜的，因为数据集的属性之间往往都存在着相互关联，如果在分类过程中出现这种问题，会导致分类的效果⼤⼤降低。

决策树：
信息熵(info entropy)
首先介绍一下信息熵的概念. 我们把样本抽取过程当做一次随机试验A, 那么A有k个可能的输出A1,A2,…,Ak . 对应于k个分类. 那么A的信息熵定义为:

信息增益：决策树根据各特征的信息增益大小选择决策树节点

基尼指数：不管是信息熵还是基尼指数, 他们都是不纯函数的一种表达, 不纯度变化的计算没有任何变化. 我们也可以自己撰写不纯度函数.
一般来说, 机器学习都需要特征归一化, 目的是让特征之间的比较可以在同一个量纲上进行. 但是从数据构建过程来看, 不纯函数的计算和比较都是单特征的. 所有决策树不需要数据的归一化.
决策树的主要问题是容易形成过拟合. 如果我们通过各种剪枝和条件限制, 虽然可以避免过拟合, 但是会牺牲特征的有效性.

算法精确度比较：

算法	感知机	朴素贝叶斯	Knn	决策树	逻辑斯蒂回归
精确度	0.96	0.82	0.96	0.96	0.68

根据结果可以看出朴素贝叶斯与逻辑斯蒂回归算法精度相对来说其他算法较低；其他算法由于数据集并不是很大，并且同一数据集有可能逻辑斯蒂回归是一种对数线性模型。
由此总结出逻辑斯蒂回归的缺点：

1）容易欠拟合，分类精度不高。
2）数据特征有缺失或者特征空间很大时表现效果并不好。

经典的逻辑斯蒂回归模型（LR）可以用来解决二分类问题，但是它输出的并不是确切类别，而是一个概率。在分析LR原理之前，先分析一下线性回归。线性回归能将输入数据通过对各个维度的特征分配不同的权重来进行表征，使得所有特征协同作出最后的决策。但是，这种表征方式是对模型的一个拟合结果，不能直接用于分类。在LR中，将线性回归的结果通过sigmod函数映射到0到1之间，映射的结果刚好可以看做是数据样本点属于某一类的概率，如果结果越接近0或者1，说明分类结果的可信度越高。这样做不仅应用了线性回归的优势来完成分类任务，而且分类的结果是0~1之间的概率，可以据此对数据分类的结果进行打分。对于线性不可分的数据，可以对非线性函数进行线性加权，得到一个不是超平面的分割面。因此对于逻辑斯蒂回归分类一些数据可能并不是很准确。

你可能感兴趣的:(机器学习,Python,机器学习,算法,分类)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS