小段学长

基于k近邻算法的干豆品种分类

摘要

近年来，干豆由于其较高的营养价值和良好的口感越来越受到人们的欢迎。其种类繁多且易于种植，是世界食用作物中产量最高的一种。干豆品种分类对干豆培育方向、产量需求和品质改良具有重要意义。本文以k近邻算法为核心，借助图像处理技术对已有13611粒干豆图像数据集进行了特征提取，共有16个特征，并在颗粒种获得了12个尺寸和4种形状形式；然后利用KNN分类模型通过10折交叉验证创建性能指标，得到总体正确分类率为xxx。
关键词 图像分类；干豆的分类；KNN算法；特征学习

引言

豆类与谷类拥有一样悠久地种植历史，且与人类历史发展息息相关。大约从公元前6000年起，豆类就逐渐被人们用作食物。在中东，考古学家们发现了小扁豆、豌豆、巢菜和蚕豆等；在坦桑尼亚和巴西，考古学家门在公元前8000年的动物化石中发现了刀豆和葫芦巴；西班牙人曾在公元前4 000年食用芸豆。由于人们的迁徙、经济交流和战争，许多豆科植物，如花生仁、大豆、芸豆、扁豆、豇豆和青豆，从它们的发源地或物种多样性中心传播到世界各地。在水产养殖业不发达的时期，豆类食品是人们最重要的蛋白质来源。一些欧美国家在养殖业发展后，一方面将豆类作为人类的食物，另一方面将其种子和枝条用于饲养家禽和家畜，使得植物蛋白转化为动物蛋白，从而更改人们食材构成成分。进到21世纪，在非洲、亚太、中东地区、南美洲等养鱼业尚不比较发达的国家和地区，豆类仍然是当地人最重要的蛋白质来源。大家使用豆类的方法能够归纳为6种：使用完善的干种子；使用未熟的种子；使用未成熟的豆荚；使用出芽的种子；使用豆类生产商品；将种子中的蛋白进一步生产制造和生产加工。伴随着食品产业的发展，豆类的食用方法除开做成水果罐头、冷藏、研磨成粉、生豆芽外，还可以制成植物肉和植物牛奶，作为蛋白质的来源。其他利用方法，如绿肥作物，可增加土壤有机质和耕地面积。此外，豆类广泛用于造纸业、纺织业、石油化工业和制药业。根据FAO资料，豆类食品中的大豆蛋白占人类总摄入蛋白的22%。从古至今，豆类一直在中国人民的日常生活中发挥着重要作用。食品成分多样化和营养成分均衡化的实际需要以及我国人民优良的饮食习惯促进豆类成为特种杂粮、高蛋白食品和时令蔬菜。在饮食文化上，豆类中的木豆、刀豆、豌豆、白藊豆、小豆和绿豆等均具有药用价值。随着细胞生物学的发展，左旋多巴和普通菜豆绿色植物血凝素等药用成分的获取已经现代化。绿豆具备清热去火的功效，可做成夏天醒神健康饮品。我国多种豆类还是重要的外贸商品，如多花菜豆、普通菜豆、利马豆、豇豆、黑豆、豌豆、扁豆、扁豆、鹰嘴豆等，均销往多个国家和地区。
随着人们对健康生活方式的认识逐渐提高，动物脂肪被植物脂肪取代，使后者成为大家日常生活中的重要食物之一，而豆类粮食作物油是植物脂肪的主要来源。随着豆类粮食作物种植面积逐渐增加，人们对其种植质量和产量的要求也逐渐提高。在此条件下，种子质量就成了豆类栽培的关键。无论是产量还是病害，人工对种子分类非常耗时且效率低下，尤其是在大批量生产时，更需要将分级和分类的任务自动化。在过去的十年中，图像处理技术和CVS被用于研究干豆种子分类。这些系统允许根据质量、颜色和大小等参数对种子品种进行分类。
种子分类的第一步是在评估所进行的研究时获得数字图像，通过图像处理技术在获得的图像上提取种子的特征，特别是形态、颜色和形状特征。其中，颜色特征对分类成功率有很大影响。然而，豆类品种的种子颜色十分相似，给特征分类又带来新的困难。目前，学术界主要集中在对豆类作物遗传多样性、农艺特征、生理学等其他领域的探索，尚未涉猎对大量标准品种进行分类的研究。
本研究的主要目的是提供一种可用于批量生产的干豆识别技术，用于对干豆基本类型进行分类，该干豆包含形态相似的特征，没有明显的颜色特征。使用交叉验证的方法创建了KNN分类模型，并进行了性能优化。

1 数据预处理

干豆数据采集与人工标记是建立干豆品种识别模型的基础。本节主要介绍干豆数据集的构建过程。

1.1 数据采集

数据集中一共10000多条数据，每个数据包含16个特征，1个标签（该条数据对应的种子类别），一共有7类种子。
每个特征都为定距数据，即：取值范围为连续取值的数值数据。
部分特征是通过其他特征计算出来。（这让我想到线性相关）。
各类种子的个数如下：
Seker(2027), Barbunya(1322), Bombay(522), Cali(1630), Dermosan(3546), Horoz(1928) ，Sira(2636)。
下面是各特征的最小值、最大值、平均值、标准差：

表1 不同品种牡丹花图像个数
从表中可以看出，不同特征之间，数据的量级差别较大，数据范围跨度差别很大，面积的最大值达到了254616，而一些特征的最大值还不到1.0，数据值域很小。

图1 拍摄的⼲⾖图像样本

2 KNN模型

KNN算法是一种模式识别方法，根据对象进行分类。一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。也就是说，该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
邻近算法，或者说K最邻近（KNN，K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
该方法的不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最邻近点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。另外还有一种 Reverse KNN法，它能降低KNN算法的计算复杂度，提高分类的效率。

2.1 核心思想

KNN算法的核心思想是，如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

2.2 算法流程

总体来说，KNN分类算法包括以下4个步骤：
①准备数据，对数据进行预处理。
②计算测试样本点（也就是待分类点）到其他每个样本点的距离。
③对每个距离进行排序，然后选择出距离最小的K个点。
④对K个点所属的类别进行比较，根据少数服从多数的原则，将测试样本点归入在K个点中占比最高的那一类。

2.3 损失函数

干豆品种识别属于多分类任务，本文选用交叉熵函数作为模型的损失函数，用于评估卷积神经网络预测输出的类别概率分布与真实分布之间的差异，交叉熵损失函数对于不均衡的样本对网络的准确率的消极影响具有较好的抑制作用。

3 KNN算法实现

一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别，则该样本也属于这个类别。其中k表示最近邻居的个数（距离计算使用欧氏距离）。

图3 KNN预测示意图

3.1 算法实现思路

1.将数据随机划分训练集和测试集
2.计算测试集中单条记录与训练集数据之间的欧式距离
3.将计算的距离进行由小到大排序
4.找出距离最小的前k个值
5.计算找出的值中每类种频次，少数服从多数原则，返回频次最高的类别，即为该种子的类别。
3.2 预测结果

图4训练结果图1

图5训练结果图2

4 对算法的优化

因为不同的特征之间数据的量级差距比较大，而且一些特征的值域范围非常大（面积、周长等特征），很可能导致在算法计算的过程中，将数据取值较小、值域范围较小的特征给忽略掉。
基于上述情况，决定采用均值方差归一化进行优化。（使用StandardScaler）。
我用了现成的库。
具体何时均值方差归一化有两种方式：
1：划分训练集和测试集之前，进行均值方差归一化。
2：划分训练集和测试集之后，在分别进行均值方差归一化。

5 结论

本文采用KNN算法建立干豆图像分类模型，用于自动对不同干豆品种进行分类。结果表明，模型具有较高的准确率，分类性能表现良好。此外，此模型结构还可以用于不同地区的干豆品种分类，并可以利用机器学习方法、深度学习等算法进行进一步改进。
在研究过程中，干豆品种的形状及大小是通过二维图像获取的。在基于二维图像的机器学习技术中，每个干豆品种的形状差异可以用作单独的变量。如果将方差系数也包括在每个品种的形状和大小变量中，干豆品种分类的成功率可能还会提高。

参考文献

[1]刘义.基于LANDSAT8TM数据的九三管理局大豆与豆类遥感分类监测[J].现代化农业,2016(04):59-60.
[2]郑小东,高洁,张晓煜.基于颜色空间转换的混合豆类分类识别[J].中国粮油学报,2015,30(04):102-106.
[3]陈中. 酶钝化豆类种子胰蛋白酶抑制子的研究[D].华南理工大学,2000.
[4]宫崎尚时,刘多刚.绿豆类的亲缘关系与分类[J].国外农学-杂粮作物,1985(03):40-43.
[5]周宏. 基于左右手运动想象的脑电信号的分类研究[D].大连交通大学,2012.
[6]王冰玉,刘勇军.基于信噪比的KPCA-SVM-KNN算法的股价预测研究[J].计算机与数字工程,2022,50(04):685-690.
[7]白洁. 基于改进K邻近算法的短期风功率预测方法研究[D].东北大学,2019.DOI:10.27007/d.cnki.gdbeu.2019.000565.
[8]张硕. 基于KNN算法的空间手势识别研究与应用[D].吉林大学,2017.
[9]刘昊,谭勇,刘春宇,石晶,苗馨卉,蔡红星,辛敏思,高雪,杨艺帆.基于散射光谱的材质分类识别研究[J].长春理工大学学报(自然科学版),2017,40(01):23-26.
[10]徐剑,王安迪,毕猛,周福才.支持隐私保护的k近邻分类器[J].软件学报,2019,30(11):3503-3517.DOI:10.13328/j.cnki.jos.005573.
[11]朱林杰,赵广鹏,康亮河.改进的KNN分类异常点检测方法[J].甘肃科技纵横,2022,51(01):8-11.
[12]蔡孟翔. 基于SVM的改进加权KNN算法对不均衡数据的分类与应用[D].安徽大学,2020.DOI:10.26917/d.cnki.ganhu.2020.001074.

附录代码

import openpyxl
import random
import numpy as np
import operator
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler  # 均值归一化
from sklearn.metrics import confusion_matrix  # 生成混淆矩阵
from sklearn.metrics import classification_report  # 分类报告
# 使用KNN算法实现对干豆种子的分类
def openfile(filename):
    """
    打开数据集，进行数据处理
    :param filename:文件名
    :return:特征集数据、标签集数据
    """
    # 打开excel
    readbook = openpyxl.load_workbook(filename)
    # 获取sheet
    sheet = readbook['Dry_Beans_Dataset']
    # 数据集中数据的总数量
    n_samples = sheet.max_row - 1
    # 数据集中特征的种类个数
    n_features = sheet.max_column - 1
    # empty()函数构造一个未初始化的矩阵，行数为数据集数量，列数为特征值的种类个数
    data = np.empty((n_samples, n_features))
    # empty()函数构造一个未初始化的矩阵，行数为数据集数量，1列
    target = np.empty((n_samples,), dtype=np.object)
    index = 0
    for i in sheet.values:
        if (index != 0):
            data[index - 1] = np.asarray(i[0:-1], dtype=np.object)
            target[index - 1] = np.asarray(i[-1], dtype=np.object)
            index += 1
        else:
            index += 1
    return data, target
def random_number(data_size):
    """
    该函数使用shuffle()打乱一个包含从0到数据集大小的整数列表。因此每次运行程序划分不同，导致结果不同
    改进：
    可使用random设置随机种子，随机一个包含从0到数据集大小的整数列表，保证每次的划分结果相同。
    :param data_size: 数据集大小
    :return: 返回一个列表
    """
    number_set = []
    for i in range(data_size):
        number_set.append(i)
    random.shuffle(number_set)
    return number_set
def split_data_set(data_set, target_set, rate=0.1):
    """
    说明：分割数据集，默认数据集的10%是测试集
    :param data_set: 数据集
    :param target_set: 标签集
    :param rate: 测试集所占的比率
    :return: 返回训练集数据、测试集数据、训练集标签、测试集标签
    """
    # 计算训练集的数据个数
    train_size = int((1 - rate) * len(data_set))
    # 随机获得数据的下标
    data_index = random_number(len(data_set))
    # print(data_index)
    # 分割数据集（X表示数据，y表示标签），以返回的index为下标
    # 训练集数据
    x_train = data_set[data_index[:train_size]]
    # 测试集数据
    x_test = data_set[data_index[train_size:]]
    # 训练集标签
    y_train = target_set[data_index[:train_size]]
    # 测试集标签
    y_test = target_set[data_index[train_size:]]
    return x_train, x_test, y_train, y_test
def data_diatance(x_test, x_train):
    """
    :param x_test: 测试集
    :param x_train: 训练集
    :return: 返回计算的距离
    """
    distances = np.sqrt(sum((x_test - x_train) ** 2))
    return distances
# 只传入一个k值
def knn(x_test, x_train, y_train, k):
    """
    :param x_test: 测试集数据
    :param x_train: 训练集数据
    :param y_train: 训练集标签
    :param k: 邻居数
    :return: 返回一个列表包含预测结果
    """
    # 预测结果列表，用于存储测试集预测出来的结果
    predict_result_set = []
    # 训练集的长度
    train_set_size = len(x_train)
    # 创建一个全零的矩阵，长度为训练集的长度
    distances = np.array(np.zeros(train_set_size))
    # 计算每一个测试集与每一个训练集的距离
    # i 代表测试集记录、indx代表训练集记录
    for i in x_test:
        for indx in range(train_set_size):
            # 计算数据之间的距离
            # 传入测试集、训练集
            distances[indx] = data_diatance(i, x_train[indx])
        # 此时计算完了 测试集第i条记录 和 所有训练集的 欧氏距离
        # y = x.argsort()
        # argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出到y
        # 排序后的距离的下标，从小到大，下标代表在训练集中的下标
        sorted_dist = np.argsort(distances)
        class_count = {}
        # 取出k个最短距离,并且计算每一个标签的数量
        for i in range(k):
            # 获得下标所对应的标签值 y_train 代表 训练集标签
            sort_label = y_train[sorted_dist[i]]
            sort_label = (str)(sort_label)
            # 将标签存入字典之中并存入个数
            count = class_count.get(sort_label, 0) + 1
            class_count[sort_label] = count
        # 对标签的个数 进行排序,从大到小排序
        sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
        # 将出现频次最高的放入预测结果列表
        predict_result_set.append(sorted_class_count[0][0])
    # 返回预测结果列表
    return predict_result_set
def knnChangeK(x_test_item, x_train, y_train, min_k, max_k):
    """
    传入k的范围 [min_k,max_k)
    :param x_test_item: 单个测试记录
    :param x_train: 训练集数据
    :param y_train: 训练接标签
    :param min_k: 最小k值
    :param max_k: 最大k值
    :return: 该单个测试记录对应不同k值下的预测结果
    """
    # 预测结果列表，用于存储不同k值下测试集预测出来的结果
    predict_result_set = []
    # 训练集的长度
    train_set_size = len(x_train)
    # 创建一个全零的矩阵，长度为训练集的长度
    distances = np.array(np.zeros(train_set_size))
    # 计算该测试记录与每一个训练集的距离
    for indx in range(train_set_size):
        # 计算数据之间的距离
        # 传入测试集、训练集
        distances[indx] = data_diatance(x_test_item, x_train[indx])
    # 此时计算完了 该条记录 和 所有训练集的 欧氏距离
    # 排序后的距离的下标，从小到大，下标代表在训练集中的下标
    sorted_dist = np.argsort(distances)
    class_count = {}
    # 枚举k的取值范围
    # 取出k个最短距离,并且计算每一个标签的数量
    for k in range(min_k, max_k):
        for index in range(k):
            # 获得下标所对应的标签值 y_train 代表 训练集标签
            sort_label = y_train[sorted_dist[index]]
            sort_label = (str)(sort_label)
            # 将标签存入字典之中并存入个数
            count = class_count.get(sort_label, 0) + 1
            class_count[sort_label] = count
        # 对标签的个数 进行排序,从大到小排序
        sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
        # 将出现频次最高的放入预测结果列表
        predict_result_set.append((int)(sorted_class_count[0][0]))
    # 返回预测结果列表
    return predict_result_set
def score(predict_result_set, y_test):
    """
    :param predict_result_set: 预测结果列表
    :param y_test: 测试集标签
    :return: 返回测试集精度
    """
    count = 0
    for i in range(0, len(predict_result_set)):
        if predict_result_set[i] == y_test[i]:
            count += 1
    # 预测对的结果 / 总预测数
    score = count / len(predict_result_set)
    return score
def convertNameToCode(name):
    """
    根据名字转换成相应的代码
    :param name: 姓名
    :return: 编码
    """
    if name == "SEKER":
        return 0
    if name == "BARBUNYA":
        return 1
    if name == "BOMBAY":
        return 2
    if name == "CALI":
        return 3
    if name == "DERMASON":
        return 4
    if name == "HOROZ":
        return 5
    if name == "SIRA":
        return 6
if __name__ == "__main__":
    filename = r'D:\desktop\学习\自学\DryBeanDataset\Dry_Bean_Dataset.xlsx'
    bean_dataset = openfile(filename)
    
    # 特征集
    feature = bean_dataset[0]
    # 标签集
    target = bean_dataset[1]
         # 对数据进行均值归一化处理
        
    scaler = StandardScaler()
    # 在数据集划分前对训练集和测试集统一进行处理
    feature = scaler.fit_transform(feature)
    # 将标签集从字符串转成对应的编码（int类型 便于计算）
    for i in range(len(target)):
        target[i] = convertNameToCode(target[i])
    # 数据划分
    x_train, x_test, y_train, y_test = split_data_set(feature, target)
    x = []
    y = []
    result = []
    min_k = 5
    max_k = 21
    # 初始化result
    for i in range(max_k - min_k):
        result.append([])
    for i in x_test:
        # 遍历测试集的每一条数据 列表大小为 max_k-min_k
        x_test_item_result_list = knnChangeK(i, x_train, y_train, min_k, max_k)
        for j in range(len(x_test_item_result_list)):
            result[j].append(x_test_item_result_list[j])
    for i in range(len(result)):
        accuracy = score(result[i], y_test)
        x.append(i + min_k)
        y.append(accuracy)
    print(x)
    print(y)
    plt.plot(x, y)
    plt.xlabel('k-value')
    plt.ylabel('accuracy-value')
    plt.title(u'result map')
    plt.show()
    # 混淆矩阵
    print("输出混淆矩阵")
    conf_mat = confusion_matrix(y_test.astype('int'), result[0])
    print(conf_mat)
    # 精确度，召回率，F1值-F1值是精确度和召回率的调和平均值：
    target_names = ['SEKER', 'BARBUNYA', 'BOMBAY', 'CALI', 'DERMASON', 'HOROZ', 'SIRA']
    report = classification_report(y_test.astype('int'), result[0], target_names=target_names)
    print(report)

欢迎大家加我微信交流讨论（请备注csdn上添加）

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号