forest小拳拳

logistic回归的多分类任务实现------鸢尾花数据（DATA MINING HOMEWORK)

鸢尾花问题：

http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

对于以上给出的数据集，用模型进行训练，得到良好的分类器，分类模型。（要求用线性回归模型）

初看数据可以知道大概这么几个信息：首先数据是四维的，类别是三类，是一个多分类问题。因为题目要求用线性模型做，能想到的分类方式大概就是最朴素的线性回归分类，多项式回归分类，然后就是logistics多分类的处理，和softmax分类器。

线性回归或者多项式回归的分类

因为此堂课老师的的要求是linear regression to train，而且上课也提到了在分类的时候，如何去对这三个类的标签进行一个赋值试探。所以怀疑初衷可能是用朴素的线性回归去做，但是另一方面，logistic分类和softmax其本质也是线性回归，只是嵌套了sigmoid函数和概率方法，因此应该也没有什么问题。但是还是先用线性回归去进行了一些实验。代码如下：

from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import numpy as np

def liner_Regression(data_x,data_y,learningRate,Loopnum):

    Weight=np.ones(shape=(1,data_x.shape[1]))  #The shape size of weight just follows the shape of data_x
    baise=np.array([[1]])

    for num in range(Loopnum):
        WXPlusB = np.dot(data_x, Weight.T) + baise

        loss=np.dot((data_y-WXPlusB).T,data_y-WXPlusB)/data_y.shape[0]
        w_gradient = -(2/data_x.shape[0])*np.dot((data_y-WXPlusB).T,data_x)
        baise_gradient = -2*np.dot((data_y-WXPlusB).T,np.ones(shape=[data_x.shape[0],1]))/data_x.shape[0]

        Weight=Weight-learningRate*w_gradient
        baise=baise-learningRate*baise_gradient
        if num%50==0:
            print('The loss is:',loss[0,0])
    return (Weight,baise)


def test_square_error_computing(test_x,test_y,Weight,baise):
    test_xMat = np.mat(test_x)  # 创建xMat矩阵
    test_yMat = np.mat(test_y).T  # 创建yMat矩阵（行向量）

    y_predict = np.dot(test_xMat,Weight.T)+baise
    square_error = np.dot((test_yMat-y_predict).T,test_yMat-y_predict)/test_yMat.shape[0]

    return square_error

def loadDataSet(fileName):
    xArr = [];
    yArr = []
    for line in open(fileName).readlines():
        curLine = line.strip().split()
        # curLine = line.strip().split('\t')  #中间有很多个空格、缩进或者tab，split的参数直接不用写就行
        xonerow = []  # 添加1.0作为第一个系数，则第一个系数的权重用来代表y=wx+b中的b变量
        for i in range(len(curLine) - 1):

            xonerow.append(float(curLine[i]))  # 最后一列为输出结果值y，前面的值为输入x值
        xArr.append(xonerow)
        yArr.append(float(curLine[-1]))  # 添加最后一列为结果值

    return xArr, yArr
if __name__== "__main__":
    # np.seterr(divide='ignore', invalid='ignore')
    # We type a order for input to choose which dataset we want to load.
    print("Type the order you want")
    order=input()
    if order == '1':
        data_x,data_y=loadDataSet('C:/Users/Carzolar/Desktop/DM_regression2.txt')
        xMat = np.mat(data_x)  # 创建xMat矩阵
        yMat = np.mat(data_y).T  # 创建yMat矩阵（行向量）
    elif order == '2':
        data_x,data_y=loadDataSet('C:/Users/Carzolar/Desktop/2.txt')
        xMat = np.mat(data_x)  # 创建xMat矩阵
        yMat = np.mat(data_y).T  # 创建yMat矩阵（行向量）
    elif order == '3':
        data_x,data_y=loadDataSet('C:/Users/Carzolar/Desktop/3.txt')
        xMat = np.mat(data_x)  # 创建xMat矩阵
        yMat = np.mat(data_y).T  # 创建yMat矩阵（行向量）
    elif order == '4':
        data_x,data_y=loadDataSet('C:/Users/Carzolar/Desktop/4.txt')
        xMat = np.mat(data_x)  # 创建xMat矩阵
        yMat = np.mat(data_y).T  # 创建yMat矩阵（行向量）
    # Here some random dataset belongs to Gaussian distribution
    # xMat=np.random.normal(0,10,[5,3])
    # Weights=np.array([[3,4,6]])
    # noise=np.random.normal(0,0.05,[5,1])
    # yMat=np.dot(xMat,Weights.T)+5+noise
    # print(xMat)
    # print(yMat)
    learningRate = 0.0001
    Loopnum = 10000
    res=liner_Regression(xMat,yMat,learningRate,Loopnum)
    print('The learningrate is',learningRate,', and the times of loop is',Loopnum)
    print('The muti-parameters are',res[0],', and the biase is',res[1])

    # Parameters cut
    biase=res[1]
    b=biase[0,0]

    w=res[0]
    w0=w[0,0]
    w1=w[0,1]
    if order=='2':
        w2 = w[0, 2]
        w3 = w[0, 3]
    if order == '3':
        w2 = w[0, 2]
        w3 = w[0, 3]
        w4 = w[0, 4]
        w5 = w[0, 5]
    if order == '4':
        w2 = w[0, 2]
        w3 = w[0, 3]
        w4 = w[0, 4]
        w5 = w[0, 5]
        w6 = w[0, 6]
        w7 = w[0, 7]



    # Display this plot(function and scatter), and load test files
    x0=np.linspace(-1,1,50)
    x1=np.linspace(-1,1,50)
    if order == '1':
        y = w0 * x0 + w1 * x1 + b
        # And load test file which order==1
        test_x, test_y = loadDataSet('C:/Users/Carzolar/Desktop/DM_regression2.txt')
    if order == '2':
        y = w0 * x0 + w1 * x1 + w2 * x0 ** 2 + w3 * x1 ** 2 + b
        test_x, test_y = loadDataSet('C:/Users/Carzolar/Desktop/test_2.txt')
    if order == '3':
        y = w0 * x0 + w1 * x1 + w2 * x0 ** 2 + w3 * x1 ** 2 + w4 * x0 ** 3 + w5 * x1 ** 3 + b
        test_x, test_y = loadDataSet('C:/Users/Carzolar/Desktop/test_3.txt')
    if order == '4':
        y = w0 * x0 + w1 * x1 + w2 * x0 ** 2 + w3 * x1 ** 2 + w4 * x0 ** 3 + w5 * x1 ** 3 + w6 * x0 ** 4 + w7 * x1 ** 4 + b
        test_x, test_y = loadDataSet('C:/Users/Carzolar/Desktop/test_4.txt')
    # 3D
    # fig = plt.figure()
    # ax = Axes3D(fig)
    # ax.plot(x0, x1, y)
    # plt.show()

    # Evaluate with test dataset and computing square error
    standarderror = test_square_error_computing(test_x,test_y,w,biase)
    print('The Standard error is ',standarderror[0,0],'for ','order',order)

上述代码实现了基本的线性回归，并且为了增大假设空间的搜索范围，也支持从1阶到4阶的多项式回归，但是实际效果一般。其主要影响的方面还是类别标签值的设定：

当三类标签为1，2，3时：Loss标准差为0.091
当三类标签为1，2，5时，Loss标准差为0.64
当三类标签为1，10，100时，Loss标准差为700+

但是其实无法去量化地衡量这个’超参数‘的值，只能通过试探去做，发现1，2，3时的标准差是比较小的。因此可以用此类别标签去训练数据然后进行分类。

logistic 回归分类器

首先简单说一下原理，看的是一个知乎的答案，其描述得可以说是非常详细。。。。。

用logistic的原因很简单，不只是因为其是0，1函数分类，毕竟其他递增或递减的0，1可导函数也能做此操作。主要是因为广义线性回归模型的假设，首先二分类问题可以假设描述成一个伯努利分布，也就是x固定的时候，y是伯努利分布。而广义线性回归模型则可以推导出伯努利分布的唯一参数 $\phi$ ，也就是期望，就是sigmoid函数。具体推导过程就不详述了，就是用指数分布族的概念，网上有很多。

因此，logistic的二分类问题其实是完全符合概率估计的，也就是说其算出来的值也就是满足于该类的概率。因此logistic也应该用极大似然估计作为损失函数去进行优化。

然而这个地方是一个三分类问题，其实也可以用softmax去做，但是softmax更多的运用于神经网络中，倒数第二层输出的是一个向量，即多个结果，对应于每一类，这样再去判断对于每一类的概率（softmax），这里还是用logistics去做，只是方式有所不同。

logistics的多分类方法可以描述成1对多问题，也就是讲某一类的标签作为1，其他都是0，以此求出一个参数W1作为该类的概率估计参数，同理对其他类都求出W。最后用测试集进行测试，分别对每一个W进行验证，看哪一个概率最高，就选那一类作为标签。其代码如下：

from numpy import *
import numpy as np
import math
import matplotlib.pyplot as plt
#构造函数来获取数据
def loadDataSet(fileName):
    xArr = [];
    yArr = []
    for line in open(fileName).readlines():
        curLine = line.strip().split()
        # curLine = line.strip().split('\t')  #中间有很多个空格、缩进或者tab，split的参数直接不用写就行
        xonerow = []  # 添加1.0作为第一个系数，则第一个系数的权重用来代表y=wx+b中的b变量
        for i in range(len(curLine) - 1):

            xonerow.append(float(curLine[i]))  # 最后一列为输出结果值y，前面的值为输入x值
        xArr.append(xonerow)
        yArr.append(int(curLine[-1]))  # 添加最后一列为结果值

    return xArr, yArr

# loadDataSet2
def loadDataSet2(fileName):
    xArr = [];
    for line in open(fileName).readlines():
        curLine = line.strip().split()
        # curLine = line.strip().split('\t')  #中间有很多个空格、缩进或者tab，split的参数直接不用写就行
        xonerow = []  # 添加1.0作为第一个系数，则第一个系数的权重用来代表y=wx+b中的b变量
        for i in range(len(curLine)):

            xonerow.append(float(curLine[i]))  # 最后一列为输出结果值y，前面的值为输入x值
        xArr.append(xonerow)
    return xArr
# def loadDataSet(fileName):
#     data_x=[];data_y=[]
#     # fr=open('machinelearninginaction/Ch05/testSet.txt')
#     for line in open(fileName).readlines():
#         lineArr=line.strip().split()
#         data_x.append([1.0,float(lineArr[0]),float(lineArr[1])])#特征数据集，添加1是构造常数项x0
#         data_y.append(int(lineArr[-1]))#分类数据集
#     return data_x,data_y

def sigmoid(X):
    return 1/(1+exp(-X))

#Logistic regression to gradient ascend
def gradAscent(data_x,data_y):
    data_xrix=mat(data_x) #(m,n)
    data_y=mat(data_y).transpose() #(m,1)
    m,n=shape(data_xrix)
    Weights=ones((n,1)) #initialization(n,1)
    alpha=0.001 #define the step
    maxCycles=500 #times of loop
    #We can also define a regularization parameter to constrain some huge weight
    reg_lambda = math.exp(-8)
    for i in range(maxCycles):
        h = sigmoid(data_xrix * Weights) #f(thetax)
        # print(h.shape)
        error = data_y - h #y-h，（m,1）
        Weights=(1-reg_lambda)*Weights + alpha * data_xrix.transpose() * error #Gradient ascend
    return Weights

def Judgefunction(test_y,folder):
    val=[]
    rel=[]
    for i in range(test_y.shape[0]):
        val.append(test_y[i,0])
        if val[i]<0.5:
            rel.append('P'+folder)
        else:
            rel.append('N'+folder)
    return rel

#Calculating the weights and cut them into training data and test data for cross validation
def weights_calculate(data_x,data_y,times):  #folder means should label which probability we train
    # traning data (120 items in our dataset from three folders)
    training_data_x1 = data_x[times:times + 40]
    training_data_x2 = data_x[times+50:times + 90]
    training_data_x3 = data_x[times+100:times + 140]
    training_data_x1 = np.vstack((training_data_x1,training_data_x2))
    training_data_x1 = np.vstack((training_data_x1, training_data_x3))
    training_data_x = training_data_x1


    training_data_y1 = data_y[times:times + 40]
    training_data_y2 = data_y[times+50:times + 90]
    training_data_y3 = data_y[times+100:times + 140]
    training_data_y1 = np.hstack((training_data_y1, training_data_y2))
    training_data_y1 = np.hstack((training_data_y1, training_data_y3))
    training_data_y = list(training_data_y1)
    # print(training_data_y.shape)
    #train data
    Weights = gradAscent(training_data_x, training_data_y) #tranning weights for this folder

    # test data
    if times==0:
        test_data_x1 = data_x[times+40:times+50]
        test_data_x2 = data_x[times+90:times+100]
        test_data_x3 = data_x[times+140:times+150]
        test_data_x1 = np.vstack((test_data_x1, test_data_x2))
        test_data_x1 = np.vstack((test_data_x1, test_data_x3))
        test_data_x = test_data_x1

        test_data_y1 = data_y[times + 40:times + 50]
        test_data_y2 = data_y[times + 90:times + 100]
        test_data_y3 = data_y[times + 140:times + 150]
        test_data_y1 = np.hstack((test_data_y1, test_data_y2))
        test_data_y1 = np.hstack((test_data_y1, test_data_y3))
        test_data_y = test_data_y1
    elif times==10:
        test_data_x1 = data_x[50-(times + 40):times]
        test_data_x2 = data_x[times+50:times+60]
        test_data_x3 = data_x[times+100:times + 110]
        test_data_x1 = np.vstack((test_data_x1, test_data_x2))
        test_data_x1 = np.vstack((test_data_x1, test_data_x3))
        test_data_x = test_data_x1

        test_data_y1 = data_y[50-(times + 40):times]
        test_data_y2 = data_y[times+50:times+60]
        test_data_y3 = data_y[times+100:times + 110]
        test_data_y1 = np.hstack((test_data_y1, test_data_y2))
        test_data_y1 = np.hstack((test_data_y1, test_data_y3))
        test_data_y = test_data_y1
    predict_y = sigmoid(test_data_x * Weights)  # The probability of test_data match to current folder(test_x,1) (30,1)




    return predict_y, test_data_y,Weights

if __name__== "__main__":
    data_x, data_y = loadDataSet('C:/Users/Carzolar/Desktop/DM_1.txt')
    data_x2,data_y2 = loadDataSet('C:/Users/Carzolar/Desktop/DM_2.txt')
    data_x3, data_y3 = loadDataSet('C:/Users/Carzolar/Desktop/DM_3.txt')

    train_folder = 40
    test_folder = 10


    # get the predict_result and test_result
    predict_y,test_y,weights = weights_calculate(data_x,data_y,0)
    predict_y2,test_y2,weights2 = weights_calculate(data_x2,data_y2,0)
    predict_y3,test_y3,weights3 = weights_calculate(data_x3,data_y3,0)
    # Compare these three probabilities to select the labels to test_data

    res=[]
    for i in range(predict_y.shape[0]):
        if max(predict_y[i,0],predict_y2[i,0],predict_y3[i,0])==predict_y[i,0]:
            res.append(1)
        elif max(predict_y[i,0],predict_y2[i,0],predict_y3[i,0])==predict_y2[i,0]:
            res.append(2)
        elif max(predict_y[i,0],predict_y2[i,0],predict_y3[i,0])==predict_y3[i,0]:
            res.append(3)

    test_y_rel = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3]
    count = 0
    for j in range(len(res)):
        if res[j] == test_y_rel[j]:
            count += 1
    CV_n = count / len(res)

    print('The probability of training folder', train_folder, 'and test folder', test_folder, 'in current loop is', CV_n)
    print('Where the weights are: ', '\n', weights, '\n', 'and', '\n', weights2, '\n', 'and', '\n', weights3)
    #display the res

    display_res=[]
    for i in range(len(res)):
        if res[i]==1:
            display_res.append('Iris-setosa')
        elif res[i]==2:
            display_res.append('Iris-versicolor')
        elif res[i]==3:
            display_res.append('Iris-virginica')
    print('For this test_data, the prediction is:')
    print(display_res)

通过使用cross validation进行验证，以每个类中的10个作为验证集，其他作为训练集，循环测试，发现准确率还是非常高的。

（0.9666667，0.9666667，0.9666667，1，1，1，1，1，1，1，1，1，1，1，1，1..........0.9666667...........)验证集的准确率都在这个水准以上。比最简单的线性回归要好很多。。

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ROS2 强化学习：案例与代码实战芯动大师 ROS2学习目标检测人工智能
一、引言在机器人技术不断发展的今天，强化学习（RL）作为一种强大的机器学习范式，为机器人的智能决策和自主控制提供了新的途径。ROS2（RobotOperatingSystem2）作为新一代机器人操作系统，具有更好的实时性、分布式性能和安全性，为强化学习在机器人领域的应用提供了更坚实的基础。本文将通过一个具体案例，深入探讨ROS2与强化学习的结合应用，并提供相关代码实现。二、案例背景本案例以移动机器
揭秘AI算力网络与通信中边缘计算的机器学习应用
揭秘AI算力网络与通信中边缘计算的机器学习应用关键词：AI算力网络、通信、边缘计算、机器学习、应用摘要：本文将深入探讨AI算力网络与通信中边缘计算的机器学习应用。我们会先介绍相关背景知识，接着解释核心概念，分析它们之间的关系，阐述核心算法原理和操作步骤，结合数学模型举例说明，通过项目实战展示代码实现与解读，探讨实际应用场景，推荐相关工具和资源，最后展望未来发展趋势与挑战。希望通过这篇文章，能让大家
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
Sklearn 机器学习数值离散化虚拟编码 Thomas Kant 人工智能机器学习 sklearn 人工智能
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Sklearn机器学习：数值离散化+虚拟编码实战详解在机器学习的特征工程中，数值型特征并不总是适合直接输入模型。尤其是树模型或分类模型时，**将连续变量进行离散化（分箱）+虚拟编码（独热编码）**是一种常见且高效的
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
【高频考点精讲】前端AI集成实战：从TensorFlow.js到模型部署全栈老李技术面试前端高频考点精讲前端 javascript html css 面试题 react vue
前端AI集成实战：从TensorFlow.js到模型部署‍作者：全栈老李更新时间：2025年5月‍适合人群：前端初学者、进阶开发者版权：本文由全栈老李原创，转载请注明出处。今天咱们聊聊前端工程师如何玩转AI——没错，用JavaScript就能搞机器学习！我是全栈老李，一个喜欢把复杂技术讲简单的实战派。最近发现不少前端同学对AI既好奇又害怕，其实真没想象中那么难，跟着老李走，30分钟让你亲手部署第一
【机器学习第二期（Python）】优化梯度提升决策树 XGBoost WW、forever 深度学习原理及代码实现机器学习 python 决策树
优化梯度提升决策树XGBoost一、XGBoost简介二、原理详解2.1基础思想：改进版GBDT2.2目标函数2.3二阶泰勒展开优化2.4树结构优化三、XGBoost实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考梯度提升决策树GBDT的原理及Python代码实现可参考另一博客-【机器学习第一期（Python）】梯度提升决策树GBDT。XGBoost（ExtremeGrad
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
云原生SLO与AIOps的完美结合：智能运维新趋势 AI云原生与云计算技术学院云原生 ai
云原生SLO与AIOps的完美结合：智能运维新趋势关键词：云原生、SLO、AIOps、智能运维、服务等级目标、自动化运维、机器学习摘要：本文深入探讨云原生环境下服务等级目标（SLO）与智能运维（AIOps）的融合实践。通过解析SLO的核心原理与AIOps的技术架构，揭示两者在指标定义、异常检测、自动化修复等环节的协同机制。结合具体算法实现、数学模型分析与项目实战案例，展示如何通过数据驱动的智能运维
【Rust】——使用消息在线程之间传递数据 Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录信道与所有权转移发送多个值并观察接收者的等待通过克隆发送者来创建多个生产者学
开源浪潮之巅：当前最热门的开源项目全景图万能小贤哥开源
开源世界活力澎湃，无数项目推动着技术边界。以下精选当前最受关注、社区活跃的热门开源项目，涵盖人工智能、开发工具、基础设施等关键领域：一、人工智能与机器学习：引领创新前沿Llama系列(MetaAI):核心价值：Meta开源的大语言模型家族(Llama2,Llama3)，性能媲美顶尖闭源模型。提供多种规模版本，支持商用，极大降低了企业和研究者使用先进LLM的门槛。热度体现：GitHub星标飞速增长，
基于机器学习的定增项目精准营销研究 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于机器学习的定增项目精准营销研究作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着中国资本市场的不断发展，定增（定向增发）作为上市公司进行再融资的重要途径，越来越受到市场关注。定增项目涉及众多参与方，包括上市公司、投资者、保荐机构、会计师事务所等。对于投资者而言，如何在众多定增项目中筛选出具有潜力的项目，进行精准投资，
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

logistic回归的多分类任务实现------鸢尾花数据（DATA MINING HOMEWORK)

你可能感兴趣的:(机器学习,数据挖掘)