ptonlix

用机器学习对车辆进行评估，一起入门机器学习

聊聊天

这几天一直在看机器学习的有关资料，对机器学习产生浓厚的兴趣，然后自己根据机器学习的入门知识，完成了这个简单的车辆评估程序。希望通过我这篇文章给和我一样刚入机器学习的小伙伴一点帮助，同时希望与更多的人交流技术心得，感悟体会。
好，废话不多说。

开发环境

首先，说一下我系统的开发环境 anaconda3, 可以在百度上直接搜索下载，里面包含了很多机器学习所用到的环境和工具，包括python，在这里说明一下，我用的是python3.6,如果有用python2的小伙伴，可能后面的代码需要自己改动一下。
所以，只要安装anaconda3,你就可以拥有开发机器学习所需要的准备的东西，简单方便。

开始

接下来，我就按照我编写代码的思路和步骤，分步来说。

确定算法

在这个程序中，我采用了K-近邻算法，这个算法比较简单，比较适合入门机器学习，所以我采用这种算法进行开发。

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

其实就是相当与我们距离计算的公式

测试的数据 与 数据集进行求值，比较距离的大小，就能知道该测试数据更接近与什么结果

收集数据

我们对车辆进行评估，终归要有数据作为支撑，在这里我选用比较热门的Car Evaluation Database数据集来开发这个程序。
大家可以通过以下网址进行下载，这个网站也包含了很多经典的数据集。
http://archive.ics.uci.edu/ml/index.php
看到Car Evaluation，点进去找到我们要的数据，把数据复制粘贴下来，保存到文本文件中。

准备数据

我们可以看一下这个数据集的介绍文本，
 buying       v-high, high, med, low
 maint        v-high, high, med, low
 doors        2, 3, 4, 5-more
 persons      2, 4, more
 lug_boot     small, med, big
 safety       low, med, high

这是我们对车辆进行评估的六个特征量，分别是购买价格，维修费用，车门数量，能容纳的人数，后备箱的大小和安全程度。
而这六个特征量就决定了我们评估的四个结果：
unacc --- 不能接受
acc   --- 还可以接受
good  --- 不错
vgood --- 非常好

上述这些信息，都可以通过我们下载的数据集文件中获得。

首先，我们需要从文本文件中把这些数据读出来。

from numpy import *
import operator 
#读数据集并保存到矩阵中
def filecarmatrix(filepath):
    fr = open(filepath)
    arraylines = fr.readlines()
    numberlines = len(arraylines)
    returnMat = zeros((numberlines, 6)) #生成零矩阵
    classLabelVector = []
    index = 0;        
    for line in arraylines:
        line = line.strip()#移除字符串头尾指定的字符（默认为空格）
        listfromline = line.split(',')
        numline = KeyToNum(listfromline) #将数据进行数字化处理
        returnMat[index, :] = numline[0:6]#将特征数据量传入矩阵
        classLabelVector.append(int(numline[-1]))
        index += 1
    return returnMat, classLabelVector

可以看到我这段代码里面有个函数，KeyToNum 这个函数是用来将我们的数据中的字符串转换为数字，因为我们要用矩阵去做相关的运算，所以我们都要把我们的信息用数字去代替，在这里我代替的方案如下(直接附上KeyToNum函数代码)

def KeyToNum(line):
    #将一行的字符串变成对应的数字
    numline = [] 
    switcher = {
            'vhigh'  : 4 ,
            'high'   : 3 ,
            'med'    : 2 ,
            'low'    : 1 ,
            '5more'  : 5 ,
            'more'   : 6 ,
            'small'  : 1 ,
            'big'    : 3 ,
            'unacc'  : 1 ,
            'acc'    : 2 ,
            'good'   : 3 ,
            'vgood'  : 4 ,          
    }
    for key in line:
        numline.append(switcher.get(key, key))
    return numline

现在我们已经将数据读取出来了，并且转换为矩阵的形式。returnMat为我们六个特征量的矩阵，classLabelVector为相对应的车辆评估结果的列表。

归一化数值

因为我们6个特征量的值权重是相等的，而这6个特征的值我需要对其进行归一化，让它们的值都在0-1之间

#归一化处理数据
'''
归一化数值
newValue = (oldValue - min) / (max - min) 
'''
def autoNorm(DataSet):
    minVals = DataSet.min(0 )#将每列中的最小值放在变量minVals中
    maxVals = DataSet.max(0) #将每列中的最小值放在变量minVals中
    ranges = maxVals - minVals #将每列中的最小值放在变量minVals中
    normDataSet = zeros(shape(DataSet)) #生成一个与dataSet相同的零矩阵
    m = DataSet.shape[0] #求出dataSet列长度
    normDataSet = DataSet - tile(minVals, (m, 1)) #求出oldValue - min
    normDataSet = normDataSet / tile(ranges, (m,1)) #求出归一化数值
    return normDataSet, ranges, minVals

分类器制作（K-近邻算法的实现）

就是计算了测试数据相对于测试集中每一组数据的距离，并且根据，k值来选取最近的K的个数据，并且统计k个数据中，出现次数最高的结果，最为测试数据的结果

#分类器制作
def classifyCar(CarData, DataSet, Labels, k):
    DataSetSize = DataSet.shape[0] #获取矩阵第一纬度的长度
    DiffMat = tile(CarData, (DataSetSize, 1)) - DataSet
    sqDiffMat = DiffMat**2
    sqDistances = sqDiffMat**0.5
    distances = sqDistances.sum(axis=1) #矩阵行相加。生成新矩阵
    sortedDistIndicies = distances.argsort() #返回矩阵中的数组从小到大的下标值，返回新矩阵
    classCount = {}  #初始化新字典
    for i in range(k):
        voterLabel = Labels[sortedDistIndicies[i]]
        classCount[voterLabel] = classCount.get(voterLabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse=True) #排序
    return sortedClassCount[0][0]

测试检验

这里用我们收集到的数据集的10%数据对我们程序进行检验，检验代码如下

#编写测试代码
def CarEvaClassTest():
    basePer = 0.1 #测试基数，选取文本中10%的数据进行测试
    CarDataMat, CarLabels = filecarmatrix(r'D:\Learning\DataSet\car.txt')
    normMat, ranges, minVals = autoNorm(CarDataMat) #进行数据归一化
    m = normMat.shape[0]  #读取数据的列长度
    numTestVecs = int(m * basePer) #确定测试的数量
    errorCount = 0.0  #记录错误数量的变量
    for i in range(numTestVecs):  #进行循环测试
        result = classifyCar(normMat[i, :], normMat[numTestVecs:m, :], \
                             CarLabels[numTestVecs:m], 6) #通过分类器进行判断
        print('the classifer came back with: %d, the real answer is %d' \
              % (result, CarLabels[i]))
        if(result != CarLabels[i]): #比较判断数据和实际数据，并且打印
            errorCount += 1 #错误计数
    print('the total error rate is %f' % (errorCount/float(numTestVecs)))#打印错误率

可以设置不同的k值进行检验，观察错误率的变化，也可以选取不同的数据进行测试检验，观察

编写交互程序

#交互方法
def CarEvaluation():
    resultList = ['unacceptable', 'accept', 'good', 'very good']
    buying = input('How much is this car? Options: vhigh, high, med, low\n')
    maint = input('How much is the maintenance of the car? Options: vhigh, high, med, low\n')
    doors = input('How many doors does this car have? Options: 2, 3, 4, 5more\n')
    person = input('How many people can this car hold? Options:  2, 4, more\n')
    lug_boot = input('How big is the trunk of this car? Options: small, med, big\n')
    safety = input('How safe is the car? Options: low, med, high\n')
    characteristic = [buying, maint, doors, person, lug_boot, safety]
    CarDataMat, CarLabels = filecarmatrix(r'D:\Learning\DataSet\car.txt')
    normMat, ranges, minVals = autoNorm(CarDataMat) #进行数据归一化
    inArr = array(list(map(int, KeyToNum(characteristic)))) #通过map函数将，KeytoNum生成的列表内容全部转换为数字
    print(KeyToNum(characteristic))
    print(inArr)
    Result= classifyCar((inArr - minVals) / ranges, normMat, CarLabels, 6) 
    print('You will probably like this car:', resultList[Result - 1])

整体代码

# -*- coding: utf-8 -*-
"""
k-近邻算法进行车辆评测

Created on Wed Aug  9 14:25:59 2017

@author: cfd
"""
from numpy import *
import operator 
#数据处理
#数字化处理
def KeyToNum(line):
    #将一行的字符串变成对应的数字
    numline = [] 
    switcher = {
            'vhigh'  : 4 ,
            'high'   : 3 ,
            'med'    : 2 ,
            'low'    : 1 ,
            '5more'  : 5 ,
            'more'   : 6 ,
            'small'  : 1 ,
            'big'    : 3 ,
            'unacc'  : 1 ,
            'acc'    : 2 ,
            'good'   : 3 ,
            'vgood'  : 4 ,          
    }
    for key in line:
        numline.append(switcher.get(key, key))
    return numline
#读数据集并保存到矩阵中
def filecarmatrix(filepath):
    fr = open(filepath)
    arraylines = fr.readlines()
    numberlines = len(arraylines)
    returnMat = zeros((numberlines, 6)) #生成零矩阵
    classLabelVector = []
    index = 0;        
    for line in arraylines:
        line = line.strip()#移除字符串头尾指定的字符（默认为空格）
        listfromline = line.split(',')
        numline = KeyToNum(listfromline) #将数据进行数字化处理
        returnMat[index, :] = numline[0:6]#将特征数据量传入矩阵
        classLabelVector.append(int(numline[-1]))
        index += 1
    return returnMat, classLabelVector


#归一化处理数据
'''
归一化数值
newValue = (oldValue - min) / (max - min)
'''
def autoNorm(DataSet):
    minVals = DataSet.min(0 )#将每列中的最小值放在变量minVals中
    maxVals = DataSet.max(0) #将每列中的最小值放在变量minVals中
    ranges = maxVals - minVals #将每列中的最小值放在变量minVals中
    normDataSet = zeros(shape(DataSet)) #生成一个与dataSet相同的零矩阵
    m = DataSet.shape[0] #求出dataSet列长度
    normDataSet = DataSet - tile(minVals, (m, 1)) #求出oldValue - min
    normDataSet = normDataSet / tile(ranges, (m,1)) #求出归一化数值
    return normDataSet, ranges, minVals

#分类器制作
def classifyCar(CarData, DataSet, Labels, k):
    DataSetSize = DataSet.shape[0] #获取矩阵第一纬度的长度
    DiffMat = tile(CarData, (DataSetSize, 1)) - DataSet
    sqDiffMat = DiffMat**2
    sqDistances = sqDiffMat**0.5
    distances = sqDistances.sum(axis=1) #矩阵行相加。生成新矩阵
    sortedDistIndicies = distances.argsort() #返回矩阵中的数组从小到大的下标值，返回新矩阵
    classCount = {}  #初始化新字典
    for i in range(k):
        voterLabel = Labels[sortedDistIndicies[i]]
        classCount[voterLabel] = classCount.get(voterLabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse=True) #排序
    return sortedClassCount[0][0]

#编写测试代码
def CarEvaClassTest():
    basePer = 0.1 #测试基数，选取文本中10%的数据进行测试
    CarDataMat, CarLabels = filecarmatrix(r'D:\Learning\DataSet\car.txt')
    normMat, ranges, minVals = autoNorm(CarDataMat) #进行数据归一化
    m = normMat.shape[0]  #读取数据的列长度
    numTestVecs = int(m * basePer) #确定测试的数量
    errorCount = 0.0  #记录错误数量的变量
    for i in range(numTestVecs):  #进行循环测试
        result = classifyCar(normMat[i, :], normMat[numTestVecs:m, :], \
                             CarLabels[numTestVecs:m], 6) #通过分类器进行判断
        print('the classifer came back with: %d, the real answer is %d' \
              % (result, CarLabels[i]))
        if(result != CarLabels[i]): #比较判断数据和实际数据，并且打印
            errorCount += 1 #错误计数
    print('the total error rate is %f' % (errorCount/float(numTestVecs)))#打印错误率

#交互方法
def CarEvaluation():
    resultList = ['unacceptable', 'accept', 'good', 'very good']
    buying = input('How much is this car? Options: vhigh, high, med, low\n')
    maint = input('How much is the maintenance of the car? Options: vhigh, high, med, low\n')
    doors = input('How many doors does this car have? Options: 2, 3, 4, 5more\n')
    person = input('How many people can this car hold? Options:  2, 4, more\n')
    lug_boot = input('How big is the trunk of this car? Options: small, med, big\n')
    safety = input('How safe is the car? Options: low, med, high\n')
    characteristic = [buying, maint, doors, person, lug_boot, safety]
    CarDataMat, CarLabels = filecarmatrix(r'D:\Learning\DataSet\car.txt')
    normMat, ranges, minVals = autoNorm(CarDataMat) #进行数据归一化
    inArr = array(list(map(int, KeyToNum(characteristic)))) #通过map函数将，KeytoNum生成的列表内容全部转换为数字
    print(KeyToNum(characteristic))
    print(inArr)
    Result= classifyCar((inArr - minVals) / ranges, normMat, CarLabels, 6) 
    print('You will probably like this car:', resultList[Result - 1])
#print(KeyToNum(['vhigh','vhigh',2,2,'small','low', 'unacc']))

#returnMat, classLabelVector = filecarmatrix(r'D:\Learning\DataSet\car.txt')
#print(returnMat)
#CarEvaClassTest()
CarEvaluation()

总结

由于个人水平所限，有些地方说得不是很明白，大家可以通过百度或者相关书籍去了解学习，同时，如果有什么建议，可以留言给我。谢谢！

PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
【Rust】——不安全Rust Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录不安全的超能力解引用裸指针调用不安全函数或方法创建不安全代码的安全抽象使用e
超简单|Python实现机器学习算法——KNN birdcome python 机器学习 KNN算法
超简单|Python实现机器学习算法——KNNKNN算法简介算法实现步骤如何用python实现KNN算法Scikit-learn算法库实现KNN分类器Sklearn建模流程KNN算法简介KNN算法（k近邻算法）是一种有监督分类算法，它的原理非常简单，下面以一个简单的例子引入。已知两种酒的标签：赤霞珠和黑皮诺，在这个情景中，我们对酒进行分类的依据是酒精浓度和颜色深度，如下图所示：红色代表赤霞珠，紫色
《机器学习模型快速收敛的秘籍大揭秘》人工智能深度学习
在机器学习的领域中，让模型快速收敛是众多从业者和研究者们共同追求的目标。因为快速收敛不仅能节省大量的时间和计算资源，还能使模型更快地投入实际应用，为我们带来更高的效率和价值。以下是一些实现机器学习模型快速收敛的方法。选择合适的优化器优化器在模型训练中起着至关重要的作用，它决定了模型参数的更新方式和步长。常见的优化器如Adam、RMSProp和Momentum等都有各自的特点和优势。Adam结合了M
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！ eclipsercp 工具毕业设计 python 机器学习线性代数人工智能
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！文章目录【机器学习】从零开始，用线性代数解锁智能时代的钥匙！引言在这个数据驱动的时代，机器学习已经成为解锁智能科技的关键。但你是否曾被复杂的数学公式和算法搞得晕头转向？别担心，这篇文章将带你从零开始，用最直观的方式掌握线性代数——机器学习的核心武器！线性代数：机器学习的基石向量：数据的基本单元Python代码示例：向量操作矩阵：多维数据的集合Py
【机器学习】聚类【Ⅰ】基础知识与距离度量不牌不改【机器学习】聚类机器学习算法
主要来自周志华《机器学习》一书，数学推导主要来自简书博主“形式运算”的原创博客，包含自己的理解。有任何的书写错误、排版错误、概念错误等，希望大家包含指正。由于字数限制，分成五篇博客。【机器学习】聚类【Ⅰ】基础知识与距离度量【机器学习】聚类【Ⅱ】原型聚类经典算法【机器学习】聚类【Ⅲ】高斯混合模型讲解【机器学习】聚类【Ⅳ】高斯混合模型数学推导【机器学习】聚类【Ⅴ】密度聚类与层次聚类聚类1聚类任务在“无
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
Python pandas离散化方法优化与应用实例 python慕遥 Python数据分析 Pandas 数据科学 python pandas 机器学习
大家好，在数据分析中，离散化是将连续数据划分为不同区间的一种重要方法。这种方法可以更好地理解数据分布、简化分析、或在分类建模中对特征进行转换。在Python的Pandas库中，cut和qcut是两个强大的工具，分别用于基于固定区间和基于分位数对数据进行离散化。它们的灵活性和易用性使其在数据处理过程中十分常用。离散化可以将复杂的连续数据转化为更直观的区间，帮助快速发现数据分布规律，并且在机器学习中，
Pandas数据预处理：处理缺失值 - 插值法代码艺术巧匠 pandas Python
Pandas数据预处理：处理缺失值-插值法在数据分析和机器学习任务中，处理缺失值是一个常见的挑战。缺失值可能由于多种原因而产生，例如数据采集过程中的错误、设备故障或者用户不完整的输入。为了有效地处理缺失值，插值法是一种常用的技术。在本文中，我们将使用Python中的Pandas库来演示如何使用插值法处理缺失值。首先，我们需要导入Pandas库并加载包含缺失值的数据集。假设我们有一个名为df的数据框
气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
记录一个LLM+API类型的临床预测模型APP（糖尿病Cox预测模型）的过程预测模型的开发与应用研究 APP construction web app
记录一个LLM+API类型的临床预测模型APP（糖尿病Cox预测模型）的构建过程LLM代表的是大语言模型，API代表的是机器学习模型，LLM+API是说将机器学习模型以API的形式引入到LLM，让机器学习模型以对话的方式与用户交流而服务于临床实践的APP形式，是区别与streamlit等具有可视化界面的APP的另外一种APP形式，其优点是结合了LLM丰富的知识储备和对用户需求的理解能力，以及机器学
python训练模型损失值6000多_机器学习中的 7 大损失函数实战总结（附Python演练）... weixin_39700394
介绍想象一下-你已经在给定的数据集上训练了机器学习模型，并准备好将它交付给客户。但是，你如何确定该模型能够提供最佳结果?是否有指标或技术可以帮助你快速评估数据集上的模型?当然是有的，简而言之，机器学习中损失函数可以解决以上问题。损失函数是我们喜欢使用的机器学习算法的核心。但大多数初学者和爱好者不清楚如何以及在何处使用它们。它们并不难理解，反而可以增强你对机器学习算法的理解。那么，什么是损失函数，你
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
【TVM 教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在ifname=="__main__":代码块中。importosi
AI Agent：一场智能革命的开始 TechubNews 人工智能
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
国产替代 | 星环科技Sophon替代SAS，助力大型国有银行智能化营销数据挖掘
分布式架构的｜国产智能分析工具在银行交易中，20%的头部优质客户会给银行贡献80%的利润，而赢得一个新客户的成本是保留一个老客户的5至6倍。某大型国有银行在面临此类数据挖掘的业务时，使用的是SAS产品。由于SAS是集中式的，对单台服务器要求太高，算力无法支撑需求，且无法支持可视化的机器学习，对于业务人员来说使用门槛过高。在经过产品选型后，决定采用星环科技的智能分析工具Sophon替换原有SAS，用
交叉熵损失与二元交叉熵损失：区别、联系及实现细节专业发呆业余科研深度模型底层原理人工智能深度学习 python
在机器学习和深度学习中，交叉熵损失（Cross-EntropyLoss）和二元交叉熵损失（BinaryCross-EntropyLoss）是两种常用的损失函数，它们在分类任务中发挥着重要作用。本文将详细介绍这两种损失函数的区别和联系，并通过具体的代码示例来说明它们的实现细节。交叉熵损失（Cross-EntropyLoss）常用于多类分类问题，即每个样本只能属于一个类别，但总类别数量较多。例如，在手
KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告美团机器学习深度学习
ACMSIGKDD（KnowledgeDiscoveryandDataMining，简称KDD）是数据挖掘领域的国际顶级会议。KDDCup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事，从1997年开始，每年举办一次，是目前数据挖掘领域最有影响力的赛事。本文精选了美团技术团队被KDD2024收录的5篇长文进行解读，覆盖了用户意图感知、机器学习&运筹优化、在线控制实验、联合广告模型、实时调
llama.cpp部署法号：行颠机器学习机器学习
llama.cpp介绍部署介绍大模型的研究分为训练和推理两个部分：训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化；推理结果最优化的过程；训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。llama.cpp主要解决的是推理过程中的性能问题。主要有两点优化：llama.cpp使用的是C语言写的机器学习张量库ggmlllama.cpp提供了模型量化的工具计算类
Kubeflow：云原生机器学习工作流自动化开源框架详解 gs80140 AI 基础知识科谱人工智能 Kubeflow
Kubeflow是一个开源的机器学习（ML）工作流自动化平台，旨在将机器学习工作流部署到Kubernetes之上，实现从实验到生产的一站式解决方案。它提供了针对容器化机器学习任务的工具链，能够自动化地管理、部署和监控模型的整个生命周期。Kubeflow的核心组件Notebooks（交互式开发环境）支持JupyterNotebooks，通过Kubernetes集群进行计算资源的扩展和管理。Pipel
【机器学习：三十一、推荐系统：从基础到应用】 KeyPan 机器学习机器学习人工智能决策树算法深度学习
1.推荐系统概述推荐系统是一种根据用户的兴趣和偏好，为用户提供个性化建议的技术，广泛应用于电子商务、流媒体平台和社交媒体等领域。通过分析用户行为数据，推荐系统可以帮助用户发现他们感兴趣的内容，同时提升平台的用户体验和商业收益。定义与作用推荐系统是一种数据过滤技术，旨在从海量数据中筛选出用户可能感兴趣的信息。它不仅能提升用户的满意度，还能增加平台的转化率和黏性。分类推荐系统主要分为以下三类：基于内容
【机器学习：三十、异常检测：原理与实践】 KeyPan 机器学习机器学习人工智能深度学习 pytorch 神经网络
1.异常检测概述异常检测（AnomalyDetection）是一种用于识别数据中异常模式或异常点的技术，旨在发现与大部分数据行为不同的样本。它在工业监控、网络安全、金融欺诈检测等领域具有广泛应用。异常检测的目标是找到那些偏离正常行为的数据点，这些数据点可能代表错误、故障、攻击或其他需要特别关注的情况。核心概念异常通常分为以下三种类型：点异常：单个数据点显著偏离正常分布（例如，银行交易中突然的巨额消
【机器学习：二十九、K-means算法：原理与应用】 KeyPan 机器学习机器学习算法 kmeans 人工智能神经网络深度学习数据挖掘
1.K-means概述K-means是一种经典的无监督学习算法，广泛应用于数据聚类任务。其核心思想是将数据集划分为kkk个簇，使得每个簇内的样本尽可能相似，同时不同簇之间尽可能不同。K-means的简单性和高效性使其在模式识别、图像处理、市场分析等领域具有广泛应用。核心思想基于欧几里得距离度量数据点之间的相似性。不断优化簇中心位置，最小化簇内样本与其中心点之间的总距离（即误差平方和，SSE）。适用
人工智能下的MASS服务架构从零开始学习人工智能人工智能架构
人工智能下的MASS服务架构1.MaaS（ModelasaService）概述MaaS（ModelasaService，模型即服务）是一种新型的人工智能服务模式，通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。2.MaaS的起源与概念MaaS的概念最早由美国数据科学家DJ·帕蒂尔在2012年提出，即“将机器学习算法打包成可重复使用的服务，使企
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
【机器学习】主动学习-增加标签的操作方法-样本池采样（Pool-Based Sampling） IT古董机器学习机器学习学习人工智能
Pool-BasedSamplingPool-basedsampling是一种主动学习（ActiveLearning）方法，与流式选择性采样不同，它假设有一个预先定义的未标注样本池，算法从中选择最有价值的样本进行标注，以提升模型的性能。这种方法广泛应用于需要人工标注的场景，例如文本分类、图像识别等。核心思想预先准备一个未标注数据池（UnlabeledDataPool）。使用初始标注数据训练一个模型
【机器学习：二十、拆分原始训练集】 KeyPan 机器学习机器学习人工智能深度学习 pytorch 神经网络
1.如何改进模型模型的改进需求在机器学习任务中，模型性能的提升通常受限于训练数据、模型架构、优化方法及超参数设置等。模型改进的目标是在测试数据上表现更优，避免过拟合或欠拟合。常见的改进方向增大训练数据集：通过数据增强或获取更多样本提高模型泛化能力。改进模型结构：例如增加网络层数、调整神经元数目或选择更适合任务的架构。优化损失函数：根据任务特点选择合适的损失函数，例如交叉熵损失或均方误差。调整超参数
【机器学习】---神经架构搜索（NAS） Undoom 机器学习 Python 机器学习架构人工智能 python
这里写目录标题引言1.什么是神经架构搜索（NAS）1.1为什么需要NAS？2.NAS的三大组件2.1搜索空间搜索空间设计的考虑因素：2.2搜索策略2.3性能估计3.NAS的主要方法3.1基于强化学习的NAS3.2基于进化算法的NAS3.3基于梯度的NAS4.NAS的应用5.实现一个简单的NAS框架6.总结引言随着深度学习的成功应用，神经网络架构的设计变得越来越复杂。模型的性能不仅依赖于数据和训练方
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

用 机器学习 对车辆进行评估，一起入门机器学习

聊聊天

开发环境

开始

确定算法

收集数据

准备数据

归一化数值

分类器制作（K-近邻算法的实现）

测试检验

编写交互程序

整体代码

总结

你可能感兴趣的:(机器学习)

用机器学习对车辆进行评估，一起入门机器学习