weixin_39683978

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集

暂时，想象一下你不是一个花卉专家(如果你是专家，那对你很好！)。你能区分三种不同的鸢尾属植物吗？刚毛鸢尾属，花色鸢尾属和维吉尼亚鸢尾属(setosa, versicolor, virginica)？

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第2张图片

我知道我不能…

但是，如果我们有一个包含这些物种实例的数据集，以及它们的萼片和花瓣的测量结果呢？

换言之，我们能从这个数据集中学到什么来帮助我们区分这三个物种吗？

数据集

在这篇博文中，我将探索UCI机器学习库中的Iris数据集。它摘自其网站，据说这可能是模式识别文献中最著名的数据库。此外，Jason Brownlee，机器学习社区创建者，他称该数据集为机器学习的“Hello World”。

我将把这个数据集推荐给那些对数据科学感兴趣并渴望构建第一个ML模型的人。它的一些优良特性见下文：

150个具有4个属性的实例(相同的单位，全部为数字)
均衡的阶级分布
无缺失数据

如你所见，这些特性有助于将你在数据准备过程中花费的时间减至最少，这样你就可以专注于构建你的第一个ML模型。

并不是说准备阶段不重要。相反，这个过程是如此的重要，以至于对于一些初学者来说，这可能是非常耗时的，而且他们在开始模型开发之前可能会把自己压得喘不过气来。

例如，来自Kaggle的流行数据集House Prices:Advanced returnation Techniques有大约80个特征，其中超过20%包含某种程度的缺失数据。在这种情况下，你可能需要花费一些时间来理解属性并填充缺失的值。

目标

在研究了这个数据集之后，我们希望能够回答两个问题，这在分类问题中非常典型：

预测-给定新的数据点，模型预测其类(物种)的准确度如何？
推断-哪些预测因素可以有效地帮助预测？

分类

分类是一类有监督的机器学习问题，其中目标(响应)变量是离散的。给定包含已知标签的训练数据，分类器从输入变量(X)到输出变量(Y)近似一个映射函数(f)。

现在是时候写一些代码了！请参阅我的Github页面以获取完整的Python代码(在Jupyter Notebook中编写)。

链接：https://github.com/terryz1/explore-iris

导入库并加载数据集

首先，我们需要导入库：pandas(加载数据集)、numpy(矩阵操作)、matplotlib和seaborn(可视化)以及sklearn(构建分类器)。在导入它们之前，请确保它们已经安装(请参阅此处的安装程序包指南)。

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom pandas.plotting import parallel_coordinatesfrom sklearn.tree import DecisionTreeClassifier, plot_treefrom sklearn import metricsfrom sklearn.naive_bayes import GaussianNBfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysisfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.svm import SVCfrom sklearn.linear_model import LogisticRegression

要加载数据集(也可以在我的Github页面中找到)，我们可以使用pandas的read_csv函数(我的代码还包括通过url加载的选项)。

data = pd.read_csv('data.csv')

加载数据后，我们可以通过head查看前几行：

data.head(5)

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第4张图片

注：所有四个测量单位均为厘米。

数值摘要

首先，让我们通过“describe”来查看每个属性的数值摘要：

data.describe()

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第5张图片

我们还可以使用groupby和size检查类分布：

data.groupby('species').size()

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第6张图片

我们可以看到每个类都有相同数量的实例。

训练集测试集拆分

现在，我们可以将数据集分成训练集和测试集。通常，我们还应该有一个验证集，用来评估每个分类器的性能，进行微调，并确定最佳模型。测试集主要用于报告。然而，由于这个数据集的规模很小，我们可以通过使用测试集来满足验证集的目的来简化它。

此外，我还使用了分层保持方法来估计模型精度。我会在以后的博客中讨论减少偏差的方法。

train, test = train_test_split(data, test_size = 0.4, stratify = data[‘species’], random_state = 42)

注意：我设置了40%的数据作为测试集，以确保有足够的数据点来测试模型。

探索性数据分析

在我们分割数据集之后，我们可以继续探索训练数据。matplotlib和seaborn都有很好的绘图工具，我们可以用来可视化。

让我们首先创建一些单变量图。为每个特征创建直方图：

n_bins = 10fig, axs = plt.subplots(2, 2)axs[0,0].hist(train['sepal_length'], bins = n_bins);axs[0,0].set_title('Sepal Length');axs[0,1].hist(train['sepal_width'], bins = n_bins);axs[0,1].set_title('Sepal Width');axs[1,0].hist(train['petal_length'], bins = n_bins);axs[1,0].set_title('Petal Length');axs[1,1].hist(train['petal_width'], bins = n_bins);axs[1,1].set_title('Petal Width');# 添加一些间距fig.tight_layout(pad=1.0);

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第7张图片

请注意，对于花瓣长度和花瓣宽度，似乎有一组数据点的值比其他数据点小，这表明此数据中可能存在不同的组。

接下来，让我们尝试一些箱线图：

fig, axs = plt.subplots(2, 2)fn = ["sepal_length", "sepal_width", "petal_length", "petal_width"]cn = ['setosa', 'versicolor', 'virginica']sns.boxplot(x = 'species', y = 'sepal_length', data = train, order = cn, ax = axs[0,0]);sns.boxplot(x = 'species', y = 'sepal_width', data = train, order = cn, ax = axs[0,1]);sns.boxplot(x = 'species', y = 'petal_length', data = train, order = cn, ax = axs[1,0]);sns.boxplot(x = 'species', y = 'petal_width', data = train,  order = cn, ax = axs[1,1]);# 添加一些间距fig.tight_layout(pad=1.0);

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第8张图片

底部的两个图表明我们前面看到的那组数据点是setosas。它们的花瓣尺寸比其他两个物种更小，分布也更少。与其他两个物种相比，versicolor的平均值比virginica 低。

小提琴图是另一种可视化方式，它结合了直方图和方框图的优点：

sns.violinplot(x="species", y="petal_length", data=train, size=5, order = cn, palette = 'colorblind');

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第9张图片

现在我们可以使用seaborn的pairplot函数绘制所有成对属性的散点图：

sns.pairplot(train, hue="species", height = 2, palette = 'colorblind');

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第10张图片

请注意，有些变量似乎高度相关，例如花瓣长度和花瓣宽度。另外，花瓣的测量比萼片的分离更好。

接下来，我们制作一个相关矩阵来定量检查变量之间的关系：

corrmat = train.corr()sns.heatmap(corrmat, annot = True, square = True);

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第11张图片

主要的结论是花瓣的大小有高度的正相关，而萼片的测量是不相关的。注意花瓣特征与萼片长度也有较高的相关性，但与萼片宽度无关。

另一个很酷的可视化工具是 parallel coordinate plot，它将每一行表示为一条直线。

parallel_coordinates(train, "species", color = ['blue', 'red', 'green']);

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第12张图片

正如我们之前所见，花瓣的测量比萼片的能更好地区分物种。

构建分类器

现在我们准备建立一些分类器

为了让我们的生活更轻松，让我们把类标签和特征分开：

X_train = train[['sepal_length','sepal_width','petal_length','petal_width']]y_train = train.speciesX_test = test[['sepal_length','sepal_width','petal_length','petal_width']]y_test = test.species

决策树

我想到的第一个分类器是一个称为决策树。原因是我们可以看到分类规则，而且很容易解释。

让我们使用sklearn(文档)构建一个，最大深度为3，我们可以在测试数据上检查它的准确性：

mod_dt = DecisionTreeClassifier(max_depth = 3, random_state = 1)mod_dt.fit(X_train,y_train)prediction=mod_dt.predict(X_test)print(‘The accuracy of the Decision Tree is’,”{:.3f}”.format(metrics.accuracy_score(prediction,y_test)))--------------------------------------------------------------------The accuracy of the Decision Tree is 0.983.

决策树正确预测了98.3%的测试数据。该模型的一个优点是，你可以通过每个因子的feature-importances属性来查看其特征重要性：

mod_dt.feature_importances_--------------------------------------------------------------------array([0.        , 0.        , 0.42430866, 0.57569134])

从输出结果和基于四个特征的索引，我们知道前两个特征(萼片度量)并不重要，只有花瓣特征被用来构建这棵树。

决策树的另一个优点是我们可以通过plot_tree可视化分类规则：

plt.figure(figsize = (10,8))plot_tree(mod_dt, feature_names = fn, class_names = cn, filled = True);

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第13张图片

此树中的分类规则(对于每个拆分，左->是，右->否)

除了每个规则(例如，第一个标准是花瓣宽度≤0.7)，我们还可以看到每个拆分、指定类别等的基尼指数。请注意，除了底部的两个“浅紫色”框外，所有终端节点都是纯的。对于这两类情况，表示没有信心。

为了证明对新数据点进行分类是多么容易，假设一个新实例的花瓣长度为4.5cm，花瓣宽度为1.5cm，那么我们可以根据规则预测它是versicolor。

由于只使用花瓣特征，因此我们可以可视化决策边界并以二维形式绘制测试数据：

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第14张图片

在60个数据点中，59个被正确分类。另一种显示预测结果的方法是通过混淆矩阵：

disp = metrics.plot_confusion_matrix(mod_dt, X_test, y_test,                                 display_labels=cn,                                 cmap=plt.cm.Blues,                                 normalize=None)disp.ax_.set_title('Decision Tree Confusion matrix, without normalization');

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第15张图片

通过这个矩阵，我们看到有一种花色，我们预测是virginica。

构建一棵树的一个缺点是它的不稳定性，这可以通过诸如随机森林、boosting等集成技术来改善。现在，让我们继续下一个模型。

高斯朴素贝叶斯分类器

最流行的分类模型之一是朴素贝叶斯。它包含了“Naive”一词，因为它有一个关键的类条件独立性假设，这意味着给定的类，每个特征的值都被假定独立于任何其他特征的值(请参阅此处)。

我们知道，这里显然不是这样，花瓣特征之间的高度相关性证明了这一点。让我们用这个模型来检查测试精度，看看这个假设是否可靠：

The accuracy of the Guassian Naive Bayes Classifier on test data is 0.933

如果我们只使用花瓣特征，结果如何：

The accuracy of the Guassian Naive Bayes Classifier with 2 predictors on test data is 0.950

有趣的是，仅使用两个特征会导致更正确的分类点，这表明在使用所有特征时可能会过度拟合。看起来我们朴素贝叶斯分类器做得不错。

线性判别分析

如果我们使用多元高斯分布来计算类条件密度，而不是使用一元高斯分布的乘积(在朴素贝叶斯中使用)，我们将得到一个LDA模型。LDA的关键假设是类之间的协方差相等。我们可以使用所有特征和仅花瓣特征检查测试精度：

The accuracy of the LDA Classifier on test data is 0.983The accuracy of the LDA Classifier with two predictors on test data is 0.933

使用所有特征可以提高我们的LDA模型的测试精度。

为了在二维可视化决策边界，我们可以仅使用花瓣的LDA模型，并绘制测试数据：

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第16张图片

四个测试点被错误分类-三个virginica和一个versicolor。

现在假设我们要用这个模型对新的数据点进行分类，我们只需在图上画出点，然后根据它所属的颜色区域进行预测。

二次判别分析

LDA和QDA的区别在于QDA不假设类间的协方差相等，它被称为“二次型”，因为决策边界是一个二次函数。

The accuracy of the QDA Classifier is 0.983The accuracy of the QDA Classifier with two predictors is 0.967

在所有特征的情况下，它与LDA具有相同的精度，并且仅使用花瓣时，它的性能稍好一些。

类似地，让我们绘制QDA(只有花瓣的模型)的决策边界：

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第17张图片

KNN分类器

现在，让我们换个角度，看看一个名为KNN的非参数模型。它是一个十分流行的模型，因为它相对简单和易于实现。然而，我们需要意识到当特征的数量变大时我们会受到维度诅咒。

让我们用K的不同选择绘制测试精度：

camvid数据集使用方法_使用Scikit Learn的分类器探索Iris数据集_第18张图片

我们可以看到，当K为3或在7到10之间时，精确度最高(约为0.965)。与以前的模型相比，分类新的数据点不那么直接，因为我们需要在四维空间中观察它的K个最近的邻居。

其他模型

我还研究了其他模型，如logistic回归、支持向量机分类器等。

注意SVC(带线性内核)的测试精度达到了100%！

我们现在应该很有信心，因为我们的大多数模型的准确率都超过了95%。

下一步

以下是一些未来研究的想法：

对这些模型进行交叉验证，并比较它们之间的平均精确度。
找到其他数据源，包括其他鸢尾属物种及其萼片/花瓣测量值(如果可能，也包括其他属性)，并检查新的分类精度。
制作一个交互式的web应用程序，根据用户输入的测量值来预测物种。

结尾

我们研究了Iris数据集，然后使用sklearn构建了一些流行的分类器。我们发现花瓣的测量值比萼片的测量值更有助于分类实例。此外，大多数模型的测试精度都在95%以上。

参考文献

Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). An introduction to statistical learning : with applications in R. New York :Springer.

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
怎么起诉借钱不还的人？怎样起诉欠款不还的人？影子爱学习
怎么起诉借钱不还的人？怎样起诉欠款不还的人？如果遇到难以解决的法律问题，我们可以匹配专业律师。例如：婚姻家庭（离婚纠纷）、刑事辩护、合同纠纷、债权债务、房产（继承）纠纷、交通事故、劳动争议、人身损害、公司相关法律事务（法律顾问）等咨询推荐手机/微信:15633770876【全国案件皆可】借钱不还起诉对方需要哪些资料起诉欠钱不还的，一般需要的材料包括以下这些：借据、收据、欠条、付款凭证等证据，以及向
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
相信相信的力量孙丽_cdb3
孙丽中级十期坚持分享第345天有一个特别有哲理的故事：有一只老鹰下了蛋，这个蛋，不知怎的就滚到了鸡窝里去了，鸡也下了一窝蛋，然后鸡妈妈把这些蛋全都浮出来了，孵出来之后等小鸡长大一点了，就觉得鹰蛋孵出来的那只小鹰怪模怪样，这些小鸡都嘲笑它，真难看，真笨，丑死了，那只小鹰觉得自己真是谁也不像，真是不好看，后来鸡妈妈也不喜欢他，我怎么生出你这样的孩子来了？真烦人，后来这群小鸡和小鹰一起生活，有一天，老鹰
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
其二十八尾喵
你知道吗？图片发自App我今天知道了你有喜欢的人，不是我。心空空的，整个人都不是我的了。可，怎么办？还是要好好的活着，毕竟你喜欢的人，我不能杀，可是我可以杀其他喜欢你的人呀！也罢，此生无缘，来世再见。鱼干
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL