玩转AI

机器学习基础09-审查分类算法（基于印第安糖尿病Pima Indians数据集）

算法审查是选择合适的机器学习算法的主要方法之一。审查算法前并
不知道哪个算法对问题最有效，必须设计一定的实验进行验证，以找到对问题最有效的算法。本章将学习通过
scikit-learn来审查六种机器学习的分类算法，通过比较算法评估矩阵的结果，选择合适的算法。

如何审查机器学习的分类算法？

审查算法前没有办法判断哪个算法对数据集最有效、能够生成最优模
型，必须通过一系列实验判断出哪些算法对问题最有效，然后再进一步来选择算法。这个过程被叫作算法审查。

在选择算法时，应该换一种思路，不是针对数据应该采用哪种算法，而是应该用数据来审查哪些算法。应该先猜测一下，什么算法会具有最好的效果。这是训练我们对数据敏感性的好方法。我非常建议大家对同一个数据集运用不同的算法，来审查算法的有效性，然后找到最有效的算法。
下面是审查算法的几点建议：

尝试多种代表性算法。
尝试多种机器学习的算法。
尝试多种模型。

接下来会介绍几种常见的分类算法。

在分类算法中，目前存在很多类型的分类器：线性分类器、贝叶斯分类器、基于距离的分类器等。接下来会介绍六种分类算法，先介绍两种线性算法：

逻辑回归。
线性判别分析。

再介绍四种非线性算法：

K近邻。
贝叶斯分类器。
分类与回归树。
支持向量机。

下面继续使用Pima Indians数据集来审查算法，同时会采用10折交叉验证来评估算法的准确度。使用平均准确度来标准化算法的得分，以减少数据分布不均衡对算法的影响。

逻辑回归和线性判别分析都是假定输入的数据符合高斯分布。

逻辑回归

回归是一种极易理解的模型，相当于y=f （x），表明自变量x与因变
量y的关系。犹如医生治病时先望、闻、问、切，再判定病人是否生病或生了什么病，此处的“望、闻、问、切”就是获取自变量x，即特征数据；判断是否生病就相当于获取因变量y，即预测分类。

逻辑回归其实是一个分类算法而不是回归算法，通常是利用已知的自变量来预测一个离散型因变量的值（如二进制值0/1、是/否、真/假）。简单来说，它就是通过拟合一个逻辑函数（Logit Function）来预测一个事件发生的概率。所以它预测的是一个概率值，它的输出值应该为 0～1，因此非常适合处理二分类问题。在scikit-learn 中的实现类是LogisticRegression。代码如下：

数据集下载

import pandas as pd

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold, cross_val_score

#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)

#打印标签名称
print(data.columns)

#将数据转成数组
array = data.values
#分割数据，去掉最后一个标签
X = array[:, 0:8]

Y = array[:, 8]

num_folds = 10
seed = 7

#特征选择
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
model = LogisticRegression()

result = cross_val_score(model, X, Y, cv=kfold)

print("算法评估结果：%.3f (%.3f)" % (result.mean(), result.std()))

运行结果：

算法评估结果：0.776 (0.045)

线性判别分析

线性判别分析（Linear Discriminant Analysis，LDA），也叫作Fisher线性判别（Fisher Linear
Discriminant，FLD），是模式识别的经典算法，它是在1996年由Belhumeur引入模式识别和人工智能领域的。

线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。

因此，它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大，并且类内散布矩阵最小。就是说，它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离，即模式在该空间中有最佳的可分离性。线性判别分析与主要成分分析一样，被广泛应用在数据降维中。

在 scikit-learn 中的实现类是LinearDiscriminantAnalysis。代码如下：

import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

from sklearn.model_selection import KFold, cross_val_score

#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)

#打印标签名称
print(data.columns)

#将数据转成数组
array = data.values
#分割数据，去掉最后一个标签
X = array[:, 0:8]

Y = array[:, 8]

num_folds = 10
seed = 7

#特征选择
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
model = LinearDiscriminantAnalysis()

result = cross_val_score(model, X, Y, cv=kfold)

print("算法评估结果：%.3f (%.3f)" % (result.mean(), result.std()))

运行结果：

Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
      dtype='object')
算法评估结果：0.767 (0.048)

非线性算法

下面介绍四种非线性算法：K近邻（KNN）、贝叶斯分类器、分类与回归树和支持向量机算法。

K近邻算法

K 近邻算法是一种理论上比较成熟的方法，也是最简单的机器学习算法之一。

在KNN中，通过计算对象间距离来作为各个对象之间的非相似性
指标，避免了对象之间的匹配问题，距离一般使用欧氏距离或曼哈顿距离；同时，KNN通过依据k个对象中占优的类别进行决策，而不是通过单一的对象类别决策。这就是 KNN 算法的优势。在 scikit-learn 中的实现类是KNeighborsClassifier。代码如下：

import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier

#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)



#将数据转成数组
array = data.values
#分割数据，去掉最后一个标签
X = array[:, 0:8]

Y = array[:, 8]

num_folds = 10
seed = 7

#特征选择
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
model = KNeighborsClassifier()

result = cross_val_score(model, X, Y, cv=kfold)

print("算法评估结果：%.3f (%.3f)" % (result.mean(), result.std()))

运行结果：


算法评估结果：0.711 (0.051)

贝叶斯分类器

贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其在所有类别上的后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。也就是说，贝叶斯分类器是最小错误率意义上的优化。

各个类别出现的概率，哪个最大就认为此待分类项属于哪个类别。贝叶斯分类器的特点如下：

贝叶斯分类器是一种基于统计的分类器，它根据给定样本属于某一个具体类的概率来对其进行分类。
贝叶斯分类器的理论基础是贝叶斯理论。
贝叶斯分类器的一种简单形式是朴素贝叶斯分类器，与随机森林、神经网络等分类器都具有可比的性能。
贝叶斯分类器是一种增量型的分类器。

在贝叶斯分类器中，对输入数据同样做了符合高斯分布的假设。在
scikit-learn中的实现类是GaussianNB。
代码如下：

import pandas as pd

from sklearn.model_selection import KFold, cross_val_score
from sklearn.naive_bayes import GaussianNB


#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)


#将数据转成数组
array = data.values
#分割数据，去掉最后一个标签
X = array[:, 0:8]

Y = array[:, 8]

num_folds = 10
seed = 7

#特征选择
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
#高斯朴素贝叶斯
model = GaussianNB()

result = cross_val_score(model, X, Y, cv=kfold)

print("算法评估结果：%.3f (%.3f)" % (result.mean(), result.std()))

运行结果：

算法评估结果：0.759 (0.039)

分类与回归树

分类与回归树的英文缩写是 CART，也属于一种决策树，树的构建基于基尼指数。

CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归二分每个特征，将输入空间（特征空间）划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

CART算法由以下两步组成。

树的生成：基于训练数据集生成决策树，生成的决策树要尽量大。
树的剪枝：用验证数据集对已生成的树进行剪枝，并选择最优子树，这时以损失函数最小作为剪枝的标准。

决策树的生成就是通过递归构建二叉决策树的过程，对回归树用平方误差最小化准则，或对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。可以通过scikit-learn中的DecisionTreeClassifier类来构建一个CART模型。代码如下：

import pandas as pd

from sklearn.model_selection import KFold, cross_val_score
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier

#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)


#将数据转成数组
array = data.values
#分割数据，去掉最后一个标签
X = array[:, 0:8]

Y = array[:, 8]

num_folds = 10
seed = 7

#特征选择
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
#高斯朴素贝叶斯
model = DecisionTreeClassifier()

result = cross_val_score(model, X, Y, cv=kfold)

print("算法评估结果：%.3f (%.3f)" % (result.mean(), result.std()))

运行结果：

算法评估结果：0.695 (0.051)

支持向量机

支持向量机是Corinna Cortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

在机器学习中，支持向量机（SVM）是与相关的学习算法有关的监督学习模型，可以分析数据、识别模式，用于分类和回归分析。给定一组训练样本，每条记录标记所属类别，使用支持向量机算法进行训练，并建立一个模型，对新数据实例进行分类，使其成为非概率二元线性分类。

一个SVM模型的例子是，如在空间中的不同点的映射，使得所属不同类别的实例是由一个差距明显且尽可能宽的划分表示。新的实例则映射到相同的空间中，并基于它们落在相同间隙上预测其属于同一个类别。现在SVM也被扩展到处理多分类问题，可以通过scikit-learn中的SVC类来构建一个SVM模型。

代码如下：

import pandas as pd

from sklearn.model_selection import KFold, cross_val_score
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

#数据预处理
path = 'D:\down\\archive\\diabetes.csv'
data = pd.read_csv(path)


#将数据转成数组
array = data.values
#分割数据，去掉最后一个标签
X = array[:, 0:8]

Y = array[:, 8]

num_folds = 10
seed = 7

#特征选择
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)
#高斯朴素贝叶斯
model = SVC()

result = cross_val_score(model, X, Y, cv=kfold)

print("算法评估结果：%.3f (%.3f)" % (result.mean(), result.std()))

算法评估结果：0.760 (0.035)

介绍了六种分类算法，以及它们在 scikit-learn 中的实现。算法主
要分为：线性算法、距离算法、树算法、统计算法等。每一种算法都有不同的适用场景，对数据集有不同的要求。

本次利用 Pima Indians 数据集对这几种算法进行了审查，这是选择合适的算法模型的有效方法。

6个算法评估表如下：

算法名称	算法评估结果
逻辑回归LogisticRegression	算法评估结果：0.776 (0.045)
线性判别分析 LinearDiscriminantAnalysis	算法评估结果：0.767 (0.048)
K近邻算法 KNeighborsClassifier	算法评估结果：0.711 (0.051)
贝叶斯分类器GaussianNB	算法评估结果：0.759 (0.039)
分类与回归树DecisionTreeClassifier	算法评估结果：0.695 (0.051)
支持向量机SVC()	算法评估结果：0.760 (0.035)

使用Python从酷狗音乐网站下载音乐 0zxm 爬虫实战项目 python 网络爬虫前端 xhtml
当然可以！以下是你的博客文章的Markdown格式：使用Python从酷狗音乐网站下载音乐!!!本程序仅供学习参考1.程序介绍这个程序使用了Python的requests库，以及一些哈希算法来实现从酷狗音乐网站搜索歌曲并下载的功能。下面是它的主要功能：从酷狗音乐网站搜索歌曲展示搜索结果列表选择并下载指定的歌曲2.代码实现#代码实现部分，包括get_signature、get_list、show_l
华为OD面经 - 二战失利C++视觉算法华为题库c++cjava
24届河南大学本，计算机科学与技术专业。因为考研没有成功，毕业后一直在家准备二战，二战再次失利，gap半年后决定找工作，找了一些国企和私企的面试机会，但一直没有找到满意的offer。经过朋友推荐，决定尝试华为OD的岗位。由于本科期间有做过一些C++相关的项目和开源贡献，投递了C++视觉算法岗位。机考准备：因为考研期间的刷题基础还在，所以准备机考并没有花太多时间。主要集中在数据结构和算法题目上，尤其
gemini 2.0 国内怎么使用？请收下这份最新使用攻略！ gemini-pro
好的，这是对原文的重写，力求在保持核心信息的同时，使用不同的表达方式和结构：AI新篇章：Gemini2.0如何触手可及？国内用户全攻略人工智能的浪潮再次汹涌而来，谷歌凭借其持续的创新，推出了备受瞩目的GeminiAI模型的升级版——Gemini2.0。这款新一代AI模型以其卓越的性能、广泛的应用场景和对多模态交互的深度支持，预示着一个全新AI时代的开启。2024年末，Gemini2.0Flash率
基础算法：归并排序奋斗吧！骚年！ #基础算法 C++归并排序递归
归并排序C++模板：注意：需要用到辅助数组，帮助两个部分进行合并时的结果保存intq[N],tmp[N];voidmerge_sort(intq[],intl,intr){if(l>=r)return;intmid=l+r>>1;merge_sort(q,l,mid);merge_sort(q,mid+1,r);inti=l,j=mid+1,k=0;while(iusingnamespacestd
数学建模与优化算法在确定X和Y值时，如何处理实验数据的不确定性？学术乙方油纸绝缘算法经验分享
在数学建模与优化算法中处理实验数据的不确定性以确定油纸绝缘系统中的X和Y值，可以参考以下方法和步骤：建立数学模型油纸绝缘系统的几何结构可以用X-Y模型来描述，其中X表示挡板厚度与总厚度的比值，Y表示间隔器宽度与总宽度的比值。这些参数直接影响油纸绝缘的介电特性。通过实验数据（如介电谱曲线）和理论模型，可以建立数学方程来描述X和Y对介电特性的影响。引入不确定性建模实验数据通常存在测量误差、环境变化等因
claude 3.5 官网国内怎么使用！1分钟教你在国内轻松驾驭claude 3.5 claude
ClaudeAI：开启智能助理新纪元——更安全、更亲和、更强大在人工智能领域日新月异的今天，由Anthropic公司倾力打造的ClaudeAI，正以其卓越的性能和独特的理念，迅速在全球范围内吸引了AI爱好者和专业人士的目光。Claude不仅仅是一款功能强大的智能助手，更是一款以安全性和符合人类价值观为核心设计原则的产品，致力于为用户带来更安全、更友善、更高效的AI体验。Claude采用了一种名为“
避坑指南：chatgpt账号购买成品号- chatgpt 4.0 plus成品号购买手册！ openai
购买ChatGPT账号的注意事项及指南✨在当前人工智能技术快速发展的背景下，ChatGPT作为一种强大的语言模型工具️，受到了广泛关注。然而，在获取ChatGPT账号的过程中，用户需审慎考虑多项关键因素，以确保所购账号的安全、可靠及合法性✅，规避潜在风险⚠️。本文将深入探讨购买ChatGPT账号时需重点关注的几个方面，并提供相关建议。1.账号来源审查️‍♂️账号来源是决定其安全性和可靠性的首要因素
【C++】树状数组的使用、原理、封装类、样例软件架构师何志丹 #算法基础 c++数据结构树状数组求和异或和最值动态开点
前言本博文代码打包下载C++算法与数据结构分类汇总最常见的应用有序集合包括若干整数,求小于x的数量。autoit=s.lower(x),it-s.begin()，这个时间复杂度是O(n)。由于查询和插入交替进行，故不能用向量。树状数组的用途令原始数组是a，长度为n。基础操作一，求前缀和。即∑j:0ia[j]\sum_{j:0}^ia[j]∑j:0ia[j]。时间复杂度：O(logn)。二，a[i]
【初探数据结构】带环链表：原理、判断与数学证明我想吃余数据结构篇数据结构链表
欢迎讨论：在阅读过程中有任何疑问，欢迎在评论区留言，我们一起交流学习！点赞、收藏与分享：如果你觉得这篇文章对你有帮助，记得点赞、收藏，并分享给更多对数据结构感兴趣的朋友文章目录一、何为带环链表1.1带环链表的定义1.2典型示例二、环路检测：Floyd判圈算法2.1快慢指针实现2.2算法特性三、数学证明与深度解析3.1步长差为1的必然性证明（快2步/慢1步）3.2广义步长分析（快n步/慢1步）四、环
2025年大模型AI产品经理学习路线图：零基础到精通，一篇收藏，开启学习之旅！悄悄努力然后惊艳所有人 AGI大模型老王人工智能产品经理学习 AI大模型大模型学习大模型 AI产品经理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
Nginx高性能负载均衡：算法与策略详解墨夶 Nginx学习资料1 nginx 负载均衡算法
Nginx高性能负载均衡：算法与策略详解在当今快速发展的互联网时代，Web应用程序需要处理大量并发请求以提供稳定高效的用户体验。为了应对日益增长的流量压力，负载均衡成为了一种不可或缺的技术手段。Nginx作为一款高性能的HTTP和反向代理服务器，凭借其卓越的性能和灵活的配置能力，在负载均衡领域占据了举足轻重的地位。本文将深入探讨如何利用Nginx实现高效、可靠的负载均衡，涵盖常用负载均衡算法、配置
【大模型】DeepSeek-R1-Distill-Qwen部署及API调用油泼辣子多加大模型实战算法 gpt langchain 人工智能
DeepSeek-R1-Distill-Qwen是由中国人工智能公司深度求索（DeepSeek）开发的轻量化大语言模型，基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后，我们可以将其部署，使用API方式进行本地调用1.部署环境本文中的部署基础环境如下所示：PyTorch2.5.1Python3.12(ubuntu22.04)Cuda12.4GPURTX3090(24GB)*1
深度学习和机器学习的差异 The god of big data 教程深度学习机器学习人工智能
一、技术架构的本质差异传统机器学习（MachineLearning）建立在统计学和数学优化基础之上，其核心技术是通过人工设计的特征工程（FeatureEngineering）构建模型。以支持向量机（SVM）为例，算法通过核函数将数据映射到高维空间，但特征提取完全依赖工程师的领域知识。这种"人工特征+浅层模型"的结构在面对复杂非线性关系时容易遭遇性能瓶颈。深度学习（DeepLearning）作为机器
Linux虚拟化技术：Docker与KVM的原理与应用鸽芷咕 linux docker 运维
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
第十一届蓝桥杯总结（广东省赛区一等奖、全国总决赛二等奖）可乐学算法思考-总结-感悟蓝桥杯 ACM 算法
其实这本来是上半年的比赛，由于疫情就拖到了下半年，一共本来有四五场比赛的，好多都参加不了，就只剩下了蓝桥杯和天梯赛，今年真的太难了，一个疫情打乱了好多计划。本来是抱着拿javab组国特去的，无奈最后拿了个国二，省赛发挥得不好，但省一的排名还是比较前，国赛感觉发挥一般般，没想到拿了个国二。接下来说下备赛，大四的时候基本没怎么备赛，不过还是经常上leetcode刷题，刷那些经典算法的题目，比如
控制系统分类 ~夕上林~ 分类数据挖掘人工智能
文章目录定义与特点1.自治系统（AutonomousSystem）与非自治系统（Non-AutonomousSystem）自治系统非自治系统2.线性系统（LinearSystem）与非线性系统（NonlinearSystem）线性系统非线性系统3.仿射系统（AffineSystem）4.受控系统（ControlledSystem）和非受控系统（UncontrolledSystem）受控系统非受控系
计算机学习的五大避坑指南新手必藏编程诗人华仔架构设计学习 java 软件工程 golang 开发语言 c语言 python
避坑一：盲目跟风学习编程语言技术性深化：在选择编程语言时，要考虑语言的特点、适用场景以及未来发展趋势。例如，Java适合企业级应用开发，Python在数据分析和人工智能领域有广泛应用，而JavaScript则是前端开发的基础。明确自己的职业发展方向，选择与之匹配的语言进行深入学习。避坑二：忽视基础知识的掌握技术性深化：深入理解算法如排序、搜索等，熟悉常见的数据结构如链表、栈、队列、树等，并掌握设计
清华大学：人工智能之知识图谱.pdf 黄晗昂Aileen
清华大学：人工智能之知识图谱.pdf【下载地址】清华大学人工智能之知识图谱.pdf分享本资源文件来自于清华大学，聚焦于“人工智能之知识图谱”，是一份深入浅出地探讨知识图谱这一人工智能领域重要分支的文献。知识图谱作为连接数据的骨架，不仅在信息检索、推理决策等方面发挥着关键作用，还成为了现代智能系统的核心组成部分。此文档旨在为读者提供一个全面的理解框架，从基础知识入手，逐步展开至知识图谱的应用实例、技
PyBroker: 使用Python进行机器学习驱动的算法交易指南任铃冰Flourishing
PyBroker:使用Python进行机器学习驱动的算法交易指南pybrokerAlgorithmicTradinginPythonwithMachineLearning项目地址:https://gitcode.com/gh_mirrors/py/pybroker一、项目目录结构及介绍PyBroker项目遵循了清晰的组织结构来简化其源码管理和维护。以下是该仓库的主要目录及其简介：├──docs#文
必看！计算机毕设答辩高分技巧，让你脱颖而出源码姑娘毕业设计
必看！计算机毕设答辩高分技巧，让你脱颖而出一、答辩前的充分准备：技术与内容的“双向打磨”1.吃透项目，技术实现了然于胸计算机毕设的核心在于技术逻辑与系统设计的合理性。答辩前需反复回顾代码实现、架构设计、数据库模型等关键细节，确保能清晰阐述以下问题：技术选型依据：为何选择SpringBoot而非其他框架？所选算法的优势与局限性是什么？系统功能验证：如何通过测试用例或用户反馈验证系统可行性？若涉及机器
Git常用命令全面分类总结向贤技术面试 git
Git常用命令全面分类总结以下是Git常用命令的全面分类总结，以及gitreset--hard的详细解析，结合结构化的说明和示例，便于我们理解和记忆：一、Git核心命令分类速查表1.仓库初始化与克隆命令作用示例gitinit初始化本地仓库gitinitgitclone克隆远程仓库gitclonehttps://github.com/user/repo.git2.工作区与暂存区操作命令作用示例git
技术人实测 | 如何用AI工具2分钟突破知网AIGC检测线 LL06210721 人工智能 AIGC
最近在GitHub发现个有意思的本地化算法工具，其核心是通过对抗式语义重组技术重构文本逻辑链。测试时发现：将GPT生成的论文导入后，系统会保留原始参考文献格式，同时用学术同义词替换引擎重写表达结构。实测数据：某985实验室的AI生成稿经处理，知网AIGC率从38%→9.7%（检测截图已脱敏），维普重复率从24%→8.3%。工具最实用的三个细节：保留公式编号和图表位置不变支持LaTeX源码级修改追踪
利用神经网络来解决鸢尾花分类任务(附实验结果和代码) 侠之大者231 深度学习实战机器学习深度学习人工智能分类神经网络
前言本篇文章使用自己亲手搭建的神经网络模型来解决鸢尾花数据集的分类任务，读者们可以通过该简单的任务进一步理解神经网络，并且可以自己动手去搭建神经网络。鸢尾花数据集的介绍https://archive.ics.uci.edu/ml/index.php大家可以通过这个网站下载鸢尾花数据集，里面有各种经典数据集供大家使用。附：本来想给大家具体讲一讲的，但发现网站里面讲的已经很详细了，大家想用的自己去了解
从前端程序员到大模型工程师的转型攻略七七Seven～前端语言模型人工智能学习 chatgpt 算法
在科技日新月异的今天，人工智能（AI）特别是大规模预训练模型（大模型）的发展正引领着新一轮的技术革命。对于一位有志于从专注于用户界面设计和开发的前端程序员转向这个充满潜力领域的专业人士来说，这不仅是一次技术栈的转换，更是一个思维方式和个人职业发展的重大转变。本文将提供一个详尽的指南，帮助你顺利地完成这一过渡。第一阶段：打牢基础（第1-4周）深入了解AI与机器学习概念理解：阅读相关书籍、在线课程或观
PyBroker：利用 Python 和机器学习助力算法交易 skywalk8163 人工智能编程语言量化分析 python 机器学习算法
PyBroker：利用Python和机器学习助力算法交易你是否希望借助Python和机器学习的力量来优化你的交易策略？那么你需要了解一下PyBroker！这个Python框架专为开发算法交易策略而设计，尤其关注使用机器学习的策略。借助PyBroker，你可以轻松创建和微调交易规则，构建强大的模型，并深入了解你的策略表现。PyBroker介绍官方说明文档：利用PyBroker进行量化投资官方说明文档
Java 中操作 R：深度整合与高效应用 froginwe11 开发语言
Java中操作R：深度整合与高效应用引言随着大数据和机器学习的快速发展，R语言在数据分析和可视化方面扮演着越来越重要的角色。而Java作为一种广泛应用于企业级应用开发的语言，其强大的功能和稳定性使其成为构建高性能应用的首选。本文将探讨Java如何操作R语言，实现高效的数据分析应用。一、Java操作R的背景R语言优势：R语言拥有丰富的统计分析、数据可视化工具和机器学习算法库，是数据分析领域的首选语言
计算系统概述核心知识图谱（考研专项版）王嘉俊925 计算机组成原理考研考研计算机组成原理计组
计算机系统核心知识图谱（考研专项版）计算机分类：细化对比与考点映射电子模拟vs数字计算机对比表（常考选择题）特性电子模拟计算机电子数字计算机信号类型连续物理量（电压/温度）离散数字信号（二进制）精度低（误差1%-0.1%）极高（理论无限精度）运算方式并行模拟电路串行/并行数字电路存储能力无独立存储器分层存储体系典型应用仪表控制系统（如PID调节）通用计算、数据处理专用计算机新增考点DSP芯片特性：
基于支持向量数据描述（SVDD）进行多类分类(Matlab代码实现）荔枝科研社分类 matlab 人工智能
‍个人主页：研学社的博客欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、引言二、SVDD算法原理三、基于SVDD的多类分类方法四、讨论与展望五、结论2运行结果3参考文献4Matlab代码实现1概述使用支持向量数据描述（SVDD）进行多类分类。矩阵代码。基于SVDD的多类分类在此MATLAB脚本中呈现。多类
大话机器学习三大门派：监督、无监督与强化学习安意诚Matrix 机器学习笔记机器学习人工智能
以武侠江湖为隐喻，系统阐述了机器学习的三大范式：监督学习（少林派）凭借标注数据精准建模，擅长图像分类等预测任务；无监督学习（逍遥派）通过数据自组织发现隐藏规律，在生成对抗网络（GAN）等场景大放异彩；强化学习（明教）依托动态环境交互优化策略，驱动AlphaGo、自动驾驶等突破性应用。文章融合技术深度与江湖趣味，既解析了CNN、PCA、Q-learning等核心算法的"武功心法"（数学公式与代码实现
PTA L2-001 紧急救援 (25分) 蔚蓝不远图 C++(算法)算法题算法图论
这个题之所以记录是因为这是我写过考察图论知识最全面的一道算法题，题意不是很难读懂，考察到了图论中最短路径–Dijstkra算法，拓展到最短路径条数、最大权值、最短路径等。我认为拿它来复习图论中最短路径这个知识点还是比较适合的L2-001紧急救援(25分)题目描述作为一个城市的应急救援队伍的负责人，你有一张特殊的全国地图。在地图上显示有多个分散的城市和一些连接城市的快速道路。每个城市的救援队数量和每
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

机器学习基础09-审查分类算法（基于印第安糖尿病Pima Indians数据集）

如何审查机器学习的分类算法？

线性判别分析

非线性算法

K近邻算法

贝叶斯分类器

分类与回归树

支持向量机

你可能感兴趣的:(人工智能,机器学习,机器学习,分类,人工智能,决策树,支持向量机,算法,数据挖掘)