九章云极DataCanvas

一文读懂机器学习常用算法的基本概念和适用场景

引用一句英国统计学家George E. P. Box的名言：All models are wrong, but some are useful. 没有哪一种算法能够适用所有情况，只有针对某一种问题更有用的算法。

机器学习算法不会要求一个问题被 100%求解，取而代之的是把问题转化为最优化的问题，用不同的算法优化问题，从而比较得到尽量好的结果。因此对于数据科学家来说，理解算法显得格外重要，理解不同算法的思想可以帮助数据科学家更从容地面对不同的应用场景。

本文列出了常用的机器学习算法的基本概念、主要特点和适用场景，希望可以在大家选择合适的机器学习算法解决实际问题时起到一点参考作用。

本文主要提及的机器学习算法包括：

·K近邻（KNN）算法
·朴素贝叶斯算法
·决策树算法
·SVM算法
·adaboost算法
·EM算法(期望最大化算法)

下面我们将具体展开介绍。

1.K近邻（KNN）算法

KNN算法的基本介绍:假若一个特征空间中大多数的样本属于某一个类别,则在这个特征空间中，k个最相似的样本也属于这个类别。

该算法由两个步骤组成:(1)对于一个给定的搜索训练集按一定距离度量,来找到一个的值。(2)在这个KNN当中,根据大多数分为一致的类来进行分类。

用以下这幅图可以很好的解释kNN算法：

不同形状的点，为不同标签的点。其中绿色点为未知标签的数据点。现在要对绿色点进行预测。由图不难得出：

如果k=3，那么离绿色点最近的有2个红色三角形和1个蓝色的正方形，这3个点投票，于是绿色的这个待分类点属于红色的三角形。

如果k=5，那么离绿色点最近的有2个红色三角形和3个蓝色的正方形，这5个点投票，于是绿色的这个待分类点属于蓝色的正方形。

K近邻（KNN）算法优点：

·算法原理简单，容易理解，也较容易实现。

·不需要进行训练，只需要保存训练样本和标签。

·不易受小错误概率的影响。经理论证明，最近邻的渐进错误率最坏时不超过两倍的贝叶斯错误率，最好时接近或达到贝叶斯错误率。

K近邻（KNN）算法缺点：

·K的选择不固定。

·预测结果容易受到噪声数据的影响。

·当样本不平衡时，新样本的类别偏向训练样本中数量占优的类别，容易导致预测错误。

·当数据量较大时，具有较高的计算复杂度和内存消耗，因为对每一个待分类的文本，都要计算它到全体已知样本的距离，才能求得它的K个最近邻。

适用场景及主要应用领域：

由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。在实际应用当中，KNN算法在人脸识别、文字识别、医学图像处理等领域可以取得良好的分类效果。

K近邻（KNN）算法需要注意的问题：

·数据特征之间量纲不统一时，需要对数据进行归一化处理，否则会出现大数吃小数的问题；

·数据之间的距离计算通常采用欧式距离；

· kNN算法中K值的选取会对结果产生较大的影响，一般k值要小于训练样本数据的平方根；

·通常采用交叉验证法来选择最优的K值。

2.朴素贝叶斯算法

朴素贝叶斯分类是一种十分简单的分类算法，即对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

以判定外国友人为例做一个形象的比喻。

若我们走在街上看到一个黑皮肤的外国友人，让你来猜这位外国友人来自哪里。十有八九你会猜是从非洲来的，因为黑皮肤人种中非洲人的占比最多，虽然黑皮肤的外国人也有可能是美洲人或者是亚洲人。但是在没有其它可用信息帮助我们判断的情况下，我们会选择可能出现的概率最高的类别，这就是朴素贝叶斯的基本思想。

下图为朴素贝叶斯算法的流程：

朴素贝叶斯算法注意点：

·当特征属性值的值类型不是离散值而是连续值的时候，需要通过高斯分布做概率的计算；

·为了避免统计概率中出现概率为0的情况，可以引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1。

适用场景及主要应用领域：

朴素贝叶斯算法对待预测样本进行预测，过程简单速度快；
对于多分类问题也同样很有效，复杂度也不会有大程度上升；

3.在分布独立这个假设成立的情况下，贝叶斯分类器效果奇好，会略胜于逻辑回归，同时需要的样本量也更少一点。

4.对于类别类的输入特征变量，效果非常好。对于数值型变量特征，我们是默认它符合正态分布的。

主要应用领域

·文本分类/垃圾文本过滤/情感判别：多分类较为简单，同时在文本数据中，分布独立这个假设基本是成立的。垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。

·多分类实时预测：对于文本相关的多分类实时预测，朴素贝叶斯算法被广泛应用，简单又高效。

·推荐系统：朴素贝叶斯和协同过滤(Collaborative Filtering)是一对好搭档，协同过滤是强相关性，但是泛化能力略弱，朴素贝叶斯和协同过滤一起，能增强推荐的覆盖度和效果。

3. 决策树算法

决策树是一个树结构（可以是二叉树或非二叉树），其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

决策树学习通常包含这几个方面：特征选择、决策树生成、决策树剪枝、缺失值/异常值处理、决策树集成学习。

决策树算法注意点：

·决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

·决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

·寻找最优的决策树是一个NP难的问题，一般通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。

·有些比较复杂的关系，决策树很难学习，比如异或，一般这种关系可以换神经网络分类方法来解决。

·如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善（特别注意，在模型训练过程中，某些特征的权重排序很大，需要手动调节样本的权重来影响特征的权重，主要有样本的均衡，样本的过滤，样本权重的调节）。

适用场景及主要应用领域：

相比其他算法，决策树有一个非常明显的优势，就是可以很直观地进行可视化，分类规则好理解，让非专业的人也容易看明白，既可以解决分类问题（对应的目标值是类别型的数据），也能解决回归问题（输出结果也可以是连续的数值），目前广泛应用于语音识别、人脸识别、医疗诊断、模式识别等领域。

4. SVM算法

支持向量机，support vector machine，简称SVM，是经典机器学习的一个重要分类算法，用于完成数据分类。svm算法通过找出一个决策超平面（二维空间指直线，三维空间指平面，超过三维的就是超平面了），将已有训练数据集划分开，然后对于新数据，根据数据是位于超平面的哪一侧完成判断，得到新数据的分类。

因此基础的svm算法是一个二分类算法，至于多分类任务，多次使用svm即可解决。

下图是一组支持向量机实现分类的示例。

SVM算法注意点：

·SVM可以执行线性非线性的分类、回归、异常值检测。适用于中小型复杂数据集；

·SVM对特征缩放很敏感，可以在输入之前采用StandardScaler处理；

·如果SVM模型过拟合，可以通过降低C来进行正则化；

·LinearSVC灰度偏执正则化，需要减去平均值，StandardScaler会自动处理；

·处理非线性数据集的方法之一是添加更多的特征，比如多项式特征。

适用场景及主要应用领域：

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，但它具有以下缺点：

·无法应对大规模训练样本；

·难以解决多分类问题；

·对参数及核函数选择非常敏感。

支持向量机的常见适用范围如下：

·网络完全

传统的网络入侵检测方法大多采用密码签名的方法。在进行入侵检测方面，机器学习技术可以帮助我们进行网络流量的分析，在这里支持向量机具有检测速度快，分类精度高等特点，可以帮助安全人员识别不同类别的网络攻击，例如扫描和欺诈网络。

·人脸识别

SVM可以将图像部分分为人脸和非人脸。它包含nxn像素的训练数据，具有两类人脸（+1）和非人脸（-1），然后从每个像素中提取特征作为人脸和非人脸。根据像素亮度在人脸周围创建边界，并使用相同的过程对每个图像进行分类。

·文本和超文本分类

SVM可以实现对两种类型的模型进行文本和超文本分类，它主要通过使用训练数据将文档分类为不同的类别，如新闻文章、电子邮件和网页。

对于每个文档，计算一个分数并将其与预定义的阈值进行比较。当文档的分数超过阈值时，则将文档分类为确定的类别。如果它不超过阈值，则将其视为一般文档。

通过计算每个文档的分数并将其与学习的阈值进行比较来对新实例进行分类。

·蛋白质折叠和远程同源检测

蛋白质远程同源性检测是计算生物学中的一个关键问题。SVM算法是远程同源检测最有效的方法之一。这些方法的性能取决于蛋白质序列的建模方式。

adaboost算法

在了解adaboost算法之前，我们先来重温一下三个臭皮匠顶个诸葛亮的故事：诸葛亮带兵过江，江水湍急，而且里面多是突出水面的礁石。普通竹筏和船只很难过去,打头阵的船只都被水冲走触礁沉没，诸葛亮一筹莫展，也想不出好办法，入夜来了3个做牛皮活的皮匠献策。告诉诸葛亮买牛，然后把牛从肚皮下整张剥下来，封好切口后让士兵往里吹气，做成牛皮筏子，这样的筏子不怕撞，诸葛亮按此方法尝试并顺利过江。

Adaboost就是这样一种“三个臭皮匠顶个诸葛亮”的迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

adaboost算法注意点：

·AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定；

·数据不平衡导致分类精度下降；

·训练比较耗时，每次重新选择当前分类器最好切分点；

·对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

适用场景及主要应用领域：

在机器学习的算法中，Adaboost 算法是一种比较重要且通用的用于特征分类的算法，在图像检索和人脸表情识别等问题中都有普遍应用。从现状看，人们对Adaboost 算法的研究及应用主要集中用于分类问题上，另外在某些回归问题上也有所涉及，比如两类问题、多类单标签问题、多类多标签问题和回归问题。

Adaboost 在机器学习领域中十分重要，它是一种提高任意给定学习算法准确度的方法。也就是说，Adaboost 算法为其他算法提供了一种框架结构，而其他算法只在其中作为子分类器，因此 Adaboost 算法可以运用在许多方面的实践上。

通过 Adaboost 算法

·可以实现手写体字符识别，运用到了许多输入设备上，如流行的触屏手机上的手写输入、笔记本电脑的手写输入、扫描仪扫面文字转化为电子文档。

·图像识别，如人脸识别、google 上的图片检索功能(很方便地找到想要的清晰度更高的图片)。我们实现了语音识别，现在的WIN7上都有了一个语音识别的功能，我们能够让计算机知道我们说了什么话,并通过机器自动学习提高语音识别的精度，声音输入和声控很可能在未来普及。

·Adaboost 算法还能做文本分类和医疗诊断等等。

6. EM算法(期望最大化算法)

最大期望算法（Expectation-maximization algorithm，又译为期望最大化算法），是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。

以打猎为例做一个形象的比喻：

比如你一位同学和一位猎人一起外出打猎，一只野兔从前方窜过。只听一声枪响，野兔应声到下，如果要你推测，这一发命中的子弹是谁打的？你就会想，只发一枪便打中，由于猎人命中的概率一般大于你那位同学命中的概率，从而推断出这一枪应该是猎人射中的。

这个例子所作的推断就体现了最大似然法的基本思想。

多数情况下我们是根据已知条件来推算结果，而最大似然估计是已经知道了结果，然后寻求使该结果出现的可能性最大的条件，以此作为估计值。

EM算法注意点：

·对初始化数据敏感。

·EM算法计算复杂，收敛较慢，不适于大规模数据集和高维数据。

·当所要优化的函数不是凸函数时，EM算法容易给出局部最优解，而不是全局最优解。

适用场景及主要应用领域：

·K-Means聚类

K-Means是EM算法的一个特列。在K-Means聚类时，每个聚类簇的质心是隐含数据。我们会假设K个初始化质心，即EM算法的E步；然后计算得到每个样本最近的质心，并把样本聚类到最近的这个质心，即EM算法的M步。重复这个E步和M步，直到质心不再变化为止，这样就完成了K-Means聚类。

·高斯混合模型

高斯混合模型（Gaussian Misture Model）的参数估计是EM算法的一个重要应用。高斯混合模型应用广泛，在许多情况下， EM算法是学习高斯混合模型的有效方法。

·隐马尔科夫模型

EM算法的另一个重要应用是隐马尔科夫模型。

算法的选择取决于许多因素，比如问题陈述、预期的输出类型、数据的类型和大小、可用的计算时间、特征数量以及数据中的观测点等，以上内容仅供大家在选择算法时作为参考，实践和运行才是评估算法的最佳标准。

哈希算法篇——散落的秘密与精准的归宿，混沌中的秩序之美（上）诚丞成常用算法讲解哈希算法算法
文章目录引言：混沌中的秩序之美第一章：哈希的本质——化繁为简的魔法第二章：经典哈希函数——一座算法的博物馆第三章：哈希表的奇迹——从无序到有序的转变3.1哈希函数的基本实现3.2基本的哈希表实现3.3哈希算法的实际应用小结引言：混沌中的秩序之美在信息科学的星空下，有一种算法宛如一位洞悉混沌的智者，能够以其独特的规则，在无限的可能性中找到秩序。这便是哈希算法（HashingAlgorithm），一个
python分段线性插值_计算方法（3）——分段插值法（附Python程序） weixin_39900206 python分段线性插值
在上一节计算方法(2)——插值法(附Python程序)当中，主要讲了插值法，介绍了龙格现象，并给出了插值法的代码。这一讲主要分段插值中的分段线性插值和分段Hermite插值，并给出分段插值的Python程序。在此之前需要注意一下，n为区间数，n+1为插值节点的个数。分段线性插值分段线性插值，需要两个列表，一个用于存放各点的x坐标，一个用于存放各点的y坐标。因为分段插值的算法需要x坐标按顺序增长，而
AIGC - 深度洞察如何对大模型进行微调以满足特定需求网罗开发 AI 大模型人工智能 AIGC
网罗开发（视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：COC上海社区主理
如何使用 Python 实现简单的算法与数据结构全栈探索者chen python python 算法数据结构开发语言 javascript 数据分析性能优化
如何使用Python实现简单的算法与数据结构算法和数据结构是计算机科学的基础，理解它们不仅有助于解决复杂问题，还能提高编程效率和代码质量。在Python中，由于其简洁和高效的语法，学习和实现算法与数据结构更加轻松。本文将从以下几个方面探讨如何用Python实现常见的数据结构和基本算法，帮助你从基础开始掌握核心概念。一、数据结构1.数组（Array）数组是一种线性数据结构，存储一组相同类型的元素。P
如何使用LangChain内置工具和工具包 jkgSFS langchain microsoft python
在当今快速发展的人工智能应用开发中，利用现有的工具和工具包能大幅加快开发进程，提高应用的效率和功能性。本文将带您深入了解LangChain中的内置工具和工具包的使用方法，并通过示例代码进行演示。技术背景介绍LangChain是一个旨在简化应用程序创建的框架，其拥有丰富的第三方工具集成。这些工具可以帮助开发者轻松访问和操作如Wikipedia等大型数据集。核心原理解析LangChain工具通过API
亮相AICon，火山引擎边缘云揭秘边缘AI Agent探索与实践边缘计算智能硬件ai开发
12月13-14日，AICon全球人工智能开发与应用大会在北京成功举办。火山引擎边缘智能技术负责人谢皓受邀出席大会，以《AIAgent在边缘云的探索与实践》为主题，与全球AI领域的资深专家，共同深入探讨大模型落地、具身智能、多模态大模型、AIAgent等前沿技术如何推动行业变革、引领未来发展。火山引擎边缘智能技术负责人谢皓指出，随着AI时代的到来，边缘智能由传统的物联网、智慧物联，逐渐演变成智能体
基于纵横交叉算法优化的最小交叉熵图像多阈值分割 python 图像算法打怪图像分割算法 python 开发语言
基于纵横交叉算法优化的最小交叉熵图像多阈值分割python文章目录基于纵横交叉算法优化的最小交叉熵图像多阈值分割python1.最小交叉熵阈值分割原理2.基于纵横交叉优化的多阈值分割3.算法结果：4.参考文献：5.Python代码摘要：本文介绍基于最小交叉熵的图像分割，并且应用纵横交叉算法进行阈值寻优。1.最小交叉熵阈值分割原理1993年，Li等人将交叉熵的概念引入到图像处理领域，提出了基于一维灰
设计模式-策略模式夏旭泽设计模式策略模式
背景有各种鸭子，野鸭、北京鸭、玩具鸭，有各个行为，比如飞、叫传统思路创建一个Duck父类，在这个父类中声明鸭子的共同行为与属性，所有鸭子继承自这个父类。问题：继承时，一些子类可能修改父类的大部分行为与属性，会有溢出效应。基本介绍定义一些算法族，分别封装起来，让他们之间可以相互替换。把算法封装成接口，聚合到使用类中把变化的代码从不变的代码中分离出来。用聚合和组合的方式代替继承。将使用层和算法实现层分
路径规划：环境适应性路径规划_（7）.路径规划的不确定性处理 zhubeibei168 机器人（二）机器人计算机视觉机器人导航人工智能数码相机
路径规划的不确定性处理在路径规划中，不确定性是一个常见的问题，尤其是在动态和复杂的环境中。不确定性可以来源于多种因素，包括传感器误差、环境变化、动态障碍物等。处理不确定性是确保路径规划算法在实际应用中能够稳定、可靠运行的关键。本节将详细探讨路径规划中的不确定性处理方法，包括概率模型、鲁棒优化、重规划策略等。1.不确定性的来源在路径规划中，不确定性主要来源于以下几个方面：1.1传感器误差传感器是路径
论文阅读笔记：AI+RPA 几道之旅人工智能
文章目录论文题目下载地址论文摘要论文题目Challengesandopportunities:ImplementingRPAandAIinfrauddetectioninthebankingsector下载地址点击这里下载论文摘要在银行业中，将机器人流程自动化（RPA）和人工智能（AI）集成用于欺诈检测是一项重大变革，既带来了挑战，也带来了机遇。随着金融机构面临日益复杂的欺诈企图，RPA和AI成为
LeetCode：455.分发饼干 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是满足
day_03_查找算法、排序算法幻影maple 数据结构与算法查找算法排序算法
六算法的概念和评价1基本概念2评定标准3描述方式七常用的查找算法1线性查找算法顺序查找算法1算法流程2算法评价2二分查找算法折半查找算法1算法流程2算法评价八常用的排序算法1冒泡排序算法1算法流程2算法评价2插入排序算法1算法流程2算法评价3选择排序算法1算法流程2算法评价4快速排序算法1算法流程2算法评价六、算法的概念和评价1、基本概念算法就是指对解题方案准确而又完整的描述，是一系列解决问题的清
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
【2025】拥抱未来砥砺前行摔跤猫子其他年终总结拥抱未来砥砺前行深度思考
2024是怎样的一年2024在历史画卷上是波澜壮阔的一年，人工智能的浪潮来临，涌现出无数国产大模型。22年11月ChatGPT发布，它的出现如同在平静湖面上投下一颗巨石，激起了层层波澜，短短五天用户数就达到了100万，让整个世界为之侧目的同时也掀起了一场AI技术竞赛的浪潮。面对大模型这一蓝海，各方力量都试图搭上这趟时代的列车，争先恐后的相继开启布局。公司大模型名称发布时间澜舟科技孟子GPTV120
python实现冒泡排序完整算法_利用python实现冒泡排序算法实例代码 weixin_39610759
利用python实现冒泡排序算法实例代码冒泡排序冒泡排序（英语：BubbleSort）是一种简单的排序算法。它重复地遍历要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下：1、比较相邻的元素。如果第一个比第二个大（升序
新星计划Day11【数据结构与算法】排序算法2 京与旧铺 java学习排序算法 java 算法
新星计划Day11【数据结构与算法】排序算法2‍博客主页：京与旧铺的博客主页✨欢迎关注点赞收藏⭐留言✒本文由京与旧铺原创，csdn首发！系列专栏：java学习参考网课：尚硅谷首发时间：2022年5月13日你做三四月的事，八九月就会有答案，一起加油吧如果觉得博主的文章还不错的话，请三连支持一下博主哦最后的话，作者是一个新人，在很多方面还做的不好，欢迎大佬指正，一起学习哦，冲冲冲推荐一款模拟面试、刷题
BP神经网络概述及其预测的Python和MATLAB实现追蜻蜓追累了神经网络回归算法深度学习机器学习启发式算法 lstm gru
##一、背景###1.1人工神经网络的起源人工神经网络（ArtificialNeuralNetwork,ANN）受生物神经网络的启发，模拟大脑神经元之间的连接和信息处理方式。尽管早在1943年就有学者如McCulloch和Pitts提出了数学模型，但人工神经网络真正被广泛研究是在20世纪80年代。###1.2BP神经网络的兴起反向传播（BackPropagation，简称BP）算法是20世纪80年
【DAY.2】PHP数据结构与算法_排序_冒泡排序我是妖怪_ 天天学习冒泡排序算法 php
思路分析：循环逐个对比，从第一个开始，与下一个数字进行对比，若大于则交换位置，每循环一遍将最大的一个排到最后。（依次比较相邻的元素，两两比较，就可以最终将最大（小）的元素调整到最顶端、次顶端、、、）$arr=array(3,2,5,6,1,8,4,9);functionbubble_sort($arr){$len=count($arr);//判断数组是否为空if($len$arr[$i+1]){$
python转转商超书籍信息爬虫 Python数据分析与机器学习爬虫 python 网络爬虫爬虫
1基本理论1.1概念体系网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以按照我们设置的规则自动化爬取网络上的信息，这些规则被称为爬虫算法。是一种自动化程序，用于从互联网上抓取数据。爬虫通过模拟浏览器的行为，访问网页并提取信息。这些信息可以是结构化的数据（如表格数据），也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。1.2技术体系1请求库:
机器视觉在医疗影像分析中的应用：助力放射科医生精准诊断人工智能专属驿站大数据人工智能计算机视觉
在现代医疗领域，影像学检查如X光、CT扫描和MRI等是诊断疾病的重要手段。随着技术的不断发展，机器视觉算法在医疗影像分析中的应用日益广泛，为放射科医生提供了强大的辅助工具，极大地提高了诊断的准确性和效率。本文将探讨机器视觉在医疗影像分析中的具体应用及其对医疗诊断带来的变革。一、机器视觉算法简介机器视觉是一种模拟人类视觉的科学技术，通过图像处理、模式识别和计算机视觉等技术，使计算机能够“看”懂图像中
Day_1 数据结构与算法&LeetCode入门及攻略 Finger-Von-Frings c++leetcode
数据结构与算法学习目的：我们学习算法和数据结构，是为了学会在编程中从时间复杂度、空间复杂度方面考虑解决方案，训练自己的逻辑思维，从而写出高质量的代码，以此提升自己的编程技能，获取更高的工作回报。数据结构定义：数据结构(DataStructure)指的是带有结构特性的数据元素的集合。学习的目的：为了帮助我们了解和掌握计算机中的数据是以何种方式进行组织、存储的。Q1：何为结构特性？所谓结构特性，指的是
二分(C++) 数的范围三次方根你干码，哎哟算法 c++排序算法
二分通常指的是二分查找（BinarySearch），它是一种高效的查找算法，用于在有序数组中查找某一特定元素的位置。二分查找的思路是：每次取中间位置的元素与目标值进行比较。如果中间位置的元素正好等于目标值，则查找成功。如果中间位置的元素大于目标值，则在数组的左半部分继续查找。如果中间位置的元素小于目标值，则在数组的右半部分继续查找。重复上述过程，直到找到目标值或查找范围为空。一.数的范围题目给定一
AI 2025：技术飞跃与应用鸿沟——AI代码生成器引领未来？前端
2024年，人工智能技术经历了前所未有的飞跃。大型语言模型（LLM）的能力显著提升，成本大幅下降，多模态应用成为主流。然而，令人担忧的是，技术进步与实际应用普及之间存在着巨大的鸿沟。“智能体”等概念被热炒，但实际应用却远未达到预期。本文将探讨这种技术进步与应用普及之间的矛盾，并分析弥合鸿沟的关键所在。技术的突飞猛进2024年，AI技术在多个方面取得了突破性进展。首先，模型能力得到了显著提升。GPT
软件架构的康威定律：AI如何重构团队协作模式前端
1.引言康威定律，一个简洁却深刻的观察：任何组织设计出的系统，其结构都与组织自身的沟通结构保持一致。这意味着，一个团队的沟通方式、组织结构直接影响着最终产品的架构。这在软件开发领域尤为明显。一个沟通效率低下的团队，往往会设计出复杂、难以维护的软件系统。而近年来，人工智能技术的飞速发展为解决这一问题提供了一种新的途径。本文将探讨AI工具，特别是AI辅助代码生成工具，如何帮助团队克服康威定律的限制，重
华为OD机试E卷 --数大雁--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体：1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”2.大雁会依次完整发出”quack”，即字符串中’q，u,a，c，k这5个字母按
实操数据预处理：从理论到实践的基础步骤炼丹侠 python 机器学习人工智能
在快速发展的人工智能领域，数据不仅是基础，更是推动技术创新的关键力量。高质量的数据集是构建高效、准确模型的前提。本文将全面深入探讨数据预处理的各个环节，从基础的数据清洗到复杂的数据增强，再到高效的Python应用实践，为你提供一站式的数据处理解决方案。无论你的经验如何，这篇文章都将成为你宝贵的资源。数据清洗：打好数据质量的基础数据清洗是提升数据质量的首要步骤，涵盖了如下几个关键操作：缺失值的智能处
程序设计思考：归零思想 hookby 程序设计
“归零思想”是一种在程序设计中常用的思考方法，主要指的是通过将某些值或状态归零，来简化问题或解决复杂度。这个思想在许多领域中都可以找到应用，尤其是在处理问题时需要清理和重置状态，避免累积错误或多余的计算。下面是几个典型的应用场景：1.状态重置在某些算法中，特别是动态规划、回溯、递归等问题中，我们可能需要在每个阶段重置某些变量或状态，防止它们影响后续的计算。例如，在递归算法中，递归结束后可以通过将某
BP神经网络及其Python和MATLAB实现预测陈辰学长神经网络 python matlab
BP神经网络及其Python和MATLAB实现预测引言BP神经网络（BackPropagationNeuralNetwork），即反向传播神经网络，是一种通过反向传播算法进行监督学习的多层前馈网络。这种网络能够通过不断地调整和改变神经元的连接权重，达到对特定任务的学习和优化。由于其高度的灵活性和适应性，BP神经网络在模式识别、函数逼近、优化问题等多个领域有着广泛的应用。本文将详细介绍BP神经网络的
保护你的会话令牌博文视点信息安全技术 ESAPI OWASP Top10 web Web WEB 会话安全
保护你的会话令牌通常我们会采取以下的措施来保护会话。1．采用强算法生成SessionID正如我们前面用WebScrab分析的那样，会话ID必须具有随机性和不可预测性。一般来说，会话ID的长度至少为128位。下面我们就拿常见的应用服务器Tomcat来说明如何配置会话ID的长度和生成算法。首先我们找到{TOMCAT_HOME}\conf\context.xml，然后加入下面一段设置➊定义会话ID的长度
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

一文读懂机器学习常用算法的基本概念和适用场景

你可能感兴趣的:(技术干货,算法,人工智能)