范特西_jay

机器学习基础知识1

作者：谭东

遵循：BY-SA（署名-相同方式共享4.0协议）

机器学习是人工智能的一个重要的分支。这篇文章将会有助于你对机器学习的理解和认识，带你熟悉其基本原理和基本概念。

先列举下本文将会给你带来的一些名词（这只是本篇博客含有的名词）：

数据集（data set）、示例（instance）/样本（sample）、属性（attribute）/特征（feature）、属性值（attribute value）、属性空间（attribute space）/样本空间（sample space）/输入空间、特征向量（feature vector）、维数（dimensionality）、学习（learning）/训练（training）、训练数据（training data）、训练样本（training sample）、训练集（training set）、假设（hypothesis）、真相/真实（ground-truth）、学习器（learner）、标记（label）、样例（example）、标记空间（label space）/输出空间、分类（classification）、回归（regression）、二分类（binary classification）、正类（positive class）、反类（negative class）、多分类（multi-class classification）、测试（testing）、测试样本（testing sample）、聚类（clustering）、监督学习（supervised learning）、无监督学习（unsupervised learning）、泛化（generalization）能力、分布（distribution）、独立同分布（independent and identically distributed）、归纳（induction）、演绎（deduction）、泛化（generalization）过程、特化（specialization）过程、归纳学习（inductive learning）、版本空间（version space）、归纳偏好（inductive bias）/偏好、奥卡姆剃刀（Occam's razor）、没有免费的午餐定理（No Free Lunch Theorem）/NFL定理、深度学习（deep learning）等。

当我们去判断瓜是否成熟，很多是凭借经验。会根据色泽、根蒂、敲声等不同的角度去综合判断。但如果这些事情要用计算机去判断处理怎么办呢？这就是机器学习要研究和做的类似事情，机器学习是研究如何通过计算的手段，找出规律和经验，利用经验来改善和达到所需效果的过程。在计算机中，“经验”就是以“数据”形式存在的，对其进行计算分析来挖掘数据经验。形成的经验（模型）就可以用来预测和处理其他的类似数据和问题了，模型就是从数据分析中学习到的结果。以西瓜的选择为例，我们收集了一批西瓜的数据，从各个方面进行了标记（label），如（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆），... ...。那么这些数据的集合就称为“数据集（data set）”，每条数据就是一个“示例（instance）/样本（sample）”。其中的色泽、根蒂、敲声叫做“属性”或“特征”。属性取值叫做属性值或特征值。属性所占有的空间叫做“属性空间”或“样本空间”/“输入空间”。如西瓜有色泽、根蒂、敲声三个属性，把它的属性看成三个坐标轴，那么每个西瓜都有其空间上的坐标位置，这个位置点对应一个坐标向量，所以一个示例或样本也叫做一个“特征向量”。

定义几个符号：D=数据样本（数据集）、x=标量、x=向量、X=变量集、χ=样本空间或状态空间

D={x₁,x₂,x₃,...,x_m}表示含有m个样本的数据集，每个样本由d个属性（特征）描述，即每个样本x_i={x_i1；x_i2；x_i3；...；x_id}是d维样本空间χ的一个向量，x_i∈χ。其中x_ij是x_i在第j个属性上的取值，d称为样本x_i的“维数”。

从数据中学习得到模型的过程称为“学习(learning)”/“训练(training)”，这个过程就是通过执行某个学习算法来完成的。训练过程中使用的数据称为“训练数据（training data）”，其中每个样本称为一个“训练样本（training sample）”训练样本组成的集合称为“训练集（training set）”。学习得到的模型对应了关于数据的某种潜在的规律，因此也成为“假设（hypothesis）”。这种潜在的规律自身也称为“真相”或“真实（ground-truth）”，学习的过程就是为了找出或逼近真相。当我们在预测天气好与坏的时候，把这些包含结果信息的数据，如“好天气”称为“标记（label）”；拥有了标记信息的示例/样本，则称为“样例（example）”

这里用(x_i，y_i)表示第i个样例，其中y_i∈Y是样本x_i的标记，Y是所有标记的集合，也成为“标记空间（label space）”或“输出空间”。

再看下分类，二分类，回归，多分类，聚类的简单介绍和例子。如果我们想要预测的是离散值，如“好天气”“坏天气”，“好瓜”“坏瓜”，那么此类学习任务就称为“分类（classification）”；如果想要预测的是连续值，例如西瓜成熟度0.95，0.37，那么此类学习任务称为“回归（regression）”，其中，只涉及两个类别的分类问题叫二分类任务，其中一个类叫做“正类”，另一个叫“反类”。涉及多个类别时称为“多分类”任务。一般情况，我们是通过训练集数据进行学习，找规律，形成一个从输入空间到输出空间的映射关系f：X->Y。对于二分类任务，我们把输出通常取值Y=｛-1，1｝或｛0，1｝；多分类任务，|Y|>2；对于回归任务，Y=R，R为实数集。

当我们得到模型后，用这个模型去进行预测的过程就叫做“测试（testing）”，被预测的样本成为“测试样本”。例如在学习得到f后，对测试样本x，可以得到预测表及y=f(x)。

对于聚类问题，还是以西瓜为例，将训练集中的西瓜分成若干组，每组称为一个“簇（cluster）”，这些自动形成的簇可能对应一些潜在的概念划分，如“浅色瓜”“深色瓜”，“本地瓜”“外地瓜”。聚类的样本信息一般都是没有标记的。

训练数据有标记称为“监督学习”，无标记称为“无监督学习”，分类和回归属于监督，聚类是无监督。

那么我们机器学习的目标就是使学习得到的模型能很好的应用于“新样本”，新数据。学习得到的模型适用于新样本的能力，称为“泛化”能力，具有强泛化能力的模型能很好的适用于整个样本空间。通常我们假设样本空间中全体样本服从一个未知“分布”（distribution）D，我们获得的每个样本都是独立的从这个分布上采样获得的，即“独立同分布”，一般来说，训练样本越多，我们得到的关于D（未知分布）的信息越多，就更有利于我们获取强泛化能力的模型。

再来看假设空间：归纳和演绎是科学推理的量大基本手段，前者是从特殊到一般的“泛化”过程，即从具体的事实归结出一般性规律，如机器学习的从一堆数据中找规律，再用这个规律推广；后者是从一般到特殊的“特化”过程，即从基础原理推演出具体情况。就像我们在学习数学时，基于一组公理和推理规则推导出与之相洽的定理，这就是演绎。“从样例中学习”是一个归纳的过程，也称为“归纳学习”。

机器学习过程可以看做是从有限的数据集（特殊）进行搜索的过程，搜索目标是找到与训练集“匹配”的假设。从特殊到一般的归纳过程。现实问题中，我们常面临很大的假设空间，但学习过程是基于有限样本训练集进行的，因此可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”，称作“版本空间”。例如西瓜问题的一个版本空间：

再看下归纳偏好：假设我们有三个假设模型，(色泽=*；根蒂=蜷缩；敲声=*)、(色泽=*；根蒂=*；敲声=浊响)和(色泽=*；根蒂=蜷缩；敲声=浊响)，用来判断好瓜的标准。那么对于一个瓜来说，我们采用不同的假设模型可能会产生不同的结果，那么我们应该采用哪一个模型呢？机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”或“偏好”。

如上图，存在A和B两条线可以连接这五个点，但是哪个线更好些呢？可能学习算法更偏好比较平滑的曲线A。归纳偏好可以看作是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。那么有没有一般性的原则来引导算法确立“正确的”偏好呢？“奥克姆剃刀”是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，则选最简单的那个”。但是，奥卡姆剃刀并非唯一可行的原则。

其实经过各种数学推证，不管选择哪种假设模型偏好，总误差是一样的！即总误差与学习算法无关！无论算法A多聪明，算法B多笨拙，他们的期望性能是相同的！这就是“没有免费的午餐”定理，简称NFL定理。

那么很多人到这里可能会问了，既然所有学习算法的期望性能都跟随机胡猜差不多，那么还用它干嘛？但是要注意：NFL定理有一个重要的前提，所有“问题”出现的机会相同、或所有问题同等重要。但实际情形并不是这样，很多时候，我们只关注自己正在试图解决的问题，希望为它找到一个解决方案，至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案，我们并不关心。所以NFL定理最重要的寓意，是让我们清楚地认识到，脱离具体问题，空泛的谈论“什么学习算法更好”毫无意义。学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性的作用。

学习机器学习，人工智能了解历史也是有必要的。

机器学习是人工智能研究发展到一定阶段的必然产物。广义的归纳学习（从样例中学习）涵盖了监督学习、无监督学习，是被研究最多、应用最广的。

二十世纪八十年代，“从样例中学习”的一大主流是符号主义学习，其代表包括决策树（decision tree）和基于逻辑的学习。

二十世纪九十年代中期之前，“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。1986年，D.E.Rumelhart等人重新发明了著名的BP算法，产生了深远影响。

二十世纪九十年代中期，“统计学习（statistical learning）”闪亮登场并迅速占据主流舞台，代表性技术是支持向量机（Support Vector Machine）以及更一般的“核方法（kernel methods）”。

二十一世纪初，连接主义学习又卷土重来，掀起了以“深度学习”为名的热潮。所谓深度学习，狭义的说就是“很多层”的神经网络。在很多测试和竞赛上，特别是涉及到语音、图像等复杂对象的应用中，深度学习技术取得了优越性能。

那么，为什么它这个时候才热起来？有两个基本原因：数据大了、计算能力强了。深度学习技术涉及的模型复杂度非常高，以至于要下功夫“调参”，把参数调节好，性能往往就好。因此深度学习虽然缺乏严格的理论基础，但它显著降低了机器学习应用者的门槛，为机器学习技术走向工程实践带来了便利。深度学习模型拥有大量的参数，若数据样本少，则很容易“过拟合”。机器学习现在已经发展成为一个相当大的学科领域。

今天，在计算机科学的很多分支学科领域中，无论是多媒体、图形学，还是网络通信、软件工程，乃至体系结构、芯片设计，都能找到机器学习技术的身影，尤其是在计算机视觉、自然语言处理等“计算机应用技术”领域，机器学习已经成为最重要的技术进步源泉之一。“数据分析”恰是机器学习技术的舞台。

科学研究的基本手段已经从传统的“理论+实验”变成现在的“理论+实验+计算”，也出现了“数据科学”的提法。“计算”的目的往往是数据分析，而数据科学的核心也恰恰是通过分析数据来获得价值。

2006年，卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。说到数据分析，很多人会想到“数据挖掘（data mining）”，而机器学习和统计学的研究为数据挖掘提供数据分析技术。美国《新闻周刊》曾对谷歌搜索有一句话评论：“它使任何人离任何问题的答案间的距离变得只有点击一下鼠标这么远”。除了深度学习，还可以了解下“迁移学习”、“类比学习”、“集成学习”等。

机器学习领域最重要的国际会议是国际机器学习会议（ICML）、国际神经信息处理系统会议（NIPS）和国际学习理论会议（COLT），重要的区域性会议主要有欧洲机器学习会议（ECML）和亚洲机器学习会议（ACML），最重要的国际学术期刊是Journal of Machine Learning Research和Machine Learing。人工智能领域的重要会议如IJCAI、AAAI以及重要期刊如Artificial Intelligence、Journal of Artificial Intelligence Research等。国内机器学习领域最主要的活动是两年一次的中国机器学习大会（CCML）以及每年句型的“机器学习以及应用”研讨会（MLA），很多学术刊物都经常刊登有关机器学习的论文。

参考文献：

[1]周志华.机器学习[M].北京：清华大学出版社，2016.

[2]陆汝钤.人工智能（下册）.北京：科学出版社，1996.

[3]Alpaydin,E.Introduction to Machine Learning.MA：MIT Press,Cambridge，2004.

Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
Lecture 5：Training versus Testing 薛家掌柜的
回顾一下前四个Lecture，Lecture1讲的是找一个使得（也就是），Lecture2讲的是使得，Lecture3讲的是机器学习的分类，Lecture4讲的是让。那么，我们就有两个核心问题需要解决了。我们如何保证尽可能地靠近？我们如何使得足够小？而在这两个问题里面，假设集大小又扮演着什么样的角色？应该多大呢？如果是一个很小的，能够满足，但是可选的假设又太少了。如果是一个很大的，可选的假设很多，
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
Python 机器学习：NumPy 实现朴素贝叶斯分类器 Python编程之道 Python编程之道 python 机器学习 numpy ai
Python机器学习：NumPy实现朴素贝叶斯分类器关键词：朴素贝叶斯分类器、NumPy、机器学习、概率模型、条件概率、拉普拉斯平滑、向量化计算摘要：本文系统讲解朴素贝叶斯分类器的核心原理，基于NumPy实现高效的算法框架，涵盖从概率理论到工程实现的完整流程。通过数学公式推导、代码实现和鸢尾花数据集实战，展示如何利用向量化计算优化概率估计，解决特征独立性假设下的分类问题。同时分析算法优缺点及实际应
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
大模型核心概念 | 嵌入模型（Embedding）、向量模型（Vector Model）
一、核心概念解析1.1嵌入模型（Embedding）作为AI领域的核心基础技术，嵌入模型通过将非结构化数据映射为低维稠密向量，实现语义特征的深度捕捉：文本嵌入：如将语句转换为1536维向量，使"机器学习"与"深度学习"的向量余弦相似度达0.92跨模态嵌入：支持图像与文本的联合向量空间映射，如CLIP模型实现文图互搜1.2向量模型（VectorModel）作为嵌入技术的下游应用体系，主要包含两大方向
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
Java云原生安全矩阵：从代码到运行时的量子级防御墨夶 Java学习资料6 java 云原生安全
核心架构：SpringSecurity与Envoy的“量子态防御”基于声明式安全的“波函数坍缩”API网关的“暗物质过滤”代码示例：SpringSecurity的量子态权限控制威胁检测的“超弦理论”基于行为分析的“量子隧穿”异常检测实时日志的“引力波监测”代码示例：机器学习驱动的异常行为检测加密与密钥管理的“暗能量引擎”敏感数据的“量子态加密”密钥的“黑洞事件视界”保护代码示例：BCrypt与JW
入门勤学奋进小郎君
了解机器学习标签需要通过机器学习模型判断出的结果特征机器学习模型进行判断的条件（可以是很多的变量）模型机器学习判断的工具降低损失线性回归y=mx+b其中：y指的是温度（以摄氏度表示），即我们试图预测的值。m指的是直线的斜率。x指的是每分钟的鸣叫声次数，即输入特征的值。b指的是y轴截距。2018-10-31_155803.png但是这样会对一些样本有误差，而我们的目的就是得到将误差降到最低的模型降低
第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）阿里云云原生 CNCF X 阿里巴巴云原生技术公开课阿里云 Kubernetes CNCF 专家团队 CNCF 专家团队 CNCF 专家团队 Kubernetes
本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI的技术革命迅速从学术圈蔓延到了工业界，所谓AI革命从此拉开了帷幕。经过三年的发展，AI有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
KL散度：信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
不对称性、计算本质与机器学习的普适应用本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与数学本质KL散度（Kullback-LeiblerDivergence）用于衡量两个概率分布PPP和QQQ的差异程度，定义为：DKL(P∥Q)=∑x∈XP(x)log⁡P(x)Q(x)(离散形式)D_
深度学习：让 AI 拥有 “思考” 能力的核心技术田园Coder 人工智能科普人工智能科普
1.深度学习：突破传统的AI“进阶版”1.1什么是深度学习？深度学习是机器学习的一个分支，它通过模拟人脑神经网络的多层结构，让AI能够自动学习数据中的复杂特征，从而完成更高级的认知任务。例如，传统机器学习需要人类手动提取“猫有尖耳朵、胡须”等特征，而深度学习能直接从原始图片中，自主学习从像素到轮廓、再到整体形态的多层特征，最终实现更精准的识别。这种“自主提取特征”的能力，让深度学习突破了传统AI的
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
学习笔记(39):结合生活案例，介绍 10 种常见模型宁儿数据安全 #机器学习学习笔记生活
学习笔记(39):结合生活案例，介绍10种常见模型线性回归只是机器学习的“冰山一角”！根据不同的任务场景（分类、回归、聚类等），还有许多强大的模型可以选择。下面我用最通俗易懂的语言，结合生活案例，介绍10种常见模型及其适用场景：一、回归模型（预测连续值，如房价）1.决策树（DecisionTree）原理：像玩“20个问题”游戏，通过一系列判断（如“面积是否>100㎡？”“房龄是否0.5就判为“会”
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

机器学习基础知识1

你可能感兴趣的:(机器学习)