AiBigData

Spark机器学习基础-机器学习跟深度学习区别、基本概念等

01-Spark机器学习基础

SparkMllib—Spark机器学习库

1.机器学习和大数据的区别和联系

大数据时代的改变

大数据时代究竟改变了什么？—思维方式
- 1.数据重要性----数据资源------数据资产(增值)
- 2.方法论：基于知识的理论完美主义—基于数据的历史经验主义
- 3.数据分析：统计学(抽样理论)------数据科学(大数据)
  - 数据科学家：大数据技术+机器学习算法技术+多年的业务经验(选择一个行业后不要轻易跳出这个行业！！！)
- 4.计算智能：复杂算法------简单算法(MapReduce)
- 5.决策方面：基于目标决策----基于数据决策(科学)
- 6.业务方面：基于业务的数据化------基于数据的业务化
- 7.产业竞合：以战略为中心-------以数据为中心

大数据的4V特征

数据量大
- MB----GB----TP----PB----ZB(2**10)—指数的增长速率最快
- HDFS、MR、HIVE、SPARK
数据种类多
- 结构化数据：RDBMS中数据为主，Sql
- 半结构化数据：XML或HTML,JSON
- 非结构化数据：文本、图像、音频
速度快
- 数据的增长速度快：数据呈现的指数级别的增长
- 数据的处理速度快：离线的处理(MR—Hive)-----实时处理(Spark框架、Flink、Storm)
价值密度低
- 价值密度=有价值的数据/全量的数据
- 呈现价值密度低的趋势-----有价值的数据变得更加多了
- 利用机器学习算法解决问题

2.机器学习的基础概念

人工智能的应用场景

图像识别
无人驾驶
智能翻译
语音识别
医疗智能诊断
数据挖掘
人工智能发展历史
- 跳棋
- 象棋
- 围棋

人工智能和机器学习的区别和联系

机器学习是人工智能的分支，其他分支还有模式识别、数据挖掘
深度学习是机器学习的一种实现基础，是为了解决机器学习中一些图像识别或语音识别领域中识别的不足
数据、数据分析、数据挖掘区别和联系
- 数据：观测值或测量值
- 信息：可信的数据
- 数据分析：从数据到信息的过程
- 数据挖掘：信息到有价值的信息
- 机器学习方法：解决数据挖掘这件事情或模式识别这类事情
- 数据------(数据分析)—信息------(机器学习-数据挖掘)-----有价值的信息

3.如何构建机器学习模型

什么是机器学习

机器学习是通过Cpu或Gpu的计算的手段，结合数据，构建机器学习模型，通过模型对现实事件作出预测
机器学习=机器学习Cpu或Gpu+机器学习算法+数据
什么问题不是机器学习问题？
- 确定性问题、统计问题
机器学习通过大量的数据得到预测的结果，预测的过程，称之为机器学习问题。
基于规则的学习和基于模型的学习
- 基于规则的学习–利用人工指定的规则
- 基于模型的学习
  - X–特征、自变量、定义域
  - F-模型、映射、函数
  - Y–因变量、值域、类别标签列
  - y=kx+b，其中k和b叫做参数，如果k和b知道了，输入一个x就可以得到一个y
- 机器学习学习的是什么?
  - 机器学习学习的是模型，更本质上讲学习的是参数

掌握机器学习数据集的概念

数据集（data set）：记录（数据）的集合

示例（instance）或样本（sample）：每条记录是关于一个事件或对象的描述，被称为示例或样本

属性（attribute）或特征（feature）：事件或对象在某方面的表现或性质的事项

属性值（attribute value）：属性上的取值

属性空间（attribute ）、样本空间（sample space）或输入空间：属性张成的空间

从数据中学得模型的过程称为“学习”（learning）或“训练”（training），这个过程通过执行某个学习算法来完成。

训练过程中使用的数据称为“训练数据”（training data）

每个样本称为一个训练样本（training sample）

训练样本组成的集合称为训练集（training set）

学得模型对应了关于算计的某种潜在规律，称为假设（hypothesis）

潜在规律自身，被称为真相或真实（ground-truth）

关于示例结果的信息，称为标记（label）

拥有标记信息的示例，称为样例（example）

如果预测的是连续值，学习任务称为“回归”（regression）

测试（testing）：学得模型后，使用其进行预测的过程

测试样本（testing sample）：被预测的样本

泛化能力（generalization）：学得模型适用于新样本的能力

学习过程：学习过程可以看作一个在所有假设(hypothesis)组成的空间中进行的探索的过程，探索目标是找到与训练集匹配(fit)的假设。

通过结果进行误差的衡量

绝对误差

平方误差

训练误差

测试误差

分类问题中的性能矩阵/混淆矩阵（accuracy,precision,recall,F1-Score,ROC,AUC）

机器学习的分类

监督学习
- 邮件分类问题：邮件的种类（class label）是离散化的，非连续值的预测问题，称之为分类问题。
- 房价预测：房屋的价格（class label）是一系列的连续值,连续值的预测问题，称之为回归问题。
- 上述两个问题的共同点：都有类别标签（class label）-结果
无监督学习
- 没有类别标签列（class label）的学习方式
- 聚类：通过特征之间的相似性进行判断
- 降维：PCA或SVD,区别于特征选择（从x1或x2中选择一个特征）
半监督学习
- 一部分数据有标签，一部分数据没有标签
- 基于聚类的假设
  - 对所有的数据集进行聚类，聚类后一个组里面有的数据有标签，有的数据没有标签，获取有标签的数据通过少数服从多数的方法选择标签数据较多的类别标签，对该组中没有标记的样本加上同样的类别标签，形成都具有标记的样本。
  - 通过监督学习进行分类或回归
强化学习
- 解决连续预测问题-围棋比赛、自动驾驶
迁移学习
- 模型适应性问题
深度学习
- 解决特征提取问题
深度强化迁移学习
机器学习的三要素
- 数据+算法+策略
- 模型+算法+策略
  - 模型
    - 统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中，==模型就是所要学习的条件概率分布或决策函数。==模型的假设空间（hypothesis space）包含所有可能的条件概率分布或决策函数。例如，假设决策函数是输入变量的线性函数，那么模型的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。
      
      假设空间用F表示。假设空间可以定义为决策函数的集合
    $KaTeX parse error: No such environment: eqnarray at position 8: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ F=&\{f|Y=f(X…$
    - 其中，X和Y是定义在输入空间x和输出空间Y上的变量。这时F通常是由一个参数向量决定的函数族：
    - 其中X和Y是定义在输入空间X和输出空间Y上的标量。
      这时F通常是由一个参数向量决定的函数族
    $F=\{f|Y=f_\theta(X),\theta∈R^n\},$
    - 参数向量θ取值于n维欧氏空间Rn，称为参数空间（parameter space）。假设空间也可以定义为条件概率的集合
    $F=\{P|P(Y|X)\},$
    - 其中，X和Y是定义在输入空间x和输出空间Y上的随机变量。这时F通常是由一个参数向量决定的条件概率分布族：
    $F=\{P|P_\theta(Y|X),\theta∈R^n\},\\$
    - 参数向量θ取值于n维欧氏空间Rn，也称为参数空间。
  - 算法
    - 算法是指学习模型的具体计算方法，机器学习的算法就是求解最优化问题的算法。如果最优化问题有显示的解析解，这个最优化问题就比较简单，但通常这个解析解不存在，所以就需要利用数值计算的方法来求解。机器学习可以利用已有的最优化算法，也可以开发独自的最优化算法。
    - 我们人类自身常规的计算的解析解
    - 机器学习中的最优解的过程-梯度下降法和牛顿法
  - 策略
    - 有了模型的假设空间，统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。
    - 首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
    - 监督学习问题是在假设空间F中选取模型f作为决策函数，对于给定的输入X，由f(X)给出相应的输出Y，这个输出的预测值f(X)与真实值Y可能一致也可能不一致，用一个损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。损失函数是f(X)和Y的非负实值函数，记作L(Y,f(X))。
    - 损失函数度量模型一次预测的好坏，常用的损失函数有：
      - 01损失函数–-用于评价分类问题
      $1.0\ \ 损失函数(loss\ function)\\ L(Y,f(x)) = \begin{cases} 1, Y\neq f(x)\\ 0, Y=f(x)\\ \end{cases}$
      - 平方损失—适用于评价回归问题
      $2.0\ \ 平方损失函数(quadratic\ loss\ function)\\ L(Y,f(x))=(Y-f(x))^2$
      - 绝对值损失 分类和回归
      $绝对值损失函数(absolute\ loss\ function)\\ L(Y,f(x))=|Y-f(x)|$
      - 负log损失—分类
      $4.0\ \ 对数损失函数(logarithmic\ loss\ function)\\或对数似然损失函数(lof-likelihood\ loss\ function)\\ L(Y,f(x))=-logP(Y|X)$
      - 经验风险和结构风险
        
        损失函数的期望
        
        由于模型的输入，输出(X,Y)是随机变量，遵循联合分布P(X,Y),所以损失函数的期望是
        $R_{exp}(f)=E_p[L(Y,f(x)]=\int_{x\times y}L(y,f(x))P(x,y)d_xd_y$
        
        这是理论上模型f(x)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数（risk function）或期望损失（expected loss）。学习的目标就是选择期望风险最小的模型，由于联合分布P(X,Y)是未知的，Rexp(f)不能直接计算。
        
        经验风险—平均风险
        
        模型f(x)关于训练数据集的平均损失称之为经验风险（emprical risk）或经验损失（empirical loss），记作R(emp)
        
        $R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
        
        期望风险R(emp)是模型关于联合分布的期望损失，经验风险R(emp)是模型关于训练样本集的平均损失。根据大数定律，当样本容量N趋于无穷时，经验风险R(emp)趋于期望风险R(exp)，所以一个很自然的想法就是利用经验风险估计期望风险。但是，由于现实中训练样本数目有限甚至很小，所以用经验风险估计期望风险常常不理想，要对经验风险进行一定的矫正，这就是关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。
        
        经验风险最小化
        
        在损失函数以及训练数据集确定的情况下，经验风险函数式就可以确定，经验风险最小化(emprical risk minimization，ERM)的策略认为，经验风险最小的模型是最优模型。
        
        $min_{f\in F}\frac{1}{N}\sum^{n}_{i=1}L(y_i,f(x_i))$
        
        当样本容量足够大的时候，经验风险最小化能保证有很好的学习效果，在现实中被广泛应用，比如，极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子，当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。
        
        模型经验风险最小化
        
        决策函数—平方损失
        
        类条件函数—极大似然估计
        
        结构风险
        
        但是，当样本容量很小时，经验风险最小化的学习的效果就未必很好，会产生“过拟合”现象。
        
        结构风险最小化（structural risk minimization，SRM）是为了防止过拟合而提出来的策略。结构风险在经验风险基础上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间，损失函数以及训练数据集确定的情况下，结构风险的定义是：
        
        $R_{srm}(f)=\frac{1}{N}\sum^{n}_{i=1}L(y_i,f(x_i))+\lambda J(f)$
        
        其中J(f)为模型的复杂度，是定义在假设空间F上的泛函。
        
        结构风险最小化
        
        模型f越复杂,复杂度J(f)就越大；反之，模型f就越简单，复杂度J(f)就越小，也就是说，复杂度表示对复杂模型的惩罚，lambda>=0是系数，是用以权衡经验风险和模型复杂度，结构风险小需要经验风险与模型复杂度同时小，结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。
        
        $min_{f\in F}\frac{1}{N}\sum^{n}_{i=1}L(y_i,f(x_i))+\lambda J(f)$
        
        模型评估和模型选择
        
        当损失函数给定时，基于损失函数的模型的训练误差和模型的测试误差就自然成为了学习方法评估的标准。
        
        训练误差是模型Y=f(x)关于训练数据集的平均损失
        
        $R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
        
        其中N是训练样本容量
        
        $测试误差是模型Y=f(x)关于测试数据集的平均损失\\ e_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}L(y_i,f(x_i))$
        
        N’是测试样本容量
      - 正则化
        
        经验风险较小的模型可能较复杂，这时正则化项的值会较大，正则化的作用是选择经验风险与模型复杂度同时较小的模型。
        
        正则化项符合奥卡姆剃刀原理，在所有的可能的模型中，能够很好的解析已知数据并且十分简单的模型才是最好的模型，从贝叶斯估计的角度来看，正则化项对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。
        
        $min_{f\in F}\frac{1}{N}\sum^{n}_{i=1}L(y_i,f(x_i))+\lambda J(f)$
        
        其中，第一项是经验风险，第二项是正则化项，正则化项可以取不同的形式，例如，正则化项可以是模型参数向量的范数。回归问题中，损失函数是平方损失，正则化项可以是参数向量的L2范数
        
        $L(\omega)=\frac{1}{N}\sum^{N}_{i=1}(f(x_i;\omega)-y_i)^2+ \frac{\lambda}{2}||\omega||^2$
        
        正则化项也可以是参数向量的L1范数
        
        $L(\omega)=\frac{1}{N}\sum^{N}_{i=1}(f(x_i;\omega)-y_i)^2+ \lambda||\omega||$

构建机器学习模型的流程

准备数据
特征工程
- 特征的抽取及缩放
- 特征选择
- 降维，抽样
  - 样本抽样：选择一定阈值的行进行抽样
  - 特征抽样：选择一定的列进行抽样
  - 目的：防止模型过拟合
算法选择
模型训练
模型校验
模型预测分析
模型保存等
补充知识点
- 什么是超参数？
  - 在模型训练之前事先设定的参数，比如迭代次数
- 什么是参数？
  - 通过机器学习算法学习得到的是参数，如k和b,在y=kx+b中
如何评价模型
- 模型的泛化能力
- 欠拟合
  - 出现场景：模型训练的初期
  - 症状：模型对于训练集和测试集效果都很差
  - 出现原因：模型太过于简单了
  - 解决办法：
    - 1.通过增加多项式的项（选择更多的特征）
    - 2.增加多项式项的次数
    - 3.减少正则化项
- 过拟合
  - 出现场景：训练的中后期
  - 症状：模型在训练集上效果好，在测试集上的效果差
  - 出现原因：模型太过于复杂，数据不纯，训练数据量太少
  - 解决办法
    - 1.增加正则化项
    - 2.重新清洗数据
    - 3.增加训练数据量
  - 模型选择，使用奥卡姆剃刀原则
    - 在具有相同泛化误差的情况下，选择较为简单的模型

数据的交叉验证

数据的交叉验证
- 在机器学习中常用的精度测试方法，叫做交叉验证。它的目的是得到可靠稳定的模型，具体的做法是拿出大部分数据进行建模，留小部分样本用刚刚建立的模型进行预测，并求出这小部分样本预测的误差，交叉验证在克服过拟合问题上非常有效。
- 简单交叉验证
  - 简单交叉验证的方法是这样的，随机从最初的样本中选择部分，形成验证数据，而剩下的当作训练数据。一般来说，少于三分之一的数据被选作验证
    数据。
- K则交叉验证；k-3或10
  - 10折交叉验证是把样本数据分成10份，轮流将其中9份做训练数据，
    
    将剩下的1份当测试数据，10次结果的均值作为对算法精度的估计，通常情况下为了提高精度，还需要做多次10折交叉验证。
  - 更进一步，还有K折交叉验证，10折交叉验证是它的特殊情况。K 折交叉验证就是把样本分为K份，其中K-1份用来做训练建立模型，留剩下的一份来验证，交叉验证重复K次，每个子样本验证一次。
- 留一验证
  - 留一验证只使用样本数据中的一项当作验证数据，而剩下的全作为训练数据，一直重复，直到所有的样本都作验证数据一次。可以看出留一验证实际上就是K折交叉验证，只不过这里的K有点特殊，K为样本数据个数。

4.遗留问题

最小二乘法原理
降维：PCA或SVD,区别于特征选择（从x1或x2中选择一个特征）
机器学习中的最优解的过程-梯度下降法和牛顿法
极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子
正则化项对应模型的先验概率
L1,L2范式

强化学习——基本概念 AI大模型探索者人工智能 ai 深度学习机器学习语言模型
何为强化学习机器学习的一大分支强化学习（ReinforcementLearning）是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累计回报最大。强化学习要解决的是决策问题——求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体（IntelligentAgent），在人工智能领域，智能体指一个可以观察周
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
JVM中对象的创建重生之我在成电转码 java 八股 jvm 算法
在Java中，JVM（JavaVirtualMachine）负责对象的创建和管理。对象的创建过程涉及多个步骤，从类加载、内存分配，到对象的初始化和构造方法的调用。了解JVM如何创建对象有助于更好地掌握Java的内存管理和性能优化。JVM中对象创建的过程当我们使用new关键字创建一个对象时，JVM会执行一系列操作。这些操作大致可以分为以下几个步骤：类加载（ClassLoading）内存分配（Memo
CMU 10423 Generative AI：lec10（few-shot、提示工程、上下文学习） ⊙月 AI 人工智能学习 AIGC
文章目录1概述2摘录2.1zero-shot和few-shot一、Zero-shotLearning（零样本学习）特点：工作原理：优点：缺点：二、Few-shotLearning（少样本学习）特点：工作原理：优点：缺点：三、Zero-shot与Few-shotLearning的对比四、应用案例2.2Prompting（提示）一、Prompting（提示）的定义二、Prompting的原理三、Pro
【HDLbits--FSM状态机】中古传奇 HDL HDL
HDLbits--FSM状态机1.6FSM介绍1.6FSM示例1单输入单输出FSM2双输入单输出FSM3真指标状态4MooreFSMdemo5时序图和状态图写状态机【博客首发于微信公众号《漫谈芯片与编程》，欢迎大家关注，多谢大家】1.6FSM介绍在Verilog中，有限状态机（FiniteStateMachine,FSM）是一种用于描述系统行为的模型，通常用于控制逻辑的设计。FSM由一组状态、状态
机器学习AI/ML/CV/NLP/GNN算法公式汇总Latex代码 rockingdingo tensorflow 大数据自然语言处理算法深度学习机器学习
图学习和LinkPrediction任务KnowledgeGraphLinkPredictionEquationsAndLatexCodehttp://www.deepnlp.org/blog/knowledge-graph-link-prediction小样本学习和零样本学习公式的Latex代Few-ShotLearningAndZero-ShotLearningEquationsLatexCo
程序员学商务英语之analogy、popularity、 eloquence、exaggerate、proposition 李匠2024 英文
1448-Here'sananalogy.-打个比方A:Here'sananalogy,learningaforeignlanguageislikelearninghowtoplaythepiano,whichrequirestremendouspractice.It'sreallyatime-consumingandpainstakingjob.打个比方，学习一门外语就像学习弹钢琴，需要大量的练
JVM详解：内存管理与类加载机制猿享天开 Java开发从入门到精通 jvm 内存管理 java
JVM详解：内存管理与类加载机制JVM（JavaVirtualMachine）是Java生态的基石，理解其内存管理和类加载机制是掌握Java核心技术的关键。以下从底层实现原理到优化策略进行全面剖析。一、JVM内存管理体系1.内存区域划分JVM内存区域线程共享区线程私有区HeapMethodArea运行时常量池VMStackNativeStackPCRegister2.核心区域详解内存区域存储内容配
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
深入详解人工智能机器学习：强化学习猿享天开人工智能基础知识学习人工智能机器学习强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL）是机器学习中的一个重要领域，其核心目标是通过与环境的交互学习如何采取行动以最大化累积奖励。与监督学习不同的是，强化学习不依赖于给定的输入输出对，而是通过试探和反馈不断改进决策策略。强化
机器学习：强化学习的epsilon贪心算法田乐蒙 Python ML 机器学习贪心算法人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。它与监督学习和无监督学习不同，强调试错探索（Exploration-Exploitation）以及基于奖励信号的学习。强化学习任务通常用马尔可夫决策过程来描述：机器处于环境EEE中，状态空间XXX，其中每个状态x∈Xx\inXx∈X是
2025年先进结构材料与机械制造国际会议（ASMMM 2025）国际学术会议-杨老师 EI 会议人工智能
2025年先进结构材料与机械制造国际会议2025InternationalConferenceonAdvancedStructuralMaterialsandMachineryManufacturingy大会信息会议名称：2025年先进结构材料与机械制造国际会议会议简称：ASMMM2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·杭州截稿
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
扑克强化学习：DouZero/douzero/dmc/dmc.py （train）强化学习曾小健 python 人工智能深度学习
deftrain(flags):"""Thisisthemainfuntionfortraining.Itwillfirstinitilizeeverything,suchasbuffers,optimizers,etc.Thenitwillstartsubprocessesasactors.Then,itwillcalllearningfunctionwithmultiplethreads.""
31.C++多态4（静态多态，动态多态，虚函数表的存储位置）橘子真甜～ c++开发语言
⭐上篇文章：30.C++多态3(多态的原理，虚指针，虚函数表，抽象类)-CSDN博客⭐本篇代码：c++学习/17.C++三大特性-多态·橘子真甜/c++-learning-of-yzc-码云-开源中国(gitee.com)⭐标⭐是比较重要的部分目录一.静态多态与动态多态二.派生类的虚表的内存分布2.1单继承派生类虚表的分布2.2多继承下派生类虚表的分布一.静态多态与动态多态静态多态是在编译的时候就
【人工智能算法】人工智能算法都包括什么？请详细列出和解释资源存储库算法强化学习人工智能算法
目录人工智能算法都包括什么？请详细列出和解释1.机器学习算法（MachineLearningAlgorithms）监督学习算法（SupervisedLearning）无监督学习算法（UnsupervisedLearning）强化学习算法（ReinforcementLearning）2.进化算法（EvolutionaryAlgorithms）3.模拟退火（SimulatedAnnealing）4.粒
TensorFlow 架构 weixin_zdpau AI tensorflow 人工智能神经网络
https://www.tensorflow.org/guide/extend/architecture一WedesignedTensorFlowforlarge-scaledistributedtrainingandinference,butitisalsoflexibleenoughtosupportexperimentationwithnewmachinelearningmodelsands
win10下安装wireshark的问题 (??(#?)???(???/ wireshark 测试工具网络
win10下安装wireshark的问题1.wireshark启动之后找不到本地接口问题2.安装winpcap的问题显示AnerroroccurredwhileinstallingtheNPFdiver(0x00000430).显示WinPcap4.1.3isalreadyinstalledonthismachine.PressOkifyouwanttoforcetheinstallation,o
Java 编程基础：开启编程世界的大门安年CJ JAVA java 开发语言算法
一、Java环境搭建在开始编写Java代码之前，我们需要先搭建Java开发环境。1.安装JDK（JavaDevelopmentKit）JDK是Java开发的核心工具包，它包含了编译Java源文件所需的编译器（javac）以及运行Java程序的虚拟机（JavaVirtualMachine，JVM）等工具。你可以从Oracle官方网站下载适合你操作系统的JDK版本。下载完成后，按照安装向导进行安装。安
自然语言处理（Natural Language Processing, NLP）的主要应用及核心技术彬彬侠自然语言处理 NLP 自然语言处理
自然语言处理（NLP）是人工智能（AI）的一个重要分支，旨在让计算机能够理解、生成和处理人类语言。NLP在多个领域有着广泛的应用，并结合了多种先进的技术，包括机器学习（ML）、深度学习（DL）、统计模型以及规则方法。1.自然语言处理的主要应用1.1机器翻译（MachineTranslation,MT）应用场景：在线翻译：GoogleTranslate、DeepL、BaiduTranslate。跨语
Cassini_Network-Aware Job Schedulingin Machine Learning Clusters 一只积极向上的小咸鱼机器学习人工智能
这篇论文介绍了CASSINI，一种用于机器学习（ML）集群的网络感知作业调度器。研究背景背景介绍:这篇文章的研究背景是深度学习数据集和模型规模的不断增长，对高效GPU集群的需求日益增加。分布式机器学习训练工作负载的通信开销占据了训练迭代时间的很大一部分，而现有的ML调度器往往忽略了ML训练作业的通信模式。研究问题:该问题的研究目标是开发一种简单而有效的方法，能够在网络链路中高效地放置多个ML作业，
深度学习的前沿与挑战：从基础到最新进展 Jason_Orton 深度学习人工智能数据挖掘机器学习
目录引言什么是深度学习？深度学习的工作原理深度学习的关键技术1.卷积神经网络（CNN）2.循环神经网络（RNN）3.生成对抗网络（GAN）4.变分自编码器（VAE）5.自注意力机制与Transformer深度学习的应用1.计算机视觉2.自然语言处理（NLP）3.语音识别与合成4.推荐系统5.医学影像分析深度学习面临的挑战结语引言深度学习（DeepLearning）近年来成为人工智能领域的核心技术之
支持向量机（SVM）简介与应用 Jason_Orton 支持向量机算法机器学习
目录1.什么是支持向量机？2.SVM的基本原理3.核函数与SVM的扩展4.SVM的优势与挑战5.SVM的应用场景6.总结1.什么是支持向量机？支持向量机（SupportVectorMachine，简称SVM）是一种监督学习模型，广泛应用于分类、回归等问题。SVM的核心思想是通过在高维空间中寻找一个超平面（或决策边界），使得不同类别的样本数据能够被该超平面尽可能地分开，同时最大化分类间隔（Margi
深度学习：从神经网络到智能应用 Jason_Orton 深度学习神经网络人工智能机器学习
目录引言一.什么是深度学习？二.深度学习的基本原理1.神经网络的组成2.激活函数3.反向传播（Backpropagation）三.深度学习的常见模型四.深度学习的应用场景五.深度学习的挑战与未来结语引言深度学习（DeepLearning）作为机器学习的一个分支，近年来在人工智能领域取得了革命性的进展。无论是语音识别、图像识别，还是自动驾驶、自然语言处理，深度学习都在推动着技术的发展和行业的变革。那
（未完）BCNet: Learning Body and Cloth Shape from A Single Image tianyunlinger 笔记人工智能
BCNet:LearningBodyandClothShapefromASingleImage摘要本文提出了一种从单张近正面视角RGB图像自动重建服装和人体形状的方法。为此，我们提出了基于SMPL（SkinnedMulti-PersonLinearModel，多人线性蒙皮模型）的分层服装表示方法，并创新性地使服装的蒙皮权重与人体网格独立，显著提高了服装模型的表现能力。与现有方法相比，我们的方法支持
书籍-《在AWS上构建可扩展的深度学习Pipeline》深度学习机器学习人工智能
书籍：BuildingScalableDeepLearningPipelinesonAWS:Develop,Train,andDeployDeepLearningModels作者：AbdelazizTestas出版：Apress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《在AWS上构建可扩展的深度学习Pipeline》01书籍介绍本书是您在亚马逊网络服务（AWS）上创建强大且端到端深度学
深入探索Spark MLlib：大数据时代的机器学习利器 concisedistinct 人工智能 mllib spark-ml Spark MLlib 大数据机器学习
随着大数据技术的迅猛发展，机器学习在各行各业的应用日益广泛。ApacheSpark作为大数据处理的利器，其内置的机器学习库MLlib（MachineLearningLibrary）提供了一套高效、易用的工具，用于处理和分析海量数据。本文将深入探讨SparkMLlib，介绍其核心功能和应用场景，并通过实例展示如何在实际项目中应用这些工具。一、SparkMLlib概述1.什么是SparkMLlib？S
新手适合学python吗_新手该如何学python怎么学好python？ weixin_39600837 新手适合学python吗
1)学好python的第一步，就是马上到www.python.org网站上下载一个python版本。我建议初学者，不要下载具有IDE功能的集成开发环境，比如Eclipse插件等。2)下载完毕后，就可以开始学习了。学习过程中，我建议可以下载一些python的学习文档，比如《diveintopython》，《OReilly-LearningPython》等等。通过学习语法，掌握python中的关键字语
python学好了能干啥_新手该如何学python怎么学好python？_python学好了能干什么 weixin_39742568 python学好了能干啥
1）学好python的第一步，就是马上到www.python.org网站上下载一个python版本。我建议初学者，不要下载具有IDE功能的集成开发环境，比如Eclipse插件等。2）下载完毕后，就可以开始学习了。学习过程中，我建议可以下载一些python的学习文档，比如《diveintopython》，《OReilly–LearningPython》等等。通过学习语法，掌握python中的关键字语
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

Spark机器学习基础-机器学习跟深度学习区别、基本概念等

01-Spark机器学习基础

1.机器学习和大数据的区别和联系

大数据时代的改变

大数据的4V特征

2.机器学习的基础概念

人工智能的应用场景

人工智能和机器学习的区别和联系

3.如何构建机器学习模型

什么是机器学习

掌握机器学习数据集的概念

机器学习的分类

构建机器学习模型的流程

数据的交叉验证

4.遗留问题

你可能感兴趣的:(Machine,Learning)