AiBigData

SparkMllib基础、功能及应用场景、算法分类及应用场景、基础数据类型

SparkMllib基础及特征工程

1.Spark功能及应用场景

SparkMllib的功能
- ML算法：包括了分类、回归、降维、协同过滤、聚类
- Featurization特征化：特征抽取、特征转换、特征降维、特征选择
- pipeline管道:tools for constructing，evaluating and tuning ML pipelines
- Persistence持久化 :模型的保存、读取、管道操作
- 工具Utilities：提供了线性代数、统计学以及数据处理工具
SparkMllib的版本
- SparkCore数据抽象:RDD
- SparkSql数据抽象：dataframe
- SparkStreaming数据抽象化：DStream
- SparkMllib数据抽象：RDD和DataFrame的抽象
  - DataFrame实现sql以及一些语言的统一的接口
  - DataFrame提供了一套更加友好的API
  - DataFrame可以实现PipeLine的管道操作。
SparkMllib的架构
- MLlib是Spark机器学习库，它是MLBase的一部分，MLBase一共分为一下4部分：
  - MLRunTime：
    - 是基于Spark计算框架，将Spark的分布式计算应用到机器学习领域。
  - MLlib：
    - Spark实现一些常见的机器学习算法和实用程序。
  - MLI：
    - 是一个进行特征提取的和高级ML编程抽象的算法实现的API平台。
  - ML Optimizer：
    - 会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数来处理用户输入的数据，并返回模型或者其他的帮助分析结果。
- 算法架构如下:
  - 底层实现
    - 主要包括Spark的运行库、矩阵库和向量库。其中向量接口和矩阵接口基于Nelib和BLAS/LAPACK开发的线性代数库Breeze。MLlib支持本地的密集向量和本地向量，并且支持标量向量；同时支持本地矩阵和分布式矩阵，分布式矩阵分为：RowMatrix、IndexedRowMatrix和CoordinateMatrix等。
  - 算法库
    - 包含广义线性模型、推荐系统、聚类、决策树和评估的算法；
SparkMllib基于RDD的API和DataFrame的API的详解
SparkMllib的环境搭建
SParkSql实现RDD,DF，DS的转换

2.SparkMllib算法分类及应用场景

如何利用SparkMllib构建机器学习推荐架构
1. 收集用户的行为数据信息和用户静态属性信息（人口统计学信息）
2. 讲这些数据转化为特征（SparkMllib中特征工程的API进行转换）
3. 模型训练，包括模型选择、训练、测试环节
4. 将离线训练好的模型部署到在线模型服务中，用于离线和实时的处理
5. 通过推荐得到结果在目标页面进行展示，并且返回的一些结果还可以使用其作为营销的重点。
SparkMllib支持的哪些分类算法及应用
- 分类问题：离散值的预测的监督学习问题：垃圾邮件的分类、商品点击分类
  - Logistic regression:逻辑回归
    - Binomial logistic regression:二项逻辑回归
    - Multinomial logistic regression:多项逻辑斯蒂回归
  - Decision tree classifier:决策树分类算法
  - Random forest classifier:随机森林分类算法
  - Gradient-boosted tree classifier:GBDT算法（梯度增加树分类）
  - Linear Support Vector Machine:线性支持向量机
  - Naive Bayes:朴素贝叶斯
SparkMllib支持的哪些回归算法及应用
- 回归问题：连续值的预测的监督学习问题：房价预测、成熟度的预测
- Lasso regression:Lasso 回归
- Ridge regression:Ridge 回归
- Linear Regression:线性回归
- Decision tree regression:决策树回归
- Random forest regression：随机森林回归
- Gradient-boosted tree regression:GDBT回归（梯度增加树回归）
SparkMllib支持的哪些聚类算法及应用
- 聚类问题:将相似性较高的样本进行聚类，相似性较高的样本数据聚集在一个组或蔟中，相似性不高的样本数据聚集在不同的组或蔟中
- K-means:KMeans聚类
- Latent Dirichlet allocation:LDA聚类（潜在狄利克雷分布）
- Gaussian Mixture Model:GMM聚类（高斯混合模型）
SparkMllib支持的哪些推荐系统算法及应用
- 关联分析：FPGrowth算法：啤酒和尿布的故事
- 推荐算法：基于模型的协同过滤算法ALS（alternating least squares：交替最小二乘法）算法

3.SparkMllib基础数据类型

标量：常量

本地向量

稀疏性向量：只存储非0值
稠密性向量：所有值都存储
用途：对比机器学习中特征向量

import org.apache.spark.mllib.linalg
import org.apache.spark.mllib.linalg.Vectors

/**
  * 本地向量主要两种类型构成----sparse稀疏性数据（只记录非0值，节省存储空间）------dense稠密性数据集
  * (9,5,2,7)---（9，5,2,7）
  * (9,5,2,7)---(4,位置(0,1,2,3)（9,5,2,7）)
  * (9,5,0,2,7)---(5,位置(0,1,2,4)（9,5,2,7）)
  */
object localVector2 {
  def main(args: Array[String]): Unit = {
    val data: linalg.Vector = Vectors.dense(9,5,2,7)
    println(data)
    println(data(3))

    val data1: linalg.Vector = Vectors.sparse(4,Array(0,1,2,3),Array(9,5,2,7))
    println(data1)
    println(data1(0))
    println(data1(2))

    // 这个方法构造向量的时候需要注意的是，向量的值一定要是Double类型，否者会报错的哦。
    val data2: linalg.Vector = Vectors.sparse(5,Seq((0,9.0),(1,5.0),(2,2.0),(4,7.0)))
    println(data2)
    println(data2(0))
    println(data2(2))
  }
}

标签向量

import org.apache.spark.mllib.linalg
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

/**
  * 机器学习中：特征(向量or矩阵)+类别标签列(标签向量labelpoint)
  * 要构造出下面两个标签向量
  * (1.0,[2.0,0.0,6.0])：特征向量需要使用的是稠密性向量
  * (2.0,(5,[0,1,2,3],[9.0,5.0,2.0,7.0]))：特征向量的钩爪使用的是稀疏性向量
  */
object labelpointVector2 {
  def main(args: Array[String]): Unit = {
    // 1. 创建出本地向量
    val feature: linalg.Vector = Vectors.dense(2,0,6)
    // 2. 通过标签，本地向量构建标签向量
    val label = LabeledPoint(1.0,feature)
    // 3. 打印标签向量
    println(label)

    // 创建稀疏性向量
    val vector2: linalg.Vector = Vectors.sparse(5,Array(0,1,2,3),Array(9,5,2,7))
    // 通过标签，本地向量构建标签向量
    val label2 = LabeledPoint(2,vector2)
    // 打印标签向量
    println(label2)
    // 打印标签向量对应的类
    println(label2.getClass)
    // 打印标签向量的标签
    println(label2.label)
    // 获取标签向量的特征
    val getFeature: linalg.Vector = label2.features

    // 打印特征
    println(getFeature)
    // 获取特征向量中的索引是4对应的值
    println(getFeature(4))
  }
}

libsvm:数据类型：存储稀疏性数据：引入SparkContext,使用的是MLUtils.loadLibSVMFile

本地矩阵

import org.apache.spark.mllib.linalg.{Matrices, Matrix}

/**
  * 矩阵---维度2维度----具有整数类型的行和列索引和double类型的数值，存储在单机上
  * Mllib中支持密集型矩阵，存储方式以列为主
  * 非0值的存储以列主要顺序并且以CSC的压缩方式进行压缩存放
  */
object localmatrix1 {
  def main(args: Array[String]): Unit = {
    // 1. 构建稠密型矩阵，通过稠密性向量来构建
    // (numRows: Int, numCols: Int, values: Array[Double])第一个参数表示矩阵的行数，第二个参数表示矩阵的列数
    // 第三个参数表示稠密型向量，注意因为是稠密型向量，向量中元素的个数要等于矩阵中元素的个数
    val dense: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5, 2, 4, 6))
    // 构建稀疏型的矩阵,下面是我对稀疏性矩阵的理解。
    //     numRows: Int,第一个参数代表的是矩阵的行数，例子中一共是3行
    //     numCols: Int,第二个参数代表的是矩阵的列数，例子中一共是2列
    //     colPtrs: Array[Int],第三个参数，数组中的每一个元素代表每一列及其前几列总元素的个数，为什么2列，却有3个列值，因为默认第一个元素的值是0
    //     第二个元素表示矩阵第一列中非0值的个数，这里第一列有一个元素是非0的，故第二个元素为1，
    //     第三个元素代表得是矩阵第二列非0值得个数+第一列非0值的个数，这个第二列非0的个数为2，所以第三个元素是3
    //     rowIndices: Array[Int],表示各个非0值元素所在行，下标从0开始，有多少个非0值元素，就有多少个小标。
    //     values: Array[Double])，表示各个元素的值。
    val spare: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 0), Array(9, 6, 8))
    println(dense)
    /*
    1.0  2.0
    3.0  4.0
    5.0  6.0
     */
    println(dense(2,0))//5
    println(spare)
    /*
	3 x 2 CSCMatrix
	(0,0) 9.0
	(2,1) 6.0
	(0,1) 8.0
     */
    //println(spare(2,1))//6

    // 自己推导以下下面稀疏型矩阵的构成，是否跟上面的理解一致。
    val spare1: Matrix = Matrices.sparse(3, 3, Array(0, 1, 3,4), Array(0, 2, 0,0), Array(9, 6, 8,33))
    println(spare1)
    /*
    3 x 3 CSCMatrix
    (0,0) 9.0
    (2,1) 6.0
    (0,1) 8.0
    (0,2) 33.0
     */
  }
}

分布式矩阵

分布式矩阵由长整型行列索引和双精度浮点型值数据组成，分布式存储在一个或多个RDD中，对于巨大的分布式矩阵来说，选择正确的存储格式非常重要，将一个分布式矩阵转化为另外一个不同格式需要混洗(shuffle)，其代价很高。在MLlib实现了三类分布式矩阵存储格式，分别是行矩阵（RowMatrix）、行索引矩阵（IndexedRowMatrix）、三元组矩阵（CoordinateMatrix）和分块矩阵（BlockMatrix）等四种。
RowMatrix:行矩阵
- 行矩阵RowMatrix是最基础的分布式矩阵类型。每行是一个本地向量，行索引无实际意义（即无法直接使用）。数据存储在一个由行组成的RDD中，其中每一行都使用一个本地向量来进行存储。由于行是通过本地向量来实现的，故列数（即行的维度）被限制在普通整型（integer）的范围内。在实际使用时，由于单机处理本地向量的存储和通信代价，行维度更是需要被控制在一个更小的范围之内。RowMatrix可通过一个RDD[Vector]的实例来创建。
IndexedRowMatrix:列矩阵
- 索引行矩阵IndexedRowMatrix与RowMatrix相似，但它的每一行都带有一个有意义的行索引值，这个索引值可以被用来识别不同行，或是进行诸如join之类的操作。其数据存储在一个由IndexedRow组成的RDD里，即每一行都是一个带长整型索引的本地向量。

import org.apache.spark.mllib.linalg
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.linalg.distributed.{IndexedRow, IndexedRowMatrix, RowMatrix}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 基础的分布式矩阵--将矩阵存储起来了，不能按照行号访问
  */
object RowMatrixTest2 {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RowMatrixTest2")
    val sc: SparkContext = new SparkContext(conf)
    // 1. 创建稠密型向量
    val vec1: linalg.Vector = Vectors.dense(1,2,3)
    val vec2: linalg.Vector = Vectors.dense(4,5,6)

    // 2.构建RowMatrix
    val rddvec: RDD[linalg.Vector] = sc.parallelize(Seq(vec2, vec2))
    val rowMatrix = new RowMatrix(rddvec)
    // 3. 打印rowMatrix中的元素
    rowMatrix.rows.foreach(println)
//      [4.0,5.0,6.0]
//      [4.0,5.0,6.0]

    // 4. 构建IndexedRow对象
    val row1: IndexedRow = IndexedRow(1,vec1)
    val row2: IndexedRow = IndexedRow(2, vec2)

    // 5. 通过sc.parallelize构建rdd
    val input: RDD[IndexedRow] = sc.parallelize(Seq(row1, row2))
    // 如果直接敲类名，idea没有提示导包，说明这个类没有apply方法，前面加上new后就能自动导包了。
    // 构建IndexedRowMatrix
    val indexedMatrix = new IndexedRowMatrix(input)
    indexedMatrix.rows.foreach(println)
//    IndexedRow(1,[1.0,2.0,3.0])
//    IndexedRow(2,[4.0,5.0,6.0])

  }
}

坐标矩阵：Coordinate Matrix

坐标矩阵CoordinateMatrix是一个基于矩阵项构成的RDD的分布式矩阵。每一个矩阵项MatrixEntry都是一个三元组：(i: Long, j: Long, value: Double)，其中i是行索引，j是列索引，value是该位置的值。坐标矩阵一般在矩阵的两个维度都很大，且矩阵非常稀疏的时候使用。
CoordinateMatrix实例可通过RDD[MatrixEntry]实例来创建，其中每一个矩阵项都是一个(rowIndex, colIndex, elem)的三元组：

import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object CoorinaterMatrixTest1 {
  def main(args: Array[String]): Unit = {
    //三元组矩阵（coordinateMatrix）：是一个分布式矩阵，其实体集合是一个RDD，每一个实体是一个（i:Long,j:Ling,value:Double）三元组
    //其中i代表行索引，j代表列索引，value代表实体值
    //三元组矩阵常用于表示稀疏性比较高的计算中，是由RDD[MatrixEntry]来构建的。
    val conf = new SparkConf().setMaster("local[*]").setAppName("RowMatrixTest")
    val sc = new SparkContext(conf)

    // 创建两个矩阵项ent1和ent2，每一个矩阵项都是由索引和值构成的三元组
    val ent1 = new MatrixEntry(0,1,0.5)
    val ent2 = new MatrixEntry(2,2,1.8)
    // 创建RDD[MatrixEntry]
    val entries : RDD[MatrixEntry] = sc.parallelize(Array(ent1,ent2))
      // 通过RDD[MatrixEntry]创建一个坐标矩阵
      val coordMat: CoordinateMatrix = new CoordinateMatrix(entries)
      //打印
      coordMat.entries.foreach(println)
//      MatrixEntry(0,1,0.5)
//      MatrixEntry(2,2,1.8)

    // 将coordMat进行转置
    val transMat: CoordinateMatrix = coordMat.transpose()
    transMat.entries.foreach(println)
/*    MatrixEntry(1,0,0.5)
    MatrixEntry(2,2,1.8)*/
    // 将坐标矩阵转换成一个索引行矩阵
    val indexedRowMatrix = transMat.toIndexedRowMatrix()
      indexedRowMatrix.rows.foreach(println)
//    IndexedRow(1,(3,[0],[0.5]))
//    IndexedRow(2,(3,[2],[1.8]))
  }
}

分块矩阵（Block Matrix）

分块矩阵是基于矩阵块MatrixBlock构成的RDD的分布式矩阵，其中每一个矩阵块MatrixBlock都是一个元组((Int, Int), Matrix)，其中(Int, Int)是块的索引，而Matrix则是在对应位置的子矩阵（sub-matrix），其尺寸由rowsPerBlock和colsPerBlock决定，默认值均为1024。分块矩阵支持和另一个分块矩阵进行加法操作和乘法操作，并提供了一个支持方法validate()来确认分块矩阵是否创建成功。
分块矩阵可由索引行矩阵IndexedRowMatrix或坐标矩阵CoordinateMatrix调用toBlockMatrix()方法来进行转换，该方法将矩阵划分成尺寸默认为1024×1024的分块，可以在调用toBlockMatrix(rowsPerBlock, colsPerBlock)方法时传入参数来调整分块的尺寸。

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object BlockMatrixTest1 {
  def main(args: Array[String]): Unit = {
    //分块矩阵：BlockMatrix是支持矩阵分块RDD的分布式矩阵，其中矩阵分块由((int,int),matrix)元祖所构成
    //（int,int）是该部分矩阵所处的矩阵的索引位置，Matrix表示该索引位置上的子矩阵
    //分块矩阵支持矩阵加法和乘法，并设有辅助函数验证用于检查矩阵是否设置正确。
    val conf = new SparkConf().setMaster("local[*]").setAppName("RowMatrixTest")
    val sc = new SparkContext(conf)

    import org.apache.spark.mllib.linalg.distributed.{BlockMatrix, CoordinateMatrix, MatrixEntry}

    // 创建8个矩阵项，每一个矩阵项都是由索引和值构成的三元组
    val ent1 = new MatrixEntry(0,0,1)
    val ent2 = new MatrixEntry(1,1,1)
    val ent3 = new MatrixEntry(2,0,-1)
    val ent4 = new MatrixEntry(2,1,2)
    val ent5 = new MatrixEntry(2,2,1)
    val ent6 = new MatrixEntry(3,0,1)
    val ent7 = new MatrixEntry(3,1,1)
    val ent8 = new MatrixEntry(3,3,1)
    // 创建RDD[MatrixEntry]
    val entries : RDD[MatrixEntry] = sc.parallelize(Array(ent1,ent2,ent3,ent4,ent5,ent6,ent7,ent8))

      // 通过RDD[MatrixEntry]创建一个坐标矩阵
      val coordMat: CoordinateMatrix = new CoordinateMatrix(entries)

      // 将坐标矩阵转换成2x2的分块矩阵并存储，尺寸通过参数传入
      val matA: BlockMatrix = coordMat.toBlockMatrix(2,2).cache()
      // 可以用validate()方法判断是否分块成功
      matA.validate()

    println(matA.toLocalMatrix)
//    1.0   0.0  0.0  0.0
//    0.0   1.0  0.0  0.0
//    -1.0  2.0  1.0  0.0
//    1.0   1.0  0.0  1.0

    // 查看其分块情况
    println(matA.numColBlocks)//2
    println(matA.numRowBlocks)//2

    // 计算矩阵A和其转置矩阵的积矩阵
    val ata = matA.transpose.multiply(matA)
    println(ata.toLocalMatrix)
/*    3.0   -1.0  -1.0  1.0
    -1.0  6.0   2.0   1.0
    -1.0  2.0   1.0   0.0
    1.0   1.0   0.0   1.0*/
  }
}

【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
Linux学习1_Linux命令及英文全称 Wang_Zhenwei —Linux 转载 linux
LinuxCommandreferences(命令全称，方便记忆)aliasCreateyourownnameforacommandarchprintmachinearchitectureashashcommandinterpreter(shell)awk(gawk)patternscanningandprocessinglanguagebasenameRemovedirectoryandsuff
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
ACI EP Learning Whitepaper 1. ACI EP组件 m0_54931486 思科 ACI 网络思科 ACI Endpoint ACI fabric Nexus EP 学习
1.ACIEndpointACI网络架构的Endpoint表整合了传统MAC地址表和ARP表的功能。其核心机制是通过硬件层直接学习数据包的源MAC地址与IP地址映射关系，摒弃了传统ARP协议依赖广播请求获取下一跳MAC地址的模式。这种设计优化体现在两方面：1）减少控制面ARP流量处理带来的资源消耗；2）基于终端实际流量即可实时感知主机IP/MAC地址的拓扑迁移，无需依赖GARP通告即可实现终端移动
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
Virtual Machine Platform is not enabled. Enable it using the following PowerShell script (in an admi 朋也透william docker
DockerDesktop安装指南以及Windows下WSL2和Hyper-V相关问题追查-寂寞姜大虎-博客园(cnblogs.com)https://www.cnblogs.com/qfl-blog/p/18200575
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
推测未来Agentic形态：Dynamic Cognitive Contextual Agent with Reinforcement Learning (DCCA-RL) weixin_40941102 语言模型
在AIAgent设计模式领域，我们见证了从简单的ReAct到复杂的LATS的演进，这些模式通过反思、工具使用、规划和多代理协作，极大地提升了AI的自主性和智能性。然而，随着任务复杂度和动态性需求的增加，现有模式逐渐显现出局限性——多Agent协作带来的联合误差和单Agent设计的适应性不足。为此，我们基于对现有模式的全面分析，提出了一个更先进的单Agent框架：DynamicCognitiveCo
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
根据论文复现大模型方法以及出错处理技巧 Ai玩家hly 从0倒1 论文复现大模型复现 Ai大模型复现
复现一篇论文中的大模型搭建涉及以下几个关键步骤：理解论文的模型架构、数据集处理、超参数设置以及实验环境的搭建。这里给出一个基本的实现方法示例，假设我们选择复现一个图像分类任务中的经典模型，例如ResNet。实现步骤示例1.理解论文和模型架构选择一篇关于ResNet的论文作为示例，例如《DeepResidualLearningforImageRecognition》（Heetal.,2015）。2.
集成学习（Ensemble Learning）基础知识1 代码骑士 #机器学习集成学习机器学习人工智能
文章目录一、集成学习1、基本概念2、回顾:误差的偏差-方差分解3、为什么集成学习有效？4、基学习器：“好而不同”5、集成学习的两个基本问题（1）如何训练出具有差异性的多个基学习器？（2）如何将多个基学习器的预测结果集成为最终的强学习器预测结果？二、自助法（Bagging）1、Bagging2、BootstrapBootstrap采样的数学性质3、Bagging:集成学习的两个基本问题（1）如何训练
Chainlink 预言机的原理解析 Chainlink资讯预言机 Chainlink 智能合约
本文来自于8月19日Chainlink开发者社区中国负责人Frank，在DAppLearning分享会上对于Chainlink预言机的原理的讲解，以下是这节分享会的总结内容。有兴趣的小伙伴可以结合视频一起学习：为什么区块链无法主动获取外界数据区块链的特点区块链是一个封闭的确定性系统，每一笔交易都需要不同节点共识，只有超过一定数量的节点共识成功，交易才会被真正认可，并写入区块链。因为对于外部API的
ros smach 教程——（二）白云千载尽自动驾驶 ros python smach 状态机
ROSSMACH中级教程一、SMACH容器1.1状态机容器1.1.1创建状态机容器首先引入状态机容器fromsmachimportStateMachine由于SMACH状态机还提供状态接口，因此必须在构造时指定其结果和用户数据交互。sm=StateMachine(outcomes=['outcome1','outcome2'],input_keys=['input1','input2'],outp
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
宝石组合第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
宝石组合题目来源第十五届蓝桥杯大赛软件赛省赛C/C++大学B组原题链接蓝桥杯宝石组合https://www.lanqiao.cn/problems/19711/learning/问题描述P10426[蓝桥杯2024省B]宝石组合题目描述在一个神秘的森林里，住着一个小精灵名叫小蓝。有一天，他偶然发现了一个隐藏在树洞里的宝藏，里面装满了闪烁着美丽光芒的宝石。这些宝石都有着不同的颜色和形状，但最引人注目
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
自动驾驶中控制模块状态机的作用与设计方法程序员龙一自动驾驶自动驾驶状态机 control
问题解答：一、车辆状态机在自动驾驶控制模块中的核心作用在自动驾驶系统中，状态机（StateMachine）是控制模块的核心逻辑框架，用于管理车辆在不同运行阶段的行为和状态切换。其核心优势体现在以下几个方面：1.系统行为的模块化与可维护性模块化分层管理：状态机将复杂的车辆行为（如启动、停车、紧急避障、车道保持等）分解为独立的状态模块。每个状态专注于单一功能（例如“车道保持”状态仅处理横向控制），降低
AI学习第二天--监督学习半监督学习无监督学习 iisugar 机器学习支持向量机人工智能
目录1.监督学习（SupervisedLearning）比喻：技术细节：形象例子：2.无监督学习（UnsupervisedLearning）比喻：技术细节：形象例子：3.半监督学习（Semi-SupervisedLearning）比喻：技术细节：形象例子：4.三者的对比与选择表格总结：5.实际案例对比案例：电商平台用户分群6.关键逻辑总结1.监督学习（SupervisedLearning）比喻：老
注意力机制+多尺度卷积一只小小的土拨鼠解构前沿：文献精读深度学习 python 人工智能 YOLO 深度学习
多尺度卷积先提供丰富的特征信息，注意力机制再从中筛选出关键信息，这样结合起来，不仅可以进一步提高模型的识别精度和效率，显著提升模型性能，还可以增强模型的可解释性。MPARN:multi-scalepathattentionresidualnetworkforfaultdiagnosisofrotatingmachines方法：论文介绍了一种用于旋转机械故障诊断的多尺度卷积神经网络结构，称为多尺度路
KVM 内核优化全攻略：全方位释放服务器性能 TechStack 创行者 KVM Linux 服务器运维 KVM
KVM内核优化全攻略：全方位释放服务器性能在云计算、大数据、人工智能等前沿技术蓬勃发展的当下，服务器性能面临着前所未有的挑战。KVM（Kernel-basedVirtualMachine）作为开源虚拟化解决方案，凭借高效稳定的特性，广泛应用于企业数据中心。要充分发挥KVM性能优势，对其内核进行全面优化势在必行。本文将为你详细介绍一套涵盖通用优化及其他关键优化点的完整KVM内核优化方案，并结合实际案
数字接龙第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
数字接龙题目来源第十五届蓝桥杯大赛软件赛省赛C/C++大学B组原题链接蓝桥杯数字接龙https://www.lanqiao.cn/problems/19712/learning/问题描述题目描述小蓝最近迷上了一款名为《数字接龙》的迷宫游戏，游戏在一个大小为n×nn\timesnn×n的格子棋盘上展开，其中每一个格子处都有着一个0⋯k−10\cdotsk-10⋯k−1之间的整数。游戏规则如下：从左上
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
嵌入式c语言进阶（三）状态机State Machine niuTaylor c语言开发语言
状态机（StateMachine）是一种描述系统在不同状态之间转换行为的数学模型或设计模式，广泛应用于嵌入式系统、业务流程、游戏开发等领域。以下从核心概念、实现方式、应用实战三方面进行详细解析：一、状态机核心概念四大要素现态（CurrentState）：系统当前所处的状态。事件（Event）：触发状态转移的条件，如用户操作、时间到期等。动作（Action）：状态转移时执行的操作，例如发送通知、更新
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

SparkMllib基础、功能及应用场景、算法分类及应用场景、基础数据类型

SparkMllib基础及特征工程

1.Spark功能及应用场景

2.SparkMllib算法分类及应用场景

3.SparkMllib基础数据类型

你可能感兴趣的:(Machine,Learning)