多多读书~

educoder-Spark机器学习

第1关：基于物品的推荐算法

给用户2推荐2个商品。利用spark.mllib中的矩阵计算库，构建用户与物品的打分矩阵，然后计算物品之间的相似分数，进行推荐。实现基于用户（User CF）的协同过滤算法。

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.linalg.SparseVector
import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, IndexedRow, MatrixEntry, RowMatrix}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object ItemBasedCF {
  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

    //读入数据
    val conf = new SparkConf().setAppName("ItemBasedCFModel").setMaster("local")
    val sc = new SparkContext(conf)
    val data = sc.textFile("/root/data/als/ratingdata.txt")

    /*MatrixEntry代表一个分布式矩阵中的每一行(Entry)
     * 这里的每一项都是一个(i: Long, j: Long, value: Double) 指示行列值的元组tuple。
     * 其中i是行坐标，j是列坐标，value是值。*/
    val parseData: RDD[MatrixEntry] =
      data.map(_.split(",") match { case Array(user, item, rate) => MatrixEntry(user.toLong, item.toLong, rate.toDouble) })

    //CoordinateMatrix是Spark MLLib中专门保存user_item_rating这种数据样本的
    val ratings = new CoordinateMatrix(parseData)

    /* 由于CoordinateMatrix没有columnSimilarities方法，所以我们需要将其转换成RowMatrix矩阵，调用他的columnSimilarities计算其相似性
     * RowMatrix的方法columnSimilarities是计算，列与列的相似度，现在是user_item_rating，与基于用户的CF不同的是，这里不需要进行矩阵的转置，直接就是物品的相似*/
     
    val matrix: RowMatrix = ratings.toRowMatrix()

    //需求：为某一个用户推荐商品。基本的逻辑是：首先得到某个用户评价过（买过）的商品，然后计算其他商品与该商品的相似度，并排序；从高到低，把不在用户评价过
    //商品里的其他商品推荐给用户。
    //例如：为用户2推荐商品

    //第一步：得到用户2评价过（买过）的商品  take(5)表示取出所有的5个用户  2:表示第二个用户
    //解释：SparseVector：稀疏矩阵
    val user2pred = matrix.rows.take(5)(2)
    val prefs: SparseVector = user2pred.asInstanceOf[SparseVector]
    val uitems = prefs.indices //得到了用户2评价过（买过）的商品的ID
    val ipi = (uitems zip prefs.values) //得到了用户2评价过（买过）的商品的ID和评分，即：(物品ID,评分)

    //计算物品的相似性，并输出
    val similarities = matrix.columnSimilarities()
    val indexdsimilar = similarities.toIndexedRowMatrix().rows.map {
      case IndexedRow(idx, vector) => (idx.toInt, vector)
    }

    //ij表示：其他用户购买的商品与用户2购买的该商品的相似度
    val ij = sc.parallelize(ipi).join(indexdsimilar).flatMap {
      case (i, (pi, vector: SparseVector)) => (vector.indices zip vector.values)
    }

	/********** begin **********/
    //ij1表示：其他用户购买过，但不在用户2购买的商品的列表中的商品和评分
    val ij1 = ij.filter { case (item, pref) => !uitems.contains(item) }

    //将这些商品的评分求和，并降序排列，并推荐前两个物品
    val ij2 = ij1.reduceByKey(_ + _).sortBy(_._2, false).take(2)
	
	/********** end **********/
    
    // crgjl
	//取消以下1行注释
    for (id <- ij2) print(id._1 + " ")
    sc.stop()
  }
}

第2关：基于用户的推荐算法

根据提示，在右侧编辑器补充代码.实现：找出与用户1最相似的2个用户。

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry, RowMatrix}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object UserBasedCF {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    // 创建一个SparkContext
    val conf = new SparkConf().setAppName("UserBasedCF").setMaster("local")
    val sc = new SparkContext(conf)
    // 读入数据
    val data = sc.textFile("/root/data/als/ratingdata.txt")
    // 解析出评分矩阵的每一行
    val parseData: RDD[MatrixEntry] = data.map(_.split(",")
    match { case Array(user, item, rate) =>
        MatrixEntry(user.toLong, item.toLong, rate.toDouble)
    })
    // 构建关联矩阵
    val ratings = new CoordinateMatrix(parseData)

    // 转置矩阵以计算列(用户)的相似性
    val matrix: RowMatrix = ratings.transpose().toRowMatrix()

    // 计算得到用户的相似度矩阵
    val similarities = matrix.columnSimilarities()

    // 得到某个用户对所有物品的评分
    val ratingOfUser1 = ratings.entries.filter(_.i == 1).
      map(x => (x.j, x.value)).
      sortBy(_._1).
      map(_._1).
      collect().
      toList.
      toArray

    // 得到用户1相对于其他用户的相似性
    val similarityOfUser1 = similarities.entries.filter(_.i == 1).
      sortBy(_.value, false).
      map(_.value).
      collect

    // 需求：为用户1推荐2个商品
    // 思路：找到与用户1相似性最高的两个用户，将这两个用户评过分的物品，用户1没有评过分的物品推荐给用户1
    /********** begin **********/

    //找到与用户1相似性最高的两个用户
    val similarityTopUser = similarities.entries.filter(_.i == 1).
      sortBy(_.value, false).
      map(x=>(x.j, x.value)).
      collect.
      take(2)
	
    //println("与用户1最相似的两个用户如下：")
    //取消以下2行注释
	for (s <- similarityTopUser) print(s._1 + " ")
    
	for (s <- similarityTopUser) {
      // 找到这两个用户评过分的商品，与用户1没有评过分的物品
      val userId = s._1
      val ratingOfTemp = ratings.entries.filter(_.i == userId).
        map(x => (x.j, x.value)).
        sortBy(_._1).
        map(_._1).
        collect().
        toList.
        toArray
      // 用户1与当前用户求差集
      val dis = ratingOfTemp diff ratingOfUser1
      //println("用户" + userId + "要推荐给用户1的商品id为")
      for (id <- dis) print(id + " ")
    }
    
	/********** end **********/

    sc.stop()
  }
}

第3关：基于ALS的推荐算法

根据提示，在右侧编辑器补充代码。创建一个ALS模型，使用调用fit方法，使用training训练生成model。

import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.recommendation.ALS
import org.apache.spark.sql.{DataFrame, SparkSession}

object ALS {
  case class Rating(userId: Int, movieId: Int, rating: Float)
  def parseRating(str: String): Rating = {
    val fields = str.split(",")
    assert(fields.size == 3)
    Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat)
  }

  def main(args: Array[String]) {
    val spark = SparkSession
      .builder
      .master("local")
      .appName("ALS")
      .getOrCreate()
    import spark.implicits._

    val ratings = spark.read.textFile("data/als/ratingdata.txt")
      .map(parseRating)
      .toDF()
    val Array(training, test) = ratings.randomSplit(Array(0.8, 0.2))
	/********** begin **********/
    // Build the recommendation model using ALS on the training data
	
    val als = new ALS()  
      .setMaxIter(5)  
      .setRegParam(0.01)  
      .setUserCol("userId")  
      .setItemCol("movieId")  
      .setRatingCol("rating")  
    val model = als.fit(training) 
    

	/********** end **********/
    // "Evaluate the model by computing the RMSE on the test data"
    // "Note we set cold start strategy to 'drop' to ensure we don't get NaN evaluation metrics"
    //取消以下3行注释
	  model.setColdStartStrategy("drop")
    val predictions = model.transform(test)
    evaluatingRMSE(predictions)
    spark.stop()
  }
  def evaluatingRMSE(predictions:DataFrame):Unit = {
    val evaluator = new RegressionEvaluator()
      .setMetricName("rmse")
      .setLabelCol("rating")
      .setPredictionCol("prediction")
    val rmse = evaluator.evaluate(predictions)
    if (rmse <= 2){
      print("\n" + "good")
    }else{
	  println()
      predictions.show(false)
    }
  }
}

第4关：基于随机森林预测贷款风险

编写一个预测贷款风险的随机森林二分类模型。

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame,SparkSession}
import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.tuning.{CrossValidator, ParamGridBuilder}
import org.apache.spark.ml.{Pipeline, PipelineStage}
import org.apache.spark.mllib.evaluation.RegressionMetrics
object Credit {
  case class Credit(
                     creditability: Double,
                     balance: Double, duration: Double, history: Double, purpose: Double, amount: Double,
                     savings: Double, employment: Double, instPercent: Double, sexMarried: Double, guarantors: Double,
                     residenceDuration: Double, assets: Double, age: Double, concCredit: Double, apartment: Double,
                     credits: Double, occupation: Double, dependents: Double, hasPhone: Double, foreign: Double
                   )

  def parseCredit(line: Array[Double]): Credit = {
    Credit(
      line(0),
      line(1) - 1, line(2), line(3), line(4), line(5),
      line(6) - 1, line(7) - 1, line(8), line(9) - 1, line(10) - 1,
      line(11) - 1, line(12) - 1, line(13), line(14) - 1, line(15) - 1,
      line(16) - 1, line(17) - 1, line(18) - 1, line(19) - 1, line(20) - 1
    )
  }

  def parseRDD(rdd: RDD[String]): RDD[Array[Double]] = {
    rdd.map(_.split(",")).map(_.map(_.toDouble))
  }

  def evaluatingAUC(predictedResultDF:DataFrame, labelstring:String):Unit = {
	val evaluator = new BinaryClassificationEvaluator().setLabelCol(labelstring).setRawPredictionCol("prediction")
    val predictionAUC = evaluator.setMetricName("areaUnderROC").evaluate(predictedResultDF)
    if(predictionAUC > 0.6){
		print("\n" + "good")
	}else{
		print(s"areaUnderROC: $predictionAUC")
	}
  }

  def main(args: Array[String]) {

    val spark = SparkSession
      .builder
      .appName("Credit")
      .master("local")
      .getOrCreate()

    import spark.implicits._
    val creditDF = parseRDD(spark.sparkContext.textFile("/root/data/germancredit.csv")).map(parseCredit).toDF()
    creditDF.createTempView("credit")
	
    val featureCols = Array("balance", "duration", "history", "purpose", "amount",
      "savings", "employment", "instPercent", "sexMarried", "guarantors",
      "residenceDuration", "assets", "age", "concCredit", "apartment",
      "credits", "occupation", "dependents", "hasPhone", "foreign")

	/********** begin **********/
    
	// 合并特征列。
	val assembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features")  
    val df2 = assembler.transform(creditDF)
	
	/********** end **********/

	//取消以下4行注释
    val labelIndexer = new StringIndexer().setInputCol("creditability").setOutputCol("label")
    val df3 = labelIndexer.fit(df2).transform(df2)
    val splitSeed = 5043
    val Array(trainingData, testData) = df3.randomSplit(Array(0.7, 0.3), splitSeed)

	/********** begin **********/
	
	//调用随机森林API，使用trainingData训练生成模型model
     val classifier = new RandomForestClassifier().setImpurity("gini").setMaxDepth(5).setNumTrees(20).setFeatureSubsetStrategy("auto").setSeed(5043)  
    val model = classifier.fit(trainingData)  
	
	/********** end **********/

	//取消以下2行注释
    val predictions = model.transform(testData)
	  evaluatingAUC(predictions,"label")
    spark.stop()
  }
}

第5关：基于多层感知器的手机短信分类

编写一个短信文本分类的程序。使用Spark.ml中的多层感知器（MLP，Multi Layer Perceptron Classifier）API——MultilayerPerceptronClassifer。

import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification.MultilayerPerceptronClassifier
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.feature.{IndexToString, StringIndexer, Word2Vec}
import org.apache.spark.sql.{DataFrame,SparkSession}

object SMSClassifier {
  final val VECTOR_SIZE = 100

  def evaluatingAUC(predictedResultDF:DataFrame, labelcol: String):Unit = {
    val evaluator = new BinaryClassificationEvaluator().setLabelCol(labelcol).setRawPredictionCol("prediction")
    val predictionAUC = evaluator.setMetricName("areaUnderROC").evaluate(predictedResultDF)
    if(predictionAUC > 0.8){
      print("\n" + "good")
    }else{
      print(s"areaUnderROC: $predictionAUC")
    }
  }

  def main(args: Array[String]) {

    val spark = SparkSession
      .builder
      .master("local")
      .appName("SMS Message Classification (HAM or SPAM)")
      .getOrCreate()

    val parsedRDD = spark.sparkContext.textFile("data/smsspamcollection/SMSSpamCollection").map(_.split("\t")).map(eachRow => {
      (eachRow(0),eachRow(1).split(" "))
    })

    val msgDF = spark.createDataFrame(parsedRDD).toDF("label","message")

    val labelIndexer = new StringIndexer()
      .setInputCol("label")
      .setOutputCol("indexedLabel")
      .fit(msgDF)

	/********** begin **********/
     val word2Vec = new Word2Vec()  
      .setInputCol("message")  
      .setOutputCol("features")  
      .setVectorSize(VECTOR_SIZE)  
      .setMinCount(1)  
	/********** end **********/

    val layers = Array[Int](VECTOR_SIZE,6,5,2)
	
	/********** begin **********/
    val mlpc = new MultilayerPerceptronClassifier()  
      .setLayers(layers)  
      .setBlockSize(512)  
      .setSeed(1234L)  
      .setMaxIter(128)  
      .setFeaturesCol("features")  
      .setLabelCol("indexedLabel")  
      .setPredictionCol("prediction") 

	/********** end **********/

    val labelConverter = new IndexToString()
      .setInputCol("prediction")
      .setOutputCol("predictedLabel")
      .setLabels(labelIndexer.labels)

    val Array(trainingData, testData) = msgDF.randomSplit(Array(0.8, 0.2))

	/********** begin **********/
    val pipeline = new Pipeline().setStages(Array(labelIndexer,word2Vec,mlpc,labelConverter))  
    val model = pipeline.fit(trainingData)  
	
	/********** end **********/
  
    //取消以下两行注释
	  val predictionResultDF = model.transform(testData)
    evaluatingAUC(predictionResultDF,"indexedLabel")
    spark.stop()
  }
}

深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
如何使用Spark Streaming 会探索的小学生 spark 大数据分布式
一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_2.112.1.2三、什么叫DStreamDStream：DiscretizedStream离散流，这是SparkStreaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在S
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
4 Spark Streaming TTXS123456789ABC #Spark spark ajax 大数据
4SparkStreaming一级目录1.整体流程2.数据抽象3.DStream相关操作4.SparkStreaming完成实时需求1)WordCount2)updateStateByKey3)reduceByKeyAndWindow一级目录SparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。S
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
spark streaming python_Spark入门：Spark Streaming简介(Python版) weixin_39531582 spark streaming python
SparkStreaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。SparkStreaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。SparkStreaming设计SparkStreaming是Spark的核心组件之一，为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示，SparkStreaming可整
Spark 学习-1 (python) 一二三四0123 spark 学习 python
Spark官方文档快速入门指南Spark架构-Spark教程1.基本概念RDD（resilientdistributeddataset）弹性分布式数据集，对分布式数据和计算的基本抽象。每个Spark应用由一个驱动器程序（driverprogram）发起集群上的并行操作，驱动器程序一般要管理多个执行器（executor）节点。当我们在集群上执行一个操作，不同的节点会对文件不同部分展开计算。驱动器程序
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
Spark入门（Python） nfenghklibra python spark
目录一、安装Spark二、Spark基本操作一、安装Sparkpip3installpyspark二、Spark基本操作#导入spark的SparkContext,SparkConf模块frompysparkimportSparkContext,SparkConf#导入os模块importos#设置PYSPARK的python环境os.environ['PYSPARK_PYTHON']="C:\\
Python软体中使用Scikit-learn库训练简单线性回归模型清水白石008 Python题库 python python scikit-learn 线性回归
Python软体中使用Scikit-learn库训练简单线性回归模型1.引言作为数据科学家和机器学习从业者,我们经常需要处理各种类型的数据,并从中提取有价值的信息。其中,线性回归是最基础也是最常用的机器学习算法之一。它可以帮助我们预测连续型目标变量,在很多实际应用场景中都有广泛应用,比如房价预测、销量预测等。在本文中,我将使用Python的Scikit-learn库,介绍如何训练一个简单的线性回归
超实用的Python机器学习教程 - 基于scikit - learn库 AI_DL_CODE 人工智能 python 机器学习人工智能
一、机器学习简介机器学习的定义与概念机器学习是一门多领域交叉学科，它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单来说，机器学习是让计算机从数据中学习规律并进行预测或决策的技术。它旨在构建能够自动从数据中学习模式并进行改进的算法，而无需被明确编程来执行特定任务。例如，我们可以让机器学习算法通过分析大量的历史天气数据来预测未来的天气情况，或者通过分析用户的购物历史来推荐可能感兴趣
【python】利用 GridSearchCV 和 SVM 进行学生成绩预测码银支持向量机机器学习人工智能
在机器学习领域，寻找最优模型参数是一个重要的步骤，它直接影响模型的泛化能力和预测准确性。本文将通过一个具体案例介绍如何使用支持向量机（SVM）和网格搜索（GridSearchCV）来预测学生的成绩，并通过调整参数来优化模型性能。数据集：公众号“码银学编程”后台回复：学生成绩-SVM前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：前言–人工智能教程引言学生的成绩预测
机器学习笔记——特征工程好评笔记补档机器学习人工智能论文阅读 AIGC transformer 深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
不同物体运动方向的检测-python 人工智能专属驿站 python 开发语言
方法优点适用场景缺点光流法实时性强、支持稠密方向分析视频流中物体整体运动对背景复杂场景鲁棒性差特征点跟踪精确捕捉局部运动特征点明显的物体特征点丢失影响结果帧间差分简单快速，适合实时检测背景稳定、低复杂度场景对噪声和阴影敏感深度摄像头三维方向检测，抗背景干扰能力强需要深度信息的场景需要特殊硬件，成本较高惯性传感器不依赖视觉，适用环境广泛设备本体的运动分析精度受传感器噪声影响机器学习能适应复杂非线性场
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
机器学习强基计划7-6：图文详解层次聚类AGNES算法(附Python实现)_agnes聚类算法python代码软件开发Java 2024年程序员学习机器学习算法聚类
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
Chrome浏览器删除网站cookies的解决方案爱编程的喵喵 Windows实用技巧 chrome cookie cookies
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Chrome浏览器删除网站cooki
机器学习-期末复习题泡椒鸡jo 期末复习机器学习 python
给人脸打上标签再让模型进行学习训练的方法，属于()强化学习B.半监督学习C.监督学习D.无监督学习在机器学习中，用计算机处理一副图像，维度是：上万维B.二维C.三维D.一维‎以下关于降维的说法不正确的是？A.降维是将训练样本从高维空间转换到低维空间B.降维不会对数据产生损伤C.通过降维可以更有效地发掘有意义的数据结构D.降维将有助于实现数据可视化‍将原始数据进行集成、变换、维度规约、数值规约是在以
【机器学习】自定义数据集使用paddlepaddle框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测加德霍克机器学习 paddlepaddle 逻辑回归 python 作业
一、使用paddlepaddle框架实现逻辑回归1.数据部分：首先自定义了一个简单的数据集，特征X是100个随机样本，每个样本一个特征，目标值y基于线性关系并添加了噪声。将numpy数转换为Paddlepaddle张量，方便后续在模型中使用。2.模型定义部分：方案1：使用nn.Sequential组网代码解释①数据生成与转换：生成自定义的特征矩阵X和目标值向量y，并添加高斯噪声模拟真实数据。使用p
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
深度学习之核函数 fpcc AI及算法 ai
深度学习之核函数在机器学习中，常看到多项式核函数、高斯核函数，那什么叫核函数（KernelFunction，或者KernelTrick）呢？它有什么用呢。支持向量机通过某非线性变换φ(x)，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数K(x,x′)，它恰好等于在高维空间中这个内积，即K(x,x′)=。那么支持向量机就不用
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发