Rich Dad

2021-03-05 大数据课程笔记 day44

@R星校长

机器学习04【机器学习】

主要内容

道路拥堵预测
梯度下降法
逻辑回归优化
模型评估

学习目标

第一节道路拥堵情况预测

1. 构建训练集：

每条道路的拥堵情况不仅和当前道路前一个时间点拥堵情况有关系，还和与这条道路临近的其他道路的拥堵情况有关。甚至还和昨天当前时间点当前道路是否拥堵有关联。我们可以根据这个规律，构建训练集，预测一条道路拥堵情况。

假设现在要训练一个模型：使用某条道路最近三分钟拥堵的情况，预测该条道路下一分钟的拥堵情况。如何构建训练集？
构建的训练集有什么样的特点，依靠训练集训练的模型就具备什么样的功能。

2. 步骤：

计算道路每分钟经过的车辆数和速度总和，可以得到道路实时拥堵情况
预测道路的拥堵情况受当前道路附近道路拥堵的情况，受这几个道路过去几分钟道路拥堵的情况。预测道路拥堵情况可以根据附近每条道路和当前道路前3分钟道路拥堵的情况来预测。用附近每条道路和当前道路前3分钟道路的拥堵情况来当做维度。统计这些道路过去5个小时内每分钟的前3分钟拥堵情况构建数据集。
训练逻辑回归模型
保存模型
使用模型预测道路的拥堵情况

3. 道路拥堵预测注意问题：

注意：提高模型的分类数，会提高模型的抗干扰能力。比如道路拥堵情况就分为两类：“畅通”、“拥堵”，如果模型针对一条本来属于“畅通”分类的数据预测错了，那么预测结果只能就是“拥堵”，那么就发生了质的改变。

如果我们将道路拥堵情况分为四类：“畅通”，“比较畅通”，“比较拥堵”，“拥堵”。如果模型针对一条本来数据“畅通”分类的数据预测错了，那么预测结果错的情况下就不是只有“拥堵”这个情况，有可能是其他三类的一种，也有一定的概率预测分类为“比较畅通”，那么就相当于提高了模型的抗干扰能力。

第二节道路拥堵情况代码

1. 实时分析Kafka中数据，将结果存入Redis

1.	val conf = new SparkConf().setAppName("CarEventCountAnalytics")
2.	conf.set("spark.streaming.kafka.consumer.cache.enabled","false")
3.	conf.setMaster("local[*]")
4.	val ssc = new StreamingContext(conf, Seconds(5))
5.	val topics = Set("car_events")
6.	val brokers = "mynode1:9092,mynode2:9092,mynode3:9092"
7.	val kafkaParams = Map[String, Object](
8.	  "bootstrap.servers" -> brokers,
9.	  "key.deserializer" -> classOf[StringDeserializer],
10.	  "value.deserializer" -> classOf[StringDeserializer],
11.	  "group.id" -> "predictGroup",//
12.	  "auto.offset.reset" -> "earliest",
13.	  "enable.auto.commit" -> (false: java.lang.Boolean)//默认是true
14.	)
15.	val dbIndex = 1
16.	// Create a direct stream
17.	val kafkaStream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
18.	  ssc,
19.	  PreferConsistent,
20.	  Subscribe[String, String](topics, kafkaParams)
21.	)
22.	val events: DStream[JSONObject] = kafkaStream.map(line => {
23.	  //JSONObject.fromObject 将string 转换成jsonObject
24.	  val data: JSONObject = JSONObject.fromObject(line.value())
25.	  println(data)
26.	  data
27.	})
28.	
29.	val carSpeed : DStream[(String, (Int, Int))]= events.map(jb => (jb.getString("camera_id"),jb.getInt("speed")))
30.	.mapValues((speed:Int)=>(speed,1))
31.	.reduceByKeyAndWindow((a:Tuple2[Int,Int], b:Tuple2[Int,Int]) => {(a._1 + b._1, a._2 + b._2)},Seconds(60),Seconds(60))
32.	
33.	carSpeed.foreachRDD(rdd => {
34.	  rdd.foreachPartition(partitionOfRecords => {
35.	    val jedis = RedisClient.pool.getResource
36.	    partitionOfRecords.foreach(pair => {
37.	      val camera_id = pair._1
38.	      val speedTotal = pair._2._1
39.	      val CarCount = pair._2._2
40.	      val now = Calendar.getInstance().getTime()
41.	      // create the date/time formatters
42.	      val dayFormat = new SimpleDateFormat("yyyyMMdd")
43.	      val minuteFormat = new SimpleDateFormat("HHmm")
44.	      val day = dayFormat.format(now) 
45.	      val time = minuteFormat.format(now) 
46.	      if(CarCount!=0&&speedTotal!=0){
47.	        jedis.select(dbIndex)
48.	        jedis.hset(day + "_" + camera_id, time , speedTotal + "_" + CarCount)
49.	      }
50.	    })
51.	    RedisClient.pool.returnResource(jedis)
52.	  })
53.	})
54.	
55.	/**
56.	* 异步更新offset
57.	*/
58.	kafkaStream.foreachRDD { rdd =>
59.	  val offsetRanges: Array[OffsetRange] =   rdd.asInstanceOf[HasOffsetRanges].offsetRanges
60.	  // some time later, after outputs have completed
61.	  kafkaStream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
62.	}
63.	ssc.start()
64.	ssc.awaitTermination()

2. 逻辑回归训练模型

1.	val sparkConf = new SparkConf().setAppName("train traffic model").setMaster("local[*]")
2.	val sc = new SparkContext(sparkConf)
3.	
4.	// create the date/time formatters
5.	val dayFormat = new SimpleDateFormat("yyyyMMdd")
6.	val minuteFormat = new SimpleDateFormat("HHmm")
7.	
8.	def main(args: Array[String]) {
9.	  // fetch data from redis
10.	  val jedis = RedisClient.pool.getResource
11.	  jedis.select(1)
12.	  // find relative road monitors for specified road
13.	  val camera_ids = List("310999003001","310999003102")
14.	  val camera_relations:Map[String,Array[String]] =     Map[String,Array[String]](
15.	"310999003001" -> Array("310999003001","310999003102","310999000106","310999000205","310999007204"),
16.	"310999003102" -> Array("310999003001","310999003102","310999000106","310999000205","310999007204")
17.	  )
18.	  val temp = camera_ids.map({ camera_id =>
19.	  val hours = 5
20.	  val nowtimelong = System.currentTimeMillis()
21.	  val now = new Date(nowtimelong)
22.	  val day = dayFormat.format(now)//yyyyMMdd
23.	  val array = camera_relations.get(camera_id).get
24.	
25.	  /**
26.	   * relations中存储了每一个卡扣在day这一天每一分钟的平均速度
27.	  */
28.	  val relations: Array[(String, util.Map[String, String])] =    array.map({ camera_id =>
29.	  // fetch records of one camera for three hours ago
30.	  val minute_speed_car_map: util.Map[String, String] = jedis.hgetAll(day + "_'" + camera_id + "'")
31.	    (camera_id, minute_speed_car_map)
32.	  })
33.	
34.	  // organize above records per minute to train data set format   (MLUtils.loadLibSVMFile)
35.	  val dataSet = ArrayBuffer[LabeledPoint]()
36.	  // start begin at index 3
37.	  //Range 从300到1 递减 不包含0
38.	  for(i <- Range(60*hours,0,-1)){
39.	    val features = ArrayBuffer[Double]()
40.	    val labels = ArrayBuffer[Double]()
41.	    // get current minute and recent two minutes
42.	    for(index <- 0 to 2){
43.	      //当前时刻过去的时间那一分钟
44.	      val tempOne = nowtimelong - 60 * 1000 * (i-index)
45.	      val d = new Date(tempOne)
46.	      val tempMinute = minuteFormat.format(d)//HHmm
47.	      //下一分钟
48.	      val tempNext = tempOne - 60 * 1000 * (-1)
49.	      val dNext = new Date(tempNext)
50.	      val tempMinuteNext = minuteFormat.format(dNext)//HHmm
51.	
52.	      for((k,v) <- relations){
53.	        val map = v //map -- k:HHmm v:Speed_count
54.	        if(index == 2 && k == camera_id){
55.	          if (map.containsKey(tempMinuteNext)) {
56.	            val info = map.get(tempMinuteNext).split("_")
57.	            val f = info(0).toFloat / info(1).toFloat
58.	            labels += f
59.	          }
60.	        }
61.	        if (map.containsKey(tempMinute)){
62.	        val info = map.get(tempMinute).split("_")
63.	        val f = info(0).toFloat / info(1).toFloat
64.	        features += f
65.	      } else{
66.	        features += -1.0
67.	      }
68.	    }
69.	  }
70.	
71.	  if(labels.toArray.length == 1 ){
72.	     //array.head 返回数组第一个元素
73.	     val label = (labels.toArray).head
74.	     val record = LabeledPoint(if ((label.toInt/10)<10) (label.toInt/10) else 10.0, Vectors.dense(features.toArray))
75.	     dataSet += record
76.	    }
77.	  }
78.	
79.	  val data: RDD[LabeledPoint] = sc.parallelize(dataSet)
80.	
81.	  // Split data into training (80%) and test (20%).
82.	  //将data这个RDD随机分成 8:2两个RDD
83.	  val splits = data.randomSplit(Array(0.8, 0.2))
84.	  //构建训练集
85.	  val training = splits(0)
86.	  /**
87.	    * 测试集的重要性：
88.	    * 测试模型的准确度，防止模型出现过拟合的问题
89.	    */
90.	  val test = splits(1)
91.	
92.	  if(!data.isEmpty()){
93.	  // 训练逻辑回归模型
94.	  val model = new LogisticRegressionWithLBFGS()
95.	    .setNumClasses(11)
96.	    .setIntercept(true)
97.	    .run(training)
98.	     // 测试集测试模型
99.	    val predictionAndLabels = test.map { case LabeledPoint(label, features) =>
100.	    val prediction = model.predict(features)
101.	    (prediction, label)
102.	  }
103.	
104.	  predictionAndLabels.foreach(x=> println("预测类别："+x._1+",真实类别："+x._2))
105.	
106.	  // Get evaluation metrics. 得到评价指标
107.	  val metrics: MulticlassMetrics = new   MulticlassMetrics(predictionAndLabels)
108.	  val precision = metrics.accuracy// 准确率
109.	  println("Precision = " + precision)
110.	
111.	   if(precision > 0.8){
112.	    val path = "hdfs://mycluster/model/model_"+camera_id+"_"+nowtimelong
113.	    model.save(sc, path)
114.	    println("saved model to "+ path)
115.	    jedis.hset("model", camera_id , path)
116.	
117.	    }
118.	   }
119.	  })
120.	  RedisClient.pool.returnResource(jedis)
1.	}

3. 加载模型进行道路预测

1.	val sparkConf = new SparkConf().setAppName("predict traffic").setMaster("local[4]")
2.	val sc = new SparkContext(sparkConf)
3.	sc.setLogLevel("Error")
4.	// create the date/time formatters
5.	val dayFormat = new SimpleDateFormat("yyyyMMdd")
6.	val minuteFormat = new SimpleDateFormat("HHmm")
7.	val sdf = new SimpleDateFormat("yyyy-MM-dd_HH:mm:ss")
8.	
9.	def main(args: Array[String]) {
10.	
11.	  val input = "xxxx-xx-xx_17:15:00"
12.	  val date = sdf.parse(input)//yyyy-MM-dd_HH:mm:ss
13.	  val inputTimeLong = date.getTime()
14.	  val day = dayFormat.format(date)//yyyyMMdd
15.	  
16.	  // fetch data from redis
17.	  val jedis = RedisClient.pool.getResource
18.	  jedis.select(1)
19.	
20.	  // find relative road monitors for specified road
21.	  val camera_ids = List("310999003001", "310999003102")
22.	  val camera_relations: Map[String, Array[String]] = Map[String,   Array[String]](
23.	    "310999003001" -> Array("310999003001", "310999003102", "310999000106",      "310999000205", "310999007204"),
24.	    "310999003102" -> Array("310999003001", "310999003102", "310999000106", "310999000205", "310999007204"))
25.	
26.	  val temp = camera_ids.foreach({ camera_id =>
27.	    val array = camera_relations.get(camera_id).get
28.	
29.	    val relations: Array[(String, util.Map[String, String])] = array.map({ camera_id =>
30.	    // fetch records of one camera for three hours ago
31.	    (camera_id, jedis.hgetAll(day + "_'" + camera_id + "'"))
32.	  })
33.	
34.	    // organize above records per minute to train data set format (MLUtils.loadLibSVMFile)
35.	    val featers = ArrayBuffer[Double]()
36.	    // get current minute and recent two minutes
37.	    for (index <- 3 to (1,-1)) {
38.	    //拿到过去 一分钟，两分钟，过去三分钟的时间戳
39.	    val tempOne = inputTimeLong - 60 * 1000 * index
40.	    val currentOneTime = new Date(tempOne)
41.	    //获取输入时间的 "HHmm"
42.	    val tempMinute = minuteFormat.format(currentOneTime)//"HHmm"
43.	    println("inputtime ====="+currentOneTime)
44.	    for ((k, v) <- relations) {
45.	      val map = v //map : (HHmm,totalSpeed_total_carCount)
46.	      if (map.containsKey(tempMinute)) {
47.	        val info = map.get(tempMinute).split("_")
48.	        val f = info(0).toFloat / info(1).toFloat
49.	        featers += f
50.	     } else {
51.	        featers += -1.0
52.	      }
53.	    }
54.	  }
55.	
56.	    // Run training algorithm to build the model
57.	    val path = jedis.hget("model", camera_id)
58.	    if(path!=null){
59.	      val model: LogisticRegressionModel = LogisticRegressionModel.load(sc, path)
60.	      // Compute raw scores on the test set.
61.	      val prediction = model.predict(Vectors.dense(featers.toArray))
62.	      println(input + "\t" + camera_id + "\t" + prediction + "\t")
63.	    }
64.	
65.	  })
66.	
67.	  RedisClient.pool.returnResource(jedis)
68.	}

第三节梯度下降法

1. log函数及求导公式
参考ppt
2. 梯度下降法
逻辑回归的公式为：

构造损失函数(cost函数)：

3. 梯度下降案例演示

1.	def h(x):
2.	    return w0 + w1*x[0]+w2*x[1]
3.	
4.	
5.	if __name__ == '__main__':
6.	    # y=3 + 2 * (x1) + (x2)
7.	    rate = 0.001
8.	    x_train = np.array([[1, 2], [2, 1], [2, 3], [3, 5], [1, 3], [4, 2], [7, 3], [4, 5], [11, 3], [8, 7]])
9.	    y_train = np.array([7, 8, 10, 14, 8, 13, 20, 16, 28, 26])
10.	    x_test = np.array([[1, 4], [2, 2], [2, 5], [5, 3], [1, 5], [4, 1]])
11.	
12.	    w0 = np.random.normal()
13.	    w1 = np.random.normal()
14.	    w2 = np.random.normal()
15.	
16.	    for i in range(10000):
17.	        for x, y in zip(x_train, y_train):
18.	        w0 = w0 - rate*(h(x)-y)*1
19.	        w1 = w1 - rate *(h(x)-y)*x[0]
20.	        w2 = w2 - rate*(h(x)-y)*x[1]
21.	        plt.plot([h(xi) for xi in x_test])
22.	        print("w0导数 = %f ,w1导数 = %f ,w2导数 = %f "%(rate*(h(x)-y)*1,rate*(h(x)-y)*x[0],rate*(h(x)-y)*x[1]))
23.	
24.	    print(w0)
25.	    print(w1)
26.	    print(w2)
27.	
28.	    result = [h(xi) for xi in x_train]
29.	    print(result)
30.	
31.	    result = [h(xi) for xi in x_test]
32.	    #[9,9,12,16,10,12]
33.	    print(result)
34.	
35.	
36.	    plt.show()

第四节逻辑回归优化01

1.有无截距

对于逻辑回归分类，就是找到z那条直线，不通过原点有截距的直线与通过原点的直线相比，有截距更能将数据分类的彻底。
2. 线性不可分问题

对于线性不可分问题，可以使用升高维度的方式转换成线性可分问题。低维空间的非线性问题在高维空间往往会成为线性问题。
3. 调整分类阈值

在一些特定的场景下，如果按照逻辑回归默认的分类阈值0.5来进行分类的话，可能存在一些潜在的风险，比如，假如使用逻辑回归预测一个病人得癌症的概率是0.49，那么按照0.5的阈值，病人推测出来是没有得癌症的，但是49%的概率得癌症，比例相对来说得癌症的可能性也是很高，那么我们就可以降低分类的阈值，比如将阈值设置为0.3，小于0.3认为不得癌症，大于0.3认为得癌症，这样如果病人真的是癌症患者，规避掉了0.49概率下推断病人是不是癌症的风险。

降低阈值会使逻辑回归整体的正确率下降，错误率增大，但是规避了一些不能接受的风险。

4.鲁棒性调优

如下两个模型：

无论是欠拟合或者过拟合模型都无法泛化(模型能够应用到新样本的能力)到新的样本数据，无法预测准确的值。各个维度的值偏大容易过拟合（一般过多的维度特征，很少的训练数据集，容易导致过拟合出现），各个维度的值偏小容易欠拟合，可见维度的权重不能太大，也不能太小，如何得到一组比较合适的权重值？这里就需要使用正则化。

正则化主要是用来解决模型过拟合，实际上，模型参数的权重值越小，通常对应越光滑的函数图像，就不易发生过拟合问题。正则化中将保留模型中的所有的维度，会将各个维度的权重保持尽可能小的状态。有两种正则化：L1正则化和L2正则化，公式如下：

第五节逻辑回归优化02

5.归一化数据

老虎数量	麻雀数量	是否污染
2	50640	1
3	55640	0
1	62020	0
0	54642	1

如图，要预测某区域是否污染，有两个维度特征：老虎数量和麻雀数量。这两个维度特征的量级不同，会导致训练出来模型中老虎这个特征对应的 w 参数大，而麻雀数量这个特征对应的 w 参数小，容易导致参数小的特征对目标函数的影响被覆盖，所以需要对每个特征的数据进行归一化处理，以减少不同量级的特征数据覆盖其他特征对目标函数的影响。

归一化数据可以使各个特征维度对目标函数的影响权重一致，提高迭代的求解的收敛速度。
注意：理论上一个模型算法如果拿到训练集所有的特征一起训练模型就要归一化数据。决策树算法可以不归一化数据。

6.调整数据的正负值-均值归一化

7.训练方法选择

训练逻辑回归的方法有：SGD和L-BFGS,两者的区别为：

SGD:随机从训练集选取数据训练，不归一化数据，需要专门在外面进行归一化，支持L1,L2正则化，不支持多分类。

L-BFGS:所有的数据都会参与训练，算法融入方差归一化和均值归一化。支持L1,L2正则化，支持多分类。

本节作业

掌握道路拥堵情况分析。
理解梯度下降法。
逻辑回归优化。

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【穿过丛林看见你】2015年在《诗歌报》读诗日记（一）快快_ce70
写完《三月的领土》和《手握一把锄头，在翻动诗歌的春天》之后，安稳的睡了个好觉，这是从2013年的五月之后，第一次睡的如此安稳和香甜。其实这对于我来说，也没有什么特别的意义和变故，就像我现在的生活在人人忙着踏青、写生、拍照的春天。在我脚下，没有领土的完整，也没有加剧的破碎。我曾经和现在都是个辛勤的“蜂农”，在这样一个角色里，尽管有人盗走了我所有的蜜，但不妨碍我对甜蜜的不懈追求和喜爱。翻开最近的阅读笔
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

2021-03-05 大数据课程笔记 day44

机器学习04【机器学习】

主要内容

学习目标

第一节 道路拥堵情况预测

第二节 道路拥堵情况代码

第三节 梯度下降法

第四节 逻辑回归优化01

第五节 逻辑回归优化02