星瀚光晨

Spark-RDD操作

什么是RDD
怎么理解RDD
创建RDD的3种方式
读取数据并产生RDD
- 读取普通文本数据
- 读取json格式的数据
- 读取CSV，TSV格式的数据
- 读取sequenceFile格式的数据
- 读取object格式的数据
- 读取HDFS中的数据
- 读取MySQL数据库中的数据
保存RDD的数据到外部存储
- 保存成普通文件
- 保存成json文件
- 保存成CSV，TSV格式文件
- 保存成sequenceFIle文件
- 保存成Object文件
- 写数据到HDFS
- 写入到MySQL数据库
RDD的高级操作
- RDD缓存
- 缓存与释放RDD
- RDD的检查点机制(Checkpoint)
- RDD的依赖关系
- - 窄依赖
  - 宽依赖
- 广播
- 累加器
- - 累加器的分类

什么是RDD

(Resilient distributed dataset) 弹性的，分布式的数据集合

在Hadoop中，shuffle过程中当环形缓冲区(默认是100M)的内存使用量达到80%，会将内存中的数据溢写到磁盘，防止内存溢出。
而在spark中，允许内存不足的情况下将集合数据溢写到磁盘。体现了弹性这个词，表明spark的内存优先的特性

怎么理解RDD

可以从三个不同的角度理解: 数据存储，数据分析，程序调度

数据存储

RDD中的数据会被切分成多个分区(切片)，分别存储在不同的主机上

内存优先。将数据缓存到内存的spark计算比MapReduce快100倍

血统关系(依赖链)保证数据的可靠性，某个RDD数据丢失，通过RDD的血统关系重新运行就可以恢复。也可以设置检查点缓存中间结果

数据分析

通过RDD算子实现数据分析。主要包含转换算子(transformation)和行动算子(action)

程序调度

Driver 在主方法中创建Spark的上下文实例(SparkContext)

Job 每出现一个行动操作，就生成一个job

Stage 只要涉及到数据重组(交叉数据分区如shuffle过程)就产生一个stage

Task 一个stage包含多个task，一个task一次只处理一个分区的数据。在同一个stage中，有多少分区就有多少task

Master 在提交Spark程序时，需要与master服务通信，从而申请资源

Worker 程序申请的运算资源由Worker服务所在的机器提供

Executor 执行运算任务(Task)的进程，Executor进程负责接收Driver进程派发的任务

创建RDD的3种方式

在程序内部创建

SparkContext.parallelize(Seq)的方式

从程序外部读取

SparkContext.textFile(path)

RDD转换操作

rdd1.flatmap(_.split(" "))

读取数据并产生RDD

读取普通文本数据

文件路径支持普通文件路径,目录,压缩文件,通配符等
hdfs://mycluster/data/wc/input/snappyfile
file:java_project/bigdata-chauncy
file:java_project/bigdata-chauncy/.txt
file:java_project/bigdata-chauncy/hello.gz
textFile("/my/directory"), textFile("/my/directory/.txt"), and textFile("/my/directory/*.gz")

// 读取单个文件
val conf = new SparkConf().setMaster("local").setAppName("read Text File")
val sc = new SparkContext(conf)
// 设置为两个分区
val inputTextFile = sc.textFile("./spark-demo/data/person.txt",2)
println(inputTextFile.collect.mkString(","))

// 读取多个文件，使用通配符
val conf = new SparkConf().setMaster("local").setAppName("read Text File")
val sc = new SparkContext(conf)
val inputTextFile = sc.textFile("./spark-demo/data/*.txt")
println(inputTextFile.collect.mkString(","))

// 读取目录下的大量小文件，返回(filename,content)
// sc.wholeTextFiles(path)

读取json格式的数据

// 数据 test.json
{"name": "chauncy","age": 20,"address": ["地址1","地址2"]}
{"name": "alice","age": 18,"address": ["地址1","地址2"]}

// 代码
package com.chauncy.spark_rdd.rdd_read_data

import org.apache.spark.{SparkConf, SparkContext}

import scala.util.parsing.json.JSON

/**
 * @author Chauncy Jin
 *         Tool: 
 * @date 2021/10/9
 */
object MyReadFromTextFile {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("read Text File")
    val sc = new SparkContext(conf)
    val inputTextFile = sc.textFile("./spark-demo/data/test.json")
    val content = inputTextFile.map(JSON.parseFull)
    println(content.collect.mkString(","))
  }
}

读取CSV，TSV格式的数据

sc.textFile("./spark-demo/data/test.csv").flatMap(_.split(",")).foreach(println)

读取sequenceFile格式的数据

sc.sequenceFile("./spark-demo/data/test.sequence").collect.mkString(",").foreach(println)

读取object格式的数据

case class Person(name:String,age:Int)

sc.objectFile[Person]("path")

读取HDFS中的数据

// 显示调用HDFS API
    val sc = new SparkContext(new SparkConf())
    sc.setLogLevel("ERROR")
    val path = "hdfs://data/wc.txt"
    val inputHadoopFile = sc.newAPIHadoopFile[LongWritable, Text, TextInputFormat](path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text])
    val result = inputHadoopFile.map(_._2.toString).collect()
    val value = result.mkString("\n")
    println(value)

    sc.stop()

// 方式二
sc.textFile("hdfs://mycluster:8020/data/wc/input/wc").flatMap(_.split(" ")).foreach(println)

读取MySQL数据库中的数据

pom中添加MySQL驱动
<dependency>
	<groupId>mysql</groupId>
	<artifactId>mysql-connector-java</artifactId>
	<version>5.1.27</version>
</dependency>


// 代码
val inputMysql = new JdbcRDD(sc,
      () => {
        Class.forName("com.mysql.jdbc.Driver")
        DriverManager.getConnection("jdbc:mysql://192.168.7.17:3306/mysql_test?useUnicode=true&characterEncoding=utf8", "meifute", "meifute")
      },
      "select * from student where s_id > ? and s_id <= ? ;",
      1,
      4,
      1, // 分区数
      // 结果集
      r => (r.getInt(1), r.getString(2), r.getString(3), r.getString(4))
    )
    println("查询到的记录条数： " + inputMysql.count)
    inputMysql.foreach(println)

保存RDD的数据到外部存储

保存成普通文件

val conf = new SparkConf().setMaster("local").setAppName("save data")
val sc = new SparkContext(conf)
val data = sc.parallelize(1 to 10)
// 保存到本地文件系统
// data.saveAsTextFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/mySaveData")
// 保存到hdfs,有读到配置文件时
data.saveAsTextFile("./mySaveData")  //等价于hdfs://mycluster/user/god/mySaveData/

保存成json文件

//  和保存成普通文件差不多，只是多了一个转化为json的操作
val map1 = Map("name" -> "chauncy", "age" -> "23", "address" -> JSONArray(List("地址1", "地址2")))
    val map2 = Map("name" -> "alice", "age" -> 18, "address" -> JSONArray(List("地址1", "地址2")))
    val rddData = sc.parallelize(List(JSONObject(map1), JSONObject(map2)))
//    rddData.saveAsTextFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/mySaveData")
    rddData.saveAsTextFile("./mySaveData2")  //等价于hdfs://mycluster/user/god/mySaveData2/

保存成CSV，TSV格式文件

val array = Array("chauncy", 18, "male", "65kg", "182cm")

    // 转换成CSV格式
    val csvData = sc.parallelize(Array(array.mkString(",")), 1)
    csvData.saveAsTextFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/mySaveData")


    // 转换成CSV格式
    val tsvData = sc.parallelize(Array(array.mkString("\t")), 1)
    tsvData.saveAsTextFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/mySaveData2")

保存成sequenceFIle文件

// 保存成SequenceFile 
val data = List(("name", "Chauncy"), ("age", 18))
val rddData = sc.parallelize(data, 1)
//    rddData.saveAsSequenceFile("file:///Users/jinxingguang/java_project/bigdata-chauncy/mySaveData",Some(classOf[GzipCodec]))
val path:String = "file:///Users/jinxingguang/java_project/bigdata-chauncy/mySaveData"
rddData.saveAsSequenceFile(path,Option(classOf[SnappyCodec]))

保存成Object文件

case class Person(name:String,age:Int)

val p1 = Person("chuancy",18)
val p2 = Person("tom",19)
val rddData = sc.parallelize(List(p1, p2),1)
rddData.saveAsObjectFile(path)

写数据到HDFS

// 普通方式
saveAsTextFile(path="hdfs://路径")

// 压缩保存到hdfs
localFileRDD.saveAsTextFile("hdfs://mycluster/data/wc/input/snappyfile/",classOf[SnappyCodec])

// NewApi的方式
rddData.saveAsNewAPIHadoopFile("path")
// 或者
val conf = new SparkConf().setMaster("local").setAppName("writeHdfs")
val sc = new SparkContext(conf)
val rddData = sc.parallelize(List(("shanghai", "021"), ("beijing", "010"), ("guangzhou", "020")))
rddData.saveAsNewAPIHadoopFile("path",
  classOf[Text],
  classOf[IntWritable],
  classOf[TextOutputFormat[Text, IntWritable]]
)




// 自定义格式，文件名
class PairRDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {

  //1)文件名：根据key和value自定义输出文件名。 name：对应的part-0001文件名
  override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String ={
    val fileName=key.asInstanceOf[String]
    fileName
  }
  //2)文件内容：默认同时输出key和value。这里指定不输出key。
  override def generateActualKey(key: Any, value: Any): String = {
    null
  }

  //override def generateActualValue(key: Any, value: Any): Any = {
  //  val values = value.toString
  //}
}
    result_data.saveAsHadoopFile(
      hadoop_path_write,
      classOf[String],
      classOf[ClientSongPlayOperateReq],
      classOf[PairRDDMultipleTextOutputFormat] // 文件输出的格式 可以使用 OrcOutputFormat
    )

写入到MySQL数据库

val conf = new SparkConf().setMaster("local").setAppName("save data")
val sc = new SparkContext(conf)

// 加载驱动
Class.forName("com.mysql.jdbc.Driver")
// 准备数据
val rddData = sc.parallelize(
List(
("09", "木星", "1995-11-11", "男"),
("10", "木叶1", "1995-05-20", "女"),
("11", "木叶2", "1995-05-20", "女"),
("12", "木叶3", "1995-05-20", "女"),
("13", "木叶4", "1995-05-20", "女")
),2)
// 遍历每个分区做批量插入数据
rddData.foreachPartition(
iter =>{
// 建立连接
val conn = DriverManager.getConnection(
"jdbc:mysql://192.168.7.17:3306/mysql_test?useUnicode=true&characterEncoding=utf8",
"meifute",
"meifute")
// 关闭自动提交,等插入完成后一次性提交会提高性能
conn.setAutoCommit(false)
// SQL语句
val preparedStatement = conn.prepareStatement("insert into student (s_id, s_name, s_birth, s_sex) values (?,?,?,?);")
// 赋值
iter.foreach(t=>{
preparedStatement.setString(1,t._1)
preparedStatement.setString(2,t._2)
preparedStatement.setString(3,t._3)
preparedStatement.setString(4,t._4)
preparedStatement.addBatch()
})
// 批量执行
preparedStatement.executeBatch()
// 提交
conn.commit()
// 关闭连接
conn.close()
})

RDD的高级操作

RDD具有只读的特性，所以每次转换操作都会生成新的RDD。

任务分析过于复杂会产生过多的RDD

如何提高运算效率的同时节约内存空间?

下面就介绍RDD缓存，并通过广播与累加器有优化Spark程序

RDD缓存

为什么要缓存RDD

内存使用过多，Spark会自动清理最不经常使用的RDD来释放内存

RDD的生命周期与清理机制

在初始化SparkContext时，会创建ContextCleaner实例，其通过scala的模式匹配来清理缓存

ref.task match {
  // 对RDD进行清理
  case CleanRDD(rddId) =>
  doCleanupRDD(rddId, blocking = blockOnCleanupTasks)
  // 对shuffle数据块进行清理
  case CleanShuffle(shuffleId) =>
  doCleanupShuffle(shuffleId, blocking = blockOnShuffleCleanupTasks)
  // 对广播数据进行清理
  case CleanBroadcast(broadcastId) =>
  doCleanupBroadcast(broadcastId, blocking = blockOnCleanupTasks)
  // 对累加器进行清理
  case CleanAccum(accId) =>
  doCleanupAccum(accId, blocking = blockOnCleanupTasks)
  // 对检查点进行清理
  case CleanCheckpoint(rddId) =>
  doCleanCheckpoint(rddId)
  }

缓存RDD的方法

cache方法，是persist的简陋版  缓存到内存

persist方法  -- 可以指定缓存的地方 如内存，磁盘，堆外内存等

缓存级别

// 源码: StorageLevel.scala
// 变量名中有_2表示数据将被缓存两份

// 不缓存
val NONE = new StorageLevel(false, false, false, false)
// 仅将RDD缓存到磁盘
val DISK_ONLY = new StorageLevel(true, false, false, false)
val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
// 仅将RDD缓存到内存，内存不足时，在下次使用时，需要对没有缓存的数据重新计算
val MEMORY_ONLY = new StorageLevel(false, true, false, true)
val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
// 缓存时进行序列化，可节约存储空间，但会消耗更多CPU
val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
// 缓存到内存和磁盘，使用时先从内存找然后从磁盘找
val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
// 缓存时进行序列化到内存和磁盘，使用是先从内存找再从磁盘找
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
// 缓存到堆外内存共享
val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

缓存与释放RDD

sogou数据
wget http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.reduced.tar.gz

[god@node01 ~]$ hdfs dfs -mkdir /data/sogou
[god@node01 ~]$ hdfs dfs -put SogouQ.reduced /data/sogou/

// 标记缓存
rddData1.cache()
rddData1.persist()
rddData1.persist(StorageLevel.MEMORY_ONLY)

// 释放
// 程序结束会调用ContextCleaner

// 自己手动释放
rddData1.unpersist(true)

RDD的检查点机制(Checkpoint)

缓存RDD不适用于复杂的调用链，过多的依赖链，且数据一般是存储在运算机器上的。

RDD缓存时将RDD数据存储在内存或其他存储介质，不会切断依赖链，缓存失效会重新计算以恢复数据

Checkpoint机制是将数据存储在HDFS或本地磁盘，直接读取检查点目录的数据来恢复RDD数据

Checkpoint机制一般将RDD数据存储在HDFS，切会切断RDD的上游依赖链

val conf = new SparkConf().setMaster("local").setAppName("rdd checkpoint")
    val sc = new SparkContext(conf)
//    hdfs dfs -mkdir -p /spark_checkpoint/c1
		// 设置CheckpointDir，不然会抛异常
    sc.setCheckpointDir("hdfs://mycluster/spark_checkpoint/c1")
    val rddData1 = sc.parallelize(1 to 100, 2)
    val rddData2 = rddData1.map(_ * 2)
    println(rddData2.dependencies.head.rdd)
    // 标记缓存RDD
    rddData2.persist(StorageLevel.DISK_ONLY)
    rddData2.checkpoint() // 标记checkpoint，等待action操作
    println(rddData2.dependencies.head.rdd) // 获取上游RDD

    val rddData3 = rddData2.map(_ + 3)
    val rddData4 = rddData2.map(_ + 4)

    rddData3.collect() // 行动
    rddData4.collect() // 行动
		// 上游RDD会被切断，变成rddData4
    println(rddData2.dependencies.head.rdd)
    rddData2.unpersist(true)

RDD的依赖关系

窄依赖

分区策略一样，分区数一样

宽依赖

分区策略不同或分区数不同，父RDD分区分叉了

广播

广播数据以序列化的形式发送到计算任务的机器，在计算任务前，通过反序列化将数据复原

package com.chauncy.spark_rdd.spark_rdd_gaoji

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable


/**
 * @author Chauncy Jin
 *         Tool: 
 * @date 2021/10/12
 */

case class CityInfo(cityCode: String, cityName: String)

case class UserInfo(userID: String, telephone: String, userName: String)

object MyBrocast {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("Br")
    val sc = new SparkContext(conf)

    val cityDetailMap = Map(
      "010" -> "北京",
      "021" -> "上海",
      "020" -> "广州",
      "0755" -> "深圳")

    val userDetailMap = Map(
      "13212345678" -> ("userID_001", "Spark"),
      "13921002300" -> ("userID_002", "Hadoop"),
      "13700222200" -> ("userID_003", "Scala"),
      "18765655656" -> ("userID_004", "Python"),
      "13323455432" -> ("userID_005", "Java"),
      "13114700741" -> ("userID_006", "Hive"))

    // 将数据加入广播
    val cdmBroadcast = sc.broadcast(cityDetailMap)
    val udmBroadcast = sc.broadcast(userDetailMap)

    val userArray = Array(
      ("010", "13921002300"),
      ("010", "18765655656"),
      ("0755", "13114700741"),
      ("020", "13323455432"),
      ("020", "13212345678"))

    val userRDD = sc.parallelize(userArray, 2)

    /*    val aggregateRDD = userRDD.aggregateByKey(collection.mutable.Set[String]())(
          (telephoneSet, telephone) => telephoneSet += telephone,
          (telephoneSet1, telephoneSet2) => telephoneSet1 ++= telephoneSet2)*/
    val aggregateRDD = userRDD.combineByKey(
      (telStr1: String) => mutable.Set[String](telStr1),
      (telSet: mutable.Set[String], telStr: String) => telSet += telStr,
      (telephoneSet1: mutable.Set[String], telephoneSet2: mutable.Set[String]) => telephoneSet1 ++= telephoneSet2
    )

    val resultRDD = aggregateRDD.map(info => {
      val cityInfo = CityInfo(info._1, cdmBroadcast.value(info._1))
      val userInfoSet = collection.mutable.Set[UserInfo]()
      for (telephone <- info._2) {
        val idAndName = udmBroadcast.value(telephone)
        val userInfo = UserInfo(idAndName._1, telephone, idAndName._2)
        userInfoSet.add(userInfo)
      }
      (cityInfo, userInfoSet)
    })

    print(resultRDD.collect.mkString(","))

    cdmBroadcast.unpersist
    udmBroadcast.unpersist
    sc.stop()
  }
}

累加器

跨节点传输数据，累加器提供了一种共享数据的机制

累加器的分类

长整数累加器
双精度浮点累加器
集合累加器
自定义累加器(2.0版本后) 继承AccumulaorV2抽象类

    val accum = sc.longAccumulator("My Accumulator")
    sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum.add(x))
    println(accum.count) // 次数
    println(accum.value) // 最终的值

val rddData = sc.parallelize(Array(
      ("Bob", 15),
      ("chauncy", 12),
      ("chauncy", 23),
      ("chauncy", 34),
      ("mft", 45),
      ("mft", 56),
      ("mft", 67),
      ("yiyun", 78),
      ("yiyun", 89)
    ), 3)

    val acc = sc.longAccumulator("我心飞翔")
    rddData.foreach(line => {
      if (line._2 % 2 ==0) acc.add(1)
    })
    println(acc)

// 集合累加器
case class User(name:String,age:Int)

...
val scc = sc.collectionAccumulator[User]("集合累加器")

scc.add(user)


// 自定义累加器
class MyExtendAcc[T] extends AccumulatorV2[T, Array[Int]]

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
2019-08-08 65454
东莞家庭聚会出行旅游去哪里玩住？想起来有很久没有和家里人聚会啦，这次组织家人来到威廉古堡别墅轰趴，一大家子27个人，在别墅订了一天办，玩的非常的开心，小孩子玩游戏机，也很放心不会丢，我们就在唱歌、打麻将、打桌球一系列的活动，还准备小次等小孩生日在别墅举办，还可以给孩子做一个生日的策划
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
张芝华49天共修 - 草稿李娟AINI
祈禱、靜心、源代碼編程、觀想發願四根支柱，運用靈性能量的助力，讓夢想和渴望在最大向度中輕鬆實現。共修群指定书籍:1.能断金刚麦克格西2.新世界：灵性的觉醒埃克哈特·托尔3.爱是一切的答案芭芭拉迪安吉莉思4.完美的爱,不完美的关系约翰•威尔伍德5.爱的业力法则麦克格西6.漫画《金刚经》蔡志忠7.蔡志忠典藏国学漫画系列(套装共6册)作业:全部在共修群里完成，并请保存好自己的作业。l一周三次共修觉察作业
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
ARMv8 Debug __pop_ ARMv8 ARM64 架构 linux 运维
内容来自DEN0024A_v8_architecture_PG.pdf本质ARMv8Debug是什么历史在ARMv4开始被引入,并已发展成一系列广泛的调试(debug1)和跟踪(trace)功能ARMv6和ARMv7-a新增了自托管调试(debug2)和性能评测(trace-enhance)ARMv8处理器提供硬件功能侵入式:调试工具能够对核心活动提供显著级别的控制非侵入式:以非侵入性方式收集有关
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
为什么学生不喜欢上学虾虾说
图片发自App《为什么学生不喜欢上学》作者是丹尼尔·威林厄姆。本书从认知心理学角度，结合大量实证案例，阐释了大脑工作的基本原理，回答了关于学习过程的一系列问题。为什么学生不喜欢上学？——大脑工作的基本原理思考是缓慢的、费力的、不可靠的。思考有三个要素，环境、工作记忆和长期记忆。环境是信息来源；长期记忆是知识、经验的巨型仓库，随时可以调取；工作记忆是中央处理器，是加工信息素材的中央厨房，也是思考过程
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

Spark-RDD操作

Spark-RDD操作

什么是RDD

怎么理解RDD

创建RDD的3种方式

读取数据并产生RDD

读取普通文本数据

读取json格式的数据

读取CSV，TSV格式的数据

读取sequenceFile格式的数据

读取object格式的数据

读取HDFS中的数据

读取MySQL数据库中的数据

保存RDD的数据到外部存储

保存成普通文件

保存成json文件

保存成CSV，TSV格式文件

保存成sequenceFIle文件

保存成Object文件

写数据到HDFS

写入到MySQL数据库

RDD的高级操作

RDD缓存

缓存与释放RDD

RDD的检查点机制(Checkpoint)

RDD的依赖关系

窄依赖

宽依赖

广播

累加器

累加器的分类

你可能感兴趣的:(spark系列,spark,scala,big,data)