a1361585

浅谈spark

spark

spark是一个开源分布式计算框架，在于让计算更加快速，通常使用资源调度器yarn和spark自带的资源调度器standalond进行调度，spark相对于Hadoop更加快速，基于它是内存进行迭代，每次通过计算逻辑得到的中间结果值都会存放在内存中，而且最后结果也是从内存到磁盘，而Hadoop则是每次的中间结果都会写到磁盘，读的时候还要从磁盘中读取，最终结果写入的时候也是从磁盘到内存再到磁盘。spark比Hadoop快也是因为spark有个任务调度器：DAG
spark是一个主从架构框架，driver端进行任务调度和收集结果，它会将整个job程序拆分成多个task并通过最优计算位置发放给对应的worker，worker计算完成后再返回给dirver，因此如果最后的结果过大driver端会报OOM
spark常用运行模式：local多线程本机模拟集群、standalone（client客户端模式，cluster集群模式）、yarn（client客户端模式，cluster集群模式），client模式的driver在提交任务的客户端上，cluster模式driver在集群中某一台worker上，因此client模式适合测试，因为如果job任务过多，driver所在的节点负载太大，网卡流量过大，其他程序容易卡死，而cluster则不会，该模式每次执行任务会在集群中随机选一台当作driver，所以多任务的时候，任务分配比较均衡

worker中会有许多executor（进程），每个进程下有个线程池，可以运行线程，一个partition对应一个线程，所以每个线程处理一个partition数据，每运行一个线程处理的数据量就是一个partition的数据量，worker中默认启动一个executor，一个executor默认使用一个core

粗细粒度
   mr和spark两个计算框架来说，mr是细粒度，它在分发任务的时候mapTask或reduceTask会先去申请资源，它是一个动态申请；而spark则是粗粒度，在触发action算子之前就已经将资源全部申请好了，如果申请的资源不够就会一直等待
粗粒度
   优点：在于资源可以复用，比如：spark的application中可以有多个job，每个job都会被分成多个stage，每个stage里面会有多个task，在并行度为1的时候每个task运行在一个executor中，task执行完，executor资源不需要销毁，下一个stage的task的执行可以复用这个executor资源，这样task的执行效率比较高，stage执行快，job执行快，因此整个application的运行就快
   缺点：如果有一个task比较慢没有执行完，那么资源就不会释放，会造成资源浪费
细粒度
   优点：不会造成资源浪费，执行完一个task就会释放
   缺点：执行效率慢，每个task的执行都会取申请资源

sparkCore
Rdd弹性分布式数据集，里面有多个partition组成，也是通过partition分区来实现分布式，spark的计算就i是Rdd之间的转换
Rdd五大特性
1.由一系列的partition组成的
   spark没有实现读hdfs文件的方法，采用的是mr的textFile()方法实现的，将block切分成多个split，而spark会将每一个split加载到Rdd中的每一个partition中
2.方法作用在每一个split上计算
   或者是partition（split与partition一一对应）
3.Rdd之间有一系列的依赖关系
   每一条partition操作线叫做task，task中会有依赖关系，因此即使Rdd丢失了，也会根据它的父Rdd重新计算得到
4.partition里面是key-value类型的数据
5.对每一个分片有一些计算的最优位置
   在读hdfs中数据的时候已经获取到了每个block的地址，因此spark会将对应的task放到对应的地址中

写代码流程：加载数据集形成rdd，再通过一系列transformations转换算子（懒执行）对rdd进行操作，最后执行action算子（触发整个job执行），spark接收的数据可以来源于hdfs，cassandra，hbase，s3
常用transformations算子
　　map传入一条数据输出一条数据，通过map里面的计算逻辑进行计算
　　filter传入一条数据返回bool类型，如果是ture则不做修改直接输出，false则过滤掉
　　flatMap传入一条数据返回一个序列集合，它先经过map，然后对map的结果进行扁平化（将数据从对象中释放出到partition中）
　　sample抽样算子，如果rdd中有很多数据量，要抽样看是否数据倾斜
　　groupByKey按照key进行分组，会产生shuffle，分区器作用在（key，value）类型
　　reduceByKey先分组然后对value进行计算
　　union将两个rdd变成一个新的rdd，但是两个rdd之间还是独立的
　　join将（key，value）将相同key的value进行组合
　　cogroup将（key，value）将相同key的value序列进行组合，也就是将最后相同的key进行了groupByKey
　　mapValues只对value处理，不对key处理
　　sort排序
　　partitionBy里面传一个分区器，将rdd变成另外一个rdd，值不变只是重新分区
常用action算子
　　count将rdd中的结果条数返回出来
　　collect将rdd中的数据形成一个集合返回
　　reduce返回rdd中的一个类型
　　lookup传进一个key值，返回所有value出来，返回的是一个集合
　　save将结果放到hdfs中

持久化
目的：对于重复使用的rdd可以进行持久化，减少计算时间
持久化的单元是partition
持久化操作也是懒执行需要action算子触发才能进行，并且必须赋值给一个变量，在持久化后不能直接接action算子
1.通过persist(StorageLevel.)来操作
   NONE不写内存不写磁盘
   DISK_ONLY只写磁盘，序列化
   DISK_ONLY_2只写磁盘，序列化，2个副本
   MEMORY_ONLY只写内存，不序列化（cache()方法就是调用MEMORY_ONLY）
   MEMORY_ONLY_2只写内存，不序列化，2个副本
   MEMORY_ONLY_SER只写内存，序列化
   MEMORY_ONLY_SER_2只写内存，序列化，2个副本
   MEMORY_AND_DISK使用内存，使用磁盘不序列化，但是先往内存中放，剩下存放磁盘，剩下的partition再往磁盘中放，比如rdd中一共50个partition，而内存只能存下40个，那么剩下的10个由磁盘进行存储
   MEMORY_AND_DISK_2使用内存，使用磁盘不序列化，但是先往内存中放，剩下存放磁盘，这个动作会发生两次在不同的节点
   MEMORY_AND_DISK_SER上面的基础上使用序列化
   MEMORY_AND_DISK_SER_2上面的基础上使用序列化，2个副本
spark默认采用的序列化就是Java的序列化方式压缩比不是很高，不过还有个kyro序列化器，压缩比比较高
运行内存的优先级比存储内存的优先级要高，如果运行内存不足会将存储内存清空一部分给运行内存
2.通过checkpoint()将数据持久化到hdfs中
   为了数据更高的安全性可持久化到hdfs中，需要事先在sparkcontext中设置sc.setCheckpointDir("hdfs路径")。当action算子触发checkpoint懒执行的时候，程序会通过task的依赖关系向上查找哪个rdd需要进行checkpoint，然后做标记，最后会重新启动一个job将rdd数据持久化到hdfs中，因为会重新启动一个job去执行，因此可以在做checkpoint之前可以先做一个persist(StorageLevel.)，进行完成checkpoint之后会将所有的父rdd标记成parentRdd，因为如果业务逻辑比较复杂的话，那么依赖关系会很长，这样如果中途有哪个rdd挂了，回溯会比较麻烦
如果数据安全性比较高，业务逻辑的链条比较长可以选择checkpoint

广播变量和累加器
广播变量：当算子逻辑中需要使用外部变量的时候，会向drive端的blockManagerMaster中获取，然后drive端的blockManagerMaster会将变量封装成task发送给executor中task，可executor中如果有多个task线程，那么driver端需要网络传输多次，这样导致效率很低，而且如果变量很大，每个task都会存储一份或多个变量，也会占用executor大量运行内存，这样容易导致gc垃圾回收，严重会报OOM。因此在executor中需要一个广播变量，在executor中有个blockManager，如果task线程需要外部变量，task会向blockManager获取，如果第一次blockManager中没有，会向driver的blockManagerMaster中获取，driver端的blockManagerMaster会将含有变量的task发送给blockManager，这时executor中的task获取到变量后会保存在本executor的blockManager中，之后如果其他的task线程也需要这个变量，只需要从blockManager中获取即可
广播变量还有个特点叫做多点传输，如果零一个executor中的task也需要外部变量，那么它会就近找一个blockManager来获取，而非到drive端中获取
使用方法：
val broadcast=sparkContext.broadcast(需要广播出去的变量或集合)//将需要广播的变量或集合添加到广播变量中
在算子中使用
broadcast.getValue()
广播变量在driver端定义，在executor端只能读取，不能操作
累加器
使用方法：
accumulator=sparkContext.accumulator(0)//定义累加器的初始值
在算子中往累加器中添加数字
accumulator.add(number)
累加器在driver端定义，在executor端只能操作，不能读取
广播变量和累加器都是懒执行，需要才会取获取

宽窄依赖
窄依赖：父rdd的partition分区与子rdd的partition分区数据的传输是一对一或多对一的关系
宽依赖：父rdd的partition分区与子rdd的partition分区数据的传输是一对多的关系
为什么会有宽窄依赖？
每个job会根据宽窄依赖划分为多个stage，在每个stage中父rdd与子rdd之间的关系叫做血统，在血统这条线中父rdd与子rdd中的partition之间叫做管道，管道用于每个task的计算，而血统用来rdd之间的容错
宽依赖中ShuffleWrite端如果结果不进行cache或者persist，则会将结果写道磁盘

shuffle
为了解决存放在不同partition上的数据聚合问题。shuffle可分为shuffle_write和shuffle_read。shuffle常用的种类可分为HashShuffle和SortShuffle，
shuffle_write端每一个stage的MapTask都会将自己处理的当前分区中key相同的数据写到一个分区文件中，每个stage中会有多个MapTask，因此也会又多个分区文件，
shuffle_read端ReduceTask会从shuffle_write端的stage上所有的task所在节点上寻找到属于自己分区文件并拉取到ReduceTask对应的文件缓冲区中，保证每个相同key的数据都汇聚到同一个节点上进行处理
HashShuffle
每个MapTask端executor中的task处理完后会将结果写到磁盘中，写入磁盘的过程中会根据ReduceTask端的task个数进行分桶，将key相同的数据分到同一个buffer（默认32k）内存缓冲中，当buffer中写满的时候会溢写到BlockFile分区小文件中，下次写另一个buffer
HashShuffle中shuffle_write端每个task所创建的分区小文件个数和shuffle_read端中task的个数相同
shuffle_write端产生磁盘小文件的总数=shuffle_read端task的总数 X shuffle_write端每个executor中task的个数 X executor的个数
缺点：
1.小文件过多会导致占用内存过大
2.ReduceTask来从BlockFile小文件拉取数据的时候，每次都会打开一个文件句柄，如果小文件过多，创建的对象也会增多，打开文件的时间会增长，并且每次拉取数据都需要和MapTask端建立通讯，小文件过多时间也会增长
consolication机制
shuffle_write端每个executor中只有一个core每次同时只能运行一个task，executor中运行第二个task的时候会复用之前的BlockFile分区小文件，core为1的情况下每个executor中的BlockFile分区小文件叫做ShuffleFileGroup，如果core为2则ShuffleFileGroup有两个，ShuffleFileGroup里面的小文件个数和shuffle_read端中task的个数相同
shuffle_write端产生磁盘小文件的总数=shuffle_read端task的总数 X shuffle_write端executor的个数 X shuffle_write端executor中core的个数
stage与stage之间是不会复用ShuffleFileGroup，因为它们所对应的ReduceTask端task的个数和并行度可能都不同
SortShuffle
shuffle_write端executor中每个task把结果写到内存数据结构中（map或array，根据shuffle算子决定，），该内存数据结构中的数据结构没有固定大小，每插入32次数据之后都会检查内存数据结构的大小，
如果超过5M（默认起始值5M），会将但前的内存数据结构大小乘以2再减去5，剩下的就是需要向executor申请的内存空间，如果executor中没有这么多内存了，那么该内存数据结构就会写到内存缓冲（32k）中，
写的过程中会有个排序的过程，写1万条数据到内存缓冲中，如果内存缓冲写满了，会触发溢写到磁盘上，最后将多个小文件合并成一个文件，并形成一个索引文件，shuffle_read端task来拉取数据的时候只需要从
索引文件中读到相应的偏移量即可获取数据。shuffle_read端task每次以48m的大小拉数据，然后放到shuffle_read端的HashMap（大小是executor内存量的20%，超过了溢写磁盘）中进行合并
shuffle_write端产生磁盘小文件的总数=shuffle_write端executor的core（线程数）X 2
bypass机制
在SortShuffle的基础上去掉排序，排序会消耗性能
触发条件：当shuffle_read端的task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值，并且使用的还是SortShuffle就会触发

任务调度与资源调度
standalone-client模式
1.用户在driver所在节点执行spark-submit脚本，接到请求之后，driver端创建SparkConf、SparkContext、DAGScheduler、TaskScheduler，然后TaskScheduler会将application注册到master的缓存中
2.master接收到请求之后会进行资源调度，向worker发送消息启动executor（worker在启动spark就已经将worker信息注册到了master缓存中，worker向master发送心跳的时候只是发送了一个workerid，并没有发送资源情况，因为在spark-submit的时候已经提交了需要多少资源，master直接做减法。master拥有集群所有的资源情况）
3.worker启动好executor后会反向注册给TaskScheduler，通知driver端资源已分配好，driver收到通知就执行spark代码，执行到某个action算子就触发一个job
4.DAGScheduler会将这个job根据宽窄依赖划分成多个stage，每个stage中都是一个管道计算（一组并行计算的task），其实就是一组并行计算的task，最后以taskSet的形式发送给TaskScheduler。如果stage失败，DAGScheduler会重试提交4次，如果失败表示job失败
5.TaskScheduler接收到taskSet后，会遍历taskSet从里面将task取出来，然后将task发送到executor里面的线程池中的线程执行，如果线程池中的线程失败，executor会向taskSet汇报，TaskScheduler会重新提交一份task，默认重试3次。（task在shuffle过程丢失，则DAGScheduler就会重新提交stage）
6.如果task执行时间过长则会重新提交一个task来执行，但是原来的不会被kill掉，哪个先执行完就以哪个为准，如果连接数据库使用推测执行可能会有重复数据，因此推测执行默认关闭，如果必须开启，可以设置其主键
standalone-cluster模式
1.用户在节点上执行spark-submit脚本，该节点会向master缓存中注册driver信息
2.master接收到请求后会随机找一台节点worker，通知启动executor运行driver
3.driver启动后会将application注册到master缓存中并在drive中创建SparkConf、SparkContext、DAGScheduler、TaskScheduler
4.master接收到请求之后会进行资源调度，向worker发送消息启动executor（worker在启动spark就已经将worker信息注册到了master缓存中）
5.worker启动好executor后会反向注册给TaskScheduler，通知driver端资源已分配好，driver收到通知就执行spark代码，执行到某个action算子就触发一个job
6.DAGScheduler会将这个job根据宽窄依赖划分成多个stage，每个stage中都是一个管道计算（一组并行计算的task），其实就是一组并行计算的task，最后以taskSet的形式发送给TaskScheduler。如果stage失败，DAGScheduler会重试提交4次，如果失败表示job失败
7.TaskScheduler接收到taskSet后，会遍历taskSet从里面将task取出来，然后将task发送到executor里面的线程池中的线程执行，如果线程池中的线程失败，executor会向taskSet汇报，TaskScheduler会重新提交一份task，默认重试3次。（task在shuffle过程丢失，则DAGScheduler就会重新提交stage）
8.如果task执行时间过长则会重新提交一个task来执行，但是原来的不会被kill掉，哪个先执行完就以哪个为准，如果连接数据库使用推测执行可能会有重复数据，因此推测执行默认关闭，如果必须开启，可以设置其主键
yarn-client模式
1.用户提交spark-submit脚本，driver所在节点会创建SparkConf、SparkContext、DAGScheduler、TaskScheduler并发送请求到ResourceManager让其启动ApplicationMaster，ResourceManager会启动Container并随机找一台NodeManager也启动Container
2.启动完成Container后运行ApplicationMaster，这个ApplicationMaster只有启动executor的作用，没有作业调度功能只有资源调度功能。ApplicationMaster向ResourceManager申请一批NodeManager并启动Container
3.ApplicationMaster通知NodeManager在Container中启动executor，Container会将executor方向注册到driver中的TaskScheduler中，driver收到通知就执行spark代码，执行到某个action算子就触发一个job
4.DAGScheduler会将这个job根据宽窄依赖划分成多个stage，最后以taskSet的形式发送给TaskScheduler
5.TaskScheduler接收到taskSet后，会遍历taskSet从里面将task取出来，然后将task发送到executor里面的线程池中的线程执行
yarn-cluster模式
1.用户在节点上执行spark-submit，该节点会向ResourceManager发送请求启动ApplicationMaster，ResourceManager收到请求后启动Container，由Container随机找一台NodeManager启动ApplicationMaster，ApplicationMaster也同时会创建SparkConf、SparkContext、DAGScheduler、TaskScheduler
2.在cluster模式下ApplicationMaster相当于driver的作用。ApplicationMaster会向ResourceManager请求一批NodeManager
3.NodeManager启动Container后ApplicationMaster会通知启动executor，executor启动后会反向注册到ApplicationMaster的TaskScheduler中，driver收到通知就执行spark代码，执行到某个action算子就触发一个job
4.DAGScheduler会将这个job根据宽窄依赖划分成多个stage，最后以taskSet的形式发送给TaskScheduler
5.TaskScheduler接收到taskSet后，会遍历taskSet从里面将task取出来，然后将task发送到executor里面的线程池中的线程执行

SparkSql
主要对结构化数据进行计算，不同于rdd对非结构化数据进行计算。在SparkCore和SparkSql相互转换相互调用。SparkSql可以访问hive，avro，parquet，orc，json，jdbc，hdfs，s3，h2（hbase需要手动整合）。
SparkSql采用的数据结构是dataFrame（底层基于Rdd封装），可以看作分布式表结构，其效率要高于rdd操作，原因在于rdd中partition里面的每条数据都是对象，如果需要对对象中某个属性进行操作则需要加载整个对象到内存中，这样容易产生数据冗余；不同于rdd，dataFrame的表结构可以将每个字段的所有数据看作一个字段，因此只对某字段加载到内存操作即可
底层架构：用户提交交互式sql，经过解析器确认sql语句正确后解析成逻辑计划，传给分析器进行分析传给优化器，优化器里面有一批规则来对逻辑计划进行优化，然后传给sparkPlanner，里面有一批策略，将逻辑计划上变成数据集合，然后运行模型来分析真实物理计划的耗时选择最优的策略，最后准备计划转变成rdd执行
使用方式：
val sqlContext = new SQLContext(sparkContext)
读数据
数据类型可以是非嵌套json，parquet（保存数据默认的类型，它的压缩比高于json，列式文件格式），jdbc
如果是parquet数据源还可以自动推断分区，比如hdfs的存储目录为/users/country=China和/users/country=English，里面都有个users.parquet文件，加载数据.parquet(/users)，那么dataframe会自动根据目录结构推断键值
val dataFrame = sqlContext.read.format("json").load("url")   # 等价于sqlContext.read.json("url")，直接使用.json()出来传入数据地址外还可以传入json类型Rdd
val fieldFrame = dataFrame.select("field").show()     # 查询某字段并打印，show()在SparkSql中是个action操作
dataFrame.printSchema()              #打印dataFrame表格式，也是个action操作
dataFrame.select(dataFrame("name"), dataFrame("age").plus(10)).show() # dataFrame.col("字段名")和dataFrame("字段名")的含义是一样的，表示dataFrame中的当前行所对应的字段值，plus加法操作
dataFrame.filter(dataFrame("age").gt(20)).show()     # 过滤age大于20的数据
dataFrame.groupBy("age").count().show()              # 按照age字段进行分组然后统计每组的个数，age相同的作为一组
dataFrame.groupBy("date").agg(max('sale_amount))    # 按照date字段进行分组，然后计算出最大的，max中必须为"'"，而且max是import org.apache.spark.sql.functions._中
dataFrame.registerTempTable("table")           # 将dataframe注册成临时的表，这个表只是逻辑上的表，不会落地，只有在需要写sql语句的时候才需要
sqlContext.sql("select * from table").show()   #通过sql语句对表查询
读关系型数据库
方式1
var options = new HashMap[String, String]()
options.put("url", "jdbc:mysql://ip:3306/库")
options.put("user", "用户")
options.put("password", "密码")
options.put("dbtable", "表")
var studentInfosDF = sqlContext.read.format("jdbc").options(options).load()
如果需要更换表
options.put("dbtable", "表")
var studentScoresDF = sqlContext.read.format("jdbc").options(options).load()
方式2
DataFrameReader reader = sqlContext.read().format("jdbc")
reader.option("url", "jdbc:mysql://ip:3306/库")
reader.option("driver", "com.mysql.jdbc.Driver")
reader.option("user", "用户")
reader.option("password", "密码")
reader.option("dbtable", "表")
DataFrame studentInfosDF = reader.load()
写数据
dataFrame.write.mode(SaveMode.Overwrite).format("json").save("url")和dataFrame.write.mode(SaveMode.Overwrite).json("url")如果不写格式，默认保存格式parquet
   .write()拿到写的句柄（对象）
   .mode(SaveMode.Overwrite)重写
       Append       追加
       ErrorIfExists如果文件存在报错
       Ignore       如果文件存在不写
RDD和DataFrame的转换
1.反射方式
Rdd转DataFrame（Java版本中字段的顺序会按照字典排序的顺序进行排序，Scala版本不会排序）
1)需要一个对象类并实现Serializable序列化接口，并且因为用到了反射所以该对象类必须为public
2)通过map算子将rdd中的数据疯转到对象类中
3)通过sqlContext.createDataFrame(Rdd,对象类.class)底层会通过反射的方式得到DataFrame
DataFrame转Rdd
dataFrame.rdd即可转成rdd，里面类型是Row类型，可以通过row.get(下标)来拿数据，如果确定了row里面数据的类型还可以直接用getInt,getString等准确获取
2.动态转换
Rdd转DataFrame
1)构造RowRdd，比如：rdd.map(x=>Row(x(0),x(1)))
2)构造StructField，创建Schema，比如：StructType.apply(Array(StructField("name",StringType,true),StructField("age",IntegerType,true)))，StructField参数字段名，类型，是否可为null默认true
另一种写法
    var structFields = new util.ArrayList[StructField]()
    structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true))
    structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true))
    var schema = DataTypes.createStructType(structFields)
如果字段数很多可以通过以下方式进行构建
   val schemaString = "name:String age:Integer"
   StructType(schemaString.split(" ").map(fieldName => StructField(fieldName.split(":")(0), if (fieldName.split(":")(1).equals("String")) StringType else IntegerType, true)))
3)构建DataFrame，比如：sqlContext.createDataFrame(RowRdd,schema)
DataFrame转Rdd
dataFrame.rdd
3.隐式转换
Rdd转DataFrame
1)导入import sqlContext.implicits._
2)rdd.toDF()         # 这种方式的表都会在一个字段中
DataFrame转Rdd
dataFrame.rdd
SparkSql整合hive
配置
在spark的master节点spark的conf目录下添加hive-site.xml，配置hive的元数据，高可用中另一个master上也需要配置


       hive.metastore
       thrift://hiveIp:9083


hive节点启动hive的metastore服务，该服务提供元数据供其他客户端访问，执行hive --service metastore
使用
sqlcontext是hivecontext的父类，sparksql和hive整合完后就可以使用hivecontext
import org.apache.spark.sql.hive.HiveContext
val hiveContext=new HiveContext(sparkContext)
hiveContext.sql("show databases")
hiveContext.sql("show databases").show() # 查看所有的数据库
hiveContext.sql("use default")     # 使用默认的数据库，不加默认使用default库
hiveContext.sql("show tables")    # 查看库中的表
hiveContext.sql("drop table 表名")   # 删除表
hiveContext.sql("CREATE TABLE IF NOT EXISTS student_infos (name STRING, age INT) row format delimited fields terminated by '\t'") # 创建表结构，字段之间的分隔符\t，行之间\n
hiveContext.sql("LOAD DATA LOCAL INPATH '/root/resource/student_infos' INTO TABLE student_infos")   # 加载本地数据到hive的表中如果加载hdfs上数据去掉local
dataFrame.saveAsTable("表名")      # 保存表到hive中
UDF
sqlContext.udf.register("strLen", (str: String) => str.length()) 注册一个用户自定义函数，strLen名字，匿名函数(str: String) => str.length()
sqlContext.sql("select name,strLen(name) from names")     # 使用strLen函数
UDAF
需要另写一个类，继承UserDefinedAggregateFunction并实现如下方法
   inputSchema    # 输入数据的类型
   bufferSchema   # 聚合操作时，所处理的数据的类型
   dataType     # 最终函数返回值的类型
   deterministic # 设置成true和false都可以，是一个确定性设置
   initialize    # 为每个分组的数据执行初始化值
   update     # 每个分组，有新的值进来的时候，如何进行分组对应的聚合值的计算，这个update相当于shuffle中在map进行combiner
   merge     # 最后merger的时候，在各个节点上的聚合值，要进行merge，也就是合并，相当于shuffle中reduce端拉去过来后进行最后聚合
   evaluate     # 最后返回一个最终的聚合值，要和dataType的类型一一对应
sqlContext.udf.register("strCount", new StringCount)   # 注册udaf函数
sqlContext.sql("select name,strCount(name) from names group by name")   # 使用udaf函数
开窗函数
row_number()开窗函数的作用：按照每一个分组数据的顺序，打上一个分组内的行号，比如id=a [111,112,113]应用开窗函数后id=a [111 1,112 2,113 3]
例如：
SELECT product,category,revenue FROM (SELECT product,category,revenue,row_number() OVER (PARTITION BY category ORDER BY revenue DESC) rank FROM sales ) tmp_sales WHERE rank<=3")获取每组前三条数据
其中"row_number() OVER (PARTITION BY category ORDER BY revenue DESC) rank"，over后面表示对谁开窗，先对category分组，然后按照revenue进行降序排序，取别名为rank，开创函数会对组内的数据进行标注序号，1，2，3...

SparkStreaming
spark中实时计算框架，根据SparkStreaming中的定时器每个一段时间会将这段时间所收集的数据收集到rdd中进而封装成DStream进行这批数据的处理，因此SparkStreaming是一个微批处理，非准实时计算框架，开始执行任务之后就不可以再调整其的并行度，SparkStreaming在处理的时候线程数需要大于等于2，因为一个线程用来接收数据，一个线程用来处理业务逻辑
sparkStreaming中每个batch每200ms切成一个block，每个block由一个线程来执行
SparkStreaming通过StreamingContext来使用，StreamingContext的创建的方式有两种，一种传入sparkConf，另一种传入sparkContext
例如：new StreamingContext(sparkConf,Seconds(1))和new StreamingContext(sparkContext,Seconds(1))后面的Seconds(1)表示定时器的时间设定，每1秒会处理这1秒所收集的数据，这个时间需要根据集群资源情况（ganglia监控）进行设置
简单示例代码：统计1s内单词个数，可以结合nc -lk命令测试使用
   val sparkconf = new SparkConf().setAppName("application").setMaster("local[2]")
    val streamingContext = new StreamingContext(sparkconf,Seconds(1))
    streamingContext.socketTextStream("ip",端口).flatMap(x=>(x.split(" "))).map((_,1)).reduceByKey(_+_).print()
    streamingContext.start()
    streamingContext.awaitTermination()
    streamingContext.stop()
整个执行逻辑最后必须有action算子，所有的代码都会受SparkStreaming框架控制，只有触发定时器并且代码中有action算子，job才会执行
start()运行逻辑代码；awaitTermination()等待或终止可通过ctrl+c或web页面终止；
stop()停止，默认参数true，SparkContext和StreamingContext都会杀掉，因此停止之后是不能再调用start()，如果需要可以设置false，这样StreamingContext和SparkContext就不会被杀掉了可以继续执行其他的逻辑
利用checkpoint存储driver
sparkStreaming也有个chkpoint，它保存的是driver中的信息（sparkconf，对Dstream的操作逻辑，哪些batch已经处理，哪些没有处理，batch中有多个job，所以还包括哪些job被执行，哪些没有被执行），下次driver重启之后直接用这些元信息就可以恢复

内容
SparkStreaming利用UpdateStateByKey算子做数据增量更新操作，UpdateStateByKey算子第一个参数表示相同key所对应的计数值的集合，第二个参数表示状态值，状态值可以是任意类型，SparkStreaming会在使用updateStateByKey的时候为已经存在的key进行state的状态自动更新，对于每个新出现的key也会执行state的更新函数操作，如果通过更新函数对state更新后返回noe的话，此时该key对应的state会被删除掉，如果要不断的更新每个key的state，就会涉及到了状态的保存和容错，这个时候就需要开启checkpoint机制和功能，UpdateStateByKey算子会自动调用checkpoint方法
UpdateStateByKey算子每处理一个DStream就会向内存中写一份状态数据，如果batch的时间小于10s，那么每10s会由内存向hdfs中保存一份，如果大于10s那么每个batch向内存中写数据后，内存马上会写磁盘一份
根据该功能实现了wordcount持续累加的功能，代码如下：
   val sparkconf = new SparkConf().setAppName("application").setMaster("local[2]")
   val streamingContext = new StreamingContext(sparkconf,Seconds(5))
    streamingContext.checkpoint("hdfs://hadoop1:9000/目录")
    streamingContext.socketTextStream("ip",9999).flatMap(_.split(" ")).map((_,1)).updateStateByKey((x:Seq[Int],y:Option[Int])=>(Some(x.sum+y.getOrElse(0)))).print()
    streamingContext.start()
    streamingContext.awaitTermination()
    streamingContext.stop()
窗口操作和窗口滑动
如果一个DStream的定时器为2，而窗口时间为4，窗口滑动时间为2，那么一个窗口内会有两个batch，这两个batch在执行的时候会合并为一个DStream进行操作，滑动时间一般设置小于窗口时间，因此会有一些重复值
窗口操作可用来查看最近一段时间内最新的消息的情况，所以即使在滑动的时候有重复值也没关系
窗口大小必须是定时器设定的整数倍，否则会将一个batch数据切开，而在SparkStreaming中这样的数据会被丢弃并且窗口滑动时间也必须是定时器设定时间的整数倍不然会报错
示例：通过reducebykeyandwindows算子实现滑动窗口的热点搜索词实时统计，代码如下
    val sparkconf = new SparkConf().setAppName("application").setMaster("local[2]")
    val streamingContext = new StreamingContext(sparkconf,Seconds(10))
    streamingContext.checkpoint("hdfs://hadoop1:9000/sscheckpoint")
    val dataDStrem: DStream[(String, Int)] = streamingContext.socketTextStream("hadoop1", 9999).map(x=>((x.split("\t")(1),1)))
    //dataDStrem.reduceByKeyAndWindow((x:Int,y:Int)=>(x+y),Seconds(60),Seconds(20))窗口大小60s，滑动窗口时间20s，每隔20s计数最近60s内的数据，优化后如下
    dataDStrem.reduceByKeyAndWindow(_+_,_-_,Seconds(60),Seconds(20)).transform(rdd=>{
      rdd.collect().foreach(println(_))//这行是在Driver端执行，如果现在从dstream中抽取rdd执行action操作，那么会在生成job的时候触发任务，所以在这里面可以动态改变广播变量进行做预警，因为是driver端执行
      val sortedSearchWordCountsRDD= rdd.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))
      sortedSearchWordCountsRDD.take(3).foreach(x=>(println(x._1+":"+x._2)))
      sortedSearchWordCountsRDD
    }).print()
    streamingContext.start()
    streamingContext.awaitTermination()
    streamingContext.stop()
reducebykeyandwindows算子的优化：比如上个窗口内有个3个batch，batch1、batch2、batch3，现在经过窗口滑动后新窗口内的batch为batch2、batch3、batch4，而它的操作是上一个窗口加上batch4再减去batch1得到的
使用reducebykeyandwindows算子必须设置checkpoint目录来维护每个key，reduceByKeyAndWindow是针对窗口操作而不是针对DStream操作
使用transform算子可以对DStream中每个rdd进行操作，但是需要返回一个rdd
SparkStreaming整合Kafka（官网->Advanced Sources->Kafka Integration Guide添加jar包）
SparkStreaming通常会和kafka搭配，kafka起到缓冲的作用，因为流式处理是无法估算什么时间有多少数据，kafka和流式计算框架整合可以起到解耦的作用，SparkStreaming不会关心数据源来自哪里，处理完的数据也不关心最终会保存到什么地方
两种方式
1.kafka推数据到sparkStreaming
SparkStreaming中有个receiver，它是永久启动用来接收数据使用，它是一个job默认情况下只有一个task在一个executor中执行，它的数据存储级别是memory_and_disk_ser_2，有备份且有序列化，所以接过来的数据会在两个或多个executor中
receiver接收kafka的数据，是kafka的消费者，数据的偏移量由receiver自己管理，它会将偏移量放在zookeepper中，每接收一条数据就会向zookeeper汇报，下次读数据的偏移量就是当前的加1，如果在接收数据的过程中receiver挂掉了，而且接收的数据还没有及时计算和备份，这样会造成数据丢失，因此出现了wal机制（预写日志）kafka每发送一条数据向receiver也会向hdfs发送一份，但是这样性能贵降低
receiver中还有个反压机制，一个DStream会触发一个job，反压机制会根据上一个DStream的处理情况对当前DStream接收数据进行限流，当然也可手动限流
示例代码如下
    val sparkconf = new SparkConf().setAppName("application").setMaster("local[2]")
      .set("spark.streaming.receiver.writeAheadLog.enable","true")//开启receiver机制
    val streamingContext = new StreamingContext(sparkconf,Seconds(5))
    streamingContext.checkpoint("hdfs://hadoop1:9000/checkpoint")
    val topicConsumerConcurrency = Map("Hello_Kafka"->1)
    //参数一StreamingContext，参数二ZooKeeper集群信息，接受Kafka数据的时候会从Zookeeper中获得Offset等元数据信息
    //参数三组，参数四消费的Topic以及并发读取Topic中Partition的线程数
    //如果用5个参数的createStream(),可以设置receiver的存储级别
    //如果有多个receiver，可以如下操作
    //val numStreams = 5
    // val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(...)}
    //val unifiedStream = streamingContext.union(kafkaStreams)
    KafkaUtils.createStream(streamingContext,"hadoop1:2181,hadoop2:2181,hadoop3:2181","Group",topicConsumerConcurrency)
      .map(x=>(x._2.split(" "),1)).reduceByKey(_+_).print()
    streamingContext.start()
    streamingContext.awaitTermination()
    streamingContext.stop()
2.sparkStreaming直接到kafka中取数据
executor中的task会直接从Kafka中拿数据，消息偏移量由sparkStreaming自己管理，偏移量信息放到hdfs中（由task自己放），如果task执行失败了，sparkStreaming自己会知道失败了，那么偏移量不会增加，只有成功才会增加
这种机制也会有问题，比如task处理一批数据的过程中失败了，由于task自己放偏移量信息到hdfs，如果过程中失败了，那么就会出问题，但是没有备份性能要比wal机制要高
示例代码如下
    val sparkconf = new SparkConf().setAppName("application").setMaster("local[2]")
    val streamingContext = new StreamingContext(sparkconf,Seconds(5))
    streamingContext.checkpoint("hdfs://hadoop1:9000/checkpoint")
    //broker的url，不是zookeeper管理偏移量，所以直接从broker中拿
    val kafkaParameters = Map("metadata.broker.list"->"hadoop1:9092,hadoop2:9092,hadoop3:9092")
    val topics = Set("Hello_Kafka")
   //StringDecoder是kafka.serializer.StringDecoder中
    KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](streamingContext,kafkaParameters,topics)
      .map(x=>(x._2.split(" "),1)).reduceByKey(_+_).print()
    streamingContext.start()
    streamingContext.awaitTermination()
    streamingContext.stop()
SparkStreaming与Stream的选型
Stream是一个准实时计算框架，Storm对事务机制的支持比较好，可以实现来一条数据即处理一条数据，可以支持动态调整并行度，当数据量比较大的时候则会自动将并行度增大，合理运行任务
SparkStreaming微批处理比stream吞吐量高，Spark生态比较好
因此，如果数据来自股票、银行、等金融数据要求事务机制比较高或者集群的资源比较紧张的情况下可以使用Storm，如果事务机制要求没有这么高并且集群资源比较宽松可以采用SparkStreaming

spark搭建

需要先安装jdk，修改/etc/hosts文件

免密钥操作

　　ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
　　cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

spark官网下载：http://spark.apache.org/downloads.html

旧版本下载：https://archive.apache.org/dist/spark/

笔者采用的是spark-2.3.3-bin-hadoop2.7.tgz版本

对解压后conf中slaves.template和spark-env.sh.template文件进行复制为slaves和spark-env.sh文件并修改
slaves文件添加从节点的主机名或ip

spark-env.sh文件中添加
　　export SPARK_MASTER_IP=master        # 主节点ip
　　export SPARK_MASTER_PORT=7077       # 提交程序使用的端口
　　export SPARK_WORKER_CORES=1         # worker里面的资源个数
　　export SPARK_WORKER_INSTANCES=1     # 一台节点中可以启动1个worker，默认1个
　　export SPARK_WORKER_MEMORY=512m         # worker内存
　　export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop     # 如果采用的是yarn资源调度器需要加上
节点同步spark目录
sbin下启动start-all.sh（start-all只是启动了master和worker，也就是spark的standalone的资源调度器而已）如果是yarn模式则不需要启动
例如：执行命令
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 ./examples/jars/spark-examples_2.11-2.3.3.jar 100
该命令表示为standalone资源调度器下client模式，执行./examples/jars/spark-examples_2.11-2.3.3.jar包中org.apache.spark.examples.SparkPi类，主节点为spark://master:7077，executor内存使用512M，这个集群的core只有1个，因为--total-executor-cores表示集群的core数，最后100表示100个线程数，也是agrs[0]
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://centos:7077 --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 ./examples/jars/spark-examples_2.11-2.3.3.jar 100
该命令表示为standalone资源调度器下cluster模式，执行./examples/jars/spark-examples_2.11-2.3.3.jar包中org.apache.spark.examples.SparkPi类，主节点为spark://master:7077，当集群中driver挂了那么supervise会重新启动driver，executor内存使用512M，这个集群的core只有1个，因为--total-executor-cores表示集群的core数，最后100表示100个线程数
cluster中driver默认需要的内存是1G，指定driver内存--driver-memory 512m
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512m --num-executors 1 ./examples/jars/spark-examples_2.11-2.3.3.jar 100
该命令表示为yarn资源调度器下client模式，执行./examples/jars/spark-examples_2.11-2.3.3.jar包中org.apache.spark.examples.SparkPi类，executor内存使用512M，有1个executor来执行，最后100表示100个线程数
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 1 ./examples/jars/spark-examples_2.11-2.3.3.jar 100
该命令表示为yarn资源调度器下cluster模式，执行./examples/jars/spark-examples_2.11-2.3.3.jar包中org.apache.spark.examples.SparkPi类，executor内存使用512M，有1个executor来执行，最后100表示100个线程数
spark集群高可用
对master节点使用zookeeper做高可用，master中的信息只有driver、worker、application的注册信息，所以只需要将这三个注册信息同步到zookeeper中即可，而且如果application正在运行，恢复master是不受影响的，因为application在运行之前已经将所有需要的资源全部申请到了，因此即使正在触发action算子执行application也是没有关系的，但是如果正在恢复的过程中执行application则会报错
搭建方法：
修改spark-env.sh文件，在spark集群的配置基础上添加
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark_2019411"
其中spark.deploy.recoveryMode    # 值为zookeeper，表示用zookeeper模式做高可用
   spark.deploy.zookeeper.url      # zookeeper的url
   spark.deploy.zookeeper.dir   # spark在znode中的目录（znode就是zookeeper节点）
然后选择准备standby状态的master节点，修改其spark-env.sh文件spark_master_ip需要修改成standby状态的master节点的ip，启动./sbin/spark-master.sh
可运行./bin/spark-shell --master spark://node1:7077,node2:7077 --executor-memory 512m命令来尝试

查漏补缺
1.用户应用程序application可分为driver端运行程序和worker中executor运行的程序，driver端运行的则为main函数，executor运行算子逻辑，executor运行action算子所得到的数据集会返回给driver端程序，并对结果可以进行操作，driver端除了运行main方法和接收action算子运算的结果外，还创建SparkContext作为spark程序的入口，SparkContext被创建的时候还会创建两个调度器DAGScheduler和taskScheduler，DAGScheduler是高层调度器负责对job划分成stage，taskScheduler是底层调度器负责将task调度到集群中运行
2.clusterManager在集群上获取资源的外部服务，比如standalone和yarn
3.worker可以运行spark应用的节点
4.executor在worker中为spark应用启动task进程，task进程负责运行任务如果有需要还负责将结果存储在内存或者磁盘中，每个应用都会有各自的executor
5.运行spark-submit命令时，如果不做任何配置的情况下，一个应用程序在一个worker上只启动1个executor
6.task是被送到executor上的工作单元，运行在executor中每个task进程中
7.application会被划分为多个job，job根据shuffle又会被划分成多个stage，stage由task组成
8.集群模式下worker中有executor，executor中有线程池，线程池中的线程会执行task
9.每个job可以看成触发了一次action算子
10.core并行的线程数
11.其实并没有将hdfs中block数据加载到partition当中，而是在partition中指定了对应哪一个block，相当于namenode里面的索引（元数据）
12.spark的并行度和cpu的并行度不是一个概念，cpu的并行度是不计算时间的切换同时执行多少任务，spark的并行度表示stage有多少task，但是可能不是同时执行，比如worker中可以同时执行100个（也是cpu并行度），而spark的并行度是10000的话它会分成100批来执行
13.一般来说并行度设置为core的2-3倍，可以充分利用core，比如服务器中core的个数有10个，那么可以同时并行执行10个task，
14.DAGscheduler是在触发action算子的时候进行切分job
15.DAGscheduler会记录哪个rdd或stage被持久化
16.TaskScheduler为每个taskSet的维护都有一个taskSetManager（追踪每个task的执行情况）
17.DAGscheduler基于stage构建DAG有向无环图，根据block分区位置来决定每个任务的最佳位置，每个task处理hdfs上的block
18.partition也是通过mr的split()方法一条一条读hdfs中block数据，每一条数据经过管道上的算子操作，中间的数据集并没有落地，相当于1+1+1+1=4而非1+1=2;2+1=3;3+1=4，如果进行持久化（cache和persist），数据会留到内存或磁盘中相当于备份，所以spark如果不进行cache和persist，它占用内存也是很少的，可如果不进行cache和persist，spark程序又不是很快
19.集群中同时有多少个并行的task，就会有多少条数据正在运行，如果集群中同时运行一万条task而且在没有持久化的情况下，就用一条数据的大小乘以一万就是占用的内存数
20.Scala提供的方法是单机进行的，spark提供的是集群中进行的，使用起来没有区别，运行起来会不一样
21.application只有注册到master内存中，master才会给其分配资源
22.给application分配资源的最小单位是一个executor
23.给executor分配的默认最小core个数为1，可以自行配置
24.spark-shell也是一个application，里面调用了spark-submit，只是内部实现的是repl模式，比如使用：./spark-shell --master spark://node:7077 --executor-memory 512m 默认client模式，提交的主节点，每一个executor的内存
25.每一个partition是由一个task线程来执行
26.join有可能是窄依赖，也可能是宽依赖，如果两个父rdd使用分区器进行重分区，然后shuffle时子rdd使用了相同的分区器进行分区就是窄依赖，否则就是是宽依赖
27.在使用join算子的时候可以通过广播变量不产生shuffle，比如rdd1.join(rdd2)，可以先将rdd2结果的值转成map形式，再广播出去，这样就不会产生shuffle
28.dataFrame的collect()方法，action操作，返回Array[row]数组
29.spark-shell中会自动创建sparkcontext和sqlContext，可直接使用
30.sparkSql中下推过滤器，比如：两表中数据通过filter过滤然后再join比两表先join然后再过滤的效率高
31.jdbc连接数据库
   Class.forName("com.mysql.jdbc.Driver");
   Connection conn = null;
   Statement stmt = null;
   try {
       conn = DriverManager.getConnection("jdbc:mysql://IP:3306/库","用户名","密码");
       stmt = conn.createStatement();
       stmt.executeUpdate(sql);
   } catch (Exception e) {
       e.printStackTrace();
   } finally {
       if (stmt != null) {
           stmt.close();
       }
       if (conn != null) {
           conn.close();
       }
   }

转载于:https://www.cnblogs.com/timeTraveler/p/10673678.html

你可能感兴趣的:(运维,json,数据库)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
更改npm镜像源为淘宝镜像骆小骆基于node.js
npm常用指令后缀*最近复习了一下node.js整理了一下跟node.js相关的指令后缀*--save、-S参数意思是把模块的版本信息保存到dependencies（生产环境依赖）中，即你的package.json文件的dependencies字段中；–--save-dev、-D参数意思是把模块版本信息保存到devDependencies（开发环境依赖）中，即你的package.json文件的de
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu