大数据-刘耀文

Spark零碎知识点

RDD的概念：
RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

个人注释（非官方）：
自动容错：为了提高计算效率，在shuffle前实现容错只需要把丢失的分区对应的父RDD分区进行重新计算即可，但如果是shuffle后的分区数据丢失，此时就需要将整个父RDD分区调用shuffle算子进行重新计算。RDD的容错就是指的是RDD分区的恢复过程，和Worker宕机无关。
位置感知：就是把具体的计算逻辑传到对应的数据节点上进行计算，可以有效避免发生大量网络IO。
可伸缩性：即自动容错。

RDD的属性

1）一组分片（Partition），即数据集的基本组成单位。对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。

2）一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的，每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合，不需要保存每次计算的结果。

3）RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。

4）一个Partitioner，即RDD的分片函数。当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

5）一个列表，存储存取每个Partition的优先位置（preferred location）。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

groupByKey和reduceByKey的区别
reduceByKey会先进行局部聚合，再进行全局聚合，这样会在全局聚合时减少网络IO，起到优化作用。所以，能用reduceByKey的情况，尽量用reduceByKey。

checkpoint的应用场景：
在应用程序执行过程中，有时候某些RDD的数据需要在其他地方多次用到（包括其他job中用到），
为了使得整个依赖链条不至于很长导致执行缓慢，可以用checkpoint来缩短依赖链条。
最好把数据checkpoint到HDFS，保证了数据的安全性，便于在用数据的时候进行拉取。

执行过程：
在代码层面是这样执行的，如果用到某个RDD的数据的时候，首先会检查是否做了缓存，如果做了缓存，会直接从缓存里面取数据，
如果没有做缓存，则判断是否做了checkpoint，如果做了checkpoint，则从checkpoint的指定路径下获取数据，
如果没有checkpoint，只能从新计算得到数据。

checkpoint的具体实现步骤：
1、设置一个checkpoint的目录
sc.setCheckpointDir(“hdfs://node01:9000/cp-20190105-1”)
2、把要checkpoint的RDD的数据进行cache
rdd.persist
3、checkpoint
rdd.checkpoint

最后在调用action算子的时候才会统一地进行cache和checkpoint，
而且该实现步骤是用于离线实现过程中的

查看是否做了checkpoint：rdd.isCheckpointed
查看checkpoint的存储目录：rdd.getCheckpointFile

map和mapPartitions的区别：
map是处理RDD里的每个元素，mapPartitions是用于处理RDD的每个分区的

map和foreach的区别：
1、map是有返回值的，foreach没有返回值
2、map常用于将某个RDD做元素的处理，而foreach常用于作为结果的输出到其他的存储系统中
3、map是属于transformation，foreach属于action

foreach和foreachPartition区别：
foreach是针对于RDD的每个元素来操作的，foreachPartition是针对于RDD的每个分区进行操作的
从优化层面讲：foreachPartition用于存储大量结果数据的场景，可以一个分区对应一个数据库的连接，这样就可以减少很多数据库的连接
rdd.foreachPartition(partition => {
val conn = … // 数据库连接
partition.foreach( // 进行存储)
})

stage划分过程

广播变量：
如果需要将Driver端的某个变量的值在Executor端多次使用，
可以将Driver端的某个变量的值以广播的方式传给多个Executor端，
Exeutor端在使用该值的时候就可以不经过网络IO从Driver端获取，而是直接从本地的缓存读取该值即可
这样既可以减少网络IO，又可以节省缓存（因为一个Executor只存一份广播变量就可以了），

广播过来的值会保存到Executor端的BlockManager

注意：
广播变量不可以广播RDD，因为RDD不会封装具体的值，而广播变量只能广播确切的值。
广播变量的值不易太大，如果太大，会把Executor端的缓存占用太多而导致计算时的内存太少而导致计算速度太慢或出现oom。
广播变量只能在Driver端定义，不能再Executor端定义。

Spark的Shuffle过程：
shuffle操作，是在Spark操作中调用了一些特殊的算子才会触发的一种操作，
shuffle操作，会导致大量的数据在不同的节点之间进行传输，
因此，shuffle过程是Spark中最复杂、最消耗性能的一种操作

比如：reduceByKey算子会将上一个RDD中的每个key对应的所有value都聚合成一个value，然后生成一个新的RDD，
新的RDD的元素类型就是的格式，每个key对应一个聚合起来的value，
在这里，最大的问题在于，对于上一个RDD来说，并不是一个key对应的所有的value都在一个partition中的，
更不太可能key的所有value都在一个节点上，
对于这种情况，就必须在集群中将各个节点上同一个key对应的values统一传输到一个节点上进行聚合处理，
这个过程势必会发生大量的网络IO。

shuffle过程中会发生shuffle write和shuffle read，
shuffle write：在map task端会发生shuffle write，把要shuffle的数据写到磁盘的过程，为什么要写到磁盘？
主要是为了避免shuffle的数据太大而占用内存太大导致oom，其次把数据存储到磁盘保证了数据的安全性
shuffle read：在reduce task端发生shuffle read，是指下游RDD读取上游RDD的过程，也就是reduce task读取并合并的过程

在进行一个key对应的values的聚合时，
首先，上一个stage的每个map task就必须保证将自己处理的当前分区中的数据相同key写入一个分区文件中，
可能会多个不同的分区文件，
接着下一个stage的reduce task就必须从上一个stage的所有task所在的节点上，
将各个task写入的多个分区文件中找到属于自己的分区文件，
然后将属于自己的分区数据拉取过来，
这样就可以保证每个key对应的所有values都汇聚到一个节点上进行处理和聚合，
这个过程就称之为shuffle！！！

shuffle过程中的分区排序问题
默认情况下，shuffle操作是不会对每个分区中的数据进行排序的

如果想要对每个分区中的数据进行排序，可以使用三种方法：
1、使用mapPartitions算子把每个partition取出来进行排序
2、使用repartitionAndSortWithinPartitions（该算子是对RDD进行重分区的算子），在重分区的过程中同时就进行分区内数据的排序
3、使用sortByKey对所有分区的数据进行全局排序

以上三种方法，mapPartitions代价比较小，因为不需要进行额外的shuffle操作，
repartitionAndSortWithinPartitions和sortByKey可能会进行额外的shuffle操作，因此性能并不是很高

会导致shuffle的算子
1、byKey类的算子：比如reduceByKey、groupByKey、sortByKey、aggregateByKey、combineByKey
2、repartition类的算子：比如repartition（少量分区变成多个分区会发生shuffle）、repartitionAndSortWithinPartitions、coalesce（需要指定是否发生shuffle）、partitionBy
3、join类的算子：比如join（先groupByKey后再join就不会发生shuffle）、cogroup
注意：首先对于上述操作，能不用shuffle操作，就尽量不用，尽量使用不发生shuffle的操作。
其次，如果使用了shuffle操作，那么肯定要进行shuffle的调优，甚至是解决遇到的数据倾斜问题。

shuffle操作是spark中唯一最消耗性能的过程
因此也就成了最需要进行性能调优的地方，最需要解决线上报错的地方，也就是唯一可能出现数据倾斜的地方

为了实时shuffle操作，spark才有stage的概念，在发生shuffle操作的算子中，需要进行stage的划分
shuffle操作的前半部分，属于上一个stage的范围，通常称之为map task，
shuffle操作的后半部分，属于下一个stage的范围，通常称之为reduce task，
其中map task负责数据的组织，也就是将同一个key对应的value都写入同一个下游task对应的分区文件中，
其中reduce task负责数据的聚合，也就是将上一个stage的task所在的节点上，将属于自己的各个分区文件都拉取过来进行聚合

map task会将数据先保存在内存中，如果内存不够时，就溢写到磁盘文件中，
reduce task会读取各个节点上属于自己的分区磁盘文件到自己节点的内存中进行聚合。

由此可见，shuffle操作会消耗大量的内存，因为无论是网络传输数据之前还是之后，
都会使用大量内存中数据结构来实施聚合操作，
在聚合过程中，如果内存不够，只能溢写到磁盘文件中去，
此时就会发生大量的网络IO，降低性能。

此外，shuffle过程中，会产生大量的中间文件，也就是map side写入的大量分区文件，
这些文件会一直保留着，直到RDD不再被使用，而且被gc回收掉了，才会去清理中间文件，
这主要是为了：如果要重新计算shuffle后RDD，那么map side不需要重新再做一次磁盘写操作，
但是这种情况下，如果在应用程序中一直保留着对RDD的引用，
导致很长的时间以后才会进行回收操作，
保存中间文件的目录，由spark.local.dir属性指定

所以，spark性能的消耗体现在：内存的消耗、磁盘IO、网络的IO

task的生成，一定是在stage范围内，不会跨越stage
task的数量可以这样计算：RDD分区的数量乘以stage的数量（必须是没有重分区的操作）

spark shuffle的参数优化
主要考虑在map task和reduce task上，以及它们之间数据传输上进行优化。
比如：
spark.reducer.maxSizeInFlight=48m，reduce task的buffer缓冲，代表了每个reduce task每次能够拉取的map side数据最大大小，如果内存充足，可以考虑加大，从而减少网络传输次数，提升性能。
spark.shuffle.file.buffer=32k，map side task的内存buffer大小，写数据到磁盘文件之前，会先保存在缓冲中，如果内存充足，可以适当加大，从而减少map side磁盘IO次数，提升性能。

spark.shuffle.spill=true，当reduce side的聚合内存使用量超过了spark.shuffle.memoryFraction指定的比例时，就进行磁盘的溢写操作。
spark.shuffle.memoryFraction=0.2，如果spark.shuffle.spill属性为true，那么该选项生效，代表了executor内存中，用于进行shuffle reduce side聚合的内存比例，默认是20%，如果内存充足，建议调高这个比例，给reduce聚合更多内存，避免内存不足频繁读写磁盘。
spark.shuffle.spill.compress=true，同上，进行磁盘溢写时，是否进行文件压缩，使用spark.io.compression.codec属性指定的压缩器，默认是snappy，速度优先。

spark.shuffle.io.retryWait=5s，每次重试拉取数据的等待间隔，默认是5s，建议加大时长，理由同上，保证shuffle操作的稳定性。

spark.shuffle.io.numConnectionsPerPeer=1，机器之间的可以重用的网络连接，主要用于在大型集群中减小网络连接的建立开销，如果一个集群的机器并不多，可以考虑增加这个值。

spark.shuffle.io.preferDirectBufs=true，启用堆外内存，可以避免shuffle过程的频繁gc，如果堆外内存非常紧张，则可以考虑关闭这个选项。
等等。

Accumulator累加器:
比如需要对Driver端的某个变量做累加操作，累加说的是，数值的相加或字符串的拼接。
如果直接用foreach是实现不了的，因为该算子无法把executor累加的结果聚合到Driver端的。
可以用Accumulator累加器来实现累加的操作。

注意：
1、Accumulator只能实现累加，而且只能实现为Driver端的变量做累加。
2、Executor端是无法读取累加的值的，只能Driver端读取。

调用上下文中的accumulator方法可以实现累加（sc.accumulator(0)），但该方法在spark2.0版本后是过期方法。
2.0之后需要我们自定义Accumulator，必须继承AccumulatorV2，重写几个方法。

spark sql：
spark2.0以后，我们操作的sql的对象为DataSet，
DataFrame只是DataSet [Row] (Row类型是弱类型的)
DataSet有弱类型（untyped）和强类型（typed）

SparkSession作为新版本的上下文，可以用在sql和streaming中，
SparkSession把SQLContext和HiveContext整合到了一起

spark2.0之前的sql是不支持开窗函数和子查询的，2.0之后实现了sql2003标准，开始支持了
如果在2.0之前需要实现开窗函数和子查询，需要用Hive-On-Spark来实现

spark2.0可以支持csv格式数据的输入和输出

spark sql生成的默认数据格式为parquet（列式存储）

DataSet[Row]—DataFrame是包含RDD+schema信息（用来描述数据的数据）

sparksql在编程的时候，可以用DSL语言风格或SQL语句风格来操作

DataSet和DataFrame之间可以互相转换，用as方法

sparksql在获取json数据时，里面的数值数据会解析成long类型

sparksql是无法对数据做增删改的，只能做查询

启用hive：
1、在配置信息时加入config(“spark.sql.warehouse.dir”, “d://spark-warehouse”)
2、在gerOrCreate方法之前调用enableHiveSupport()方法启动hive支持

kafka的重要组件（重要）

Producer:
生产者负责将数据传入Kafka，比如flume、java后台服务、logstash
生产者可以有多个，并且可以同时往一个topic中写数据，也可以同时往一个partition中传入数据。
每个生产者都是一个独立的进程，而且单个生产者就具有分发数据的能力。
一个生产者可以同时往多个topic中分发数据。（一般不会这么操作）

Kafka cluster：
Kafka由多个broker组成，一个broker作为一个实例（节点）
Kafka集群可以保存多种类型的数据，是由多个topic进行分类的
一个topic其实就是一个队列
每个topic可以创建一个或多个partition，partition的数量是可以更改的
每个partition是由多个segment组成的，segment的大小是相同的，默认的是1G
topic中的数据是有多副本机制的，原始数据和副本数据不会在同一个节点上（所以若只有一个节点，副本数为3，也并不会在同一个节点上存3份）

Consumer group：
消费者负责拉取数据，比如：streaming、storm、java服务
消费者组中可以存在多个consumer，在stream中，一个consumer作为一个线程
新增或减少consumer数量会触发负载均衡，目的是减少部分broker压力，提高Kafka的吞吐量
一个consumer group可以消费多个分区的数据
一个分区的数据最多在同一个时刻被一个consumer消费
在同一个consumer group中，数据是不可以重复消费（若想要重复消费，可以修改group名，或者设置Kafka集群映射，或者手动调整已经变化了的偏移量）

关于Kafka的几个问题：
Kafka数据的存储机制（Kafka是怎么存储数据的）？
1、broker先接受到producer传过来的数据，将数据写入到操作系统（Linux）的缓存（pagecache）里，pagecache会尽可能的使用空闲内存来存储数据
2、使用sendfile技术尽可能多的减少操作系统和应用程序之间的重复缓存，写数据时是顺序写入（顺序写入的速度可达到600m/s）

consumer是怎么解决负载均衡的？
1、获取consumer消费的起始分区号
2、计算出consumer消费的分区数量
3、用分区号的hash值%分区数

segment是什么？
1、一个分区被分为多个相同大小的segment，默认是1G，
2、每个segment是由多个index和log文件组成的，index存储数据对应的索引，实际的数据是存储在log文件中。
3、segment是有生命周期的，默认是168小时（七天）

数据是怎么分发的（数据的分发策略）？
1、Kafka接收到数据后会根据创建的topic指定的副本来存储，多副本之间会有选举的过程，即有leader和follower，数据会首先写到leader，然后再同步到follower
2、Kafka会调用分区器来进行分发数据，默认分区器是DefaultPartitioner（分区的逻辑是key的hash值%分区数），也可以自定义分区器，需要实现Partitioner特质，实现partition方法

Kafka存储数据能做到全局有序吗？
不能。只能做到分区内有序。
如果就想做到topic的全局有序，只声明一个分区，但会影响吞吐量。（1秒20MB数据，一天也是1.7T的数据）

更多关于Kafka的内容挪步另一篇Kafka博客。

Spark Streaming

Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外Spark Streaming也能和MLlib（机器学习）以及Graphx完美融合。

DStream
Discretized Stream是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上，DStreams是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。

DStream的三个特殊原语的理解和练习–updateStateByKey、transform、window operations
挪步另一篇博客

Kafka的消息传递语义（重要，若问Kafka基本必问），换种问法，Kafka怎么保持数据的一致性（怎么保证数据0丢失）？
1.幂等写入（ idempotent writes）
需要设置好唯一主键等，比如用redis、mysql
再比如每次往一个目录覆盖写数据，这样主键不容易获取。
一次语义：幂等写入
当获取到数据后，先写到mysql，再保存offset，如果在写到mysql数据后，在保存offset之前宕机，重启作业后也不会影响一次语义，因为会在mysql重复更新。
注：在软件开发领域，幂等写入即为同样的请求被执行一次与连续执行多次的效果是一样的，服务器的状态也是一样的，实际上就是接口的可重复调用（包括时间和空间上两个维度）。
2.事务控制
保证数据和offset在同一个事务里面，比如用mysql，这样需要事务存储的支持。
3.自己实现Exactly-once，offset和数据绑定保存等。
代码详情请挪步此篇博客末尾消息传递语义

streaming消费kafka的两种方式的优缺点的总结
Receiver方式：
Receiver从Kafka中获取数据都是存储在Spark Executor内存中的，然后Spark Streaming启动的job会去处理那些数据。
优点：操作简单方便，不用自己管理offset。
缺点：各方面都不如Direct方式。
Direct方式：
它会周期性的查询kafka，来获取每个topic + partition的最新offset，从而定义每一个batch的offset的范围。当处理数据的job启动时，就会使用kafka简单的消费者API来获取kafka指定offset的范围的数据。
优点：
1）它简化了并行读取：如果要读取多个partition，不需要创建多个输入DStream然后对他们进行union操作。Spark会创建跟kafka partition一样多的RDD partition，并且会并行从kafka中读取数据。所以在kafka partition和RDD partition之间有一个一一对应的映射关系。
2）高性能：如果要保证数据零丢失，基于Receiver的机制需要开启WAL机制，这种方式其实很低效，因为数据实际上被copy了2分，kafka自己本身就有可靠的机制，会对数据复制一份，而这里又复制一份到WAL中。基于Direct的方式，不依赖于Receiver，不需要开启WAL机制,只要kafka中做了数据的复制，那么就可以通过kafka的副本进行恢复。
3）一次仅且一次的事务机制
基于Receiver的方式，是使用Kafka High Level的API在zookeeper中保存消费过的offset的。这是消费kafka数据的传统方式，这种方式配合这WAL机制可以保证数据零丢失，但是无法保证数据只被处理一次的且仅且一次，可能会两次或者更多，因为spark和zookeeper可能是不同步的。
4）降低资源
Direct不需要Receivers，其申请的Executors全部参与到计算任务中；而Receiver-based则需要专门的Receivers来读取Kafka数据且不参与计算。因此相同的资源申请，Direct 能够支持更大的业务。
5）降低内存
Receiver-based的Receiver与其他Exectuor是异步的，并持续不断接收数据，对于小业务量的场景还好，如果遇到大业务量时，需要提高Receiver的内存，但是参与计算的Executor并无需那么多的内存。而Direct 因为没有Receiver，而是在计算时读取数据，然后直接计算，所以对内存的要求很低。实际应用中我们可以把原先的10G降至现在的2-4G左右。
6）不会出现数据堆积
Receiver-based方法需要Receivers来异步持续不断的读取数据，因此遇到网络、存储负载等因素，导致实时任务出现堆积，但Receivers却还在持续读取数据，此种情况很容易导致计算崩溃。Direct 则没有这种顾虑，其Driver在触发batch 计算任务时，才会读取数据并计算。队列出现堆积并不会引起程序的失败。
缺点：需要自己管理offset，相对更麻烦复杂。

资源调度模式：
local模式（本地）
standalone模式
on-yarn模式
messos模式
docker
cloud

这么多资源调度模式，到底用哪种比较好？需要通过公司需求和运行速度来综合衡量

哪种调度模式速度快呢？standalone模式

为什么有很多企业在用spark-on-yarn模式？
考虑到尽量用一个统一的资源调度模式来运行多种任务，
这样可以减轻运维的工作压力，
同时也可以减少资源调度之间的配合（基于集群考虑）

spark-on-yarn
Yarn的任务调度流程
1、client向ResourceManager注册并提交任务
2、ResourceManager向NodeManager进行通信，开始在某个NodeManager启动AppMaster
3、AppMaster启动后开始向ResourceManager申请资源
4、ApplicationManager开始资源调度，开始通知NodeManager启动YarnChild
5、YarnChild开始和AppMaster进行通信，AppMaster对所有YarnChild进行监控
6、MR执行完成以后，YarnChild被AppMaster回收，AppMaster把自己回收掉
源码分析，SparkSubmit、SparkContext、stage划分过程以及任务提交的大致过程（待完善）
或者记住降龙十八掌。
Spark任务生成和提交过程（1.6版本）

Redis
Redis是用C语言开发的一个开源的高性能键值对（key-value）数据库。
Redis应用场景：
缓存（数据查询、短连接、新闻内容、商品内容等等）。（最多使用）
分布式集群架构中的session分离。
聊天室的在线好友列表。
任务队列。（秒杀、抢购、12306等等）
应用排行榜。
网站访问统计。
数据过期处理（可以精确到毫秒）
redis的特性
1、redis数据访问速度快（数据在内存中）
2、redis有数据持久化机制（持久化机制有两种：1、RDB方式，定期将内存数据dump到磁盘；2、aof(append only file)持久化机制——用记日志的方式记录每一条数据更新操作，一旦出现灾难事件，可以通过日志重放来恢复整个数据库。默认rdb方式，可能会造成数据损失，需手动设置aof方式。）
3、redis支持集群模式（容量可以线性扩展），从3.0.0版本开始支持集群模式。
4、redis相比其他缓存工具（ehcach/memcached），有一个鲜明的优势：支持丰富的数据结构
Redis数据类型及其应用场景
String类型：string为最简单类型，一个key对应一个value。
Hash类型：当一个对象有多个属性时，如果用string存储，更新属性需要更新整个对象（例如User对象有id，username、password、age、name等属性，存储/更新过程为User对象 ==> json(string) ==>redis）,造成资源浪费。此时用Hash类型存储，结构为键-字段-字段值，其中字段值只能是字符串类型。
List类型：list是一个链表结构，主要功能是push、pop以及获取一个范围的所有值等。
使用list结构，可以轻松实现最新消息排行，另一个应用是消息队列，可以利用list的push操作，将任务存在list中，然后工作线程再用pop操作将任务取出进行执行。（先进后出）
Set类型：set是集合，对集合操作有添加删除元素，有对多个集合求交并差等操作。在微博应用中，可以将一个用户关注的所有人放在一个集合里，将所有粉丝放在一个集合里，因为redis为集合提供了求交集、并集、差集等操作，就可以方便的实现如共同关注、共同喜好等功能。
SortedSet类型：sorted set是有序集合，比set多了一个权重参数score，使得集合元素能够按score进行有序排列。
例如存储一个班级同学的成绩，其集合value可以是同学的学号，而score可以是其考试的得分，这样在数据插入集合的时候就进行了排序。
此外，
redis还有主从复制机制（HA），
redis集群模式：
1.集群通信是通过“ping-pong”机制进行通信。
2.客户端不需要将所有的节点都连接上，只需要连接其中一个节点即可。
3.集群中存储数据是存储到一个个的槽中，集群中槽的个数是固定的：16384，槽的编号是【0-16383】。在集群中存储数据时，会根据key进行计算，计算出一个结果，然后将这个结果和16384取余，余数就是这个key将要存储的槽的编号。
注意：槽的编号之间不能断开。
补充：较少使用，因为redis一般只是用来缓存数据，数据不会保存太久，一般用不上集群模式）

elk技术栈
elk是指elastic公司的3个产品
e: elasticsearch: 分布式文件存储系统，集成了lucene，具有相当丰富的检索功能。
开源免费的，用java语言实现的
l: logstash: 数据采集工具，类似于flume，也是开源免费的，JRuby语言实现的
k: kibana: 结果数据展示工具，是用javascript+一小部分java语言实现的

es提供了两种api：restful接口风格的api和java api

es中，有索引（index）、文档（document）、类型（type）、id的概念、映射（mapping）

index：相当于数据库中的database
document：相当于一行数据
type：相当于数据库中的table
id：相当于数据库中的id
mapping：相当于数据库中的schema信息

在插入数据的时候，指定顺序为url/index/type/id/field，比如：
curl -XPUT “http://localhost:9200/blog01/article/1” -d “{”"“id”"": “”“1"”", “”“title”"": “”“Whatiselasticsearch”""}"

es有分片的概念

es也实现了多副本机制保证数据的安全性，副本的数量是不包括源数据的，这点和hdfs是不一样的

es提供了多种查询方式，比如：bool查询、id查询、range查询、term查询等等
其中bool查询中有几个关键字：
must:相当于关系型数据库中的and
should:相当于关系型数据库中的or
must_not：相当于关系型数据库中的not

你可能感兴趣的:(Spark)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多