Francek Chen

RDD编程

一、RDD编程基础

（一）RDD创建

（二）RDD操作

1、转换操作

2、行动操作

3、惰性机制

（三）持久化

（四）分区

（五）一个综合实例

二、键值对RDD

（一）键值对RDD的创建

（二）常用键值对转换操作

（三）一个综合实例

三、数据读写

（一）文件数据读写

（二）读写HBase数据

一、RDD编程基础

（一）RDD创建

Spark采用textFile()方法来从文件系统中加载数据创建RDD 该方法把文件的URI作为参数，这个URI可以是：本地文件系统的地址、或者是分布式文件系统HDFS的地址或者是Amazon S3的地址等等。

1、从文件系统中加载数据创建RDD

"file:///home/zhc/mycode/word.txt"文件内容如下：

Hadoop is good
Spark is better
Spark is fast

（1）从本地文件系统中加载数据创建RDD

>>> lines = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> lines.foreach(print)
Hadoop is good
Spark is better
Spark is fast

（2）从分布式文件系统HDFS中加载数据

>>> lines = sc.textFile("hdfs://localhost:9000/user/zhc/word.txt")
>>> lines = sc.textFile("/user/zhc/word.txt")
>>> lines = sc.textFile("word.txt")

三条语句是完全等价的，可以使用其中任意一种方式。

>>> lines.foreach(print)
Hadoop is good
Spark is better
Spark is fast

2. 通过并行集合（列表）创建RDD

可以调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（列表）上创建，从而实现并行化处理。

>>> array = [1,2,3,4,5]
>>> rdd = sc.parallelize(array)
>>> rdd.foreach(print)
1
2
3
4
5

（二）RDD操作

1、转换操作

对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作。

常用的RDD转换操作API
操作	含义
filter(func)	筛选出满足函数func的元素，并返回一个新的数据集
map(func)	将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)	与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()	应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集
reduceByKey(func)	应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果

（1）filter(func)

filter(func)会筛选出满足函数func的元素，并返回一个新的数据集。

>>> lines = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> linesWithSpark = lines.filter(lambda line: "Spark" in line)
>>> linesWithSpark.foreach(print)
Spark is better
Spark is fast

（2）map(func)

map(func)操作将每个元素传递到函数func中，并将结果返回为一个新的数据集。

>>> data = [1,2,3,4,5]
>>> rdd1 = sc.parallelize(data)
>>> rdd2 = rdd1.map(lambda x:x+10)
>>> rdd2.foreach(print)
11
13
12
14
15

另外一个实例：

>>> lines = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> words = lines.map(lambda line:line.split(" "))
>>> words.foreach(print)
['Hadoop', 'is', 'good']
['Spark', 'is', 'fast']
['Spark', 'is', 'better']

（3）flatMap(func)

>>> lines = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> words = lines.flatMap(lambda line:line.split(" "))

（4）groupByKey()

groupByKey()应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集。

>>> words = sc.parallelize([("Hadoop",1),("is",1),("good",1), \
... ("Spark",1),("is",1),("fast",1),("Spark",1),("is",1),("better",1)])
>>> words1 = words.groupByKey()
>>> words1.foreach(print)
('Hadoop', )
('fast', )
('better', )
('is', )
('good', )
('Spark', )

（5）reduceByKey(func)

reduceByKey(func)应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果。

>>> words = sc.parallelize([("Hadoop",1),("is",1),("good",1),("Spark",1), \
... ("is",1),("fast",1),("Spark",1),("is",1),("better",1)])
>>> words1 = words.reduceByKey(lambda a,b:a+b)
>>> words1.foreach(print)
('good', 1)
('Hadoop', 1)
('better', 1)
('Spark', 2)
('fast', 1)
('is', 3)

rdd.reduceByKey(lambda a,b:a+b)

<“spark”,<1,1,1>>

2、行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一次转换操作，最终，完成行动操作得到结果。

常用的RDD行动操作API
操作	含义
count()	返回数据集中的元素个数
collect()	以数组的形式返回数据集中的所有元素
first()	返回数据集中的第一个元素
take(n)	以数组的形式返回数据集中的前n个元素
reduce(func)	通过函数func（输入两个参数并返回一个值）聚合数据集中的元素
foreach(func)	将数据集中的每个元素传递到函数func中运行

以下是通过一个实例来介绍上表中的各个行动操作，这里同时给出了在pyspark环境中执行的代码及其结果。

>>> rdd = sc.parallelize([1,2,3,4,5])
>>> rdd.count()
5
>>> rdd.first()
1
>>> rdd.take(3)
[1, 2, 3]
>>> rdd.reduce(lambda a,b:a+b)
15
>>> rdd.collect()
[1, 2, 3, 4, 5]
>>> rdd.foreach(lambda elem:print(elem))
1
2
3
4
5

3、惰性机制

所谓的“惰性机制”是指，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会触发“从头到尾”的真正的计算。这里给出一段简单的语句来解释Spark的惰性机制。

>>> lines = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> lineLengths = lines.map(lambda s:len(s))
>>> totalLength = lineLengths.reduce(lambda a,b:a+b)
>>> print(totalLength)
42

（三）持久化

在Spark中，RDD采用惰性求值的机制，每次遇到行动操作，都会从头开始执行计算。每次调用行动操作，都会触发一次从头开始的计算。这对于迭代计算而言，代价是很大的，迭代计算经常需要多次重复使用同一组数据。下面就是多次计算同一个RDD的例子：

>>> list = ["Hadoop","Spark","Hive"]
>>> rdd = sc.parallelize(list)
>>> print(rdd.count())         #行动操作，触发一次真正从头到尾的计算
3
>>> print(','.join(rdd.collect()))          #行动操作，触发一次真正从头到尾的计算
Hadoop,Spark,Hive

可以通过持久化（缓存）机制避免这种重复计算的开销。具体方法是使用persist()方法对一个RDD标记为持久化，之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个行动操作触发真正计算以后，才会把计算结果进行持久化。持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用。

persist()的圆括号中包含的是持久化级别参数：
persist(MEMORY_ONLY)：表示将RDD作为反序列化的对象存储于JVM中，如果内存不足，就要按照LRU原则替换缓存中的内容。
persist(MEMORY_AND_DISK)表示将RDD作为反序列化的对象存储在JVM中，如果内存不足，超出的分区将会被存放在硬盘上。

一般而言，使用cache()方法时，会调用persist(MEMORY_ONLY)。针对上面的实例，增加持久化语句以后的执行过程如下：

>>> list = ["Hadoop","Spark","Hive"]
>>> rdd = sc.parallelize(list)
>>> rdd.cache()  #会调用persist(MEMORY_ONLY)，但是，语句执行到这里，并不会缓存rdd，因为这时rdd还没有被计算生成
>>> print(rdd.count()) #第一次行动操作，触发一次真正从头到尾的计算，这时上面的rdd.cache()才会被执行，把这个rdd放到缓存中
3
>>> print(','.join(rdd.collect())) #第二次行动操作，不需要触发从头到尾的计算，只需要重复使用上面缓存中的rdd
Hadoop,Spark,Hive

持久化RDD会占用内存空间，当不需要一个RDD时，可以使用unpersist()方法手动地把持久化的RDD从缓存中移除，释放内存空间。

（四）分区

RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上。

1、分区的作用

（1）增加并行度

（2）减少通信开销

UserData（UserId，UserInfo）
Events（UserID，LinkInfo）
UserData 和Events 表进行连接操作，获得（UserID，UserInfo，LinkInfo）

未分区时对UserData和Events两个表进行连接操作：

实际上，由于userData这个RDD要比 events大很多，所以，可以选择对userData进行区。比如，可以采用哈希分区方法，把userData这个RDD分区成m个分区，这些分区分布在节点u1、u2……um上。对userData进行分区以后，在执行连接操作时，就不会产生上图的数据混洗情况。

采用分区以后对UserData和Events两个表进行连接操作：

由于已经对userData根据哈希值进行了分区，因此，在执行连接操作时，不需要再把userData 中的每个元素进行哈希求值以后再分发到其他节点上，只需要对events 这个RDD的每个元素求哈希值（采用与userData相同的哈希函数）。然后，根据哈希值把每个events 中的RDD元素分发到对应的节点u1、u2……um上面。整个过程中，只有events发生了数据混洗，产生了网络通信，而userData 的数据都是在本地引用，不会产生网络传输开销。由此可以看出，Spark通过数据分区，可以大大降低一些特定类型的操作（比如join()、leftOuterJoin()、groupByKey()、reduceByKey()等）的网络传输开销。

2、RDD分区原则

RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心（core）数目。对于不同的Spark部署模式而言（本地模式、Standalone模式、YARN模式、Mesos模式），都可以通过设置spark.default.parallelism这个参数的值，来配置默认的分区数目，一般而言：

*Local模式：默认为本地机器的CPU数目，若设置了local[N]，则默认为N。
*Standalone或YARN：在“集群中所有CPU核心数目总和”和“2”二者中取较大值作为默认值。
*Apache Mesos：默认的分区数为8。

3、设置分区的个数

（1）创建RDD时手动指定分区个数

在调用textFile()和parallelize()方法的时候手动指定分区个数即可，语法格式如下： sc.textFile(path, partitionNum)
其中，path参数用于指定要加载的文件的地址，partitionNum参数用于指定分区个数。下面是一个分区实例。

>>> list = [1,2,3,4,5]
>>> rdd = sc.parallelize(list,2)     #设置两个分区

对于paralelize0而言，如果没有在方法中指定分区数，则默认为spark.default.parallelism。对于textFile()而言，如果没有在方法中指定分区数，则默认为min(defaultParallelism,2)，其中，defaultParallelism对应的就是spark.default.parallelism。如果是从HDFS 中读取文件，则分区数为文件分片数（比如，128MB/片）。

（2）使用reparititon方法重新设置分区个数

通过转换操作得到新 RDD 时，直接调用 repartition 方法即可。例如：

>>> data = sc.parallelize([1,2,3,4,5],2)
>>> len(data.glom().collect())       #显示data这个RDD的分区数量
2
>>> rdd = data.repartition(1)        #对data这个RDD进行重新分区
>>> len(rdd.glom().collect())        #显示rdd这个RDD的分区数量
1

4.自定义分区方法

Spark提供了自带的HashPartitioner（哈希分区）与RangePartitioner（区域分区），能够满足大多数应用场景的需求。与此同时，Spark也支持自定义分区方式，即通过提供一个自定义的分区函数来控制RDD的分区方式，从而利用领域知识进一步减少通信开销。

实例：根据key值的最后一位数字，写到不同的文件
例如：10写入到part-00000，11写入到part-00001 . . . 19写入到part-00009。

打开一个Linux终端，使用vim编辑器创建一个代码文件“/home/zhc/mycode/TestPartitioner.py”，输入以下代码：

from pyspark import SparkConf, SparkContext

def MyPartitioner(key):
    print("MyPartitioner is running")
    print('The key is %d' % key)
    return key%10

def main():
    print("The main function is running")
    conf = SparkConf().setMaster("local").setAppName("MyApp")
    sc = SparkContext(conf = conf)
    data=sc.parallelize(range(10),5)
    data.map(lambda x:(x,1)) \
        .partitionBy(10,MyPartitioner) \
        .map(lambda x:x[0]) \
        .saveAsTextFile("file:///usr/local/spark/mycode/rdd/partitioner")

if __name__ == '__main__':
  main()

[root@bigdata mycode]# vi TestPartitioner.py
[root@bigdata mycode]# python3 TestPartitioner.py

或者通过spark-submit提交文件：

[root@bigdata mycode]# spark-submit TestPartitioner.py

运行结果：

运行结束后可以看到，在本地文件系统的“file://home/zhc/mycode/partitioner"目录下面，会生成 part-00000、part-00001、part-00002……part-00009和_SUCCESS等文件。其中，part-00000 文件中包含了数字0，part-00001文件中包含了数字1， part-00002文件中包含了数字2。

（五）一个综合实例

假设有一个本地文件word.txt，里面包含了很多行文本，每行文本由多个单词构成，单词之间用空格分隔。可以使用如下语句进行词频统计（即统计每个单词出现的次数）：

>>> lines = sc. \
... textFile("file:///home/zhc/mycode/word.txt")
>>> wordCount = lines.flatMap(lambda line:line.split(" ")). \
... map(lambda word:(word,1)).reduceByKey(lambda a,b:a+b)
>>> print(wordCount.collect())
[('good', 1), ('Spark', 2), ('is', 3), ('better', 1), ('Hadoop', 1), ('fast', 1)]

词频统计执行示意图：

在实际应用中，单词文件可能非常大，会被保存到分布式文件系统HDFS中，Spark和Hadoop会统一部署在一个集群上。

二、键值对RDD

键值对RDD（Pair RDD）是指每个 RDD 元素都是（key,value）键值对类型，是一种常见的RDD类型，可以应用于很多应用场景。

（一）键值对RDD的创建

1、第一种创建方式：从文件中加载生成RDD

在Linux系统本地文件新建“/home/zhc/mycode/pairrdd/word.txt”，里面包含如下内容：

I love Hadoop

Hadoop is good

Spark is fast

首先使用textFile()方法从文件中加载数据，使用map()函数转换得到相应的键值对RDD。

>>> lines = sc.textFile("file:///home/zhc/mycode/pairrdd/word.txt")
>>> pairRDD = lines.flatMap(lambda line:line.split(" ")).map(lambda word:(word,1))
>>> pairRDD.foreach(print)
('Spark', 1)
('I', 1)
('is', 1)
('fast', 1)
('love', 1)
('hadoop', 1)
('Hadoop', 1)
('is', 1)
('good', 1)

在上述语句中，map(lambda word:(word,1))函数的作用是，取出RDD中的每个元素，也就是每个单词，赋值给word，然后，把word转换成(word,1)的键值对形式。

2、第二种创建方式：通过并行集合（列表）创建RDD

下面代码从一个列表创建一个键值对RDD：

>>> list = ["Hadoop","Spark","Hive","Spark"]
>>> rdd = sc.parallelize(list)
>>> pairRDD = rdd.map(lambda word:(word,1))
>>> pairRDD.foreach(print)
(Hadoop,1)
(Spark,1)
(Hive,1)
(Spark,1)

（二）常用键值对转换操作

常用键值对转换操作包括reduceByKey(func)、groupByKey()、keys、values、sortByKey()、sortBy()、mapValues(func)、join()和combineByKey等。

1、reduceByKey(func)

reduceByKey(func)的功能是，使用func函数合并具有相同键的值。

(Hadoop,1)

(Spark,1)

(Hive,1)

(Spark,1)

>>> pairRDD = sc.parallelize([("Hadoop",1),("Spark",1),("Hive",1),("Spark",1)])
>>> pairRDD.reduceByKey(lambda a,b:a+b).foreach(print)
('Spark', 2)
('Hive', 1)
('Hadoop', 1)

2、groupByKey()

groupByKey()的功能是，对具有相同键的值进行分组。比如，对四个键值对("spark",1)、("spark",2)、("hadoop",3)和("hadoop",5)，采用groupByKey()后得到的结果是：("spark",(1,2))和("hadoop",(3,5))。

(spark,1)

(spark,2)

(hadoop,3)

(hadoop,5)

>>> list = [("spark",1),("spark",2),("hadoop",3),("hadoop",5)]
>>> pairRDD = sc.parallelize(list)
>>> pairRDD.groupByKey()
PythonRDD[27] at RDD at PythonRDD.scala:48
>>> pairRDD.groupByKey().foreach(print)
('hadoop', )
('spark', )

reduceByKey和groupByKey的区别

reduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义。
groupByKey也是对每个key进行操作，但只生成一个sequence，groupByKey本身不能自定义函数，需要先用groupByKey生成RDD，然后才能对此RDD通过map进行自定义函数操作。

>>> words = ["one", "two", "two", "three", "three", "three"]
>>> wordPairsRDD = sc.parallelize(words).map(lambda word:(word, 1))
>>> wordCountsWithReduce = wordPairsRDD.reduceByKey(lambda a,b:a+b)
>>> wordCountsWithReduce.foreach(print)
('one', 1)
('two', 2)
('three', 3)
>>> wordCountsWithGroup = wordPairsRDD.groupByKey(). \
... map(lambda t:(t[0],sum(t[1])))
>>> wordCountsWithGroup.foreach(print)
('two', 2)
('three', 3)
('one', 1)

上面得到的wordCountsWithReduce和wordCountsWithGroup是完全一样的，但是，它们的内部运算过程是不同的。

3、keys

keys只会把Pair RDD中的key返回形成一个新的RDD。

(Hadoop,1)

(Spark,1)

(Hive,1)

(Spark,1)

>>> list = [("Hadoop",1),("Spark",1),("Hive",1),("Spark",1)]
>>> pairRDD = sc.parallelize(list)
>>> pairRDD.keys().foreach(print)
Hadoop
Spark
Hive
Spark

4、values

values只会把Pair RDD中的value返回形成一个新的RDD。

(Hadoop,1)

(Spark,1)

(Hive,1)

(Spark,1)

>>> list = [("Hadoop",1),("Spark",1),("Hive",1),("Spark",1)]
>>> pairRDD = sc.parallelize(list)
>>> pairRDD.values().foreach(print)
1
1
1
1

5、sortByKey()

sortByKey()的功能是返回一个根据键排序的RDD。

(Hadoop,1)

(Spark,1)

(Hive,1)

(Spark,1)

>>> list = [("Hadoop",1),("Spark",1),("Hive",1),("Spark",1)]
>>> pairRDD = sc.parallelize(list)
>>> pairRDD.foreach(print)
('Hadoop', 1)
('Spark', 1)
('Hive', 1)
('Spark', 1)
>>> pairRDD.sortByKey().foreach(print)
('Hadoop', 1)
('Hive', 1)
('Spark', 1)
('Spark', 1)

6、sortBy()

sortBy()可以根据其他字段进行排序。

>>> d1 = sc.parallelize([("c",8),("b",25),("c",17),("a",42), \
... ("b",4),("d",9),("e",17),("c",2),("f",29),("g",21),("b",9)])
>>> d1.reduceByKey(lambda a,b:a+b).sortBy(lambda x:x,False).collect()
[('g', 21), ('f', 29), ('e', 17), ('d', 9), ('c', 27), ('b', 38), ('a', 42)]
>>> d1.reduceByKey(lambda a,b:a+b).sortBy(lambda x:x[0],False).collect()
[('g', 21), ('f', 29), ('e', 17), ('d', 9), ('c', 27), ('b', 38), ('a', 42)]
>>> d1.reduceByKey(lambda a,b:a+b).sortBy(lambda x:x[1],False).collect()
[('a', 42), ('b', 38), ('f', 29), ('c', 27), ('g', 21), ('e', 17), ('d', 9)]

在上述语句中， sortBy(lambda x:x[1],False)中的"x[1]”表示每个键值对RDD元素的value，也就是根据value来排序，False表示按照降序排序。

与sortByKey()对比：

>>> d1 = sc.parallelize([("c",8),("b",25),("c",17),("a",42), \
... ("b",4),("d",9),("e",17),("c",2),("f",29),("g",21),("b",9)])
>>> d1.reduceByKey(lambda a,b:a+b).sortByKey(False).collect()
[('g', 21), ('f', 29), ('e', 17), ('d', 9), ('c', 27), ('b', 38), ('a', 42)]

sortByKey(False)括号中的参数False表示按照降序排序，如果没有提供参数False，则默认采用升序排序（即参数取值为True）。从排序后的效果可以看出，所有键值对都按照key的降序进行了排序，因此输出[(g, 21),(f,29), (e',17),(d, 9),(c,27),(b,38),(a', 42)]。
但是，如果要根据21、29、17等数值进行排序，就无法直接使用sortByKey0来实现，这时可以使用sortBy()。

7、mapValues(func)

对键值对RDD中的每个value都应用一个函数，但是，key不会发生变化。

(Hadoop,1)

(Spark,1)

(Hive,1)

(Spark,1)

>>> list = [("Hadoop",1),("Spark",1),("Hive",1),("Spark",1)]
>>> pairRDD = sc.parallelize(list)
>>> pairRDD1 = pairRDD.mapValues(lambda x:x+1)
>>> pairRDD1.foreach(print)
('Hadoop', 2)
('Spark', 2)
('Hive', 2)
('Spark', 2)

8、join()

join就表示内连接。对于内连接，对于给定的两个输入数据集(K,V1)和(K,V2)，只有在两个数据集中都存在的key才会被输出，最终得到一个(K,(V1,V2))类型的数据集。

>>> pairRDD1 = sc. \
... parallelize([("spark",1),("spark",2),("hadoop",3),("hadoop",5)])
>>> pairRDD2 = sc.parallelize([("spark","fast")])
>>> pairRDD3 = pairRDD1.join(pairRDD2)
>>> pairRDD3.foreach(print)
('spark', (1, 'fast'))
('spark', (2, 'fast'))

从上述代码及其执行结果可以看出，pairRDD1中的键值对("spark",1)和pairRDD2中的键值对("spark","fast")，因为二者具有相同的key（即"spark"），所以会产生连接结果（"spark",(1,"fast")）。

9、combineByKey

创建一个代码文件“/home/zhc/mycode/Combine.py”，并输入如下代码：

#/home/zhc/mycode/Combine.py
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("Combine ")
sc = SparkContext(conf = conf)
data=sc.parallelize([("company-1",88),("company-1",96),("company-1",85), \
     ("company-2",94),("company-2",86),("company-2",74),("company-3",86), \
     ("company-3",88),("company-3",92)],3)
res = data.combineByKey(\
            lambda income:(income,1),\
            lambda acc,income:(acc[0]+income, acc[1]+1),\
            lambda acc1,acc2:(acc1[0]+acc2[0],acc1[1]+acc2[1])). \
map(lambda x:(x[0],x[1][0],x[1][0]/float(x[1][1])))
res.repartition(1).saveAsTextFile("file:///home/zhc/mycode/combineresult")

执行如下命令运行该程序：

[root@bigdata mycode]# spark-submit Combine.py 
23/12/17 16:14:25 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

执行后，在“file:///home/zhc/mycode/combineresult”目录下查看part-00000文件。

（三）一个综合实例

题目：给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。

>>> rdd = sc.parallelize([("spark",2),("hadoop",6),("hadoop",4),("spark",6)])
>>> rdd.mapValues(lambda x:(x,1)).\
... reduceByKey(lambda x,y:(x[0]+y[0],x[1]+y[1])).\
... mapValues(lambda x:x[0]/x[1]).collect()
[('hadoop', 5.0), ('spark', 4.0)]

三、数据读写

介绍在RDD编程中如何进行文件数据读写和HBase数据读写。

（一）文件数据读写

1、本地文件系统的数据读写

（1）从文件中读取数据创建RDD

"file:///home/zhc/mycode/word.txt"文件内容如下：

Hadoop is good
Spark is better
Spark is fast

>>> textFile = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> textFile.first()
'Hadoop is good'

因为Spark采用了惰性机制，在执行转换操作的时候，即使输入了错误的语句，spark-shell也不会马上报错（假设word123.txt不存在）。只有当后面继续执行textFile.first()操作时，系统才会报错。

>>> textFile = sc.textFile("file:///home/zhc/mycode/word123.txt")

（2）把RDD写入到文本文件中

>>> textFile = sc.textFile("file:///home/zhc/mycode/word.txt")
>>> textFile.saveAsTextFile("file:///home/zhc/mycode/writeback")

2、分布式文件系统HDFS的数据读写

从分布式文件系统HDFS中读取数据，也是采用textFile()方法，可以为textFile()方法提供一个HDFS文件或目录地址，如果是一个文件地址，它会加载该文件，如果是一个目录地址，它会加载该目录下的所有文件的数据。具体语句如下：

>>> textFile = sc.textFile("hdfs://localhost:9000/user/zhc/word.txt")
>>> textFile.first()

如下三条语句都是等价的：

>>> textFile = sc.textFile("hdfs://localhost:9000/user/zhc/word.txt")
>>> textFile = sc.textFile("/user/zhc/word.txt")
>>> textFile = sc.textFile("word.txt")

同样，可以使用saveAsTextFile()方法把RDD中的数据保存到HDFS文件中，命令如下：

>>> textFile = sc.textFile("word.txt")
>>> textFile.saveAsTextFile("writeback")

（二）读写HBase数据

Hbase的下载安装与配置可以参照博客：

大数据存储技术（3）—— HBase分布式数据库-CSDN博客https://blog.csdn.net/Morse_Chen/article/details/1350362961、创建一个HBase表

因为HBase是伪分布式模式，需要调用HDFS，所以，请首先在终端中输入下面命令启动Hadoop：

[root@bigdata zhc]# start-dfs.sh

然后，执行命令启动HBase：

[root@bigdata zhc]# start-hbase.sh
[root@bigdata zhc]# hbase shell

其次，创建一个student表，在这个表中录入数据。

hbase> create 'student','info'
hbase> put 'student','1','info:name','Xueqian'                                                                                                                                                                      
hbase> put 'student','1','info:gender','F'                                                                                                                                                                        
hbase> put 'student','1','info:age','23'                                                                                                                                                                        
hbase> put 'student','2','info:name','Weiliang'                                                                                                                                                                       
hbase> put 'student','2','info:gender','M'                                                                                                                                                                         
hbase> put 'student','2','info:age','24'

录入结束后，可以执行如下命令查看已经录入的数据：

hbase> get 'student','1'      # 查看第一行数据
hbase> scan 'student'         # 查看全部数据

2、配置Spark

参考博客：三、（三）配置Spark

大数据存储技术（3）—— HBase分布式数据库-CSDN博客https://blog.csdn.net/Morse_Chen/article/details/1350362963、编写程序读取HBase数据

如果要让Spark读取HBase，就需要使用SparkContext提供的newAPIHadoopRDD这个API将表的内容以RDD的形式加载到Spark中。

在“/home/zhc/mycode/RDD/SparkOperateHBase.py”文件中输入：

#/home/zhc/mycode/RDD/SparkOperateHBase.py
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("ReadHBase")
sc = SparkContext(conf = conf)
host = 'localhost'
table = 'student'
conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": table}
keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter"
valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter"
hbase_rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat","org.apache.hadoop.hbase.io.ImmutableBytesWritable","org.apache.hadoop.hbase.client.Result",keyConverter=keyConv,valueConverter=valueConv,conf=conf)
count = hbase_rdd.count()
hbase_rdd.cache()
output = hbase_rdd.collect()
for (k, v) in output:
    print (k, v)

执行该代码，命令如下：

[root@bigdata RDD]# vi SparkOperateHBase.py
[root@bigdata RDD]# spark-submit SparkOperateHBase.py

得到如下结果：

4、编写程序向HBase写入数据

在“/home/zhc/mycode/RDD/SparkWriteHBase.py”文件中输入：

#/home/zhc/mycode/RDD/SparkWriteHBase.py
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("ReadHBase")
sc = SparkContext(conf = conf)
host = 'localhost'
table = 'student'
keyConv = "org.apache.spark.examples.pythonconverters.StringToImmutableBytesWritableConverter"
valueConv = "org.apache.spark.examples.pythonconverters.StringListToPutConverter"
conf = {"hbase.zookeeper.quorum": host,"hbase.mapred.outputtable": table,"mapreduce.outputformat.class": "org.apache.hadoop.hbase.mapreduce.TableOutputFormat","mapreduce.job.output.key.class": "org.apache.hadoop.hbase.io.ImmutableBytesWritable","mapreduce.job.output.value.class": "org.apache.hadoop.io.Writable"}
rawData = ['5,info,name,Rongcheng','5,info,gender,M','5,info,age,26','6,info,name,Guanhua','6,info,gender,M','6,info,age,27']
sc.parallelize(rawData).map(lambda x: (x[0],x.split(','))).saveAsNewAPIHadoopDataset(conf=conf,keyConverter=keyConv,valueConverter=valueConv)

执行该代码，命令如下：

[root@bigdata RDD]# vi SparkWriteHBase.py
[root@bigdata RDD]# spark-submit SparkWriteHBase.py

得到如下结果：

最后友情提醒：使用完HBase和Hadoop后，要先关闭HBase，再关闭Hadoop！

你可能感兴趣的:(Spark编程基础,RDD,spark,分布式,hbase)

【Spring Cloud 10】阿里巴巴分布式服务架构流量控件Sentinel，B站黑马程序员学习笔记 2501_90252715 spring cloud 架构 sentinel
貌似还是他更强一些，不过没关系，加油！所以，今天开启为期一个月的博客疯狂之旅。一、百度百科Sentinel是面向分布式服务架构的高可用流量防护组件，主要以流量为切入点，从限流、流量整形、熔断降级、系统负载保护、热点防护等多个维度来帮助开发者保障微服务的稳定性。Sentinel具有以下特性:丰富的应用场景：Sentinel承接了阿里巴巴近10年的双十一大促流量的核心场景，例如秒杀（即突发流量控制在系
Python 网络爬虫实战：从基础到高级爬取技术一ge科研小菜鸡编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言网络爬虫（WebScraping）是一种自动化技术，利用程序从网页中提取数据，广泛应用于数据采集、搜索引擎、市场分析、舆情监测等领域。本教程将涵盖requests、BeautifulSoup、Selenium、Scrapy等常用工具，并深入探讨反爬机制突破、动态加载页面、模拟登录、多线程/分布式爬取等高级技巧。2.爬虫基础：request
Java 核心与应用：Java 泛型编程星核日记《Java 核心与应用》java python 开发语言
目录Java核心与应用：Java泛型编程引言1.泛型编程基础1.1什么是泛型？1.1.1泛型的使用场景1.1.2类型安全演进史1.2泛型的优势1.2.1泛型与普通代码的对比2.类型擦除与桥接方法2.1类型擦除机制2.1.1类型擦除示例2.2桥接方法2.2.1桥接方法示例3.泛型通配符与PECS原则3.1泛型通配符3.1.1通配符示例3.2PECS原则3.2.1PECS示例4.泛型在反射中的类型获取
Hadoop---(6)Sqoop（数据传输） Mr Cao sqoop 大数据
6.SqoopSqoop是一个用于hadoop数据和结构化数据之间转换的工具。全称SQL-TO-HADOOP.它可以把hadoop数据，包括hive和hbase存储的数据转化为结构化数据也就是数据库的数据，也可以把关系型数据库数据转化为hadoop数据这些转换操作全是通过Hadoop的MapTask来完成的，并不会涉及到Reduce操作。这是因为我们只是进行数据的拷贝，并不会对数据进行处理或者计算
三分钟了解阿里云和腾讯云的DDoS防御策略 jisuyunzzc 云服务器
三分钟了解阿里云和腾讯云的DDoS防御策略DDoS攻击，即分布式拒绝服务(DDoS：DistributedDenialofService)攻击，是一种通过恶意流量导致受害者服务瘫痪的网络攻击行为。中小型网站站长在其父伍奇遭到DDoS攻击时，经常不知所措。其实，如果我们使用的是云服务器，是可以借助云服务器提供的DDoS防御能力来进行防御处理的。例如，针对DDoS攻击，阿里云推出了DDoS黑洞策略，腾
【技海登峰】Kafka漫谈系列（一）Kafka服务集群的核心组件阿阿阿安【独家专栏】知识星球同步专享优质好文 kafka 分布式 java
【技海登峰】Kafka漫谈系列（一）Kafka服务端的核心组件一.Broker完整的Kafka服务是集群Cluster结构，其由多个Kafka服务节点组成，每个物理节点即称为Broker，在实际部署中，每个Broker节点都是一个Kafka实例的服务进程。Broker是Kafka实际的运行单元，负责请求处理、数据同步、存储主题/分区/消费偏移量等元数据信息，多个Broker分布式部署在不同机器上，
你怎么比较MongoDB、CouchDB及CouchBase?思维导图代码示例（java 架构) 用心去追梦 mongodb java 架构
MongoDB、CouchDB和Couchbase是三种流行的NoSQL数据库，它们各自有着独特的设计哲学和技术特点。以下是它们之间的比较，涵盖了架构、数据模型、查询语言、复制机制、扩展性以及其他关键特性。MongoDB、CouchDB及Couchbase比较-思维导图概要您可以创建一个以“MongoDBvs.CouchDBvs.Couchbase”为核心节点的思维导图，并根据以下分类展开：概述简
使用Elasticsearch和SelfQueryRetriever实现智能电影检索 hgSdaegva elasticsearch jenkins 大数据 python
在当今信息爆炸的时代，快速而准确地检索数据变得尤为重要。Elasticsearch是一个强大的分布式搜索和分析引擎，能够高效地处理大量数据。在这篇文章中，我们将结合Elasticsearch和SelfQueryRetriever，展示如何通过语言模型实现智能电影查询。技术背景介绍Elasticsearch提供多租户能力和无模式的JSON文档存储，广泛应用于全文搜索和分析场景。通过将其与语言模型结合
分布式应用集成框架 cissyring Application Integration 分布式应用框架
http://blog.csdn.net/cissyring/gallery/image/44775.aspx
web3.0入门及学习路径吗喽一只 web3 学习
Web3是指下一代互联网的演进形式，它涉及一系列技术和理念，旨在实现去中心化、开放、透明和用户主导的互联网体验。Web3的目标是赋予用户更多的控制权和数据所有权，并通过区块链、加密货币和分布式技术来实现。一、特点去中心化：Web3建立在区块链技术之上，通过使用分布式网络去除传统互联网中的中心化权威机构，实现数据和应用的去中心化。这种结构提高了安全性，减少了单点故障的风险，并增加了抗审查性。加密货币
Java与Kafka：消息队列使用指南墨瑾轩一起学学Java【一】java kafka linq
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好呀！今天我们要来聊聊如何使用Java语言与ApacheKafka搭建消息队列系统。Kafka是一款分布式流处理平台，它能够高效地处理大量实时数据。无论是构建实时数据分析系统还是简单的消息队列应用，Kafka都能胜任。那么，我们就开始吧！什么是Kafka？
5G承载网中的前传、中传与回传杂化轨道VSEPR 5G通信技术 5g
从4G到5G，承载网的成分也发生了变化4G的承载网主要由BBU、RRU、馈线与天线系统共同组成，到了5G这里接入网被重新分为三个实体，分别是CU、DU，与AAU。CU：集成式的处理单元DU：分布式的处理单元AAU：ActiveAntennaUnit有源天线单元AAU属于前传的部分，分散在各地的AAU通过离自己最近的DU,然后许多个DU再将自己的数据发送给自己区域的CU，通过CU将数据注入核心网里面
PCB行业龙头企业*IoTDB | 利用 IoTDB 替换HBase，打破查询功能局限性 Apache IoTDB 用户案例数据库大数据人工智能数据分析 java
某PCB行业国内龙头上市企业主营印制线路板(PCB)生产、加工业务。其中，时序数据主要产生于生产设备采集的运行参数（温度、压力等）和检验设备采集的产品批次信息。在原有解决方案存在局限性的情况下，基于IoTDB时序数据库的特点和优势，该公司选择使用IoTDB作为其生产与质量分析系统的时序数据处理方案。使用此方案将有效提高存储与查询维度的性能。1业务需求痛点1.1查询无法支持SQL语言时序数据的查询功
hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
Kafka 监控及使用 JMX 进行远程监控的安全注意事项流华追梦 Kafka kafka Kafka监控 kafkamonitoring kafka使用jmx jmx远程监控 messageinrate requestrate
目录一.前言二.Kafka监控（KafkaMonitoring）2.1.概览2.2.使用JMX进行远程监控的安全注意事项一.前言众所周知，Kafka的集中式设计具有很强的耐用性和容错性。此外，由于Kafka是一个分布式系统，因此Topic在多个节点之间进行分区和复制。此外，Kafka可以成为数据集成的极具吸引力的选择，具有有意义的性能监控和对问题的及时警报。基本上，当对Kafka问题进行故障排除时
分布式数据库应用实践：架构设计与性能优化一ge科研小菜鸡大数据数据库数据库
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言在当今数据驱动的世界中，分布式数据库因其高可用性、可扩展性和强大的容错能力，已成为现代企业存储和管理数据的首选方案。它能够在多台服务器之间分散数据存储和处理任务，从而解决传统集中式数据库在处理大规模数据和高并发访问时的瓶颈问题。本教程旨在详细探讨分布式数据库的核心概念、架构设计以及在实际项目中的应用，并通过具体的案例与代码，帮助开发者掌握分布
面试之Solr&Elasticsearch 字节全栈_vBr 面试 solr elasticsearch
优点：1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Pushreplication”。2.Elasticsearch完全支持ApacheLucene的接近实时的搜索。3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。4.Elasticsearch采用Gateway的概念，使得完备份更加简单。5.各节点组成对等的网络结构，某些
向量语义（Vector Semantics）与表征学习（Representation Learning）详解苏西月学习人工智能
1.向量语义（VectorSemantics）与词嵌入（WordEmbeddings）向量语义的核心思想是用数学向量来表示单词的意义。传统的NLP方法（如基于规则的语言模型）需要人为定义单词的语义规则，而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。关键词：词向量（WordRepresentations）：单词被表示为一个多维向量，每个维度对应于该单词的某种语义特征。分布式表示（D
Java 大视界 -- Java 与 Spark SQL：结构化数据处理与查询优化（五）青云交大数据新视界 Java 大视界 Spark SQL 结构化数据查询优化数据分区缓存策略日志分析电商数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
HDFS分布式文件系统3-2 shell定期采集数据到HDFS 诺特兰德 hdfs hadoop 大数据
1、准备工作创建目录：/export/data/logs/log/export/data/logs/toupload2、在/export/data/logs目录下创建upload2HDFS.sh内容如下：#!/bin/bashexportJAVA_HOME=/export/servers/jdkexportJRE_HOME=$JAVA_HOME/jreexportCLASSPATH=.:JAVA_
Kafka 之详解(Detailed Explanation of Kafka） Linux运维老纪奋力拼搏让企业网站更好 kafka 分布式
一、Kafka简介ApacheKafka是一款分布式发布-订阅消息系统，由LinkedIn公司在2010年贡献给Apache基金会，并成为顶级开源项目。它有着独特的定位与特点，是一种快速、可扩展，且内在设计就是分布式、分区的以及可复制的提交日志服务。需要注意的是，Kafka并未遵循JMS规范，仅提供发布和订阅这一通讯方式。其官方中文网站为http://kafka.apachecn.org/quic
集群部署时的分布式 Session 如何实现？码农小旋风后端
面试题集群部署时的分布式Session如何实现？面试官心理分析面试官问了你一堆Dubbo是怎么玩儿的，你会玩儿Dubbo就可以把单块系统弄成分布式系统，然后分布式之后接踵而来的就是一堆问题，最大的问题就是分布式事务、接口幂等性、分布式锁，还有最后一个就是分布式Session。当然了，分布式系统中的问题何止这么一点，非常之多，复杂度很高，这里只是说一下常见的几个问题，也是面试的时候常问的几个。面试题
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
分布式微服务系统架构第89集：kafka消费者掘金-我是哪吒分布式微服务系统架构 kafka 架构
那么消费者是如何提交偏移量的呢？消费者往一个叫作_consumer_offset的特殊主题发送消息，消息里包含每个分区的偏移量。如果消费者一直处于运行状态，那么偏移量就没有什么用处。不过，如果消费者发生崩溃或者有新的消费者加入群组，就会触发再均衡，完成再均衡之后，每个消费者可能分配到新的分区，而不是之前处理的那个。为了能够继续之前的工作，消费者需要读取每个分区最后一次提交的偏移量，然后从偏移量指定
什么是SpringCloud框架?Spring Boot框架和传统Spring框架相比有哪些优势? 是一只萨摩耶 Java spring cloud spring spring boot java 后端
SpringCloud是一系列框架的有序集合，它利用SpringBoot的开发便利性简化了分布式系统的开发，比如服务发现.服务网关.服务路由.链路追踪等。其设计目的是为了简化Spring应用的搭建和开发过程。该框架遵循“约定大于配置”原则，采用特定的方式进行配置，从而使开发者无需定义大量的XML配置。通过这种方式，SpringBoot致力于在蓬勃发展的快速应用开发领域成为领导者。SpringClo
微服务02：如何解决或者说降低架构复杂度？爆炸糖_Alex 微服务架构微服务云原生
1.什么是CAPCAP定理，也被称为Brewer定理，是分布式计算中的一个重要概念。它由计算机科学家EricBrewer于2000年提出，并由SethGilbert和NancyLynch于2002年正式证明。CAP定理强调了分布式系统中三个关键属性之间的固有权衡，这三个属性分别是：一致性（Consistency）可用性（Availability）分区容忍性（PartitionTolerance）以
如何使用Spark Streaming 会探索的小学生 spark 大数据分布式
一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_2.112.1.2三、什么叫DStreamDStream：DiscretizedStream离散流，这是SparkStreaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在S
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
XXL-JOB v2.4.2 发布 | 分布式任务调度平台
ReleaseNotes1、【优化】调度中心任务Next计算逻辑调整，避免Cron解析失败导致重复执行问题。2、【优化】Cron解析组件代码重构微调，健壮性提升；3、【优化】修改密码交互调整，避免CSRF隐患；4、【优化】JdkSerializeTool流关闭逻辑优化；5、【优化】任务信息、执行日志API非功能设计完善，避免越权隐患；6、【修复】漏洞修复，包括"CVE-2024-42681"子任务
4 Spark Streaming TTXS123456789ABC #Spark spark ajax 大数据
4SparkStreaming一级目录1.整体流程2.数据抽象3.DStream相关操作4.SparkStreaming完成实时需求1)WordCount2)updateStateByKey3)reduceByKeyAndWindow一级目录SparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。S
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro