飄落

Spark实现流式实时日志分析系统

实验介绍

我们知道对于一个网站的用户访问流量是不间断的，基于网站的访问日志，即WEB LOG的分析是经典的流式实时计算应用场景。比如百度统计，它可以做流量分析、来源分析、网站分析、转化分析。另外还有特定场景分析，比如安全分析，用来识别 CC 攻击、 SQL 注入分析、脱库等。这里我们简单实现一个类似于百度分析的系统。

课程来源

这里的课程来自于【实验楼课程】：流式实时日志分析系统——《Spark 最佳实践》。课程内容基于图灵教育的《Spark最佳实践》第六章制作。如需系统的学习本书，请参考书籍内容《Spark 最佳实践》。

这里的Spark实践内容，是参考自上述实验楼内容进行，以分析学习为目的。并通过自己本机的实验环境，重新分析运行该系统的实现方法。如本机无Spark等运行环境，可以直接到上述实验楼课程中进行在线实验。

实验知识点

Python模拟生成Nginx日志
Spark Streaming编程

服务器访问日志分析方法

实验环境

Spark 1.6.2（单机本地）
Python 2.7.13
CentOS虚拟机（VMware Workstation）

实验原理

百度统计（tongji.baidu.com）是百度推出的一款免费的专业网站流量分析工具，能够告诉用户访客是如何找到并浏览用户的网站的，以及在网站上浏览了哪些页面。这些信息可以帮助用户改善访客在其网站上的使用体验，不断提升网站的投资回报率。

百度统计提供了几十种图形化报告，包括：趋势分析、来源分析、页面分析、访客分析、定制分析等多种统计分析服务。

这里我们参考百度统计的功能，基于 Spark Streaming 简单实现一个分析系统，使之包括以下分析功能。

流量分析。一段时间内用户网站的流量变化趋势，针对不同的 IP 对用户网站的流量进行细分。常见指标是总 PV 和各 IP 的PV。
来源分析。各种搜索引擎来源给用户网站带来的流量情况，需要精确到具体搜索引擎、具体关键词。通过来源分析，用户可以及时了解哪种类型的来源为其带来了更多访客。常见指标是搜索引擎、关键词和终端类型的 PV 。
网站分析。各个页面的访问情况，包括及时了解哪些页面最吸引访客以及哪些页面最容易导致访客流失，从而帮助用户更有针对性地改善网站质量。常见指标是各页面的 PV 。

日志实时采集方案

Web log 一般在 HTTP 服务器收集，比如 Nginx access 日志文件。一个典型的方案是 Nginx 日志文件 + Flume + Kafka + Spark Streaming，如下所述：

接收服务器用 Nginx ，根据负载可以部署多台，数据落地至本地日志文件；
每个 Nginx 节点上部署 Flume ，使用 tail -f 实时读取 Nginx 日志，发送至 KafKa 集群；
专用的 Kafka 集群用户连接实时日志与 Spark 集群，详细配置可以参考 http://spark.apache.org/docs/1.4.1/streaming-kafka-integration.html ；
Spark Streaming 程序实时消费 Kafka 集群上的数据，实时分析，输出；
结果写入 MySQL 数据库。

当然，还可以进一步优化，比如 CGI 程序直接发日志消息到 Kafka ，节省了写访问日志的磁盘开销。这里主要专注 Spark Streaming 的应用，所以我们不做详细论述。

流式分析系统实现

这里简单模拟数据收集的发送的环节，使用python脚本模拟生成Nginx访问日志，并通过脚本的方式自动那个上传至HDFS，然后移动至指定的目录。Sprak Streaming程序监控HDFS目录，自动处理新的文件。

如下内容为系统实现的分析内容，具体的实验操作步骤见本文的后半部分，如果需要直接进行实验，可以之间查看操作步骤部分内容。

生成Nginx日志的python代码如下，创建文件夹并将保存为文件sample_web_log.py:

cd /home/yitian

mkdir shiyanlou

vim sample_web_log.py

sample_web_log.py内容为：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import random

import time

class WebLogGeneration(object):

# 类属性，由所有类的对象共享

site_url_base = "http://www.xxx.com/"

# 基本构造函数

def __init__(self):

#  前面7条是IE,所以大概浏览器类型70%为IE ，接入类型上，20%为移动设备，分别是7和8条,5% 为空

# https://github.com/mssola/user_agent/blob/master/all_test.go

self.user_agent_dist = {0.0:"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)",

0.1:"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)",

0.2:"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727)",

0.3:"Mozilla/4.0 (compatible; MSIE6.0; Windows NT 5.0; .NET CLR 1.1.4322)",

0.4:"Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko",

0.5:"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0",

0.6:"Mozilla/4.0 (compatible; MSIE6.0; Windows NT 5.0; .NET CLR 1.1.4322)",

0.7:

"Mozilla/5.0 (iPhone; CPU iPhone OS 7_0_3 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11B511 Safari/9537.53"

,

0.8:

"Mozilla/5.0 (Linux; Android 4.2.1; Galaxy Nexus Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Mobile Safari/535.19"

,

0.9:

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"

,

1:" ",}

self.ip_slice_list = [10, 29, 30, 46, 55, 63, 72, 87, 98,132,156,124,167,143,187,168,190,201,202,214,215,222]

self.url_path_list =["login.php","view.php","list.php","upload.php","admin/login.php","edit.php","index.html"]

self.http_refer = [ "http://www.baidu.com/s?wd={query}","http://www.google.cn/search?q={query}","http://www.sogou.com/web?query={query}","http://one.cn.yahoo.com/s?p={query}","http://cn.bing.com/search?q={query}"]

self.search_keyword = ["spark","hadoop","hive","spark mlib","spark sql"]

def sample_ip(self):

slice = random.sample(self.ip_slice_list, 4) #从ip_slice_list中随机获取4个元素，作为一个片断返回

return ".".join([str(item) for item in slice]) # todo

def sample_url(self):

return random.sample(self.url_path_list,1)[0]

def sample_user_agent(self):

dist_uppon = random.uniform(0, 1)

return self.user_agent_dist[float('%0.1f' % dist_uppon)]

# 主要搜索引擎referrer参数

def sample_refer(self):

if random.uniform(0, 1) > 0.2: # 只有20% 流量有refer

return "-"

refer_str=random.sample(self.http_refer,1)

query_str=random.sample(self.search_keyword,1)

return refer_str[0].format(query=query_str[0])

def sample_one_log(self,count = 3):

time_str = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime())

while count >1:

query_log = "{ip} - - [{local_time}] \"GET /{url} HTTP/1.1\" 200 0 \"{refer}\" \"{user_agent}\" \"-\"".format(ip=self.sample_ip(),local_time=time_str,url=self.sample_url(),refer=self.sample_refer(),user_agent=self.sample_user_agent())

print query_log

count = count -1

if __name__ == "__main__":

web_log_gene = WebLogGeneration()

#while True:

# time.sleep(random.uniform(0, 3))

web_log_gene.sample_one_log(random.uniform(10, 100))

该项目文件下载地址：http://pan.baidu.com/s/1c2EQMHU

如下是一条日志文件的示例，为一行的形式，各个字段用空格分隔，字符串类型的值用双引号包围：

46.202.124.63 - - [2015-11-26 09:54:27] "GET /view.php HTTP/1.1" 200 0 "http://www.google.cn/search?q=hadoop" "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)" "-"

然后需要一个简单的脚本来调用上面的python脚本运行，以生成模拟日志，上传至HDFS（在后面的操作步骤的示例中，没有将生成的日志文件上传至HDFS中，而是保持至本地文件夹内），然后移动到指定的目标目录：

#!/bin/bash

# HDFS命令

HDFS="/usr/local/myhadoop/hadoop-2.6.0/bin/hadoop fs"

# Streaming程序监听的目录，注意跟后面Streaming程序的配置要保持一致

streaming_dir=”/spark/streaming”

# 清空旧数据

$HDFS -rm "${streaming_dir}"'/tmp/*' > /dev/null 2>&1

$HDFS -rm "${streaming_dir}"'/*' > /dev/null 2>&1

# 一直运行

while [ 1 ]; do

./sample_web_log.py > test.log

# 给日志文件加上时间戳，避免重名

tmplog="access.`date +'%s'`.log"

# 先放在临时目录，再move至Streaming程序监控的目录下，确保原子性

# 临时目录用的是监控目录的子目录，因为子目录不会被监控

$HDFS -put test.log ${streaming_dir}/tmp/$tmplog

$HDFS -mv ${streaming_dir}/tmp/$tmplog ${streaming_dir}/

echo "`date +"%F %T"` put $tmplog to HDFS succeed"

sleep 1

done

Spark Streaming程序代码如下所示（Scala实现），可以在Spark运行环境配置完成后的bin/spark-shell交互式命令环境下运行。如果要以Spark程序的方式运行，可以按照下面代码注解中的说明，调整一下SitreamingContext的创建方式即可。（Spark运行环境配置可参见另外的文章：[Spark] Linux(CentOS)下搭建Spark运行环境）

启动bin/spark-shell时，为了避免因DEBUG日志信息太多而影响观察输出，可以将Debug日志重定向至文件，屏幕上只显示主要输出，方法是：./bing/spark-shell 2>spark-shell-debug.log（还要一种方式，可以更改spark使用的默认日志配置文件log4j.properties中的日志显示级别，具体见：）

// 导入类

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

// 设计计算的周期，单位秒

val batch = 10

/*

* 这是bin/spark-shell交互式模式下创建StreamingContext的方法

* 非交互式请使用下面的方法来创建

*/

val ssc = new StreamingContext(sc, Seconds(batch))

/*

// 非交互式下创建StreamingContext的方法

val conf = new SparkConf().setAppName("NginxAnay")

val ssc = new StreamingContext(conf, Seconds(batch))

*/

/*

* 创建输入DStream，是文本文件目录类型

* 本地模式下也可以使用本地文件系统的目录，比如 file:///home/spark/streaming

*/

val lines = ssc.textFileStream("hdfs:///spark/streaming")

/*

* 下面是统计各项指标，调试时可以只进行部分统计，方便观察结果

*/

// 1. 总PV

lines.count().print()

// 2. 各IP的PV，按PV倒序

// 空格分隔的第一个字段就是IP

lines.map(line => {(line.split(" ")(0), 1)}).reduceByKey(_ + _).transform(rdd => {

rdd.map(ip_pv => (ip_pv._2, ip_pv._1)).

sortByKey(false).

map(ip_pv => (ip_pv._2, ip_pv._1))

}).print()

// 3. 搜索引擎PV

val refer = lines.map(_.split("\"")(3))

// 先输出搜索引擎和查询关键词，避免统计搜索关键词时重复计算

// 输出(host, query_keys)

val searchEnginInfo = refer.map(r => {

val f = r.split('/')

val searchEngines = Map(

"www.google.cn" -> "q",

"www.yahoo.com" -> "p",

"cn.bing.com" -> "q",

"www.baidu.com" -> "wd",

"www.sogou.com" -> "query"

)

if (f.length > 2) {

val host = f(2)

if (searchEngines.contains(host)) {

val query = r.split('?')(1)

if (query.length > 0) {

val arr_search_q = query.split('&').filter(_.indexOf(searchEngines(host)+"=") == 0)

if (arr_search_q.length > 0)

(host, arr_search_q(0).split('=')(1))

else

(host, "")

} else {

(host, "")

}

} else

("", "")

} else

("", "")

})

// 输出搜索引擎PV

searchEnginInfo.filter(_._1.length > 0).map(p => {(p._1, 1)}).reduceByKey(_ + _).print()

// 4. 关键词PV

searchEnginInfo.filter(_._2.length > 0).map(p => {(p._2, 1)}).reduceByKey(_ + _).print()

// 5. 终端类型PV

lines.map(_.split("\"")(5)).map(agent => {

val types = Seq("iPhone", "Android")

var r = "Default"

for (t <- types) {

if (agent.indexOf(t) != -1)

r = t

}

(r, 1)

}).reduceByKey(_ + _).print()

// 6. 各页面PV

lines.map(line => {(line.split("\"")(1).split(" ")(1), 1)}).reduceByKey(_ + _).print()

// 启动计算,等待执行结束（出错或Ctrl-C退出）

ssc.start()

ssc.awaitTermination()

按照之后的操作步骤所示的内容，打开两个linux命令行界面，一个调用上面的bash脚本模拟提交日志，一个在交互式环境下运行上面Spark Streaming程序代码命令。可以在显示界面中看到如下输出信息，比如某个批次下的输出为（依次对应Streaming文件中的6个计算项），这里对输出结果进行说明：

1. 网站总PV：

-------------------------------------------

Time: 1448533850000 ms

-------------------------------------------

44374

2. 访问网站的各来源IP的PV，按PV倒序输出：

-------------------------------------------

Time: 1448533850000 ms

-------------------------------------------

(72.63.87.30,30)

(63.72.46.55,30)

(98.30.63.10,29)

(72.55.63.46,29)

(63.29.10.30,29)

(29.30.63.46,29)

(55.10.98.87,27)

(46.29.98.30,27)

(72.46.63.30,27)

(87.29.55.10,26)

3. 网站搜索引擎来源PV

-------------------------------------------

Time: 1448533850000 ms

-------------------------------------------

(cn.bing.com,1745)

(www.baidu.com,1773)

(www.google.cn,1793)

(www.sogou.com,1845)

4. 关键词PV

-------------------------------------------

Time: 1448533850000 ms

-------------------------------------------

(spark,1426)

(hadoop,1455)

(spark sql,1429)

(spark mlib,1426)

(hive,1420)

5. 终端类型PV

-------------------------------------------

Time: 1448533850000 ms

-------------------------------------------

(Android,4281)

(Default,35745)

(iPhone,4348)

6. 各页面PV

-------------------------------------------

Time: 1448533850000 ms

-------------------------------------------

(/edit.php,6435)

(/admin/login.php,6271)

(/login.php,6320)

(/upload.php,6278)

(/list.php,6411)

(/index.html,6309)

(/view.php,6350)

更好的数据处理方法

查看数据最直观的做法是用图形来展示，常见的做法是将Spark对日志的处理结果写入外部DB，然后通过一些图形化的报表或图形展示系统展示出来。比如对于终端类型，就可以使用饼状图展示出来。

多周期统计

除了常规的每个固定周期进行一次统计，我们还可以对连续多个周期的数据进行统计。以统计总 PV 为例，上面的示例是每 10 秒统计一次，可能还需要每分钟统计一次，相当于 6 个 10 秒的周期。我们可以利用窗口方法实现，不同的代码如下：

// 窗口方法必须配置checkpint，可以这样配置：

ssc.checkpoint("hdfs:///spark/checkpoint")

// 这是常规每10秒一个周期的PV统计

lines.count().print()

// 这是每分钟（连续多个周期）一次的PV统计

lines.countByWindow(Seconds(batch*6), Seconds(batch*6)).print()

使用相同的方式运行程序之后，我们首先会看到连续6次10秒周期的PV统计输出：

-------------------------------------------

Time: 1448535090000 ms

-------------------------------------------

1101

-------------------------------------------

Time: 1448535100000 ms

-------------------------------------------

816

-------------------------------------------

Time: 1448535110000 ms

-------------------------------------------

892

-------------------------------------------

Time: 1448535120000 ms

-------------------------------------------

708

-------------------------------------------

Time: 1448535130000 ms

-------------------------------------------

881

-------------------------------------------

Time: 1448535140000 ms

-------------------------------------------

872

在这之后，有一个1分钟周期的PV统计输出，它的值刚好是上面6次计算结果的总和：

Time: 1448535140000 ms

-------------------------------------------

5270

实验具体步骤

1. 准备日志生成代码

将上述用于生成模拟日志的代码保存至sample_web_log.py文件中：

cd /home/yitian

mkdir shiyanlou

vim sample_web_log.py

文件内容，就如同上面sample_web_log.py文件内容。保存并退出。

修改代码执行权限

运行如下命令，为日志生成文件添加执行权限：

chmod +x sample_web_log.py

晚上上述步骤，后面就可以使用bash命令调用该文件代码，生成日志文件了。

2. 启动Spark Shell

接下来，进入Spark安装目录，启动Spark Shell：

spark-shell 2>spark-shell-debug.log

运行成功后，界面如下：

[root@localhost conf]# spark-shell 2>spark-shell-debug.log

Welcome to

____ __

/ __/__ ___ _____/ /__

_\ \/ _ \/ _ `/ __/ '_/

/___/ .__/\_,_/_/ /_/\_\ version 1.6.2

/_/

Using Scala version 2.10.5 (Java HotSpot(TM) Client VM, Java 1.8.0_144)

Type in expressions to have them evaluated.

Type :help for more information.

Spark context available as sc.

SQL context available as sqlContext.

scala>

重要说明：成功启动Spark Shell后，不要关闭运行Spark Shell的终端，之后的其他命令操作需要在新打开的终端中执行。

3. 创建日志保存目录

在稍后的步骤中，会将Python脚本生成的日志保存到本地的文件中。因此需要首先为保存的日志文件创建一个空目录。在 /home/yitian/shiyanlou 目录下新建 streaming 目录，并增设 tmp 临时文件夹。

[yitian@localhost shiyanlou]$ mkdir /home/yitian/shiyanlou/streaming

[yitian@localhost shiyanlou]$ mkdir /home/yitian/shiyanlou/streaming/tmp

4. 使用BASH脚本生成日志

这里没有使用上面提到的日志生成脚本的调用代码（日志生成后上传至HDFS），而是将日志生成之后保存在本地，因此在/home/yitian/shiyanlou目录下，创建如下bash脚本运行文件genLog.sh：

#!/bin/bash

while [ 1 ]; do

./sample_web_log.py > test.log

tmplog="access.`date +'%s'`.log"

cp test.log streaming/tmp/$tmplog

mv streaming/tmp/$tmplog streaming/

echo "`date +"%F %T"` generating $tmplog succeed"

sleep 1

done

编辑完成后，保存退出vim编辑器，同时需要修改该脚本文件的执行权限：

chmod +x genLog.sh

5. 在Sprak Shell中运行Spark Streaming命令进行日志分析

在Spark Shell交互命令界面中，分段输入如下代码，监控日志输出目录并自动调用日志文件进行日志分析。

首先是引用相关的包。由于我们使用的是 Spark Shell（即以交互式模式进行编程），在它启动的过程中就已经创建了 SparkContext 对象 sc，因此我们可以直接使用 sc 对象。

导入 Streaming 的相关类：

scala> import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.{Seconds, StreamingContext}

设置计算的周期为10秒：

scala> val batch = 10

batch: Int = 10

在Spark Shell中创建StreamingContext对象：

scala> val ssc = new StreamingContext(sc, Seconds(batch))

ssc: org.apache.spark.streaming.StreamingContext = org.apache.spark.streaming.StreamingContext@1485e82

创建输入DStream，是文本文件目录类型。这里使用本地文件系统中的目录，即之前创建的/home/yitian/shiyanlou/streaming 目录：

scala> val lines = ssc.textFileStream("file:///home/yitian/shiyanlou/streaming")

lines: org.apache.spark.streaming.dstream.DStream[String] = org.apache.spark.streaming.dstream.MappedDStream@a43556

接下来就可以统计各项网站访问的指标：

首先是总的PV：

scala> lines.count().print()

其次是各IP的PV，按PV倒序排列，空格分隔的第一个字段就是IP：

scala> lines.map(line => {(line.split(" ")(0), 1)}).reduceByKey(_ + _).transform(rdd => {

| rdd.map(ip_pv => (ip_pv._2, ip_pv._1)).

| sortByKey(false).

| map(ip_pv => (ip_pv._2, ip_pv._1))

| }).print()

第三是搜索引擎的PV：

scala> val searchEnginInfo = refer.map(r => {

|

| val f = r.split('/')

|

| val searchEngines = Map(

| "www.google.cn" -> "q",

| "www.yahoo.com" -> "p",

| "cn.bing.com" -> "q",

| "www.baidu.com" -> "wd",

| "www.sogou.com" -> "query"

| )

|

| if (f.length > 2) {

| val host = f(2)

|

| if (searchEngines.contains(host)) {

| val query = r.split('?')(1)

| if (query.length > 0) {

| val arr_search_q = query.split('&').filter(_.indexOf(searchEngines(host)+"=") == 0)

| if (arr_search_q.length > 0)

| (host, arr_search_q(0).split('=')(1))

| else

| (host, "")

| } else {

| (host, "")

| }

| } else

| ("", "")

| } else

| ("", "")

|

| })

searchEnginInfo: org.apache.spark.streaming.dstream.DStream[(String, String)] = org.apache.spark.streaming.dstream.MappedDStream@16d5c70

scala> searchEnginInfo.filter(_._1.length > 0).map(p => {(p._1, 1)}).reduceByKey(_ + _).print()

第四是关键词的PV：

scala> searchEnginInfo.filter(_._2.length > 0).map(p => {(p._2, 1)}).reduceByKey(_ + _).print()

第五是终端类型的PV：

scala> lines.map(_.split("\"")(5)).map(agent => {

| val types = Seq("iPhone", "Android")

| var r = "Default"

| for (t <- types) {

| if (agent.indexOf(t) != -1)

| r = t

| }

| (r, 1)

| }).reduceByKey(_ + _).print()

最后是各个页面的PV：

scala> lines.map(line => {(line.split("\"")(1).split(" ")(1), 1)}).reduceByKey(_ + _).print()

各项统计指标设置好之后，就可以启动计算，等待执行结束：

scala> ssc.start()

scala> ssc.awaitTermination()

如果需要结束计算过程，可以按下 Ctrl + C 键。

6. 开始生成日志并查看结果

先不要关闭运行着 Spark Streaming 的终端，回到之前创建 genLog.sh 文件的终端里（或者新打开一个），运行 genLog.sh 脚本。

[root@localhost shiyanlou]# ./genLog.sh

2017-09-01 02:40:21 generating access.1504258821.log succeed

2017-09-01 02:40:22 generating access.1504258822.log succeed

2017-09-01 02:40:23 generating access.1504258823.log succeed

2017-09-01 02:40:24 generating access.1504258824.log succeed

2017-09-01 02:40:25 generating access.1504258825.log succeed

2017-09-01 02:40:26 generating access.1504258826.log succeed

在 Spark Streaming 的终端内，就可以看到输出的分析结果了:

Time: 1504258860000 ms

-------------------------------------------

(143.222.168.29,1)

(55.168.87.156,1)

(187.215.132.63,1)

(190.132.167.29,1)

(46.72.10.143,1)

(143.215.55.46,1)

(29.201.124.63,1)

(201.202.156.187,1)

(87.156.72.46,1)

(124.46.143.168,1)

...

-------------------------------------------

Time: 1504258860000 ms

-------------------------------------------

(cn.bing.com,28)

(www.google.cn,15)

(www.sogou.com,13)

(www.baidu.com,24)

-------------------------------------------

Time: 1504258860000 ms

-------------------------------------------

(spark,15)

(hive,12)

(hadoop,13)

(spark mlib,13)

(spark sql,27)

-------------------------------------------

Time: 1504258860000 ms

-------------------------------------------

(iPhone,45)

(Default,372)

(Android,41)

-------------------------------------------

Time: 1504258860000 ms

-------------------------------------------

(/admin/login.php,67)

(/upload.php,63)

(/index.html,74)

(/view.php,62)

(/login.php,70)

(/edit.php,76)

(/list.php,46)

-------------------------------------------

Time: 1504258870000 ms

-------------------------------------------

471

观察完毕，请通过 Ctrl + C 关闭日志生成的进程和 Spark Streaming 的进程。实验完成！

Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
Protected multilib versions XXX 超级侠哥 Hadoop大数据相关 Protected multilib versions XX
今天在安装Ambari软件时，碰到Protectedmultilibversions:libtirpc-0.2.4-0.15.el7.i686!=libtirpc-0.2.4-0.15.el7.i86_64报错。通过分析问题是由于yum中libtripc存在多个不同版本导致。网上对该问题的解决办法较多的是在yum软件安装命令后面添加--setopt=protected_multilib=false
Spark基本概念 javafanwk Spark 大数据 spark 架构大数据
Spark核心组件Driver将用户程序转化为作业（job）在Executor之间调度任务(task)跟踪Executor的执行情况通过UI展示查询运行情况ExecutorSparkExecutor是集群中工作节点（Worker）中的一个JVM进程，负责在Spark作业中运行具体任务（Task），任务彼此之间相互独立。负责运行组成Spark应用的任务，并将结果返回给驱动器进程它们通过自身的块管理器
Spark 基本概念 Buutoorr spark 大数据分布式 scala
#官网部分解释ClusterModeOverview-Spark3.3.0DocumentationApplication：指的是用户编写的Spark应用程序/代码,一个完整的main方法程序，包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码,如main方法中有WordCount代码有哪些命令会产生一个Applicationspark/bin/pyspark【输入exi
Spark基础【RDD依赖关系--源码解析】 OneTenTwo76 Spark spark scala 大数据
文章目录一RDD依赖关系1RDD血缘关系2RDD依赖关系3RDD阶段划分4RDD任务划分一RDD依赖关系1RDD血缘关系相邻两个RDD之间的关系，称之为依赖关系，多个连续的依赖关系称之为血缘关系RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
linux的apache安装,Apache Kylin | 安装指南姜白的树洞 linux的apache安装
软件要求Hadoop:2.7+,3.1+(sincev2.5)Hive:0.13-1.2.1+HBase:1.1+,2.0(sincev2.5)Spark(可选)2.3.0+Kafka(可选)1.0.0+(sincev2.5)JDK:1.8+(sincev2.5)OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+在HortonworksHDP2.2-2.6and3.0,C
kylin linux 安装教程,Apache Kylin | 安装指南社本 kylin linux 安装教程
软件要求Hadoop:2.7+Hive:0.13-1.2.1+HBase:1.1+Spark2.1.1+JDK:1.7+OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+用HortonworksHDP2.2-2.6,ClouderaCDH5.7-5.11,AWSEMR5.7-5.10,AzureHDInsight3.5-3.6进行测试。出于试用和开发的目的，我们建议您使用
Java 大视界 -- Java 与 Spark SQL：结构化数据处理与查询优化（五）青云交大数据新视界 Java 大视界 Spark SQL 结构化数据查询优化数据分区缓存策略日志分析电商数据分析 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
如何使用Spark Streaming 会探索的小学生 spark 大数据分布式
一、什么叫SparkStreaming基于SparkCore，大规模、高吞吐量、容错的实时数据流的处理二、SparkStreaming依赖org.apache.sparkspark-streaming_2.112.1.2三、什么叫DStreamDStream：DiscretizedStream离散流，这是SparkStreaming对内部持续的实时数据流的抽象描述，即我们处理的一个实时数据流，在S
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
4 Spark Streaming TTXS123456789ABC #Spark spark ajax 大数据
4SparkStreaming一级目录1.整体流程2.数据抽象3.DStream相关操作4.SparkStreaming完成实时需求1)WordCount2)updateStateByKey3)reduceByKeyAndWindow一级目录SparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。S
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
spark streaming python_Spark入门：Spark Streaming简介(Python版) weixin_39531582 spark streaming python
SparkStreaming是构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。SparkStreaming可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景。SparkStreaming设计SparkStreaming是Spark的核心组件之一，为Spark提供了可拓展、高吞吐、容错的流计算能力。如下图所示，SparkStreaming可整
Spark 学习-1 (python) 一二三四0123 spark 学习 python
Spark官方文档快速入门指南Spark架构-Spark教程1.基本概念RDD（resilientdistributeddataset）弹性分布式数据集，对分布式数据和计算的基本抽象。每个Spark应用由一个驱动器程序（driverprogram）发起集群上的并行操作，驱动器程序一般要管理多个执行器（executor）节点。当我们在集群上执行一个操作，不同的节点会对文件不同部分展开计算。驱动器程序
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
Spark入门（Python） nfenghklibra python spark
目录一、安装Spark二、Spark基本操作一、安装Sparkpip3installpyspark二、Spark基本操作#导入spark的SparkContext,SparkConf模块frompysparkimportSparkContext,SparkConf#导入os模块importos#设置PYSPARK的python环境os.environ['PYSPARK_PYTHON']="C:\\
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
PyDeequ库在AWS EMR启动集群中数据质量检查功能的配置方法和实现代码 weixin_30777913 python spark 大数据云计算 aws
PyDeequ是一个基于ApacheSpark的PythonAPI，专门用于定义和执行“数据单元测试”，从而在大规模数据集中测量数据质量。PyDeequ框架在PySpark代码中提供了全面的数据质量检查功能，能够帮助用户&有效地监控和提升大规模数据集的数据质量。它在PySpark代码中的数据质量检查功能主要包括以下几个方面：核心组件指标计算（MetricsComputation）：利用分析器（An
ambari-server页面错位问题解决王木头 ambari hadoop 大数据
背景：项目新安装的ambari集群页面错位如下解决办法（临时）：修改ambari-server的前端文件：/usr/lib/ambari-server/web/javascripts/app.js原代码：initNavigationBar:function(){if(App.get('router.mainController.isClusterDataLoaded')){$('body').on
spark 算子例子_Spark性能调优方法不让爱你的人失望 spark 算子例子
公众号后台回复关键词：pyspark，获取本项目github地址。Spark程序可以快如闪电⚡️，也可以慢如蜗牛?。它的性能取决于用户使用它的方式。一般来说，如果有可能，用户应当尽可能多地使用SparkSQL以取得更好的性能。主要原因是SparkSQL是一种声明式编程风格，背后的计算引擎会自动做大量的性能优化工作。基于RDD的Spark的性能调优属于坑非常深的领域，并且很容易踩到。我们将介绍Spa
Spark性能调优大数据侠客 spark相关问题汇总及解决 spark 性能调优
1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更
在AWS上使用KMS客户端密钥加密S3文件，同时支持PySpark读写和Snowflake导入 weixin_30777913 python spark 大数据云计算数据仓库
现有AWSEMR集群上运行PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库也需要导入S3上的文件到表。现在要用AWSKMS有客户端密钥加密S3上的文件，同时允许PySpark代码，可以读写S3上的数据文件，Snowflake数据仓库导入S3上的文件到表。为了实现AWSEMR上的PySpark读写KMS加密的S3文件，并让Snowflake导入这些文件，请按照以下步骤操作：一
11 Spark面试真题 TTXS123456789ABC #Spark spark 面试大数据
11Spark大厂面试真题1.通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制？2.hadoop和spark使用场景？3.spark如何保证宕机迅速恢复?4.hadoop和spark的相同点和不同点？5.RDD持久化原理？6.checkpoint检查点机制？7.checkpoint和持久化机制的区别？8.RDD机制理解吗？9.Spa
OLAP引擎比较小手追梦 hadoop rpc java
一，sparksql与dorisspark虽然是一个计算引擎，但sparksql也支持符合通用语法的sql查询，延迟为分钟级。doris是一个OLAP数据库，支持对大数据的复杂查询，延迟为秒级。doris比sparksql快，主要原因在于针对场景不同导致的架构不同。sparksql启动一个查询，需要进行资源调度、任务调度、任务分发，耗时更久。doris是常驻进程，启动一个doris查询后，快速的对
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
【spark床头书系列】Spark Streaming 编程权威使用指南 BigDataMLApplication spark 大数据流数据处理#大数据 spark 大数据分布式
SparkStreaming编程权威使用指南文章目录SparkStreaming编程权威使用指南概述快速示例基本概念链接初始化StreamingContext离散化流（DStreams）输入DStreams和Receivers基本源文件流基于自定义接收器的流作为流的RDD队列高级源自定义源接收器的可靠性在DStreams上的转换操作updateStateByKey操作transform操作窗口操作
Spark Streaming的背压机制的原理与实现代码及分析 weixin_30777913 spark 大数据 python
SparkStreaming的背压机制是一种根据JobScheduler反馈的作业执行信息来动态调整Receiver数据接收率的机制。在Spark1.5.0及以上版本中，可以通过设置spark.streaming.backpressure.enabled为true来启用背压机制。当启用背压机制时，SparkStreaming会自动根据系统的处理能力来调整数据的输入速率，从而在流量高峰时保证最大的吞
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

Spark实现流式实时日志分析系统

实验介绍

课程来源

实验知识点

实验环境

实验原理

实验具体步骤

你可能感兴趣的:(spark,ambari)