大树叶

基于 CentOS 7.3.x + hadoop v2.9.0 集群的 Hive 2.3.2 的安装与使用

前言

安装Apache Hive前提是要先安装hadoop集群，并且hive只需要在hadoop的namenode节点集群里安装即可：需要在namenode上安装，可以不在datanode节点的机器上安装。

还需要说明的是，虽然修改配置文件并不需要把hadoop运行起来，但是本文中用到了hadoop的hdfs命令，在执行这些命令时你必须确保hadoop是正在运行着的，而且启动hive的前提也需要hadoop在正常运行着，所以建议先把hadoop集群启动起来。

本次安装的软件版本罗列如下：

CentOS v7.3.x ;
Hadoop v 2.9.0 集群 ;
JDK8 ;
Hive 2.3.2

有关如何在CentOS7.3.x 上安装hadoop集群请参考我的博客： CentOS7.3.x + Hadoop 2.9.0 集群搭建实战

1.下载Apache Hadoop

下载地址：http://hive.apache.org/downloads.html

点击下图中的某个下载地址，优先选择国内源，本次安装下载的上2.3.2版本，下载地址如下：

http://ftp.cuhk.edu.hk/pub/packages/apache.org/hive/hive-2.3.2/apache-hive-2.3.2-bin.tar.gz

2.安装Apache Hive

2.1.上载和解压缩

把 apache-hive-2.3.2-bin.tar.gz 下载到Hadoop NameNode主机上，并解压到 /opt目录下。

# cp apache-hive-2.3.2-bin.tar.gz /opt
# cd /opt ; tar zxvf apache-hive-2.3.2-bin.tar.gz

2.2.配置环境变量

# vim /etc/profile
#在文件结尾添加内容如下：
export HIVE_HOME=/opt/apache-hive-2.3.2-bin/
export PATH=$PATH:$HIVE_HOME/bin
# . /etc/profile

2.3.Hive配置Hadoop HDFS

2.3.1 hive-site.xml配置

进入目录$HIVE_HOME/conf，将hive-default.xml.template文件复制一份并改名为hive-site.xml

 cd $HIVE_HOME/conf ; cp hive-default.xml.template hive-site.xml

在hive-site.xml中设置有如下配置，你自己在你的环境里修改为别的目录也可以。


    hive.metastore.warehouse.dir
    /data/hive/warehouse
    location of default database for the warehouse
  

    hive.exec.scratchdir
    /data/hive/tmp
    HDFS root scratch dir for Hive jobs which gets created with write all (733) permission. For each connecting user, an HDFS scratch dir: ${hive.exec.scratchdir}/ is created, with ${hive.scratch.dir.permission}.


    hive.druid.broker.address.default
    10.70.27.12:8082
    
      Address of the Druid broker. If we are querying Druid from Hive, this address needs to be
      declared
    
  
  
    hive.druid.coordinator.address.default
    10.70.27.8:8081
    Address of the Druid coordinator. It is used to check the load status of newly created segments

执行hadoop命令新建/data/hive/warehouse （上面配置文件中指定的）目录：

#新建目录/data/hive/warehouse
# $HADOOP_HOME/bin/hdfs dfs -mkdir -p /data/hive/warehouse
#给新建的目录赋予读写权限
# $HADOOP_HOME/bin/hdfs dfs -chmod 777 /data/hive/warehouse
#查看修改后的权限
# $HADOOP_HOME/bin/hdfs dfs -ls /data/hive
Found 1 items
drwxrwxrwx   - root supergroup          0 2018-03-19 20:25 /data/hive/warehouse

#运用hadoop命令新建/data/hive/tmp目录
# $HADOOP_HOME/bin/hdfs dfs -mkdir -p /data/hive/tmp
#给目录/tmp/hive赋予读写权限
# $HADOOP_HOME/bin/hdfs dfs -chmod 777 /data/hive/tmp
#检查创建好的目录
# $HADOOP_HOME/bin/hdfs dfs -ls /data/hive/
Found 2 items
drwxrwxrwx   - root supergroup          0 2018-03-19 20:32 /data/hive/tmp
drwxrwxrwx   - root supergroup          0 2018-03-19 20:25 /data/hive/warehouse

2.3.2修改$HIVE_HOME/conf/hive-site.xml中的临时目录
- 按下面的步骤修改文件 $HIVE_HOME/conf/hive-site.xml.

1. 将文件中的所有 ${system:java.io.tmpdir}替换成 /opt/apache-hive-2.3.2-bin/tmp

- 2. 将文件中所有的${system:user.name}替换为 root

[root@apollo conf]# cd $HIVE_HOME
[root@apollo hive]# mkdir tmp

2.4安装配置mysql

2.4.1.安装 mysql

CentOS7.0安装mysql请参考：CentOS7 rpm包安装mysql5.7，本文不再累述。

2.4.2. 把mysql的驱动包上传到Hive的lib目录下：

到下面的官方网站上去下载mysql connector：

https://dev.mysql.com/downloads/connector/j/

本文选择的是mysql-connector-java-5.1.46.tar.gz，然后按如下步骤把它copy到hive系统中

# tar zxvf  mysql-connector-java-5.1.46.tar.gz
# cd mysql-connector-java-5.1.46; cp mysql-connector-java-5.1.46.jar $HIVE_HOME/lib

2.4.3修改hive-site.xml数据库相关配置
按以下步骤修改 $HIVE_HOME/conf/hive-site.xml 文件。

搜索 javax.jdo.option.ConnectionURL, 将该name对应的value修改为MySQL的地址:

<property>
  <name>javax.jdo.option.ConnectionURLname>
  <value>jdbc:mysql://10.70.27.12:3306/hive?createDatabaseIfNotExist=truevalue>
  <description>
    JDBC connect string for a JDBC metastore.
    To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
    For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
  description>
property>

搜索javax.jdo.option.ConnectionDriverName，将该name对应的value修改为MySQL驱动类路径:

<property>
  <name>javax.jdo.option.ConnectionDriverNamename>
  <value>com.mysql.jdbc.Drivervalue>
  <description>Driver class name for a JDBC metastoredescription>
property>
<property>

搜索javax.jdo.option.ConnectionUserName，将对应的value修改为MySQL数据库登录名:

<property>
  <name>javax.jdo.option.ConnectionUserNamename>
  <value>hivevalue>
  <description>Username to use against metastore databasedescription>
property>

搜索javax.jdo.option.ConnectionPassword，将对应的value修改为MySQL数据库的登录密码:

<property>
  <name>javax.jdo.option.ConnectionPasswordname>
  <value>hive888value>
  <description>password to use against metastore databasedescription>
property>

搜索hive.metastore.schema.verification，将对应的value修改为false：

<property>
  <name>hive.metastore.schema.verificationname>
  <value>falsevalue>
  <description>
    Enforce metastore schema version consistency.
    True: Verify that version information stored in is compatible with one from Hive jars.  Also disable automatic
          schema migration attempt. Users are required to manually migrate schema after Hive upgrade which ensures
          proper metastore schema migration. (Default)
    False: Warn if the version information stored in metastore doesn't match with one from in Hive jars.
  description>
property>

2.4.4 在$HIVE_HOME/conf目录下新建hive-env.sh

# cd $HIVE_HOME/conf
#将hive-env.sh.template 复制一份并重命名为hive-env.sh
# cp hive-env.sh.template hive-env.sh
#打开hive-env.sh并添加如下内容
# vim hive-env.sh
export HADOOP_HOME=/opt/hadoop-2.9.0
export HIVE_CONF_DIR=/opt/apache-hive-2.3.2-bin/conf
export HIVE_AUX_JARS_PATH=/opt/apache-hive-2.3.2-bin/lib

3.启动和测试

3.1.MySQL数据库进行初始化

首先用root登陆mysql去授权和建库。登陆后执行下面的命令。create user 'hive'@'%' identified by 'hive888';  create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci; 
GRANT ALL ON hive.* TO 'hive'@'%';
flush privileges;
quit;

然后进入$HIVE/bin
# cd $HIVE_HOME/bin
#对数据库进行初始化：
# schematool -initSchema -dbType mysql

输出如下：
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/apache-hive-2.3.2-bin/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/hadoop-2.9.0/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Metastore connection URL: jdbc:mysql://10.70.27.12:3306/hive?createDatabaseIfNotExist=true
Metastore Connection Driver : com.mysql.jdbc.Driver
Metastore connection User: root
Starting metastore schema initialization to 2.3.0
Initialization script hive-schema-2.3.0.mysql.sql
Initialization script completed
schemaTool completed
执行成功后，查看mysql数据库
# mysql -uroot -p

mysql> use hive;
Database changed

mysql> show tables;

3.2.启动Hive

# $HIVE_HOME/bin/hive

.....

hive>

3.3.测试

3.3.1.查看函数命令：

hive>show functions;
OK
...hive> describe database bigtreetrial;OK
bigtreetrial    hdfs://hadoopServer3:9000/data/hive/warehouse/bigtreetrial.db   root    USER
Time taken: 0.02 seconds, Fetched: 1 row(s)
hive>

3.3.2.查看sum函数的详细信息的命令：

hive> desc function sum;
OK
sum(x) - Returns the sum of a set of numbers
Time taken: 0.008 seconds, Fetched: 1 row(s)

3.3.3.新建测试数据库和数据表

#新建数据库
hive> create database bigtreeTrial;
#新建数据表
hive> use bigtreeTrial;
hive> create table student(id int, name string) row format delimited fields terminated by '\t';
hive> desc student;
OK
id                      int                                         
name                    string                                      
Time taken: 0.114 seconds, Fetched: 2 row(s)hive> select * from student;
OK
Time taken: 1.089 seconds

3.3.4.将文件写入到表中

3.3.4.1.在$HIVE_HOME下新建一个文件

# cd $HIVE_HOME
新建文件student.dat
# touch student.dat
在文件中添加如下内容
[root@apollo hive]# vim student.dat
001     daniel
002     bill
003     bruce
004     xin

说明：ID和name直接是TAB键，不是空格，因为在上面创建表的语句中用了terminated by ‘\t’所以这个文本里id和name的分割必须是用TAB键(复制粘贴如果有问题，手动敲TAB键吧)，还有就是行与行之间不能有空行，否则下面执行load，会把NULL存入表内，该文件要使用unix格式，如果是在windows上用txt文本编辑器编辑后在上载到服务器上，需要用工具将windows格式转为unix格式，例如可以使用Notepad++来转换。

3.3.4.2.导入数据

hive> load data local inpath '/opt/apache-hive-2.3.2-bin/student.dat' into table bigtreeTrial.student;
Loading data to table sbux.student
OK
Time taken: 4.844 seconds

3.3.4.3查看导入数据是否成功

hive> use bigtreeTrial;
OK
Time taken: 0.022 seconds
hive> select * from student;
OK
1       daniel
2       bill
3       bruce
4       xin
Time taken: 1.143 seconds, Fetched: 4 row(s)

- 3.3.4.4 在HDFS系统中查看数据
# $HADOOP_HOME/bin/hdfs dfs -ls /data/hive/warehouse
Found 1 items
drwxrwxrwx - root supergroup 0 2018-03-20 11:40 /data/hive/warehouse/bigtreetrial.db
3.4.在界面上查看刚刚写入的hdfs数据

在浏览器里打开如下的连接（hadoop的namenode）来查看HIVE的HDFS信息。

http://10.70.27.3:50070/explorer.html#/data/hive/warehouse

说明：先打开 http://10.70.27.3:50070，然后在最右边的菜单Utilities -> Browse File System, 输入 /, 然后选择go, 就可以一步一步地浏览

HDFS信息了。

3.5.在mysql的hive数据里查看

1 row in set (0.00 sec)

4.编译与patch （可选）
这步和安装配置无关。
在本次安装后，在使用过程中，发现hive与druid对接有问题，需要给hive打patch，但是这个时候的官方hive是没有这个patch的，就只能自己动手了。
问题现象如下：
Druid broker 日志
==============
2018-03-23T03:20:00,992 INFO [qtp2119918107-144] io.druid.java.util.emitter.core.LoggingEmitter - Event [{"feed":"metrics","timestamp":"2018-03-23T03:20:00.992Z","service":"druid/broker","host":"10.70.27.12 :8082","version":"0.12.0","metric":"query/bytes","value":389,"context":"{\"queryId\":\"ae955617-7f55-4db6-a239-16a8acc85316\"}","dataSource":"druid_metrics","duration":"PT9223372036854775.807S","hasFilters":"false","id":"ae955617-7f55-4db6-a239-16a8acc85316","interval":["-146136543-09-08T08:23:32.096Z/146140482-04-24T15:36:27.903Z"],"remoteAddress":"10.70.27.3","success":"true","type":"segmentMetadata"}]
2018-03-23T03:17:24,459 ERROR [qtp2119918107-147] com.sun.jersey.spi.container.ContainerResponse -
The RuntimeException could not be mapped to a response, re-throwing to the HTTP container
java.lang.IllegalArgumentException: Invalid format: "1900-01-01T08:05:43.000 08:05:43" is malformed at " 08:05:43"
at org.joda.time.format.DateTimeFormatter.parseDateTime(DateTimeFormatter.java:945) ~[joda-time-2.9.9.jar:2.9.9]
at org.joda.time.convert.StringConverter.setInto(StringConverter.java:212) ~[joda-time-2.9.9.jar:2.9.9]
at org.joda.time.base.BaseInterval.(BaseInterval.java:200) ~[joda-time-2.9.9.jar:2.9.9]
at org.joda.time.Interval.(Interval.java:289) ~[joda-time-2.9.9.jar:2.9.9]
at io.druid.java.util.common.Intervals.of(Intervals.java:38) ~[java-util-0.12.0.jar:0.12.0]
at io.druid.server.ClientInfoResource.getQueryTargets(ClientInfoResource.java:303) ~[druid-server-0.12.0.jar:0.12.0]
fix solution:
https://issues.apache.org/jira/browse/HIVE-16576
这个fix 要3.0.0才有，我们目前只能手工打patch 步骤如下：
4.1 下载hive source code
http://www.apache.org/dyn/closer.cgi/hive/
本次选择的是apache-hive-2.3.2-src.tar.gz。把下载了的源码包放到一个centOS的linux主机上。
# tar zxvf apache-hive-2.3.2-src.tar.gz
本次需要的patch地址为：
https://issues.apache.org/jira/browse/HIVE-16576

按patch里面的内容修改源代码并保持。然后到下一步去构架

4.2 构建 from source code

注：本台机器上必须安装 jdk8 和 maven 工具。

1. 在maven 的 /usr/share/maven/conf/settings.xml 做如下的配置，可以加速构建。


    
      alimaven
      aliyun maven
      http://maven.aliyun.com/nexus/content/groups/public/
      central

2. cd apache-hive-2.3.2-src; mvn clean package -Pdist -DskipTests

经过比较长的编译过程，等构建完毕。

# cd ./packaging/target/

该目录下就会有新生成的 apache-hive-2.3.2-bin.tar.gz。

5.（可选）关于Hive和druid (0.9.x及其以后)的集成
5.1 集成 jira： https://issues.apache.org/jira/browse/HIVE-14217
5.2 集成介绍的官方page: https://cwiki.apache.org/confluence/display/Hive/Druid+Integration

第一步：配置和启动 tranquility 服务器

下载 tranquility-distribution-0.8.2.tar to /opt/

step2: # tar xvf download tranquility-distribution-0.8.2.tar

step3: # cd /opt/tranquility-distribution-0.8.2/conf

vi server.json

{
  "dataSources" : {
    "pageviews" : {
      "spec" : {
        "dataSchema" : {
          "dataSource" : "pageviews",
          "parser" : {
            "type" : "string",
            "parseSpec" : {
              "timestampSpec" : {
                "format": "auto",
                "column": "time"
              },

              "dimensionsSpec" : {
               "dimensions": ["url", "user"]
              },

              "format" : "json"
            }
          },
          "granularitySpec" : {
            "type" : "uniform",
            "segmentGranularity" : "hour",
            "queryGranularity" : "none"
          },
          "metricsSpec" : [
                          {"name": "views", "type": "count"},
                          {"name": "latencyMs", "type": "doubleSum", "fieldName": "latencyMs"}
          ]
        },},
        "ioConfig" : {
          "type" : "realtime"
        },
        "tuningConfig" : {
          "type" : "realtime",
          "maxRowsInMemory" : "100000",
          "intermediatePersistPeriod" : "PT10M",
          "windowPeriod" : "PT10M"
        }
      },
      "properties" : {
        "task.partitions" : "1",
        "task.replicants" : "1"
      }
    } },
  "properties" : {
    "zookeeper.connect" : "10.70.27.8:2181,10.70.27.10:2181,10.70.27.12:2181",
    "druid.discovery.curator.path" : "/druid/discovery",
    "druid.selectors.indexing.serviceName" : "druid/overlord",
    "http.port" : "8200",
    "http.threads" : "8"
  }
}

启动tranquility server

# cd /opt/tranquility-distribution-0.8.2 ; ./bin/tranquility server conf/server.json

....

2018-03-28 02:00:24,210 [main] INFO o.e.jetty.server.ServerConnector - Started ServerConnector@406ca9fc{HTTP/1.1}{0.0.0.0:8200}
2018-03-28 02:00:24,210 [main] INFO org.eclipse.jetty.server.Server - Started @3868ms

第二步：向 tranquility 服务器发送数据

post ： http://10.70.27.8:8200/v1/post/pageviews

// 10.70.27.8 是tranquility 服务器运行的地址。pageviews 是上面配置文件中的data source地址。

text/plain; raw

{"time": "2018-03-27T12:42:49Z", "url": "/foo/bar", "user": "billhongbin", "latencyMs": 45}

第三步：查看druid task

http://【overlord server IP】:8090/console.html

可以看到任务完成。

第四步，下载hive并配置hive中的druid设置

第五步，从hive中检索数据

# /opt/apache-hive-2.3.2-bin/bin/hive

hive> show databases;
OK
bigtreetrial
default
Time taken: 3.255 seconds, Fetched: 2 row(s)

hive> use bigtreetrial;

hive > CREATE EXTERNAL TABLE bill_druid_table
STORED BY 'org.apache.hadoop.hive.druid.DruidStorageHandler'
TBLPROPERTIES ("druid.datasource" = "pageviews");

hive> describe formatted bill_druid_table;

OK
# col_name data_type comment

__time timestamp from deserializer
latencyms string from deserializer
url string from deserializer
user string from deserializer
views bigint from deserializer

# Detailed Table Information
Database: bigtreetrial
Owner: root
CreateTime: Tue Mar 27 20:48:43 CST 2018
LastAccessTime: UNKNOWN
Retention: 0
Location: hdfs://hadoopServer3:9000/data/hive/warehouse/bigtreetrial.db/bill_druid_table

Table Type: EXTERNAL_TABLE

Table Parameters:
COLUMN_STATS_ACCURATE {\"BASIC_STATS\":\"true\"}
EXTERNAL TRUE
druid.datasource pageviews
numFiles 0
numRows 0
rawDataSize 0
storage_handler org.apache.hadoop.hive.druid.DruidStorageHandler
totalSize 0

transient_lastDdlTime 1522154923

# Storage Information
SerDe Library: org.apache.hadoop.hive.druid.serde.DruidSerDe
InputFormat: null
OutputFormat: null
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params:
serialization.format 1

Time taken: 0.046 seconds, Fetched: 37 row(s)

hive> select * from bill_druid_table;
OK
2018-03-28 11:37:04 NULL /datang/machine billtang 1
2018-03-28 11:37:04 NULL /datang/machine tiger 1
2018-03-28 12:42:15 NULL /datang/machine billtang 1
2018-03-28 12:48:15 NULL /datang/machine billtang 1
2018-03-28 12:48:15 NULL /sina/machine bigtree 1
Time taken: 2.037 seconds, Fetched: 5 row(s)

你可能感兴趣的:(hadoop)

python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
docker-compose -volumes 两种不同定义方式胖胖胖胖胖虎 Docker docker hadoop big data
学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8volumes:-namenode:/hadoop/dfs/nameenvironment:-CLUSTER_NAME=
初识hadoop 西门吹水之城 hadoop hadoop
关于hadoop的写入（存入）nn里面维护了一份元数据。客户端在存入的数据的时候先经过nn,查要存入的数据是否存在（通过元数据查询），如果存在就返回拒绝写入，若不存在，就开始返回可以往集群里面写入，而且还分配存入那些dn。客户端程序就开始找相应的nn，将相应的block块存进去（切分是由客户端切分的）。关于副本客户端在存入数据的时候只是将数据块block0存入相应的机器，然后由被存入的机器（nn）
HDFS是如何存储和管理大数据 python资深爱好者大数据 hdfs hadoop
HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）是专为大数据处理而设计的分布式文件系统，具有高吞吐量、高容错性等特点，适用于大规模数据存储和管理。以下是HDFS存储和管理大数据的详细机制：一、HDFS架构HDFS采用主从架构，主要包括以下组件：NameNode（主节点）：作为集群的“大脑”，NameNode负责管理文件系统的命名空间，维护文件和目录的元
Hadoop 基础原理 disgare 数据库 hadoop 大数据分布式
Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce底层原理示例Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和计算问题，广义上Hadoop指的是Hadoop生态圈，包含HDFS、Hive、MapRe
Spark集群架构介绍 olifchou Spark spark apache spark 大数据分布式
Spark之YARN介绍一、导语二、Spark及其特性三、Spark架构总览一、导语ApacheSpark(后续简称为Spark)是一款正在点燃大数据世界的开源集群计算框架。据SparkCertifiedExperts显示，在内存中运行时，Sparks性能要比Hadoop快一百倍，在磁盘上运行，Sparks比Hadoop快达十倍。在本篇博客中，我将会为你简单介绍一下Spark的底层基础架构。二、S
Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
Hadoop--NameSpace（名称空间） Cynthiaaaaalxy hadoop 大数据分布式
1.名称空间的定义 HDFS的名称空间是一个逻辑上的文件系统目录树，类似于传统文件系统的目录结构。组成目录：用于组织文件的逻辑容器。文件：存储在HDFS中的实际数据单元。元数据：包括文件名、权限、所有者、文件大小、创建时间、修改时间等信息。2.名称空间的作用名称空间的主要作用是：组织文件通过目录树的形式组织文件，方便用户管理和访问。维护元数据记录文件和目录的元数据信息（如权限、所有者、大小等）。
spark程序提交到集群上_Spark集群模式&Spark程序提交毫无特色 spark程序提交到集群上
Spark集群模式&Spark程序提交1.集群管理器Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式，易于构建集群。ApacheMesos—通用的集群管理，可以在其上运行HadoopMapReduce和一些服务应用。HadoopYARN—Hadoop2中的资源管理器。Tip1:在集群不是特别大，并且没有mapReduce和Spark同时运行的需求的情况下，用
Hadoop--Secondary NameNode工作机制，作用及与NameNode HA的区别 Cynthiaaaaalxy hadoop 大数据分布式
SecondaryNameNode主要用于辅助NameNode进行元数据的管理和检查点（Checkpoint）的生成。1.SecondaryNameNode的工作机制详解SecondaryNameNode的工作机制可以分为以下步骤：①SecondaryNameNode询问NameNode是否需要CheckpointSecondaryNameNode会定期（由dfs.namenode.check
Hadoop之jdk的安装快来削我吖云存储 hadoop jdk centos
【实验目的】1.安装配置JDK1.五台独立PC机或虚拟机主机之间有有效的网络连接2.每台主机内存2G以上，磁盘剩余空间500M以上所有主机上已安装CentOS7.4操作系统3.所有主机已完成网络属性配置1.卸载原有JDK该项的所有操作步骤需要使用root用户进行。并且在集群中每台主机操作一次，发现没有，不必卸载因为我的查看没有jdk，所以不需要卸载原有的，只需直接安装即可。2.安装此项的所有操作步
Hadoop HDFS基准测试 Yvonne978 大数据 hadoop hdfs 大数据
一、测试写入速度确保HDFS集群和YARN集群成功启动hadoopjar/export/server/hadoop-3.1.4/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.4-tests.jarTestDFSIO-write-nrFiles10-fileSize10MB说明：向HDFS文件系统中写入数据,10个文件,每个
jmeter 与大数据生态圈中的服务进行集成小赖同学啊 jmeter专栏 jmeter 大数据
以下为你详细介绍JMeter与大数据生态圈中几种常见服务（HadoopHDFS、Spark、Kafka、Elasticsearch）集成的方法：与HadoopHDFS集成实现思路HDFS是Hadoop的分布式文件系统，JMeter可模拟客户端对HDFS进行文件读写操作，通常借助HDFS的JavaAPI编写自定义JMeter采样器。步骤添加依赖：将Hadoop的客户端JAR包添加到JMeter的li
数据质量管理工具（Trifacta Wrangler） deepdata_cn 数据质量数据质量
2012年4月：JoeHellerstein、JeffreyHeer和SeanKandel创立Trifacta公司。2015年10月：正式推出TrifactaWrangler，让非技术用户也能通过直观的可视化工作流程来探索、转换和丰富数据，同时其旗舰产品、专注于Hadoop的Trifacta数据处理解决方案更名为TrifactaWranglerEnterprise。2022年2月Alteryx宣布
Hadoop常用操作命令 hzw0510 hadoop 大数据分布式
在NameNode节点格式化集群初始化集群hdfsnamenode-format启动HDFSsbin/start-dfs.sh启动yarnsbin/start-yarn.sh启动NodeManageryarn-daemon.shstartnodemanager启动DataNodehadoop-daemon.shstartdatanode启动SecondaryNameNodehadoop-daemo
【Python爬虫(45)】Python爬虫新境界：分布式与大数据框架的融合之旅奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言大数据框架
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、大数据处理框架初印象1.1Hadoop：大数据处理的基石1.2
hive运维花泽啸 Hive hive
hive锁相关showlocks;查看锁unlocktable表名;释放锁发现释放不了锁，执行下面sethive.support.concurrency=false;sethive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager;然后在unlock还是不行的的话：select*fromHIVE_LOCKS;关闭hivese
Hadoop~HDFS的Block块飞Link Hadoop框架 hadoop hdfs 大数据
一、HDFS的block块1.介绍block块是HDFS的最小存储单位，每个256MB(可以修改)2.文件在HDFS中的存储方式文件分成多个block块，block块分三份存入对应服务器，每个block块都有2个(可修改)备份，每个副本都复制到其他服务器一份，每个block块都有两个备份在其他服务器上，这使得安全性极大提高3.修改默认文件上传到HDFS中的副本数量hdfs-site.xml默认为3
基于Hadoop的天气数据分析系统的设计与实现-计算机毕业设计源码+LW文档 qq_375279829 hadoop 课程设计 eclipse 毕业设计毕设
摘要随着全球气候变化的日益严峻，精准的天气数据分析和预测变得至关重要。Hadoop作为大数据处理领域的领军技术，其分布式计算框架和海量数据存储能力为天气数据分析提供了强大的支持。该系统能够收集、整合并分析来自全球各地的气象数据，通过挖掘数据中的潜在规律，提高天气预报的准确性和时效性。此外，该系统还有助于发现气候变化的趋势，为政府决策、农业生产、交通运输等领域提供科学依据。因此，基于Hadoop的天
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_80213251 java javaweb 大数据课程设计 python
开发技术SparkHadoopPython爬虫Vue.jsSpringBoot机器学习/深度学习人工智能创新点Spark大屏可视化爬虫预测算法功能1、登录注册界面，用户登录注册，修改信息2、管理员用户：（1）查看用户信息；（2）出行高峰期的10个时间段；（3）地铁限流的10个时间段；（4）地铁限流的前10个站点；（6）可视化大屏实时显示人流量信息。3、普通用户：（1）出行高峰期的10（5）可视化大
Python 的 WebSocket 实现详解王子良. 经验分享 python websocket 网络协议网络
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Spark源码分析 – Shuffle weixin_34292924 大数据
参考详细探究Spark的shuffle实现,写的很清楚,当前设计的来龙去脉HadoopHadoop的思路是,在mapper端每次当memorybuffer中的数据快满的时候,先将memory中的数据,按partition进行划分,然后各自存成小文件,这样当buffer不断的spill的时候,就会产生大量的小文件所以Hadoop后面直到reduce之前做的所有的事情其实就是不断的merge,基于文件
【Hadoop】使用Docker容器搭建伪分布式集群慕青Voyager 分布式 hadoop docker
使用Docker容器搭建Hadoop伪分布式集群1、编写docker-compose.yaml文件配置集群version:"3"services:namenode:image:apache/hadoop:3.3.6hostname:namenodecommand:["hdfs","namenode"]ports:-9870:9870env_file:-./configenvironment:ENS
HDFS分布文件系统（Hadoop Distributed File System）柿子小头 hdfs hadoop 大数据
目录一.HDFS的本质二.HDFS的架构与原理三、HDFS特性四.HDFS的常用命令1.显示HDFS指定路径下的所有文件2.在HDFS上创建文件夹3.上传本地文件到HDFS4.查看文件5.删除HDFS上的文件或者目录6.修改指定文件的权限信息（读、写、执行）一般语法：chmod[可选项]五、HDFS实战应用六、总结一.HDFS的本质HadoopDistributedFileSystem（HDFS）
org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool ID needed, but service not yet registere @菜鸟进阶记@ hadoop hadoop
启动hadoop集群，发现datanode没有启动，查看日志报错，如图：//日志文件2020-03-2416:40:55,608WARNorg.apache.hadoop.hdfs.server.common.Storage:Failedtoaddstoragedirectory[DISK]file:/opt/module/hadoop-2.8.4/data/tmp/dfs/data/java.i
Hadoop之HDFS的使用想要变瘦的小码头 hadoop hdfs 大数据
HDFS是什么：HDFS是一个分布式的文件系统，是个网盘，HDFS是一种适合大文件存储的分布式文件系统HDFS的Shell操作1、查看hdfs根目录下的内容-lshdfsdfs-lshdfs://hadoop01:9000/url在使用时默认是可以省略的，因为hdfs在执行的时候会根据HDOOP_HOME自动识别配置文件中的fs.defaultFS属性可以写成：hdfsdfs-ls/还有一版旧版写
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s