独孤雨鸿

hive安装及整合hbase

（1）. 上传hive安装包并解压

tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /export/server/

（2）. 配置hive环境变量 sudo vim /etc/profile

# 配置hive环境变量

export HIVE_HOME=/export/server/apache-hive-3.1.3-bin

export PATH=$PATH:$HIVE_HOME/bin

(3) .修改hive的配置文件（4个）

hive-env.sh、hive-site.xml、hive-log4j2.properties、

hive-exec-log4j2.properties（复制conf目录下相应template文件重命名可得）

①修改hive-env.sh文件（文末添加）

# jdk安装目录

export JAVA_HOME=/export/server/jdk1.8.0_131

# hadoop安装目录

export HADOOP_HOME=/export/server/hadoop-3.3.2

# Hive安装路径

export HIVE_HOME=/export/server/apache-hive-3.1.3-bin

# Hive配置文件路径

export HIVE_CONF_DIR=${HIVE_HOME}/conf

export HIVE_AUX_JARS_PATH=/export/server/apache-hive-3.1.3-bin/lib

②修改hive-log4j2.properties文件（只修改标红部分其他内容不变）

status = INFO

name = HiveLog4j2

packages = org.apache.hadoop.hive.ql.log

# list of properties

property.hive.log.level = INFO

property.hive.root.logger = DRFA

# hive的日志路径

property.hive.log.dir = /export/server/apache-hive-3.1.3-bin/logs

property.hive.log.file = hive.log

property.hive.perflogger.log.level = INFO

# 以下省略了未做修改的原文

③修改hive-exec-log4j2.properties文件（只修改标红部分其他内容不变）

status = INFO

name = HiveExecLog4j2

packages = org.apache.hadoop.hive.ql.log

# list of properties

property.hive.log.level = INFO

property.hive.root.logger = FA

property.hive.query.id = hadoop

property.hive.log.dir =/export/server/apache-hive-3.1.3-bin/logs

property.hive.log.file = ${sys: hive.log.dir }/${hive.query.id}.log

#以下省略未修改原文

④修改hive-site.xml文件

javax.jdo.option.ConnectionURL

jdbc:mysql://node1:3306/hivemeta?createDatabaseIfNotExist=true&useSSL=false

javax.jdo.option.ConnectionDriverName

com.mysql.cj.jdbc.Driver

javax.jdo.option.ConnectionUserName

root

javax.jdo.option.ConnectionPassword

1234

hive.metastore.schema.verification

false

hive.metastore.event.db.notification.api.auth

false

hive.metastore.warehouse.dir

/user/hive/warehouse

hive.metastore.uris

thrift://node1:9083

hive.server2.thrift.bind.host

node1

hive.server2.thrift.port

10000

hive.exec.local.scratchdir

/export/server/apache-hive-3.1.3-bin/jobs

hive.downloaded.resources.dir

/export/server/apache-hive-3.1.3-bin/download

hive.querylog.location

/export/server/apache-hive-3.1.3-bin/logs

hive.server2.logging.operation.log.location

/export/server/apache-hive-3.1.3-bin/logs

hbase.zookeeper.quorum

node1:2181,node2:2181,node3:2181,node4:2181

说明(操作完第本文第（5）步后才能启动相关服务)：

① 启动hive的元数据服务：hive --service metastore（需先启动hadoop集群）

#后台启动 nohup hive --service metastore>log.txt 2>&1 &

（指定了metastore uri 时开启该服务才能访问hive）

② 启动hiveserver2服务：hive --service hiveserver2

#后台启动 nohup hive --service hiveserver2 1>/dev/null 2>&1 &

（使用beeline访问hive时需要先开启该服务）

beeline连接hive命令：beeline -u jdbc:hive2://node1:10000

网页端访问：http://node1:10002/

③ 关闭hive --service metastore/ hiveserver2服务（如果是另开shell开启的服务，CTRL+c即可关闭）

a、查出Hiveserver进程：ps -aux| grep hiveserver2

b、kill掉进程 kill -9 PID

(4) . 修改hadoop的core-site.xml文件(设置用户访问hive权限)

vim $HADOOP_HOME/etc/hadoop/core-site.xml

hadoop.proxyuser.ljr.hosts

hadoop.proxyuser.ljr.groups

说明：其中的ljr是hadoop的超级用户

(5). 初始化元数据

①将MySQL的jdbc驱动jar包放到$HIVE_HOME/lib中

驱动下载地址：MySQL :: Download MySQL Connector/J (Archived Versions)

选择驱动版本，下载tar.gz文件上传到Linux系统解压即可得jar包，这里用的版本是

mysql-connector-java-8.0.8-dmr-bin.jar

②进入hive的bin目录cd $HIVE_HOME/bin

③执行命令初始化元数据schematool -dbType derby -initSchema --verbose

此时再登录MySQL可以发现多了一个数据库hivemeta（库名由hive-site.xml指定）

(ps:此处本人踩坑了，初始化元数据用了derby数据库，正确的执行命令应为

schematool -dbType mysql -initSchema --verbose)

（6）访问hive

访问hive方式①HiveCLI客户端访问，输入hive

出现以上ConnectException: Connection refused报错是由于未开启metastore服务

开启服务后jps查看可发现多了一个RunJar进程在运行（注意开启hiveserver2运行的进程也叫RunJar）

开启metastore/hivesever2服务时报错：

MissingTableException: Required table missing : "`DBS`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.schema.autoCreateTables"

原因分析：未初始化元数据引起，进入$HIVE_HOME/bin进行初始化（completed表示初始化完成，不放心可以进入mysql，use hivemeta;show tables查看是否存在表进行验证）

schematool -dbType mysql -initSchema --verbose

注：本人在第（5）步时执行的初始化命令是

schematool -dbType derby -initSchema --verbose

完成上述操作重新开启metastore/hivesever2服务后，再输入hive

注：此时使用show databases;输出defualt

创建库hive> create database test;

查看库 show databases；

使用test库 use test;

创建employee表

create table employee (id int,name string,salary int,position string) row format delimited fields terminated by '\t';

查看表 show tables;

访问hive方式②(beeline 需要先开启metastore服务再开启hiveserver2服务)

beeline -u jdbc:hive2://node1:10000 【-n 用户名】

查看表结构 desc 表名

退出beeline命令行：！exit 或者！quit

方式①与方式②访问hive对比：方式②输出数据更加结构化，便于阅读

（7）. Hive整合hbase

整合原理：

Hive与HBase整合的实现是利用两者本身对外的API（应用程序编程接口）互相通信来完成的， HBase作为分布式的NOSQL数据库，并不支持传统的SQL查询，通过将Hive框架与HBase进行集成，我们可以实现使用HQL对HBase的数据进行操作，当我们使用HBase与Hive集成，其本质是Hive作为HBase的客户端。

整合意义：

①通过Hive把数据加载到HBase中，数据源可以是文件也可以是Hive中的表。

②通过整合，让HBase支持JOIN、GROUP等SQL查询语法。

③通过整合，不仅可完成HBase的数据实时查询，也可以使用Hive查询HBase中的数据完成复杂的数据分析。

整合步骤：

①在hive-site.xml中添加以下内容（本人在安装hive时已配置hive-site.xml）

hbase.zookeeper.quorum

node1,node2,node3，node4

注：本人安装的hive访问hbase依赖的jar包，不需要再做步骤②操作，这里说明一下hive整合hbase时需要做的步骤作为了解学习

②采用软链接的方式将$HBASE_HOME/lib下的对应的common、server、client、protocol、it、htrace-core(hbase-2.4.12中没有此包)等8个包链接到$HIVE_HOME/lib下（或者直接将hbase lib目录下的所有文件复制到hive lib目录中）：

ln -s hbase-client-2.4.12.jar $HIVE_HOME/lib/

ln -s hbase-protocol-2.4.12.jar $HIVE_HOME /lib/

ln -s hbase-it-2.4.12 $HIVE_HOME /lib/

ln -s hbase-server-2.4.12.jar $HIVE_HOME /lib/

ln -s hbase-common-2.4.12.jar $HIVE_HOME /lib/

ln -s hbase-hadoop2-compat-2.4.12.jar $HIVE_HOME /lib/

ln -s hbase-hadoop-compat-2.4.12.jar $HIVE_HOME /lib/

③在hive中创建映射表（创建后hbase中会自动生成该表）

Create database test;创建test库

Use test;转到test库

创建内部表

CREATE TABLE hive_hbase_sal(id int,name string,sal int,deptno int) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:name,info:sal,info:deptno ") TBLPROPERTIES ("hbase.table.name" = "hbase_sal ");建映射表hive_hbase_sal → hbase_sal

可以看到在hbase shell 中通过list 可以看到hbase_sal表已经创建，此时在hive中删除hive_hbase_sal表hbase_sal表也会一并删除

为hbase中的customer表创建外部表

Hbase中查看customer表结构

desc 'customer';

在hive中创建外部表（关键词external）（这种方式可以关联hbase中已经存在的表）

create external table hive_hbase_customer(id int,name string)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"="id:id,name:name") tblproperties("hbase.table.name"="customer");

Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe: columns has 2 elements while hbase.columns.mapping has 3 elements (counting the key if implicit)) (state=08S01,code=1)

创建外部表失败，原因分析：上面我们查看hbase的customer表结构的时候可以看到该表包含了两个列族，再加上key，一共三个元素，所以在映射表时除了id，name外还要添加一个键值（以下下暂以iid为列名）

create external table hive_hbase_customer(iid int,id int,name string)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping"=":key,id:id,name:name") tblproperties("hbase.table.name"="customer");

hive_hbase_customer不能直接编辑/导入数据，需要建立一个中间表

报错：A non-native table cannot be used as target

新建customer_put表作为中间表

create table customer_put(iid int,id int,name string) row format delimited fields terminated by ';';

customer_put表导入数据：load data local inpath'/export/data/input.txt' overwrite into table customer_put;

注意文件编码要与hive表编码一致，设置方法为在vim编辑器末行模式输入

set fileencoding=utf-8(通常hive表的默认编码为utf-8)

将数据插入hive_hbase_customer表

insert overwrite/into table hive_hbase_customer select * from customer_put;（执行时间较长，耐心等待）（overwrite覆盖原表，into在原表追加内容）

Hbase中查看数据

scan 'customer';

至此，hive hive安装及整合hbase完成！

（8）hive metastore/hiveserver2服务的启停脚本

#!/bin/bash

if [ $# -lt 1 ]

then

echo "No Args Input..."

exit ;

case $1 in

"start")

echo " ======= 启动 hive服务======="

echo " --------------- 启动 metastore服务 ---------------"

nohup hive --service metastore>log.txt 2>&1 & #设置静默输出的第一种方法

echo " --------------- 启动 hiveserver2服务 ---------------"

ps -aux|grep metastore|sed '/--color=auto/d'|sed '/hiveserver2/d'|cut -d' ' -f8，9>&/dev/null&&echo “启动metastore成功,正启动hiveserver2”

nohup hive --service hiveserver2 1>/dev/null 2>&1 & #设置静默输出的第二种方法

sleep 5 #hiveserver2启动需要较长时间，睡眠5秒

ps -aux|grep hiveserver2|sed '/--color=auto/d'|cut -d' ' -f8,9>&/dev/null&&echo "hiveserver2成功启动,正在连接hive"&&beeline -u jdbc:hive2://node1:10000 -n ljr||echo “请稍后手动连接hive beeline -u jdbc:hive2://node1:10000”

;;

"stop")

echo " ======= 关闭 hive服务======="

echo " --------------- 停止 hiveserver2服务 ---------------"

PID=$( ps -aux|grep hiveserver2|sed '/--color=auto/d'|cut -d' ' -f8,9)

kill -9 $PID >&/dev/null&&echo "hiveserver2已关闭"||echo “进程不存在”

echo " --------------- 停止metastore服务 ---------------"

PID2=$( ps -aux|grep metastore|sed '/--color=auto/d'|sed '/hiveserver2/d'|cut -d' ' -f8,9)

kill -9 $PID2 >&/dev/null&&echo "metastore已关闭"||echo “进程不存在” # >&/dev/null设置静默输出的第三种方法

;;

echo "Input Args Error..."

;;

esac

总结：修改hive运行的其他程序的配置时，修改后记得重启修改过配置的程序，否则运行hive的时候大概率会出现报错，本人在这方面就吃过大亏，因修改了配置未重启，排查各种报错原因花费了大量的时间和精力！！！不过吃的这些亏也可为后续排错提供一种思路——检查是否修改了配置。

你可能感兴趣的:(hive,hbase,hadoop)

python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
Hive基本操作小肥柴呀 Apache Hive hive 数据库
Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3删除空数据库2.4强制删除非空数据库2.5查看所有数据库2.6查看数据相关信息2.7数据库切换2.8修改数据库3.数据表基本操作3.1创建表3.1.1创建表的方式3.1.2创建内部表3.1.3创建外
hive迁移补数脚本细粒度表名-分区唯一键我要用代码向我喜欢的女孩表白 hive hadoop 数据仓库
假设我通过对数脚本发现，这些表对不上。假设检测出来是这样的（这些表存在于源端，但不存在目标端）我们需要从源端迁移过去。diff.txtads_xx1dt=20250219ads_xx2dt=20250217ads_xx2dt=20250218ads_xx2dt=20250219ads_xx3dt=20250217ads_xx4dt=20250217bak_xx1dt=20250109bak_xx1
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
shell字典数组吃不到的烤鱼 shell脚本
转自:http://www.firefoxbug.com/index.php/archives/2369/#shell字典数组#!/bin/bashecho"shell定义字典"#必须先声明declare-Adicdic=([key1]="value1"[key2]="value2"[key3]="value3")#打印指定key的valueecho${dic["key1"]}#打印所有key值e
HTTP 协议星竹服务器 http 网络协议服务器
项目：csdn:https://blog.csdn.net/2303_76953932/article/details/142704176?spm=1001.2014.3001.5501halo:https://xingzhu.top/archives/webfu-wu-qi-xiao-xiang-mu-linux-c-epoll说明：参考学习:https://www.bilibili.com/v
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
HBase：大数据时代的“超级数据库” 狮歌~资深攻城狮 hbase 大数据
HBase：大数据时代的“超级数据库”你是不是也被数据淹没过？大家有没有这样的经历，手机里存了成千上万张照片，每次想找某一张特定的照片时，都得翻半天？或者在工作中面对堆积如山的数据报表，感觉像是在大海捞针。今天我们要聊的HBase，就是为了解决这种“数据洪流”的问题。什么是HBase？HBase是一个分布式的、面向列的开源数据库，它基于Google的Bigtable论文设计而成。简单来说，HBas
docker-compose -volumes 两种不同定义方式胖胖胖胖胖虎 Docker docker hadoop big data
学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8volumes:-namenode:/hadoop/dfs/nameenvironment:-CLUSTER_NAME=
linux 打包解压命令 luoluosheng07 linux linux 服务器运维
1.Linux打包和解压命令打包命令tar命令是最常用的打包工具，可以用来创建归档文件。创建一个名为archive.tar的tar包：tar-cvfarchive.tar/path/to/directory/这里：c表示创建新的归档文件。v表示在打包过程中显示文件。f指定归档文件的名称。zip命令用于创建zip格式的压缩文件。zip-rarchive.zip/path/to/directory/这
初识hadoop 西门吹水之城 hadoop hadoop
关于hadoop的写入（存入）nn里面维护了一份元数据。客户端在存入的数据的时候先经过nn,查要存入的数据是否存在（通过元数据查询），如果存在就返回拒绝写入，若不存在，就开始返回可以往集群里面写入，而且还分配存入那些dn。客户端程序就开始找相应的nn，将相应的block块存进去（切分是由客户端切分的）。关于副本客户端在存入数据的时候只是将数据块block0存入相应的机器，然后由被存入的机器（nn）
HBase常用的Filter过滤器操作梵高的夏天 python 算法机器学习
HBase常用的Filter过滤器操作_hbasefilter-CSDN博客HBase过滤器种类很多，我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果，先利用HBaseShell新建students表格，并往表格中进行写入多行数据。一、数据准备工作（1）在默认命名空间中新建表格students，设置列族info、score。hbase:002:0>create'students','inf
HDFS是如何存储和管理大数据 python资深爱好者大数据 hdfs hadoop
HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）是专为大数据处理而设计的分布式文件系统，具有高吞吐量、高容错性等特点，适用于大规模数据存储和管理。以下是HDFS存储和管理大数据的详细机制：一、HDFS架构HDFS采用主从架构，主要包括以下组件：NameNode（主节点）：作为集群的“大脑”，NameNode负责管理文件系统的命名空间，维护文件和目录的元
Hadoop 基础原理 disgare 数据库 hadoop 大数据分布式
Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce底层原理示例Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和计算问题，广义上Hadoop指的是Hadoop生态圈，包含HDFS、Hive、MapRe
nodejs npm run build 打包压缩zip文件 xiaoxiao_0721 vue
步骤1:安装npminstallarchiver-D步骤2:根目录下新建zip.js，内容如下constfs=require('fs')constarchiver=require('archiver')//创建文件输出流letoutput=fs.createWriteStream(__dirname+'/dist.zip')letarchive=archiver(
本地Oracle数据库复制数据到Apache Hive的Linux服务器集群的分步流程 weixin_30777913 数据库大数据 hive
我们已经有安装ApacheHive的Linux服务器集群，它可以连接到一个OracleRDS数据库，需要在该Linux服务器上安装配置sqoop，然后将OracleRDS数据库中所有的表数据复制到Hive。为了将本地Oracle数据库中的所有表数据复制到ApacheHiveLinux服务器集群中，您可以遵循以下详细步骤：第一步：安装和配置Sqoop1.下载并安装Sqoop您可以从ApacheSqo
Pinpoint应用性能管理工具Docker化安装小苏少 Docker Linux 软件测试 docker pinpoint linux JVM监控
目录Pinpoint应用性能管理工具Docker化安装Pinpoint是什么为什么用Pinpoint下载hbase-create.hbase编写Dockerfile编写run.sh构建Dockerfile启动Pinpoint其他Pinpoint应用性能管理工具Docker化安装本文主要介绍Pinpoint应用性能管理工具Docker化安装，以及在后期Pinpoint进行版本升级时，如何同步升级Do
preview_220624,Day08_DM层建设实战, 啊六六六 Python 大数据数据挖掘数据仓库
DM名称：数据集市层DataMarket功能：基于DWS层日统计宽表，上卷出周、月、年等统计宽表，即粗粒度汇总。解释从理论层面来说，数据集市是一个小型的部门或工作组级别的数据仓库。一些公司早期的数据集市后期可能会演变成为数仓系统。本项目中在数据集市层面主要进行粗粒度汇总，也可以将这些功能下放至DWS层完成。抛弃DM.使用DataGrip在Hive中创建dm层注意，对于建库建表操作，需直接使用Hiv
Spark集群架构介绍 olifchou Spark spark apache spark 大数据分布式
Spark之YARN介绍一、导语二、Spark及其特性三、Spark架构总览一、导语ApacheSpark(后续简称为Spark)是一款正在点燃大数据世界的开源集群计算框架。据SparkCertifiedExperts显示，在内存中运行时，Sparks性能要比Hadoop快一百倍，在磁盘上运行，Sparks比Hadoop快达十倍。在本篇博客中，我将会为你简单介绍一下Spark的底层基础架构。二、S
Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
MySQL 8 公用表表达式（CTE）—— WITH关键字深入用法 gmHappy 大数据学习 java web Java mysql 数据库 with递归
一、前言公用表表达式（CTE）是一个命名的临时结果集，它存在于单个语句的范围内，可以在该语句中引用，可能多次。对于逻辑复杂的SQL，可以大大减少临时表的数量，提升代码的可读性、可维护性。更多介绍请查看官网：https://dev.mysql.com/blog-archive/mysql-8-0-labs-recursive-common-table-expressions-in-mysql-cte
Hadoop--NameSpace（名称空间） Cynthiaaaaalxy hadoop 大数据分布式
1.名称空间的定义 HDFS的名称空间是一个逻辑上的文件系统目录树，类似于传统文件系统的目录结构。组成目录：用于组织文件的逻辑容器。文件：存储在HDFS中的实际数据单元。元数据：包括文件名、权限、所有者、文件大小、创建时间、修改时间等信息。2.名称空间的作用名称空间的主要作用是：组织文件通过目录树的形式组织文件，方便用户管理和访问。维护元数据记录文件和目录的元数据信息（如权限、所有者、大小等）。
hbase put 写入数据慢_HBase 马斯克·贾 hbase put 写入数据慢
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。逻辑结构物理存储结构数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。HBase的底层物理存储结构(K-V)。NameSpace命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是H
spark程序提交到集群上_Spark集群模式&Spark程序提交毫无特色 spark程序提交到集群上
Spark集群模式&Spark程序提交1.集群管理器Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式，易于构建集群。ApacheMesos—通用的集群管理，可以在其上运行HadoopMapReduce和一些服务应用。HadoopYARN—Hadoop2中的资源管理器。Tip1:在集群不是特别大，并且没有mapReduce和Spark同时运行的需求的情况下，用
如何用HBase轻松管理海量数据？狮歌~资深攻城狮 hbase 大数据
如何用HBase轻松管理海量数据？小白也能学会的入门指南数据太多，头都大了？你有没有过这样的经历：面对堆积如山的数据文件，感觉像是被淹没在信息的海洋里？别担心，今天我们要聊的HBase，就是来帮你解决这个问题的神器。不管你是技术小白还是有一定经验的开发者，这篇文章都能让你轻松上手HBase。什么是HBase？HBase是一个分布式的、面向列的开源数据库，专门用来处理大规模数据。它基于Google的
jar、war、pom JIU_WW jar java
1.jar定义与用途用途：默认打包类型，生成JAR文件（JavaArchive），适用于普通Java应用或库。场景：开发工具类库（如commons-lang.jar）。构建可执行应用（通过java-jar运行）。关键行为构建流程：执行mvnpackage后，生成target/.jar。包含编译后的.class文件、资源文件（如.properties）和META-INF/MANIFEST.MF。依赖
Hadoop--Secondary NameNode工作机制，作用及与NameNode HA的区别 Cynthiaaaaalxy hadoop 大数据分布式
SecondaryNameNode主要用于辅助NameNode进行元数据的管理和检查点（Checkpoint）的生成。1.SecondaryNameNode的工作机制详解SecondaryNameNode的工作机制可以分为以下步骤：①SecondaryNameNode询问NameNode是否需要CheckpointSecondaryNameNode会定期（由dfs.namenode.check
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin