不久之

Mac上在vm虚拟机上搭建Hadoop集群并安装zookeeper hive hbase（下篇）

zookeeper

官网地址

上传一下包

解压

tar -zxvf zookeeper-3.4.9.tar.gz -C ../servers/

修改配置文件

 cd zookeeper-3.4.9/conf/
 cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

添加myid配置

mkdir /export/servers/zookeeper-3.4.9/zkdatas

echo 1 > myid

安装包分发并修改myid的值

scp -r /export/servers/zookeeper-3.4.9/ node2:/export/servers/
scp -r /export/servers/zookeeper-3.4.9/ node3:/export/servers/

检查一下
把另外两台的myid改成2和3

启动服务

三台机子都要修改

cd /export/servers/zookeeper-3.4.9/conf

#这行粘贴过去,路径替换  /export/servers/zookeeper-3.4.9/zkdatas

## 三台都要操作
cd /export/servers/zookeeper-3.4.9/
bin/zkServer.sh start

启动成功！

查看状态

bin/zkServer.sh status

总算成功了！！！

启动客户端

启动一个就行了

bin/zkCli.sh -server node1:2181
##或者
bin/zkCli.sh

hadoop

集群规划

服务器IP	192.168.202.201	192.168.202.202	192.168.202.203
主机名	node1	node2	node3
NameNode	是	否	否
SecondaryNameNode	是	否	否
dataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

官网链接
这里没用官网的，因为官方给的没有提供带C程序访问的接口，所以我们在使用本地库（本地库可以用来压缩，一级支持C程序等等）的时候会出现问题，需要重新编译。
编译后的包

第一步：上传apache hadoop包并解压

解压命令

cd /export/softwares
tar -zxvf hadoop-2.7.5.tar.gz -C ../servers/

bin/hadoop checknative
# 检查一下支持的本地库

官方给的是不支持这个snappy的

第二步：修改配置文件

这里直接用vim很不方便，win的话就用notepad++，Mac的话就用ultraEdit

修改core-site.xml

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  core-site.xml

<configuration>

	
	<property>
		<name>fs.default.namename>
		<value>hdfs://node1:8020value>
	property>
    
  
	<property>
		<name>hadoop.tmp.dirname>
		<value>/export/servers/hadoop-2.7.5/hadoopDatas/tempDatasvalue>

	property>

	
	<property>
		<name>io.file.buffer.sizename>
		<value>4096value>
	property>

	
	<property>
		<name>fs.trash.intervalname>
		<value>10080value>
	property>
configuration>

修改hdfs-site.xml

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim hdfs-site.xml

<configuration>
	 <property>
			<name>dfs.namenode.secondary.http-addressname>
			<value>node1:50090value>
	property>

	
	<property>
		<name>dfs.namenode.http-addressname>
		<value>node1:50070value>
	property>
	
	
	<property>
		<name>dfs.namenode.name.dirname>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2value>
	property>
	

	
	<property>
		<name>dfs.datanode.data.dirname>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2value>
	property>	
    
	<property>
		<name>dfs.namenode.edits.dirname>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/editsvalue>
	property>

	<property>
		<name>dfs.namenode.checkpoint.dirname>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/namevalue>
	property>
    
	<property>
		<name>dfs.namenode.checkpoint.edits.dirname>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/editsvalue>
	property>

	
	<property>
		<name>dfs.replicationname>
		<value>3value>
	property>

	
	<property>
		<name>dfs.permissionsname>
		<value>falsevalue>
	property>

		
    <property>
		<name>dfs.blocksizename>
		<value>134217728value>
	property>

configuration>

修改hadoop-env.sh

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  hadoop-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

修改mapred-site.xml

发现没有这个文件，只有一个后缀加了.template的文件，复制一份重命名一下就可以了
第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  mapred-site.xml

<configuration>
     
    <property>
     <name>mapreduce.job.ubertask.enablename>
     <value>truevalue>
    property>

    
    <property>
     <name>mapreduce.jobhistory.addressname>
     <value>node1:10020value>
    property>
 
    
    <property>
     <name>mapreduce.jobhistory.webapp.addressname>
     <value>node1:19888value>
    property>

configuration>

修改yarn-site.xml

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  yarn-site.xml

<configuration>
	
	<property>
		<name>yarn.resourcemanager.hostnamename>
		<value>node1value>
	property>
	<property>
		<name>yarn.nodemanager.aux-servicesname>
		<value>mapreduce_shufflevalue>
	property>
	
	
	<property>
		<name>yarn.log-aggregation-enablename>
		<value>truevalue>
	property>
	
	<property>
		<name>yarn.log-aggregation.retain-secondsname>
		<value>604800value>
	property>
	
	
	
	<property>    
		<name>yarn.nodemanager.resource.memory-mbname>    
		<value>20480value>
	property>
	<property>  
        	 <name>yarn.scheduler.minimum-allocation-mbname>
         	<value>2048value>
	property>
	<property>
		<name>yarn.nodemanager.vmem-pmem-rationame>
		<value>2.1value>
	property>

configuration>

修改mapred-env.sh

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  mapred-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

修改slaves

修改slaves文件，然后将安装包发送到其他机器，重新启动集群即可

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim slaves

node1
node2
node3

第一台机器执行以下命令

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

安装包的分发

第一台机器执行以下命令

cd  /export/servers/
scp -r hadoop-2.7.5 node2:$PWD
scp -r hadoop-2.7.5 node3:$PWD

第三步：配置hadoop的环境变量

三台机器都要进行配置hadoop的环境变量

三台机器执行以下命令

vim  /etc/profile

export HADOOP_HOME=/export/servers/hadoop-2.7.5
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置完成之后生效

source /etc/profile

第四步：启动集群

要启动 Hadoop 集群，需要启动 HDFS 和 YARN 两个模块。
注意：首次启动 HDFS 时，必须对其进行格式化操作。本质上是一些清理和
准备工作，因为此时的 HDFS 在物理上还是不存在的。

hdfs namenode -format 或者 hadoop namenode –format

准备启动

第一台机器执行以下命令

cd  /export/servers/hadoop-2.7.5/
bin/hdfs namenode -format
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver

三个端口查看界面

查看hdfs:node:50070

查看yarn集群node1:8088

查看历史完成的任务node1:19888

Hive 的安装

这里我们选用hive的版本是2.1.1
下载地址为：
官网

下载之后，将我们的安装包上传到第三台机器的/export/softwares目录下面去

第一步：上传并解压安装包

将我们的hive的安装包上传到第三台服务器的/export/softwares路径下，然后进行解压

cd /export/softwares/
tar -zxvf apache-hive-2.1.1-bin.tar.gz -C ../servers/

第二步：安装mysql(之前已经装过）

第三步：修改hive的配置文件

修改hive-env.sh（把模版文件拷贝一份）

cd /export/servers/apache-hive-2.1.1-bin/conf
cp hive-env.sh.template hive-env.sh

HADOOP_HOME=/export/servers/hadoop-2.7.5
export HIVE_CONF_DIR=/export/servers/apache-hive-2.1.1-bin/conf

修改hive-site.xml(没有就新建）

cd /export/servers/apache-hive-2.1.1-bin/conf
vim hive-site.xml



<configuration>
  
  <property>
      <name>javax.jdo.option.ConnectionUserNamename>
      <value>rootvalue>
  property>
  
  <property>
      <name>javax.jdo.option.ConnectionPasswordname>
      <value>0102value>
  property>
  
  <property>
      <name>javax.jdo.option.ConnectionURLname>
      <value>jdbc:mysql://node3:3306/hive?createDatabaseIfNotExist=true&useSSL=falsevalue>
  property>
  <property>
      <name>javax.jdo.option.ConnectionDriverNamename>
      <value>com.mysql.jdbc.Drivervalue>
  property>
  <property>
      <name>hive.metastore.schema.verificationname>
      <value>falsevalue>
  property>
  <property>
    <name>datanucleus.schema.autoCreateAllname>
    <value>truevalue>
 property>
 <property>
		<name>hive.server2.thrift.bind.hostname>
		<value>node3value>
   property>
configuration>

第四步：添加mysql的连接驱动包到hive的lib目录下

hive使用mysql作为元数据存储，必然需要连接mysql数据库，所以我们添加一个mysql的连接驱动包到hive的安装目录下，然后就可以准备启动hive了
maven库

将我们准备好的mysql-connector-java-5.1.38.jar 这个jar包直接上传到
/export/servers/apache-hive-2.1.1-bin/lib 这个目录下即可

至此，hive的安装部署已经完成，接下来我们来看下hive的三种交互方式

第五步：配置hive的环境变量

node3服务器执行以下命令配置hive的环境变量

sudo vim /etc/profile

export HIVE_HOME=/export/servers/apache-hive-2.1.1-bin
export PATH=:$HIVE_HOME/bin:$PATH

source /etc/profile

测试一下

cd /export/servers/apache-hive-2.1.1-bin/
bin/hive

创建一个数据库

create database if not exists mytest;

hbase

官网地址

上传解压HBase安装包

tar -xvzf hbase-2.1.0-bin.tar.gz -C ../servers/

修改HBase配置文件

hbase-env.sh

cd /export/server/hbase-2.1.0/conf
vim hbase-env.sh

##  显示行 在vim里面敲
:set nu 


# 第28行
 export JAVA_HOME=/export/servers/jdk1.8.0_141
 export HBASE_MANAGES_ZK=false

hbase-site.xml

vim hbase-site.xml

<configuration>
        <!-- HBase数据在HDFS中的存放的路径 -->
        <property>
            <name>hbase.rootdir</name>
            <value>hdfs://node1:8020/hbase</value>
        </property>
        <!-- Hbase的运行模式。false是单机模式，true是分布式模式。若为false,Hbase和Zookeeper会运行在同一个JVM里面 -->
        <property>
            <name>hbase.cluster.distributed</name>
            <value>true</value>
        </property>
        <!-- ZooKeeper的地址 -->
        <property>
            <name>hbase.zookeeper.quorum</name>
            <value>node1:2181,node2:2181,node3:2181</value>
        </property>
        <!-- ZooKeeper快照的存储位置 -->
        <property>
            <name>hbase.zookeeper.property.dataDir</name>
            <value>/export/servers/zookeeper-3.4.9/zkdatas</value>
        </property>
        <!--  V2.1版本，在分布式情况下, 设置为false -->
        <property>
            <name>hbase.unsafe.stream.capability.enforce</name>
            <value>false</value>
        </property>
</configuration>

配置环境变量

# 配置Hbase环境变量
vim /etc/profile
export HBASE_HOME=/export/servers/hbase-2.1.0
export PATH=$PATH:${HBASE_HOME}/bin:${HBASE_HOME}/sbin

#加载环境变量
source /etc/profile

# 输入这个命令，输一半按tab健能联想出来就设置成功了
start-hbase.sh

复制jar包到lib

cp $HBASE_HOME/lib/client-facing-thirdparty/htrace-core-3.1.0-incubating.jar $HBASE_HOME/lib/

修改regionservers文件

vim regionservers 
node1
node2
node3

分发安装包与配置文件

cd /export/servers
scp -r hbase-2.1.0/ node2:$PWD
scp -r hbase-2.1.0/ node3:$PWD
scp -r /etc/profile node2:/etc
scp -r /etc/profile node3:/etc

# 在node2和node3加载环境变量
source /etc/profile

#同理输入下面这个，能联想出来就是成功的
hbase

启动HBase

这里弄了一个一键启动zk的脚本，同理一键停止的脚本只需要把start改成stop就可以了。

ZK_HOME=/export/servers/zookeeper-3.4.9

cat /export/onekey/slave | while read line
do
{
 echo $line
 ssh $line "source /etc/profile;nohup ${ZK_HOME}/bin/zkServer.sh start >/dev/nul* 2>&1 &"
}&
wait
done




ZK_HOME=/export/servers/zookeeper-3.4.9

cat /export/onekey/slave | while read line
do
{
 echo $line
 ssh $line "source /etc/profile;nohup ${ZK_HOME}/bin/zkServer.sh stop >/dev/nul* 2>&1 &"
}&
wait
done

## 启动ZK
./start-zk.sh


## 启动hadoop
start-dfs.sh


## 启动hbase
start-hbase.sh

验证Hbase是否启动成功

# 启动hbase shell客户端
hbase shell
# 输入status
status

WebUI

可视化页面：node1:16010

安装Phoenix(补充）

下载

大家可以从官网上下载与HBase版本对应的Phoenix版本。对应到HBase 2.1，应该使用版本「5.0.0-HBase-2.0」。
官网地址

安装

1.上传安装包到Linux系统，并解压

cd /export/software
rz -E
tar -xvzf apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz -C ../servers/

2.将phoenix的所有jar包添加到所有HBase RegionServer和Master的复制到HBase的lib目录

#  拷贝jar包到hbase lib目录 
cp /export/servers/apache-phoenix-5.0.0-HBase-2.0-bin/phoenix-*.jar /export/servers/hbase-2.1.0/lib/
#  进入到hbase lib  目录
cd /export/servers/hbase-2.1.0/lib/
# 分发jar包到每个HBase 节点
scp phoenix-*.jar node2:$PWD
scp phoenix-*.jar node3:$PWD

3.修改配置文件

cd /export/servers/hbase-2.1.0/conf/
vim hbase-site.xml

将以下配置添加到 hbase-site.xml 后边


<property>
    <name>phoenix.schema.isNamespaceMappingEnabledname>
    <value>truevalue>
property>

<property>
  <name>hbase.regionserver.wal.codecname>
  <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodecvalue>
property>

# 2. 将hbase-site.xml分发到每个节点
scp hbase-site.xml node2:$PWD
scp hbase-site.xml node3:$PWD

4.将配置后的hbase-site.xml拷贝到phoenix的bin目录

cp /export/servers/hbase-2.1.0/conf/hbase-site.xml /export/servers/apache-phoenix-5.0.0-HBase-2.0-bin/bin/

5.重新启动HBase

stop-hbase.sh
start-hbase.sh

6.启动Phoenix客户端，连接Phoenix Server

注意：第一次启动Phoenix连接HBase会稍微慢一点。
cd /export/servers/apache-phoenix-5.0.0-HBase-2.0-bin/
bin/sqlline.py node1:2181
# 输入!table查看Phoenix中的表
!table

7.查看HBase的Web UI，可以看到Phoenix在default命名空间下创建了一些表，而且该系统表加载了大量的协处理器。

8.测试

-- 1. 创建表
create table if not exists ORDER_DTL(
    id varchar primary key,
    C1.status varchar,
    C1.money double,
    C1.pay_way integer,
    C1.user_id varchar,
    C1.operation_time varchar,
    C1.category varchar
);

-- 2. 删除表
drop table if exists ORDER_DTL;

你可能感兴趣的:(杂七杂八,hadoop,hbase,java-zookeeper)

缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
HBase 开发：使用Java操作HBase 睡觉的时候我不困 hbase java python
第1关：创建表任务描述相关知识如何使用Java连接HBase数据库HBaseConfigurationConnectionFactory创建表HBase2.X创建表编程要求测试说明任务描述本关任务：使用Java代码在HBase中创建表。相关知识为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库J
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
PostgreSql、Hbase的安装月光一族吖 postgresql hbase 数据库
在CentOS8中安装PostgreSQL和HBase，以下是详细步骤，包括使用sudo权限的命令：安装PostgreSQL更新系统包在两台CentOS8上运行以下命令，确保系统是最新的：sudodnfupdate-y安装PostgreSQLCentOS8默认仓库提供PostgreSQL。你可以直接安装所需版本的PostgreSQL：sudodnfinstall-ypostgresql-serve
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
Hadoop入门案例WordCount 码喵喵 hadoop mapreduce 大数据
wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop,java,linuxhello,java,linuxlinux,c,javac,php,java在整个文件中单词所出现的次数Hadoop思维：Mapreduce-----》M
Hadoop入门案例 'Wu' 学习日常大数据 hadoop hdfs 大数据
Hadoop的运行流程：客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。客户端通过NameNode查找需要访问或处理的文件所在的DataNode，并将操作请求发送到相应的DataNode上。当客户端上传一个新文件时（比如输入某些日志），它会被分成固定大小（默认64MB）并进行数据复
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
HBase 开发：使用Java操作HBase 第1关：创建表是草莓熊吖 hbase 大数据 Educoder hbase hadoop 大数据
为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库Java连接HBase需要两个类：HBaseConfigurationConnectionFactoryHBaseConfiguration要连接HBase我们首先需要创建Configuration对象，这个对象我们需要通过HBaseConfig
Hbase-表操作红笺Code Hbase hbase 大数据数据分析非关系型数据库 zookeeper
目录一、创建表:1.创建表时指定列族的属性2.创建表时不指定列族的属性多学一招：克隆表二、查看表信息三、查看表四、停用和启用表1.停用表2.启用表多学一招：停用或启用多个表五、判断表1.exists命令2.is_enabled命令3.is_disabled命令六、修改表1.修改表属性（1）添加属性（2）删除属性2.修改列族（1）修改列族属性（2）添加列族（3）删除列族七、删除表drop命令多学一招
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
JT808教程：设置/查询终端参数
REDISANT提供互联网与物联网开发测试套件#互联网与中间件：RedisAssistantZooKeeperAssistantKafkaAssistantRocketMQAssistantRabbitMQAssistantPulsarAssistantHBaseAssistantNoSqlAssistantEtcdAssistantGarnetAssistant工业与物联网：MQTTAssist
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found