小白逆袭记

大数据分析_Hive&HBase

Hive

一 Hive基本概念

1 Hive简介 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Cgh92nK-1594524836596)(/img/hive.jpg)]

学习目标
- 了解什么是Hive
- 了解为什么使用Hive

####1.1 什么是 Hive

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。
Hive 本质: 将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,是一款基于 HDFS 的 MapReduce 计算框架
主要用途：用来做离线数据分析，比直接用 MapReduce 开发效率更高。

1.2 为什么使用 Hive

直接使用 Hadoop MapReduce 处理数据所面临的问题：
- 人员学习成本太高
- MapReduce 实现复杂查询逻辑开发难度太大
使用 Hive
- 操作接口采用类 SQL 语法，提供快速开发的能力
- 避免了去写 MapReduce，减少开发人员的学习成本
- 功能扩展很方便

2 Hive 架构

2.1 Hive 架构图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FNHmoo05-1594524836598)(/img/hive2.jpg)]

2.2 Hive 组件

用户接口：包括 CLI、JDBC/ODBC、WebGUI。
- CLI(command line interface)为 shell 命令行
- JDBC/ODBC 是 Hive 的 JAVA 实现，与传统数据库JDBC 类似
- WebGUI 是通过浏览器访问 Hive。
- HiveServer2基于Thrift, 允许远程客户端使用多种编程语言如Java、Python向Hive提交请求
元数据存储：通常是存储在关系数据库如 mysql/derby 中。
- Hive 将元数据存储在数据库中。
- Hive 中的元数据包括
  - 表的名字
  - 表的列
  - 分区及其属性
  - 表的属性（是否为外部表等）
  - 表的数据所在目录等。
解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行

2.3 Hive 与 Hadoop 的关系

Hive 利用 HDFS 存储数据，利用 MapReduce 查询分析数据。

Hive是数据仓库工具，没有集群的概念，如果想提交Hive作业只需要在hadoop集群 Master节点上装Hive就可以了

3 Hive 与传统数据库对比

hive 用于海量数据的离线数据分析。

	Hive	关系型数据库
ANSI SQL	不完全支持	支持
更新	INSERT OVERWRITE\INTO TABLE(默认)	UPDATE\INSERT\DELETE
事务	不支持(默认)	支持
模式	读模式	写模式
查询语言	HQL	SQL
数据存储	HDFS	Raw Device or Local FS
执行	MapReduce	Executor
执行延迟	高	低
子查询	只能用在From子句中	完全支持
处理数据规模	大	小
可扩展性	高	低
索引	0.8版本后加入位图索引	有复杂的索引

hive支持的数据类型
- 原子数据类型
  - TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMP DECIMAL CHAR VARCHAR DATE
- 复杂数据类型
  - ARRAY
  - MAP
  - STRUCT
hive中表的类型
- 托管表 (managed table) (内部表)
- 外部表

4 Hive 数据模型

Hive 中所有的数据都存储在 HDFS 中，没有专门的数据存储格式
在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。
Hive 中包含以下数据模型：
- db：在 hdfs 中表现为 hive.metastore.warehouse.dir 目录下一个文件夹
- table：在 hdfs 中表现所属 db 目录下一个文件夹
- external table：数据存放位置可以在 HDFS 任意指定路径
- partition：在 hdfs 中表现为 table 目录下的子目录
- bucket：在 hdfs 中表现为同一个表目录下根据 hash 散列之后的多个文件

5 Hive 安装部署

Hive 安装前需要安装好 JDK 和 Hadoop。配置好环境变量。
下载Hive的安装包 http://archive.cloudera.com/cdh5/cdh/5/ 并解压
```
 tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz  -C ~/app/
```
进入到解压后的hive目录找到 conf目录, 修改配置文件
```
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
```
在hive-env.sh中指定hadoop的路径
```
HADOOP_HOME=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0
```

配置环境变量

```
vi ~/.bash_profile
```

export HIVE_HOME=/home/hadoop/app/hive-1.1.0-cdh5.7.0
export PATH=$HIVE_HOME/bin:$PATH

```
source ~/.bash_profile
```

根据元数据存储的介质不同，分为下面两个版本，其中 derby 属于内嵌模式。实际生产环境中则使用 mysql 来进行元数据的存储。

内置 derby 版：
bin/hive 启动即可使用
缺点：不同路径启动 hive，每一个 hive 拥有一套自己的元数据，无法共享

mysql 版：

上传 mysql驱动到 hive安装目录的lib目录下

mysql-connector-java-5.*.jar

vi conf/hive-site.xml 配置 Mysql 元数据库信息(MySql安装见文档)



<configuration>

    <property>
        <name>javax.jdo.option.ConnectionUserNamename>
        <value>hivevalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionPasswordname>
        <value>hivevalue>
    property>
   <property>
        <name>javax.jdo.option.ConnectionURLname>mysql
        <value>jdbc:mysql://127.0.0.1:3306/hivevalue>
    property>
    <property>
        <name>javax.jdo.option.ConnectionDriverNamename>
        <value>com.mysql.jdbc.Drivervalue>
    property>
        
  <property>
    <name>hive.exec.script.wrappername>
    <value/>
    <description/>
  property>
configuration>

hive启动
- 启动docker
  
  service docker start
- 通过docker 启动mysql
  
  docker start mysql
- 启动 hive的metastore元数据服务
  
  hive --service metastore
- 启动hive
  
  hive
- MySQL root 密码 password hive用户密码 hive

二 Hive 基本操作

2.1 Hive HQL操作初体验

创建数据库
```
CREATE DATABASE test;
```
显示所有数据库
```
SHOW DATABASES;
```
创建表
```
CREATE TABLE student(classNo string, stuNo string, score int) row format delimited fields terminated by ',';
```
- row format delimited fields terminated by ‘,’ 指定了字段的分隔符为逗号，所以load数据的时候，load的文本也要为逗号，否则加载后为NULL。hive只支持单个字符的分隔符，hive默认的分隔符是\001
将数据load到表中
- 在本地文件系统创建一个如下的文本文件：/home/hadoop/tmp/student.txt
```
C01,N0101,82
C01,N0102,59
C01,N0103,65
C02,N0201,81
C02,N0202,82
C02,N0203,79
C03,N0301,56
C03,N0302,92
C03,N0306,72
```
- ```
 load data local inpath '/home/hadoop/tmp/student.txt'overwrite into table student;
```
- 这个命令将student.txt文件复制到hive的warehouse目录中，这个目录由hive.metastore.warehouse.dir配置项设置，默认值为/user/hive/warehouse。Overwrite选项将导致Hive事先删除student目录下所有的文件, 并将文件内容映射到表中。
  Hive不会对student.txt做任何格式处理，因为Hive本身并不强调数据的存储格式。
查询表中的数据跟SQL类似
```
hive>select * from student;
```
分组查询group by和统计 count
```
hive>select classNo,count(score) from student where score>=60 group by classNo;
```
从执行结果可以看出 hive把查询的结果变成了MapReduce作业通过hadoop执行

2.2 Hive的内部表和外部表

	内部表(managed table)	外部表(external table)
概念	创建表时无external修饰	创建表时被external修饰
数据管理	由Hive自身管理	由HDFS管理
数据保存位置	hive.metastore.warehouse.dir （默认：/user/hive/warehouse）	hdfs中任意位置
删除时影响	直接删除元数据（metadata）及存储数据	仅会删除元数据，HDFS上的文件并不会被删除
表结构修改时影响	修改会将修改直接同步给元数据	表结构和分区进行修改，则需要修复（MSCK REPAIR TABLE table_name;）

案例

创建一个外部表student2

CREATE EXTERNAL TABLE student2 (classNo string, stuNo string, score int) row format delimited fields terminated by ',' location '/tmp/student';

装载数据

load data local inpath '/home/hadoop/tmp/student.txt' overwrite into table student2;

显示表信息
```
desc formatted table_name;
```
删除表查看结果
```
drop table student;
```
再次创建外部表 student2
不插入数据直接查询查看结果
```
select * from student2;
```

2.3 分区表

什么是分区表
- 随着表的不断增大，对于新纪录的增加，查找，删除等(DML)的维护也更加困难。对于数据库中的超大型表，可以通过把它的数据分成若干个小表，从而简化数据库的管理活动，对于每一个简化后的小表，我们称为一个单个的分区。
- hive中分区表实际就是对应hdfs文件系统上独立的文件夹，该文件夹内的文件是该分区所有数据文件。
- 分区可以理解为分类，通过分类把不同类型的数据放到不同的目录下。
- 分类的标准就是分区字段，可以一个，也可以多个。
- 分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段，就会全部扫描。

创建分区表

tom,4300
jerry,12000
mike,13000
jake,11000
rob,10000

create table employee (name string,salary bigint) partitioned by (date1 string) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile;

查看表的分区
```
show partitions employee;
```

添加分区

alter table employee add if not exists partition(date1='2018-12-01');

加载数据到分区

load data local inpath '/home/hadoop/tmp/employee.txt' into table employee partition(date1='2018-12-01');

如果重复加载同名文件，不会报错，会自动创建一个*_copy_1.txt
外部分区表即使有分区的目录结构, 也必须要通过hql添加分区, 才能看到相应的数据
```
hadoop fs -mkdir /user/hive/warehouse/emp/dt=2018-12-04
hadoop fs -copyFromLocal /tmp/employee.txt /user/hive/warehouse/test.db/emp/dt=2018-12-04/employee.txt
```
- 此时查看表中数据发现数据并没有变化, 需要通过hql添加分区
```
alter table emp add if not exists partition(dt='2018-12-04');
```
- 此时再次查看才能看到新加入的数据
总结
- 利用分区表方式减少查询时需要扫描的数据量
  - 分区字段不是表中的列, 数据文件中没有对应的列
  - 分区仅仅是一个目录名
  - 查看数据时, hive会自动添加分区列
  - 支持多级分区, 多级子目录

2.4 动态分区

创建表

create table employee2 (name string,salary bigint) partitioned by (date1 string) row format delimited fields terminated by ',' lines terminated by '\n' stored as textfile;

导入数据

insert into table employee2 partition(date1) select name,salary,date1 from employee;

使用动态分区需要设置参数

set hive.exec.dynamic.partition.mode=nonstrict;

三 Hive 函数

3.1 内置运算符

在 Hive 有四种类型的运算符：

关系运算符
算术运算符
逻辑运算符
复杂运算

(内容较多，见《Hive 官方文档》》)

3.2 内置函数

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

简单函数: 日期函数字符串函数类型转换
统计函数: sum avg distinct
集合函数
分析函数
show functions; 显示所有函数
desc function 函数名;
desc function extended 函数名;

3.3 Hive 自定义函数和 Transform

UDF
- 当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。
- TRANSFORM,and UDF and UDAF
  
  it is possible to plug in your own custom mappers and reducers
  
  A UDF is basically only a transformation done by a mapper meaning that each row should be mapped to exactly one row. A UDAF on the other hand allows us to transform a group of rows into one or more rows, meaning that we can reduce the number of input rows to a single output row by some custom aggregation.
  
  UDF：就是做一个mapper，对每一条输入数据，映射为一条输出数据。
  
  UDAF:就是一个reducer，把一组输入数据映射为一条(或多条)输出数据。
  
  一个脚本至于是做mapper还是做reducer，又或者是做udf还是做udaf，取决于我们把它放在什么样的hive操作符中。放在select中的基本就是udf，放在distribute by和cluster by中的就是reducer。
  
  We can control if the script is run in a mapper or reducer step by the way we formulate our HiveQL query.
  
  The statements DISTRIBUTE BY and CLUSTER BY allow us to indicate that we want to actually perform an aggregation.
  
  User-Defined Functions (UDFs) for transformations and even aggregations which are therefore called User-Defined Aggregation Functions (UDAFs)

UDF示例(运行java已经编写好的UDF)

在hdfs中创建 /user/hive/lib目录
```
hadoop fs -mkdir /user/hive/lib
```
把 hive目录下 lib/hive-contrib-hive-contrib-1.1.0-cdh5.7.0.jar 放到hdfs中
```
hadoop fs -put hive-contrib-1.1.0-cdh5.7.0.jar /user/hive/lib/
```

把集群中jar包的位置添加到hive中

hive> add jar hdfs:///user/hive/lib/hive-contrib-1.1.0-cdh5.7.0.jar;

在hive中创建临时UDF

hive> CREATE TEMPORARY FUNCTION row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence'

在之前的案例中使用临时自定义函数(函数功能: 添加自增长的行号)
```
Select row_sequence(),* from employee;
```

创建非临时自定义函数

CREATE FUNCTION row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence' using jar 'hdfs:///user/hive/lib/hive-contrib-1.1.0-cdh5.7.0.jar';

Python UDF

准备案例环境

创建表

CREATE table u(fname STRING,lname STRING);

向表中插入数据

insert into table u2 values('George','washington');
insert into table u2 values('George','bush');
insert into table u2 values('Bill','clinton');
insert into table u2 values('Bill','gates');

编写map风格脚本

import sys
for line in sys.stdin:
    line = line.strip()
    fname , lname = line.split('\t')
    l_name = lname.upper()
    print '\t'.join([fname, str(l_name)])

通过hdfs向hive中ADD file

加载文件到hdfs
```
hadoop fs -put udf.py /user/hive/lib/
```

hive从hdfs中加载python脚本

ADD FILE hdfs:///user/hive/lib/udf.py;
ADD FILE /root/tmp/udf1.py;

Transform

SELECT TRANSFORM(fname, lname) USING 'python udf1.py' AS (fname, l_name) FROM u;

Python UDAF

四 hive综合案例

内容推荐数据处理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-itsa8sLT-1594524836600)(/img/hive3.png)]
- 需求
  - 根据用户行为以及文章标签筛选出用户最感兴趣(阅读最多)的标签

五 HBase简介与环境部署

5.1 HBase简介&在Hadoop生态中的地位

5.1.1 什么是HBase

HBase是一个分布式的、面向列的开源数据库
HBase是Google BigTable的开源实现
HBase不同于一般的关系数据库, 适合非结构化数据存储

5.1.2 BigTable

BigTable是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库。
- 适合大规模海量数据，PB级数据；
- 分布式、并发数据处理，效率极高；
- 易于扩展，支持动态伸缩
- 适用于廉价设备；
- 不适用于传统关系型数据的存储；

5.1.3 面向列的数据库

HBase 与传统关系数据库的区别

	HBase	关系型数据库
数据库大小	PB级别	GB TB
数据类型	Bytes	丰富的数据类型
事务支持	ACID只支持单个Row级别	全面的ACID支持, 对Row和表
索引	只支持Row-key	支持
吞吐量	百万写入/秒	数千写入/秒

关系型数据库中数据示例

ID	FILE NAME	FILE PATH	FILE TYPE	FILE SIZE	CREATOR
1	file1.txt	/home	txt	1024	tom
2	file2.txt	/home/pics	jpg	5032	jerry

同样数据保存到列式数据库中

RowKey	FILE INFO	SAVE INFO
1	name:file1.txt type:txt size:1024	path:/home/pics creator:Jerry
2	name:file2.jpg type:jpg size:5032	path:/home creator:Tom

行数据库&列数据库存储方式比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4iY66aAV-1594524836603)(C:/Users/beibei/Desktop/%E8%AE%B2%E4%B9%89/day04_hive&hbase/img/hbase4.png)]

5.1.4 什么是非结构化数据存储

结构化数据
- 适合用二维表来展示的数据
非结构化数据
- 非结构化数据是数据结构不规则或不完整
- 没有预定义的数据模型
- 不方便用数据库二维逻辑表来表现
- 办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等

5.1.5 HBase在Hadoop生态中的地位

HBase是Apache基金会顶级项目
HBase基于HDFS进行数据存储
HBase可以存储超大数据并适合用来进行大数据的实时查询

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bpBUNc9c-1594524836605)(C:/Users/beibei/Desktop/%E8%AE%B2%E4%B9%89/day04_hive&hbase/img/hbase&hive.png)]

5.1.6 HBase与HDFS

HBase建立在Hadoop文件系统上, 利用了HDFS的容错能力
HBase提供对数据的随机实时读/写访问功能
HBase内部使用哈希表, 并存储索引, 可以快速查找HDFS中数据

5.1.7 HBase使用场景

瞬间写入量很大
大量数据需要长期保存, 且数量会持续增长
HBase不适合有join, 多级索引, 表关系复杂的数据模型

##六 HBase的数据模型

NameSpace: 关系型数据库的"数据库"(database)
表(table)：用于存储管理数据，具有稀疏的、面向列的特点。HBase中的每一张表，就是所谓的大表(Bigtable)，可以有上亿行，上百万列。对于为值为空的列，并不占用存储空间，因此表可以设计的非常稀疏。
行(Row)：在表里面,每一行代表着一个数据对象,每一行都是以一个行键(Row Key)来进行唯一标识的, 行键并没有什么特定的数据类型, 以二进制的字节来存储
列(Column): HBase的列由 Column family 和 Column qualifier 组成, 由冒号: 进行行间隔, 如 family: qualifier
行键(RowKey)：类似于MySQL中的主键，HBase根据行键来快速检索数据，一个行键对应一条记录。与MySQL主键不同的是，HBase的行键是天然固有的，每一行数据都存在行键。
列族(ColumnFamily)：是列的集合。列族在表定义时需要指定，而列在插入数据时动态指定。列中的数据都是以二进制形式存在，没有数据类型。在物理存储结构上，每个表中的每个列族单独以一个文件存储。一个表可以有多个列簇。
列修饰符(Column Qualifier) : 列族中的数据通过列标识来进行映射, 可以理解为一个键值对(key-value), 列修饰符(Column Qualifier) 就是key 对应关系型数据库的列
时间戳(TimeStamp)：是列的一个属性，是一个64位整数。由行键和列确定的单元格，可以存储多个数据，每个数据含有时间戳属性，数据具有版本特性。可根据版本(VERSIONS)或时间戳来指定查询历史版本数据，如果都不指定，则默认返回最新版本的数据。
区域(Region)：HBase自动把表水平划分成的多个区域，划分的区域随着数据的增大而增多。
HBase 支持特定场景下的 ACID，即对行级别的操作保证完全的 ACID
cap定理
- 分布式系统的最大难点，就是各个节点的状态如何同步。CAP 定理是这方面的基本定理，也是理解分布式系统的起点。
  - 一致性(所有节点在同一时间具有相同的数据)
    
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0CdfZRhJ-1594524836606)(img/Consistency.png)]
  - 可用性(保证每个请求不管成功或失败都有响应,但不保证获取的数据的正确性)
  - 分区容错性(系统中任意信息的丢失或失败不会影响系统的运行,系统如果不能在某个时限内达成数据一致性,就必须在上面两个操作之间做出选择)
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YNoianZt-1594524836607)(img/cap.jpg)]
  
  hbase是CAP中的CP系统,即hbase是强一致性的

七 HBase 的安装与实战

7.1 HBase的安装

下载安装包 http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz

配置伪分布式环境

环境变量配置

export HBASE_HOME=/usr/local/development/hbase-1.2.4
export PATH=$HBASE_HOME/bin:$PATH

配置hbase-env.sh

export JAVA_HOME=/usr/local/development/jdk1.7.0_15
export HBASE_MANAGES_ZK=false  --如果你是使用hbase自带的zk就是true，如果使用自己的zk就是false

配置hbase-site.xml

<property>
      <name>hbase.rootdirname>　　--hbase持久保存的目录
      <value>hdfs://hadoop001:8020/opt/hbasevalue>   
property>
<property>
      <name>hbase.cluster.distributedname>  --是否是分布式
      <value>truevalue>
property>
<property>     
          <name>hbase.zookeeper.property.clientPortname>    --指定要连接zk的端口
          <value>2181value>    
property>    
<property>        
          <name>hbase.zookeeper.property.dataDirname>            <value>/home/hadoop/app/hbase/zkDatavalue>    
property>

启动hbase（启动的hbase的时候要保证hadoop集群已经启动）
```
/hbase/bin/start-hbase.sh
```
输入hbase shell（进入shell命令行）

7.2 HBase shell

HBase DDL 和 DML 命令

名称	命令表达式
创建表	create '表名', '列族名1','列族名2','列族名n'
添加记录	put '表名','行名','列名:','值
查看记录	get '表名','行名'
查看表中的记录总数	count '表名'
删除记录	delete '表名', '行名','列名'
删除一张表	第一步 disable '表名' 第二步 drop '表名'
查看所有记录	scan "表名称"
查看指定表指定列所有数据	scan '表名' ,{COLUMNS=>'列族名:列名'}
更新记录	重写覆盖

连接集群

hbase shell

创建表

create 'user','base_info'

删除表

disable 'user'
drop 'user'

创建名称空间

create_namespace 'test'

展示现有名称空间

list_namespace

创建表的时候添加namespace

create 'test:user','base_info'

显示某个名称空间下有哪些表

list_namespace_tables 'test'

插入数据

put ‘表名’，‘rowkey的值’，’列族：列标识符‘，’值‘

put 'user','rowkey_10','base_info:username','Tom'
put 'user','rowkey_10','base_info:birthday','2014-07-10'
put 'user','rowkey_10','base_info:sex','1'
put 'user','rowkey_10','base_info:address','Tokyo'

put 'user','rowkey_16','base_info:username','Mike'
put 'user','rowkey_16','base_info:birthday','2014-07-10'
put 'user','rowkey_16','base_info:sex','1'
put 'user','rowkey_16','base_info:address','beijing'

put 'user','rowkey_22','base_info:username','Jerry'
put 'user','rowkey_22','base_info:birthday','2014-07-10'
put 'user','rowkey_22','base_info:sex','1'
put 'user','rowkey_22','base_info:address','Newyork'

put 'user','rowkey_24','base_info:username','Nico'
put 'user','rowkey_24','base_info:birthday','2014-07-10'
put 'user','rowkey_24','base_info:sex','1'
put 'user','rowkey_24','base_info:address','shanghai'

put 'user','rowkey_25','base_info:username','Rose'
put 'user','rowkey_25','base_info:birthday','2014-07-10'
put 'user','rowkey_25','base_info:sex','1'
put 'user','rowkey_25','base_info:address','Soul'

查询表中的所有数据

scan 'user'

查询某个rowkey的数据

get 'user','rowkey_16'

查询某个列簇的数据

get 'user','rowkey_16','base_info'
get 'user','rowkey_16','base_info:username'
get 'user', 'rowkey_16', {COLUMN => ['base_info:username','base_info:sex']}

删除表中的数据

delete 'user', 'rowkey_16', 'base_info:username'

清空数据

truncate 'user'

操作列簇

alter 'user', NAME => 'f2'
alter 'user', 'delete' => 'f2'

HBase 追加型数据库会保留多个版本数据

desc 'user'
Table user is ENABLED
user
COLUMN FAMILIES DESCRIPTION
{NAME => 'base_info', VERSIONS => '1', EVICT_BLOCKS_ON_CLOSE => 'false', NEW_VERSION_B
HE_DATA_ON_WRITE => 'false', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', MI
ER => 'NONE', CACHE_INDEX_ON_WRITE => 'false', IN_MEMORY => 'false', CACHE_BLOOM
se', COMPRESSION => 'NONE', BLOCKCACHE => 'false', BLOCKSIZE => '65536'}

VERSIONS=>'1’说明最多可以显示一个版本修改数据

put 'user','rowkey_10','base_info:username','Tom'

指定显示多个版本

get 'user','rowkey_10',{COLUMN=>'base_info:username',VERSIONS=>2}

修改可以显示的版本数量

alter 'user',NAME=>'base_info',VERSIONS=>10

命令表

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ElQHKki7-1594524836608)(img/2017-12-27_230420.jpg)]

可以通过HbaseUi界面查看表的信息

端口60010打不开的情况，是因为hbase 1.0 以后的版本，需要自己手动配置，在文件 hbase-site

  
hbase.master.info.port  
60010

7.3 HappyBase操作Hbase

什么是HappyBase
- HappyBase is a developer-friendly Python library to interact with Apache HBase. HappyBase is designed for use in standard HBase setups, and offers application developers a Pythonic API to interact with HBase. Below the surface, HappyBase uses the Python Thrift library to connect to HBase using its Thrift gateway, which is included in the standard HBase 0.9x releases.
HappyBase 是FaceBook员工开发的操作HBase的python库, 其基于Python Thrift, 但使用方式比Thrift简单, 已被广泛应用
启动hbase thrift server : hbase-daemon.sh start thrift
安装happy base
- pip install happybase
使用happy base时可能出现的问题(windows系统)
- happybase1.0在win下不支持绝对路径
- 解决方案：将488行的url_scheme == ”改为url_scheme in (‘代码盘符’, ”)

如何使用HappyBase

建立连接

import happybase
connection = happybase.Connection('somehost')

当连接建立时, 会自动创建一个与 HBase Thrift server的socket链接. 可以通过参数禁止自动链接, 然后再需要连接是调用 Connection.open():

connection = happybase.Connection('somehost', autoconnect=False)
# before first use:
connection.open()

Connection 这个类提供了一个与HBase交互的入口, 比如获取HBase中所有的表: Connection.tables():

print(connection.tables())

操作表
- Table类提供了大量API, 这些API用于检索和操作HBase中的数据。在上面的示例中，我们已经使用Connection.tables（）方法查询HBase中的表。如果还没有任何表，可使用Connection.create_table（）创建一个新表：

connection.create_table('users',{'cf1': dict()})

创建表之后可以传入表名获取到Table类的实例:
```
table = connection.table('mytable')
```
查询操作

# api
table.scan() #全表查询
table.row(row_keys[0]) # 查询一行
table.rows(row_keys) # 查询多行
#封装函数
def show_rows(table, row_keys=None):
    if row_keys:
        print('show value of row named %s' % row_keys)
        if len(row_keys) == 1:
            print(table.row(row_keys[0]))
        else:
            print(table.rows(row_keys))
    else:
        print('show all row values of table named %s' % table.name)
        for key, value in table.scan():
            print(key, value)

插入数据

#api
table.put(row_key, {cf:cq:value})
def put_row(table, column_family, row_key, value):
    print('insert one row to hbase')
    #put 'user','rowkey_10','base_info:username','Tom'
    #{'cf:cq':’数据‘}
    table.put(row_key, {'%s:name' % column_family:'name_%s' % value})

def put_rows(table, column_family, row_lines=30):
    print('insert rows to hbase now')
    for i in range(row_lines):
        put_row(table, column_family, 'row_%s' % i, i)

删除数据

#api
table.delete(row_key, cf_list)
    
#函数封装    
def delete_row(table, row_key, column_family=None, keys=None):
    if keys:
        print('delete keys:%s from row_key:%s' % (keys, row_key))
        key_list = ['%s:%s' % (column_family, key) for key in keys]
        table.delete(row_key, key_list)
    else:
        print('delete row(column_family:) from hbase')
        table.delete(row_key)

删除表

#api
conn.delete_table(table_name, True)
#函数封装
def delete_table(table_name):
    pretty_print('delete table %s now.' % table_name)
    conn.delete_table(table_name, True)

完整代码

  import happybase
  
  hostname = '192.168.199.188'
  table_name = 'users'
  column_family = 'cf'
  row_key = 'row_1'
  
  conn = happybase.Connection(hostname)
  
  def show_tables():
      print('show all tables now')
      tables =  conn.tables()
      for t in tables:
          print t
  
  def create_table(table_name, column_family):
      print('create table %s' % table_name)
      conn.create_table(table_name, {column_family:dict()})
  
  
  def show_rows(table, row_keys=None):
      if row_keys:
          print('show value of row named %s' % row_keys)
          if len(row_keys) == 1:
              print table.row(row_keys[0])
          else:
              print table.rows(row_keys)
      else:
          print('show all row values of table named %s' % table.name)
          for key, value in table.scan():
              print key, value
  
  def put_row(table, column_family, row_key, value):
      print('insert one row to hbase')
      table.put(row_key, {'%s:name' % column_family:'name_%s' % value})
  
  def put_rows(table, column_family, row_lines=30):
      print('insert rows to hbase now')
      for i in range(row_lines):
          put_row(table, column_family, 'row_%s' % i, i)
  
  def delete_row(table, row_key, column_family=None, keys=None):
      if keys:
          print('delete keys:%s from row_key:%s' % (keys, row_key))
          key_list = ['%s:%s' % (column_family, key) for key in keys]
          table.delete(row_key, key_list)
      else:
          print('delete row(column_family:) from hbase')
          table.delete(row_key)
  
  def delete_table(table_name):
      pretty_print('delete table %s now.' % table_name)
      conn.delete_table(table_name, True)
  
  def pool():
      pretty_print('test pool connection now.')
      pool = happybase.ConnectionPool(size=3, host=hostname)
      with pool.connection() as connection:
          print connection.tables()
  
  def main():
      # show_tables()
      # create_table(table_name, column_family)
      # show_tables()
  
      table = conn.table(table_name)
      show_rows(table)
      put_rows(table, column_family)
      show_rows(table)
      #
      # # 更新操作
      # put_row(table, column_family, row_key, 'xiaoh.me')
      # show_rows(table, [row_key])
      #
      # # 删除数据
      # delete_row(table, row_key)
      # show_rows(table, [row_key])
      #
      # delete_row(table, row_key, column_family, ['name'])
      # show_rows(table, [row_key])
      #
      # counter(table, row_key, column_family)
      #
      # delete_table(table_name)
  
  if __name__ == "__main__":
      main()

八 HBase表设计

设计HBase表时需要注意的特点
- HBase中表的索引是通过rowkey实现的
- 在表中是通过Row key的字典顺序来对数据进行排序的, 表中Region的划分通过起始Rowkey和结束Rowkey来决定的
- 所有存储在HBase中的数据都是二进制字节, 没有数据类型
- 原子性只在行内保证, HBase表中没有多行事务
- 列族(Column Family)在表创建之前就要定义好
- 列族中的列标识(Column Qualifier)可以在表创建后动态插入数据的时候添加
- 不同的column family保存在不同的文件中。
如何设计HBase表
- Row key的结构该如何设置, Row key中又该包含什么样的信息
- 表中应该有多少的列族
- 列族中应该存储什么样的数据
- 每个列族中存储多少列数据
- 列的名字分别是什么
- cell中应该存储什么样的信息
- 每个cell中存储多少个版本信息
DDI 目的是为了克服HBase架构上的缺陷(join繁琐只有row key索引等)
- Denormalization (反规范化, 解决join麻烦的问题)
- Duplication (数据冗余)
- Intelligent keys(通过row key设计实现索引排序对读写优化)

8.2 HBase表设计案例: 社交应用互粉信息表

设计表保存应用中用户互粉的信息
- 读场景:
  - 某用户都关注了哪些用户
  - 用户A有没有关注用户B
  - 谁关注了用户A
- 写场景
  - 用户关注了某个用户
  - 用户取消关注了某个用户
设计1:
- colunm qulifier(列名) 1: 2:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jOJ49Qxj-1594524836609)(img/table1.png)]
设计2
- 添加了一个 count 记录当前的最后一个记录的列名
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GtuEIsB5-1594524836610)(img/table2.png)]
设计3
- 列名 user_id
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6pQJBdjR-1594524836611)(img/table3.png)]
最终设计(DDI)
- 解决谁关注了用户A问题
  - ① 设计一张新表, 里面保存某个用户和他的粉丝
  - ② 在同一张表中同时记录粉丝列表的和用户关注的列表, 并通过Rowkey来区分
    - 01_userid: 用户关注列表
    - 02_userid: 粉丝列表
  - 上两种设计方案的问题(事务)
案例总结
- Rowkey是HBase表结构设计中很重要的环节, 直接影响到HBase的效率和性能
- HBase的表结构比传统关系型数据库更灵活, 能存储任何二进制数据,无需考虑数据类型
- 利用列标识(Column Qualifier)来存储数据
- 衡量设计好坏的简单标准是否会全表查询

九 HBase组件

9.1 HBase 基础架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VpaysLJn-1594524836612)(img/structure.jpg)]

Client

①与zookeeper通信, 找到数据入口地址
②使用HBase RPC机制与HMaster和HRegionServer进行通信；
③Client与HMaster进行通信进行管理类操作；
④Client与HRegionServer进行数据读写类操作。

Zookeeper

①保证任何时候，集群中只有一个running master，避免单点问题；
②存贮所有Region的寻址入口，包括-ROOT-表地址、HMaster地址；
③实时监控Region Server的状态，将Region server的上线和下线信息，实时通知给Master；
④存储Hbase的schema，包括有哪些table，每个table有哪些column family。

HMaster

可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。

角色功能：

①为Region server分配region；
②负责region server的负载均衡；
③发现失效的region serve并重新分配其上的region；
④HDFS上的垃圾文件回收；
⑤处理用户对表的增删改查操作。

HRegionServer

HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据。

作用：

①维护Master分配给它的region，处理对这些region的IO请求；
②负责切分在运行过程中变得过大的region。
此外，HRegionServer管理一系列HRegion对象，每个HRegion对应Table中一个Region，HRegion由多个HStore组成，每个HStore对应Table中一个Column Family的存储，Column Family就是一个集中的存储单元，故将具有相同IO特性的Column放在一个Column Family会更高效。

HStore

HBase存储的核心，由MemStore和StoreFile组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4BmuQiT1-1594524836613)(img/2.png)]

用户写入数据的流程为：client访问ZK, ZK返回RegionServer地址-> client访问RegionServer写入数据 -> 数据存入MemStore，一直到MemStore满 -> Flush成StoreFile

HRegion

一个表最开始存储的时候，是一个region。
一个Region中会有个多个store，每个store用来存储一个列簇。如果只有一个column family，就只有一个store。
region会随着插入的数据越来越多，会进行拆分。默认大小是10G一个。

HLog

在分布式系统环境中，无法避免系统出错或者宕机，一旦HRegionServer意外退出，MemStore中的内存数据就会丢失，引入HLog就是防止这种情况。

9.2 HBase模块协作

HBase启动
- HMaster启动, 注册到Zookeeper, 等待RegionServer汇报
- RegionServer注册到Zookeeper, 并向HMaster汇报
- 对各个RegionServer(包括失效的)的数据进行整理, 分配Region和meta信息
RegionServer失效
- HMaster将失效RegionServer上的Region分配到其他节点
- HMaster更新hbase: meta 表以保证数据正常访问
HMaster失效
- 处于Backup状态的其他HMaster节点推选出一个转为Active状态
- 数据能正常读写, 但是不能创建删除表, 也不能更改表结构

,无需考虑数据类型

利用列标识(Column Qualifier)来存储数据
衡量设计好坏的简单标准是否会全表查询

九 HBase组件

9.1 HBase 基础架构

[外链图片转存中…(img-VpaysLJn-1594524836612)]

Client

①与zookeeper通信, 找到数据入口地址
②使用HBase RPC机制与HMaster和HRegionServer进行通信；
③Client与HMaster进行通信进行管理类操作；
④Client与HRegionServer进行数据读写类操作。

Zookeeper

①保证任何时候，集群中只有一个running master，避免单点问题；
②存贮所有Region的寻址入口，包括-ROOT-表地址、HMaster地址；
③实时监控Region Server的状态，将Region server的上线和下线信息，实时通知给Master；
④存储Hbase的schema，包括有哪些table，每个table有哪些column family。

HMaster

可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。

角色功能：

①为Region server分配region；
②负责region server的负载均衡；
③发现失效的region serve并重新分配其上的region；
④HDFS上的垃圾文件回收；
⑤处理用户对表的增删改查操作。

HRegionServer

HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据。

作用：

①维护Master分配给它的region，处理对这些region的IO请求；
②负责切分在运行过程中变得过大的region。
此外，HRegionServer管理一系列HRegion对象，每个HRegion对应Table中一个Region，HRegion由多个HStore组成，每个HStore对应Table中一个Column Family的存储，Column Family就是一个集中的存储单元，故将具有相同IO特性的Column放在一个Column Family会更高效。

HStore

HBase存储的核心，由MemStore和StoreFile组成。

[外链图片转存中…(img-4BmuQiT1-1594524836613)]

用户写入数据的流程为：client访问ZK, ZK返回RegionServer地址-> client访问RegionServer写入数据 -> 数据存入MemStore，一直到MemStore满 -> Flush成StoreFile

HRegion

一个表最开始存储的时候，是一个region。
一个Region中会有个多个store，每个store用来存储一个列簇。如果只有一个column family，就只有一个store。
region会随着插入的数据越来越多，会进行拆分。默认大小是10G一个。

HLog

在分布式系统环境中，无法避免系统出错或者宕机，一旦HRegionServer意外退出，MemStore中的内存数据就会丢失，引入HLog就是防止这种情况。

9.2 HBase模块协作

HBase启动
- HMaster启动, 注册到Zookeeper, 等待RegionServer汇报
- RegionServer注册到Zookeeper, 并向HMaster汇报
- 对各个RegionServer(包括失效的)的数据进行整理, 分配Region和meta信息
RegionServer失效
- HMaster将失效RegionServer上的Region分配到其他节点
- HMaster更新hbase: meta 表以保证数据正常访问
HMaster失效
- 处于Backup状态的其他HMaster节点推选出一个转为Active状态
- 数据能正常读写, 但是不能创建删除表, 也不能更改表结构

你可能感兴趣的:(hadoop,分布式,大数据)

.NET Core 中如何构建一个弹性的 HTTP 请求机制？牛马程序员_江 .netcore http 网络协议 spring
.NETCore中如何构建一个弹性的HTTP请求机制？1.理解弹性HTTP请求机制什么是弹性？弹性是指系统在面对故障或异常情况时，能够保持或快速恢复到正常状态的能力。在HTTP请求的上下文中，弹性意味着当请求失败时，系统能够自动采取一系列措施（如重试、降级、断路等）来确保请求最终成功或优雅地处理失败。为什么需要弹性HTTP请求机制？在分布式系统中，服务间的依赖关系复杂，任何一个服务的故障都可能导致
.NET Core 中如何构建一个弹性HTTP 请求机制 !chen 技术分享 .netcore http 网络协议
1.理解弹性HTTP请求机制什么是弹性？弹性是指系统在面对故障或异常情况时，能够保持或快速恢复到正常状态的能力。在HTTP请求的上下文中，弹性意味着当请求失败时，系统能够自动采取一系列措施（如重试、降级、断路等）来确保请求最终成功或优雅地处理失败。为什么需要弹性HTTP请求机制？在分布式系统中，服务间的依赖关系复杂，任何一个服务的故障都可能导致整个系统的不可用。弹性HTTP请求机制可以帮助我们：提
从入门到精通：HttpClient深度剖析与实战指南步、步、为营 c#.netcore asp.net 微服务
一、引言1.1背景引入在当今数字化时代，网络编程已成为软件开发中不可或缺的一部分。而HTTP通信作为网络编程的核心，承担着客户端与服务器之间数据传输的重任。无论是Web应用、移动应用，还是分布式系统，HTTP协议都扮演着关键角色，它使得不同设备、不同平台之间能够高效地进行数据交互。在Java开发领域，为了实现HTTP通信，我们有众多工具可供选择，其中ApacheHttpClient脱颖而出，成为开
数据采集与存储——Elasticsearch实战详解 AI天才研究院 Python实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是一个基于Lucene构建的开源分布式搜索引擎，主要用于大规模数据的存储、检索、分析等功能。Elasticsearch非常适合处理结构化和非结构化的数据，并且提供完整的RESTfulAPI接口，可以与多种语言的客户端进行交互。本文将从以下几个方面对Elasticsearch进行详细介绍：⒈Elasticsearch的历史及特性介绍；⒉E
Redis学习笔记 csdn_bobo_6 redis 学习数据库
认识NoSQLNoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在处理web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，出现了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，特别是大数据应用难题。NoSQL特点方便扩展（
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
Hive数据仓库中的数据导出到MySQL的数据表不成功 sin2201 出错问题数据仓库 hive mysql
可能的原因：(1)没有下载flume和sqoop(2)权限问题：因为MySQL数据库拒绝了root用户从hadoop3主机的连接请求，root用户没有从hadoop3主机进行连接的权限解决：通过MySQL的授权命令来授予权限mysql>GRANTALLPRIVILEGESONsqoop_weblog.*TO'root'@'hadoop3'IDENTIFIEDBY'2020';QueryOK,0ro
深度解析 Git 的使用：版本控制的核心工具 qq_39279448 git
1.Git的基本概念1.1什么是版本控制？版本控制系统（VersionControlSystem,VCS）是一种用于记录文件内容变更历史的工具。多人开发者可以在不同的时间编辑同一个文件，而不必担心覆盖或丢失他人的修改。Git作为一种分布式版本控制系统，允许开发者在本地操作代码的同时，确保所有更改都可以被追踪和协同。1.2分布式与集中式的差异集中式版本控制（例如SVN）：所有代码和版本信息都存储在中
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
Lambda离线实时分治架构深度解析与实战喜欢猪猪架构
一、引言在大数据技术日新月异的今天，Lambda架构作为一种经典的数据处理模型，在应对大规模数据应用方面展现出了强大的能力。它整合了离线批处理和实时流处理，为需要同时处理批量和实时数据的应用场景提供了成熟的解决方案。本文将对Lambda架构的演变、核心组件、工作原理及痛点进行深度解析，并通过Java代码实现一个实战实例。二、Lambda架构的演变Lambda架构是由Storm的作者NathanMa
“大模型横扫千军”背后的大数据挖掘--浅谈MapReduce 绒绒毛毛雨大数据挖掘数据挖掘 mapreduce 人工智能
文章目录O背景知识1数据挖掘2邦费罗尼原则3TF.IDF4哈希函数5分布式文件系统一、MapReduce基本介绍1.Map任务2.按键分组3.Reduce任务4.节点失效处理5.小测验：在一个大型语料库上有100个map任务和若干reduce任务：二、基于MapReduce的基本运算1.选择（Selection）2.交（Intersection）3.并（Union）4.补（Difference）5
基于大数据的电影数据分析可视化系统设计与应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于大数据的电影数据分析可视化系统设计与应用作者：禅与计算机程序设计艺术1.背景介绍1.1大数据时代的电影行业随着互联网技术和数字化的发展,电影行业已经进入大数据时代。每天都有海量的电影相关数据在各个平台上生成,包括票房数据、评分数据、影评数据等。这些数据蕴含着巨大的价值,如果能够有效地分析和利用,将为电影行业的发展提供重要的决策支持。1.2电影数据分析与可视化的意义1.2.1洞察电影市场趋势通过
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
Command Center AI 由数入道应急管理人工智能机器学习智能体
CommandCenterAI是一种先进的智能决策支持系统，专门用于应急指挥和资源调度管理，尤其在高压、复杂的环境中，如自然灾害应对、军事指挥、城市公共安全等领域，帮助决策者做出快速、有效的响应。它集成了大数据处理、实时情报分析、优化调度、决策模拟等功能，为指挥官提供多维度的决策支持。1.CommandCenterAI的核心功能1.1实时数据整合与情报分析CommandCenterAI需要从多个数
用 Docker 搭建 Spark 集群 yeasy Bigdata Docker spark Docker 云计算集群分布式计算
简介Spark是Berkeley开发的分布式计算的框架，相对于Hadoop来说，Spark可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉Hadoop的同学也不必担心，Spark很多设计理念和用法都跟Hadoop保持一致和相似，并且在使用上完全兼容HDFS。但是Spark的安装并不容易，依赖包括Java、Scala、HDFS等。通过使用Docker，可以快速的在本地
XXL-CONF v1.7.0 | 分布式服务管理平台（配置中心 & 注册中心）
ReleaseNotes1、【升级】XXL-CONF升级重构，XXL-CONF是一站式服务管理平台，作为服务配置中心与注册中心，提供动态配置管理、服务注册与发现等核心能力；降低中间件认知及运维成本；2、【整合】XXL-CONF整合XXL-RPC注册中心（xxl-rpc-admin）能力，提供轻量级服务动态注册及发现能力；3、【重构】XXL-CONF客户端代码重构，模块化设计实现，提升可扩展性与稳定
VxLAN 分布式对称 IRB 实验 jiecy 数通运维分布式网络运维
一、拓扑描述：CE1上的VRFA上开启用户A的vlan10、20网关，CE2的VRFA上开启用户A的vlan20、30的网关要求：全域互访二、配置思路：1、网络侧配置underlayer底层互通1）CE1、2配置IGP，让loo0互通2）CE1、2建立BGPEVPN邻居，建立EVPN路由传输通道（全局要先开启e-overlayenable）2、配置overlayer上层互通1）网络侧：a、配置BD
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
Github上最热门的11个Java开源项目你会了吗 Java小叮当项目 Github 项目 java 程序员 IT
前言4月份GitHub上最热门的Java开源项目排行已经出炉啦，一起来看看吧！1JimuReport（地址见文末）这是一款免费的数据可视化工具，报表与大屏设计！类似于excel操作风格，在线拖拽完成报表设计！功能涵盖:报表设计、图形报表、打印设计、大屏设计等，永久免费！2dolphinscheduler（地址见文末）ApacheDolphinScheduler是一个可视化的分布式大数据工作流任务调
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分长风清留扬最新Python入门基础合集 python 笔记学习异常处理改行学it 异常 BUG
本文是第二部分，第一部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论异常类型IndexError
有史以来最全的异常类讲解没有之一！第三部分爆肝4万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第三部分长风清留扬最新Python入门基础合集 python 面试异常处理 BUG 异常类型职场和发展改行学it
本文是第三部分，第一第二部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实
还在为Python“运算符”中遇到的BUG而发愁吗？，变量相关的问题和解决办法看这篇文章就够了！长风清留扬 android python bug 运算符
博客主页：长风清留扬-CSDN博客系列专栏：Python疑难杂症百科-BUG编年史每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论关于运算符中常见的问题和解决方法在Python编程的浩瀚宇宙中，变量如同星辰般璀璨，它们承载着数据，驱动着程序的运行。然而，即便是这些看似简单的构建块，也时常隐藏着令
金融数据有哪些，有用的股票API接口数据 nance99 金融 python git
一、金融数据有哪些，有用的股票API接口行情数据金融大数据是为金融机构、个人投资者以及金融应用开发者提供专业的数据和行情报价API服务，满足不同用户在投资过程中丰富多样的行情数据分析和投资研究，以API接口形式为用户提供行情数据API服务，提供的数据包括市场行情、财报、宏观等，还有基于文本分析的股票关联数据。对金融机构或者投资者而言，金融数据是企业财富。实时数据对企业成功至关重要，股票行情数据种类
2024 年 MathorCup 数学应用挑战赛——大数据竞赛赛道 B：电商品类货量预测及品类分仓规划思路和代码持续更新中 2025年数学建模美赛数学建模 2024年大数据第五届MathorCup B题
2024年所有数学建模类比赛的个人思路和代码都会发布到专栏内,会结合最新的chatgpt发布思路,开赛一天后恢复原价99,不代写论文,不回复私信.没有群,只需订阅一次目录问题分析与解决思路问题1：货量预测模型问题2：一品一仓分仓规划问题3：一品多仓分仓规划总结这类大数据竞赛的重点在于构建一个全面的预测和优化模型，通过数据处理、时间序列分析以及运筹优化来完成货量预测和分仓规划。下面是一个解决问题的整
ArkUI页面导航机制荔枝寄 harmonyos
鸿蒙操作系统（HarmonyOS）是华为公司自主研发的分布式操作系统，旨在为不同设备提供统一的操作平台。它支持多种终端设备，包括但不限于智能手机、平板电脑、智能手表等，并能够实现设备间的无缝协同工作。为了适应这一特性，鸿蒙引入了ArkUI，一个专为鸿蒙设计的用户界面开发框架。ArkUI页面导航机制在鸿蒙操作系统中，页面导航是指在应用的不同页面之间进行切换和传递数据的过程。良好的页面导航设计对于用户
基于知识图谱的用户画像构建与应用 cooldream2009 AI技术知识图谱知识图谱人工智能
目录前言1.知识图谱在用户画像中的作用1.1数据整合与清洗1.2多维关系挖掘1.3动态更新能力1.4可解释性2.用户画像构建过程中的知识图谱应用2.1数据采集2.2知识图谱构建2.2.1实体节点构建2.2.2关系建模2.3用户画像生成2.3.1静态特征2.3.2动态特征2.3.3关系网络3.基于知识图谱的用户画像应用场景3.1精准营销3.2内容推荐3.3用户需求预测3.4风险控制结语前言随着大数据
从 TCP/IP 演进看按序流与性能 dog250 tcp/ip 网络协议网络
前面谈到互联网从早期对等通信模型转入后来内容分发模型后的一系列问题，诸如拥塞，安全等，本文谈谈关于性能的更普遍方面。TCP/IP祖师爷1974年的开山论文AProtocolforPacketNetworkIntercommunication以及随后RFC675，标志着TCP/IP的正式诞生，在此之前还有一个里程碑事件，即RFC33NCP标准化。RFC33解决了分布式通信问题，而RFC675解决了异
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

大数据分析_Hive&HBase

Hive

一 Hive基本概念

1 Hive简介 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Cgh92nK-1594524836596)(/img/hive.jpg)]

1.2 为什么使用 Hive

2 Hive 架构

2.1 Hive 架构图

2.2 Hive 组件

2.3 Hive 与 Hadoop 的关系

3 Hive 与传统数据库对比

4 Hive 数据模型

5 Hive 安装部署

二 Hive 基本操作

2.1 Hive HQL操作初体验

2.2 Hive的内部表和外部表

2.3 分区表

2.4 动态分区

三 Hive 函数

3.1 内置运算符

3.2 内置函数

3.3 Hive 自定义函数和 Transform

四 hive综合案例

五 HBase简介与环境部署

5.1 HBase简介&在Hadoop生态中的地位

5.1.1 什么是HBase

5.1.2 BigTable

5.1.3 面向列的数据库

5.1.4 什么是非结构化数据存储

5.1.5 HBase在Hadoop生态中的地位

5.1.6 HBase与HDFS

5.1.7 HBase使用场景

cap定理

七 HBase 的安装与实战

7.1 HBase的安装

7.2 HBase shell

7.3 HappyBase操作Hbase

八 HBase表设计

8.2 HBase表设计案例: 社交应用互粉信息表

九 HBase组件

9.1 HBase 基础架构

9.2 HBase模块协作

九 HBase组件

9.1 HBase 基础架构

9.2 HBase模块协作

你可能感兴趣的:(hadoop,分布式,大数据)