Vics异地我就

hadoop离线day08--数据仓库、Apache Hive

今日内容大纲

#1、数据仓库基础知识 
    数仓是什么 数据分析的平台 面向分析
    数仓由何而来
    数仓核心特性
    数仓和数据库区别
        解决一个核心的误区：数仓绝不是大型数据库。~~~ 凉凉
        OLTP  T 事务
        OLAP  A 分析
    数仓的分层架构 
#2、当下大数据领域最著名的数仓软件  Apache Hive
    Hive是什么 数仓
        基于Hadoop的数仓  如何理解和Hadoop关系
    核心功能：
        1、将结构化文件映射成为一张表（Table）
        2、基于表提供了SQL分析能力 （Hive SQL HQL,类SQL）
    本质：用户HQL--->Hive转换MR--->数据分析    
    Hive架构组件
    Hive搭建安装
        不是分布式软件 分布式能力基于Hadoop实现
        metastore  metadata
        远程模式部署安装
        客户端使用 IDEA中使用 
    
#3、 HQL--DDL--Create Table 
     DDL 数据定义语言  表结构信息
     建表语句及其重要 占比99.9999%

数据仓库基础

数据仓库概念

检测数仓。英文叫做Data WareHouse,简称DW。
是一个集成化的数据分析平台，面向分析，开展分析。分析结果给企业提供决策支撑。

数仓本身不生产数据

其数据来自于各种数据源

RDBMS关系型数据库--->业务数据
log file----->日志文件数据
爬虫数据
其他数据

数仓本身也不消费数据

其分析的结果给外部各种数据应用（Data application）来使用。

Data visualization（DV）数据可视化
Data Report 数据报表
Data Mining(DM) 数据挖掘
Ad-Hoc 即席查询：
    即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询是由用户自定义查询条件的。

数仓核心特性

面向主题性

分析主题  主题是一个抽象概念 分析数据的综合体
一个分析的主题可以对应多个数据源

集成性

数仓本身不产生数据 其分析的主题数据来自于各个不同的数据源 需要集成到数仓主题下面。
因为主题的数据来自于不同的数据源 可能会存在差异  数据源之间不同的结构
集成到主题下面的要保证数据格式是干净规整统一的结构化数据。

需要持续的动作 ：ETL（抽取 Extra, 转化 Transfer, 装载 Load）

非易失性（不可更新性）

数仓上面的数据几乎没有修改操作，都是分析的操作。

数仓是分析数据规律的平台 不是创造数据规律的平台。

指的数据之间的规律不能修改。

当下发现有些时间也是需要修改的  数据校正。数据缓慢变化。


#当下所学的侧重于离线数据 分析的数据都是历史数据 过去的数据  t+1 t+7 
#后面还会接触实时数仓   kafka+flink

时变性

数仓中主题数据站在时间的维度会明显成批次变化。
一天一分析 一周一分析  批次分析Batch 

batch(天 月 离线)---> batch（秒 spark Streaming 微批处理）--->Stream(毫秒 flink storm)

数据仓库和数据库

本质就是OLTP、OLAP系统之间的区别。

OLTP：On-Line Transaction Processing 联机事务处理。

OLTP系统注重的是数据安全、完整、响应效率。通常指的就是RDBMS关系型数据库。

#面向事务 支持事务

#RDBMS: MySQL ORACLE

#注意 不是NoSQL数据库 没有事务支持： Redis HBase

OLAP：On-Line Analytical Processing 联机分析处理。中文发音：欧莱普

OLAP系统注重的数据分析。主要指的是数据仓库、数据集市（小型数仓）、面向分析数据库、面向分析的软件

#面向分析 支持分析

#数据仓库：Apache Hive 、Apache impala、Apache Kylin

结论
- 数据仓库绝不是大型数据库，即使外表与语法跟数据库很类似。
- 数据仓库也没有要取代数据库的职责，主要用于数据分析领域而不是事务领域。

数据仓库分层架构

根据数仓数据的流入流出
最基本、最经典的3层架构企业实际中根据需求构建其他层

具体：

ODS 源数据层操作型数据存储层

把各个数据源数据拉取过来存储 解耦 临时存储 数据之间一般差异较大 不用于直接分析

DW 数仓层核心

其数据来自于ODS经过层层的ETL变成各种模型的数据  数据干净规则 统一
基于各种模型开展各种分析

企业中根据业务复杂度 继续在DW中继续划分子层。 存储大量的中间结果。

DA 数据应用层

最终消费数仓的数据的。
数据报表 数据挖掘

数仓为什么要分层？
- 解耦合
- 空间换时间提高最终应用层使用数据的效率

Apache Hive

Hive 是基于Hadoop 的一个数据仓库工具，来自于Facebook开源贡献出来。是面向分析的工具。

为什么数是基于Hadoop？

#一款合格的数仓软件应该具备什么？
    1、具备存储数据的能力？
    2、具备数据分析的能力？
hive作为数仓软件，当然也具备上述功能，只不过基于Hadoop实现的。
    1、数据存储--->Hadoop HDFS
    2、数据分析、计算--->Hadoop MapReduce

#基于上述原因，说Hive是基于Hadoop的。

在此过程中，Hive做了什么？其最大的魅力在哪里？
- 将结构化的数据文件映射为一张数据库表
```
#什么叫做映射
映射指的就是一种对应关系。y=2x+1

结构化文件  <---映射--->  表
```
- 并提供类 SQL 查询功能让用户编写SQL实现数据分析。
```
Hive SQL--->MapReduce--->数据分析
```

Hive的架构组件

用户接口

提供一种方式给用户写HQL。
包括CLI、JDBC、WebUI

Hive Driver驱动服务

hive的核心
完成从接受HQL到编译成为MR程序的过程。
sql解释 编译 校验 优化 制定计划

元数据存储

元数据指的是描述性数据 记录数据的数据。

在hive中，元数据指的是表和结构化文件之间的各种映射关系。基于这种关系才能正确的操作文件。

元数据通常保存在RDBMS中。

Hadoop组件
- 执行引擎
  - 默认使用MapReduce来处理的，现在还支持其他引擎，比如Tez、Spark.
- 存储组件
  - HDFS、HBase
结论：Hive本身不是分布式的软件，只需要单机部署即可，但是具备分布式的能力。
```
分布式存储和分布式计算的能力是依托Hadoop实现的。

Hive专职与sql转MR的过程。
```

Hive和数据库关系
- 从外表、形式模型、语法各层面上看，hive和数据库（Mysql）很类似。
- 底层应用场景是完全不一样的。
- hive属于olap系统是面向分析的侧重于数据分析（select）
- 数据库属于oltp系统是面向事务的侧重于数据时间交互（CRUD）
- Hive绝不是大型数据库也不是为了要取代MySQL这样的数据库。

Apache Hive安装部署

前置知识：元数据相关的

metadata 元数据

指的是元数据，hive中指的是表和文件之间的映射关系。
元数据存储在rdbms中，主要有两种
    1、使用Hive内置的Apache derby(内存轻量级RDBSM low)
    2、使用外置第三方的 MySQL

metastore 元数据服务

访问Hive元数据的服务 某种程度上保证了metadata的安全。

Hive的3种部署模式和上述的两个概念有关。
- metadata存储在哪里？
- metastore服务是否需要单独配置，单独启动？还是集成在Hive驱动中一起启动。

Hive3种部署方式

区别：

1、metadata存储在哪里？
2、metastore服务是否需要单独配置，单独启动？还是集成在Hive驱动中一起启动。

内嵌模式

1、使用内置Derby存储元数据
2、metastore集成在Hive中 不需要单独配置 不需要单独启动

适合体验场景。

本地模式

1、使用MySQL来存储元数据。
2、metastore集成在Hive中 不需要单独配置 不需要单独启动

适合测试场景。

远程模式

#1、使用MySQL来存储元数据。
#2、metastore单独配置 单独启动 全局唯一。



    hive.metastore.uris
    thrift://node1:9083


适合生产环境。

本课程中使用远程模式部署安装，真实使用环境。

Hive的远程模式安装

服务器基础环境
依赖Hadoop、MySQL。保证服务启动且可用。
```
HDFS安全模式等待结束。
MySQL的权限。
```

step1:修改Hadoop配置core-site.xml 设置hive代理用户。 3台机器都需要修改，重启生效。


    hadoop.proxyuser.root.hosts
    *


    hadoop.proxyuser.root.groups
    *

step2:上传Hive安装包解压重命名（只需要在node1安装即可）

step3:修改hive的配置文件

hive-env.sh

export HADOOP_HOME=/export/server/hadoop-2.7.5
export HIVE_CONF_DIR=/export/server/hive/conf
export HIVE_AUX_JARS_PATH=/export/server/hive/lib

hive-site.xml




    javax.jdo.option.ConnectionURL
    jdbc:mysql://node1:3306/hive?createDatabaseIfNotExist=true&useSSL=false


    javax.jdo.option.ConnectionDriverName
    com.mysql.jdbc.Driver


    javax.jdo.option.ConnectionUserName
    root


    javax.jdo.option.ConnectionPassword
    hadoop



    hive.server2.thrift.bind.host
    node1



    hive.metastore.uris
    thrift://node1:9083



    hive.metastore.event.db.notification.api.auth
    false



    hive.metastore.schema.verification
    false

step4:添加mysql驱动和hive-jdbc-2.1.0-standalone.jar 到hive中

mysql驱动
```
mysql-connector-java-5.1.32.jar
```

jdbc-standalong.jar

cp /export/server/hive/jdbc/hive-jdbc-2.1.0-standalone.jar /export/server/hive/lib/

step5:手动初始化metastore

cd /export/server/hive/

bin/schematool -dbType mysql -initSchema

step6:启动metastore服务

前台启动

/export/server/hive/bin/hive --service metastore

#关闭方式ctrl+c 结束metastore服务

后台挂起启动

nohup /export/server/hive/bin/hive --service metastore &

#nohup命令，在默认情况下（非重定向时），会输出一个名叫nohup.out 的文件到当前目录下

#关闭使用jps查看进程 Runjar 配合kill -9

Hive CLI命令行客户端

概述
- Hive发展至今，存在着两代版本的命令行客户端。
- 第一代是属于shell客户端 bin/hive
- 第二代是属于jdbc客户端 bin/beeline
第一代客户端
- 命令：bin/hive
- 需要访问：metastore服务
- 配置
```
        hive.metastore.uris
        thrift://node1:9083
```
- 演示：为了模拟企业环境 scphive安装包到node3机器上。
- hive 服务（node1） <------------ hive客户端

第二代客户端

命令：bin/beeline
需要访问：hiveserver2服务（需要访问的是metastore服务）
客户端不需要任何配置在服务器需要添加参数
```
    hive.server2.thrift.bind.host
    node1
```

启动服务

nohup /export/server/hive/bin/hive --service metastore &

nohup /export/server/hive/bin/hive --service hiveserver2 &

beeline可以连接

/export/server/hive/bin/beeline

beeline> ! connect jdbc:hive2://node1:10000   #JDBC地址
Connecting to jdbc:hive2://node1:10000
Enter username for jdbc:hive2://node1:10000: root #用户名 需要具备在HDFS操作权限
Enter password for jdbc:hive2://node1:10000:      #密码 可以为空
Driver: Hive JDBC (version 2.1.0)
21/06/01 16:44:36 [main]: WARN jdbc.HiveConnection: Request to set autoCommit to false; Hive does not support autoCommit=false.
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://node1:10000>

Hive体验
- 目的：如何才能在Hive中创建一张表并且成功映射一份结构化的数据文件。
- 猜想1：表字段顺序、个数、类型要和文件一致吗？必须一致。
  
  如果不一致，Hive会尝试进行类型转换，但是不保证转换成功，如果成功显示内容，不成功显示null.
```
create table t_1(id int,name string,age int);--没有指定分隔符

create table t_2(id int,name string,age int) row format delimited fields terminated by ',';

create table t_3(id string,name int,age int) row format delimited fields terminated by ','; --类型和文件不一样
```
- 猜想2：文件位置放置在HDFS哪里？放在对应的目录下？一定要放在这里吗？不一定
```
#在hive中创建的表 默认在HDFS有与之对应的目录
/user/hive/warehouse/数据库名.db/表名
```
- 猜想3：必须要指定文件的分隔符？不一定。
- 为什么要追求建表的时候映射成功文件？
  - 因为映射成功才有表，表才有数据，有数据才可以写sql进行分析。
  - 没有表，表没有数据，分析个锤子。

Hive SQL DDL--Create Table

IF NOT EXISTS

功能：忽略表已经存在的异常。

0: jdbc:hive2://node1:10000> create table t_2(id int,name string,age int) row format delimited fields terminated by ',';
Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. AlreadyExistsException(message:Table t_2 already exists) (state=08S01,code=1)
0: jdbc:hive2://node1:10000> creaeadaa table t_2(id int,name string,age int) row format delimited fields terminated by ',';
Error: Error while compiling statement: FAILED: ParseException line 1:0 cannot recognize input near 'creaeadaa' 'table' 't_2' (state=42000,code=40000)

--Error while processing statement 执行期间的错误 执行逻辑问题 sql本身没问题

--Error while compiling statement  编译期间的错误  SQL语法问题 关键字 功能是否支持  语法顺序

Hive的数据类型
- 除了支持SQL类似之外，还支持Java数据类型。
- Hive中大小写不敏感。
- Hive除了支持基本数据类型之外，还支持复杂（复合）数据类型。比如：Array数组、Map映射。
- 针对复合数据类型，在建表的时候必须配合分隔符指定语法才可以正确解析。
- Hive的数据类型转换
  - 默认隐式转换虽然可以自动转换一些类型但是最好自己根据数据确定准确的类型。避免转换失败。
  - 用户显示转换 cast(类型 as 新类型)

Hive SerDe机制

背景：Hive究竟如何读写HDFS上面的文件。

HDFS files --> InputFileFormat -->  --> Deserializer --> Row object
Row object --> Serializer -->  --> OutputFileFormat --> HDFS files

#读文件流程 映射文件流程

1、通过InputFormat类读取文件 默认实现TextInputFormat
   一行一行的读取数据

2、然后通过SerDe类进行反序列化 默认实现LazySimpleSerDe   
   在反序列化的时候 需要指定分隔符切割数据 对应上表的字段
   
#写文件流程
Row object --> Serializer -->  --> OutputFileFormat --> HDFS files

分隔符指定

语法

row format delimited | serde serde_name

--row format 表明开始指定分隔符
    --delimited  使用默认SerDe类进行序列化（LazySimpleSerDe）
    --serde serde_name 指定使用其他的SerDe类进行序列化  比如JsonSerDe

delimited 子语法

[fields terminated by char]   --指定字段之间的分隔符
[collection items terminated by char] --指定集合元素之间的分隔符
[map keys terminated by char]    --指定map类型数据key value之间的分隔符
[lines terminated by char]       --指定换行符

栗子

--Array类型数据分别使用String和Array来建表 如何？

--以Array映射文件
create table t_array(name string,work_locations array) row format
delimited fields terminated by '\t' collection items terminated by ',';
+---------------+----------------------------------------------+--+
| t_array.name  |            t_array.work_locations            |
+---------------+----------------------------------------------+--+
| zhangsan      | ["beijing","shanghai","tianjin","hangzhou"]  |
| wangwu        | ["shanghai","chengdu","wuhan","haerbin"]     |
+---------------+----------------------------------------------+--+
    
--以string映射文件   
create table t_string(name string,work_locations string) row format
delimited fields terminated by '\t';

+----------------+------------------------------------+--+
| t_string.name  |      t_string.work_locations       |
+----------------+------------------------------------+--+
| zhangsan       | beijing,shanghai,tianjin,hangzhou  |
| wangwu         | shanghai,chengdu,wuhan,haerbin     |
+----------------+------------------------------------+--+

--需求：查询每个用户的第二个工作城市
select  split(work_locations,",")[1] from t_string;
select  work_locations[1] from t_array;

Hive默认的分隔符
- 在建表的时候，如果不写row format语法，此时采用默认分隔符对数据字段进行切割
- 如果此时文件中的分隔符也是默认分隔符就可以实现不指定分隔符也可以建表成功。
- 默认分隔符是不可见分隔符，代码\001
- 在vim编辑器中如何输入：连续输入ctrl+v ,ctrl+a
- 在企业中，如何涉及到数据清洗处理，有意识使用\001进行数据分割便于入库分析。
```
public String toString() {
    return upFlow+"\001"+downFlow+"\001"+sumFlow;
}
```

Hive的外部表、内部表

区别：
- 1、建表的时候是否有external关键字，如果有就是外部表，如果没有就是内部表。
- 2、在drop删除表的时候
  - 删除内部表，hive表的信息（元数据）和HDFS上映射的文件都被删除
```
因为内部表，hdfs上文件也被hive控制，所以也叫做受控表 manage table.
```
  - 删除外部表，只删除hive的表信息。

栗子

--内部表
create table student_inner(Sno int,Sname string,Sex string,Sage int,Sdept string) row format delimited fields terminated by ',';

--建外部表
create external table student_ext(Sno int,Sname string,Sex string,Sage int,Sdept string) row format delimited fields terminated by ',';

选择使用外部表，在某种程度上，保证了HDFS上数据安全。

Location语法
- 功能：指定Hive表映射的文件在HDFS上存储的路径
- 默认路径：/user/hive/warehouse/数据库名.db/表名
- 可以使用location指定在hdfs任意路径
```
--在HDFS的/stu目录下 有一个结构化的数据文件  建表映射它
create external table student_location(Sno int,Sname string,Sex string,Sage int,Sdept string) row format delimited fields terminated by ',' location '/stu';
```
- 建议使用同一的目录来管理hdfs数据。有规律便于管理。

你可能感兴趣的:(Java基础,Hadoop)

JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
JAVA相关知识 M_灵均 java jvm 开发语言
JAVA基础知识说一下对象创建的过程？类加载检查：当Java虚拟机（JVM）遇到一个类的new指令时，它首先检查这个类是否已经被加载、链接和初始化。如果没有，JVM会通过类加载器（ClassLoader）加载这个类。分配内存：JVM为新对象分配内存。这个内存分配是在堆（Heap）上进行的，堆是JVM用来存储对象实例的地方。分配内存的大小在类加载时就已经确定，因为类的结构（包括字段和方法）已经确定。
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
字节跳动面试官亲述：Android开发学会了这些技术，你离大厂不远了 m0_65322636 程序员架构移动开发 android
HTTPSHTTP是超文本传输协议，明文传输；HTTPS使用SSL协议对HTTP传输数据进行了加密HTTP默认80端口；HTTPS默认443端口优点：安全缺点：费时、SSL证书收费，加密能力还是有限的，但是比HTTP强多了2、Java基础&容器&同步&设计模式StringBuilder、StringBuffer、+、String.concat链接字符串：StringBuffer线程安全，Strin
Java基础一十一路客 java 开发语言
哔哩哔哩Java开发工程师面试该如（）何准备？-知乎一.JavaOOP面试题(1)什么是B/S架构?什么是C/S架构Java都有那些开发平台?B/S(Browser/Server)，浏览器/服务器程序C/S(Client/Server)，客户端/服务端，桌面应用程序1、C/S和B/S各有优势，C/S在图形的表现能力上以及运行的速度上肯定是强于B/S模式的，不过缺点就是他需要运行专门的客户端，而且更
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Java 学习路线：语言、框架、中间件与数据库高危型 java
Java是一门功能强大、应用广泛的编程语言，适用于企业级应用、Web开发、大数据处理、Android开发等各种场景。这里为大家介绍了一下我认为较为合适的学习路线一、Java基础1.1Java语言基础1.1.1安装JDK和IDE安装JDK：下载JDK：访问Oracle官网，下载最新的JavaDevelopmentKit（JDK）。安装JDK：按照操作系统要求安装JDK并配置环境变量。Windows上
java基础-线程间通信方式问道飞鱼 Java开发技术 java 开发语言
文章目录1.wait()和notify()2.volatile关键字3.Java.util.concurrent包提供的工具类Semaphore（信号量）BlockingQueue（阻塞队列）4.Atomic类在Java中，线程间的通信是非常重要的，尤其是在多线程编程中，它有助于协调线程的行为，确保资源的正确访问和更新。Java提供了多种方式来实现线程间的通信，主要包括以下几种方法：1.wait(
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Java并发复习 vd_vd Java并发安全容器 java 开发语言
Java基础1.为什么要使用并发编程？一般我们工作的电脑都有多核，我们创建多个线程，然后操作系统可以将多个线程分配给不同的CPU去执行，每个CPU执行一个线程，这样就提高了CPU使用效率。在网络购物中，我们买了一个东西的同时，需要减库存，生成订单等等这些操作，就可以进行拆分利用多线程的技术完成。面对复杂业务模型，并行程序串行会比程序更适应业务需求，而并发编程更能吻合这种业务拆分。->充分利用多核C
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
Android 高频面试必问之Java基础 2401_86022611 android 面试 java
常用的JVM调参如下表：|参数|作用描述||—|—||-XX:MetaspaceSize|分配给Metaspace（以字节计）的初始大小。如果不设置的话，默认是20.79M，这个初始大小是触发首次MetaspaceFullGC的阈值，例如-XX:MetaspaceSize=256M||-XX:MaxMetaspaceSize|分配给Metaspace的最大值，超过此值就会触发FullGC，此值默认
Java基础day08ArrayList和继承没有信仰的小白
ArrayList类对象数组数组长度是固定，无动态扩容java.util.ArrayList集合类，更方便image无参构造函数image基本格式,Jdk7之后右侧尖括号可以留空，但是必须保留ArrayListlist=newArrayList<>();成员方法添加元素publicbooleanadd(Ee)获取元素publicEget(intindex)集合中的元素publicintsize()
java基础系列02--面向对象 addin_gao
java面向对象封装(encapsulation)继承(inheritance)多态(polymorphism)成员变量和局部变量的区别：在类中的位置不同:成员变量：在类中方法外局部变量：在方法定义中或者方法声明上在内存中的位置不同:成员变量：在堆内存(成员变量属于对象,对象进堆内存)局部变量：在栈内存(局部变量属于方法,方法进栈内存)生命周期不同:成员变量：随着对象的创建而存在，随着对象的消失而
Java基础全程学习笔记（二）网路侠客 java 学习笔记开发语言
第06章：面向对象-基础#面向对象内容的三条主线：>类及类的内部成员：属性、方法、构造器;代码块、内部类>面向对象的三大特征：封装性、继承性、多态性>其它关键字的使用：package、import、this、super、static、final、abstract、interface等1.理解：面向过程vs面向对象#简单的语言描述二者的区别>面向过程：以`函数`为组织单位。是一种“`执行者思维`”，
Java基础：什么是多态试着奔跑的菜鸟 java java 开发语言
什么是多态多态是面向对象的三大特性之一（另外两个是封装和继承），指的是同一个方法能执行不同的行为，在代码上的体现是：声明为父类的对象，可以被不同的实现类赋值，其中实现类必须继承或者实现父类接口，然后程序在运行时会执行实现类的方法。//如ArrayList和LinkedList都实现了List接口classArrayListimplementsList{}classLinkedListimpleme
java基础之继承 Absinthe_苦艾酒 java 开发语言
1.一个子类只能有一个直接父类（一个父类可以多个子类）2.private修饰符和void不能继承、不同包不能继承代码如下：父类packagebegan;//定义一个父类publicclassPet01{//属性publicStringname;//方法publicvoidrun(Stringname){System.out.println(name+"running");}}子类packagebe
Java基础 --- 多线程&JUC，以及一些常用的设计模式总结 lzhlizihang java 设计模式
文章目录一、多线程1、线程和进程的区别2、创建多线程的四种方式3、集合中的线程安全二、设计模式1、单例模式2、装饰者模式（IO流缓冲流）3、适配器模式4、模板模式一、多线程1、线程和进程的区别进程是操作系统资源分配的基本单位，而线程是处理器任务调度和执行的基本单位，一个进程可以运行多个线程多进程：操作系统中同时运行的多个程序多线程：在同一个进程中同时运行的多个任务2、创建多线程的四种方式Runna
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

hadoop离线day08--数据仓库、Apache Hive