TEAM-AG

Hadoop生态从0到1_理论篇_[HDFS|Yarn|MapReduce|Hive]_CodingPark编程公园

文章介绍：

本文将带领你进入Hadoop的生态世界，本文为Hadoop生态从0到1_理论篇（7日连载），后期会推出Hadoop生态从0到1_实践篇（7日连载）

生态总体关系图

大数据的分布式存储与计算

Hadoop系统整体架构V1

Hadoop系统整体架构V2

Hive - SQL/MR编译器
Pig - Pig-Latin/MR编译器
Zookeeper - 分布式协同调度和锁
Avro - 接口开发工具
HBase - 基于列簇的分布式
NoSQLFlume/NG/Scribe - 日志流汇总工具
Mahout - 基于MR的算法库
Drill/Impala - 内存SQL引擎，Dremel开源实现
Thrift - 接口开发工具
Sqoop - ETL工具
Oozie - 工作流

Hadoop的诞生与繁荣【故事驱动】

Doug Cutting(一位大牛)主导的Apache Nutch项目是Hadoop软件的源头，该项目始于2002年，是Apache Lucene 的子项目之一。

Google在2003年于SOSP上发表了分布式文件系统的论文“The Google File System”–> 2004年，Nutch的分布式文件系统(NDFS)开始开发。

2004年，Google在OSDI上发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文 --> Doug Cutting等人开始实现MapReduce计算框架并与NDFS（Nutch Distributed File System）结合起来，共同支持Nutch的主要算法。

2006年，它逐渐成为一套完整而独立的软件，已经到Yahoo!工作的Doug Cutting将这套大数据处理软件命名为Hadoop。

2008年初，Hadoop成为Apache的顶级项目，除Yahoo!之外在众多互联网企业中得到应用。此时的Hadoop系统又称为Hadoop v1，主要由两个核心组件构成：HDFS和MapReduce。

一些围绕在Hadoop周围的开源项目，为完善大数据处理的全生命周期提供了必要的配套和补充。这些软件常用的有ZooKeeper、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等。

2012年5月，Hadoop v2的alpha版本发布，其中最重要的变化是在Hadoop核心组件中增加了YARN（Yet Another Resource Negotiator）。YARN的出现是为了把计算框架与资源管理彻底分离开，解决Hadoop v1由此带来的扩展性差、单点故障和不能同时支持多种计算框架的问题。YARN对标的恰好就是Google的Borg系统。至此，Hadoop方才能够与Google的大数据平台比肩。

Hadoop也成为自Linux以来最成功的开源软件，没有之一。

2013年出现了Spark，在全面兼容Hadoop原有组件的基础上，Spark通过更多的利用内存处理大幅提高系统性能。

Hadoop必须知道的那些事儿

Hadoop系统的三种安装模式

单机模式（默认）
Hadoop系统默认启动运行模式，仅作体验MapReduce使用。

配置文件均为空，Hadoop完全运行在本地
此时的Hadoop系统仅仅是一个独立的Java进程
不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何其他Hadoop的守护进程
该模式主要用于开发调试MapReduce程序的应用逻辑

伪分布式
使用多个守护线程模拟分布的伪分布运行模式

在“单节点集群”上运行Hadoop，其中所有的守护进程都运行在同一台机器上。
该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。

完全分布式
就是真正多台机器来搭建分布式集群

Hadoop系统中的所有守护进程分别运行在一个集群中的不同机器上。
几个重要的配置文件：
core-site.xml 配置HDFS节点名称和地址
hdfs-site.xml 配置HDFS存储目录，复制数量
mapred-site.xml 配置mapreduce的jobtracker地址

⚠️jobtracker是Hadoop1.0时的叫法，SourceManager是Hadoop2.0的叫法。
⚠️jobtracker&SourceManager 均为MapReduce中的组件。

Hadoop各进程启动命令(三种启动方式)

1.直接启动或者关闭所有的进程（不推荐，由于分布式下，namenode和datanode分布在不同机器上，启动的进程不相同）

在启动hadoop进程的时候我们通常都是直接使用(默认hadoop根目录下) 

 >     sbin/start-all.sh 

 >     sbin/stop-all.sh

但是有时候直接启动进程并不完整，我们就需要使用单独的命令

2.分模块启动(推荐)

2.1.启动和关闭 namenode，secondaryNamenode和datenode （启动hdfs）

 >   sbin/start-dfs.sh      sbin/stop-dfs.sh

2.2启动yarn

 >   sbin/start-yarn.sh     sbin/stop-yarn.sh

3.各个节点单独启动

1. 单独启动namenode守护进程

  sbin/hadoop-daemons.sh start namenode

2. 单独启动DataNode守护进程

   sbin/hadoop-daemons.sh start datanode

3. 单独启动SecondaryNameNode 守护进程

   sbin/hadoop-daemons.sh start SecondaryNameNode  

4.开启resourcemanager

   sbin/yarn-daemon.sh start resourcemanager

5.开启nodemanager

    sbin/yarn-daemons.sh start nodemanager 

 6.启动historyserver

    sbin/mr-historyserver-dameon.sh start /stop historyserver

HDFS

首先放一张简易但清晰的图表明HDFS在Hadoop系统的位置

什么是HDFS?

Hadoop Distributed File System

Hadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications.

HDFS creates multiple replicas of data blocks and distributes them on compute nodes throughout a cluster to enable reliable, extremely rapid computations.

HDFS简介

HDFS为了做到可靠性（reliability）创建了多份数据块（data blocks）的复制（replicas），并将它们放置在服务器群的计算节点中（compute nodes），MapReduce就可以在它们所在的节点上处理这些数据了。

HDFS能做什么

存储并管理PB级数据
处理非结构化数据
注重数据处理的吞吐量（latency不敏感）
write-once-read-many存取模式
任何一个节点失效，不影响HDFS服务
HDFS可以自动完成副本的复制

HDFS不适合做什么

存储小文件 (不建议使用)
大量的随机读 (不建议使用)
需要对文件的修改 (不支持)

物理部署图

HDFS系统架构

HDFS中的数据存储

HDFS中的文件

文件切分成块（默认大小64M(Hadoop1) ）(默认大小128M(Hadoop2))，以块（block）为单位，每个块有多个副本存储在不同的机器（node）上，副本数可在文件生成时指定（默认3）。

NameNode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等

DataNode在本地文件系统存储文件块数据，以及块数据的校验和

可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容。

HDFS — NameNode

Namenode是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。

文件操作，NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟那个DataNode联系，否则NameNode会成为系统的瓶颈

⚠️NameNode 一般情况是独立存在于一个物理机中

副本存放在那些DataNode上由NameNode来控制，根据全局情况做出块放置决定，读取文件时NameNode尽量让用户先读取最近的副本，降低带块消耗和读取时延

Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了该Datanode上所有数据块的列表。

HDFS — DataNode

一个数据块在DataNode以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳，则认为该节点不可用。

集群运行中可以安全加入和退出一些机器

Namenode 和 Secondary Namenode

Secondary Namenode可以理解成是NameNode的一个热备（备份）

HDFS Data Writing

HDFS Data Reading

HDFS文件校验

在文件创立时，每个数据块都产生校验和
校验和保存在.meta文件内
客户端获取数据时可以检查校验和是否相同，从而发现数据块是否损坏
如果正在读取的数据块损坏，则可以继续读取其它副本

HDFS文件压缩

HDFS回收站

删除文件时，其实是放入回收站/trash
回收站里的文件可以快速恢复
可以设置一个时间阈值，当回收站里文件的存放时间超过这个阈值，就被彻底删除，并且释放占用的数据块
☑️shell如果有回收站，会首先放入回收站，然而java代码默认可不放入
回收站配置（每个节点）

java代码

HDFS—HA高可用

1）所谓HA（high available），即高可用（7*24小时不中断服务）。
2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA
机制：HDFS的HA和YARN的HA。
3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。
4）NameNode主要在以下两个方面影响HDFS集群
NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启
NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用
HDFS HA有手动切换｜自动切换

详细讲解 https://edu.csdn.net/course/play/1409/22250

HDFS HA功能通过配置Active/Standby两个nameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

代码实例-直接用JAVA作用于HDFS

package hdfs;

import java.io.FileInputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.concurrent.atomic.AtomicInteger;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.permission.FsPermission;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;
import org.apache.jasper.tagplugins.jstl.core.ForEach;

import com.cedarsoftware.util.IOUtilities;

public class app1 {
	
	public static void main(String[] args) throws IOException, URISyntaxException  {
		FileSystem fileSystem = FileSystem.get(new URI("hdfs://icaa:9000"), new Configuration()); // fileSystem抽象类
		System.out.println("fileSystem -> "+ fileSystem);		//其实这里是fileSystem.toString
		System.out.println("fileSystem.getClass -> "+ fileSystem.getClass());		
		
		/*
		 * 
		 * 创建文件夹
		 * 
		 * */	
		// 创建文件夹mkdir
		fileSystem.mkdirs(new Path("/dir1"));
		// 创建文件夹mkdir	（多用户）
		fileSystem.mkdirs(new Path("mydir"));
		// 创建文件夹mkdir	 (两个参数->位置，参数)
		fileSystem.mkdirs(new Path("/dir2"), new FsPermission("111"));
		
		/*
		 * 
		 * 上传文件
		 * 
		 * */	
		// FSDatainputStream 输入流
		FileInputStream in1 = new FileInputStream("/root/Downloads/hello");
		
		// 上传文件creat
		// FSDataOutputStream 输出流
		// replication副本	// 这里数字单位：字节  //command➕1 是创建变量的快捷键
		// 我写的这个是自定义话比较强的， 如果想用默认，则可使用fileSystem.create(new Path(""));
		FSDataOutputStream out1 = fileSystem.create(new Path("/dir1/file1"), true, 1024000, (short)2, 1048576);
		// 从in进入后 利用IOUtils 进行类似while的工作 给到out
		IOUtils.copyBytes(in1, out1, 1024, true);
		
		
		/*
		 * 换一种方法 	// Progressable 表示进程  想看到进程
		 * */
		final AtomicInteger writeBytes = new AtomicInteger(0);	//writeBytes来看看进程 =进度条
		FSDataOutputStream out2 = fileSystem.create(new Path("/dir1/file2"), new Progressable() {
			// Progressable 表示进程
			@Override
			public void progress() {
				// TODO Auto-generated method stub
				System.out.println("writeBytes -> "+ writeBytes.get());
			}
		});
		
		FileInputStream in2 = new FileInputStream("/root/Downloads/hello");
		byte[] buffer = new byte[4];
		int readBytes = in2.read(buffer);
		while(readBytes!=-1) {
			out2.write(buffer);
			out2.flush();
			out2.hsync();
			writeBytes.addAndGet(readBytes);
			readBytes = in2.read(buffer);
			
		}
		
		
		/*
		 * 
		 * 读取数据
		 * 
		 * */
		FSDataInputStream in = fileSystem.open(new Path("/dir1/file1"));
		IOUtils.copyBytes(in, System.out, 1024, true);
		
		/*
		 * 
		 * 查看数据分布也就在那个结点上 用到了 遍历
		 * 
		 * */
		// 遍历
		FileStatus[] listStatus = fileSystem.listStatus(new Path("/"));
		for(FileStatus fileStatus:listStatus) {
			System.out.println(fileStatus);
		}
		// 查看数据分布结点
		FileStatus[] listStatus2 = fileSystem.listStatus(new Path("/"));
		for(FileStatus fileStatus:listStatus2) {
			System.out.println(fileStatus);
			if (!fileStatus.isDirectory()) {
				BlockLocation[] fileBlockLocations = fileSystem.getFileBlockLocations(fileStatus, 0, fileStatus.getLen());
				for(BlockLocation blockLocation:fileBlockLocations) {
					String[] hosts = blockLocation.getHosts();
					for (String hostname : hosts) {
						System.out.println("HOST NAME -> "+ hostname);
					}			
				}			
			}
			
		}
		
		
		/*
		 * 
		 * 其他
		 * 
		 * */
		// 遍历
		FileStatus[] listStatus3 = fileSystem.listStatus(new Path("/"));
		for(FileStatus fileStatus:listStatus3) {
			System.out.println(fileStatus);
		}
		
		// 删除
		//fileSystem.delete(arg0, arg1);	没有举例
		
		
		//获取工作目录
		//fileSystem.getWorkingDirectory().toString();	没有举例
		
		
	}

}

更多关于HDFS

https://blog.csdn.net/penggougoude/article/details/82357005

YARN

YARN 是怎么来的呢？那首先得从Hadoop1.0的缺陷说起

Hadoop1.0的缺陷

单点故障：MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题

模型单一：只能用MapReduce处理数据，迭代计算、图计算同样有大数据的处理场景。MR本质上是面向批处理的，并不支持实时或接近实时的处理请求。

低可拓展性：雅虎的Hadoop集群不超过4000个节点。

服务器利用率：JobTracker将管理集群视为很多的Map/Reduce槽（slot），然而在MR用运行的时候，大多数时候都是reduce槽在等待map槽完成（map 100% reduce 0%）。

使用灵活性：部分升级，全部需要升级。

YARN诞生

Hadoop 2.0：由HDFS、MapReduce和YARN三个组建构成；
MapReduce：运行在YARN上的MR
YARN（Yet Another Resource Negotiator）：资源管理系统

Yarn的架构

YARN运行流程

ResourceManager

整个集群只有一个，负责集群资源的统一管理和调度
详细功能:
处理客户端请求
启动/ 监控ApplicationMaster
监控NodeManager
资源分配与调度

NodeManager

整个集群有多个，负责单节点资源管理和使用
详细功能:
单个节点上的资源管理和任务管理
处理来自ResourceManager 的命令
处理来自ApplicationMaster 的命令

ApplicationMaster

每个应用有一个，负责应用程序的管理
详细功能:
数据切分
为应用程序申请资源，并进一步分配给内部任务
任务监控与容错

Container

对任务运行环境的抽象
描述一系列信息
任务运行资源（节点、内存、CPU ）
任务启动命令
任务运行环境

YARN的容错性

ResourceManager
 存在单点故障
正在基于ZooKeeper 实现HA

NodeManager
失败后，RM 将失败任务告诉对应的AM
AM 决定如何处理失败的任务

ApplicationMaster
失败后，由RM 负责重启
AM 需处理内部任务的容错问题
 RMAppMaster 会保存已经运行完成的Task ，重启后无需重新运行

YARN的资源调度器

多类型资源调度
采用DRF算法（论文：“Dominant Resource Fairness: Fair Allocation of Multiple Resource Types”）
目前支持CPU和内存两种资源

多种资源调度器
 FIFO
 Fair Scheduler
Capacity Scheduler
 
 多租户资源调度器
支持资源按比例分配
支持层级队列划分方式
支持资源抢占

Yarn CMD

YARN命令是hadoop中调用bin/yarn脚本文件，如果运行yarn脚本没有带任何参数，则会打印yarn所有命令的描述。

使用: yarn [–config confdir] COMMAND [–loglevel loglevel] [GENERIC_OPTIONS] [COMMAND_OPTIONS]
YARN有一个参数解析框架，采用解析泛型参数以及运行类。

表A：

详细说明请参考：Hadoop yarn 指令相关参数详解
https://blog.csdn.net/u010003835/article/details/83347589

MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”

☘️MapReduce篇幅过长，会单开一个专题
☘️故在此不多叙述

HIVE

Hive入门

数据仓库简介
数据仓库本质上就是一个数据库。可以利用数据仓库来保存数据。数据仓库用于支持企业和组织的决策分析处理。数据仓库区别于传统的数据库，从下面几点说明。

面向主题
数据仓库中的数据是按照一定的主题（用户使用数据仓库进行决策时所关心的重点方面。比如页面访问量）来组织的。
集成的
数据仓库中的数据来自于分散的操作性的数据，把分散性的操作性的数据从原来的数据（Oracle、MySQL、文本等）中抽取出来进行加工和处理，然后满足一定的要求才可以进入我们的数据仓库。
不可更新
数据仓库主要是为了决策分析所提供数据，所以涉及的操作主要是数据的查询。我们一般都不会在数据仓库中进行更新和删除。
随时间不变化
数据仓库中的数据是不会随时间产生变化的集合。
数据仓库的结构和建立过程

Hive简介

Hive是基于Hadoop HDFS之上的数据仓库。我们可以把数据存储在这个基于数据的仓库之中，进行分析和处理，完成业务逻辑。
使用类sql来读、写、管理驻留在分布式存储系统的大型数据集。可以使用命令行工具和驱动连接到hive上。
Hive不是关系数据库，不适合实时查询和更新操作，不适合OLTP。
Hive在数据库中存放schema，数据存放在hdfs文件中，数据库和表都是路径。提供类sql语言（Hive ql，hql）。

Hive架构

UI
web ui、command line等
metaStore
存放元数据
HQL ProcessEngine
把sql翻译成MapReduce，编写sql代替MapReduce程序
Execution Engine
处理查询，生成结果
MapReduce
作为计算框架
hdfs/hbase
存储数据载体

Hive工作原理

用户提交查询等任务给Driver。
编译器获得该用户的任务Plan。
编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。
编译器Compiler得到元数据信息，对任务进行编译，先将HiveQL转换为抽象语法树，然后将抽象语法树转换成查询块，将查询块转化为逻辑的查询计划，重写逻辑查询计划，将逻辑计划转化为物理的计划（MapReduce）, 最后选择最佳的策略。
将最终的计划提交给Driver。
Driver将计划Plan转交给ExecutionEngine去执行，获取元数据信息，提交给JobTracker或者SourceManager执行该任务，任务会直接读取HDFS中文件进行相应的操作。
ExecutionEngine返回结果给Driver。
返回执行结果给UI。

Hive安装

Hive安装
1、下载安装介质
	apache-hive-2.1.1-bin.tar.gz
2、安装hive(安装jdk、hadoop)
	上传hive到ubuntu
	$>tar -xzvf apache-hive-2.1.1-bin.tar.gz
	$>mv apache-hive-2.1.1-bin /soft/
	$>cd /soft
	$>ln -s apache-hive-2.1.1-bin/ hive
	$>sudo vi /etc/environment
			HIVE_HOME=/soft/hive
			PATH=...:/soft/hive/bin
	$>source /etc/environment
	$>hive --version

环境变量配置

HADOOP_HOME环境变量配置

编辑[/soft/hive/conf/hive-env.sh]，在文件末尾加上HADOOP_HOME环境变量
$>cd /soft/hive/conf
$>cp hive-env.sh.template hive-env.sh
$>vi hive-env.sh
加入如下内容：
HADOOP_HOME=/soft/hadoop

配置Hive的元数据库
	hive使用rdbms存储元数据，内置了derby数据库
	创建[/soft/hive/conf/hive-site.xml]文件
	$>cp hive-default.xml.template hive-site.xml
	替换${system:java.io.tmpdir}=/home/hadoop/hive
	替换${system:user.name}=hadoop

进入Hive命令行界面
1、启动hadoop（最少启动一个datanode）
		$>start-all.sh
2、初始化schema库
		$>/soft/hive/bin/schematool -initSchema -dbType derby
3、进入hive shell
		$>hive

这里如果我们输入 show databases; 则报错‍♂️

解决办法：hive --service metastore
原因：没有开启 metastore，需要先启动hive的metastore服务才行

数据库基本操作

建库删库
$>hive>show databases;
$>hive>show tables;
$>hive>create database myhive;
$>hive>use myhive;
$>hive>create table test(id int,name String);
$>hive>create table if not exists myhive.employee(eid int, name String, salary String, destination String) COMMENT 'Employee details' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE;
$>hive>drop database myhive;

导入数据
1、准备employee.txt数据，内容如下
1201	gxf	4500	Techinical manager
1202	gxf1	4501	Techinical manager
2、导入数据
Hive支持插入，不支持删除和更新，加载数据到hive（hdfs)语法（LOAD DATA INPATH 'filepath' into TABLE TABLENAME）
$>hive>load data local inpath '/home/hadoop/Desktop/employee.txt' into table employee;
$>hive>!clear; //hive中执行shell命令
$>hive>dfs -lsr /; //hive中执行hdfs命令
$>hive>create table myhive.employee2 as select * from myhive.employee;//复制表(触发MP)

Mysql基础操作

连接MYSQL： mysql -h localhost -u root -p
格式： mysql -h主机地址 -u用户名－p用户密码

1、例1：连接到本机上的MYSQL

找到mysql的安装目录，一般可以直接键入命令mysql -u root -p，回车后提示你输密码，如果刚安装好MYSQL，超级用户root是没有密码的，故直接回车即可进入到MYSQL中

了，MYSQL的提示符是：mysql>

2、连接到远程主机上的MYSQL

假设远程主机的IP为：10.0.0.1，用户名为root,密码为123。则键入以下命令：

mysql -h10.0.0.1 -uroot -p123

（注：u与root可以不用加空格，其它也一样）

3、手动查询端口号
mysql> show global variables like ‘port’;

4、退出MYSQL命令

exit; （回车）

------------------------mysql基础知识提示------------------------
　　第一招、mysql服务的启动和停止
net stop mysql
net start mysql
　　第二招、登陆mysql
语法如下： mysql -u用户名-p用户密码
键入命令mysql -uroot -p，回车后提示你输入密码，输入12345，然后回车即可进入到mysql中了，mysql的提示符是：
mysql>
注意，如果是连接到另外的机器上，则需要加入一个参数-h机器IP
　　第三招、增加新用户
格式：grant 权限 on 数据库.* to 用户名@登录主机 identified by "密码"
如，增加一个用户user1密码为password1，让其可以在本机上登录，并对所有数据库有查询、插入、修改、删除的权限。首先用以root用户连入mysql，然后键入以下命令：
grant select,insert,update,delete on *.* touser1@localhost Identified by "password1";
如果希望该用户能够在任何机器上登陆mysql，则将localhost改为"%"。
如果你不想user1有密码，可以再打一个命令将密码去掉。
grant select,insert,update,delete on mydb.* touser1@localhost identified by"";
　　第四招： 操作数据库
登录到mysql中，然后在mysql的提示符下运行下列命令，每个命令以分号结束。
1、 显示数据库列表。
show databases;
缺省有两个数据库：mysql和test。mysql库存放着mysql的系统和用户权限信息，我们改密码和新增用户，实际上就是对这个库进行操作。
2、 显示库中的数据表：
use mysql;
show tables;
3、 显示数据表的结构：
describe 表名;
4、 建库与删库：
create database 库名;
drop database 库名;
5、 建表：
use 库名;
create table 表名(字段列表);
drop table 表名;
6、 清空表中记录：
delete from 表名;
7、 显示表中的记录：
select * from 表名;
　　第五招、导出和导入数据
1. 导出数据：
mysqldump --opt test > mysql.test
即将数据库test数据库导出到mysql.test文件，后者是一个文本文件
如：mysqldump -u root -p123456 --databases dbname >mysql.dbname
就是把数据库dbname导出到文件mysql.dbname中。
2. 导入数据:
mysqlimport -u root -p123456 < mysql.dbname。
不用解释了吧。
3. 将文本数据导入数据库:
文本数据的字段数据之间用tab键隔开。
use test;
load data local infile "文件名" into table 表名;
1:使用SHOW语句找出在服务器上当前存在什么数据库：
mysql> SHOW DATABASES;
2:2、创建一个数据库MYSQLDATA
mysql> CREATE DATABASE MYSQLDATA;
3:选择你所创建的数据库
mysql> USE MYSQLDATA; (按回车键出现Database changed时说明操作成功！)
4:查看现在的数据库中存在什么表
mysql> SHOW TABLES;
5:创建一个数据库表
mysql> CREATE TABLE MYTABLE (name VARCHAR(20), sexCHAR(1));
6:显示表的结构：
mysql> DESCRIBE MYTABLE;
7:往表中加入记录
mysql> insert into MYTABLE values ("hyq","M");
8:用文本方式将数据装入数据库表中（例如D:/mysql.txt）
mysql> LOAD DATA LOCAL INFILE "D:/mysql.txt" INTOTABLE MYTABLE;
9:导入.sql文件命令（例如D:/mysql.sql）
mysql>use database;
mysql>source d:/mysql.sql;
10:删除表
mysql>drop TABLE MYTABLE;
11:清空表
mysql>delete from MYTABLE;
12:更新表中数据
mysql>update MYTABLE set sex="f" where name='hyq';13：备份数据库mysqldump -u root库名>xxx.data14：
　　例2：连接到远程主机上的MYSQL
　　假设远程主机的IP为：110.110.110.110，用户名为root,密码为abcd123。则键入以下命令：　　　
　　mysql-h110.110.110.110 -uroot -pabcd123 　　
　　（注:u与root可以不用加空格，其它也一样） 　　
　　3、退出MYSQL命令：exit
　　一) 连接MYSQL：
格式： mysql -h主机地址 -u用户名－p用户密码

1、例1：连接到本机上的MYSQL
首先在打开DOS窗口，然后进入mysql安装目录下的bin目录下，例如： D:\mysql\bin，再键入命令mysql -uroot-p，回车后提示你输密码，如果刚安装好MYSQL，超级用户root是没有密码的，故直接回车即可进入到MYSQL中了，MYSQL的提示符是：mysql>
2、例2：连接到远程主机上的MYSQL
假设远程主机的IP为：10.0.0.1，用户名为root,密码为123。则键入以下命令：
mysql -h10.0.0.1 -uroot-p123
（注：u与root可以不用加空格，其它也一样）
3、退出MYSQL命令
exit （回车）

(二) 修改密码：
格式：mysqladmin -u用户名 -p旧密码password 新密码
1、例1：给root加个密码123。首先在DOS下进入目录C:\mysql\bin，然后键入以下命令：
mysqladmin -uroot -password123
注：因为开始时root没有密码，所以-p旧密码一项就可以省略了。
2、例2：再将root的密码改为456
mysqladmin -uroot -pab12password 456
(三) 增加新用户：（注意：和上面不同，下面的因为是MYSQL环境中的命令，所以后面都带一个分号作为命令结束符）
格式：grant select on 数据库.* to用户名@登录主机 identified by "密码"
例1、增加一个用户test1密码为abc，让他可以在任何主机上登录，并对所有数据库有查询、插入、修改、删除的权限。首先用以root用户连入MYSQL，然后键入以下命令：
grantselect,insert,update,delete on *.* to test1@"%" Identified by"abc";

但例1增加的用户是十分危险的，你想如某个人知道test1的密码，那么他就可以在internet上的任何一台电脑上登录你的mysql数据库并对你的数据可以为所欲为了，解决办法见例2。
例2、增加一个用户test2密码为abc,让他只可以在localhost上登录，并可以对数据库mydb进行查询、插入、修改、删除的操作（localhost指本地主机，即MYSQL数据库所在的那台主机），这样用户即使用知道test2的密码，他也无法从internet上直接访问数据库，只能通过MYSQL主机上的web页来访问了。
grantselect,insert,update,delete on mydb.* to test2@localhost identifiedby "abc";
如果你不想test2有密码，可以再打一个命令将密码消掉。
grantselect,insert,update,delete on mydb.* to test2@localhost identifiedby "";
(四) 显示命令
1、显示数据库列表：
show databases;
刚开始时才两个数据库：mysql和test。mysql库很重要它里面有MYSQL的系统信息，我们改密码和新增用户，实际上就是用这个库进行操作。
2、显示库中的数据表：
use mysql； //打开库
show tables;
3、显示数据表的结构：
describe 表名;
4、建库：
create database 库名;
5、建表：
use 库名；
create table 表名(字段设定列表)；
6、删库和删表:
drop database 库名;
drop table 表名；
7、将表中记录清空：
delete from 表名;
8、显示表中的记录：
select * from 表名;


MySQL导入导出命令
1.导出整个数据库
　　mysqldump -u 用户名 -p 数据库名 > 导出的文件名
　　mysqldump -u wcnc -p smgp_apps_wcnc >wcnc.sql

2.导出一个表
　　mysqldump -u 用户名 -p 数据库名 表名> 导出的文件名
　　mysqldump -u wcnc -p smgp_apps_wcnc users>wcnc_users.sql

3.导出一个数据库结构
　　mysqldump -u wcnc -p -d --add-drop-table smgp_apps_wcnc>d:wcnc_db.sql
　　-d 没有数据 --add-drop-table 在每个create语句之前增加一个drop table

4.导入数据库
　　常用source 命令
　　进入mysql数据库控制台，
　　如mysql -u root -p
　　mysql>use 数据库
　　然后使用source命令，后面参数为脚本文件(如这里用到的.sql)
　　mysql>source d:wcnc_db.sql （注：如果写成sourced:\wcnc_db.sql，就会报语法
　　使用load data 批量导入数据,这种做法可以瞬间导入数据,用处非常大!
　　LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name.txt'
　　[REPLACE | IGNORE]
　　INTO TABLE tbl_name
　　[FIELDS 字段操作,设置每个字段的分隔符
　　[TERMINATED BY 'string']
　　[[OPTIONALLY] ENCLOSED BY 'char']
　　[ESCAPED BY 'char' ]
　　]
　　[LINES 行操作,从某一个字符开始,到某个字符
　　[STARTING BY 'string']
　　[TERMINATED BY 'string']
　　]
　　[IGNORE number LINES] 行操作,忽略某行
　　[(col_name_or_user_var,...)] 字段操作,写入的字段与数据对应
　　[SET col_name = expr,...)]
　　示例:load data infile '/test/test.file' intotable 'test' fields terminated by "\t" (fieldsOne,fieldsTwo);
意思是, 载入/test/test.file到表test中,使用\t分割字段,写入fieldsOne和fieldsTwo中,默认以换行符作为一个行分割!

cmd连接mysql
　　连接：mysql -h主机地址 -u用户名 －p用户密码 （注:u与root可以不用加空格，其它也一样）
断开：exit （回车）


创建授权：grant select on 数据库.* to 用户名@登录主机 identified by \"密码\"
修改密码：mysqladmin -u用户名 -p旧密码 password 新密码
删除授权: revoke select,insert,update,delete om *.* fromtest2@localhost;


显示数据库：show databases;
显示数据表：show tables;
显示表结构：describe 表名;


创建库：create database 库名;
删除库：drop database 库名;
使用库：use 库名;


创建表：create table 表名 (字段设定列表);
删除表：drop table 表名;
修改表：alter table t1 rename t2
查询表：select * from 表名;
清空表：delete from 表名;
备份表: mysqlbinmysqldump -h(ip) -uroot -p(password) databasenametablename > tablename.sql
恢复表: mysqlbinmysql -h(ip) -uroot -p(password) databasenametablename < tablename.sql（操作前先把原来表删除）


增加列：ALTER TABLE t2 ADD c INT UNSIGNED NOT NULL AUTO_INCREMENT,ADDINDEX (c);
修改列：ALTER TABLE t2 MODIFY a TINYINT NOT NULL, CHANGE b cCHAR(20);
删除列：ALTER TABLE t2 DROP COLUMN c;


备份数据库：mysql\bin\mysqldump -h(ip) -uroot -p(password) databasename> database.sql
恢复数据库：mysql\bin\mysql -h(ip) -uroot -p(password) databasename< database.sql
复制数据库：mysql\bin\mysqldump --all-databases >all-databases.sql
修复数据库：mysqlcheck -A -o -uroot -p54safer


文本数据导入： load data local infile \"文件名\" into table 表名;
数据导入导出：mysql\bin\mysqlimport database tables.txt

Hive schema(mysql)及仓库配置

mysql安装与卸载（联网）
1、mysql安装：
$>sudo apt-get install libmysqlclient-dev
$>sudo apt-get install mysql-client
$>sudo apt-get install mysql-server
2、mysql卸载：
$>sudo apt-get autoremove --purge mysql*
$>sudo apt-get install mysql-server
$>dpkg -l |grep ^rc|awk '{print $2}' |sudo xargs dpkg –P


配置hive schema到mysql中
Hive默认数据库Derby同一时刻只能有一个连接。
1、编写hive-site.xml，添加mysql连接信息
	编辑[/soft/hive/conf/hive-site.xml]
	  
	    javax.jdo.option.ConnectionDriverName</name>
	    com.mysql.jdbc.Driver</value>
	  </property>
	  
	    javax.jdo.option.ConnectionURL</name>
	    jdbc:mysql://localhost:3306/myhive?createDatabaseIfNotExist=true&;useSSL=false</value>
	  </property>
	  
	    javax.jdo.option.ConnectionUserName</name>
	    root</value>
	   
	    javax.jdo.option.ConnectionPassword</name>
	    root</value>
	  </property>
2、在mysql中建立myhive数据库
	$>mysql>create database myhive; // 建立hive库
	$>mysql>grant all privileges on *.* to root@'%' identified by 'root';
	$>mysql>flush privileges;
3、mysql驱动程序（jar）放到hive classpath下
	/soft/hive/lib/mysql-connector-java-5.0.8.jar
4、重新初始化hive schema元数据库
	$>/soft/hive/bin/schematool -initSchema --dbType mysql

执行完成后会发现mysql的myhive库中有了元数据相关的表，如下图所示：

配置hive的仓库位置
编辑[hive-site.xml]文件，内容如下：
	hive.metastore.warehouse.dir=/user/hive/warehouse    (此处为默认位置)

一些细节截图大家避免走弯路

❓待解决问题的


show databases; 命令

✏️ 建议：在cmd 进行系统性配置时，尽量不要切换窗口

表分类

托管表（内部表）
hive默认创建的表都是托管表，hive控制其数据的生命周期。
删除内部表时，元数据和数据均被删除。
$>hive>create table if not exists myhive.employee_inner(eid int, name String, salary String, destination String) COMMENT 'Employee details' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE;
$>hive> drop table myhive.employee_inner;


外部表
hive控制元数据
删除外部表时，元数据删除 但数据不被删除
$>hive>create external table if not exists myhive.employee_outer(eid int, name String, salary String, destination String) COMMENT 'Employee details' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE;


分区表
1.	创建分区表
		$>hive>create table if not exists myhive.test2(eid int, name String, salary String, destination String) partitioned by(country string,state string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE;

2.	加载数据到指定分区
		$>hive>load data local inpath '/home/hadoop/Desktop/employee.txt' into table myhive.test2 partition(country='china',state='shanxi');

3.	查看hdfs
		$>hdfs dfs -cat 
	/user/hive/warehouse/myhive.db/test2/country=china/state=shanxi/employee.txt

4.	查询数据
		$>hive>select * from myhive.test2 where country='china' and state='shanxi';

5.	分区表的查询模式:strict/nostrict
		$>hive>set hive.mapred.mode=strict	//严格模式,默认是非严格,严格模式要求查询的时候必须带分区

6.	查看分区表有那些分区
1、查看分区
		$>hive>show partitions myhive.test2;
2、查看具体分区的细节信息
		$>hive>show partitions myhive.test2 partition(state='shanxi'); 
3、查看分区信息
		$>hive>desc test2;
		$>hive>desc myhive.test2; （均可）
4、查看表扩展信息
		$>hive>desc extended myhive.test2; 

7.	手动增加分区
		$>hive>alter table myhive.test2 add partition(country='china',state='henan');
不能增加不存在的分区列

8.	修改表
1、表重命名
		$>hive>alter table myhive.test2 rename to myhive.test1; //
2、添加多个分区
		$>hive>alter table myhive.test1 add partition(country='china',state='hubei')  partition(country='china',state='hebei')  partition(country='china',state='shandong') ;
3、移动分区位置
		$>hive>alter table myhive.test1 partition(country='china',state='hubei') set location '/user/hive/warehouse/myhive.db/test1/country=china/state=hubei1'; 
4、增加列
		$>hive>alter table myhive.test1 add columns(birth string,fire string) ;

9.	复制数据到分区表
1、创建表test2
		$>hive>create table if not exists myhive.test2(eid int, name String, salary String, destination String) partitioned by(country string,state string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE; 
2、创建表test3
		$>hive>create table if not exists myhive.test3(eid int, name String, salary String, destination String) partitioned by(country string,state string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE ; 
3、整表复制
		$>hive>insert into myhive.test2 partition(country='china',state='henan') select * from myhive.test1; 
		$>insert into myhive.test2 partition(country='china',state='henan') select eid,name,salary,destination from myhive.test1;
4、部分复制
		$>hive>insert into myhive.test2 partition(country='china',state='henan') select eid,name,salary,destination from myhive.test2 (where country='china' and state='henan')括号中可不写，不写的话就是无论啥地儿，统统放入test2的henan;  
字段个数要相同。查询时，分区通过where子句指定。插入时，分区用partition指定

客户端连接Hive

这里客户端指eclipse和beeline，客户端通过hiveserver2连接到Hive。所以运行前要保证hiveserver2的开启。

Jdbc连接Hive
创建maven项目
bigdata-hive-2.1.0
配置pom文件
	
		org.apache.hive</groupId>
		hive-jdbc</artifactId>
		2.1.1</version>
	</dependency>
	
		org.apache.hive</groupId>
		hive-service</artifactId>
		2.1.0</version>
	</dependency>
修改hive-site.xml配置文件
修改[/soft/hive/conf/hive-site.xml]配置文件,使用os操作系统的认证方式
	hive.server2.enable.doAs=false
	hive.metastore.sasl.enabled=false
	hive.server2.authentication=NONE
重启hiveserver2服务器
  $>hive --service hiveserver2 stop
  $>hive --service hiveserver2 start &
$>jobs

书写程序
public class TestHiveConn{
	public static void main(String[] args) throws ClassNotFoundException, SQLException {
		Class.forName("org.apache.hive.jdbc.HiveDriver");
		Connection conn = DriverManager.getConnection("jdbc:hive2://namenode:10000/myhive", "hadoop", "hadoop");
		PreparedStatement ppst = conn.prepareStatement("select * from t");
		ResultSet rs = ppst.executeQuery();
		while (rs.next()) {
			int id = rs.getInt("id");
			String name = rs.getString("name");
			int age = rs.getInt("age");
			System.out.println(id + "," + name + "," + age);

		}
		rs.close();
		ppst.close();
		conn.close();
	}
}

建表，并插入数据
	$>hive>create table t(id int,name string,age int);
	$>hive>insert into t(id,name,age) values(1,'gxf',23);

运行上面的Java程序进行查询

测试增删改查

package com.ag.hive;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import org.junit.Before;
import org.junit.Test;

/**
 * TestCRUD.
 */
public class TestCRUD {
	private Connection conn;
	/**
 	 * 连接hive数据库.
 */
	@Before
	public void iniConn() throws Exception {
		Class.forName("org.apache.hive.jdbc.HiveDriver");
		conn = DriverManager.getConnection("jdbc:hive2://namenode:10000/hive1", "hadoop", "hadoop");
	}
	/**
 	 * 创建表.
 */
	@Test
	public void createtable() throws SQLException {
		PreparedStatement ppst = conn.prepareStatement("create table users(id int,name string,age int)");
		ppst.execute();
		ppst.close();
		conn.close();
		System.out.println("over!");
	}
	/**
 	 * 批量插入数据.
 */
	@Test
	public void batchInsert() throws SQLException {
		PreparedStatement ppst = conn.prepareStatement("insert into hive1.users(id,name,age) values(?,?,?)");
		ppst.setInt(1, 1);
		ppst.setString(2, "luke1");
		ppst.setInt(3, 30);
		ppst.executeUpdate();

		ppst.setInt(1, 2);
		ppst.setString(2, "luke2");
		ppst.setInt(3, 31);
		ppst.executeUpdate();

		ppst.close();
		conn.close();
	}

	/**
	 * 删除数据会报错，更新数据也不允许
	 * 不支持
	 * @throws SQLException
	 */
	@Test
	public void delete() throws SQLException {
		PreparedStatement ppst = conn.prepareStatement("delete from hive1.users");
		ppst.executeUpdate();
		ppst.close();
		conn.close();
	}

	/**
	 * 查询记录个数
	 * @throws SQLException
	 */
	@Test
	public void count() throws SQLException {
		PreparedStatement ppst = conn.prepareStatement("select count(*) from hive1.users");
		ResultSet rs = ppst.executeQuery();
		rs.next();
		System.out.println(rs.getInt(1));
		ppst.close();
		conn.close();
	}
/**
	 * 删除表
	 * @throws SQLException
	 */

	@Test
	public void droptable() throws SQLException {
		PreparedStatement ppst = conn.prepareStatement("drop table hive1.users");
		ppst.execute();
		ppst.close();
		conn.close();
	}

Beeline客户端连接Hive
使用Beeline客户端可以实现远程的jdbc连接
1、连接，使用如下命令之一进行连接beeline连接
	$>hive --service beeline -u jdbc:hive2://namenode:10000/myhive
	$>beeline -u jdbc:hive2://namenode:10000/myhive(这种方式也可以)
2、在beeline中执行命令
	$>0: jdbc:hive2://namenode:10000/myhive>!sh clear //执行脚本
	$>0: jdbc:hive2://namenode:10000/myhive>show databases; //查看库
	$>0: jdbc:hive2://namenode:10000/myhive>!help //查看帮助
3、连接到新的db
	$>0: jdbc:hive2://namenode:10000/myhive>!connect jdbc:hive2://namenode:10000/myhive

连接权限｜创建用户

1、在linux中创建用户
$>groupadd gxf
$>useradd -m -g gxf gxf
$>passwd gxf

2、修改hive-site.xml
  
    hive.users.in.admin.role</name>
    hadoop</value>
  </property>
  
3、创建用户，并赋予admin角色
$hive>set role admin; //需要将hadoop用户的“当前角色”切换至admin才可以执行此操作
$hive>grant admin to user gxf with admin option;

4、创建数据库，并修改数据库属主给admin角色
$hive>create database myhive1;
$hive>desc database myhive1;
$hive>alter database myhive1 set owner role admin;

5、插入数据
$>hive>use myhive1;
	$>hive>create table t(id int,name string,age int);
	$>hive>insert into t(id,name,age) values(1,'gxf',23);
	
6、在eclipse中写程序进行测试。

Hive命令

$>hive>dfs -lsr /;	(HDFS)
	$>hive>!clear;
	$>hive -e "select * from myhive.test1" //-e execute	（非Hive中，可直接用）
	$>hive -f /x/x/x/a.hql // 执行一个文件，通常用于批处理
	[gxf.hql]
		select * from myhive.test1
$>hive -f gxf.hql
	$>hive>tab tab //显示所有的命令
	$>hive>-- this is a comment
	$>hive>set hive.cli.print.header=true; //显示字段名称（头）
	$>hive>create database if not exists myhive2;
	$>hive>create database hive3 with dbproperties('author'='xupc','createtime'='today');
	$>hive>alter database hive3 set dbproperties('author'='you');
	$>hive>drop database if exists hive3; //存在即删除
	$>hive>drop database if exists hive3 cascade; //级联删除
	$>hive>create database hive2 location '/user/hadoop/';
	$>hive>desc[ribe] database hive2	//显示db，描述信息,不包含扩展信息
	$>hive>desc database extended hive3	//包含扩展信息
	$>hive>use hive3	//使用库
	$>hive>create table hive1.test1(id int,name string,age int) tblproperties('author'='you');
	$>hive>create table hive1.test2(id int,name string,age int) location '/user/hadoop/';
	$>hive>desc extended hive1.test1	//显示扩展信息
	$>hive>desc formatted myhive.test1;	//使用格式化的形式显示信息
	$>hive>create table hive2.test1 like hive1.test2	//复制表
	$>hive>show tables in myhive; //显示指定数据库的表集合，默认是当前库
	$>hive>create external table hive1.test3 like hive1.test1; // 只负责表结构，没有数据
	[创建表]
	create table if not exists employee(eid int,name string,salary string,destination string)
		comment 'employee details'	//注释
		row format delimited fields terminated by'\t'	//字段结束符
		lines terminated by '\n'	// 行结束符
		stored as textfile;	//存储成何种文件
	[加载数据==insert]
	load data local inpath '/home/hadoop/employee.txt' overwrite into table employee;

Linux 权限

Hive数据类型｜数据导入

基本类型

集合类型
STRUCT struct(‘Grolia’,‘Claire’);
MAP map(‘fi’,‘d’,‘ddd’)
ARRAY array(‘Jone’,‘doe’)

例子
Struct使用
$>hive>create table student_test(id INT, info struct) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ COLLECTION ITEMS TERMINATED BY ‘:’;
//‘FIELDS TERMINATED BY’ ：字段与字段之间的分隔符
//’‘COLLECTION ITEMS TERMINATED BY’ ：一个字段各个item的分隔符

// 导入数据
$>hive>LOAD DATA LOCAL INPATH ‘/home/hadoop/gxf/student_test.txt’ INTO TABLE student_test;

// 查询
$>hive>select * from student_test;

$>hive> select info.age from student_test;

Array使用
$>hive>create table class_test(name string, student_id_list array) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ COLLECTION ITEMS TERMINATED BY ‘:’;

// 导入数据
$>hive>LOAD DATA LOCAL INPATH ‘/home/hadoop/gxf/class_test.txt’ INTO TABLE class_test;
// 查询
$>hive>select student_id_list[3] from class_test;

Map使用
$>hive>create table employee_test(id string, perf map) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ COLLECTION ITEMS TERMINATED BY ‘,’ MAP KEYS TERMINATED BY ‘:’;

// 导入数据
$>hive>LOAD DATA LOCAL INPATH ‘/home/hadoop/gxf/employee_test.txt’ INTO TABLE employee_test;

// 查询
$>hive>select * from employee_test;

Hive查询

基本查询



1.	导出数据到目录
$>hive>create  table test3 as select id,name from test2 where province='hebei' and city='baoding';
	$>hive>--导出hive数据到本地目录(下载)
	$>hive>insert overwrite local directory '/home/hadoop/hive' select * from hive1.test1 where province='hebei';
	$>hive>--导出hive数据到hdfs目录
	$>hive>insert overwrite directory '/user/hadoop/data' select * from hive1.test1 where province='hebei';
	$>hive>--查询数据向多个目录同时输送
	$>hive>from hive1.test2 t insert overwrite directory '/home/hadoop/hive/hebei' select * where t.province='hebei' insert overwrite directory '/home/hadoop/hive/henan' select * where t.province='henan';


2.	查询语句
2.1.	查询
	$>hive>select col1,col2 from table t;
2.2.	使用函数查询
	$>hive>select upper(name) from test2; // name大写
	$>hive>select lower(name) from test2; // name小写
	$>hive>select age + 10 from test2;
2.3.	数学函数
	$>hive>select round(12.34); //12 四舍五入
	$>hive>select floor(12.34); //12 地板
	$>hive>select ceil(12.34); //13 天花板
	$>hive>select rand(10); //随机数
2.4.	聚合函数
	$>hive>select count(*) from test2;
	$>hive>select sum(age) from test2;
	$>hive>select avg(age) from test2;
	$>hive>select max(age) from test2;
	$>hive>select min(age) from test2;
2.5.	去重distinct
	$>hive>select count(distinct name) from test2;
2.6.	ascii函数
字符串首个字母的ascii值
	$>hive>select ascii("abc");
	$>hive>select ascii('abc');
2.7.	base64字符串编码
	$>hive>select base64(binary('http://localhost:8080/helloworld'));
2.8.	二进制数据
	$>hive>select binary('http://localhost:8080/helloworld');

2.9.	类型转换
	$>hive>select cast('120' as bigint) + 200;  //320
	$>hive>select '120' + 200;  //320.0

2.10.	字符串连接
	$>hive>select concat('ab','cd');  //abcd
2.11.	分业查询limit
	$>hive>select * from test2 limit 1,2; //从第二条开始，查出来两条
2.12.	嵌套查询
	$>hive>from test2 e select e.id,e.name,e.age where e.city='baoding';
	$>hive>select e.id,e.name,e.age from test2 e  where e.city='baoding';
2.13.	case when then
	$>hive>select name,age, case when age<20 then 'low' when age>50 then 'old' else 'big' end as agestatus from hive1.test2;
2.14.	不能在where子句中使用列的别名
	$>hive>--select id, name n ,age from test2 where n like 't%'; //wrong where中不能使用字段别名
2.15.	范围运算
	$>hive>select * from test2 where age between 12 and 24;
	$>hive>select * from test2 where age <=24 and age >12;
2.16.	浮点数比较的规避方案
	$>hive>select cast(0.2 as float);
	$>hive>select 0.2 == cast(0.2 as float);
2.17.	分组查询
	$>hive>select count(*),province from test2 group by province;
	$>hive>select count(*) as c,province from test2 group by province having c>3;


3.	避免mr操作
不使用mr作业的模式就是本地作业，下面方法可以尽量避免mr作业。
	1、全表扫描，没有where子句
		$>hive>select * from test;
	2、where子句作用只有分区字段，也不需要mr（limit也不需要）
		$>hive>select * from test2 where province='hebei';
	3、设置
$>hive>set hive.exec.mode.local.auto=true;
		该属性hive会尽量使用local模式查询

连接查询

1.	建表
	$>hive>create table customers(id int,name string,age int);
	$>hive>insert into customers(id,name,age) values(1,'gxf',23);
	$>hive>create table orders(id int,cid int,orderno int,price float);
	$>hive>insert into orders(id,cid,orderno,price) values(1,1,1,1.2);
	$>hive>insert into orders(id,cid,orderno,price) values(1,1,2,3.2);

2.		连接查询
2.1.	left semi join
	左半连接left semi-join,select和where子句不能引用到右边表字段。左表的记录在右表中一旦找到对应的记录，右侧表立即停止，效率比内连接效率高
	hive不支持右半连接操作
	$>hive>select c.id,c.name from customers c left semi join orders o on c.id = o.cid;
2.2.	笛卡尔链接m*n
	$>hive>select c.id,c.name from customers c join orders o on c.id = o.cid;

2.3.	map端连接
	map端连接，通过mapper的手段，将一张小表完全载入内存中。
Hive中的Map Join即map side join工作原理是在Map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作。MapJoin使用了分布式缓存技术。
Map Join的优点：
1.不消耗集群的reduce资源。
2.减少了reduce操作，加快了程序执行。
3.降低网络负载。
Map Join的缺点：
1.占用内存(所以加载到内存中的表不能过大，因为每个计算节点都会加载一次)。
2.生成较多的小文件。
	$>hive>select /*+mapjoin(c)*/ c.id,c.name,o.orderno from customers c join orders o;
	$>hive>select /*+mapjoin(o)*/ c.id,c.name,o.orderno from customers c join orders o;
	$>hive>set hive.mapjoin.smalltable.filesize=25000000; --设置小表阀值
2.4.	union all 联合操作
	union all 联合操作，字段的类型和个数需要匹配
	$>hive>select id,name from customers union all select id,orderno from orders;

查询拓展

排序
Hive基于HADOOP来执行分布式程序的，和普通单机程序不同的一个特点就是最终的数据会产生多个子文件，每个reducer节点都会处理partition给自己的那份数据产生结果文件，这导致了在HADOOP环境下很难对数据进行全局排序，如果在HADOOP上进行order by全排序，会导致所有的数据集中在一台reducer节点上，然后进行排序，这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。一种替代的方案则是放弃全局有序，而是分组有序。
1.	全排序
	order by 全排序，对所有数据通过一个reduce进行排序
	$>hive>select * from orders order by cid asc,price desc; --全局排序
asc---升序
desc---降序 
2.	局部排序
	sort by 局部排序，每个reduce都会进行排序
	$>hive>select * from orders sort by cid asc,price desc; --局部排序
3.	distribute by
	distribute by 等价于自定义分区函数，要写在sort by 之前
	$>hive>select * from orders distribute by cid sort by cid asc,price desc; --先按照cid分区，再局部排序


视图
1.	创建视图
view(虚表),降低查询的复杂度
	$>hive>create view view1 as select c.id cid, c.name, c.age, o.id oid, o.orderno, o.price from customers c left outer join orders o on c.id = o.cid;
2.	通过视图直接查询
	$>hive>select * from view1 where price>2;
3.	通过视图创建表
	$>hive>create table table1 like view1;
	$>hive>create table table2 as select * from test2;（另一种通过数据的方法）
4.	删除视图
	$>hive>drop view if exists view1;


索引
1.	创建索引
$>hive>-- 索引,hive没有key(primary key, auto_increment)
	$>hive>-- 创建索引，deferred rebuild该选项时，索引为空白状态，需要rebuild才能够初始化
	$>hive>create index idx_customers_id on table customers(id) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild IN TABLE customers_index;
	
	$>hive>create index idx_orders_orderno on table orders(id) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild in table orders_index;
	$>hive>alter index idx_customers_id on customers rebuild;  --重建索引,产生索引表，是hdfs的一个文件
		hdfs://namenode/user/hive/warehouse/hive1.db/customers/000000_0 --索引文件（表）
	$>hive>select * from customers_index;  --显示索引表信息
	$>hive>show formatted index on customers;
2.	删除索引
	$>hive>drop index if exists idx_customers_id on customers;


桶表
在hive中，数据库、表、分区都是对应到hdfs上的路径，当往表中上传数据的时候，数据会传到对应的路径下，形成新的文件，文件名的格式类似为00000_0…每次插入文件都会形成新的文件，命名也是有规律的，桶表就是对应不同的文件的。
    hive中有桶的概念，对于每一个表或者分区来说，可以进一步组织成桶，其实就是更细粒度的数据范围。
	$>hive>-- 桶表(bucket)，是文件。通过hash定位
	$>hive>-- 创建桶表
	$>hive>--create table ... clustered by (field_name) into n buckets;
	$>hive>create table orderitems (id int, itemname string, oid int) clustered by (oid) into 3 buckets row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile;
$>hive>insert into orderitems(id,itemname,oid) values(1,'water',1);

桶的数量意味着产生文件的数量，那么两个桶就应该使用2个reduce任务来完成，但是默认情况下hive只启动一个reducer，所以要修改reducer的数量，可以通过设置强制分桶机制来保证reducer数量和桶的数量一致。
    
$>hive>set hive.enforce.bucketing = true;

Hive调优

1.	explain
	解释执行计划
	$>hive>explain select count(*) from test2;
	
2.	limit
启用limit优化,避免全表扫描，使用抽样机制。
	$>hive>select * from test2 limit 1,2;

3.	join 
	使用map端连接/*+ mapjoin (table)*/
	$>hive>select /*+mapjoin(c)*/ c.id,c.name,o.orderno from customers c join orders o;

4.	设置本地模式，在单台机器上处理所有任务
	适用于小数据情况
	$>hive>set hive.exec.mode.local.auto=true; // 默认false
	$>hive>set mapreduce.framework.name=local;

5.	并行执行job
	如果job之间没有依赖关系，可以并发执行，缩短执行时间
	$>hive>set hive.exec.parallel=true; // 默认false

6.	严格模式
	$>hive>set hive.mapred.mode=strict; // 默认false,该设置会禁用以下操作：
		1、不指定limit的order by
		2、对分区表不指定分区进行查询
		3、和数据量无关，只是一个查询模式

7.	调整reducer的个数
	$>hive>set hive.exec.reducers.bytes.per.reducer=256000000; // 每个reducer大小，默认256M
	$>hive>set hive.exec.reducers.max=1009; //最大多少个reducers被使用

8.	jvm重用
	使得同一个jvm在一个job(map*,reduce*)中执行多次，避免启动jvm的开销。
	$hive>set mapreduce.job.ubertask.enable=true;  //是否启用uber,jvm重用
	$hive>set mapreduce.job.ubertask.maxmaps=10;    // mapper最大数
	$hive>set mapreduce.job.ubertask.maxreduces=3; // reduce最大数

9.	索引
	使用index

10.	动态分区调整、bucket表
	$hive>set hive.exec.dynamic.partition.mode=strict; // 动态分区严格模式
	$hive>set hive.exec.max.dynamic.partitions=300000; // 最大分区数
	$hive>set hive.exec.max.dynamic.partitions.pernode=10000; // 每个节点的最大分区数

11.	推测执行，让map|reduce多个实例并发执行
原来hadoop在分配完map reduce task后，会预测性的判断某个map 或reduce task所在的节点资源有限，执行会比较慢。
因此他在资源更多的节点上会启动一个完全一样的map或 reduce task，同时执行，哪个先完成，就将未完成的那个task kill掉，这样可以提高整体job效率。
	$hive>set mapreduce.map.speculative=true; // map推测
	$hive>set mapreduce.reduce.speculative=true; // reduce推测

12.	虚拟列
	$hive>set hive.exec.rowoffset=true; // 是否启用虚拟列
	$hive>select INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, name from test2; // INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE是虚拟列

13.	压缩
13.1.	启用中间结果压缩（map输出，reduce输入）
	$hive>set hive.exec.compress.intermediate=true; // 启用压缩
修改map输出结果的压缩类型,默认值是DefaultCodec
	[mapred-site.xml]
	
		mapred.map.output.compression.codec</name>
		org.apache.hadoop.io.compress.SnappyCodec</value>
	</property>
13.2.	设置最终的job输出压缩
	1、设置hive的查询结果是否压缩
		$hive> set hive.exec.compress.output=true; // 默认false,不压缩
	2、设置压缩类型，具体配置要依靠hadoop配置
			[mapred-site.xml]
			
				mapred.output.compression.codec</name>
				org.apache.hadoop.io.compress.GzipCodec</value>
			</property>
13.3.	使用sequencefile作为存储格式(默认是record压缩)
	$hive>create table t_seq(id int,name string,age int) stored as sequencefile; // 使用序列文件存储
	$hive>insert into t_seq select * from myhive.t; // 复制test1数据到t_seq

13.4.	例子：控制sequencefile中map端输出时文件的压缩类型,使用block压缩
	1、中间结果压缩
	$hive>set hive.exec.compress.intermediate=true; // 中间结果是否压缩,作为是否压缩的控制阀门
	$hive>set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec; // map输出codec
	2、job结果压缩
	$hive>set hive.exec.compress.output=true; // job的输出是否压缩,作为是否压缩的控制阀门
	$hive>set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; //job输出的codec
	$hive>set mapred.output.compression.type=BLOCK; //job的输出block压缩

Hive函数

函数操作
$hive>show functions; // 显示所有函数
$hive>desc function case; // 查看函数帮助(describe)
$hive>desc function extended case; // 查看函数扩展帮助(细粒度)
自定义函数
UDF用户自定义函数。

创建类继承UDF

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;

@Description(name = "to_date", value = "to date udf!", extended = "For example : select  to_date('2020/09/17 12:12:12');")
public class UDFTest extends UDF {
	public Date evaluate(String date) {
		SimpleDateFormat sdf = new SimpleDateFormat();
		sdf.applyPattern("yyyy/MM/dd HH:mm:ss");
		try {
			return sdf.parse(date);
		} catch (ParseException e) {
			e.printStackTrace();
		}
		return new Date();
	}
}


-------------------------
将函数导出jar包
	mvn package -DskipTests（或者通过eclipse也可以直接导出）

通过hive命令将jar添加到hive类路径
	$hive>add jar /home/hadoop/tools/bigdata-hive-2.1.0-0.0.1-SNAPSHOT.jar;

注册函数
	$hive>create temporary function to_date as 'com.gxf.hive.func.UDFTest';

调用函数
	$hive>desc function to_date;
	$hive>desc function extended to_date;
	$hive>select  to_date('2020/09/17 12:12:12');

自定义表生成函数UDTF。User Define table function,表生成函数n个输入，多行或者多列作为输出
例如：
$hive>select array(1,2,3);
$hive>select explode(array(1,2,3));

创建类UDTF，继承GenericUDTF

import java.util.ArrayList;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector.PrimitiveCategory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.WritableConstantIntObjectInspector;
import org.apache.hadoop.io.IntWritable;

@Description(name = "forx", value = "this is my first UDTF!", extended = "For example : select  forx(1,10,1);")
public class UDTFTest extends GenericUDTF {
	IntWritable start;
	IntWritable end;
	IntWritable inc; // increment
	private Object[] forwardObj;

	public StructObjectInspector initialize(ObjectInspector[] args) throws UDFArgumentException {
		start = ((WritableConstantIntObjectInspector) args[0]).getWritableConstantValue();
		end = ((WritableConstantIntObjectInspector) args[1]).getWritableConstantValue();
		if (args.length == 3) {
			inc = ((WritableConstantIntObjectInspector) args[2]).getWritableConstantValue();
		} else {
			inc = new IntWritable(1);
		}

		this.forwardObj = new Object[1];
		ArrayList<String> fieldNames = new ArrayList<String>();
		ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
		fieldNames.add("col0");
		fieldOIs.add(PrimitiveObjectInspectorFactory.getPrimitiveJavaObjectInspector(PrimitiveCategory.INT));
		return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
	}

	@Override
	public void close() throws HiveException {
	}

	@Override
	public void process(Object[] arg0) throws HiveException {
		for (int i = start.get(); i < end.get(); i = i + inc.get()) {
			this.forwardObj[0] = new Integer(i);
			forward(forwardObj);
		}
	}
}


-------------------------
将函数导出jar包
	mvn package -DskipTests

通过hive命令将jar添加到hive类路径
	$hive>add jar /home/hadoop/tools/bigdata-hive-2.1.0-0.0.1-SNAPSHOT.jar;

注册函数
	$hive>create temporary function forx as 'com.gxf.hive.func.UDTFTest';

调用函数
	$hive>select forx(1,10);

特别鸣谢-人员

ZhangWen
WangSheng
LazyHou
LiMingyu
ZhaoXu
HuChuan
AG

特别鸣谢-文章

Hadoop各进程启动命令
https://blog.csdn.net/qq_40513633/article/details/80725474
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeExcepti
https://blog.csdn.net/qq_35078688/article/details/86137440
在hive中执行sql语句：SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:[TEAM_AG采用]
https://blog.csdn.net/estelle_belle/article/details/89469581
cmd连接mysql连接：mysql-h主机地址-u用户名－p用户密码（注:u与root可以不用加)
https://www.cnblogs.com/kpengfang/p/5201285.html
Your password does not satisfy the current policy requirements
https://blog.csdn.net/hello_world_qwp/article/details/79551789
linux find 命令查找文件和文件夹
https://www.cnblogs.com/jiftle/p/9707518.html
Schema initialization FAILED! Metastore state would be inconsistent !
https://blog.csdn.net/zzw_17600691357/article/details/89667881
WARN: Establishing SSL connection without server’s identity verification is not recommended【TEAM-AG采用】
https://blog.csdn.net/lukabruce/article/details/102837226
Ubuntu 修改终端显示的主机名和用户名
https://www.linuxidc.com/Linux/2020-01/162067.htm
linux查看当前登录用户名
https://blog.csdn.net/qq_37960324/article/details/82251328

用户名 >whoami
主机名 >hostname

Linux系统中的权限详解
https://www.cnblogs.com/songgj/p/8890710.html

TEAM-AG 本文相关工作人员

WuKai
LiXing
WenWen
LiJia
WangYujia
AG

你可能感兴趣的:(大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本