Rkun18

Hive SQL DML

本节所需数据集

数据集提取码：rkun

⛵加载数据

Load

加载，装载
将数据文件移动到与Hive表对应位置，移动时是纯复制，移动操作。
纯复制移动指数据load加载到表中，hive不会对表中数据内容进行任何变换，任何操作

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename;

本地文件系统LOCAL指的是Hiveserver2服务所在机器的本地Linux文件系统，不是Hive客户端所在的本地文件系统。

首先准备数据

students.txt

95001,李勇,男,20,CS
95002,刘晨,女,19,IS
95003,王敏,女,22,MA
95004,张立,男,19,IS
95005,刘刚,男,18,MA
95006,孙庆,男,23,CS
95007,易思玲,女,19,MA
95008,李娜,女,18,CS
95009,梦圆圆,女,18,MA
95010,孔小涛,男,19,CS
95011,包小柏,男,18,MA
95012,孙花,女,20,CS
95013,冯伟,男,21,CS
95014,王小丽,女,19,CS
95015,王君,男,18,MA
95016,钱国,男,21,MA
95017,王风娟,女,18,IS
95018,王一,女,19,IS
95019,邢小丽,女,19,IS
95020,赵钱,男,21,IS
95021,周二,男,17,MA
95022,郑明,男,20,MA

Hiveserver2服务所在机器的本地Linux上传数据

[root@node1 ~]# cd hivedata/
[root@node1 hivedata]# ls
archer.txt  students.txt  team_ace_player.txt

[root@node1 hivedata]# pwd
/root/hivedata

在db1下创建两张表


--建表student_local 用于演示从本地加载数据
create table student_local(num int,name string,sex string,age int,dept string) row format delimited fields terminated by ',';
--建表student_HDFS  用于演示从HDFS加载数据
create table student_HDFS(num int,name string,sex string,age int,dept string) row format delimited fields terminated by ',';

-- 从本地加载数据  数据位于HS2（node1）本地文件系统  本质是hadoop fs -put上传操作
LOAD DATA LOCAL INPATH '/root/hivedata/students.txt' INTO TABLE student_local;

将数据上传到hdfs根目录下

[root@node1 hivedata]# hadoop fs -put students.txt /
[root@node1 hivedata]# hadoop fs -ls /
Found 3 items
-rw-r--r--   3 root supergroup        526 2023-06-13 15:26 /students.txt
drwx-w----   - root supergroup          0 2023-06-13 09:28 /tmp
drwxr-xr-x   - root supergroup          0 2023-06-13 09:12 /user

--从HDFS加载数据  数据位于HDFS文件系统根目录下  本质是hadoop fs -mv 移动操作
--先把数据上传到HDFS上  hadoop fs -put /root/hivedata/students.txt /
LOAD DATA INPATH '/students.txt' INTO TABLE student_hdfs;

️插入数据

insert+select：将后面查询返回的结果作为内容插入到指定表中

INSERT INTO TABLE tablename select_statement1 FROM from_statement;

底层使用MapReduce，会经历一系列操作，所以会很慢，不要急。

--step1:创建一张源表student使用之前的数据
drop table if exists student;
create table student(num int,name string,sex string,age int,dept string)
row format delimited fields terminated by ',';

--step2:加载数据
load data local inpath '/root/hivedata/students.txt' into table student;


--step3：创建一张目标表  只有两个字段
create table student_from_insert(sno int,sname string);

--使用insert+select插入数据到新表中
insert into table student_from_insert select num,name from student;

查询数据

语法结构

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[LIMIT [offset,] rows]

从哪里查询取决于FROM后面的参数
表名和列名不区分大小写

练习

数据准备：

us-covid19-counties.dat

美国2021-01-28各个县累计新冠确诊病例数和累计死亡病例数

上传文件至LOCAL

#上传文件至node1
[root@node1 ~]# cd hivedata/
[root@node1 hivedata]# ls
archer.txt  students.txt  team_ace_player.txt
[root@node1 hivedata]# ls
archer.txt  students.txt  team_ace_player.txt  us-covid19-counties.dat
[root@node1 hivedata]# pwd
/root/hivedata

创建表

--创建表t_usa_covid19
drop table if exists t_usa_covid19;
CREATE TABLE t_usa_covid19(
    count_date string,
    county string,
    state string,
    fips int,
    cases int,
    deaths int)
row format delimited fields terminated by ",";

--将数据load加载到t_usa_covid19表对应的路径下
load data local inpath '/root/hivedata/us-covid19-counties.dat' into table t_usa_covid19;

虽然数据导入较慢，但数据查询很快。

select_expr

表示检索查询返回的列，必须至少有一个select_expr。

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[LIMIT [offset,] rows];

select county, cases, deaths from t_usa_covid19;
--查询当前数据库
select current_database(); --省去from关键字

ALL DISTINCT

用户查询指定返回结构中重复的行如何处理
没有给出这些选择，默认ALL（匹配所有行）
DISTINCT指定从结果集中删除重复的行

--返回所有匹配的行
select state from t_usa_covid19;
--相当于
select all state from t_usa_covid19;

--返回所有匹配的行 去除重复的结果
select distinct state from t_usa_covid19;
--多个字段distinct 整体去重
select distinct county,state from t_usa_covid19;

建议给Hive服务器内存和核数给多一点，要不然可能会很慢。

WHERE

后跟布尔表达式（true/false),用于查询过滤，当布尔表达式为true，返回select后expr表达是结果，否则返回空
可以使用Hive正常的任何函数和运算符，聚合函数除外

select * from t_usa_covid19 where 1 > 2;  -- 1 > 2 返回false 返回为空
select * from t_usa_covid19 where 1 = 1;  -- 1 = 1 返回true 查询所有

--找出来自于California州的疫情数据
select * from t_usa_covid19 where state = 'California';
--where条件中使用函数 找出州名字母长度超过10位的有哪些
select * from t_usa_covid19 where length(state) >10 ;

聚合

SQL用于计数和计算的内建函数
聚合操作函数：COUNT ,SUM,MAX ,MIN,AVG等函数
聚合不管袁术数据有多少行记录，经聚合只返回一行

AVG(column) 返回某列的平均值

COUNT(column) 返回某列的行数（不包括 NULL 值）

COUNT(*) 返回被选行数

MAX(column) 返回某列的最高值

MIN(column) 返回某列的最低值

SUM(column) 返回某列的总和

--学会使用as 给查询返回的结果起个别名
select count(county) as county_cnts from t_usa_covid19;
--去重distinct
select count(distinct county) as county_cnts from t_usa_covid19;

--统计美国加州有多少个县
select count(county) from t_usa_covid19 where state = "California";
--统计德州总死亡病例数
select sum(deaths) from t_usa_covid19 where state = "Texas";
--统计出美国最高确诊病例数是哪个县
select max(cases) from t_usa_covid19;

GROUP BY

用于结合聚合函数，根据一个或多个列对结果集进行分组

--根据state州进行分组 统计每个州有多少个县county
select count(county) from t_usa_covid19 where count_date = "2021-01-28" group by state;

--统计的结果是属于哪一个州的
select state,count(county) as county_nums from t_usa_covid19 where count_date = "2021-01-28" group by state;

--每个县的死亡病例数 把deaths字段加上返回  
select state,count(county),sum(deaths) from t_usa_covid19 where count_date = "2021-01-28" group by state;
-- sql报错了org.apache.hadoop.hive.ql.parse.SemanticException:Line 1:27 Expression not in GROUP BY key 'deaths'

--group by的语法限制
--结论：出现在GROUP BY中select_expr的字段：要么是GROUP BY分组的字段；要么是被聚合函数应用的字段。
--deaths不是分组字段 报错
--state是分组字段 可以直接出现在select_expr中
--被聚合函数应用
select state,count(county),sum(deaths) from t_usa_covid19 where count_date = "2021-01-28" group by state;
--避免出现歧义

HAVING

Having让我们筛选分组后各组数据，可以在Havin中使用聚合函数，此时where，group by执行结束，结果集以及确定(在确定的结果集上进行操作)

--在group by的时候聚合函数已经作用得出结果 having直接引用结果过滤 不需要再单独计算一次了
select state,sum(deaths) as cnts from t_usa_covid19 where count_date = "2021-01-28" group by state having cnts> 10000;

ORDER BY

用于指定列对结果集进行排序
默认升序（ASC）对记录进行排序，降序（DESC）

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[LIMIT [offset,] rows]

--不写排序规则 默认就是asc升序
select * from t_usa_covid19 order by cases asc;

--根据死亡病例数倒序排序 查询返回加州每个县的结果
select * from t_usa_covid19 where state = "California" order by cases desc;

LIMIT

限制SELECT语句返回行数
接受一个或两个数字参数，必须都是非负整数
第一个参数代表返回第一行的偏移量，第二个参数代表返回的最大行数。
给出单个参数，代表最大行数，偏移量默认为0

--返回结果集的前5条
select * from t_usa_covid19 where count_date = "2021-01-28" and state ="California" limit 5;

--返回结果集从第3行开始 共3行
select * from t_usa_covid19 where count_date = "2021-01-28" and state ="California" limit 2,3;
--注意 第一个参数偏移量是从0开始的 0 1 2 从第三条数据开始（包含第三条数据）



select state,sum(deaths) as cnts from t_usa_covid19
where count_date = "2021-01-28"
group by state
having cnts> 10000
limit 2;

️JOIN

根据两个或多个表中列之间的关系，从这些表中共同查询数据。
inner join(内连接) left join(左连接)

join_table:
table_reference [INNER] JOIN table_factor [join_condition]
| table_reference {LEFT} [OUTER] JOIN table_reference join_condition
join_condition:
ON expression

table_reference：join查询使用的表名
table_factor：链接查询使用的表名
join_condition：join查询关联条件

数据准备：

数据集中hive join

员工表 employee.txt
地址信息 employee_address.txt
联系方式 employee_connection.txt

#上传表数据
[root@node1 ~]# cd hivedata/
[root@node1 hivedata]# ls
archer.txt  students.txt  team_ace_player.txt  us-covid19-counties.dat
[root@node1 hivedata]# rm -rf *
[root@node1 hivedata]# ls
employee_address.txt  employee_connection.txt  employee.txt

-- 员工表
CREATE TABLE employee(
   id int,
   name string,
   deg string,
   salary int,
   dept string
 ) row format delimited
fields terminated by ',';

--住址信息表
CREATE TABLE employee_address (
    id int,
    hno string,
    street string,
    city string
) row format delimited
fields terminated by ',';

--联系方式信息表
CREATE TABLE employee_connection (
    id int,
    phno string,
    email string
) row format delimited
fields terminated by ',';

--加载数据到表中
load data local inpath '/root/hivedata/employee.txt' into table employee;
load data local inpath '/root/hivedata/employee_address.txt' into table employee_address;
load data local inpath '/root/hivedata/employee_connection.txt' into table employee_connection;

⭐inner join

只有进行连接的两个表都存在与连接条件相匹配的数据才会被留下来
inner join == join

select e.id ,e.name,e_a.city,e_a.street
from employee e
join employee_address e_a
on e.id =e_a.id;

left join

join时以左表数据为准，右表与之管理，左边数据全部返回，右表关联数据返回，关联不上使用null返回。

select e.id,e.name,e_conn.phno,e_conn.email
from employee e
left join employee_connection e_conn
on e.id =e_conn.id;

MySQL 两种存储引擎: MyISAM和InnoDB 简单总结诸葛钢铁云 Mysql mysql
MyISAM是MySQL的默认数据库引擎（5.5版之前），由早期的ISAM（IndexedSequentialAccessMethod：有索引的顺序访问方法）所改良。虽然性能极佳，但却有一个缺点：不支持事务处理（transaction）。不过，在这几年的发展下，MySQL也导入了InnoDB（另一种数据库引擎），以强化参考完整性与并发违规处理机制，后来就逐渐取代MyISAM。InnoDB，是MyS
Spring Boot与MyBatis geinvse_seg 面试学习路线阿里巴巴 spring boot mybatis 后端
SpringBoot与MyBatis的配置一、简介SpringBoot是一个用于创建独立的、基于Spring的生产级应用程序的框架，它简化了Spring应用的初始搭建以及开发过程。MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射。将SpringBoot和MyBatis结合使用，可以高效地开发数据驱动的应用程序。二、环境准备（一）创建SpringBoot项目可以使用Sp
基础篇——数据库与表操作暴怒的代码 oracle 数据库
引言在掌握MySQL环境搭建后，数据库与表的操作是开发者必须精通的核心技能。本文系统讲解数据库与表的创建、数据类型选择、约束设计以及表结构修改四大模块，特别标注20+个新手高频踩坑点，帮助读者避开90%的常见错误。一、数据库与表的基础操作1.1创建/删除数据库标准语法：--创建数据库（必须指定字符集）CREATEDATABASEshop_dbDEFAULTCHARACTERSETutf8mb4CO
【MySQL | 四、表的基本查询（增删查改）】ヾ慈城 mysql android adb
目录表的增删查改Create(创建)表数据的插入替换Retrieve(读取)1.全列查询2.指定列查询3.表达式查询4.为查询结果指定别名5.去重查询WHERE条件查询排序筛选分页查询Update(更新)Delete(删除)删除整张表数据插入查询结果聚合函数groupbyhaving和where的区别1.作用范围不同2.执行顺序不同查询语句执行顺序分析1.**`SELECT`查询语句**2.**`
SQL笔记#数据更新月吟荧静 SQL笔记 sql 笔记数据库
一、数据的插入(INSERT语句的使用方法)1、什么是INSERT首先通过CREATETABLE语句创建表，但创建的表中没有数据；再通过INSERT语句向表中插入数据。--创建表ProductInsCREATETABLEProductIns(product_idCHAR(4)NOTNULL,product_nameVARCHAR(100)NOTNULL,product_typeVARCHAR(32
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 web安全 CTF 网络安全大赛 python Linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
SQLite自增列相关内容秦时明月之君临天下 SQLite sqlite jvm 数据库
文章目录相关知识创建表插入数据查看自增列重置自增列注意事项参考文档相关知识SQLite的自增用法和MySQL类似：使用的关键字是AUTOINCREMENT（MySQL用的是AUTO_INCREMENT）。AUTOINCREMENT关键字会增加额外的CPU、内存、磁盘空间和磁盘I/O开销，如果不是严格需要的话，应该避免使用。它通常是不需要的。在SQLite中，具有INTEGERPRIMARYKEY类
Mysql疑难报错排查 - Field ‘XXX‘ doesn‘t have a default value m0_74823408 面试学习路线阿里巴巴 mysql 数据库
项目场景：数据库环境：mysql8;工程使用：MyBatisPlus表情况：问题描述某一个插入语句使用了MyBatisPlus的save方法，因为end_time1end_time2都并没有值，所以在MyBatisPlus默认情况下，并不会在插入语句中提及，最终提取其SQL：INSERTINTOaaaa(serial_no,business_date,market_no,report_code)V
hivePB级迁移方案我要用代码向我喜欢的女孩表白数据库 bigdata-大数据专栏 hive
1、评估磁盘空间大小、调整副本数、设置heapsize大小2、distcp-i-skipcrccheck源端到目标端，迁移3、元数据迁移，建表，替换location地址，或者导出db4、表分区修复5、配置增量T-1迁移或者T-26、校验历史分区脚本，表结构，大小，文件数7、根据ditcp不对的，进行补数脚本，删分区，重拉8、任务校验，客户跑完任务后，校验指定分区的count数和内容的md59、任务
深入探讨Ceph：分布式存储架构的未来深度Linux ceph 分布式架构 C/C++
在数字化浪潮汹涌澎湃的当下，数据量呈爆发式增长，传统存储系统在应对海量数据存储、高并发访问以及灵活扩展等方面，逐渐显得力不从心。分布式存储技术应运而生，成为解决现代数据存储难题的关键方案，而Ceph作为分布式存储领域的佼佼者，正日益受到广泛关注和应用。Ceph以其卓越的性能、高可靠性、强大的扩展性以及开源的特性，在众多分布式存储系统中脱颖而出，被广泛应用于云计算、大数据、人工智能等前沿领域。无论是
最好Wordpree+Apache+PHP安装教程伶星37 apache php 开发语言
前提需要PHP的安装最少需要7.4以上Mysql的安装，直接默认最新版就行APache服务器（HTTP服务器，只有用这个你的软件才能在服务器上运行）安装apache安装sudoaptinstallapache2查看防火墙sudoufwapplist如果有Apache那么就可以直接访问安装PHP版本7.4就可以sudoaptinstallphp-mysqlsudosystemctlrestartap
SQL注入原理即sqli-labs搭建，sql注入简单实战 Cwillchris 网络安全全栈课程渗透测试 web安全安全 sql
一、SQL注入概述1、SQL注入原理用户登录的基本SQL语句：select*fromuserswhereusername='用户输入的用户名'andpassword='用户输入的密码'用户输入的内容是可控的，例如我们可以在用户名中输入'or1=1--空格select*fromuserswhereusername=''or1=1--空格'andpassword='用户输入的密码'此时我们输入的第一个
我在广州学 Mysql 系列——存储过程与存储函数详解练小杰数据库相关 mysql android 数据库学习 adb sql
ℹ️大家好，我是练小杰，今天周五了，一周就这样从手上溜走了，还有两星期过年！！本文将学习MYSQL中存储过程与存储函数的概念~~回顾：【索引详解】【索引相关练习】数据库专栏【数据库专栏】~想要了解更多内容，主页【练小杰的CSDN】文章目录存储过程与存储函数存储过程（StoredProcedure）存储函数（StoredFunction）⚠️主要区别选择存储过程还是存储函数创建存储过程命令解释创建存
我在广州学 Mysql 系列——数据表查询命令详解练小杰数据库相关 mysql 数据库学习经验分享 adb 后端
ℹ️大家好，我是LXJ，今天星期二了，本文将讲述MYSQL查询数据的详细命令以及相关例题~~复习：《Mysql函数的练习题》同时，数据库相关内容查看专栏【数据库专栏】~想要了解更多内容请点击我的主页:【练小杰的CSDN】“倒霉，倒霉，倒霉！”——龙叔文章目录前言基本查询语句单个表格查询查询所有字段查询指定字段查询指定记录带IN关键字的查询带BETWEENAND的范围查询带LIKE的字符匹配查询查询
根据Excel生成建表语句sql——源码设计说明忙碌的菠萝 java 环境搭建 sql java 数据库
根据Excel生成建表语句sql设计的人跟开发的人总不是同一个，这就导致了设计是设计的思路，开发是开发的思路，表也是一样，开发给加了字段不同步给设计人员，设计加了字段开发可能这个环境加了，另一个没加。为了避免比对和扯皮，以设计为准！序号内容连接地址1工具使用说明https://blog.csdn.net/qq_21271511/article/details/1219010642工具下载地址htt
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
解释SQL和NoSQL数据库的区别，各自的适用场景是什么？破碎的天堂鸟学习教程 nosql 数据库
SQL与NoSQL数据库的深度对比及适用场景分析一、核心定义与数据模型差异1：SQL数据库结构化数据模型：基于关系型模型，数据以表格（行和列）形式存储，表之间通过外键建立关联。例如，客户表与订单表通过客户ID关联，形成严格的逻辑结构。预定义模式（Schema）：需提前定义表结构（字段类型、主键、外键等），修改结构需通过ALTER等命令，灵活性较低。标准化查询语言：使用SQL（StructuredQ
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
一个基于 React + SpringBoot 的在线多功能问卷系统（附源码）程序员-李旭亮 Java项目源码 react.js spring boot 前端
简介：一个基于React+SpringBoot的在线多功能问卷系统前端技术栈：React、React-Router、Webpack、Antd、Zustand、Echarts、DnDKit后端技术栈：SpringBoot、MySQL、MyBatisPlus、Redis项目源码下载链接：https://pan.quark.cn/s/2e32786e0c61部分页面静态预览：主要前端业务需求与技术突破：
Day5 --- Flask-RESTful请求响应与SQLAlchemy基础 laufing 问题 flask restful python
文章目录昨日回顾今日内容1.请求解析1.1RequestParser处理请求1.2参数详解1.3处理请求案例2.返回响应2.1序列化数据:2.2返回JSON格式3.ORM与Flask-SQLAlchemy3.1ORM介绍ORM框架3.2Flask-SQLAlchemy扩展3.3定义模型类3.4数据库迁移操作4.数据增删改查4.1新增数据4.2简单查询4.3更新数据4.4删除数据5.数据操作案例昨日
python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例 weixin_39955149 python pandas 读取数据库
Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins
python把oracle的查询结果导出为insert语句优游的鱼 oracle python 数据库开发语言
可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor
Linux上用C++和GCC开发程序实现不同PostgreSQL实例下单个数据库的多个Schema之间的稳定高效的数据迁移 weixin_30777913 c++数据库 postgresql
设计一个在Linux上运行的GCCC++程序，同时连接两个不同的PostgreSQL实例，两个实例中分别有一个数据库的多个Schema的表结构完全相同，复制一个实例中一个数据库的多个Schema里的所有表的数据到另一个实例中一个数据库的多个Schema里，使用以下快速高效的方法，加入异常处理，支持每隔固定时间重试一定次数，每张表的复制运行状态和记录条数，开始结束时间戳，运行时间，以及每个批次的运行
指定的服务已标记为删除勤不了一点 windows windows
同时也适合xampp下的apache、mysql等各个服务转发：https://www.iteye.com/blog/inexus-1608761想重新在windows里部署svn服务，所以第一步删除svn服务：管理员权限下运行cmd：“scdeletesvnserver”之后再部署svn的服务：“sccreatesvnserverbinpath="C:\ProgramFiles\Tortoise
记一次从mysql数据迁移到oralce （基于python和pandas） qq_36532060 mysql oracle pandas python
记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
MySQL表转移数据的三种方式 m0_74823471 面试学习路线阿里巴巴 mysql 数据库
说明：在一些情况，像大表修改表结构，重新建立分区（对已有表建立分区，对历史数据是不生效的），或者表备份，我们需要将表的数据，从一张表转移到另外一张表里。本文介绍，MySQL表转移表数据的三种方式；方式一使用下面两行命令，将数据导出为一个sql，再导入到目标表里；#导出mysqldump-uroot-p--no-create-info--skip-extended-insert-tpartition
utf8mb4_general_ci 和 utf8mb4_unicode_ci 是 MySQL 中用于 utf8mb4 字符集的两种常见的排序规则（Collation）小丁学Java 产品资质管理系统 ci/cd mysql android
utf8mb4_general_ci和utf8mb4_unicode_ci是MySQL中用于utf8mb4字符集的两种常见的排序规则（Collation）。它们在字符排序、比较和性能上有一些区别。以下是用表格列出它们的区别：特性utf8mb4_general_ciutf8mb4_unicode_ci字符集支持支持utf8mb4字符集（4字节UTF-8，支持所有Unicode字符，包括表情符号）支持
Postgresql 查询数据库列表，表列表，字段列表小毛驴850 postgresql 数据库
--列出数据库列表SELECT*FROMpg_database;--查询表字段明细SELECTcol.table_schema,col.table_name,col.ordinal_position,col.column_name,col.data_type,col.character_maximum_length,col.numeric_precision,col.numeric_scale,c
MySQL修改密码过期时间小毛驴850 mysql 数据库
1、my.ini中设置[mysqld]#过期时间90天default_password_lifetime=902、或者SETGLOBALdefault_password_lifetime=90;3、或者ALTERUSER'username'@'hostname'PASSWORDEXPIREINTERVAL90DAY;4、查看过期时间SHOWVARIABLESLIKE'default_passwor
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

Hive SQL DML

Hive SQL DML

⛵加载数据

️插入数据

查询数据

练习

select_expr

ALL DISTINCT

WHERE

聚合

GROUP BY

HAVING

ORDER BY

LIMIT

️JOIN

⭐inner join

left join

你可能感兴趣的:(#,大数据,hive,sql,hadoop)