DevinKim

Hive SQL基础练习

Hive SQL

文章目录

Hive SQL

一. Hive的DDL操作

1.操作数据库
2.操作表

①管理表
②外部表
③分区表
④分桶表
⑤修改表
⑥向表中加载数据
⑦其他表操作

二.hive的DML查询语法

1.limit语句
2.条件查询
3.分组查询
4.Join查询
5.排序查询

①Order By
②Sort By
③DIstribute By
④Cluste By

准备文件:

mkdir -p /export/temp/
cd /export/temp/
vim student.csv

01	赵雷	1990-01-01	男
02	钱电	1990-12-21	男
03	孙风	1990-05-20	男
04	李云	1990-08-06	男
05	周梅	1991-12-01	女
06	吴兰	1992-03-01	女
07	郑竹	1989-07-01	女
08	王菊	1990-01-20	女

vim teacher.csv
01	张三
02	李四
03	王五

vim score.csv

01	01	80
01	02	90
01	03	99
02	01	70
02	02	60
02	03	80
03	01	80
03	02	80
03	03	80
04	01	50
04	02	30
04	03	20
05	01	76
05	02	87
06	01	31
06	03	34
07	02	89
07	03	98

vim course.csv

01	语文	02
02	数学	01
03	英语	03

将这些文件上传到hdfs上一份:

hdfs dfs -put /export/temp /

一. Hive的DDL操作

1.操作数据库

注意: hive的表存放位置模式是由hive-site.xml当中的一个属性指定的

<name>hive.metastore.warehouse.dirname>
<value>/user/hive/warehousevalue>

#创建数据库
create database if not exists myhive;

#使用数据库
use  myhive;

#创建数据库, 并指定在hdfs上的存储位置
create database myhive2 location '/myhive2';

#强制删除数据库
drop database myhive2 cascade;

操作数据库的其他命令(了解)

#查看数据库基本信息
desc database myhive;

#查看数据库更多详细信息
desc database extended myhive;

#可以使用alter  database  命令来修改数据库的一些属性。
#但是数据库的元数据信息是不可更改的，包括数据库的名称
#以及数据库所在的位置
alter  database  myhive  set 
dbproperties('createtime'='20190611');

2.操作表

①管理表

#创建管理表
create table stu(id int,name string);

insert into stu values(1,"zhangsan");

select * from stu;

②外部表

外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在hdfs当中，不会删掉。

操作案例: 分别创建老师与学生表外部表，并向表中加载数据

#创建teacher表
create external table teacher 
(t_id string, t_name string) 
row format delimited fields terminated by '\t';

#创建student表
create external table student 
(s_id string, s_name string, s_birth string, s_sex string) 
row format delimited fields terminated by '\t'; 

#从本地系统向表中加载数据(删除表再重新创建后数据依然存在)
load data local inpath '/export/temp/student.csv' 
into table student;

#加载数据并覆盖已有的数据
load data local inpath '/export/temp/student.csv' 
overwrite into table student;

#从hdfs文件系统向表中加载数据(移动操作)
load data inpath '/temp/teacher.csv' into table teacher;

③分区表

将表数据分成了多个文件夹, 一个分区对应一个文件夹

#创建分区表,只有一个分区字段
create table score 
(s_id string, c_id string, s_score int) 
partitioned by (month string) 
row format delimited fields terminated by '\t';

#加载数据到score表中
load data local inpath '/export/temp/score.csv' 
into table score partition (month='201806');

#创建分区表,有多个分区字段
create table score2 
(s_id string,c_id string,s_score int) 
partitioned by (year string,month string,day string) 
row format delimited fields terminated by '\t';

#加载数据到score2表中
load data inpath '/temp/score.csv' 
overwrite into table score2 
partition (year='2018',month='06',day='01');

#在hdfs中, 在score表下创建一个分区文件夹
hdfs dfs -mkdir -p /temp/score3_data/month=201805

#将score.csv上传一份到这个分区目录中
hdfs dfs -put /export/temp/score.csv /temp/score3_data/month=201805

#创建外部表score3, 并指定在hdfs上的存储位置
create external table score3 
(s_id string, t_id string, s_score string) 
partitioned by (month string) 
row format delimited fields terminated by '\t' 
location '/temp/score3_data/';

#修复表score, 即建立表与数据之间的映射关系
msck repair table score3;

#或者不用上面的方法,手动给score3添加一个moth=201805的分区
alter table score3 add partition (month='201805');

其他操作分区表操作:

#查看分区
show partitions score2;

#添加一或多个分区(可以在hdfs中看到表下面多了文件夹)
alter table score add partition(month='201807') partition(month='201808');

#删除分区
alter table score drop partition (month='201807');

④分桶表

分桶表是对某一列数据进行哈希取值以将数据打散，然后放到不同文件中存储。
在hive分区表中，分区中的数据量过于庞大时，建议使用桶。
分桶后的查询效率比分区后的查询效率更高
只能用insert overwrite 方式给桶表添加数据

#开启hive分桶表的功能
set hive.enforce.bucketing=true;
#设置reduce的个数(不会决定文件分成了几个)
set mapreduce.job.reduces=3;

#创建桶course(课程)表, 3 buckets 决定了文件会分为3个
create table course 
(c_id string, c_name string, t_id string) 
clustered by (c_id) into 3 buckets 
row format delimited fields terminated by '\t';

注意: 只能用insert overwrite 方式给桶表添加数据

#先创建一个临时表course_temp
create table course_temp 
(c_id string,c_name string, t_id string) 
row format delimited fields terminated by '\t';

#向普通表中加载数据
load data inpath '/temp/course.csv' 
overwrite into table course_temp;

#通过insert overwrite 给桶表添加数据(最后的cluster by (c_id) 可不写)
insert overwrite table course 
select * from course_temp 
cluster by (c_id);

⑤修改表

#重命名表
alter table score3 rename to score4;

#添加列
alter table score4 add columns (mycol_1 string, mycol_2 int);

#修改列名
alter table score4 change column s_score s_score string;

⑥向表中加载数据

#先提前创建两个新表
create table score5 like score;
create table score6 like score;

#插入数据 ==> 强烈不推荐使用
insert into score5 
partition (month='201807') 
values ('001','002','003');

#通过load方式从Linux文件系统加载数据  ==>必须掌握
load data local inpath '/export/temp/score.csv' 
into table score5 
partition (month='201806');

#先往hdfs上上传文件
hdfs dfs -put /export/temp/score.csv /temp/
#通过load方式从hdfs文件系统加载数据, overwrite表示覆盖之前数据
load data inpath '/temp/score.csv' 
overwrite into table score5 
partition (month='201805');

#通过查询方式加载数据: 将查询score的结果作为输入添加到score6表中  ==> 必须掌握
insert overwrite table score6 
partition (month='201804') 
select s_id,c_id,s_score from score;

⑦其他表操作

#清空管理表数据  ==>清空外部表会报错
truncate table score6;

#将查询score表结果保存到一张新表当中去
create table score7 as select * from score;

#将查询结果导出本地Linux文件系统
insert overwrite local directory '/export/export_hive/' 
select * from score;

#hive中可执行dfs命令, 比如
dfs -mkdir -p /temp/export/;

=====================================下面的看一下了解即可================================

#export导出hive表数据
export table teacher to '/temp/export/';

#import导入hive表数据
create table teacher2 like teacher;
import table teacher2 from '/temp/export/';

# 了解: 将查询的结果导出到HDFS上(这种方式不能往Linux上导出)
insert overwrite directory '/temp/exporthive/' 
row format delimited fields terminated by '\t' 
collection items terminated by '#' 
select * from score;

#还可使用Sqoop导出

二.hive的DML查询语法

基础的语法就不做演示了

1.limit语句

#查询会返回多行数据, LIMIT子句用于限制返回的行数
select * from score limit 3;

2.条件查询

#查询分数在[80,100]的所有数据
select * from score where s_score between 80 and 100;

#先往表score中添加一行分数为null的数据
insert into score partition(month='201807') values ('003','004',null);

#查询成绩为空的所有数据
select * from score where s_score is null;

#查询成绩是80,90的数据
select * from score where s_score in (80,90);

#查找以8开头的所有成绩数据
select * from score where s_score like '8%';

#查询第二个数字为9分所有成绩数据
select * from score where s_score like '_9%';

#查询成绩中包含数字9的成绩数据(rlike 是Hive中一个扩展功能，
#可以通过Java的正则表达式来匹配条件)
select * from score where s_score rlike '[9]';

#查询s_id  不是 01和02的学生  ==>  not in 必须搭配使用
select * from score where s_id not in ('01','02');

3.分组查询

注意:
1.having只能用于 group by 分组统计语句中;
2.where针对查询前的表进行条件筛选, having是对分组查询后的结果在进行条件筛选;
3.where后面不能写分组函数，而having后面可以使用分组函数。

#计算每个学生的平均分数
select s_id, avg(s_score) as avg_score from score group by s_id;

# 求每个学生平均分数大于50的且学号不为01,001的人
select s_id , avg(s_score) avg_score 
from score 
where s_id not in('01','001') 
group by s_id having avg_score > 50;

4.Join查询

案例: 查询老师对应的课程

#准备 (向两表中各添加一条数据, 这样可以看出来三种join之间的区别)
insert into course values ('04','大数据','04');
insert into teacher values ('07','田七');

#内连接: Inner join ... on ==> 取两表之间的交集
select * from teacher t inner join course c on t.t_id = c.t_id;

#左外连接: left [outer] join ... on  ==>  以左边的表为主表
select * from teacher t 
left join course c 
on t.t_id = c.c_id;

#右外连接: right [outer] join ... on  ==> 以右边的表为主表
select * from teacher t 
right outer join course c 
on t.t_id = c.t_id;

#满外连接: full [outer] join ... on ==>  去两表之间的并集
select * from teacher t 
full join course c 
on t.t_id = c.c_id;

多表连接: 连接n个表, 至少需要n-1个条件

#查询老师对应的课程，以及对应的分数，对应的学生
select * from teacher t
left join course c
on t.t_id = c.t_id
left join score s
on c.c_id = s.c_id
left join student stu
on s.s_id = stu.s_id;

5.排序查询

①Order By

全局排序，由一个reduce来完成排序任务。

#DESC降序: 查询学生的成绩，并按照分数降序排列
select * from student stu 
left join score s 
on stu.s_id = s.s_id 
order by s.s_score DESC;

#ASC升序: 查询平均分小于80且姓名不为李云的学生, 升序排列
select stu.s_id, stu.s_name, avg(s.s_score) avg_score 
from student stu 
left join score s 
on stu.s_id = s.s_id and stu.s_name not in ('李云') 
group by stu.s_id, stu.s_name 
having avg_score <80 
order by avg_score ASC;

#把平均成绩大于30的学生, 按平均分降序排序 ==>  聚合函数后排序
select stu.s_id, stu.s_name, avg(s.s_score) avg_score 
from student stu 
left join score s 
on stu.s_id = s.s_id 
group by stu.s_id, stu.s_name 
having avg_score >30 
order by avg_score DESC;

#先按照学生id排序, 再按照成绩排序
select s.s_id, s.s_score 
from score s 
order by s.s_id, s.s_score;

②Sort By

局部排序, 由多个reduce的内部进行排序，对全局结果集来说不是排序。

#准备
set mapreduce.job.reduces=3;		#设置reduce个数

#按照成绩进行局部倒序排序
select * from score sort by s_score desc;

#将上面的结果导出, 会发现输出了3个文件
insert overwrite local directory '/export/hivedatas/' 
select * from score 
sort by s_score desc;

③DIstribute By

分区排序, 类似MapReduce中的partition步骤，必须结合sort by使用。

#案例: 先按照学生id进行分区，再按照学生成绩进行排序。
set mapreduce.job.reduces=7;		#一共七个id

#查询结果保存到本地 发现输出了7个文件
insert overwrite local directory '/export/hive_date2/' 
select * from score 
distribute by s_id sort by s_id;

④Cluste By

当distribute by和sort by字段相同时，可用cluster by替代, 只能是默认的倒序。

#以下两种写法等价
select * from score cluster by s_id;

select * from score distribute by s_id sort by s_id;

Hive SQL的一些基础语法就先总结到这里, 下篇将对Hive当中常用的函数进行总结

Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
Log Miner 挖挖挖
|LogMiner简介LogMiner是Oracle自Oracle8i以后推出的一个可以分析数据库redolog和archivelog内容的工具，可以通过日志分析所有对数据库的DDL和DML操作，也可以分析出操作的时间与操作时的SCN和进行操作的机器，对于DML操作还可以查询出还原操作的sql。|LogMiner组成源数据库产生LogMiner分析的所有重做日志文件的数据库挖掘数据库是执行LogM
apt-get install E: 无法定位软件包问题欧阳秦穆
在etc/apt的sources.list添加镜像源debhttp://archive.ubuntu.com/ubuntu/trustymainuniverserestrictedmultiverse然后sudoapt-getupdate接着安装就可以了
hive中2种常用的join方式潘达斯奈基~ 大数据 hive hadoop 数据仓库
在最近的项目代码review中，发现之前代码小表关联大表的业务，小表经过过滤后，数据只有400多条，而大表有1600万条，之前的逻辑是使用的是小表join大表，运行时间1小时12分钟；经过优化后，使用了mapjoin的方式，将小表放到内存中，运行时间7分钟。借此机会回顾下hive中2种常用的join方式：MapJoin、ReduceJoin（也叫CommonJoin）应对场景：MapJoin：适用
linux安装java jdk17 ng
1、下载jdk包wget--header=“Cookie:oraclelicense=accept-securebackup-cookie”https://download.oracle.com/java/17/archive/jdk-17.0.10_linux-x64_bin.tar.gz2、解压jdk包：tar-zxvfjdk-17.0.10_linux-x64_bin.tar.gz3、编辑配
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
.NET Framework 3.5 中的功能简介 benben0701 ASP.NET3.x .net windows wcf linq asp.net cryptography
.NETFramework3.5中的功能简介(1)我在前文《.NETFramework版本解析》（http://blog.csdn.net/johnsuna/archive/2008/03/23/2208684.aspx）中提到：.NETFramework3.5=.NETFramework3.0+.NETFramework3.0SP1.NETFramework3.0=.NETFramework2.
ubuntu FreeRadius服务器安装 flowHEHE ubuntu系统安装 ubuntu 服务器
1、获取安装源（1）wgethttps://github.com/FreeRADIUS/freeradius-server/archive/v3.0.x.zip（2）unzipv3.0.x.zip（3）cdfreeradius-server-3.0.x/2、创建ubuntu相关依赖（1）sudoapt-getinstalldevscriptsquiltdebhelperfakerootequivs
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
Python 进攻性渗透测试（一）
原文：annas-archive.org/md5/dccde1d96c9ad81f97529d78e3e69c9b译者：飞龙协议：CCBY-NC-SA4.0序言Python是一种易学的跨平台编程语言，具有无限的第三方库。许多开源黑客工具都是用Python编写的，可以轻松地集成到你的脚本中。本书被分成了清晰的小部分，你可以按照自己的节奏学习，并专注于对你最有兴趣的领域。你将学会如何编写自己的脚本，并
Python 进攻性渗透测试（二）
原文：annas-archive.org/md5/dccde1d96c9ad81f97529d78e3e69c9b译者：飞龙协议：CCBY-NC-SA4.0第四章：追捕我吧！在今天的世界里，绕过和劫持软件在互联网上到处都是。然而，明确的使用和执行方式才是让你成为一名优秀的业余黑客的关键。这可以通过正确选择工具并遵循必要的过程，完美地完成手头的任务来实现。在本章中，我们将涵盖以下主题，帮助你实现这一
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
centos使用wget下载jdk8 任意放逐 centos java linux
首先官网找需要的的jdk版本https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html我这里选择的是弹出下载提示框：勾选点Downloadjdk…这里需要使用一个账号登录，可以自行在网上搜一个账号，我就不给了。然后退回原来的页面下载，用一个能看到下载链接的软件下载，我使用的是idm
Qt Creator 11.0创建ROS2 Humble工程余加木 ROS2 Qt qt 开发语言
QtCreator11.0创建ROS2Humble项目工程安装ROSProjectManager插件创建ROS2项目在src下添加packagegitcloneROS2功能包编译运行安装ROSProjectManager插件安装ROSProjectManager的主要流程参考官方的流程，地址（ros_qtc_plugin）。此处采用二进制安装：sudoaptinstalllibarchive-to
ORACLE 正确删除归档日志的方法俗尘某某程序员记录 oracle 归档日志
ORACLE正确删除归档日志的方法我们都知道在controlfile中记录着每一个archivelog文件的相关信息，当然们在OS下把这些物理文件delete掉后，在我们的controlfile中仍然记录着这些archivelog文件的相关信息，在oracle的OEM管理器中有可视化的日志展现出，当我们手工清除archive目录下的文件后，这些记录并没有被我们从controlfile中清除掉，也就
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
GUI框架：谈谈框架 baozi3026 框架 command mfc button class string
转帖请注明出处http://www.cppblog.com/cexer/archive/2009/11/15/100988.html1开篇废话我喜欢用C++写GUI框架，因为那种成就感是实实在在地能看到的。从毕业到现在写了好多个了，都是实验性质的。什么拳脚飞刀毒暗器，激光核能反物质，不论是旁门左道的阴暗伎俩，还是名门正派的高明手段，只要是C++里有的技术都试过了。这当中接触过很多底层或是高级的技术
2024年Python最新统信UOS_麒麟KYLINOS上安装特定版本python_统信uos安装python 2401_84558914 程序员 python linux 服务器
准备解压…/16-libidn2-dev_2.0.5.1-1+dde_amd64.deb…正在解压libidn2-dev:amd64(2.0.5.1-1+dde)…/var/cache/apt/archives/libidn2-dev_2.0.5.1-1+dde_amd64.deb正在选中未选择的软件包libp11-kit-dev:amd64。准备解压…/17-libp11-kit-dev_0.2
鲲鹏CPU+麒麟操作系统arm环境安装MySQL 运维小乔 mysql 数据库
系统环境背景：CPU：鲲鹏920操作系统：Ky10SP3MySQL版本：8.4.2一、下载MySQL官网地址：https://downloads.mysql.com/archives/community/二：MySQL安装前准备2.1关闭防火墙[root@ky-b~]#systemctlstopfirewalld[root@ky-b~]#systemctldisablefirewalldRemov
如何在Ubuntu上运行Jar包？ wljslmz Linux技术 ubuntu jar linux
Java，一种广泛使用的面向对象编程语言，以其“编写一次，到处运行”的理念著称，是跨平台应用程序开发的首选。其核心优势在于Java虚拟机（JVM），它使得编写的Java代码能够在任何安装了JVM的设备上运行，无需重新编译。Ubuntu作为Linux发行版中的佼佼者，凭借其开源、稳定、易用的特性，成为了众多开发者部署Java应用的优选平台。Jar（JavaArchive）文件是一种归档文件格式，用于
织梦DedeCMS转WordPress asqq8
最近，有个用户找模板兔迁移网站，源站用的dede，需要转成wp，文章数量大概7000-8000篇，其中有个需求是保证旧文章的链接有效，在wp上的新文章与旧文章的链接类型不一样，所以这涉及到伪静态来处理跳转。虽然网上都很多教程，但是在这次导入过程中还是遇到过一些问题。以下教程是dede的数据表得与wp的数据表在同一个数据库下！要是不在，可以将dede_archives先导入到wp的数据库里。一般流程
拥抱Linux Mint，安装迅雷和微信 zhqh100 linux 运维服务器
迅雷的下载地址http://archive.kylinos.cn/kylin/partner/pool/com.xunlei.download_1.0.0.1_amd64.debLinuxMint自带的Transmission今天下载速度还可以，几兆的速度，挺满意的微信的下载地址https://linux.weixin.qq.com/搜狗拼音输入法虽然有官网，但官网最后说是支持Ubuntu20.0
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
phpexcel 读取数据
http://extjs.org.cn/fatjames/archives/379require_once'/home/PHPExcel_1.8.0/PHPExcel/IOFactory.php';$reader=PHPExcel_IOFactory::createReader('Excel2007');//设置以Excel5格式(Excel97-2003工作簿)$PHPExcel=$reader
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR