xiangel

[翻译]Hive wiki GettingStarted

安装和配置

需求

java1.6
hadoop 0.20.x

使用发布包安装Hive

首先从Apache下载镜像下载最新的发布包(见Hive版本)
接下来解压缩tar包。这将会创建一个名字为hive-x.y.z的子目录

$ tar -xzvf hive-x.y.z.tar.gz

配置环境变量HIVE_HOME 指向安装的目录：

$ cd hive-x.y.z
$ export HIVE_HOME={{pwd}}

最后，添加$HIVE_HOME/bin 到PATH：

$ export PATH=$HIVE_HOME/bin:$PATH

从源码创建Hive

Hive SVN地址：http://svn.apache.org/repos/asf/hive/trunk

$ svn co http://svn.apache.org/repos/asf/hive/trunk hive   
$ cd hive   
$ ant clean package   
$ cd build/dist   
$ ls   
README.txt   
bin/ (all the shell scripts)   
lib/ (required jar files)   
conf/ (configuration files)   
examples/ (sample input and query files)

接下来我们会交替使用build/dist和 .

使用hadoop0.23.3编译Hive

$ svn co http://svn.apache.org/repos/asf/hive/trunk hive   
$ cd hive   
$ ant clean package -Dhadoop.version=0.23.3 -Dhadoop-0.23.version=0.23.3 -Dhadoop.mr.rev=23   
$ ant clean package -Dhadoop.version=2.0.0-alpha -Dhadoop-0.23.version=2.0.0-alpha -Dhadoop.mr.rev=23

运行Hive

Hive使用了Hadoop，因此：

你必须配置Hadoop环境变量信息，或者
export HADOOP_HOME=

另外，你在Hive中创建表前必须在HDFS上创建/tmp和/user/hive/warehouse(见hive.metastore.warehouse.dir)目录，并且设置权限为 chmod g+w
完成这个步骤的命令:

$ $HADOOP_HOME/bin/hadoop fs -mkdir       /tmp 
$ $HADOOP_HOME/bin/hadoop fs -mkdir       /user/hive/warehouse 
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /tmp 
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /user/hive/warehouse

设置HIVE_HOME,虽然不是必须的，但是很有用

 $ export HIVE_HOME=<hive-install-dir>

从shell使用Hive命令行工具(CLI)

$ $HIVE_HOME/bin/hive

运行HCatalog

从shell运行HCatalog，Hive0.11.0及以后版本：

$ $HIVE_HOME/hcatalog/sbin/hcat_server.sh

使用HCatalog命令行工具(CLI)，Hive0.11.0及以后版本：
$ $HIVE_HOME/hcatalog/bin/hcat
更多信息，见HCatalog手册中的从TAR包安装HCatalog和HCatalog CLI

运行WebHCat

从shell运行WebCat server,Hive0.11.0及以后版本:

$ $HIVE_HOME/hcatalog/sbin/webhcat_server.sh

更多信息见WebHCat手册的安装WebHCat

配置管理概述

Hive默认配置 /conf/hive-default.xml
可以通过设置HIVE_CONF_DIR环境变量来改变Hive配置目录
使用 /conf/hive-site.xml来修改配置信息
Log4j配置信息存放在 /conf/hive-log4j.properties
Hive配置会覆盖Hadoop配置-即默认Hive会继承Hadoop的配置信息
操作Hive配置的方式：
- 编辑hive-site.xml，定义任何需要的变量(包括Hadoop变量)
- 通过CLI使用set命令（见下面）
- 使用如下语法运行hive
- $ bin/hive -hiveconf x1=y1 -hiveconf x2=y2
  这会设置变量x1和x2分别为y1和y2
- 通过设置HIVE_OPTS环境变量为”-hiveconf x1=y1 -hiveconf x2=y2"和上面功能一样.

运行时配置

Hive查询是执行map-reduce查询,因此这些查询可以通过Hadoop配置变量来控制
CLI命令'SET'可以设置任意Hadoop(或者Hive)配置变量，如：

hive> SET mapred.job.tracker=myhost.mycompany.com:50030;
hive> SET -v;

后者显示当前所有配置，不使用-v参数则显示与Hadoop不同的配置。

Hive,Map-Reduce和Local-Mode

Hive编译器将大多数查询生成为map-reduce的jobs。这些jobs提交到由变量指定的Map-Reduce集群

mapred.job.tracker

这通常指向多节点的map-reduce集群，Hadoop也提供了一个选项在本地用户机器上运行map-reduce jobs.在小数据集上运行查询时会非常有用-在这种情况下，local mode执行通常会比提交到大集群明显加快。可以从HDFS透明访问数据，相反，local mode只运行一个reducer，在大数据集是将会非常慢。

从0.7版本开始，Hive完美提供了local mode运行。用户通过配置如下参数来生效

hive> SET mapred.job.tracker=local;

另外，mapred.local.dir指向本地机器的有效路径(如:/tmp/ /mapred/local).（否则用户将会收到分配本地磁盘空间的异常)
从0.7版本开始，Hive也提供了自动使用local mode来运行map-reduce jobs。相关选项为hive.exec.mode.local.auto,hive.exec.mode.local.auto.imputbytes.max和hive.exec.mode.local.auto.tasks.max:

hive> SET hive.exec.mode.local.auto=false;

该特性默认是失效的.如果生效，Hive分析查询中各个map-reduce job的大小，当满足下述所有条件时运行本地模式：

作业总计输入大小小于:hive.exec.mode.local.auto.inputbytes.max (默认128MB)
map-tasks总数小于:hive.exec.mode.local.auto.tasks.max (4 by default)
reduce tasks总数为1或者0.

因此在小数据集上查询，或者查询在多个map-reduce jobs但是jobs大体上很小，作业会运行在本地模式。

由于可能Hadoop服务器节点和Hive客户端机器的运行环境不同(因为不同的jvm版本或者不同的软件库)。在本地模式运行时，会产生意想不到的行为或错误。同样本地模式是在一个独立的子jvm(Hive的客户端)运行,如果用户期望，子jvm所能使用的最大内存量，可以通过hive.mapred.local.mem选项来控制，默认值为0，在此情况下Hive让Hadoop决定子jvm的默认内存限制。

错误日志

Hive使用log4j来记录日志，默认CLI不会输出日志到控制台。默认日志级别为WARN在Hive0.13.0版本之前。从Hive0.13.0版本开始，默认日志级别为INFO。日志存放文件夹：

/tmp/ /hive.log
注解：在本地模式，日志文件名为”.log"而不是"hive.log”.这是一个bug将会在0.13.0版本修复(见 HIVE-5528 和 HIVE-5676).

如果用户希望-日志可以输出到控制台，通过添加如下参数：

bin/hive -hiveconf hive.root.logger=INFO,console

另外，用户可以修改日志级别：

bin/hive -hiveconf hive.root.logger=INFO,DRFA

注意在hive初始化后通过‘set'命令来修改hive.root.logger不会修改日志属性。

同样Hive会为每个session保存查询日志在/tmp/ /,但是可以通过配置hive-site.xml中的hive.querylog.location属性。

Hive在一个hadoop集群上运行过程中的日志是由Hadoop的配置所决定的。通常Hadoop会对每个map和reduce task产生一个日志文件，并保存在运行任务的集群机器上。通过Hadoop JobTracker WEB界面的任务明细页面来获取日志文件。

使用本地模式时(使用mapred.job.tracker=local),Hadoop/Hive会将执行日志放在本机上，从0.6版本开始，Hive使用 hive-exec-log4j.properties（不存在则使用hive-log4j.properties ）来定义默认日志定义。默认配置文件为每个查询生成单独日志文件在本地模式下并存放在/tmp/ 。提供单独的配置文件是为了允许管理员在需要的时候集中运行日志(如：放在NFS文件系统上).执行日志对调试运行错误很有用。

WebHCat的错误和日志，见 Error Codes and Responses 和 Log Files 在 WebHCat manual.

错误日志对调试问题非常有用，请提交它们和bugs到[email protected].

审计日志

审计日志记录来自于Hive metastore服务器的每个metastore API调用。

审计日志记录了函数和相关的函数参数在metastore日志文件中。日志的记录级别为log4j的INFO。因此你必须确定INFO级别的日志是启用的(见HIVE-3505).日志的入口名称为”HiveMetaStore.audit”.

审计日志在Hive0.7版本添加，用于安全的客户端连接(HIVE-1948)和Hive0.10版本的非安全连接 (HIVE-3277; 也见 HIVE-2797).

DDL操作

Hive DDL操作文档：Hive Data Definition Language.

创建Hive表

hive> CREATE TABLE pokes (foo INT, bar STRING);

创建有2个字段的pokes表，第一个字段类型为integer另一个为string。

hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);

创建一个名为invites的表，有2个字段和一个名为ds的分区字段，分区字段是一个虚拟字段。它不是数据本身的一部分。但是来源于特定数据集装入的分区。
默认，表假定输入格式为纯文本和分隔符为^A(ctrl-a).

浏览表

hive> SHOW TABLES;

列出所有表

hive> SHOW TABLES '.*s';

列出所有以's'结尾的表。模式匹配使用Java的正则表达式。文档参见：http://java.sun.com/javase/6/docs/api/java/util/regex/Pattern.html.

hive> DESCRIBE invites;

显示表invites的字段。

变更和删除表

可以修改表名和添加或替换字段

hive> ALTER TABLE events RENAME TO 3koobecaf; 
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT); 
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment'); 
hive> ALTER TABLE invites REPLACE COLUMNS (foo INT, bar STRING, baz INT COMMENT 'baz replaces new_col2');

注意：REPLACE COLUMNS 替换所有存在的字段和只修改表定义.不修改数据。表必须使用native SerDe.(注：不清楚这里指什么).REPLACE COLUMNS也可用于从表定义中删除字段。

hive> ALTER TABLE invites REPLACE COLUMNS (foo INT COMMENT 'only keep the first column');

删除表：

hive> DROP TABLE pokes;

元数据存储

元数据存储在内嵌的Derby数据库，其磁盘存放路径由Hive配置变量javax.jdo.option.ConnectionURL定义.默认路径为./metastore_db(见conf/hive-default.xml).

现在，在默认配置中，该元数据每次只能被一个用户访问。

元数据能存放在任意支持JPOX的数据库中，数据库路径和类型由参数javax.jdo.option.ConnectionURL和javax.jdo.option.ConnectionDriverName控制。见JDO(或JPOX)文档了解支持的数据库。数据库表定义定义在 src/contrib/hive/metastore/src/model目录下的JDO元数据文件package.jdo。

在将来，元数据本身将会成为一个单独的服务。

如果你想将元数据运行为网络服务，从而能够被多个节点访问，见 Hive Using Derby in Server Mode.

DML操作

Hive DML操作见文档Hive Data Manipulation Language.
从文件导入数据到Hive

hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

装载由ctrl-a分隔包括2个字段的文件到pokes表。'LOCAL'指示输入文件在本地文件系统，如果省略'LOCAL'将会在HDFS上寻找文件。

关键字'OVERWRITE'指示删除表中已经存在的数据。如果省略'OVERWRITE'，数据文件将会追加到存在的数据集中。
注意：

load命令不会校验数据与表定义是否一致。
如果文件在hdfs上，将会移动到Hive管理的文件系统空间。
Hive的根目录由文件hive-default.xml中的选项 option hive.metastore.warehouse.dir定义。我们建议用户在Hive中创建表前先建立这个目录。

hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
hive> LOAD DATA LOCAL INPATH './examples/files/kv3.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-08');

上面的这2个LOAD语句装载数据到表invites的2个不同的分区。表invites必须先创建同样的ds键的分区来成功运行语句。

hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');

上述命令将从HDFS文件目录装载数据到表。注意从HDFS装载数据将会移动文件/目录。该操作几乎是同时的。

SQL操作

Hive查询操作见文档Select.

查询示例

下面展示一些查询例子，它们也在build/dist/examples/queries.
更多的在Hive源代码ql/src/test/queries/positive.

SELECTS and FILTERS

hive> SELECT a.foo FROM invites a WHERE a.ds='2008-08-15';

查询invites表ds=2008-08-15分区上的'foo'字段的所有记录。结果将会直接显示在控制台上。

在下面的所有例子中,INSERT(到Hive表，本地目录或者HDFS目录)是可选的。

hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='2008-08-15';

查询invites表ds=2008-08-15分区的所有记录结果导出到HDFS的目录。查询结果数据在那个目录下的多个文件(依赖于mappers的个数)。

注意：如果任何查询使用*,分区字段也会显示在查询结果中。

分区表必须在查询的WHERE子句中指定。

hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;

查询pokes表的所有记录到处到本地目录/tmp/local_out

hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(*) FROM invites a WHERE a.ds='2008-08-15';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;

查询字段的SUM，或者使用avg、min或者max。注意不包含在HIVE-287的Hive的版本,你需要使用COUNT(1)来替换COUNT(*).

GROUP BY

hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(*) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(*) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;

注意不包含在HIVE-287的Hive的版本,你需要使用COUNT(1)来替换COUNT(*).

JOIN

hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;

MULTITABLE INSERT

FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;

STREAMING

hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';

在map阶段的数据流通过脚本 /bin/cat (like Hadoop streaming).
同样的，在reduce也可以使用数据流(例子见Hive Tutorial )

场景例子

电影评级

首先，建立一张tab键分隔的文本格式的表

CREATE TABLE u_data (
  userid INT,
  movieid INT,
  rating INT,
  unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

接下来下载和提取数据文件

wget http://www.grouplens.org/sites/www.grouplens.org/external_files/data/ml-data.tar.gz tar xvzf ml-data.tar.gz

装载数据到表

LOAD DATA LOCAL INPATH 'ml-data/u.data' OVERWRITE INTO TABLE u_data;

统计表u_data的记录数

SELECT COUNT(*) FROM u_data;

注意：不包含在 HIVE-287中的Hive版本需要使用COUNT(1)而不是COUNT(*)
现在我们在表u_data上来做一些复杂的数据分析
创建weekday_mapper.py:

import sys
import datetime

for line in sys.stdin:
  line = line.strip()
  userid, movieid, rating, unixtime = line.split('\t')
  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
  print '\t'.join([userid, movieid, rating, str(weekday)])

使用mapper脚本：

CREATE TABLE u_data_new (
  userid INT,
  movieid INT,
  rating INT,
  weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

add FILE weekday_mapper.py;

INSERT OVERWRITE TABLE u_data_new
SELECT
  TRANSFORM (userid, movieid, rating, unixtime)
  USING 'python weekday_mapper.py'
  AS (userid, movieid, rating, weekday)
FROM u_data;

SELECT weekday, COUNT(*)
FROM u_data_new
GROUP BY weekday;

注意如果你使用Hive0.5.0或更早版本，你需要使用COUNT(1)而不是COUNT(*).

Apache Weblog Data

Apache weblog的格式是可定制的，大多数web管理员使用默认配置。
默认Apache weblog，我们创建表使用下面的命令

关于!RegexSerDe的信息见HIVE-662 and HIVE-1719.

CREATE TABLE apachelog (
  host STRING,
  identity STRING,
  user STRING,
  time STRING,
  request STRING,
  status STRING,
  size STRING,
  referer STRING,
  agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^]*) ([^]*) ([^]*) (-|\\[^\\]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?"
)
STORED AS TEXTFILE;

参考：
https://cwiki.apache.org/confluence/display/Hive/GettingStarted

你可能感兴趣的:(hadoop,hive)

织梦DedeCMS转WordPress asqq8
最近，有个用户找模板兔迁移网站，源站用的dede，需要转成wp，文章数量大概7000-8000篇，其中有个需求是保证旧文章的链接有效，在wp上的新文章与旧文章的链接类型不一样，所以这涉及到伪静态来处理跳转。虽然网上都很多教程，但是在这次导入过程中还是遇到过一些问题。以下教程是dede的数据表得与wp的数据表在同一个数据库下！要是不在，可以将dede_archives先导入到wp的数据库里。一般流程
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
拥抱Linux Mint，安装迅雷和微信 zhqh100 linux 运维服务器
迅雷的下载地址http://archive.kylinos.cn/kylin/partner/pool/com.xunlei.download_1.0.0.1_amd64.debLinuxMint自带的Transmission今天下载速度还可以，几兆的速度，挺满意的微信的下载地址https://linux.weixin.qq.com/搜狗拼音输入法虽然有官网，但官网最后说是支持Ubuntu20.0
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
MapReduce概述 Tate小白大数据学习 mapreduce
1、MapReduce概述1.1MapReduce定义MapReduce是一个分布式运算程序的编程框架，是用户开发“Hadoop的数据分析应用”的核心框架。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduc
phpexcel 读取数据
http://extjs.org.cn/fatjames/archives/379require_once'/home/PHPExcel_1.8.0/PHPExcel/IOFactory.php';$reader=PHPExcel_IOFactory::createReader('Excel2007');//设置以Excel5格式(Excel97-2003工作簿)$PHPExcel=$reader
三七互娱GO面经及参考答案大模型大数据攻城狮 golang epoll B树原理幻读 go面试 go面经 mysql性能
MySQL有哪些存储引擎？MyISAM如何存储数字类型数据？MySQL拥有多种存储引擎，每种都有其独特的特性和适用场景。常见的存储引擎包括InnoDB、MyISAM、Memory、CSV、Archive、Federated等。InnoDB是MySQL5.5版本之后的默认存储引擎，它支持事务、外键、行级锁和崩溃恢复功能，适合处理高并发事务型应用。MyISAM是早期MySQL的默认存储引擎，不支持事务
统信UOS（Linux）安装nvm node管理工具高高i linux 运维服务器 UOS 统信 nvm安装
整篇看完再操作，有坑！！官网nvm官网按照官网方式安装，一直报错经过不断研究，正确步骤如下1、下载安装包可能因为网络安全不能访问github，我是链接热点下载的wgethttps://github.com/nvm-sh/nvm/archive/refs/tags/v0.39.1.tar.gz2、解压可能报mkdir无权限，所以需要使用sudo执行解压命令，可能报找不到文件【v0.39.1.tar.
cydia软件路径_在Cydia中提取Deb格式安装包文件
大家都知道越狱后可以安装deb格式的文件包了，并且我们经常看到一些大神在论坛分享一些deb格式的文件或插件，他们是如何提取出来的呢？本文就给大家介绍一下在Cydia中提取Deb格式安装包文件教程。Cydia下载的deb文件在哪，怎么提取出来？cydia下载的deb在/private/var/cache/apt/archives目录下，提取方式：1、用cydia安装软件后，系统提示“重新启动设备”或
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
HDFS（Hadoop分布式文件系统）总结 Cachel wood 大数据开发 hadoop hdfs 大数据散列表算法哈希算法 spark
文章目录一、HDFS概述1.定义与定位2.核心特点二、HDFS架构核心组件1.NameNode（名称节点）2.DataNode（数据节点）3.Client（客户端）4.SecondaryNameNode（辅助名称节点）三、数据存储机制1.数据块（Block）设计2.复制策略（默认复制因子=3）3.数据完整性校验四、文件读写流程1.写入流程2.读取流程五、高可用性（HA）机制1.单点故障解决方案2.
Spark教程3：SparkSQL最全介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络 AHP 需求分析
文章目录SparkSQL最全介绍一、SparkSQL概述二、SparkSession：入口点三、DataFrame基础操作四、SQL查询五、SparkSQL函数六、与Hive集成七、数据源操作八、DataFrame与RDD互转九、高级特性十、性能优化十一、Catalyst优化器十二、SparkSQL应用场景十三、常见问题与解决方法SparkSQL最全介绍一、SparkSQL概述SparkSQL是A
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
打造个性化HiveSQL格式化插件：Hql_formatter实战大思兄的视界
本文还有配套的精品资源，点击获取简介：在软件开发中，代码格式化对于保持代码整洁和提升可读性至关重要。对于HiveSQL，一种用于大数据处理的查询语言，格式化工具可以显著提高开发效率。本项目名为Hql_formatter，是一个为SublimeText定制的HiveSQL格式化插件，通过改良现有的Python库sqlbutifier和sqlparse，实现了满足特定HiveSQL格式化需求的功能。开
Hadoop的部分用法覃炳文20230322027 hadoop hive 大数据分布式
前言Hadoop是一个由Apache基金会开发的开源框架，它允许跨多个机器使用分布式处理大数据集。Hadoop的核心是HDFS（HadoopDistributedFileSystem）和MapReduce编程模型。1.Hadoop环境搭建在开始使用Hadoop之前，你需要搭建Hadoop环境。这通常包括安装Java、配置Hadoop环境变量、配置Hadoop的配置文件等步骤。1.1环境准备在开始安
Netty4.1 - TCP粘包拆包解决方案及案例代码 wwyh520 IO编程 netty
Netty是目前业界最流行的NIO框架之一，它的健壮性、高性能、可定制和可扩展性在同类框架中都是首屈一指。它已经得到了成百上千的商业项目的验证，例如Hadoop的RPC框架Avro就使用了Netty作为底层通信框架，其他的业界主流RPC框架，例如：Dubbo、Google开源的gRPC、新浪微博开源的Motan、Twitter开源的finagle也使用Netty来构建高性能的异步通信能力。另外，阿
Storm核心概念与实战详解 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2010年Hadoop项目开源后，Storm项目也随之走向人气爆棚。在如此火热的当下，给我们带来的好处不仅仅是增强对Hadoop平台的掌控能力，更重要的是让我们感受到了快速发展、海量数据处理能力、低延迟的优势。在这一系列文章中，我将深入浅出地介绍Storm项目，并从实际案例出发，带领大家全面理解Storm中的关键概念及其运作方式，让您轻松掌握Storm的高效率、
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
Hadoop 发展过程是怎样的？ AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2003年，美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS（GoogleFileSystem）。由于该文件系统设计得足够简单，可以适应大规模数据集存储需求，在此基础上演化出多种应用，包括MapReduce、BigTable、PageRank等，并成为当时互联网公司的标配技术之一。2004年，Google发布了第一版Hadoop项目，定位是
编译gcc踩坑记录——libtool: error: ‘/usr/local/lib/libgmp.la‘ is not a valid libtool archive feige4242 linux 运维服务器
安装gcc依赖过程中出现错误，解决方法在google找到的。三个依赖如下：libgmplibmpfr依赖libgmplibmpc依赖libgmp、libmpfr直接就无脑（网上很多教程，这里就不赘述了）./configure--prefix=/home/xx/make&&makeinstall然后在libmpc时候就报错了：libtool:error:'/usr/local/lib/libgmp.
libtool: error: ‘/usr/.local/lib/libgmp.la‘ is not a valid libtool archive WSSWWWSSW 服务器 linux 运维
背景：安装gcc时提示需要vc++11，然后安装gcc依赖gmp、mpfr、mpc。到mpcmake时出错：libtool:error:‘/usr/.local/lib/libgmp.la’isnotavalidlibtoolarchive详细：/usr/bin/grep:/usr/.local/lib/libgmp.la:Nosuchfileordirectory/usr/bin/sed:can
新版azkaban4.0编译安装教程码农界的老油条 azkaban4.0 java
新版azkaban4.0编译安装教程由于官方没有提供安装包所以需要下载源码，按照本文安装可以完美运行解压wgethttps://github.com/azkaban/azkaban/archive/refs/tags/4.0.0.tar.gztar-zxvf4.0.0.tar.gz-C/opt/software/cdazkaban-4.0.0没有安装git的话需要先安装https://gradle
Harmony中的HAP、HAR、HSP区别云杰zd harmonyos 动画华为
HarmonyOS中的HAP、HAR、HSP区别详解1.基本概念HAP(HarmonyAbilityPackage)定义：应用安装和运行的基本单元特点：包含代码、资源、第三方库及配置文件支持声明Ability和Page分为Entry（主模块）和Feature（特性模块）两种类型HAR(HarmonyArchive)定义：静态共享包特点：编译态复用不支持声明Ability和Page适用于二三方库共享
CDH部署Hive详细指南暴躁哥大数据技术 hive hadoop 数据仓库
CDH部署Hive详细指南本文将详细介绍如何使用ClouderaManagerWeb界面部署Hive组件，包括安装、配置、优化和运维管理等内容。1.环境准备1.1系统要求1.1.1硬件要求服务器配置CPU：建议8核以上内存：建议32GB以上磁盘：建议使用企业级SAS或SSD网络：建议万兆网络集群规模小型集群：3-5节点中型集群：6-20节点大型集群：20节点以上1.1.2软件要求操作系统CentO
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
torch-gpu版本 anaconda配置教程 GXYGGYXG python
教程Pytorch的GPU版本安装，在安装anaconda的前提下安装pytorch_pytorch-gpu-CSDN博客版本对应PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客cuda下载地址CUDAToolkitArchive|NVIDIADevelopercudacudnn
保护你的Electron应用：深度解析asar文件与Virbox Protector的安全策略深盾科技 electron javascript 前端
在现代软件开发中，Electron框架因其跨平台特性而备受开发者青睐。然而，随着Electron应用的普及，如何保护应用中的核心资源文件——asar文件，成为了开发者必须面对的问题。今天，我们将深入探讨asar文件的特性，并重点介绍一款强大的保护工具——VirboxProtector。asar文件：Electron应用的“心脏”asar（AtomShellArchive）文件是Electron应用
Hadoop 版本进化论：从 1.0 到 2.0，架构革命全解析拾光师大数据后端
Hadoop版本hadoop1.x版本由三部分组成Common(辅助工具)HDFS(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能，成为了系统的最大瓶颈采用了master/slave结构，master存在单点问题，一旦master出现故障，会导致整个集群不可用采用了基于槽位的资源分配模型，将槽位分为了Mapslot和Reducesl
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1