achuo

基于Hadoop的数据仓库Hive 学习指南

本指南介绍了Hive，并详细指引读者安装Hive。前面第几章学习指南已经指导大家安装Linux操作系统，并安装配置了Hadoop，但是这只表明我们已经安装好了Hadoop分布式文件系统，而Hive需要另外下载安装，本指南就是详细指导大家安装并配置Hive，完成后大家可以结合厦门大学林子雨开设的《大数据技术原理与应用》课程第14章节进行深入学习。

一、Hive简介

Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

Hive是一个可以提供有效的、合理的且直观的组织和使用数据的模型，即使对于经验丰富的Java开发工程师来说，将这些常见的数据运算对应到底层的MapReduce Java API也是令人敬畏的。Hive可以帮用户做这些工作，用户就可以集中精力关注查询本身了。Hive可以将大多数的查询转换为MapReduce任务。Hive最适合于数据仓库应用程序，使用该应用程序进行相关的静态数据分析，不需要快速响应给出结果，而且数据本身也不会频繁变化。

Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性限制了Hive所能胜任的工作。最大的限制就是Hive不支持记录级别的更新、插入或者删除。用户可以通过查询生成新表或将查询结果导入到文件中去。因为，Hadoop是一个面向批处理的系统，而MapReduce启动任务启动过程需要消耗很长时间，所以Hive延时也比较长。Hive还不支持事务。因此，Hive不支持联机事务处理（OLTP），更接近于一个联机分析技术（OLAP）工具，但是，目前还没有满足“联机”部分。

Hive提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，其中，ETL是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。因此，Hive是最适合数据仓库应用程序的，它可以维护海量数据，而且可以对数据进行挖掘，然后形成意见和报告等。

因为大多数的数据仓库应用程序是基于SQL的关系数据库现实的，所以，Hive降低了将这些应用程序移植到Hadoop上的障碍。如果用户懂得SQL，那么学习使用Hive会很容易。因为Hive定义了简单的类SQL 查询语言——HiveQL，这里值得一提的是，与SQLServer、Oracle相比，HiveQL和MySQL提供的SQL语言更接近。同样的，相对于其他的Hadoop语言和工具来说，Hive也使得开发者将基于SQL的应用程序移植到Hadoop变得更加容易。

二、Hive安装

因为Hive是构建在Hadoop之上的，所以在安装Hive前，我们需要安装Hadoop环境。Hadoop的安装可以参照厦门大学数据库实验室网站上的安装教程（http://dblab.xmu.edu.cn/blog/install-hadoop/-simplify），但是，请注意，在按照该教程安装完Hadoop以后，不要进行配置，Hadoop的配置过程，稍后我们在安装完Hive后一起进行。

下面开始安装Hive。

安装Hive的过程和安装Hadoop很类似，首先，我们先下载一个Hive软件压缩包（下载地址：http://www.apache.org/dyn/closer.cgi/hive/），然后进行解压缩，具体如下：

    
    
    
    
     
     
     
     cd ~/下载
     
     
     
     sudo tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /usr/local   # 解压到/usr/local中
     
     
     
     cd /usr/local/
     
     
     
     sudo mv ./apache-hive-1.2.1-bin/ ./hive       # 将文件夹名改为hive
     
     
     
     sudo chown -R hadoop:hadoop ./hive            # 修改文件权限
     
     
     
     sudo mkdir -p /usr/local/hive/warehouse       # 创建元数据存储文件夹
     
     
     
     sudo chmod a+rwx /usr/local/hive/warehouse    # 修改文件权限

为了方便使用，我们把hive命令加入到环境变量中去，需要使用以下命令编辑.bashrc文件：

    
    
    
    
     
     
     
     vim ~/.bashrc       # 设置环境变量

进入.bashrc编辑状态以后，需要在文件最前面添加如下几行：

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

完成上述操作后，需要运行以下命令让配置生效：

    
    
    
    
     
     
     
     source ~/.bashrc    # 使配置立即生效

然后运行hive命令启动Hive，命令如下：

    
    
    
    
     
     
     
     hive          # 启动Hive

当出现以下界面即为启动成功。

Hive启动失败

若启动不成功，则会出现以下错误：

则需要进入到hadoop安装目录下的share/hadoop/yarn/lib下删除jline-0.9.94.jar文件，再启动hive即可（因为高版本的Hadoop对Hive有捆绑）。

三、 Hive配置

通过Hadoop的学习我们已经知道，Hadoop的运行模式有三种：本地模式、伪分布式模式和分布式模式。这里我们以介绍本地模式为主，其他模式只进行简单介绍。因为，本地模式是Hadoop的默认模式，所以，Hadoop不需要进行其他配置，我们只需对Hive进行相应配置。这里只需修改hive-site.xml文件，如果该文件不存在，用户需要自己新建一个。（注意：在$HIVE_HOME/conf目录下我们可能会看到hive-default.xml.template这个大文件，这个文件中包含了Hive提供的配置属性以及默认的属性值，这些属性中的绝大多数，用户可以忽略不管）。

在安装Hive时，默认情况下，元数据存储在Derby数据库中。Derby是一个完全用Java编写的数据库，所以可以跨平台，但需要在JVM中运行。因为多用户和系统可能需要并发访问元数据存储，所以默认的内置数据库并不适用于生产环境。任何一个适用于JDBC进行连接的数据库都可用作元数据库存储，这里我们把MySQL作为存储元数据的数据库。接下来，我们分别对这两种方式进行介绍，即使用Derby数据库的方式和使用MySQL数据库的方式。

使用Derby数据库的方式

本地模式中，用户的“表”等元数据信息，都默认存储在file://user/hive/warehouse，对于其他模式默认存储路径是hdfs://namenode_server/user/hive/warehouse。使用如下命令编辑hive-site.xml文件：

    
    
    
    
     
     
     
     vim /usr/local/hive/conf/hive-site.xml

在hive-site.xml文件添加以下内容：

    
    
    
    
     
     
     
     xml version="1.0" encoding="UTF-8" standalone="no"?>
     
     
     
     xml-stylesheet type="text/xsl" href="configuration.xsl"?>
     
     
     
     
     
     
     
     
     
     
     
         hive.metastore.warehouse.dir
     
     
     
         /usr/local/hive/warehouse   
     
     
     
         location of default database for the warehouse
     
     
     
       
     
     
     
     
     
     
     
         javax.jdo.option.ConnectionURL
     
     
     
        jdbc:derby:;databaseName=/usr/local/hive/metastore_db;create=true                           
     
     
     
         JDBC connect string for a JDBC metastore

伪分布式模式和分布式模式配置Hive，只需根据Hadoop配置文件core-site.xml中fs.defaultFS的值对hive.metastore.warehouse.dir 进行相应修改即可。这里对Hadoop的模式配置，可以参考厦门大学数据库实验室网站上的的配置教程（http://dblab.xmu.edu.cn/blog/install-hadoop-simplify）

Hive配置完成后，下面来启动它，并使用简单的HiveQL命令进行相应测试。我们先新建了一个表x，它有1个int型属性a，然后查找表x中的所有属性，最后删除表x，然后退出。HiveQL命令与SQL命令很相似，所以，读者如果有SQL基础的话，会很快上手。关于HiveQL命令的使用方法会在第4节详细介绍。

注意，命令最后需要以分号“;”结束。

使用MySQL数据库的方式

1）首先我们需要安装MySQL（如果本机上已经安装MySQL，请跳过此步骤）。可以参考网址（http://dev.mysql.com/downloads/mysql/）进行下载安装，也可以用apt-get 命令下载，这里我们选择后者。

a.查看并卸载系统自带的MySQL相关安装包，命令如下：

    
    
    
    
     
     
     
     rpm -qa|grep mysql

若没有安装rpm工具，系统会有提示，按照提示安装即可。接下来查看是否有系统自带的MySQL相关安装包，若有，按下面命令删除：

    
    
    
    
     
     
     
     sudo rpm -e --nodeps mysql-libs-xxxxxx

b.安装MySQL，命令如下：

    
    
    
    
     
     
     
     sudo apt-get install mysql-server

c. 启动设置MySQL，命令如下：

    
    
    
    
     
     
     
     sudo service mysql start                             #启动mysql服务
     
     
     
     sudo chkconfig mysql on                             #设置为开机自启动
     
     
     
     sudo /usr/bin/mysqladmin -u root password '123'             #设置root用户登录密码
     
     
     
     mysql -u root -p                                  #登录mysql

d. 创建hive用户，数据库等，命令如下：

    
    
    
    
     
     
     
     insert into mysql.user (Host,User,Password) values ("localhost","hive",password (" hive"));   # 创建hive用户
     
     
     
     create database hive;                  # 创建hive数据库
     
     
     
     grant all on hive.* to hive@'%' identified by 'hive';
     
     
     
     grant all on hive.* to hive@'localhost' identified by 'hive'; 
     
     
     
     flush privileges;
     
     
     
     exit                   #退出mysql
     
     
     
      
     
     
     
     mysql -u hive -p hive        #验证hive用户
     
     
     
      
     
     
     
     show databases;

看到以下信息，则说明创建成功。

2）配置Hive，修改hive-site.xml文件，修改后的结果如下：

    
    
    
    
     
     
     
     xml version="1.0" encoding="UTF-8" standalone="no"?>
     
     
     
     xml-stylesheet type="text/xsl" href="configuration.xsl"?>
     
     
     
     
     
     
     
     
     
     
     
         hive.metastore.warehouse.dir
     
     
     
         /usr/local/hive/warehouse   
     
     
     
         location of default database for the warehouse
     
     
     
       
     
     
     
     
     
     
     
         javax.jdo.option.ConnectionURL
     
     
     
        jdbc:mysql://localhost:3306/hive;createDatebaseIfNotExist=true                           
     
     
     
         JDBC connect string for a JDBC metastore
     
     
     
       
     
     
     
     
     
     
     
         javax.jdo.option.ConnectionDriverName
     
     
     
         com.mysql.jdbc.Driver
     
     
     
         Driver class name for a JDBC metastore
     
     
     
       
     
     
     
      
     
     
     
        javax.jdo.option.ConnectionPassword  
     
     
     
        hive  
     
     
     
      
     
     
     
      
     
     
     
         javax.jdo.option.ConnectionUserName
     
     
     
         hive
     
     
     
         Username to use against metastore database

修改完hive-site.xml文件后，我们需要把JDBC驱动放置在lib目录下（JDBC驱动程序mysql-connector-java-x.x.x-bin.jar文件的下载地址为http://www.mysql.com/downloads/connector/j/ ），命令如下：

    
    
    
    
     
     
     
     mv ~/下载/mysql-connector-java-5.1.30-bin.jar /usr/local/hive /lib/   #拷贝mysql-connector-java-5.1.30-bin.jar 到hive 的lib下
     
     
     
     cp /usr/local/hive/lib/jline-2.12.jar  /usr/local/hadoop /share/ hadoop/yarn/lib    # 把jline-2.12.jar拷贝到hadoop相应目录下
     
     
     
     mkdir -p /usr/local/hive/tmp      #创建hive临时文件夹
     
     
     
     sudo chmod a+rwx /usr/local/hive/tmp   # 修改文件权限

接下来，启动测试Hive。首先启动Hadoop后，执行Hive命令 hive，并输入 show databases; 进行测试。

hive client常用命令可以通过 hive --help 查看。下面再介绍一些hive client常用命令，用户可以自行测试：


     
     
     
     
      
      
      
      show tables;           #查看所有表名
      
      
      
      show tables  'ad*' ;   #查看以'ad'开头的表名
      
      
      
      set 命令               #设置变量与查看变量
      
      
      
      set –v;                #查看所有的变量
      
      
      
      set hive.stats.atomic;    #查看hive.stats.atomic变量
      
      
      
      set hive.stats.atomic=false;     #设置hive.stats.atomic变量
      
      
      
      dfs  -ls ;                       #查看hadoop所有文件路径
      
      
      
      dfs  -ls /usr/local/hive/warehouse/;    #查看hive所有文件
      
      
      
      source file                   #在client里执行一个hive脚本文件
      
      
      
      quit;                                   #退出交互式shell
      
      
      
      exit                                    #退出交互式shell     
      
      
      
      reset                                   #重置配置为默认值      
      
      
      
      !ls                                     #从Hive shell执行一个shell命令

四、Hive的常用HiveQL操作

1）Hive基本数据类型

首先，我们简单叙述一下HiveQL的基本数据类型。

Hive支持基本数据类型和复杂类型, 基本数据类型主要有数值类型(INT、FLOAT、DOUBLE ) 、布尔型和字符串, 复杂类型有三种:ARRAY、MAP 和 STRUCT。

a.基本数据类型

TINYINT: 1个字节
SMALLINT: 2个字节
INT: 4个字节
BIGINT: 8个字节
BOOLEAN: TRUE/FALSE
FLOAT: 4个字节，单精度浮点型
DOUBLE: 8个字节，双精度浮点型STRING 字符串

b.复杂数据类型

ARRAY: 有序字段
MAP: 无序字段
STRUCT: 一组命名的字段

2）常用的HiveQL操作命令

Hive常用的HiveQL操作命令主要包括：数据定义、数据操作。接下来详细介绍一下这些命令即用法（想要了解更多请参照《Hive编程指南》一书）。

a.数据定义：主要用于创建修改和删除数据库、表、视图、函数和索引。

创建、修改和删除数据库


     
     
     
     
      
      
      
      create database if not exists hive;       #创建数据库
      
      
      
      show databases;                           #查看Hive中包含数据库
      
      
      
      show databases like 'h.*';                #查看Hive中以h开头数据库
      
      
      
      describe databases;                       #查看hive数据库位置等信息
      
      
      
      alter database hive set dbproperties;     #为hive设置键值对属性
      
      
      
      use hive;                                 #切换到hive数据库下
      
      
      
      drop database if exists hive;             #删除不含表的数据库
      
      
      
      drop database if exists hive cascade;     #删除数据库和它中的表

注意，除 dbproperties属性外，数据库的元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置，没有办法删除或重置数据库属性。

创建、修改和删除表


     
     
     
     
      
      
      
      #创建内部表（管理表）
      
      
      
      create table if not exists hive.usr(
      
      
      
            name string comment 'username',
      
      
      
            pwd string comment 'password',
      
      
      
            address struct<street:string,city:string,state:string,zip:int>,
      
      
      
            comment  'home address',
      
      
      
            identify map<int,tinyint> comment 'number,sex') 
      
      
      
            comment 'description of the table'  
      
      
      
           tblproperties('creator'='me','time'='2016.1.1'); 
      
      
      
      #创建外部表
      
      
      
      create external table if not exists usr2(
      
      
      
            name string,
      
      
      
            pwd string,
      
      
      
        address struct<street:string,city:string,state:string,zip:int>,
      
      
      
            identify map<int,tinyint>) 
      
      
      
            row format delimited fields terminated by ','
      
      
      
           location '/usr/local/hive/warehouse/hive.db/usr'; 
      
      
      
      #创建分区表
      
      
      
      create table if not exists usr3(
      
      
      
            name string,
      
      
      
            pwd string,
      
      
      
            address struct<street:string,city:string,state:string,zip:int>,
      
      
      
            identify map<int,tinyint>) 
      
      
      
            partitioned by(city string,state string);    
      
      
      
      #复制usr表的表模式  
      
      
      
      create table if not exists hive.usr1 like hive.usr;
      
      
      
       
      
      
      
      show tables in hive;  
      
      
      
      show tables 'u.*';        #查看hive中以u开头的表
      
      
      
      describe hive.usr;        #查看usr表相关信息
      
      
      
      alter table usr rename to custom;      #重命名表
      
      
      
       
      
      
      
      #为表增加一个分区
      
      
      
      alter table usr2 add if not exists 
      
      
      
           partition(city=”beijing”,state=”China”) 
      
      
      
           location '/usr/local/hive/warehouse/usr2/China/beijing'; 
      
      
      
      #修改分区路径
      
      
      
      alter table usr2 partition(city=”beijing”,state=”China”)
      
      
      
           set location '/usr/local/hive/warehouse/usr2/CH/beijing';
      
      
      
      #删除分区
      
      
      
      alter table usr2 drop if exists  partition(city=”beijing”,state=”China”)
      
      
      
      #修改列信息
      
      
      
      alter table usr change column pwd password string after address;
      
      
      
       
      
      
      
      alter table usr add columns(hobby string);                  #增加列
      
      
      
      alter table usr replace columns(uname string);              #删除替换列
      
      
      
      alter table usr set tblproperties('creator'='liming');      #修改表属性
      
      
      
      alter table usr2 partition(city=”beijing”,state=”China”)    #修改存储属性
      
      
      
      set fileformat sequencefile;             
      
      
      
      use hive;                                                   #切换到hive数据库下
      
      
      
      drop table if exists usr1;                                  #删除表
      
      
      
      drop database if exists hive cascade;                       #删除数据库和它中的表

视图和索引的创建、修改和删除

主要语法如下，用户可自行实现。


     
     
     
     
      
      
      
      create view view_name as....;                #创建视图
      
      
      
      alter view view_name set tblproperties(…);   #修改视图

因为视图是只读的，所以对于视图只允许改变元数据中的 tblproperties属性。


     
     
     
     
      
      
      
      #删除视图
      
      
      
      drop view if exists view_name;
      
      
      
      #创建索引
      
      
      
      create index index_name on table table_name(partition_name/column_name)  
      
      
      
      as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild....;

这里’org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler’是一个索引处理器，即一个实现了索引接口的Java类，另外Hive还有其他的索引实现。


     
     
     
     
      
      
      
      alter index index_name on table table_name partition(...)  rebulid;   #重建索引

如果使用 deferred rebuild，那么新索引成空白状态，任何时候可以进行第一次索引创建或重建。


     
     
     
     
      
      
      
      show formatted index on table_name;                       #显示索引
      
      
      
      drop index if exists index_name on table table_name;      #删除索引

用户自定义函数

在新建用户自定义函数（UDF）方法前，先了解一下Hive自带的那些函数。show functions; 命令会显示Hive中所有的函数名称：

若想要查看具体函数使用方法可使用describe function 函数名：

首先编写自己的UDF前需要继承UDF类并实现evaluate()函数，或是继承GenericUDF类实现initialize()函数、evaluate()函数和getDisplayString()函数，还有其他的实现方法，感兴趣的用户可以自行学习。

另外，如果用户想在Hive中使用该UDF需要将我们编写的Java代码进行编译，然后将编译后的UDF二进制类文件(.class文件)打包成一个JAR文件，然后在Hive会话中将这个JAR文件加入到类路径下，在通过create function语句定义好使用这个Java类的函数。


     
     
     
     
      
      
      
      add jar <jar文件的绝对路径>;                        #创建函数
      
      
      
      create temporary function function_name;
      
      
      
      drop temporary function if exists function_name;    #删除函数

3）数据操作

主要实现的是将数据装载到表中（或是从表中导出），并进行相应查询操作，对熟悉SQL语言的用户应该不会陌生。

向表中装载数据

这里我们以只有两个属性的简单表为例来介绍。首先创建表stu和course，stu有两个属性id与name，course有两个属性cid与sid。


     
     
     
     
      
      
      
      create table if not exists hive.stu(id int,name string) 
      
      
      
      row format delimited fields terminated by '\t';
      
      
      
      create table if not exists hive.course(cid int,sid int) 
      
      
      
      row format delimited fields terminated by '\t';

向表中装载数据有两种方法：从文件中导入和通过查询语句插入。

a.从文件中导入

假如这个表中的记录存储于文件stu.txt中，该文件的存储路径为usr/local/hadoop/examples/stu.txt，内容如下。

stu.txt：

1 xiapi 
2 xiaoxue 
3 qingqing

下面我们把这个文件中的数据装载到表stu中，操作如下：


     
     
     
     
      
      
      
      load data local inpath '/usr/local/hadoop/examples/stu.txt' overwrite into table stu;

如果stu.txt文件存储在HDFS 上，则不需要 local 关键字。

b.通过查询语句插入

使用如下命令，创建stu1表，它和stu表属性相同，我们要把从stu表中查询得到的数据插入到stu1中：


     
     
     
     
      
      
      
      create table stu1 as select id,name from stu;

上面是创建表，并直接向新表插入数据；若表已经存在，向表中插入数据需执行以下命令：


     
     
     
     
      
      
      
      insert overwrite table stu1 select id,name from stu where（条件）;

这里关键字overwrite的作用是替换掉表（或分区）中原有数据，换成into关键字，直接追加到原有内容后。

从表中导出数据

a.可以简单拷贝文件或文件夹

命令如下：

    
    
    
    
     
     
     
     hadoop  fs -cp source_path target_path;

b.写入临时文件

命令如下：


     
     
     
     
      
      
      
      insert overwrite local directory '/usr/local/hadoop/tmp/stu'  select id,name from stu;

查询操作

和SQL的查询完全一样，这里不再赘述。主要使用select…from…where…等语句，再结合关键字group by、having、like、rlike等操作。这里我们简单介绍一下SQL中没有的case…when…then…句式、join操作和子查询操作。

case…when…then…句式和if条件语句类似，用于处理单个列的查询结果，语句如下：


     
     
     
     
      
      
      
      select id,name,
      
      
      
        case 
      
      
      
        when id=1 then 'first' 
      
      
      
        when id=2 then 'second'
      
      
      
        else 'third'

结果如下：

连接
连接（join）是将两个表中在共同数据项上相互匹配的那些行合并起来, HiveQL 的连接分为内连接、左向外连接、右向外连接、全外连接和半连接 5 种。

a. 内连接(等值连接)
内连接使用比较运算符根据每个表共有的列的值匹配两个表中的行。

首先，我们先把以下内容插入到course表中（自行完成）。

1 3
2 1
3 1

下面, 查询stu和course表中学号相同的所有行，命令如下：


     
     
     
     
      
      
      
      select stu.*, course.* from stu join course on(stu .id=course .sid);

执行结果如下：

b. 左连接
左连接的结果集包括“LEFT OUTER”子句中指定的左表的所有行, 而不仅仅是连接列所匹配的行。如果左表的某行在右表中没有匹配行, 则在相关联的结果集中右表的所有选择列均为空值，命令如下：


     
     
     
     
      
      
      
      select stu.*, course.* from stu left outer join course on(stu .id=course .sid);

执行结果如下：

c. 右连接
右连接是左向外连接的反向连接,将返回右表的所有行。如果右表的某行在左表中没有匹配行,则将为左表返回空值。命令如下：


     
     
     
     
      
      
      
      select stu.*, course.* from stu right outer join course on(stu .id=course .sid);

执行结果如下：

d. 全连接
全连接返回左表和右表中的所有行。当某行在另一表中没有匹配行时,则另一个表的选择列表包含空值。如果表之间有匹配行,则整个结果集包含基表的数据值。命令如下：


     
     
     
     
      
      
      
      select stu.*, course.* from stu full outer join course on(stu .id=course .sid);

执行结果如下：

e. 半连接
半连接是 Hive 所特有的, Hive 不支持 in 操作,但是拥有替代的方案; left semi join, 称为半连接, 需要注意的是连接的表不能在查询的列中,只能出现在 on 子句中。命令如下：


     
     
     
     
      
      
      
      select stu.* from stu left semi join course on(stu .id=course .sid);

执行结果如下：

子查询
标准 SQL 的子查询支持嵌套的 select 子句,HiveQL 对子查询的支持很有限,只能在from 引导的子句中出现子查询。

注意，在定义或是操作表时，不要忘记指定所需数据库。

五、Hive简单编程实践

下面我们以词频统计算法为例，来介绍怎么在具体应用中使用Hive。词频统计算法又是最能体现MapReduce思想的算法之一，这里我们可以对比它在MapReduce中的实现，来说明使用Hive后的优势。

MapReduce实现词频统计的代码可以通过下载Hadoop源码后，在 $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar 包中找到(wordcount类)，wordcount类由63行Java代码编写而成。下面首先简单介绍一下怎么使用MapReduce中wordcount类来统计单词出现的次数，具体步骤如下：

1）创建input目录，output目录会自动生成。其中input为输入目录，output目录为输出目录。命令如下：

    
    
    
    
     
     
     
     cd /usr/local/hadoop
     
     
     
     mkdir input

2）然后，在input文件夹中创建两个测试文件file1.txt和file2.txt，命令如下：

    
    
    
    
     
     
     
     cd  /usr/local/hadoop/input
     
     
     
     echo "hello world" > file1.txt
     
     
     
     echo "hello hadoop" > file2.txt

3）执行如下hadoop命令：

    
    
    
    
     
     
     
     cd  ..
     
     
     
     hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount input output

4）我们可以到output文件夹中查看结果，结果如下：

下面我们通过HiveQL实现词频统计功能，此时只要编写下面7行代码，而且不需要进行编译生成jar来执行。HiveQL实现命令如下：


     
     
     
     
      
      
      
      create table docs(line string);
      
      
      
      load data inpath 'input' overwrite into table docs;
      
      
      
      create table word_count as 
      
      
      
      select word, count(1) as count from
      
      
      
      (select explode(split(line,' '))as word from docs) w
      
      
      
      group by word
      
      
      
      order by word;

执行后，用select语句查看，结果如下：

由上可知，采用Hive实现最大的优势是，对于非程序员，不用学习编写Java MapReduce代码了，只需要用户学习使用HiveQL就可以了，而这对于有SQL基础的用户而言是非常容易的。

你可能感兴趣的:(hive)

Linux 让PHP支持MSSQL hello_simon php linux
FreeTDS官方网站：http://www.freetds.org当前版本0.82wgethttp://mirrors.xmu.edu.cn/ubuntu/archive/pool/main/f/freetds/freetds_0.82.orig.tar.gz1.编译FreeTDS#tarzxvffreetds-0.82.tar.gz#cdfreetds-0.82//--with-tdsver=
YashanDB归档日志文件管理数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...归档日志文件默认存放在$YASDB\_DATA/archive目录下。Note：本文以查询单机部署中的归档日志文档为例，不同部署形态查询方法相同但$YASDB\_DATA路径不同，具体请以实际为准。$cd/data/yasha
mac M1 安装flutter 小泥人（倪） macos flutter
M1安装Flutter1-官网下载flutterSDK盘符自己记好https://docs.flutter.dev/release/archive?tab=macos2-控制台配置环境变量open.zshrc/bash_profile//平常在哪配就打开哪个文件3-复制粘贴exportPATH="$PATH:/Users/xnr/Documents/flutter/bin:$PATH"//自己安装
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
Hive SQL 精进系列：字符串拼接的三种常用方式进一步有进一步的欢喜 hive sql hadoop
Hive字符串拼接：三种常用方式深度剖析目录Hive字符串拼接：三种常用方式深度剖析引言一、简洁直观的`||`操作符1.基础语法规则2.丰富多样的示例展示3.优势与局限分析二、规范通用的`CONCAT`函数1.全面的语法解析2.生动的示例说明3.优势与局限剖析三、灵活指定分隔符的`CONCAT_WS`函数1.清晰的语法介绍2.实用的示例演示3.优势与局限探讨四、总结与选择建议引言在Hive数据处理
HIVE SQL进阶 Q010910 hive sql hadoop 数据分析
1.lateralviewexplode：将array或map类型的列拆分成多行数据lateralview：把拆分的单个字段数据与原始表的数据关联上LATERALVIEWEXPLODE(col)table_tempAScol_nametable_temp是因为LATERALVIEWUDTF函数在执行时，会生成一个临时的虚拟表。同时生成的列也需要列名col_name。lateralview的位置在f
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
Hive-基础入门数据牧马人 hive hadoop 数据仓库
目录第1章Hive基本概念第2章、安装步骤：1、上传jar包至/usr/local/soft2、解压并重命名3、配置环境变量4.配置HIVE文件第3章hive中数据库的操作1、hiveDDL操作2、HiveDML操作3、hive的本地模式4、hive表中数据加载方式5、hive中的流量统计6、hive数据导出第4章hive中的数据类型1.基本数据类型2.复杂数据类型第5章hive中的一个emp案例
windows11 环境 paddleOCR 环境配置一醉千秋 python+银河麒麟 python 开发语言
一、系统环境：操作系统：Windows11专业版显卡：RTX4080CUDA：cuda_12.6.2_560.94_windows.exe、cudnn-windows-x86_64-8.9.7.29_cuda12-archivepython：3.12.8二、配置过程1.设置python国内源pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua
【gopher的java学习笔记】如何通过jar命令解压JAR包 ThisIsClark gopher的java学习笔记 java 学习笔记
如何通过jar命令解压JAR包JAR（JavaARchive）文件是Java平台上用于打包和分发类文件、资源文件以及其他相关文件的压缩文件格式。有时候，我们可能需要解压一个JAR文件以查看或修改其中的内容。Java提供了一个内置的jar工具，可以方便地进行JAR文件的创建、查看和解压等操作。本文将详细介绍如何通过jar命令解压JAR包。一、准备工作确保Java环境已安装：jar命令是Java开发工
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
腾讯云centos安装anaconda3并配置jupyter notebook环境星星都亮了
准备工作腾讯云centos系统配置好网络安装anaconda3从官网下载：wgethttps://repo.continuum.io/archive/Anaconda3-2019.07-Linux-x86_64.sh给下载的文件增加执行的权限(u代表用户，x代表执行，u+x即给用户增加执行的权限)：chmodu+xAnaconda3-2019.07-Linux-x86_64.sh接着运行脚本，安装
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
Hive实用小文件合并方案 500佰 Hive线上问题处理方案 hive hadoop 数据仓库大数据
#Hive常见故障#大数据#生产环境真实案例#Hive#离线数据库#整理#经验总结说明：此篇总结hive常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言Hive实用小文件合并方案请往下翻！！！更多Hive案例汇总方案(点击跳转)：Hive常见故障多案例维护宝典--项目总结(宝典一)Hive常见故障多案例维护宝典--项目总结(宝典二)目录内容如下：架构概述【1】参数及配置类常见故障执行s
大数据面试之路 (二) hive小文件合并优化方法愿与狸花过一生大数据大数据 hive hadoop
大量小文件容易在文件存储端造成瓶颈，影响处理效率。对此，您可以通过合并Map和Reduce的结果文件来处理。一、合并小文件的常见场景写入时产生小文件：Reduce任务过多或数据量过小，导致每个任务输出一个小文件。动态分区插入：分区字段基数高，每个分区生成少量数据，形成大量小文件。频繁追加数据：通过INSERTINTO多次追加数据，导致文件碎片化。二、合并小文件的核心方法方法1：调整Reduce任务
炸裂函数explode 阿强77 炸裂函数 sql
在ApacheHive中，"炸裂函数"通常指的是将复杂数据类型（如数组或映射）拆分成多行的函数。Hive提供了几个内置函数来实现这种操作，其中最常用的是explode函数。1.explode函数explode函数用于将数组或映射类型的列拆分成多行。每行包含数组或映射中的一个元素。示例1:炸裂数组假设有一个表my_table，其中有一列my_array是数组类型：SELECTexplode(my_a
hive mysql日期减一天_hive sql的常用日期处理函数总结空城大大叔 hive mysql日期减一天
1)date_format函数(根据格式整理日期)作用：把一个字符串日期格式化为指定的格式。selectdate_format('2017-01-01','yyyy-MM-ddHH:mm:ss');--日期字符串必须满足yyyy-MM-dd格式结果：2017-01-0100:00:002)date_add、date_sub函数(加减日期)作用：把一个字符串日期格式加一天、减一天。selectdat
自你离开后的第一篇关于MySQL和Hive开发生涯常见函数对比及SQL书写注意事项汇总二百四十九先森 MySQL
涉及到的任何SQL语句或知识点，未特别注明则表明MySQL和Hive通用。一、时间函数一、时间函数1、时间转换时间戳转指定格式的时间：selectfrom_unixtime(1234567890,格式);格式默认是年月日时分秒，如果不是则需要指定格式。Hive(yyyy-MM-ddHH:mm:ss)。MySQL（%Y-%m-%d%H:%m:%s）。时间字符串转时间戳：selectunix_time
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
时间函数（Hive-Sql\Mysql\Presto）菜鸟教程*…* mysql hive sql mysql
特殊说明：1、时间函数有多种方法，比如本月第一天（T-1）：mon_firstday(sysdate(-1))或者concat(substr(sysdate(-1),1,8),‘01’)等。2、通常离线数据是T-1，故取数据时候，月至今的范围是1号至昨天，故本业会标注T-1，请知晓。3、看函数产生的效果：（1）Hive-Sql如果想看函数的效果，可以在集市输入select+函数。例如selects
MySQL和Hive SQL 时间处理常用函数汇总 Cachel wood sql语言 sql server +mysql mysql hive sql 机器学习数据库人工智能 sklearn
文章目录一、基础时间函数二、日期加减操作三、日期格式化与解析四、时间差计算五、时间类型转换六、时区处理示例获取当前时间并格式化日期增加3天计算两个日期的天数差注意事项：以下是SQL中常用的时间处理函数汇总，涵盖MySQL和Hive的差异：一、基础时间函数功能MySQLHive当前时间（日期+时间）NOW()/CURRENT_TIMESTAMP()current_timestamp()当前日期CUR
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
本地部署Hive集群克里斯蒂亚诺罗纳尔多阿维罗 hive hadoop 数据仓库
规划服务机器Hive本体部署在Node1元数据服务所需的关系型数据库(MYSQL)部署在Node1安装MYSQL数据库#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysql-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch
《颠覆认知，我用大模型+Redis实现SQL智能补全，开发效率暴涨500%》煜bart mysql AI编程人工智能 redis
一、前言：当SQL补全遇到大模型（插入传统SQL补全工具与ChatGPT对比图）你是否还在为这些场景抓狂？-凌晨3点记不清HiveQL的窗口函数语法-面对新接触的ClickHouse方言不知所措-团队新人总把STR_TO_DATE写成DATE_FORMAT传统IDE的SQL补全就像"人工智障"，直到我把大模型装进Redis…##二、效果展示：智能补全的降维打击（GIF动图展示输入SELECT*FR
第五阶段【MySQL数据库：常用PT工具】06：使用pt-archiver来进行数据归档做一个有趣的人Zz DBA数据工程师成长之路数据库 mysql dba
一、环境准备1、环境准备准备好一套主从复制的环境，以及一个归档的实例，也就是一个单机部署的MySQL192.168.5.130主库192.168.5.132从库归档库192.168.5.129归档2、创建用户创建归档用户，主库130创建CREATEUSER'dba_archive'@'192.168.%'IDENTIFIEDWITHMYSQL_NATIVE_PASSWORDBY'admin';GR
python数据分析一周速成2.连表查询【含数据库实战项目】噼里啪啦噼酷啪Q 数据分析数据分析 CDA python
连表查询结合数据库实战（sql和hive跨库取数）数据准备#前面省略数据库连接，提示：可以用pymysql和pyhive模块pre_sql="""selectap,timefrombiaoyiawherea.time>20250101"""sql_df=run_mysql(pre_sql)pre_hive="""selectapplication_number,activation_dtefrom
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开