Engineer-Yao

大数据技术（一）：Hadoop 环境搭建

一、了解Hadoop

关于Hadoop的官方说明是：Apache Hadoop 是一款支持 数据密集型 分布式 应用程序并以 Apache 2.0 许可协议发布的 开源软体框架。拆开来说，其中包含学习 Hadoop 必须要理解的三个知识点：

（1）Hadoop是一个框架；
（2）可以用来处理大规模数据；
（3）Hadoop被部署在集群上。

二、Hadoop

传统意义上，我们常说的Hadoop是包含了 Common，HDFS，YARMN 和 MapReduce 的一个整体框架。其实在学习以后我们要了解的是整个 Hadoop 生态圈。整个生态圈的发展都是围绕 Hadoop 进行的，生态圈包含的组件如下图。

下面简单介绍一下生态圈中各个组件的相关用途。

1）Hadoop Common

Hadoop Common 是Hadoop 体系最底层的一个模块，为 Hadoop的各个子项目提供工具，如：系统配置工具、远程过程调用RPC、序列化机制、日志操作等。

2）HDFS

HDFS 全称是 Hadoop分布式文件系统，是指被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

3）YARN

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

4）MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

5）Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。总而言之，Spark 比 Hadoop 2.x 快。因为 Hadoop 3.x 将优化一些设计，谁更快还不知道。

6）HBase

HBase是一个开源的、分布式的、面向列的非关系型分布式数据库（NoSQL），它是一个适合于非结构化数据存储的数据库。

7）Hive

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

8）Pig

Pig 与Hive 类似，也是一种对大型数据集进行分析和评估的工作，使用的语言是 Pig Latin。Pig 可以将Pig Latin 脚本转换为 MapReduce ，这个语言比较灵活，但是学习成本比较高。

9）Impala

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala 的计算不是基于MapReduce的，相对而言计算速度比Hive快一点。

10）Mahout

Mahout 是一个机器学习和数据挖掘库，提供多种经典算法的实现，并具有良好的扩展性。

11）Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

12）Sqoop

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中并存储在Hive和HBase表格中，也可以将HDFS的数据导入到关系型数据库中。Sqoop配合Ooozie能够帮助你调度和自动运行导入导出任务。

13）Kafka

Kafka 是一种高吞吐量的分布式发布订阅消息系统。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。

14）Zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Hadoop生态圈中多个组件的 HA （高可用）模式都必须借助 ZooKeeper 来搭建。

Hadoop 生态圈的内容很多，有些人觉得学起来很累，其实不然，只要弄清楚各个组件的作用，在数据处理过程中扮演的角色，最好是凭自己的理解画一个架构图，这样学习起来会很快。

二、准备环境

学习搭建某工具环境的时候，一般都是在自己的电脑的虚拟环境中进行，因此使用各种虚拟化工具是必须要求的技能。因为这个过程会出现许多问题，我们能在处理这些问题时积攒许多宝贵的经验。这就是我在接受有挑战的工作任务时，不会退缩的主要原因。也是我为什么经常加班的原因。。。

1）准备 CentOS 7 虚拟机

安装环境虚拟化环境，可以参考文章《使用 VirtualBox 安装 CentOS7 系统》，来搭建自己的虚拟化环境。
大部分初学者一般使用的都是VM虚拟机，相对而言VirtualBox是轻量级的平台，功能简单更容易上手使用，推荐大家尝试使用。

2）安装 JDK1.8

检查是否安装openJDK，并卸载；

rpm -qa|grep java

//卸载命令
rpm -e --nodeps java-1.8.0-openjdk-1.8.0.181-7.b13.el7.x86_64
rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.181-7.b13.el7.x86_64

//或者使用以下命令一次性卸载
rpm -e --nodeps ‘rpm -qa | grep java’

获取 JDK1.8 linux 环境安装包：官方下载，CSDN下载；
上传JDK安装包到虚拟机的 opt 目录；
使用解压命令解压到当前位置；

tar -zxvf jdk-8u201-linux-x64.tar.gz

配置环境变量：

//编辑环境变量配置文件：
vim /etc/profile

//添加以下内容：
#JDK1.8
export JAVA_HOME=/opt/jdk1.8.0_201
export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin

刷新环境变量：

source /etc/profile

测试安装结果

java -version

结果如下，安装成功！

[root@hadoop00 opt]# java -version
java version "1.8.0_201"
Java(TM) SE Runtime Environment (build 1.8.0_201-b09)
Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)

3）复制虚拟机两台（全分布环境使用）

（1）选择安装好的Linux虚拟机进行复制。

（2）修改复制后的虚拟机名称（复制的虚拟机分别命名为hadoop01、hadoop02），并重置MAC。

（3）完全复制

4）设置主机名

 //设置主机名为hadoop00 
 hostnamectl set-hostname hadoop00
 //重启虚拟机
 reboot

5）配置静态IP

//打开文件，修改或添加以下内容，文件名会随网卡名变化，可以通过ifconfig命令查看
[root@hadoop00 ~]# vim /etc/sysconfig/network-scripts/ifcfg-enp0s3

------------
BOOTPROTO=static       //静态IP
ONBOOT=yes             //开机启用
IPADDR=192.168.56.160  //配置IP

6）配置Hosts文件

//修改配置文件
vi /etc/hosts
//根据你自己的IP设置，添加以下内容
192.168.56.160  hadoop00
192.168.56.161  hadoop01
192.168.56.162  hadoop02

7）配置SSH无密码连接

1.	生成密钥对：
ssh-keygen -t rsa
2.	复制公钥给对应服务器：
ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop00（需要输密码确认）
3.	收到公钥并保存在新文件中（查看authorized_keys）
4.	使用 ssh 命令检查是否实现免密码登录。
ssh hadoop00     //回车直接进入系统

8）获取Hadoop安装包

获取 Hadoop 安装包：大数据技术系列_Hadoop_2.7.3_安装包，每次设置 0 积分都会被系统改掉，可以去官网下载。

三、安装Hadoop

1）本地模式

1、解压完成以后直接运行

//准备测试文件
vim /opt/demo.input     //打开后直接输入一些单词，然后保存退出

//进入hadoop安装目录
cd /opt/hadoop-2.7.3

//执行demo
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /opt/demo.input output1

//查看输出文件
ll output1

2）伪分布式安装

1、修改Hadoop 配置文件，配置文件位置：/opt/hadoop-2.7.3/etc/hadoop
1）hdfs-site.xml



	dfs.replication
	1



	dfs.permissions
	false

2）core-site.xml



	fs.defaultFS
	hdfs://hadoop00:9000



	hadoop.tmp.dir
	/root/tools/hadoop-2.7.3/tmp

mapred-site.xml



	mapreduce.framework.name
	yarn

yarn-site.xml



	yarn.resourcemanager.hostname
	hadoop00



	yarn.nodemanager.aux-services
	 mapreduce_shuffle

2、格式化HDFS

 格式化命令：hdfs namenode -format

3、启动Hadoop并验证

启动命令：start-all.sh

//控制台输出：
[root@hadoop00 ~]# start-all.sh 
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
Starting namenodes on [hadoop00]
hadoop00: starting namenode, logging to /opt/hadoop-2.7.3/logs/hadoop-root-namenode-hadoop00.out
localhost: starting datanode, logging to /opt/hadoop-2.7.3/logs/hadoop-root-datanode-hadoop00.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /opt/hadoop-2.7.3/logs/hadoop-root-secondarynamenode-hadoop00.out
starting yarn daemons
starting resourcemanager, logging to /opt/hadoop-2.7.3/logs/yarn-root-resourcemanager-hadoop00.out
localhost: starting nodemanager, logging to /opt/hadoop-2.7.3/logs/yarn-root-nodemanager-hadoop00.out

//使用JPS命令查看相关进程，完整的伪分布模式运行起来以后有五个相关进程
[root@hadoop00 ~]# jps
3796 NodeManager
3210 NameNode
4091 Jps
3532 SecondaryNameNode
3341 DataNode
3693 ResourceManager

4、Hadoop可视化界面：http://hadoop00:50070,，可以在 Utilties =》Browse the file system中查看文件系统，并下载。

5、Yarn管理界面：http://hadoop00:8088

3）全分布式安装

1、参照环境准备第三条完全复制两台虚拟机，注意一定要重置MAC地址；

//虚拟机规划配置：主机名、IP、功能说明
hadoop00  192.168.56.160     主节点
hadoop01  192.168.56.161     从节点1
hadoop02  192.168.56.162     从节点2

2、两天新虚拟机修改主机名、IP、配置hosts、免密登陆；

//分别修改主机名，重启生效
hostnamectl set-hostname hadoop01
hostnamectl set-hostname hadoop02
//分别配置静态IP，重启网卡生效
IPADDR=192.168.56.161
IPADDR=192.168.56.162
//分别配置 hosts 文件，文件底部添加
192.168.56.160  hadoop00
192.168.56.161  hadoop01
192.168.56.162  hadoop02
//免密登陆
//第一步：生成密钥对（新生成的服务器都需要执行）：
ssh-keygen -t rsa
//第二步：复制公钥给对应服务器（每台服务器都需要执行，需要输入密码确认）：
ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop00
ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop01
ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop02
//第三步：分别使用 ssh 命令检查是否实现免密码登录。
ssh hadoop00    
ssh hadoop01
ssh hadoop02

3、停用hadoop00上的Hadoop伪分布式服务，重新将安装包解压到一个新的目录中；

tar -zxf /opt/hadoop-2.7.3.tar.gz -C /opt/new

4、大部分配置都与伪分布模式一样，可以直接用修改好的文件替换过来，需要注意以下不一样的配置内容。

//hdfs-site.xml文件中副本冗余设置为3
 

	dfs.replication
	3



//slaves文件中添加新的节点，完整配置如下：
hadoop00    
hadoop01    
hadoop02

5、格式化NameNode

hdfs namenode -format

6、将配置好的Hadoop安装包复制到其他两个节点

scp -r hadoop-2.7.3/ root@hadoop01:/opt/new
scp -r hadoop-2.7.3/ root@hadoop02:/opt/new

7、在主节点（hadoop00）启动hadoop，启动命令：start-all.sh

8、验证安装结果：访问http://hadoop00:50070,查看节点信息。

4）Hadoop 的 HA（高可用）

虚机有点问题，搞好了再补充这块内容。

四、Hadoop 基础

1）HDFS 基础知识

1.HDFS架构说明

HDFS的架构设计图：
Namenode： 整个集群中只有一个namenode。它是整个系统的“总管”，负责管理HDFS的目录树和相关的文件元数据信息。
这些信息是以“fsimage”（HDFS元数据镜像文件）和"editlog"(HDFS文件改动日志)两个文件形式存放在本地磁盘，当HDFS重启时重新构造出来的。此外Namenode还负责监控各个Datanode的健康状态，一旦发现某个Datanode宕掉，则将该Datanode移出HDFS并重新备份其上面的数据。

Secondary NameNode： 最重要的任务不是为 NameNode 元数据进行热备份，而是定期合并 fsimage 和 edits 日志，并传输给 NameNode。这里需要注意的是，为了减小 NameNode 压力，NameNode 自己并不会合并 fsimage 和 edits，并将文件存储到磁盘上，而是交由 Secondary NameNode 完成。

DataNode： 一般而言，每个Slave节点上安装一个 DataNode，它负责实际的数据存储，并将数据信息定期汇报给 NameNode。DataNode 以固定大小的 block 为基本单位组织文件内容，默认情况下block 大小为 128MB。
当用户上传一个大的文件到HDFS上时，该文件会被切分成若干个 block，分别存储到不同的DataNode；同时，为了保证数据可靠，会将同一个block以流水线方式写到若干个（默认是3，该参数可配置）不同的 DataNode 上。这种文件切割后存储的过程是对用户透明的。

2.HDFS 文件上传过程和机架感知

（1）HDFS 文件上传过程

详细过程：

客户端向namenode通信，请求上传文件，namenode检查目标文件是否已存在，父目录是否存在，该客户端是否有上传权限。
namenode返回是否可以上传。
客户端会先对文件进行逻辑切块，比如一个blok块128m，文件有300m就会被切分成3个块，一个128M、一个128M、一个44M请求第一个block该传输到哪些datanode服务器上。
namenode返回datanode列表。
为上传文件做准备。构建pipline，将同一个块的所有存储节点构成一个数据流通道。
开始真正上传文件。上传文件过程中，边上传边切块。以packet（64kb）为单位上传，先上传到第一个datenode01的缓存中，缓存中每当接收一个packet就向本地磁盘写入，并传递给下一个结点。当第一个块上传完成后关闭通道。
开始上传第二个块，所有块上传完成后namenode向客户端返回结果。所有块上传完成后，客户端告知namenode数据上传成功。
namenode更新元数据。

（2）机架感知

默认副本放置策略：

在默认情况下副本数量是3个，所有的DN都是在同一个机架下，此时写block时，三个DN机器的选择是完全随机的。

写数据：HDFS是将不同的副本放置在不同的机架上，可以防止整个机架失效时数据的丢失，并且允许读数据的时候充分利用多个机架的带宽。这种策略设置可以将副本均匀地分配到集群中，有利于组织失效情况下的均衡负载。但是，因为这种策略的一个写操作需要传输数据块到多个机架，增加了写操作的成本。

读数据：在读数据时，为了减少整体的带宽和降低整体带宽延时，HDFS会尽量读取距离客户端最近的副本。如果程序和副本在同一个机架上优先读取该副本。如果跨多个数据中心，那么HDFS也将首先读取本地数据中心的副本。

配置机架后的副本放置策略：

配置机架感知后，HDFS在选择三个DN时，就会进行相应的判断：

如果上传本机不是一个DN，而是一个客户端，那么就从所有slave机器中随机选择一台DN作为第一个块的写入机器(DN1)。而此时如果上传机器本身就是一个DN，那么就将该DN本身作为第一个块写入机器。
随后在DN1所属的机架外的另外的机架上，随机的选择一台，作为第二个block的写入DN机器(DN2)
在写第三个block前，先判断前两个DN是否在同一个机架上，如果是在同一个机架，那么就尝试在另外一个机架上选择第三个DN作为写入机器(DN3)。而如果DN1和DN2没有在同一个机架上，则在DN2所在的机架上选择一台DN作为DN3。（hadoop fsck xx -files -blocks -locations -racks ）
得到三个DN的列表后，从NN返回该列表到DFSClient之前，会在NN端首先根据该写入客户端跟DN列表中每个DN之间的距离由近到远进行一个排序，客户端根据这个顺序由近到远的进行数据块的写入。
根据距离排好序的DN节点列表返回给DFSClient后，DFSClient便会创建Block OutputStream，并向这次block写入pipeline中的第一个节点(最近的节点)开始写入block数据
写完第一个block后，依次按照DN列表中的次远的node进行写入，直到最后一个block写入成功，DFSClinet返回成功，该block写入操作结束。

为什么要设置机架感知：

开启机架感知，NN可以知道DN所处的网络位置；
根据网络拓扑图可以计算出rackid，通过rackid信息可以计算出任意两台DN之间的距离；
在HDFS写入block时，会根据距离，调整副本放置策略；
写入策略会将副本写入到不同的机架上，防止某一机架挂掉，副本丢失的情况。同时可以降低在读取时候的网络I/O。但是会增加写操作的成本。

3.命令操作HDFS

hdfs的操作比较简单，这里提供一个速查表给大家，按需使用可以了。

4.Java 调用 HDFS API

这里直接发一个 Java 调用 HDFS API 的实例。

package com.hadoop.dome;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;

import java.io.FileNotFoundException;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;


public class HDFSDemo {
     

    static Configuration  conf;
    static FileSystem fs;

    static{
     
        conf = new Configuration();
        try {
     
            fs = FileSystem.get(new URI("hdfs://192.168.56.200:9000"), conf);
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (URISyntaxException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    //创建文件夹
    public static void mkdir(String name){
     
        boolean flag = false;
        try {
     
            if (!fs.exists(new Path(name+"1"))) {
     
                flag = fs.mkdirs(new Path(name));
            }
            System.out.println(flag);
            if(flag){
     
                System.out.println("文件夹创建成功");
            }else{
     
                System.out.println("文件夹创建失败");
            }
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }
    
    //创建文件
    public static void createFile(String file, String text){
     
        FSDataOutputStream outputStream = null;
        byte[] arg0 = text.getBytes();
        try {
     
            outputStream = fs.create(new Path(file));
            outputStream.write(arg0, 0, arg0.length);
            outputStream.close();
            System.out.println("文件创建成功");
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }
    
    //对文件重命名
    public static void rename(String oldName, String newName){
     
        boolean flag;
        try {
     
            flag = fs.rename(new Path(oldName), new Path(newName));
            if(flag){
     
                System.out.println("文件重命名成功");
            }
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }

    //判断文件是否存在
    public static void  existFile(String file){
     
        boolean flag;
        try {
     
            flag = fs.exists(new Path(file));
            if(flag){
     
                System.out.println("存在");
            }else
            {
     
                System.out.println("不存在");
            }
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }

    //删除文件
    public static void deleteFile(String file){
     
        boolean flag;
        try {
     
            flag = fs.deleteOnExit(new Path(file));
            if(flag){
     
                System.out.println("成功删除");
            }
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }

    public static void close(){
     
        try {
     
            fs.close();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    //上传文件
    public static void uploadFile(String src, String dst){
     
        try {
     
            fs.copyFromLocalFile(false, new Path(src), new Path(dst));
            System.out.println("文件上传成功");
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }

    //下载文件
    public static void downFile(String src, String dst){
     
        try {
     
            fs.copyToLocalFile(new Path(src), new Path(dst));
            System.out.println("文件下载成功");
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }

    //读取文件
    public static String readFile(String file){
     
        String str = "";
        FSDataInputStream  inputStream = null;
        byte[] arg0 = new byte[1024];
        try {
     
            inputStream = fs.open(new Path(file));
            inputStream.read(arg0);
            str = new String(arg0);
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
        return str;
    }

    //返回指定文件夹的文件列表
    public static void listName(String dir){
     
        try {
     
            FileStatus files[] = fs.listStatus(new Path(dir));
            for(FileStatus file : files){
     
                System.out.println(file.getPath().getName() + "\t" + file.getLen());
            }
        } catch (FileNotFoundException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IllegalArgumentException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
     
            // TODO Auto-generated catch block
            e.printStackTrace();
        }finally{
     
            close();
        }
    }

    public static void main(String[] args) throws IOException {
     
//      HDFSDemo hdfs = new HDFSDemo();
//      HDFSDemo.mkdir("/test/20200701");
        HDFSDemo.createFile("/test/file.txt", "这是一个测试文件。。");
//      HDFSDemo.createFile(args[0], args[1]);
//      HDFSDemo.rename("/test/test2", "/test/test1");
//      HDFSDemo.existFile("/test/3.txt");
//      HDFSDemo.deleteFile("/test/5.txt");
//      HDFSDemo.downFile(args[0], args[1]);
//      String str = HDFSDemo.readFile("/test/3.txt");
//      System.out.println(str);
//      HDFSDemo.listName("/test");
    }
}

5.HDFS 高级特性

（1）回收站

1、回收站默认是关闭的，需要在 core-site.xml 中配置回收站
<property>
	<name>dfs.trash.interval</name>
	<value>1440</value>       // 注：1440 代表一天 （1440分钟）
</property>

2、开启回收站后，执行hdfs dfs -rm -R /folder 操作前后，控制台打印日志的对比。
开启前：Deleted /folder
开启后：Moved "hdfs://192.168.**.**:9000/folder" to trash " hdfs://192.168.**.**:9000/user/root/.Trash/Current"

相当于做了一次“剪切”操作，所以要找回删除的文件，直接做一次  hdfs dfs -cp ** 操作即可

同样的,oracle数据库也有回收站，当一个表被删除后，进入回收站，可以通过 flashback(闪回）恢复表。

（2）配额（Quota）

1、名称配额：限定hdfs目录下存放文件/目录的个数。
	命令(都是hdfs dfsadmin 命令)：
	-setQuota  <quota> dirName1 dirName2 dirName3   文件夹实际能够存放的文件/文件夹数量为quota-1 个
	-clrQuota dirName1 dirName2 dirName3
	
	举例（以/myQuota1文件夹为例）：
	hdfs dfsadmin -setQuota 3 /myquota1    设置/myquota1文件夹下最大的文件/文件夹数量为3-1=2个
	hdfs dfsadmin -clrQuota /myquota1

2、空间配额：限定hdfs目录下，文件的大小。
	命令：
	-setSpaceQuota <quota> [-storageType storagetype] dirName1 dirName2 dirName3
	-clrSpaceQuota [-storageType storagetype] dirName1 dirName2 dirName3
	
	举例（以/myquota2为例）：
	hdfs dfsadmin -setSpaceQuota 2M /myquota2  设置/myquota2文件夹存储的文件,大小不超过2M
	注意：数据块上传时，即使文件本身小于2M，该数据块实际在hdfs上占用的空间也为128M，上传会失败。因此在设定文件夹空间配额时，不要小于128M。
	hdfs dfsadmin -clrSpaceQuota /myquota2

（3）快照

//快照相当于一种备份机制，在HDFS中默认式关闭的。
1、应用场景：
	防止用户错误操作
	备份
	试验/测试
	灾难恢复　
2、命令：
	管理命令：
　　　　　　-allowsnapshot
　　　　　　-disallowsnapshot
	操作命令：
　　　　　　-createshapshot
	举例：
		打开快照功能（以/folder文件夹为例）
　　　　　　　　hdfs dfsadmin -allowsnapshot /folder	
　　　	创建快照
　　　　　　　　hdfs dfs -createsnapshot /folder folder_20180503_01   第一份快照
　　　　　　　　hdfs dfs -createsnapshot /folder foldert_20180503_02　第二份快照
		查看快照
　　　　　　　　hdfs -lssnapshottableDir
		对比快照
　　　　　　　　hdfs -snapshotdiff /folder folder_20180503_01 folder_20180503_02
		恢复快照
　　　　　　　　hdfs dfs -cp /folder/.snapshot/folder_20180503_01/data.txt /folder (补充知识：快照会在元文件夹下，以隐藏目录的方式存在（如folder/.snapshot/folder_20180503_01）)

2）YARN 架构图

YARN 是很重要的一部分，将会单独讲解，这里放一张 YARN 的架构图先简单了解一下 YARN 的构成部分及作用。

3）认识 MapReduce

这里我们用一些实例介绍一下 MapReduce 的基础知识和用法，了解 MapReduce 的实现思路就行了。

MapReduce 代表一种分而治之的编程思想，就像数钱一样，以前是一个人数一堆钱，而 MapReduce 是先把钱分成多堆，然后多个人去数，最后合并每个人数的结果。

一般来说，MapReduce 的过程分为这么几个阶段：

1、split阶段：
此阶段，每个输入文件被分片输入到map。如一个文件有200M，默认会被分成2片，因为每片的默认最大值和每块的默认值128M相同。如果输入为大量的小文件，则会造成过多的map数，导致效率下降，可采用压缩输入格式CombineFileInputFormat。
2、map阶段：
此阶段，执行map任务。map数由分片决定，若要增加map数，可增大mapred.map.tasks，若减少map数，可增大mapred.min.split.size。
3、shuffle阶段：
此阶段，将map的输出经过“整理”后给到reduce，也称为“混洗”。分为map端操作和reduce端操作。在map端，map的输出先写入缓存，当每次缓存快满时，由缓存“溢写”至磁盘，每次溢写都先进行“分区”，并对每个分区的数据进行“排序”和“合并”（可选）。一般会产生多个溢写的文件，这些文件会在map端先被“归并”为一个大的磁盘文件，通知reduce任务来领取自己的分区。
在reduce端，每个reduce任务会从多个map任务领取文件，然后将这些文件进行“归并”，交给reduce任务。合并（combine）和归并（merge）的区别：对于两个键值对<“a”,1>和<“a”,1>，如果合并，会得到<“a”,2>，即复用reduce的逻辑（也可以自己实现combiner类）；如果归并，会得到<“a”,<1,1>>。combine为可选，可通过调用job.setCombinerClass（MyReduce.class）设置这一操作。
4、reduce阶段：
执行reduce任务。reduce数量由分区数决定，结果文件的数量也由此决定，且记录默认按key升序排列。reduce数量可通过mapred.reduce.tasks设置，或在代码中调用job.setNumReduceTasks(int n)方法。

Hadoop自带统计词频的示例，可以好好看看，如果能理解以后自己写一遍，基本就对 MapReduce 的思想和使用有一定程度的掌握了，剩下的就是复杂逻辑的使用了。

你可能感兴趣的:(Hadoop生态圈,hadoop,大数据,hdfs)

数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
智能汽车：驶向未来的革命智能设备
一、引言汽车，作为现代文明的标志，正经历着一场前所未有的变革。人工智能、大数据、云计算等技术的飞速发展，正推动着汽车从单纯的交通工具向智能移动空间转变。智能汽车，作为这场变革的主角，正悄然改变着我们的出行方式和生活方式。二、智能汽车的定义与发展现状智能汽车，是指搭载先进传感器、控制器、执行器等装置，并融合现代通信与网络技术，实现车与X（人、车、路、云端等）智能信息交换、共享，具备复杂环境感知、智能
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在