lvxiangyu11

Ubuntu18.04+Docker+Hadoop+Spark分布式集群搭建

题前记：因为课程需求，下面将搭建过程用学术论文的格式写。~~（其实我并不想写的，没办法，学习作业嘛QAQ。。。）~~
我的联系方式：630056108

文章目录

Docker上的Hadoop大数据平台搭建与测试

1. 简介与原理

1.1 Docker介绍

1.1.1 容器

1.1.1.1 容器历史
1.1.1.2 容器原理

1.1.2 Docker

1.1.2.1 Docker历史
1.1.2.2 Docker原理

1.2 Hadoop简介

1.2.1 Hadoop历史
1.2.2 Hadoop架构

1.2.2.1 Hadoop的文件系统核心模块
1.2.2.2 Hadoop的数据计算核心模块

1.2.3 Hadoop运行流程

2. 环境搭建

2.1 本机环境
2.2 物料说明
2.3 安装基本环境
2.4 测试环境

3. 总结
附录1 Docker常用命令
附页2 Hadoop常见命令
参考文献（章）

Docker上的Hadoop大数据平台搭建与测试

摘要：Docker是一个开源的应用容器，它可以让开发者将应用及其所需的依赖包打包到一个可移植的镜像中，可实现虚拟化。Hadoop是一开源的分布式系统基础架构，用于分布式计算，它可以给用户提供集群的高速运算和存储。本文简要介绍了Docker和Hadoop的发展史，Docker的架构，Hadoop的模块组件。并最终一步步搭建了Docker和Hadoop集群，并进行了测试。
　大数据有四大特点（4V），分为别为：Volume（大量）、Variety（多样）、Velocity（高速）、Veracity（准确性）。新的特点需要使用新的技术，传统的HPC计算已经难以应付4V的挑战，相应而生的分布式计算架构很好地应对了问题。Hadoop便是其中之一的分布式架构平台，它有高可靠、高扩展、高效、高容错、低成本等优点，越来越受到关注与应用。
　本文首先简述了容器和Docker与Hadoop的发展史，其次概述了Docker与Hadoop的架构模块，然后详细描述如何在真机上搭建环境并测试，最后进行总结和展望。

1. 简介与原理

1.1 Docker介绍

Docker 是一种运行于 Linux 和 Windows 上的软件，用于创建、管理和编排容器。是在 GitHub 上开发的 Moby 开源项目的一部分。

1.1.1 容器

容器（Coninter）是一种在单个系统上提供多个隔离的系统环境的技术。

1.1.1.1 容器历史

容器最早提出于1979年的Unix chroot。它是一个 UNIX 操作系统上的系统调用，用于将一个进程及其子进程的根目录改变到文件系统中的一个新位置，让这些进程只能访问到该目录。这个功能的想法是为每个进程提供独立的磁盘空间。
随后有2000 — FreeBSD Jails、2001 — Linux VServer、2004 — Solaris Containers、2005 — OpenVZ、2006 — Process Containers、2007 — Control Groups、2008 — LXC、2011 — Warden、2013 — LMCTFY、2013 — Docker、2014 — Rocket、2016 — Windows Containers。

1.1.1.2 容器原理

Linux上的容器是一个可以在单个Linux主机上提供多个相互隔离的操作系统级虚拟技术。与虚拟机技术（Virtual Machine）相比，容器（Container）不需要运行专门的访客（Guest）操作系统，也不需要模拟指令集。容器共享宿主机（Host）的操作系统内核，并使用访客操作系统的系统库来提供所需的功能。因此容器常常要比虚拟机快很多，且更加灵活和低消耗。

容器借助 Linux 内核的 Namespaces、Apparmor、SELinux 情景模式（profile）、chroot 和
CGroup 等功能来提供类似于虚拟机的隔离环境。Linux
的安全模块可以确保正确地控制容器对宿主机和内核的访问，从而避免各种入侵活动。此外，在宿主机上可以运行不同的 Linux
发行版，只要它们运行在同样的 CPU 架构下。

简单来说，容器提供的是一种基于各种 Linux 发行版创建容器镜像的方法、一套管理容器生命周期的 API、与该 API
交互的客户端工具、保存快照的功能、在宿主机之间迁移容器实例的能力，等等。

1.1.2 Docker

1.1.2.1 Docker历史

2013年，dotCloud为寻求新的突破，更名为Docker，并发布了开源的容器Docker。Docker 引入了一整套容器管理的生态系统，包括分层的镜像模型，容器注册库，友好的 Rest API等。
2016 年微软也在 Windows 上提供了容器的支持，Docker 可以以原生方式运行在 Windows 上，而不是需要使用 Linux 虚拟机。

1.1.2.2 Docker原理

核心技术有：

namespace：隔离其运行环境，使得容器中的进程看起来就像一个独立环境中运行一样。
cgroup：为系统中所运行任务（进程）的用户定义组群分配资源。可以监控管理员配置的 cgroup，拒绝 cgroup 访问某些资源，甚至在运行的系统中动态配置 cgroup。主要功能包括了：限制资源使用、优先级控制、审计计费、挂起和恢复进程
守护进程：直接与主操作系统进行通信、为各个Docker容器分配资源、将容器与主操作系统隔离，并将各个容器互相隔离。

Docker的基础结构有（从底层到上层）

基础设施：即各种硬件设施和配套的底层软件
主操作系统：有Linux、Windows、MacOS等。用于支持Docker运行
各种依赖：打包在Docker镜像（Image）之中，容器（Container）依赖于镜像创建
应用：应用的源代码与依赖项打包在Docker镜像中，不同的应用需要不同的Docker镜像。不同镜像之间相互隔离。

1.2 Hadoop简介

Hadoop更注重代码向数据迁移，有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上，且它提供高吞吐量（high throughput）。

1.2.1 Hadoop历史

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制。
2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop。
2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
2011年12月27日–1.0.0版本释出。标志着Hadoop已经初具生产规模。

1.2.2 Hadoop架构

Hadoop分为两个模块，一个是文件系统核心模块(HDFS)，另一个是数据计算核心模块(MapReduce)。

1.2.2.1 Hadoop的文件系统核心模块

HDFS采用主从架构（master/slaves）。一个HDFS集群由一个主节点（Namenode）和一定数量的从节点（Datanodes）组成。Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。Datanode是一个节点一个，负责节点上的存储。
从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。Namenode执行文件系统的名字空间操作。Datanode负责处理文件系统客户端的读写请求，在Namenode的统一调度下进行数据块的创建、删除和复制。
secondaryNameNode用于hadoop当中元数据信息的辅助管理。

1.2.2.2 Hadoop的数据计算核心模块

Map/Reduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。
一个作业将数据集分割为独立的数据块，由Map任务以并行的方式处理数据。
MapReduce框架由一个单独的主作业控制（master JobTracker ）和每个集群节点一个从任务控制（slave TaskTracke）共同组成。master负责调度构成一个作业的所有任务，这些任务分布在不同的slave上，master监控它们的执行，重新执行已经失败的任务。而slave仅负责执行由master指派的任务。
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分
NodeManager：负责执行主节点ResourceManager分配的任务

1.2.3 Hadoop运行流程

MapReduce分3个阶段执行，分别是映射(Map)阶段、洗牌(Shuffle)阶段、归约(Reduce)阶段。
MapReduce使用操纵键值对来处理数据
Map: $K_{1}, V_{1})→list(K_{2}, V_{2}))$
Reduce: $K_{1}, list(V_{2}))→list(K_{3}, V_{3}))$
Shuffle表示数据进行整理（核心机制：对数据进行分区，排序，缓存）即拉取partition,merge,sort,combine
一个MapReduce的工作过程是：

向集群服务器发送Map与Reduce任务。
管理数据传递。
本地计算，减少网络通数据通信。
完成任务后，收集数据，将合适的结果返回给Master服务器

2. 环境搭建

Hadoop有三种模式（单机模式，伪分布模式，全分布模式）。本文选用全分布模式搭建集群。

2.1 本机环境

本文基于的环境是Ubuntu18.04 （amd64）
配置如下：

配件	名称
CPU	Intel Core-I7 8750H @2.2GHz
内存	16 GB
硬盘	160G SSD
显卡	Nvidia Geforce GTX1060(6G) (有无无影响)

2.2 物料说明

宿主机：Ubuntu18.04
Docker
JDK
Hadoop
Spark
操作路径为/home/

2.3 安装基本环境

安装Docker容器

# 删除可能有的旧版本
sudo apt-get remove docker docker-engine docker.io containerd runc
# 更新apt
sudo apt-get update
# 让apt支持https
sudo apt-get install apt-transport-https  ca-certificates  curl  gnupg-agent  software-properties-common
# 安装官方GPG密钥
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"
// 阿里云
// curl -fsSL http://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
// sudo add-apt-repository "deb [arch=amd64] http://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
# 安装docker-ce
sudo apt-get update
sudo apt-get install docker-ce
sudo apt-get install docker-ce-cli
sudo apt-get install containerd.io

在Docker中拉取Ubuntu18.04镜像并创建容器

# 拉取ubuntu 18.04镜像
sudo docker pull ubuntu:18.04
# 查找拉取的镜像id
sudo docker images
# 启动一个master容器
sudo docker run -dit -h master <image-id>
# 查找创建的容器id
sudo docker ps
# 进入容器
sudo docker exec -it <container-id> /bin/bash

注：和需要换成对应的id，及生成的hash，如不清楚，可以查看附录1中查看Docker中image、container的命令。
绑定端口

sudo docker run -dit -h master -p 9870:9870 -p 8080:8080 -p 4040:4040 -p 8088:8088 -p 8099:8099 <image-id>

配置master容器
首先要确认自己已经进入到master容器中
正确的应该是上面第二行呈现的样子。如果不正确，请检测前面运行是否正确，找不到问题，就"sudo docker ps -a"查看已创建的Container，然后"sudo docker start "，最后"sudo docker exec -it /bin/bash"
确认完后，开始配置master容器

# 更新apt
apt-get update
apt-get pagrade
# 安装net-tools
apt-get install net-tools
# 安装vim
apt-get install vim
# 安装ssh，配置无密码登录
apt-get install openssh-server
ssh-keygen -t rsa -P ''
回车
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# 查询是否开启ssh
/etc/init.d/ssh status
# 开启ssh
/etc/init.d/ssh start
# 配置开机启动
vim /etc/rc.local
# 在exit 0语句前加入
/etc/init.d/ssh start

安装java
这里使用wget下载java，如果本文给出的url无法正确获取到java文件，请自行查找最新的url予以替换，或直接使用“apt install default-jre”安装开源版本。

#安装wget库
apt install wget
#进入usr/local/src目录下
cd /usr/local/src
#获取JDK1.8包
wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz
#解压jdk-8u161-linux-x64.tar.gz
tar -zxvf jdk-8u131-linux-x64.tar.gz
#重命名为JDK8
mv jdk1.8.0_131 jdk8
#配置环境变量
vim  ~/.bashrc #打开环境变量配置文件
#增加下面内容到该文件最后
export JAVA_HOME=/usr/local/src/jdk8
export PATH=$JAVA_HOME/bin:$PATH  
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 
#使环境生效
source ~/.bashrc

安装Hadoop

# 安装hadoop
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
# 解压
tar -zxvf hadoop-3.2.0.tar.gz
# 重命名
mv  hadoop-3.2.0 hadoop
# 添加环境变量
sudo vim ~/.bashrc
# 添加以下代码
# hadoop
export HADOOP_HOME=/home/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 生效
sudo source ~/.bashrc

配置分布式hadoop

# 当前路径为/home/hadoop/
# 创建三个文件夹备用
mkdir -p hdfs/{data,name,tmp}

修改配置

cd /home/hadoop/etc/hadoop

以下修改XXX，均使用“viｍ XXX”方式进行编写，不再赘述
修改hadoop-env.sh

# 在文中只改这一行
export JAVA_HOME=/home/bigdata/jdk1.8

修改core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/bigdata/hdfs/tmp</value>
        </property>
</configuration>

修改hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/bigdata/hadoop/hdfs/name</value>
        </property>
        <property>
                <name>dfs.http.address</name>
                <value>0.0.0.0:50070</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/bigdata/hdfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
</configuration>

修改mapred-site.xml，注意这里的目录一定要和上面定义的目录相统一，否则DataNode会崩溃，无法集群

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
         <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=/home/hadoop</value>
    </property>
    <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=/home/hadoop</value>
    </property>
    <property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=/home/hadoop</value>
    </property>
</configuration>

修改yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
</configuration>

创建workers文件（Hadoop3将slaves文件改名为workers了）

touch workers
vim workers
# 添加：
master
slave01
slave02

格式化HDFS，这里只需要运行一次，如果运行多了需要删除工作目录下HDFS文件，然后重新格式化，详情自行搜索

cd /home/hadoop/bin
# 该命令只需运行一次
hdfs namenode -format

修改运行文件

cd /home/hadoop/sbin
# 在start-dfs.sh，stop-dfs.sh文件顶部加入以下配置
#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

# 在start-yarn.sh，stop-yarn.sh文件顶部加入以下配置
#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

安装Scala

wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
tar -zxvf scala-2.11.8.tgz
mv scala-2.11.8 scala
# 添加环境变量
vim ~/.bashrc
# 添加以下代码
# scala
export SCALA_HOME=/home/scala
export PATH=$PATH:$SCALA_HOME/bin
# 生效
source ~/.bashrc

安装Spark

wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
mv spark-2.4.3-bin-hadoop2.7 spark

# 添加环境变量
vim ~/.bashrc
# 添加以下代码
# spark
export SPARK_HOME=/home/spark
export PATH=$PATH:$SPARK_HOME/bin
export PATH=$PATH:$SPARK_HOME/sbin
# 生效
source ~/.bashrc

配置文件

cd /home/spark/conf
cp spark-env.sh.template spark-env.sh
# spark-env.sh添加以下代码
export JAVA_HOME=/home/jdk1.8
export HADOOP_HOME=/home/hadoop
export HADOOP_CONF_DIR=/home/hadoop/etc/hadoop
export SCALA_HOME=/home/scala
export SPARK_HOME=/home/spark
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

cp slaves.template slaves
#  slaves添加以下代码
master
slave01
slave02

提交master并克隆出slaves

# 退出容器
exit
# 提交容器更改
sudo docker commit <container-id> ubuntu-hadoop-spark:1.0
# 用刚刚提交的ubuntu-hadoop-spark:1.0创建两个slave
sudo docker run -dit -h slave01 <image-id>
sudo docker run -dit -h slave02 <image-id>
# 运行两个slave
sudo docker exec -it slave01 /bin/bash
sudo docker exec -it slave02 /bin/bash

到这里之后就配置好一个master两个worker了
13. hosts配置
分别进入master、slave01和slave02，用ifconfig命令找出相应的ip，并分别修改hosts文件

vim /etc/hosts
# 添加
xxx.xxx.xxx.xx1   master 
xxx.xxx.xxx.xx2   slave01
xxx.xxx.xxx.xx3   slave02

启动

分别进入三个容器，启动命令相同

# 启动hadoop
cd /home/hadoop/sbin
./start-dfs.sh
./start-yarn.sh
# 启动spark
cd /home/spark/sbin
./start-all/sh

使用 JPS检测启动
如果集群不成功，检测路径等问题，NameNode一会就消失是format的问题，需要重新格式化
两个管理网页
http://(master ip):8088/
http://(master ip):50070/

2.4 测试环境

首先查看是否运行成功
这里是start-all.sh的样子，也可以分别启动hdfs和yern
这样是启动成功了的
创建目录

hadoop fs -mkdir /input

然后就能看见创建的目录了
3. 放入文件
我这里就用hadoop中的LICENSE文件做count了

hadoop fs -put /home/hadoop/LICENSE.txt /input

放入wordcount程序

hadoop jar /home/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input /output

注意与自己的路径相符和文件名，我这里是3.2.0.你那里可能版本不一样
4. 运行wordcount

wordcount /input /output

结果：
6. 将结果下载下来
这里的ip请填master对应ip，在下载时会自动跳到slave上，请修改成正确的ip

3. 总结

Docker是一个非常好用的开源容器，它节约了开发、维护、测试时对环境的配置问题，并且很好的解决了虚拟机效率不高的问题。本文主要对它的历史和架构做了简单描述，通过在Docker上创建一个Image，并在上搭建了全分布式Hadoop。Hadoop是运用广泛的开源分布式计算平台，本文主要介绍了它的历史和架构，并通过搭建它的环境和用一个例子来简要概述了它的流程。为我们进一步研究分布式并行算法和处理分析大数据提供了平台。

附录1 Docker常用命令

# 重启docker服务 
sudo service docker restart
# 关闭docker服务 
sudo service docker stop
# 开启docker服务
sudo service docker start

# 拉取ubuntu 18.04镜像
sudo docker pull ubuntu:18.04
# docker create 命令为指定的镜像（image）添加了一个可读写层，构成了一个新的容器。注意，这个容器并没有运行。 
sudo docker create <image-id>
# docker run = docker create + docker start
sudo docker run  -p 宿主机端口:docker端口 <image-id> 
# 后台运行
sudo docker run -dit <image-id>
# 运行直接进入bash，退出后后台不运行
sudo docker run -it <image-id> /bin/bash 
# 查看本地镜像
sudo docker images
# 删除镜像
sudo docker rmi <image-id>

# docker start命令为容器文件系统创建了一个进程隔离空间。注意，每一个容器只能够有一个进程隔离空间。 
docker start <container-id>
# 查看当前运行的容器
docker ps
# 查询存在的容器
docker ps -a
# 删除容器
docker rm  <container-id>
# 强制删除容器
docker rm -f  <container-id>
# 不能够删除一个正在运行的容器，会报错。需要先停止容器。
# 进入容器内部
sudo docker exec -it (container name or id) /bin/bash
# 退出容器
exit
# 容器重命名
docker container rename <container-id> newname

# 提交
docker commit <container-id> <image-name>

注：文中所给、都要用对应的id进行替换，不要直接照抄。

附页2 Hadoop常见命令

1、启动hadoop所有进程
start-all.sh等价于start-dfs.sh + start-yarn.sh
但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。
2、单进程启动。
sbin/start-dfs.sh
---------------
    sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ...
    sbin/hadoop-daemons.sh --config .. --hostname .. start datanode ...
    sbin/hadoop-daemons.sh --config .. --hostname .. start sescondarynamenode ...
    sbin/hadoop-daemons.sh --config .. --hostname .. start zkfc ...         //
sbin/start-yarn.sh
--------------  
    libexec/yarn-config.sh
    sbin/yarn-daemon.sh --config $YARN_CONF_DIR  start resourcemanager
    sbin/yarn-daemons.sh  --config $YARN_CONF_DIR  start nodemanager
3、常用命令
    1、查看指定目录下内容
   hdfs dfs –ls [文件目录]
    hdfs dfs -ls -R   /                   //显式目录结构
    eg: hdfs dfs –ls /user/wangkai.pt
   2、打开某个已存在文件
    hdfs dfs –cat [file_path]
   eg:hdfs dfs -cat /user/wangkai.pt/data.txt
  3、将本地文件存储至hadoop
     hdfs dfs –put [本地地址] [hadoop目录]
     hdfs dfs –put /home/t/file.txt  /user/t  
  4、将本地文件夹存储至hadoop
    hdfs dfs –put [本地目录] [hadoop目录]
    hdfs dfs –put /home/t/dir_name /user/t
   (dir_name是文件夹名)
  5、将hadoop上某个文件down至本地已有目录下
     hadoop dfs -get [文件目录] [本地目录]
     hadoop dfs –get /user/t/ok.txt /home/t
  6、删除hadoop上指定文件
     hdfs  dfs –rm [文件地址]
     hdfs dfs –rm /user/t/ok.txt
  7、删除hadoop上指定文件夹（包含子目录等）
     hdfs dfs –rm [目录地址]
     hdfs dfs –rmr /user/t
  8、在hadoop指定目录内创建新目录
      hdfs dfs –mkdir /user/t
      hdfs  dfs -mkdir - p /user/centos/hadoop
  9、在hadoop指定目录下新建一个空文件
    使用touchz命令：
    hdfs dfs  -touchz  /user/new.txt
  10、将hadoop上某个文件重命名
   使用mv命令：
   hdfs dfs –mv  /user/test.txt  /user/ok.txt   （将test.txt重命名为ok.txt）
  11、将hadoop指定目录下所有内容保存为一个文件，同时down至本地
   hdfs dfs –getmerge /user /home/t
  12、将正在运行的hadoop作业kill掉
   hadoop job –kill  [job-id]
  13.查看帮助
  hdfs dfs -help

参考文献（章）

[1] The 4 Characteristics of Big Data
[2] Ubuntu18.04 + docker + hadoop + spark 搭建分布式集群
[3] Linux 容器技术史话：从 chroot 到未来
[4] Hadoop大数据平台的搭建崔文斌等山东农业大学学报2013, 44( 4 ): 550-555
[5] docker底层原理介绍
[6] Hadoop百度百科
[7] Hadoop官网手册
[8] Hadoop的shuffle原理和过程图解
[9] Hadoop常用命令总结

你可能感兴趣的:(Ubuntu18.04+Docker+Hadoop+Spark分布式集群搭建)

HBase Shell基本操作 wanglingli95 大数据开发 hbase 数据库大数据
一、进入HbaseShell客户端先在LinuxShell命令行终端执行start-dfs.sh脚本启动HDFS，再执行start-hbase.sh脚本启动HBase。如果Linux系统已配置HBase环境变量，可直接在任意目录下执行hbaseshell脚本命令，就可进入HBaseShell的命令行终端环境，exit可以退出HBaseShell（我安装的是伪分布式的HBase）。（1）help帮助
如何在 Kafka 中实现自定义分区器 My LQS 学习笔记篇历史经验篇 kafka 分布式
今天我来给大家分享一下如何在Kafka中实现一个自定义分区器。Kafka是一个分布式流处理平台，能够高效地处理海量数据。默认情况下，Kafka使用键的哈希值来决定消息应该发送到哪个分区，但是有时我们需要根据特定的业务逻辑来定制分区策略。这时候，自定义分区器就显得格外重要了。什么是Kafka分区器？Kafka中的分区器（Partitioner）决定了每条消息应该被发送到哪个分区。Kafka默认提供了
探索全球分布式数据库的新篇章：Azure Cosmos DB .NET SDK v3 施刚爽
探索全球分布式数据库的新篇章：AzureCosmosDB.NETSDKv3azure-cosmos-dotnet-v3.NETSDKforAzureCosmosDBforthecoreSQLAPI项目地址:https://gitcode.com/gh_mirrors/az/azure-cosmos-dotnet-v3AzureCosmosDB.NETSDKv3是一个强大的开发工具包，专为连接并利用
【Git】使用笔记总结悬铃木下的青春杂篇 git 笔记
目录概述安装Git注册GitHub配置Git常用命令常见场景1.修改文件2.版本回退3.分支管理常见问题1.gitadd[中文文件夹]无法显示中文问题2.gitadd[文件夹]文件名中含有空格3.gitadd触发LF回车换行警告4.gitpush提示不存在Origin仓库5.Git与GitHub中默认分支不一致问题6.gitpull提示无法合并无关联仓库概述Git是一个开源的分布式版本控制系统，用
分布式服务接口的幂等性如何设计（比如不能重复扣款）？码农小旋风后端
面试题分布式服务接口的幂等性如何设计（比如不能重复扣款）？面试官心理分析从这个问题开始，面试官就已经进入了实际的生产问题的面试了。一个分布式系统中的某个接口，该如何保证幂等性？这个事儿其实是你做分布式系统的时候必须要考虑的一个生产环境的技术问题。啥意思呢？你看，假如你有个服务提供一些接口供外部调用，这个服务部署在了5台机器上，接着有个接口就是付款接口。然后人家用户在前端上操作的时候，不知道为啥，总
如何学习Java后端开发写代码的大学生学习 java 开发语言
文章目录一、Java语言基础二、数据库与持久层三、Web开发基础四、主流框架与生态五、分布式与高并发六、运维与部署七、项目实战八、持续学习与提升总结路线图学习Java后端开发需要系统性地掌握多个技术领域，从基础到进阶逐步深入。以下是一个详细的学习路线和建议，帮助你高效入门并逐步提升：一、Java语言基础核心语法数据类型、流程控制、数组、字符串等基础语法。面向对象（OOP）：封装、继承、多态、抽象类
C/S架构与B/S架构嗯嗯= 架构
一.C/S架构与B/S架构的简述1.1什么是C./S架构C/S架构（Client/ServerArchitecture）是一种软件系统的基本架构模式，客户端负责用户界面和业务逻辑，服务器负责数据存储和处理。C/S架构是一个分布式的计算架构，客户端通过网络连接与服务器通信，完成任务。C/S架构的优点是数据处理效率高，实现灵活，但缺点是维护和安全方面的要求较高，且需要长期维护客户端和服务器。1.2什么
jwt权限验证原理深圳卢先生数据安全开发语言 java
1.JWT，全称是JsonWebToken，是一种JSON风格的轻量级的授权和身份认证规范，可实现无状态、分布式的Web应用授权！2.JWT由三部分组成：头部（Header）:通常包含令牌的类型（即JWT）和加密算法（如HMACSHA256或RSA）。例如：{"alg":"HS256","typ":"JWT"}载荷（Payload）:包含要传递的声明（Claims）。声明总共可以包括如下七项，但是
监控易：一体化智能运维在复杂网络环境的架构优势 MXsoft618 智能运维管理系统运维管理一体化监控平台智能运维数据库
在现代企业中，IT基础设施已成为业务成功的重要基石。面对海量设备与复杂的网络结构，传统的监控工具往往难以满足动态化、海量化的需求。监控易以其“一体化智能运维”的产品理念，成为运维领域的优势品牌。本文将从架构优势入手，深入探讨监控易如何通过领先的技术实现分布式复杂网络的灵活扩展，并为企业提供高效、稳定、可靠的运维支持。监控易的功能与竞争力一体化智能运维的核心理念监控易定位为“一体化智能运维”平台，致
【Sharding-Jdbc总结】壹佰大多 java java spring 数据库 spring cloud
文章目录shard-jdbc介绍核心功能分库分表：分布式事务：客户端框架：适用场景核心组件代码实现导包配置文件sql语句java代码shard-jdbc介绍Sharding-JDBC是ApacheShardingSphere的一个模块，它是一个轻量级的Java数据访问框架，通过增强JDBC驱动实现了分库分表、分布式事务、读写分离和数据加密等功能。它适用于任何基于JDBC的应用程序。核心功能分库分表
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
Redisson详解好运仔dzl Java笔记 redis 分布式 spring boot
什么是Redisson？什么业务中用过Redis的分布式锁？在SpringBoot中怎么用分布式锁？用的是哪个工具类？怎么设这个分布式锁？什么是Redisson？Redisson是一个用于Java的Redis客户端，它不仅提供了对Redis命令的访问，还实现了多种分布式对象、锁和同步工具。Redisson的设计目标是简化在分布式系统中使用Redis的复杂度，并为开发者提供更高层次的抽象，以便更容易
缓存的多种实现方式养生编程大队长 Java学习缓存
1.谷歌的guava包下面的Cache，基于内存的缓存2.自定义缓存，例如使用静态Map实现3.分布式缓存redis，memcached4.EHcache
Java 分布式与微服务架构：现代企业应用开发的新范式来恩1003 Java 从入门到精通架构 java 分布式
Java学习资料Java学习资料Java学习资料一、引言在当今数字化时代，企业应用面临着越来越高的性能、可扩展性和灵活性要求。传统的单体架构在应对大规模用户访问、复杂业务逻辑和频繁的功能迭代时，逐渐暴露出诸多问题。Java分布式与微服务架构应运而生，为解决这些问题提供了有效的方案。它们使得企业能够构建出更加高效、灵活和可维护的应用系统。二、分布式架构基础2.1分布式架构的概念分布式架构是将一个完整
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
分布式系统架构7：本地缓存快乐非自愿架构缓存
1.引入缓存的影响我们在开发时，用到缓存的情况，无非就是为了减少客户端对相同资源的重复请求，降低服务器的负载压力。引入缓存后，既有好处也有坏处引入缓存负面影响：开发角度，增加了系统复杂度，需考虑缓存失效、更新、一致性问题运维角度，缓存会掩盖一些缺陷问题安全角度，缓存可能泄密某些保密数据引入缓存的理由：为了缓解CPU压力，将实时计算运行结果存储起来，节省CPU压力为了缓解I/O压力，将原本对网络、磁
云原生：构建现代化应用的基石 moton2017 后端架构云原生微服务容器 kubernetes docker
一、什么是云原生？云原生是一种构建和运行应用程序的方法，旨在充分利用云计算的分布式系统优势，例如弹性伸缩、微服务架构、容器化技术等。云原生应用程序从设计之初就考虑到了云环境的特点，能够更好地适应云平台的动态变化，并充分发挥云计算的优势。1.云原生核心特点：容器化：使用容器技术（如Docker）将应用打包成独立的容器镜像，实现快速部署和隔离。微服务架构：将单体应用拆分成多个松耦合的微服务，每个微服务
阿里最全面试116题整理数据存储张程序人生数据库使用与原理解析零基础linux入门到精通 C\C++入门到精通面试题 java 阿里
阿里天猫、蚂蚁金服、阿里巴巴面试题整理，可以作为参考。1.junit用法，before,beforeClass,after,afterClass的执行顺序2.分布式锁3.nginx的请求转发算法，如何配置根据权重转发4.用hashmap实现redis有什么问题（死锁，死循环，可用ConcurrentHashmap）5.线程的状态5.线程的阻塞的方式6.sleep和wait的区别7.hashmap的
wifi模块服务器通讯协议,模块之间通信协议高杉峻 wifi模块服务器通讯协议
模块之间通信协议内容精选换一换IEC61499是分布式工业测量，控制和监控系统的功能块标准，既然它是面向工业测量和控制的系统，对系统的确定性(Deterministic)要求必然也比较高。确定性又是安全性的前提。保证系统的确定性的两个重要措施是保证系统的实时性和同步性。分布式系统结构又进一步增加了实现确定性的难来自：博客网络编程一、网络编程基础python的网络编程模块主要支持两种Internet
Kafka 如何实现高性能言之。架构面试 kafka 分布式
1.高吞吐量的设计分布式架构：Kafka通过分布式的集群架构设计来横向扩展，提高吞吐量。多个生产者、消费者和节点可以同时并行工作，分担流量负载。分区机制：Kafka使用分区来分散负载，每个topic可以有多个分区，每个分区可以独立处理读写操作。消费者可以并行地处理多个分区的数据，从而提升性能。分区内部的消息顺序性得到保证，但多个分区之间消息顺序不保证，这种设计能够实现高并发的处理。2.顺序写入与高
快速学习安装使用etcd 蓝胖子不是胖子学习 etcd 数据库
1.什么是etcd？etcd是一个分布式键值存储系统，主要用于分布式系统的配置管理和服务发现。它提供了可靠的数据存储，etcd可以用来构建高可用的分布式键值数据库，根据官网介绍并且支持分布式锁、Leader选举等功能，通常被用作微服务架构中的注册中心。在目前go的大部分组件还有框架中都被采用为注册中心组件相当于zookper和redis2.安装etcd2.1.在本地安装etcd2.1.1.Linu
Zookeeper的性能优化与调优 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Zookeeper的性能优化与调优作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来Zookeeper是一款开源的分布式协调服务，广泛应用于分布式系统中的数据一致性、分布式锁、分布式队列、配置管理等场景。然而，随着集群规模的扩大和业务量的增长，Zookeeper的性能瓶颈也逐渐显现出来。为了确保Zookeeper能够稳定高效
如何设计基于Java的高并发消息队列系统省赚客app开发者 java 开发语言
如何设计基于Java的高并发消息队列系统大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在现代的分布式系统中，消息队列作为解耦和异步处理的关键组件，能够有效提升系统的可扩展性和高并发处理能力。本文将详细探讨如何设计一个基于Java的高并发消息队列系统，包括架构设计、核心组件实现及性能优化策略。一、消息队列系统的需求分析在设计高并发消息队列系统时，需要考虑以下几个核心需
Java软件架构中的事件驱动模式：最佳实践与挑战省赚客app开发者 java 开发语言
Java软件架构中的事件驱动模式：最佳实践与挑战大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们来聊一聊**事件驱动架构（Event-DrivenArchitecture,EDA）**在Java软件开发中的应用。事件驱动模式已经成为现代分布式系统中广泛采用的设计方式，尤其是在需要解耦组件、提高系统响应能力和支持高并发的场景下。本文将探讨事件驱动架构的最佳实践以
ZooKeeper 提供了什么？思维导图代码示例（java 架构) 用心去追梦 java-zookeeper zookeeper java
ZooKeeper提供了一组核心服务和特性，旨在简化分布式系统的构建。它通过一个简单的接口来实现同步、配置管理、分组和命名等功能。下面我将提供一个关于ZooKeeper所提供的服务和特性的思维导图大纲，并给出一些Java代码示例以说明如何使用这些功能。思维导图大纲1.ZooKeeper提供的核心服务命名服务（NamingService）分布式系统中唯一标识资源配置管理（ConfigurationM
电梯系统的UML文档01 rolt 建模带来竞争优势 UML 架构师产品经理
LuLuo著，王君译1简介这是一份CarnegieMellon大学博士课程（分布式嵌入系统）项目报告。整个课程完成了一个分布式实时系统的设计、搭建和模拟。设计时用到了OOA和OOD，特别是UML。系统的大多数类省略了很多细节。现在看到的这份电梯系统的UML文档和真实的电梯系统有很大的不同。因此不是很清楚UML是否能真正地完成电梯系统的设计。这份报告基于当前的系统设计给出了一个教学项目严谨UML文档
网上抓取 Git进阶笔记 weixin_34306676
前言这个git的解说是我在网上看到然后觉得挺好抓取下来给自己用的，并非个人所写Git进阶知识点作为分布式的版本控制系统，Git的操作指令非常多，但是我们可以灵活的组合使用一些常用指令，就可以玩转大多数的日常Git使用场景。1、温习Git工作区域先来温习一下Git的工作区域划分：工作目录、暂存区、本地仓库，实际操作中，我们需要知道每一步操作发生在哪个工作区域，那么再复杂的Git问题都能轻松解决。先看
memcached是怎么工作的？思维导图代码示例（java 架构) 用心去追梦 memcached java 架构
Memcached是怎么工作的？Memcached的工作原理围绕着其作为高性能分布式内存对象缓存系统的核心功能展开。以下是关于Memcached工作流程的详细解析：1.客户端请求处理客户端连接：应用程序通过网络与一个或多个Memcached服务器建立TCP连接。命令执行：客户端发送简单的文本协议命令（如set,get,delete等）到Memcached服务器来存储或检索数据。2.数据存储机制Sl
深入浅出：Node.js高级重试机制前端
在分布式系统中，优雅地处理异常是构建可靠应用程序的关键。无论是网络抖动、服务暂时不可用，还是数据库连接超时，这些短暂的故障都可能让系统陷入混乱。而重试模式，作为一种经典的设计模式，正是解决这些问题的利器。今天，我们将深入探讨如何在Node.js中实现高级重试机制，并分享一些实用的策略和最佳实践。什么是重试模式？重试模式是一种用于提高系统稳定性的设计模式。它的核心思想是：在面对短暂的故障时，不要轻易
高并发场景中乐观锁与悲观锁的选择星辰@Sea 系统架构缓存 Java java 分布式系统架构
目录引言什么是锁？乐观锁悲观锁高并发场景下的考量案例分析选择乐观锁还是悲观锁？扩展知识：SoftwareTransactionalMemory(STM)结论引言在分布式系统和高并发环境中，如何有效地处理数据竞争成为了开发者们面临的挑战之一。锁机制作为一种解决方案，在确保数据一致性和完整性方面扮演着重要角色。然而，并不是所有的锁都适用于所有的情况。本文将探讨两种常见的锁——乐观锁（Optimisti
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟