一只皮皮虾x

Hadoop集群配置（一）

文章目录

一、实验目标
二、实验内容
三、实验步骤
- 1、网卡配置，配置固定IP
- 2、关闭防火墙
- 3、关闭 selinux
- 4、配置主机名
- 5、安装java
- 6、添加hosts
- 7、安装SSH server、配置SSH无密码登陆
- 8、安装hadoop与配置
- - 8.1、将hadoop添加到环境变量中
  - 8.2、配置hadoop-env.sh
  - 8.3、配置core-site.xml
  - 8.4、配置hdfs-site.xml
  - 8.5、配置mapred-site.xml
  - 8.6、配置yarn-site.xml
  - 8.7、配置workers 文件
- 9、启动集群
- - 9.1、格式化NameNode
  - 9.2、启动HDFS
  - 9.3、启动YARN
- 10、上传文件到集群
- - 10.1、上传小文件
  - 10.2、上传大文件

一、实验目标

搭建Hadoop、Spark集群，掌握MapReduce编程模型，实现二次排序。

二、实验内容

搭建Hadoop、Spark集群。
使用MapReduce或者Spark方式实现二次排序。

三、实验步骤

以下为所有虚拟机的预先配置处理。

1、网卡配置，配置固定IP

[root@192 network-scripts]# cd /etc/sysconfig/network-scripts/
[root@192 network-scripts]# ls
ifcfg-ens33  ifdown-ippp  ifdown-routes    ifup          ifup-ipv6   ifup-ppp       ifup-tunnel
ifcfg-lo     ifdown-ipv6  ifdown-sit       ifup-aliases  ifup-isdn   ifup-routes    ifup-wireless
ifdown       ifdown-isdn  ifdown-Team      ifup-bnep     ifup-plip   ifup-sit       init.ipv6-global
ifdown-bnep  ifdown-post  ifdown-TeamPort  ifup-eth      ifup-plusb  ifup-Team      network-functions
ifdown-eth   ifdown-ppp   ifdown-tunnel    ifup-ippp     ifup-post   ifup-TeamPort  network-functions-ipv6
[root@192 network-scripts]# vi ifcfg-ens33

TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static # => 设置为静态IP,static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=e151e1e4-14cd-477a-8b13-89464e7a5330
DEVICE=ens33 #网卡名
ONBOOT=yes # => 设置网卡启动方式为 开机启动
IPADDR=192.168.233.233 # => 设置的静态IP地址(compute设置为200)
NETMASK=255.255.255.0 # => 子网掩码 
GATEWAY=192.168.233.2 # => 配置 网关地址 
DNS1=192.168.233.2 # => 配置DNS地址(为网关地址)

重新启动服务

[root@192 network-scripts]# service network restart

重新连接centos，并查看ip

[root@192 ~]# ifconfig
ens33: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.233.233  netmask 255.255.255.0  broadcast 192.168.233.255
        inet6 fe80::9d76:3c8b:d37:c5e2  prefixlen 64  scopeid 0x20<link>
        ether 00:0c:29:86:96:ca  txqueuelen 1000  (Ethernet)
        RX packets 13100  bytes 17072119 (16.2 MiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 3881  bytes 287068 (280.3 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1000  (Local Loopback)
        RX packets 136  bytes 11840 (11.5 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 136  bytes 11840 (11.5 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

2、关闭防火墙

[root@192 ~]# systemctl stop firewalld	# 临时关闭
[root@192 ~]# systemctl disable firewalld	# 禁止开机启动
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

3、关闭 selinux

[root@192 ~]# getenforce # 查看
Enforcing

[root@192 ~]# sestatus # 查看状态
SELinux status:                 enabled
SELinuxfs mount:                /sys/fs/selinux
SELinux root directory:         /etc/selinux
Loaded policy name:             targeted
Current mode:                   enforcing
Mode from config file:          enforcing
Policy MLS status:              enabled
Policy deny_unknown status:     allowed
Max kernel policy version:      31
[root@192 ~]# setenforce 0 # 临时关闭，设置后需要重启才能生效
[root@192 ~]# vi /etc/selinux/config  # 永久关闭
[root@192 ~]# cat /etc/selinux/config 

# This file controls the state of SELinux on the system.
# SELINUX= can take one of these three values:
#     enforcing - SELinux security policy is enforced.
#     permissive - SELinux prints warnings instead of enforcing.
#     disabled - No SELinux policy is loaded.
#SELINUX=enforcing
SELINUX=disabled
# SELINUXTYPE= can take one of three values:
#     targeted - Targeted processes are protected,
#     minimum - Modification of targeted policy. Only selected processes are protected. 
#     mls - Multi Level Security protection.
SELINUXTYPE=targeted 

[root@192 ~]# sestatus  # 重启后
SELinux status:                 disabled

4、配置主机名

[root@192 ~]# vi /etc/hostname 
master
localhost.localdomain
:wq
[root@192 ~]# hostname
192.168.233.233
[root@192 ~]# hostnamectl 
   Static hostname: master
Transient hostname: 192.168.233.233
         Icon name: computer-vm
           Chassis: vm
        Machine ID: c9ea968579cf4f25b4471c73e6cd6e4a
           Boot ID: 62ebc6095a2944f8be8f5003dd9f6231
    Virtualization: vmware
  Operating System: CentOS Linux 7 (Core)
       CPE OS Name: cpe:/o:centos:centos:7
            Kernel: Linux 3.10.0-1160.el7.x86_64
      Architecture: x86-64
[root@192 ~]# reboot
[root@master ~]#

5、安装java

jdk-8u291-linux-x64.rpm # 上传到服务器
[root@master ~]# rpm -ivh jdk-8u291-linux-x64.rpm 
警告：jdk-8u291-linux-x64.rpm: 头V3 RSA/SHA256 Signature, 密钥 ID ec551f03: NOKEY
准备中...                          ################################# [100%]
正在升级/安装...	
#### 查看安装目录 ####
[root@master java]# cd jdk1.8.0_291-amd64/
[root@master jdk1.8.0_291-amd64]# ls
bin        javafx-src.zip  legal    man          src.zip
COPYRIGHT  jmc.txt         lib      README.html  THIRDPARTYLICENSEREADME-JAVAFX.txt
include    jre             LICENSE  release      THIRDPARTYLICENSEREADME.txt
#### 配置环境变量 #####
[root@master jdk1.8.0_291-amd64]# vi ~/.bashrc 
###添加如下环境###
# set java environment######
JAVA_HOME=/usr/java/jdk1.8.0_291-amd64
JRE_HOME=/usr/java/jdk1.8.0_291-amd64/jre
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
export JAVA_HOME JRE_HOME CLASS_PATH PATH
# end #########
[root@master jdk1.8.0_291-amd64]# source ~/.bashrc  #立即生效
[root@master ~]# java -version
java version "1.8.0_291"
Java(TM) SE Runtime Environment (build 1.8.0_291-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.291-b10, mixed mode)

6、添加hosts

类型	IP	主机名
master	192.168.233.233	master
slave1	192.168.233.234	slave1
slave2	192.168.233.235	slave2

在master主机下，添加slave1，slave2 如下配置：

[root@master ~]# vi /etc/hosts
### 添加如下
192.168.233.233 master
192.168.233.235 slave2
192.168.233.234 slave1
### 测试是否可以 ping 通
[root@master ~]# ping master
PING master (192.168.233.233) 56(84) bytes of data.
64 bytes from master (192.168.233.233): icmp_seq=1 ttl=64 time=0.097 ms
64 bytes from master (192.168.233.233): icmp_seq=2 ttl=64 time=0.023 ms
--- slave1 ping statistics ---
2 packets transmitted, 2 received, 0% packet loss, time 999ms
rtt min/avg/max/mdev = 0.023/0.060/0.097/0.037 ms
[root@master ~]# ping slave2
PING slave2 (192.168.233.235) 56(84) bytes of data.
64 bytes from slave2 (192.168.233.235): icmp_seq=1 ttl=64 time=2.13 ms
--- slave2 ping statistics ---
1 packets transmitted, 1 received, 0% packet loss, time 0ms
rtt min/avg/max/mdev = 2.134/2.134/2.134/0.000 ms

同理在slave1添加master和slave2 ，在slave2 添加master和slave1 .

注意不要添加在localhost后面（导致后面开启的服务只能在localhost访问），导致其他服务错误。

7、安装SSH server、配置SSH无密码登陆

这里的centos7min版默认安装了ssh

[root@slave2 ~]# systemctl status sshd.service
● sshd.service - OpenSSH server daemon
   Loaded: loaded (/usr/lib/systemd/system/sshd.service; enabled; vendor preset: enabled)
   Active: active (running) since 日 2021-06-20 23:26:36 CST; 20min ago
     Docs: man:sshd(8)
           man:sshd_config(5)
 Main PID: 899 (sshd)
   CGroup: /system.slice/sshd.service
           └─899 /usr/sbin/sshd -D

配置master通过SSH无密码登陆slave

master 机器上生成秘钥对上进行如下配置生成密钥对：

[root@master ~]# ssh-keygen -t rsa
[root@master ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Created directory '/root/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:w+BO37iDUngU5SLBj8we1gzCo84ieZW+vRJ6lIztbQQ root@master
The key's randomart image is:
+---[RSA 2048]----+
| . ..  ..        |
|  + o...         |
| . =.Bo..        |
|.   Eo=+         |
|o. O *o S        |
|+oo Xo+. +       |
|o. + O..o .      |
|  . * = ..       |
|   . +....       |
+----[SHA256]-----+
# 三次回车默认即可
[root@master ~]# ls -a
.   anaconda-ks.cfg  .bash_logout   .bashrc  jdk-8u291-linux-x64.rpm  .tcshrc
..  .bash_history    .bash_profile  .cshrc   .ssh
#  ssh-copy-id命令可以将你的公共密钥填充到一个远程机器上的authorized_keys文件中
[root@master ~]# ssh-copy-id slave1 
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/root/.ssh/id_rsa.pub"
The authenticity of host 'slave1 (192.168.233.234)' can't be established.
ECDSA key fingerprint is SHA256:TltGk849++Z8CaQ57MuIbagnImZGK1et3VqRh98rBN4.
ECDSA key fingerprint is MD5:cd:01:58:44:6c:09:78:78:58:0d:f5:26:5c:35:d5:fe.
Are you sure you want to continue connecting (yes/no)? yes
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
root@slave1's password: 

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'slave1'"
and check to make sure that only the key(s) you wanted were added.
# 测试免密ssh登录
[root@master ~]# ssh slave1
Last login: Wed Jun 23 18:30:45 2021 from 192.168.233.1
[root@slave1 ~]# exit
登出
Connection to slave1 closed.
[root@master ~]# ssh-copy-id master # 自己免密登录自己 
# 同理添加其他机器，使得互相之间可以免密登录

注意自己免密自己

8、安装hadoop与配置

集群部署规划：

	master	slave1	slave2
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	ResourceManager、NodeManager	NodeManager

NameNode和SecondaryNameNode不安装在同一台服务器(因为占用内存比较多)。
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台服务器。

配置Hadoop的主要5个文件

将hadoop-2.7.5.tar.gz上传到服务器，并解压。

[root@master ~]# cp hadoop-2.7.5.tar.gz /opt/
[root@master opt]# ls
hadoop-2.7.5.tar.gz
[root@master opt]# tar -xvf hadoop-2.7.5
[root@slave1 hadoop-2.7.5]# ls
bin  etc  include  lib  libexec  LICENSE.txt  NOTICE.txt  README.txt  sbin  share

8.1、将hadoop添加到环境变量中

### set hadoop environment
export HOME=/opt/hadoop-2.7.5
export PATH=$HOME/bin:$HOME/sbin:$PATH
### end #######

[root@master hadoop]# source ~/.bashrc 
[root@master hadoop]# hadoop version
Hadoop 2.7.5
Subversion https://[email protected]/repos/asf/hadoop.git -r 18065c2b6806ed4aa6a3187d77cbe21bb3dba075
Compiled by kshvachk on 2017-12-16T01:06Z
Compiled with protoc 2.5.0
From source with checksum 9f118f95f47043332d51891e37f736e9
This command was run using /opt/hadoop-2.7.5/share/hadoop/common/hadoop-common-2.7.5.jar
[root@master hadoop]#

8.2、配置hadoop-env.sh

配置hadoop使用的java环境

[root@master hadoop]# cat hadoop-env.sh
...
# The java implementation to use.
export JAVA_HOME=${JAVA_HOME}  # 使用环境变量JAVA_HOME
...
[root@master hadoop]# echo $JAVA_HOME
/usr/java/jdk1.8.0_291-amd64
## 配置JAVA时候已经指定JAVA_HOME环境变量，因此这里可以使用默认

8.3、配置core-site.xml

[root@master hadoop]# cp core-site.xml core-site.xml.bak
[root@master hadoop]# vi core-site.xml
.....
<configuration>
<!-- 指定hdfs的nameservice为master -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:8020</value>
              ###  hdfs://master:9000 这个这里报错，可能因为master包含下划线###
        </property>
<!-- 指定hadoop临时目录 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop-2.7.5/tmp</value>
        </property>
</configuration>
.....

8.4、配置hdfs-site.xml

[root@master hadoop]# cp hdfs-site.xml hdfs-site.xml.bak
[root@master hadoop]# vi hdfs-site.xml
....
<property>
    <name>dfs.namenode.http-address</name>
    <value>master:9870</value>
    <description>NameNode对外暴露的web端口</description>
</property>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>slave2:9868</value>
    <description>Secondary NameNode对外暴露的web端口</description>
</property>

<property>
    <name>dfs.replication</name>
    <value>2</value>
    <description>设置副本数</description>
</property>
...

8.5、配置mapred-site.xml

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml
[root@master hadoop]# vi mapred-site.xml
....
<configuration>
<!-- 指定mapreduce框架为yarn方式 -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>
....

8.6、配置yarn-site.xml

[root@master hadoop]# cp yarn-site.xml yarn-site.xml.bak
[root@master hadoop]# vi yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        <description>NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序</description>
</property>

<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>slave1</value>
    <description>resourcemanager</description>
</property>

<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandle</value>
     <description>NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序</description>
</property>

<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
   <description>由于我的测试机内存少，所以就关闭虚拟内存检测s</description>
</property>

<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>slave1:8025</value>
    <description>The hostname of the RM.</description>
</property>
<property>
	<name>yarn.resourcemanager.scheduler.address</name>
    <value>slave1:8030</value>
    <description>The hostname of the RM.</description>
</property>
<property>
    <name>yarn.resourcemanager.address</name>
    <value>slave1:8050</value>
    <description>The hostname of the RM.</description>
</property>

</configuration>

8.7、配置workers 文件

[root@master hadoop]# cp slaves  slaves.bak
[root@master hadoop]# vi slaves 
[root@master hadoop]# cat slaves 
## 将localhost删除，添加slave
master
slave1
slave2

将master机器的opt目录下的hadoop-2.7.5拷贝到slave1,slave2主机的opt目录下，同时将.barshrc文件拷贝过去，并使用source激活一下。

9、启动集群

9.1、格式化NameNode

如果集群是第一次启动，需要格式化NameNode（ 注意： 格式化NameNode会产生新的集群id，导致NameNode和DataNode集群的id不一致，集群找不到以往的数据。如果集群在运行中报错，需要重新格式化NameNode的话，一定要先停止NameNode和DataNode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[root@master hadoop]# hdfs namenode -format

9.2、启动HDFS

启动HDFS

[root@master sbin]# ./start-dfs.sh 
Starting namenodes on [master]
master: starting namenode, logging to /opt/hadoop-2.7.5/logs/hadoop-root-namenode-master.out
slave1: starting datanode, logging to /opt/hadoop-2.7.5/logs/hadoop-root-datanode-slave1.out
slave2: starting datanode, logging to /opt/hadoop-2.7.5/logs/hadoop-root-datanode-slave2.out
master: starting datanode, logging to /opt/hadoop-2.7.5/logs/hadoop-root-datanode-master.out
Starting secondary namenodes [slave2]
slave2: starting secondarynamenode, logging to /opt/hadoop-2.7.5/logs/hadoop-root-secondarynamenode-slave2.out
[root@master sbin]# jps
17074 Jps
16856 DataNode
16732 NameNode
[root@master sbin]#

查看两个slave:

### slave1
[root@slave1 logs]# jps
15920 Jps
15719 DataNode
### slave2
[root@slave2 logs]# jps
15286 SecondaryNameNode
15192 DataNode
15452 Jps

如果发现对应的服务没起来，需要查看logs目录下的日志，查看java抛出的异常进行解决（解决后最好把 logs，tmp 目录删掉，再重写新初始化）

访问master:9870 （192.168.233.235:9870)，查看web管理页面，如下：

9.3、启动YARN

在slave2启动ResourceManager

[root@slave2 sbin]# start-yarn.sh 
starting yarn daemons
starting resourcemanager, logging to /opt/hadoop-2.7.5/logs/yarn-root-resourcemanager-slave1.out
slave1: Warning: Permanently added the ECDSA host key for IP address '192.168.233.234' to the list of known hosts.
master: starting nodemanager, logging to /opt/hadoop-2.7.5/logs/yarn-root-nodemanager-master.out
slave2: starting nodemanager, logging to /opt/hadoop-2.7.5/logs/yarn-root-nodemanager-slave2.out
slave1: starting nodemanager, logging to /opt/hadoop-2.7.5/logs/yarn-root-nodemanager-slave1.out
[root@slave1 hadoop]# jps
18594 ResourceManager
18951 Jps
18425 DataNode
18702 NodeManager


##查看master和slave2
#####slave2
[root@slave2 logs]# jps
16481 Jps
15286 SecondaryNameNode
15192 DataNode
16344 NodeManager

#####master
[root@master sbin]# jps
21908 NodeManager
20727 DataNode
22056 Jps
20602 NameNode

可以看到每个服务器都跑起来一个NodeManager， slave1开启一个ResourceManager。

访问slave1:8088(默认端口)（http://192.168.233.234:8088/）

yarn.resourcemanager.webapp.address

参数解释：ResourceManager对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息。

默认值：${yarn.resourcemanager.hostname}:8088

可以修改这个属性自定义端口

访问web ui 地址可以查看YARN资源调度页面：

10、上传文件到集群

10.1、上传小文件

# 创建目录
[root@master ~]# hadoop fs -mkdir /wc_input

# 上传小文件
[root@master ~]# hadoop fs -put ~/wc_input/wordcount.txt /wc_input

查看DataNode中数据的存储：

[root@master ~]# cd /opt/hadoop-2.7.5/tmp/dfs/data/
[root@master data]# ls
current  in_use.lock
[root@master data]# cd current/
[root@master current]# ls
BP-1679516797-192.168.233.233-1624450918458  VERSION
[root@master current]# cd BP-1679516797-192.168.233.233-1624450918458/
[root@master BP-1679516797-192.168.233.233-1624450918458]# ls
current  scanner.cursor  tmp
[root@master BP-1679516797-192.168.233.233-1624450918458]# cd current/
dfsUsed    finalized/ rbw/       VERSION    
[root@master BP-1679516797-192.168.233.233-1624450918458]# cd current/finalized/subdir0/subdir0/
[root@master subdir0]# ls
blk_1073741825  blk_1073741825_1001.meta
[root@master subdir0]# cat blk_1073741825
lixibin
lixibin
luanqi
luanqi
lihaiting
lihaiting
wanghao
[root@master subdir0]#

slave1中

[root@slave1 subdir0]# pwd
/opt/hadoop-2.7.5/tmp/dfs/data/current/BP-1679516797-192.168.233.233-1624450918458/current/finalized/subdir0/subdir0
[root@slave1 subdir0]# ls
blk_1073741825  blk_1073741825_1001.meta
[root@slave1 subdir0]# cat blk_1073741825
lixibin
lixibin
luanqi
luanqi
lihaiting
lihaiting
wanghao

slave2中

[root@slave2 finalized]# pwd
/opt/hadoop-2.7.5/tmp/dfs/data/current/BP-1679516797-192.168.233.233-1624450918458/current/finalized
[root@slave2 finalized]# ls
[root@slave2 finalized]#

可以看到数据存储了两份。

10.2、上传大文件

上传到根目录下：

[root@master subdir0]# hadoop fs -put ~/hadoop-2.7.5.tar.gz /
[root@master subdir0]#

同理查看在DataNode中的存储：

[root@master subdir0]# ls
blk_1073741825            blk_1073741826            blk_1073741827
blk_1073741825_1001.meta  blk_1073741826_1002.meta  blk_1073741827_1003.meta
[root@master subdir0]# cat blk_1073741826 >> recover.tar.gz
[root@master subdir0]# cat blk_1073741827 >> recover.tar.gz
[root@master subdir0]# ls
blk_1073741825            blk_1073741826            blk_1073741827            recover.tar.gz
blk_1073741825_1001.meta  blk_1073741826_1002.meta  blk_1073741827_1003.meta
[root@master subdir0]# ll
总用量 639372
-rw-r--r-- 1 root root        58 6月  23 21:15 blk_1073741825
-rw-r--r-- 1 root root        11 6月  23 21:15 blk_1073741825_1001.meta
-rw-r--r-- 1 root root 134217728 6月  23 21:30 blk_1073741826
-rw-r--r-- 1 root root   1048583 6月  23 21:30 blk_1073741826_1002.meta
-rw-r--r-- 1 root root  82711846 6月  23 21:30 blk_1073741827
-rw-r--r-- 1 root root    646195 6月  23 21:30 blk_1073741827_1003.meta
-rw-r--r-- 1 root root 216929574 6月  23 21:34 recover.tar.gz
[root@master subdir0]# mv recover.tar.gz ~
[root@master ~]# ll
总用量 749100
-rw-------. 1 root root      1232 6月  20 21:06 anaconda-ks.cfg  
-rw-r--r--  1 root root 216929574 6月  20 23:13 hadoop-2.7.5.tar.gz                ##### 
-rw-r--r--  1 root root 114063112 6月  20 19:15 jdk-8u291-linux-x64.rpm
-rw-r--r--  1 root root 216929574 6月  23 21:34 recover.tar.gz   ####recover.tar.gz 就是hadoop-2.7.5.tar.gz  
drwxr-xr-x  2 root root        27 6月  23 16:02 wc_input
drwxr-xr-x  2 root root        88 6月  23 16:36 wc_output
[root@master ~]# tar -xvf recover.tar.gz
[root@master ~]# ls
anaconda-ks.cfg  hadoop-2.7.5  hadoop-2.7.5.tar.gz  jdk-8u291-linux-x64.rpm  recover.tar.gz  wc_input  wc_output
[root@master ~]# cd hadoop-2.7.5
[root@master hadoop-2.7.5]# ls
bin  etc  include  lib  libexec  LICENSE.txt  NOTICE.txt  README.txt  sbin  share
###可以看到可以正常解压出hadoop-2.7.5

并且如上可以看到存储在哪个节点；

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc