icebergwang

搭建Hadoop-2.6.0集群

一、硬件配置

四台：IBM System x3650 M4(7915I51)

产品类别：机架式

产品结构：2U
CPU型号：Xeon E5-2650

标配CPU数量：1颗
内存类型：ECC DDR3

内存容量：16GB
硬盘接口类型：SATA/SAS

标配硬盘容量：2TB

详细参数：http://detail.zol.com.cn/331/330619/param.shtml

一台作为master、其余三台作为slaves。

在master上的服务：NameMode、SecondaryNameNode、ResourceManager

在slaves上的服务：DataNode、NodeManager

master和slave1在机架1上，slave2和slave3在机架2上。机架感知，见：配置机架感知

二、集群搭建与配置

1. ssh与cluster shell配置

cluster shell用于在多台机器上执行相同的命令，ssh需要配置为master到slaves节点的无密码登录，用于在master上执行start-dfs.sh、start-yarn.sh等命令。

步骤1：在Master上安装cluster shell，以root用户身份

1) 安装步骤略

2) 配置/etc/clustershell/groups如下：

master: master
slaves: slave[1-3]
hadoop: master @slaves

说明：

master包括master节点的主机名

slaves包括slaves节点的主机名

hadoop组包括集群中所有节点的主机名，包括乐master和slaves节点

3) 修改/etc/hosts文件，将主机名与IP对应起来

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.120	master	master.example.com
192.168.1.121	slave1	slave1.example.com
192.168.1.122	slave2	slave2.example.com
192.168.1.123	slave3	slave3.example.com

步骤2：在hadoop组上root用户的ssh无密码登录

1) 产生密钥对

[root@master ~]# ssh-keygen -t rsa

2) 编写expect脚本~/bin/copy_id.exp，用于以交互方式执行ssh-copy-id命令

#!/usr/bin/expect
set node [lindex $argv 0]
spawn ssh-copy-id root@$node
expect {
    "Are you sure you want to continue connecting (yes/no)?" { send "yes\n"; exp_continue }
    "*password:" { send "redhat\n" }
}

expect eof
exit

2) 编写shell脚本cluster_copy_id.sh，用于对每个节点执行copy_id.exp

#!/bin/bash
cat /root/bin/hadoop.txt | while read node
do
    echo 'starting copy id to '${node}
    expect copy_id.exp $node
    echo 'finishing copy id to '${node}
done

其中，hadoop.txt包含所有主机名

master
slave1
slave2
slave3

3) 执行shell脚本

[root@master ~]# chmod a+x bin/cluster_copy_id.sh

[root@master ~]# bin/cluster_copy_id.sh

步骤2之后，root用户就能在集群中使用clush命令执行相同命令了！注意-g选项指定的是在哪些组上执行命令，配置已经在/etc/clustershell/groups中，上面已经有所说明。

步骤3：在“hadoop组”上创建hadoop用户

1) [root@master ~]# clush -g hadoop useradd hadoop

2) 编写shell脚本：bin/cluster_passwd_id.sh，用于修改hadoop用户的密码（是因为不能通过clush不支持交互的方式修改密码，所以通过编写脚本，在每个节点上循环执行修改密码操作）

#!/bin/bash
cat /root/bin/hadoop.txt | while read node
do
	echo 'starting change passwd to '${node}
	expect passwd.exp $node
	echo 'finishing change passwd to '${node}
done

3) 编写expect脚本：bin/passwd.exp，交互方式修改密码

#!/usr/bin/expect
set node [lindex $argv 0]
spawn ssh root@$node passwd hadoop
expect "新的 密码："
send "hadoop\n"
expect "重新输入新的 密码："
send "hadoop\n"
expect eof
exit

4) 执行shell脚本，更改hadoop用户的密码

[root@master ~]# chmow a+x bin/cluster_passwd_id.sh

[root@master ~]# bin/cluster_passwd_id.sh

5) 配置hadoop用户的sudo，然后执行需要root权限的命令时，就不需要在切换用户了，而是使用sudo COMMAND的方式。

修改/etc/sudoers，添加：

hadoop	ALL=(ALL)	ALL

步骤3之后，所有节点上都有了一个hadoop用户，并且设置乐相同的密码，而且有sudo权限。

步骤4：在hadoop组上hadoop用户的ssh无密码登录

切换到hadoop用户后，参考步骤2的方式，只是用户名和密码不同而已，这里就不重复说乐。

2. 安装Hadoop

步骤1：挂载NFS共享目录（192.168.1.113不在集群中，提供NFS服务），用于下载需要的软件包等

[hadoop@master ~] sudo clush -g hadoop mkdir /mnt/hadoop-nfs

[root@master ~] sudo clush -g hadoop mount -t nfs 192.168.1.113:/home/wangsch/download /mnt/hadoop-nfs/

步骤2：安装Java

1) 在hadoop组安装

[hadoop@master ~] sudo clush -g hadoop tar -xzf /mnt/hadoop-nfs/jdk-7u75-linux-i586.tar.gz -C /opt/

[hadoop@master ~] sudo clush -g hadoop chown -R hadoop:hadoop /opt/jdk1.7.0_75/

[hadoop@master ~] sudo clush -g slaves yum remove -y java-1.6.0-openjdk*

步骤3：安装配置hadoop

1) 解压

[hadoop@master ~] sudo tar -xvzf /mnt/hadoop-nfs/hadoop-2.6.0.tar.gz -C /opt

[hadoop@master ~] chown -R hadoop:hadoop /opt/hadoop-2.6.0

2) 拷贝hosts文件到slaves组

[hadoop@master ~] sudo clush -g slaves --copy /etc/hosts

3) 配置slaves文件，编辑/opt/hadoop-2.6.0/etc/hadoop/slaves

slave1
slave2
slave3

4) 配置hadoop（$HADOOP_HOME/etc/hadoop/hadoop-env.sh）

# 指定JAVA_HOME
export JAVA_HOME=/opt/jdk1.7.0_75

# 修改GC选项
export HADOOP_OPTS="$HADOOP_OPTS -XX:+UseParallelOldGC"

# 修改NameNode和SecondaryNameNode堆内存
export HADOOP_NAMENODE_OPTS="-Xmx2000M $HADOOP_NAMENODE_OPTS"
export HADOOP_SECONDARYNAMENODE_OPTS="-Xmx2000M $HADOOP_SECONDARYNAMENODE_OPTS"

# 修改DataNode堆内存
export HADOOP_DATANODE_OPTS="-Xmx3000M $HADOOP_DATANODE_OPTS"

# 修改pid目录
export HADOOP_PID_DIR=/data/hadoop-pids
export HADOOP_SECURE_DN_PID_DIR=/data/hadoop-pids

5) 配置Yarn（$HADOOP_HOME/etc/hadoop/yarn-env.sh）

# 修改ResourceManager堆内存

export YARN_RESOURCEMANAGER_OPTS=-Xmx2000M

# 修改NodeManager堆内存
export YARN_NODEMANAGER_OPTS=-Xmx3000M

# 修改GC选项
YARN_OPTS="$YARN_OPTS -XX:+UseParallelOldGC"

YARN_PID_DIR=/data/hadoop-pids

6) 配置site

common：/opt/hadoop2.6.0/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/tmp</value>
    </property>
    <property>
        <name>topology.script.file.name</name>
        <value>/opt/hadoop-2.6.0/rack-aware/rack_aware.py</value>
    </property>
</configuration>

创建/opt/hadoop-2.6.0/etc/hadoop/masters文件

master

hdfs：/opt/hadoop2.6.0/etc/hadoop/hdfs-site.xml

<property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/data/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/data/dfs/data</value> </property> <property> <name>dfs.namenode.checkpoint.dir</name> <value>/data/dfs/namesecondary</value> </property> <property> <name>dfs.blocksize</name> <value>134217728</value> </property>  <property> <name>dfs.http.address</name> <value>master:50070</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:50090</value> </property>

mapreduce：/opt/hadoop-2.6.0/etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
	<value>yarn</value>
     </property>
</configuration>

yarn：/opt/hadoop-2.6.0/etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
	<value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

7) 配置机架感知

编辑：/opt/hadoop-2.6.0/etc/hadoop/core-site.xml

<property>
    <name>topology.script.file.name</name>
    <value>/opt/hadoop-2.6.0/rack-aware/rack_aware.py</value>
</property>

编写IP与机架ID的映射

[hadoop@master ~] mkdir /opt/hadoop2.6.0/rack-aware

在rack-aware目录下创建rack_aware.py

#!/usr/bin/python
# -*- coding:utf-8 -*-
import sys  

rack = {"slave1":"rack1",
        "slave2":"rack2",
        "slave3":"rack2",
        "192.168.1.121":"rack1",
        "192.168.1.122":"rack2",
        "192.168.1.123":"rack2"
        }


if __name__=="__main__":
    print "/" + rack.get(sys.argv[1],"rack0")

[hadoop@master ~] chown hadoop:hadoop /opt/hadoop-2.6.0/rack-aware/rack_aware.py

[hadoop@master ~] chmod a+x /opt/hadoop-2.6.0/rack-aware/rack_aware.py

8) 统一修改环境变量

编辑~/.bash_profile

export JAVA_HOME=/opt/jdk1.7.0_75
export HADOOP_HOME=/opt/hadoop-2.6.0
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

分发文件

[hadoop@master ~] sudo clush -g slaves --copy ~/.bash_profile

9) 将hadoop安装到其他节点

[hadoop@master ~] sudo clush -g slaves --copy /opt/hadoop-2.6.0

[hadoop@master ~] sudo clush -g slaves chown -R hadoop:hadoop /opt/hadoop-2.6.0

步骤4：启动Hadoop

1) 格式化NameNode

[hadoop@master ~] cd /opt/hadoop-2.6.0

[hadoop@master hadoop-2.6.0]$ bin/hdfs namenode -format

2) 启动HDFS

[hadoop@master hadoop-2.6.0]$ sbin/start-dfs.sh

3) 启动Yarn

[hadoop@master hadoop-2.6.0]$ sbin/start-yarn.sh

4) 关闭防火墙（解决webUI界面无法查看）

[hadoop@master hadoop-2.6.0]$ sudo clush -g hadoop service iptables stop

[hadoop@master hadoop-2.6.0]$ sudo clush -g hadoop chkconfig iptables off

4) 查看启动状况

[hadoop@master hadoop-2.6.0]$ clush -g hadoop /opt/jdk1.7.0_75/bin/jps | sort
master: 14362 NameNode
master: 14539 SecondaryNameNode
master: 15285 ResourceManager
master: 15585 Jps
slave1: 5469 DataNode
slave1: 5801 NodeManager
slave1: 5932 Jps
slave2: 5005 DataNode
slave2: 5296 NodeManager
slave2: 5427 Jps
slave3: 4889 DataNode
slave3: 5196 NodeManager
slave3: 5327 Jps

5) 查看HDFS

[hadoop@master hadoop-2.6.0]$ hdfs dfsadmin -report
15/03/18 17:21:16 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Configured Capacity: 61443870720 (57.22 GB)
Present Capacity: 52050423808 (48.48 GB)
DFS Remaining: 52050350080 (48.48 GB)
DFS Used: 73728 (72 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0

-------------------------------------------------
Live datanodes (3):

Name: 192.168.1.123:50010 (slave3)
Hostname: slave3
Rack: /rack2
Decommission Status : Normal
Configured Capacity: 20481290240 (19.07 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 3131166720 (2.92 GB)
DFS Remaining: 17350098944 (16.16 GB)
DFS Used%: 0.00%
DFS Remaining%: 84.71%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Wed Mar 18 17:21:15 CST 2015

Name: 192.168.1.122:50010 (slave2)
Hostname: slave2
Rack: /rack2
Decommission Status : Normal
Configured Capacity: 20481290240 (19.07 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 3131105280 (2.92 GB)
DFS Remaining: 17350160384 (16.16 GB)
DFS Used%: 0.00%
DFS Remaining%: 84.71%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Wed Mar 18 17:21:17 CST 2015

Name: 192.168.1.121:50010 (slave1)
Hostname: slave1
Rack: /rack1
Decommission Status : Normal
Configured Capacity: 20481290240 (19.07 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 3131174912 (2.92 GB)
DFS Remaining: 17350090752 (16.16 GB)
DFS Used%: 0.00%
DFS Remaining%: 84.71%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Wed Mar 18 17:21:17 CST 2015

-----------------------------------------------------------------------------------------------------------------------------------------------

三、问题记录

1. 格式化时出现：KnownHostException: master.example.com

使用hostname查看，显示master.example.com，master是短名称，同时要配置全名称，所以更新/etc/hosts文件

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.120	master	master.example.com
192.168.1.121	slave1	slave1.example.com
192.168.1.122	slave2	slave2.example.com
192.168.1.123	slave3	slave3.example.com

[hadoop@master hadoop-2.6.0] sudo clush -g slaves --copy /etc/hosts

2. 格式化时出现：org.apache.hadoop.hdfs.server.common.InconsistentFSStateException: Directory is in an inconsistent state: storage directory does not exist or is not accessible.

[hadoop@master hadoop-2.6.0] sudo clush -g hadoop mkdir -p /data/dfs/namesecondary

[hadoop@master hadoop-2.6.0] sudo clush -g hadoop mkdir -p /data/dfs/name

[hadoop@master hadoop-2.6.0] sudo clush -g hadoop mkdir -p /data/dfs/data

[hadoop@master hadoop-2.6.0] sudo clush -g hadoop mkdir -p /data/tmp

[hadoop@master hadoop-2.6.0] sudo clush -g hadoop chown -R hadoop:hadoop /data

3. [root@master hadoop-2.6.0]# sbin/start-dfs.sh
15/03/17 15:58:54 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting namenodes on [Java HotSpot(TM) Client VM warning: You have loaded library /opt/hadoop-2.6.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
master]
-c: Unknown cipher type 'cd'
or: ssh: Could not resolve hostname or: Name or service not known
fix: ssh: Could not resolve hostname fix: Name or service not known
have: ssh: Could not resolve hostname have: Name or service not known
with: ssh: Could not resolve hostname with: Name or service not known
with: ssh: Could not resolve hostname with: Name or service not known
VM: ssh: Could not resolve hostname VM: Name or service not known
to: ssh: Could not resolve hostname to: Name or service not known
sed：-e 表达式 #1，字符 6：“s”的未知选项
that: ssh: Could not resolve hostname that: Name or service not known
will: ssh: Could not resolve hostname will: Name or service not known
stack: ssh: Could not resolve hostname stack: Name or service not known
recommended: ssh: Could not resolve hostname recommended: Name or service not known
Java: ssh: Could not resolve hostname Java: Name or service not known
library: ssh: Could not resolve hostname library: Name or service not known
disabled: ssh: Could not resolve hostname disabled: Name or service not known
link: ssh: Could not resolve hostname link: Name or service not known
you: ssh: Could not resolve hostname you: Name or service not known
You: ssh: Could not resolve hostname You: Name or service not known
Client: ssh: Could not resolve hostname Client: Name or service not known
stack: ssh: Could not resolve hostname stack: Name or service not known
guard.: ssh: Could not resolve hostname guard.: Name or service not known
the: ssh: Could not resolve hostname the: Name or service not known

在~/.bash_profile中添加
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

4. SecondaryNameNode启动时要求ssh验证，解决：

1) 创建/opt/hadoop-2.6.0/etc/hadoop/masters文件

master

2) 编辑：hdfs-site.xml

<property>
        <name>dfs.http.address</name>
        <value>master:50070</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:50090</value>
    </property>

kafka内部工作机制一只叫狗的猫 #kafka
集群中成员关系kafka使用zookeeper来维护成员信息。没个broker都有唯一的id，这个标识可以在配置文件中配置，在broker启动的时候，它会创建临时的节点把id注册到zookeeper中，当有其他broker加入集群中时，会判断是否已经有这个id，如果有相同的id则会注册失败。当broker宕机的时候，broker创建的临时节点会从zookeeper中移除，其它的kafka组件也都会
python做并行计算_python做并行计算可以吗角动量不守恒 python做并行计算
python可以做并行计算，下面是相关介绍：一、概览ParallelPython是一个python模块，提供在SMP(具有多个处理器或多核的系统)和集群(通过网络连接的计算机)上并行执行python代码的机制。它轻巧，易于安装和与其他python软件集成。ParallelPython是一个用纯Python编写的开源和跨平台模块。二、特性在SMP和集群上并行执行python代码易于理解和实现基于Jo
python并行计算 weixin_30894389
0.基础并行/发：multiprocessing/threading1.concurrent2.并发：asynico3.Ipython下的并行计算：使用ipyparallel库的IPython提供了前所未有的能力，将科学Python的探索能力与几乎即时访问多个计算核心相结合。系统可以直观地与本地或网络的计算节点集群进行交互，而不管集群的实现方式如何。这种易于交互使用帮助IPython和Python
Zookeeper（26）Zookeeper的ZAB协议是什么？辞暮尔尔-烟火年年微服务 zookeeper 分布式云原生
Zookeeper的ZAB协议（ZookeeperAtomicBroadcast）是Zookeeper保证数据一致性和高可用性的核心协议。ZAB协议主要用于在分布式系统中提供原子广播和一致性保证。它的设计目标是确保在任何时候，集群中的所有节点都能看到相同的事务更新顺序，从而保证数据的一致性。ZAB协议详细介绍ZAB协议由两个主要部分组成：Leader选举：当Zookeeper集群启动时，或当前Le
【Kafka：概念、架构与应用】三日看尽长安花系统架构师 kafka 架构分布式
Kafka：概念、架构与应用目录什么是KafkaKafka的核心概念2.1生产者（Producer）2.2消费者（Consumer）2.3主题（Topic）2.4分区（Partition）2.5消息偏移量（Offset）2.6消费组（ConsumerGroup）Kafka的架构设计3.1Broker与集群3.2Zookeeper的作用Kafka的工作流程Kafka的应用场景Kafka的优缺点分析<
AI-知识库搭建（一）腾讯云向量数据库使用 CJ点人工智能 GPT 向量数据库知识库
一、AI知识库将已知的问答知识，问题和答案转变成向量存储在向量数据库，在查找答案时，输入问题，将问题向量化，匹配向量库的问题，将向量相似度最高的问题筛选出来，将答案提交。二、腾讯云向量数据库向量数据库_大模型知识库_向量数据存储_向量数据检索-腾讯云腾讯云向量数据库（TencentCloudVectorDB）是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
打包springcloud微服务时，终端执行java -jar报错，没有主清单属性 ZL_do_it jar java maven
打包springcloud微服务时，终端执行java-jar报错，没有主清单属性使用SpringBoot微服务搭建框架，在eclipse和Idea下能正常运行，但是在打成jar包部署或者直接使用java-jar命令的时候，提示了xxxxxx.jar中没有主清单属性：C:\Users\zl\.m2\repository\com\kkb\eureka-server\1.0-SNAPSHOT>java-
【微服务33】分布式事务Seata源码解析一：在IDEA中启动Seata Server 秃秃爱健身 #分布式事务Seata入门到精通微服务分布式 intellij-idea
文章目录一、前言二、IDEA中运行SeataServer1、把源码从Github中荡下来坑：一定要从mavenmodules中移除序列化的包SeataServer使用到的DB2、调整seata-server的配置seata-server3、运行seata-server三、总结和后续一、前言至此，博主介绍了一些Seata环境搭建的常见坑、Seata的两种案例（SpringCloud集成Seata、S
【SpringBoot 框架】- SpringBoot 配置文件 2401_84408404 程序员 spring boot java spring
【SpringBoot框架】-入门——环境搭建、工程热部署、idea快捷创建SpringBoot项目【SpringBoot框架】-SpringBoot原理分析【SpringBoot框架】-SpringBoot配置文件【SpringBoot框架】-SpringBoot整合Mybatis、Junit、Redis目录一、SpringBoot配置文件类型1.application.properties配置
Kafka：架构与核心机制 J老熊 kafka 架构分布式面试系统架构后端
ApacheKafka是一种高吞吐量的分布式消息队列，广泛应用于实时数据流处理和大数据架构中。本文将详细探讨Kafka的架构、Replica管理、消息读取、分区策略、可靠性保障等核心机制。1.Kafka的架构1.1组件概述Kafka的架构由多个组件构成，主要包括以下部分：Broker：Kafka集群中的服务器，每个Broker存储一部分消息。Kafka集群通常由多个Broker组成，以提高可用性和
Windows10环境下使用docker部署Dify 南南的sky 容器运维 AIGC
前言最近带教导师让使用dify做一些工程项目，我在此之前没用过dify，也不知道怎么部署，便花了些时间研究了一下，这篇博客的主要目的是记录如何在windows10系统上使用docker部署dify，碰到了哪些问题以及解决方案。什么是DifyDify是一款开源的大语言模型(LLM)应用开发平台。它融合了后端即服务（BackendasService）和LLMOps的理念，使开发者可以快速搭建生产级的生
服务行业的数据管理实践：TapData Cloud 如何助力连锁酒店物业的全球化运营优化数据库
使用TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量替代OGG,Kettle等同步工具，以及基于Kafka的ETL解决方案，「CDC+流处理+数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。TapData持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对
国际网络专线怎么开通？蓝讯小刘网络
在全球化日益加速的今天，企业越来越需要稳定、高效的网络来支撑他们的跨国业务。国际网络专线，作为外贸企业、出海企业等拓展全球业务的关键基础设施，其重要性不言而喻。那么，企业如何才能开通国际网络专线呢？本文将详细解析开通流程，帮助您的企业顺利搭建起通往国际市场的桥梁。一、选择服务商开通国际网络专线的第一步，是选择一个可靠的服务商。服务商不仅提供物理的网络连接，更应具备专业知识和技术支持，确保您的企业网
如何修改Chromium内核|浏览器指纹伪装|Puppeteer指纹|Playwright指纹- Chromium内核修改与浏览器指纹伪装方法-anti-fingerprint指纹浏览器如何搭建环境药尘韩立前端 javascript 开发语言 python 自动化 ai
Chromium内核是许多现代浏览器的基础，如Chrome和Edge。在进行网络爬取、自动化测试或数据挖掘等任务时，使用Puppeteer或Playwright等工具时，浏览器指纹的重要性不言而喻。本文将介绍如何修改Chromium内核以及浏览器指纹伪装的方法，以构建一个抗指纹的浏览环境。首先，了解如何修改Chromium内核是至关重要的。您可以从Chromium源代码仓库中获取最新的代码，并根据
使用Dify搭建企业知识库聊天机器人大模型产品经理机器人人工智能语言模型算法自然语言处理面试
本文简介在当今数字化时代，企业知识库的建设和维护对于提升工作效率和服务质量至关重要。AI聊天机器人作为知识库的交互界面，可以提供24/7的即时服务。本文将介绍如何使用Dify这一工具快速搭建企业知识库聊天机器人，它可以当你企业的职能客服，也可以做你企业内部培训的老师。相比起传统的“智能客服”，加入大语言模型后的AI客服能更清楚用户想问什么问题，在匹配你提供的知识库的内容进行回答，这样看上去会更懂用
DigitalOcean Kubernetes现已支持VPC natvie集群 DO_Community kubernetes
DigitalOceanKubernetes(DOKS)的VPCnatvie集群功能现已正式上线！这一新功能实现了DOKS集群与虚拟私有云（VPC）资源之间的无缝集成，提升了工作负载的网络灵活性和可扩展性。什么是VPCnatvie集群？VPCnatvie集群支持Kubernetes集群与VPC资源之间进行原生路由。这意味着你的DOKS集群可以作为现有VPC网络架构的自然扩展，提供更流畅的连接和更好
利用Kubespray安装生产环境的k8s集群-排错篇超级阿飞 k8s cluster kubernetes docker 容器
利用Kubespray安装生产环境的k8s集群-排错Ansible排错Ansible安装后需要加入到PATH，以便能够直接运行。一般用非root用户运行，注意在playbook或者inventory里要显性定义become属性。最好采用ansible运行账号可以免密码sudo的模式。Ansible的配置文件，在kuberspray安装时已经存在，需要将Ansible运行配置文件指向相应位置。配置文
不同hive集群中基于表的数据一致性比对 AA赵师傅 hadoop数据管理 hive 数据验证数据迁移 hadoop
前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoopdistcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是数据的导入导出了，把原集群
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
9个正规可靠的兼职副业平台，在家也能有收入 AI学习不迷路数据库前端 javascript 网络安全学习 web安全兼职
随着互联网的普及和远程工作的兴起，找到一份既能赚钱又能在家中舒适的环境下进行的兼职工作变得越来越容易。以下是9个正规可靠的兼职副业平台，它们提供了多种灵活的工作机会，让你在家也能有稳定的收入。云队友这是一个提供远程工作机会的平台，包括编程、设计、市场营销等多种职位。云队友致力于为自由职业者和雇主搭建一个高效的对接平台。猪八戒网猪八戒网是中国领先的服务外包平台，提供设计、写作、翻译、软件开发等多种服
Hive之数据迁移方案(实测) 南风知我意丿 Hive hive hadoop hdfs
文章目录Hive的迁移涉及两个技术点：1.仅迁移元数据2.元数据及Hive数据全量迁移2.1全表迁移2.1.1旧集群2.1.2新集群2.2仅部分分区迁移（主要步骤）2.1.1旧集群2.1.2新集群2.3beeline连接hive并进行数据迁移Hive的迁移涉及两个技术点：1.仅迁移元数据参考：网易元数据管理-hive元数据迁移与合并2.元数据及Hive数据全量迁移主要流程1.将旧集群的hive数据
16 分布式session和无状态的会话 40岁的系统架构师分布式系统架构
在我们传统的应用中session存储在服务端，减少服务端的查询压力。如果以集群的方式部署，用户登录的session存储在该次登录的服务器节点上，如果下次访问服务端的请求落到其他节点上就需要重新生成session，这样用户需要频繁的登录。nginx使用iphash的方式代理服务当nginx使用该方式代理请求转发时，相同ip的用户请求会落到相同的机器上，这样就可以避免了频繁的登录。该方式部署简单，在n
Maven的继承与聚合特性：大型项目管理的利器时雨h JAVA maven python java
Maven的继承与聚合特性：大型项目管理的利器一、引言在Java项目开发中，尤其是大型项目，管理项目的配置和模块构建是一项具有挑战性的任务。Maven作为一款强大的项目管理工具，提供了继承和聚合等特性，有效地解决了这些问题。本文将深入探讨Maven的继承和聚合特性，并通过实战案例展示如何在搭建微服务项目中应用它们。二、Maven工程继承关系2.1继承概念Maven继承是一种在Maven项目中让一个
【python GUI编码入门-04】使用Tkinter实现拖放操作：打造交互式GUI的秘诀木头左 python办公自动化 python
哈喽，大家好，我是木头左！理解拖放操作的基础在开始编码之前，需要了解拖放操作的基本概念。简单来说，拖放是一种用户通过鼠标移动对象（如文件、图标或窗口中的组件）并将其放置在新位置的操作。在Tkinter中，这涉及到几个关键步骤：捕获拖动事件、更新对象位置以及处理放置事件。环境搭建与基础组件确保你的Python环境中安装了Tkinter。大多数Python发行版默认包含Tkinter，但如果没有，你可
openresty+lua+kafka 日志采集 CHENYANG123 大数据 lua kafka nginx
背景：大流量服务收集用户行为日志需求:根据业务把不同的日志发送到不同主题中数据实时性高性能保证方案一自己写个接收程序转发到kafka方案二采用nginx+lua方案采用方案二，原因是nginx高性能，编写代码少，维护少，满足业务场景实施步骤线上请求到nginx后，使用lua组装json格式日志，异步发送到kafka集群根据不同业务日志,划分不同的topic推荐业务实施实时消费安装步骤安装openr
Ubuntu搭建openVpn服务端 XJzz3 ubuntu
文章目录Ubuntu搭建openVpn服务端，多客户端‘1.安装openlibssl-devopenssl2安装easy-rsa3设置open环境变量4制作相关证书4.1加载变量并初始化pki4.2生成ca证书4.3生成dh证书4.4生成服务端证书4.5生成客户端证书4.6生成ta.key4.7设置服务端配置文件5.后台启动open服务6.服务端连接windows连接6.1客户端配置文件导入6.2
如何在服务器中实现双因子认证？网硕互联的小客服服务器运维
在服务器中实现双因子认证（Two-FactorAuthentication,2FA）通常涉及多个步骤和配置，具体实现方法可能因服务器类型、操作系统以及所使用的认证服务而有所不同。以下是一个一般性的指南，帮助你了解如何在服务器中实现双因子认证：‌选择双因子认证服务‌：你可以选择使用现成的双因子认证服务，如GoogleAuthenticator、Authy、Duo等。或者，你也可以选择自己搭建基于开源
redis+spring面试题 javaspringredis
redis使用场景缓存热点数据分布式锁存储token存储短信验证码计数器全局唯一数排行榜限流购物车关注粉丝缓存失效缓存穿透缓存空结果布龙过滤器缓存击穿全局锁设置永不过期缓存雪崩设置高可用集群设置不同的过期时间本地二级缓存，限流加降级数据一致性延时双删集群最大部署多少个主节点16384string的存储内存多大512mlist/set/hash/zset最多可以放多少个体元素2^32-1/42亿re
设计和仿真一个用于控制四自由度机械臂四个关节角度的多变量控制系统 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 simulink
目录1.系统架构1.1系统组成2.搭建Simulink模型2.1创建Simulink模型2.2搭建机械臂模型2.3搭建传感器模块2.4搭建控制器模块2.5搭建执行器模块2.6搭建用户界面模块3.性能评估3.1响应时间评估3.2角度精度评估3.3稳定性评估3.4实时性评估4.仿真与测试4.1虚拟场景仿真4.2硬件在环（HIL）测试5.参数优化5.1控制器优化5.2传感器优化5.3执行器优化6.总结设
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

搭建Hadoop-2.6.0集群

你可能感兴趣的:(搭建Hadoop-2.6.0集群)