动心の瓦狗狗

超详细的hadoop完全分布式安装及xsync等各个脚本

1.主机名修改

在完成虚拟机的创建后，进行主机名称修改：

#修改配置文件,将内容改为 master,保存退出
vi /etc/hostname  #将里面localhost删除进行改名

[root@host ~]$ vi /etc/sysconfig/network     编辑,i 键插入
NETWORKING=yes
HOSTNAME=master                     修改为新名

:wq                             ESC 退出插入退出并保存
[root@bogon ~]$ reboot

2.永久关闭防火墙

关闭防火墙，关闭防火墙开机自启：

#关闭防火墙
[root@hadoop100 ~]$ systemctl stop firewalld

#设置关闭防火墙开机自启
[root@hadoop100 ~]$ systemctl disable firewalld.service

3.配置网络并测试

cd /etc/sysconfig/network-scripts/

vi  ifcfg-ens33
#这里说一下需要修改的位置:
#修改
BOOTPROTO=static #这里 dhcp 换成 static
ONBOOT=yes #将 no 换成 yes
#新增
IPADDR=192.168.222.171 #静态 IP
GATEWAY=192.168.222.2 #默认网关
NETMASK=255.255.255.0 #子网掩码DNS1=192.168.222.2#视实际情况而定,最好设置为网关
DNS2=8.8.8.8
保存退出后,重启网络服务，执行下面的命令 :
service network restart
#看到  Restarting network (via systemctl):                        [  OK  ] 为成功
关防火墙执行    systemctl stop firewalld
查看:ping www.baidu.com  看是否 ping 通

4.安装插件

（1）安装 epel-release

注：Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包，适用于 RHEL、CentOS 和 Scientific Linux。相当于是一个软件仓库，大多数 rpm 包在官方 repository 中是找不到的）

[root@hadoop100 ~]$ yum install -y epel-release

（2）net-tool：工具包集合

[root@hadoop100 ~]$ yum install -y net-tools

（3）vim：编辑器

[root@hadoop100 ~]$ yum install -y vim

5.创建文件夹

用于存放win传输来的tar安装包：

mkdir -p /opt/software

将安装包进行解压到此目录：

mkdir -p /opt/module

6.配置 hosts 文件和 IP 地址映射

执行命令：vi /etc/hosts

7.进行虚拟机的克隆

克隆完成后，首先修改网络配置:

vi /etc/sysconfig/network-scripts/ifcfg-ens33

需要修改位置 IPADDR 和 DNS1 两个位置，修改完成后生效:

 service network restart

记得关闭防火墙：

systemctl stop firewalld

最后测试 ping www.baidu.com。

再进行虚拟机名称的修改：vi /etc/hostname

之后 reboot 重启虚拟机。在此完成后即可再 finalshell 或者Xshell里面进行连接。

8.时间同步 NTP

（1）同步主机时间

安装 NTP 包（三个机器都要安装）：

yum install -y ntp

之后在 bigdata2023master 做为 ntp 服务器，只修改此服务器 ntp 配置文件：

vi /etc/ntp.conf

末尾追加：

server 127.0.0.1

fudge 127.0.0.1 stratum 10

重启时间服务：

/bin/systemctl restart ntpd.service

稍等一会在 slave1 和 slave2 上执行: ntpdate bigdata2023master 出现如下图所示即表示成功。

若出现如下图错误：

您收到此错误消息的原因是由于 xntpd 已经绑定到了该 Socket。运行 ntpdate 时，它会首先进行广播，然后侦听端口 123。如果 xntpd 正在运行，而有一个进程已经在侦听该端口了，则会使 ntpdate 无法在上面运行。运行下列命令，即可找出 xntpd 的 PID

按照以下绿色标记顺序快速执行

[root@SZDX-DNS-1 bin]# ps -ef|grep xntpd

root 124185 6192 0 15:49 pts/1 00:00:00 grep xntpd

可惜没有找到 pid。

使用 lsof –i:123

没有 lsof 命令的话：yum install -y lsof

lsof -i:123

COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME

ntpd 124171 ntp 16u IPv4 420557 0t0 UDP *:ntp

ntpd 124171 ntp 17u IPv6 420558 0t0 UDP *:ntp

[root@spark1 bin]# kill -9 12417

[root@spark11 bin]# ntpdate 192.168.100.120

13 Apr 09:08:36 ntpdate[124200]: step time server 192.168.100.120 offset -24096.422190 sec

[root@spark1 bin]# date

清除 (Kill) 该进程，然后尝试再次与 ntp 服务器进行同步。此时您不应该收到此错误消息。

请注意，如果您尝试与之同步的服务器没有运行 xntpd，则会收到下列错误消息:

ntpdate[12573]: no server suitable for synchronization found

出现这种情况的原因是，如果您想使用另一个服务器的时间，该服务器必须已经进行了自身同步。

（2）同步网络时间

如果不同步 master 的话，可以同步到网络时间 ntpdate -u cn.pool.ntp.org

9.SSH 免密登录

1.生成ssh包（所有机器都要执行）：ssh-keygen -t dsa

2.拷贝文件（在除去master机器上的其他机器上）

cd /root/.ssh
ls
在这个目录下执行

scp id_dsa.pub root@bigdata2023master:/root/.ssh/bigdata2023slave1.pub

scp id_dsa.pub root@bigdata2023master:/root/.ssh/bigdata2023slave2.pub

3.合并文件（在master机器上）

cat id_dsa.pub bigdata2023slave1.pub bigdata2023slave2.pub >>authorized_keys

4.从master分发公钥

scp authorized_keys root@bigdata2023slave1:~/.ssh

scp authorized_keys root@bigdata2023slave2:~/.ssh

5.进行测试

在master上 ssh bigdata2023slave1 和 ssh bigdata2023slave2

在每台机器上对其他机器测试 ssh 【机器名】

6.退出登录

可以用exit退出远程登录

10.xsync脚本

（1）rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，

rsync只对差异文件做更新，scp是把所有文件都复制过去。

安装rsync(三台机器都要安装)：

yum install rsync -y

（2）新建文件夹放置脚本

在# /home/leeroot/bin 目录下创建xsync文件(一定要在bin目录下！！）

mkdir  -p /home/leeroot/bin

（3）创建xsync


cd /home/leeroot/bin
在/homeleeroot/bin 目录下创建xsync文件: vi xsync

xsync的核心代码内容如下，在新建的xsync文件下输入：

#!/bin/bash
1.判断参数个数if [ $ -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2.遍历集群所有机器   请改成你自己的主机映射
for host in host1 host2 host3
do
    echo =============== $host ==================
    #3.遍历所有目录，挨个发送
    for file in $@
    do
        #4.判断文件是否存在
        if [ -e $file ]
            then
		    #5.获取父目录
            pdir=(cd−P(dirname $file); pwd)
		    fname=(basenamefile)
		    # 创建文件夹和传输文件。请改成你自己的端口号
		    ssh -p 32200 host"mkdir−ppdir"
		    rsync -av -e 'ssh -p 32200' pdir/fname host:pdir
	    else
		    echo $file does not exists!
	    fi
    done
done

再添加权限：

chmod 777 xsync

并添加全局执行,创建新文件夹，写入所有环境变量的配置

vi /etc/profile

将以下内容添加进环境变量，让创建的xsync脚本能全局执行：

#PATH
export PATH=$PATH:/home/leeroot/bin

环境变量生效：

source /etc/profile

即可完成

（4）测试xsync

在根目录创建a.txt，再进行分发：xsync a.txt

然后再其他服务器的根目录查看是否有a.txt文件。

11.安装JDK

（1）上传jdk安装包

cd /opt/software 在此目录上传jdk安装包;

在 Linux 系统下的 opt 目录中查看软件包是否导入成功在：ls进行查看。

看到如下结果：

jdk-8u321-linux-x64.tar.gz

（2）解压 JDK 到/opt/module 目录下

tar -zxvf jdk-8u321-linux-x64.tar.gz -C /opt/module/

（3）配置 JDK 环境变量

（1）新建/etc/profile.d/my_env.sh 文件:

vim /etc/profile.d/my_env.sh

添加如下内容

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_321
export PATH=$PATH:$JAVA_HOME/bin

（2）生效环境变量：

 source /etc/profile

（4）测试 JDK 是否安装成功

#输入java -version检验
[root@bigdata2023master ~]$ java -version

如果能看到以下结果，则代表 Java 安装成功。

java version "1.8.0_321"

（5）分发安装好的jdk

注意其他机器也需要安装JDK,此时比较简单。

在已经安装jdk的机器上进行分发：

scp -r /opt/module/jdk1.8.0_321/ root@bigdata2023slave1:/opt/module
scp -r /opt/module/jdk1.8.0_321/ root@bigdata2023slave2:/opt/module

分发环境变量：

xsync /etc/profile.d/my_env.sh

最后在其他机器上生效一下环境变量：source /etc/profile

其他机器检测是否安装成功：java -version

12.安装hadoop

（1）解压Hadoop并指定目录

[root@bigdata2023master ~]$ cd /opt/software/
[root@bigdata2023master software]$ tar -zxvf hadoop-3.2.2.tar.gz -C /opt/module/

（2）配置Hadoop环境变量

[root@bigdata2023master ~]$  vim /etc/profile.d/my_env.sh

在末尾添加

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.2.2
export PATH=PATH:HADOOP_HOME/bin
export PATH=PATH:HADOOP_HOME/sbin

在hadoop-3.1.0启动时hadoop集群如果出现如下错误

[root@bigdata2023master sbin]# start-all.sh
Starting namenodes on [hadoop]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [hadoop]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation
在环境变量中添加上如下配置：

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

（3）使修改后的文件生效

[root@bigdata2023master ~]$ source /etc/profile

（4）测试Hadoop是否安装成功

[root@bigdata2023master ~]$ hadoop version

Hadoop 3.2.2
Source code repository
Compiled by ljc1
Compiled with protoc 2.5.0
From source with checksum ec785077c385118ac91aadde5ec9799
This command was run using /opt/module/hadoop-3.2.2/share/hadoop/common/hadoop-common-3.2.2.jar

（5）分发安装好的Hadoop

注意其他机器也需要安装hadoop,此时比较简单。

在已经安装jdk的机器上进行分发：

scp -r /opt/module/hadoop-3.2.2/ root@bigdata2023slave1:/opt/module
scp -r /opt/module/hadoop-3.2.2/ root@bigdata2023slave2:/opt/module

分发环境变量：

xsync /etc/profile.d/my_env.sh

最后在其他机器上生效一下环境变量：source /etc/profile

其他机器检测是否安装成功：hadoop version

13.hadoop完全分布式配置

1.进入hadoop目录

[root@bigdata2023master ~]$ cd /opt/module/hadoop-3.2.2/etc/hadoop/

2.配置主要文件

此时注意，进入此目录后，将要配置的core-site.xml，hdfs-site.xml，mapred-site.xml，yarn-site.xml都进行手动删除，再通过上传文件的形式快速配置好所需的文件，在上传前将需要的配置修改好，然后直接上传即可。

配置core-site.xml

[root@bigdata2023master hadoop]$ vim core-site.xml

在与之间添加内容：


	
    
        fs.defaultFS
        hdfs://bigdata2023master:8020
    

	
    
        hadoop.tmp.dir
        /opt/module/hadoop-3.2.2/data
    

	
    
        hadoop.http.staticuser.user
        root

配置hdfs-site.xml

[root@bigdata2023master hadoop]$ vim hdfs-site.xml


	
	
        dfs.namenode.http-address
        bigdata2023master:9870
    
	
    
        dfs.namenode.secondary.http-address
        bigdata2023slave2:9868

配置yarn-site.xml

[root@bigdata2023master hadoop]$ vim yarn-site.xml




	
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    

	
    
        yarn.resourcemanager.hostname
        bigdata2023slave1
    

	
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
    


    
        yarn.log-aggregation-enable
        true
    

	
      
        yarn.log.server.url  
        http://bigdata2023master:19888/jobhistory/logs
    

	
    
        yarn.log-aggregation.retain-seconds
        1209600

配置mapred-site.xml

[root@bigdata2023master hadoop]$ vim mapred-site.xml


	
    
        mapreduce.framework.name
        yarn
    
	
    
        mapreduce.jobhistory.address
        bigdata2023master:10020
    
	
    
        mapreduce.jobhistory.webapp.address
        bigdata2023master:19888

3.同步所有节点配置文件

xsync /opt/module/hadoop-3.2.2/etc/hadoop

4.查看配置文件分发情况

分别在bigdata2023slave1和bigdata2023slave2上执行：

cat /opt/module/hadoop-3.2.2/etc/hadoop/core-site.xml

配置works

[root@bigdata2023master hadoop]$ vim /opt/module/hadoop-3.2.2/etc/hadoop/workers

清除原有内容，写入所有集群机器名称：

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

bigdata2023master
bigdata2023slave1
bigdata2023slave2

同步所有节点配置文件

[root@bigdata2023master hadoop]$ xsync /opt/module/hadoop-3.2.2/etc/hadoop

14.启动集群并测试

（1）格式化 NameNode

如果集群是第一次启动，需要在(主节点)bigdata2023master 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要在cd /opt/module/hadoop-3.2.2/目录下删除所有机器的 data 和 logs 目录，然后再进行格式化。）

[root@bigdata2023master hadoop-3.2.2]$ hdfs namenode -format

（2）启动 HDFS

[root@bigdata2023master hadoop-3.2.2]$ sbin/start-dfs.sh

（3）在配置了 ResourceManager 的节点（hadoop103）启动 YARN

[root@bigdata2023master hadoop-3.2.2]$ sbin/start-yarn.sh

（4）Web 端查看 HDFS 的 NameNode

（a）浏览器中输入：http://bigdata2023master:9870 或者192.168.222.200:9870

（b）查看 HDFS 上存储的数据信息

（5）Web 端查看 YARN 的 ResourceManager

（a）浏览器中输入：http://bigdata2023slave1:8088 或者192.168.222.201:8088

（b）查看 YARN 上运行的 Job 信息

（6）上传大文件测试

hadoop fs -put /opt/software/jdk-8u321-linux-x64.tar.gz /

在网页上查看结果：

显示如上图即可表示安装成功，如若在测试可以进行mapreduce的数单词测试。

15.常用端口说明

你可能感兴趣的:(分布式,hadoop,大数据)

分布式事务3PC解决了2PC哪些问题？ java干货仓库八股文汇总分布式事务分布式 java 面试
三阶段提交（3PC，Three-PhaseCommit）是对二阶段提交（2PC，Two-PhaseCommit）的改进，旨在解决2PC的一些固有缺陷，特别是在分布式系统中的容错性和性能问题。以下是3PC比2PC更好的原因及其优势的详细分析：1.二阶段提交（2PC）的问题2PC是一种经典的分布式事务协议，分为两个阶段：准备阶段（PreparePhase）：协调者向所有参与者发送准备请求。参与者执行事
思途CMS高并发、高性能、高可用架构设计 php
一、整体架构概述思途CMS采用分层架构设计，整体架构分为客户层、接入层、站点层、数据存储层和缓存层。各层之间通过松耦合的方式协同工作，确保系统在高并发场景下的高性能和高可用性。通过分布式部署、负载均衡、多级缓存等技术手段，思途CMS能够有效应对大规模用户访问，保障系统的稳定性和响应速度。二、各层技术特点及实现方式客户层1.1CDN加速思途CMS支持与主流CDN服务商（如阿里云CDN、腾讯云CDN等
按照时间排序的分布式游标分页像云~ 记录分布式
背景最近有这么一个需求，就是在分页查询的时候，需要返回最近的pagesize条记录，即按照时间倒序的近pagesize条记录。有两个问题：一个就是这些记录来自于不同的存储位置，不能通过一次查询统一排序取数据，而需要分开查询读入，再汇总统一排序另一个就是在进行分页的时候，要保证当前页数据与上一页的连贯性，有点类似刷短视频的瀑布流。即分页查询是统一的，而数据存储是分布式的。方案由于是在高并发的场景下，
深入探索 dubbo-rpc-jsonrpc：跨语言服务调用的高效桥梁郁铎舒
深入探索dubbo-rpc-jsonrpc：跨语言服务调用的高效桥梁dubbo-rpc-jsonrpcApacheDubbo-rpc-jsonrpc是一个用于ApacheDubbo的JSON-RPC协议实现项目。它提供了一个用于ApacheDubbo的JSON-RPC协议实现库和工具。适合用于在应用程序中处理分布式服务。项目地址:https://gitcode.com/gh_mirrors/dub
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
【etcd】茉菇 etcd 数据库
一、ETCD简介etcd是一个由CoreOS团队开发的开源项目，旨在提供一个高可用的、分布式的、一致的键值存储，用于配置共享和服务发现。尽管它看起来像一个键值存储，但etcd的设计目标远远超出了传统数据库的功能范围。etcd的核心特性包括：高可用性和容错性：etcd使用Raft共识算法来确保数据的一致性和服务的高可用性。这意味着即使集群中的某些节点出现故障，etcd也能继续提供服务，并保证数据的一
Apache Storm实时流处理的核心技术 Hello.Reader 大数据 apache storm 大数据
1.引言ApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。1.1什么是ApacheStorm？ApacheStorm是一个流处理引擎，它可以持续处理不断到来的数据流（str
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
使用 DingoDB 创建自查询检索器的实战演示 fgayif python
DingoDB深入解析与实战演示DingoDB是一种分布式多模向量数据库，它结合了数据湖和向量数据库的特点，能够存储任何类型和大小的数据（如Key-Value、PDF、音频、视频等）。它具有实时低延迟处理能力，可以快速获取洞察并响应，还能高效进行即时分析和处理多模数据。在本教程中，我们将演示如何使用DingoDB向量存储来创建一个自查询检索器。技术背景介绍DingoDB的设计结合了数据湖的灵活性和
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
面试官问：什么是分布式定时任务调度？鸡米花不花 java 分布式分布式数据库网络协议 java
任务调度的背景在业务系统中有很多这样的场景：1、账单日或者还款日上午10点，给每个信用卡客户发送账单通知，还款通知。如何判断客户的账单日、还款日，完成通知的发送？2、银行业务系统，夜间要完成跑批的一系列流程，清理数据，下载文件，解析文件，对账清算、切换结算日期等等。如何触发一系列流程的执行？3、金融机构跟人民银行二代支付系统对接，人民银行要求低于5W的金额（小额支付）半个小时打一次包发送，以缓解并
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
HarmonyNext实战：基于ArkTS的跨设备文件同步与冲突解决案例详解 harmonyos-next
HarmonyNext实战：基于ArkTS的跨设备文件同步与冲突解决案例详解在现代多设备协同的场景中，文件同步是一个常见的需求。然而，跨设备文件同步往往会面临冲突问题，例如同一文件在不同设备上被同时修改。HarmonyOSNext提供了强大的分布式文件系统和冲突解决机制，帮助开发者实现高效、可靠的跨设备文件同步。本文将深入探讨如何在HarmonyOSNext中使用ArkTS实现跨设备文件同步与冲突
【Go基础】Go入门与实践资源帖小超人冲鸭 golang 开发语言后端
看到好的持续更新……Go系统教程从语法讲起：李文周博客七天快速上手项目Go测试驱动开发博客孔令飞项目开发实战课程，孔令飞图文教程《Go语言高级编程》书籍Go算法刷题模板Go实战项目KV系统crawlab分布式爬虫平台seaweedfs分布式文件系统Cloudreve云盘系统gfast后台管理系统（基于GoFrame）alist多存储文件列表（基于Gin、React）Yearning开源SQL审核平
HarmonyOS Next 用户认证应用架构教育
随着HarmonyOSNext的不断发展，其用户认证功能在安全性、个性化和分布式场景中的应用展现了强大的扩展性和适应性。本文将从进阶功能、分布式场景应用以及定制与优化案例三个方面，深入探讨HarmonyOSNext用户认证的创新与优势。一、HarmonyOSNext用户认证的进阶功能生物特征认证的高级特性HarmonyOSNext在生物特征认证方面引入了多项先进技术。指纹认证通过活体检测技术，能够
YashanDB资源类型数据库
ashanDB资源管理通过配置物理资源（CPU、内存等）的分配规则，以满足不同用户或程序对资源的需求：CPU资源管理适用于单机部署（非级联备）和分布式部署，且适用于LINUX和ARM平台，不适用于docker容器。内存资源管理适用于单机部署（非级联备）和分布式部署。并行执行资源适用于单机部署（非级联备）和分布式部署。CPU资源管理YashanDB的CPU资源管理用于保证数据库在稳定运行的前提下，保
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Git 的基本概念和使用方式成风693 git
Git是一种分布式版本控制系统，广泛用于协作开发和追踪代码变更历史。以下是Git的基本概念和使用方式：仓库（Repository）：Git仓库是存储代码和版本历史的地方。它可以是本地仓库（LocalRepository）或远程仓库（RemoteRepository）。提交（Commit）：提交是将代码变更保存到版本历史中的操作。每次提交都会生成一个唯一的标识符（SHA-1哈希值）。分支（Branc
ubuntu20.04系统安装zookeeper简单教程楼下创了电瓶车 zookeeper 分布式云原生
Ubuntu系统中安装和配置Zookeeper的完整指南ApacheZookeeper是一个开源的分布式协调服务，广泛用于分布式应用程序中管理配置、提供命名服务、分布式同步以及组服务等。在本教程中，我们将详细介绍如何在Ubuntu系统中安装Zookeeper，并进行相关配置，使其能够正常运行。环境准备在开始之前，请确保你的Ubuntu系统版本为18.04或更高版本。此外，Zookeeper依赖于J
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
彻底解决分布式环境下Redisson消息队列监听重复执行问题 renkai721 JAVA 分布式 redisson redis数据重复微服务 springboot
问题现象：测试环境单台部署，没有问题，生产环境多台部署订单都是2条重复数据。问题描述：我们把每个服务都部署了2台，订单产生后，有redisson的mq发布，如果MQListener监听到就会执行后面的业务逻辑。现实的问题是2台MQListener都会监听到，会重复处理我们的逻辑，插入数据库或修改数据库或写入ES等都会执行2遍。本文的DEMO中使用的是redisson的mq来测试的，同时Rabbit
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
三分钟让你搞懂云计算中的CDN是什么？云上的阿七云计算
随着互联网的快速发展，网站的访问速度和稳定性越来越受到重视。而在众多提升网站性能的技术中，CDN（内容分发网络）无疑是一个非常重要的工具。今天，我们就来聊聊云计算中的CDN是什么，以及它是如何为网站带来显著好处的。CDN是什么？CDN，全称ContentDeliveryNetwork，翻译过来就是“内容分发网络”。它是一种分布式的网络架构，通过将网站的静态资源（如图片、视频、JavaScript文
5G时代新基建：边缘节点如何将云计算响应速度提升300%“ 云上的阿七 5G 云计算
随着5G技术的普及，云计算正在迈向一个全新的阶段。传统云计算模式虽然提供了强大的算力和存储能力，但由于数据中心与用户终端的物理距离，网络时延问题始终是一个挑战。为了解决这一问题，边缘计算应运而生，并成为5G时代新基建的重要组成部分。本文将探讨边缘节点如何结合5G技术，将云计算响应速度提升300%，为企业和用户带来更流畅的数字体验。边缘计算的核心优势边缘计算（EdgeComputing）是一种分布式
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数