Michaelwubo

CentOS7下搭建Hadoop(3.3.4)集群

7.0 MapReduce 编程 | 菜鸟教程

1. 前期准备

1）规划

主机	IP	角色
172.16.10.67	172.16.10.67	NameNode、SecondaryNameNode、ResourceManager、DataNode、NodeManager
172.16.10.68	172.16.10.68	DataNode、NodeManager
172.16.10.68	172.16.10.69	DataNode、NodeManager

2、环境搭建

一、配置host（三台机器）我没配置，如果配置

# 设置主机名
hostnamectl set-hostname node01

# hosts映射
cat /etc/hosts

172.16.10.67 node01
172.16.10.68 node02
172.16.10.69 node03

二、关闭防火墙（三台机器）

# 查看防火墙状态
firewall-cmd --state
# 停止firewalld服务
systemctl stop firewalld.service
# 开机禁用firewalld服务
systemctl disable firewalld.service

三、ssh免密登录

注：只需要配置node1至node1、node2、node3即可

#node1生成公钥私钥 (一路回车)
ssh-keygen 

#node1配置免密登录到node1 node2 node3
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

四、集群时间同步（三台机器）

yum install ntpdate
# 网络时间同步
ntpdate ntp5.aliyun.com

五、创建统一工作目录（三台机器）

mkdir -p /root/hadoop/server

六、安装Hadoop，所有节点

[root@172 server]# wget --no-check-certificate -c  https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz


JAVA_HOME=/usr/java/jdk
PATH=$GRADLE_HOME/bin:$JAVA_HOME/bin:$NODE_HOME/bin:$NODE_HOME1/bin:$PATH
CLASSPATH=.:$JAVA_HOME/jre/lib/ext:$JAVA_HOME/jre/lib/ext/jar:$JAVA_HOME/lib/tools.jar
export PATH JAVA_HOME CLASSPATH

export HADOOP_HOME=/root/hadoop/server/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

# 配置文件生效
source /etc/profile

# 检查是否成功
[root@172 server]# hadoop version
Hadoop 3.3.4
Source code repository https://github.com/apache/hadoop.git -r a585a73c3e02ac62350c136643a5e7f6095a3dbb
Compiled by stevel on 2022-07-29T12:32Z
Compiled with protoc 3.7.1
From source with checksum fb9dd8918a7b8a5b430d61af858f6ec
This command was run using /root/hadoop/server/hadoop/share/hadoop/common/hadoop-common-3.3.4.jar

七、修改配置文件

要获取的默认文件	文件存放在Hadoop的jar包中的位置	作用
[core-site.xml]	hadoop-common-2.7.2.jar/ core-default.xml	hdaoop核心模块配置文件
[hdfs-site.xml]	hadoop-hdfs-2.7.2.jar/ hdfs-default.xml	hdfs文件系统模块配置
[yarn-site.xml]	hadoop-yarn-common-2.7.2.jar/ yarn-default.xml	yarn模块配置
[mapred-site.xml]	hadoop-mapreduce-client-core-2.7.2.jar/ mapred-default.xml	MapReduce模块配置

core-site.xml：

[root@172 hadoop]# cat core-site.xml









    fs.defaultFS
    hdfs://172.16.10.67:8020




    hadoop.tmp.dir
    /root/hadoop/server/hadoop




    hadoop.http.staticuser.user
    root




    hadoop.proxyuser.root.hosts
    *



    hadoop.proxyuser.root.groups
    *




    fs.trash.interval
    1440

hdfs-site.xml

[root@172 hadoop]# cat hdfs-site.xml










    dfs.replication
    3


    dfs.namenode.secondary.http-address
    172.16.10.67:9868

yarn-site.xml

[root@172 hadoop]# cat yarn-site.xml








	yarn.resourcemanager.hostname
	172.16.10.67



    yarn.nodemanager.aux-services
    mapreduce_shuffle




    yarn.nodemanager.pmem-check-enabled
    false




    yarn.nodemanager.vmem-check-enabled
    false




  yarn.log-aggregation-enable
  true




    yarn.log.server.url
    http://172.16.10.67:19888/jobhistory/logs




  yarn.log-aggregation.retain-seconds
  604800




    yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage
    95.0
 
 
 
    yarn.nodemanager.resource.memory-mb
    2048

 

   yarn.scheduler.minimum-allocation-mb
   2048

 

    yarn.nodemanager.vmem-pmem-ratio
    2.1

mapred-site.xml

[root@172 hadoop]# cat mapred-site.xml










  mapreduce.framework.name
  yarn




  mapreduce.jobhistory.address
  172.16.10.67:10020

 


  mapreduce.jobhistory.webapp.address
  172.16.10.67:19888



  yarn.app.mapreduce.am.env
  HADOOP_MAPRED_HOME=${HADOOP_HOME}



  mapreduce.map.env
  HADOOP_MAPRED_HOME=${HADOOP_HOME}



  mapreduce.reduce.env
  HADOOP_MAPRED_HOME=${HADOOP_HOME}


        mapreduce.application.classpath        
        $HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib-examples/*

workers：

[root@172 hadoop]# cat workers 
172.16.10.67
172.16.10.68
172.16.10.69

八、启动集群

1.

解决：

yarn.app.mapreduce.am.env
HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.map.env
HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.reduce.env
HADOOP_MAPRED_HOME=${HADOOP_HOME}

2.INFO conf.Configuration: resource-types.xml not found
INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
解决：

mapreduce.application.classpath
$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*

注意：格式化NameNode，会产生新的集群id,导致NameNode和DataNode的集群id不一致，集群找不到已往数据。所以，格式NameNode时，一定要先删除data数据和log日志，然后再格式化NameNode。

注：如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

（1）如果第一次启动集群需格式化NameNode 三个节点都操作

[root@172 hadoop]# hdfs namenode -format

（2）启动Namenode

[root@172 hadoop]# start-all.sh  启动所有
[root@172 hadoop]# jcmd | grep hadoo
23942 org.apache.hadoop.hdfs.server.namenode.NameNode
24726 org.apache.hadoop.yarn.server.nodemanager.NodeManager
24087 org.apache.hadoop.hdfs.server.datanode.DataNode
24587 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager
24335 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode
[root@172 hadoop]# jps
23942 NameNode
24726 NodeManager
24087 DataNode
24587 ResourceManager
17643 Jps
24335 SecondaryNameNode



指定启动Namenode；注：一个集群只有一个Namenode
[root@172 hadoop]# hdfs --daemon start namenode


其他节点执行：
启动Datanode和secondarynamenode
[root@173 hadoop]# hdfs --daemon start datanode
[root@173 hadoop]# hdfs --daemon start secondarynamenode

HDFS集群： http://172.16.10.67:9870/

YARN集群：http://172.16.10.67:8088/

九：文件传输测试

HDFS界面：http://172.16.10.67:9870/

查看NameNode状态;
该端口的定义位于core-site.xml中，可以在hdfs-site.xml 中修改;
如果通过该端口看着这个页面，NameNode节点是存活的

⒈ 上传文件到集群

构建一个测试文本和HDFS存储目录

创建目录：
[root@172 hadoop]# hadoop fs  -mkdir /jettech

[root@172 work]# cat input.txt 
I love runoob
I like runoob
I love hadoop
I like hadoop

上传：
[root@172 hadoop]# hadoop fs -put input.txt /jettech

查看：
[root@172 work]# hadoop fs -ls  /jettech
Found 5 items
-rw-r--r--   3 root supergroup      15217 2022-09-02 16:59 /jettech/LICENSE.txt
-rw-r--r--   3 root supergroup         56 2022-09-02 17:00 /jettech/input.txt
drwxr-xr-x   - root supergroup          0 2022-09-02 17:05 /jettech/output
drwxr-xr-x   - root supergroup          0 2022-09-02 17:07 /jettech/output1
drwxr-xr-x   - root supergroup          0 2022-09-02 17:21 /jettech/output2
[root@172 work]# hadoop fs -cat  /jettech/input.txt
I love runoob
I like runoob
I love hadoop
I like hadoop

如果不想要可以用rm删除，hdfs dfs命令之后附加的命令和Linux下常用命令基本相同。

Size为当前大小，Block Size为一个存储块最大的存储容量为128M。

可从网站上进行下载，如果上传的文件容量大于规定的128M，将会把此文件分成两个块进行存储。同时，也可找到该文件存储目录下对应的blk_id，自行按顺序进行拼接后，可还原成原始文件。

[root@172 work]# ls /root/hadoop/server/hadoop/dfs/data/current/BP-512546310-172.16.10.67-1662109116057/current/finalized/subdir0/subdir0/
blk_1073741825            blk_1073741839_1015.meta  blk_1073741851            blk_1073741862_1038.meta  blk_1073741874            blk_1073741885_1061.meta
blk_1073741825_1001.meta  blk_1073741840            blk_1073741851_1027.meta  blk_1073741863            blk_1073741874_1050.meta  blk_1073741886
blk_1073741826            blk_1073741840_1016.meta  blk_1073741852            blk_1073741863_1039.meta  blk_1073741875            blk_1073741886_1062.meta
blk_1073741826_1002.meta  blk_1073741841            blk_1073741852_1028.meta  blk_1073741870            blk_1073741875_1051.meta  blk_1073741887
blk_1073741836            blk_1073741841_1017.meta  blk_1073741859            blk_1073741870_1046.meta  blk_1073741882            blk_1073741887_1063.meta
blk_1073741836_1012.meta  blk_1073741848            blk_1073741859_1035.meta  blk_1073741871            blk_1073741882_1058.meta  blk_1073741888
blk_1073741837            blk_1073741848_1024.meta  blk_1073741860            blk_1073741871_1047.meta  blk_1073741883            blk_1073741888_1064.meta
blk_1073741837_1013.meta  blk_1073741849            blk_1073741860_1036.meta  blk_1073741872            blk_1073741883_1059.meta
blk_1073741838            blk_1073741849_1025.meta  blk_1073741861            blk_1073741872_1048.meta  blk_1073741884
blk_1073741838_1014.meta  blk_1073741850            blk_1073741861_1037.meta  blk_1073741873            blk_1073741884_1060.meta
blk_1073741839            blk_1073741850_1026.meta  blk_1073741862            blk_1073741873_1049.meta  blk_1073741885

创建tmp.file用来存放文件内容，开始拼接

# cat blk_1073741836>>tmp.file
# cat blk_1073741837>>tmp.file

案例：集群模式下，需要先上传到集群中

统计案例

[root@172 work]# yarn jar /root/hadoop/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /jettech/input.txt /jettech/output4
2022-09-05 11:27:12,265 INFO client.DefaultNoHARMFailoverProxyProvider: Connecting to ResourceManager at /172.16.10.67:8032
2022-09-05 11:27:12,846 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/root/.staging/job_1662112035948_0001
2022-09-05 11:27:13,571 INFO input.FileInputFormat: Total input files to process : 1
2022-09-05 11:27:14,477 INFO mapreduce.JobSubmitter: number of splits:1
2022-09-05 11:27:14,635 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1662112035948_0001
2022-09-05 11:27:14,635 INFO mapreduce.JobSubmitter: Executing with tokens: []
2022-09-05 11:27:14,817 INFO conf.Configuration: resource-types.xml not found
2022-09-05 11:27:14,818 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
2022-09-05 11:27:15,265 INFO impl.YarnClientImpl: Submitted application application_1662112035948_0001
2022-09-05 11:27:15,305 INFO mapreduce.Job: The url to track the job: http://172.16.10.67:8088/proxy/application_1662112035948_0001/
2022-09-05 11:27:15,306 INFO mapreduce.Job: Running job: job_1662112035948_0001
2022-09-05 11:27:23,514 INFO mapreduce.Job: Job job_1662112035948_0001 running in uber mode : false
2022-09-05 11:27:23,517 INFO mapreduce.Job:  map 0% reduce 0%
2022-09-05 11:27:28,659 INFO mapreduce.Job:  map 100% reduce 0%
2022-09-05 11:27:32,710 INFO mapreduce.Job:  map 100% reduce 100%
2022-09-05 11:27:33,737 INFO mapreduce.Job: Job job_1662112035948_0001 completed successfully
2022-09-05 11:27:33,875 INFO mapreduce.Job: Counters: 54
	File System Counters
		FILE: Number of bytes read=62
		FILE: Number of bytes written=553631
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=163
		HDFS: Number of bytes written=36
		HDFS: Number of read operations=8
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=2
		HDFS: Number of bytes read erasure-coded=0
	Job Counters 
		Launched map tasks=1
		Launched reduce tasks=1
		Rack-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=2599
		Total time spent by all reduces in occupied slots (ms)=2680
		Total time spent by all map tasks (ms)=2599
		Total time spent by all reduce tasks (ms)=2680
		Total vcore-milliseconds taken by all map tasks=2599
		Total vcore-milliseconds taken by all reduce tasks=2680
		Total megabyte-milliseconds taken by all map tasks=5322752
		Total megabyte-milliseconds taken by all reduce tasks=5488640
	Map-Reduce Framework
		Map input records=4
		Map output records=12
		Map output bytes=104
		Map output materialized bytes=62
		Input split bytes=107
		Combine input records=12
		Combine output records=5
		Reduce input groups=5
		Reduce shuffle bytes=62
		Reduce input records=5
		Reduce output records=5
		Spilled Records=10
		Shuffled Maps =1
		Failed Shuffles=0
		Merged Map outputs=1
		GC time elapsed (ms)=135
		CPU time spent (ms)=1340
		Physical memory (bytes) snapshot=576929792
		Virtual memory (bytes) snapshot=5615321088
		Total committed heap usage (bytes)=486014976
		Peak Map Physical memory (bytes)=345632768
		Peak Map Virtual memory (bytes)=2804011008
		Peak Reduce Physical memory (bytes)=231297024
		Peak Reduce Virtual memory (bytes)=2811310080
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=56
	File Output Format Counters 
		Bytes Written=36

查看执行结果

[root@172 work]# hadoop fs -cat /jettech/output4/part-r-00000
I	4
hadoop	2
like	2
love	2
runoob	2

在学习了 MapReduce 的使用之后，我们已经可以处理 Word Count 这类统计和检索任务，但是客观上 MapReduce 可以做的事情还有很多。

MapReduce 主要是依靠开发者通过编程来实现功能的，开发者可以通过实现 Map 和 Reduce 相关的方法来进行数据处理。

为了简单的展示这一过程，我们将手工编写一个 Word Count 程序。

注意：MapReduce 依赖 Hadoop 的库，但由于本教程使用的 Hadoop 运行环境是 Docker 容器，难以部署开发环境，所以真实的开发工作（包含调试）将需要一个运行 Hadoop 的计算机。在这里我们仅学习已完成程序的部署。

root@172 work]# mkdir -p com/runoob/hadoop/

root@172 work]# cat com/runoob/hadoop/
Map.class          MyWordCount.class  MyWordCount.java   Reduce.class       
[root@172 work]# cat com/runoob/hadoop/MyWordCount.java 
/**
 * 引用声明
 * 本程序引用自 http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html
 */
package com.runoob.hadoop;
import java.io.IOException;
import java.util.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;
/**
 * 与 `Map` 相关的方法
 */
class Map extends MapReduceBase implements Mapper {
   private final static IntWritable one = new IntWritable(1);
   private Text word = new Text();
   public void map(LongWritable key,
               Text value,
               OutputCollector output,
               Reporter reporter)
         throws IOException {
      String line = value.toString();
      StringTokenizer tokenizer = new StringTokenizer(line);
      while (tokenizer.hasMoreTokens()) {
         word.set(tokenizer.nextToken());
         output.collect(word, one);
      }
   }
}
/**
 * 与 `Reduce` 相关的方法
 */
class Reduce extends MapReduceBase implements Reducer {
   public void reduce(Text key,
                  Iterator values,
                  OutputCollector output,
                  Reporter reporter)
         throws IOException {
      int sum = 0;
      while (values.hasNext()) {
         sum += values.next().get();
      }
      output.collect(key, new IntWritable(sum));
   }
}
public class MyWordCount {
   public static void main(String[] args) throws Exception {
      JobConf conf = new JobConf(MyWordCount.class);
      conf.setJobName("my_word_count");
      conf.setOutputKeyClass(Text.class);
      conf.setOutputValueClass(IntWritable.class);
      conf.setMapperClass(Map.class);
      conf.setCombinerClass(Reduce.class);
      conf.setReducerClass(Reduce.class);
      conf.setInputFormat(TextInputFormat.class);
      conf.setOutputFormat(TextOutputFormat.class);
      // 第一个参数表示输入
      FileInputFormat.setInputPaths(conf, new Path(args[0]));
      // 第二个输入参数表示输出
      FileOutputFormat.setOutputPath(conf, new Path(args[1]));
      JobClient.runJob(conf);
   }
}

编译：

[root@172 work]# javac -classpath /root/hadoop/server/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.3.4.jar -classpath /root/hadoop/server/hadoop/share/hadoop/client/hadoop-client-api-3.3.4.jar com/runoob/hadoop/MyWordCount.java

打包：

[root@172 work]# jar -cf wubo-word-count.jar com

执行：

[root@172 work]# hadoop jar wubo-word-count.jar com.runoob.hadoop.MyWordCount /jettech/input.txt /jettech/output5

将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南格子先生Lab 全文检索 mysql elasticsearch
在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
dubbo服务META-INF.dubbo文件夹作用 zhglhy dubbo java apache
META-INF.dubbo文件夹是ApacheDubbo框架中的一个重要目录，通常用于存放Dubbo的SPI（ServiceProviderInterface）扩展配置文件。Dubbo是一个高性能的JavaRPC框架，支持分布式服务治理，而SPI机制是Dubbo实现可扩展性的核心设计之一。1.SPI机制简介SPI是Java提供的一种服务发现机制，允许框架在运行时动态加载实现类。Dubbo对其进行
MongoDB z小天才b MongoDB mongodb 数据库
一、MongoDB简介1.1什么是MongoDB？MongoDB是一个基于分布式文件存储的开源NoSQL数据库系统，由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档，数据结构由键值对组成，类似于JSON对象，字段值可以包含其他文档、数组及文档数组。1.2MongoDB的核心特性文档型数据库：数据以BSON（BinaryJSON）格式存储灵活的
存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
Q&A：备份产品的存储架构采用集中式和分布式的优劣？云祺vinchin 技术分享架构分布式网络运维大数据
分布式和集中式各有优劣，且这两者下面的存储类型也都不尽相同，从备份与恢复的数据层面来看，这两者存储相结合才是优解。众所周知，备份数据只存一份还只放在一个存储里是不现实的。假设把备份数据访问频率、生命周期等参数分为三个等级（热、温、冷）。很显然，以分布式存储的优点用来存放热备份数据是非常合适的，能满足大规模数据在备份与恢复时的高吞吐需求，同时也能提供并行计算的能力，提供高效的目标端数据压缩和数据重删
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从零到一：Redis Cluster部署配置全流程详解，轻松搞定高可用分布式缓存！ IT成长日记 #数据库技术解析与应用实践 Redis Cluster redis 缓存集群
RedisCluster是Redis官方提供的分布式解决方案，它通过数据分片（Sharding）和主从复制（Replication）来实现高可用性和横向扩展。RedisCluster能够在多个节点之间自动分配数据，并且在节点故障时自动进行故障转移，确保系统的高可用性。本文将详细介绍RedisCluster的部署和配置全流程，帮助读者快速搭建一个高可用的Redis集群。1RedisCluster概述
使用Spring Boot实现分布式任务调度 weixin_836869520 spring boot 分布式后端
使用SpringBoot实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！一、SpringBoot与分布式任务调度概述在分布式系统中，任务调度是一项关键的技术，它能够有效地管理和调度系统中的各种任务，确保任务能够按时执行并具有高可用性和可靠性。SpringBoot作为Java领域流行的开发框架，提供了多种实现分布式任务调度的解决方案。二、SpringB
在Spring Boot中实现分布式任务调度微赚淘客系统开发者 spring boot 分布式后端
在SpringBoot中实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！使用SpringBoot与Quartz实现分布式任务调度1.引入依赖在SpringBoot项目中，首先需要引入Quartz和相关依赖：org.springframework.bootspring-boot-starter-quartz2.配置Quartz在SpringBoot的配
基于 Redis 的分布式锁实现与优化 Blossom.118 分布式系统与高性能计算领域 redis 分布式数据库 python3.11 算法数据结构推荐算法
在分布式系统中，锁机制是保障数据一致性和并发控制的关键技术之一。Redis作为一种高性能的内存数据库，常被用于实现分布式锁。本文将详细介绍基于Redis的分布式锁的实现原理、代码示例以及优化策略，帮助读者更好地理解和应用这一技术。一、分布式锁的概念与需求在单机系统中，锁的实现相对简单，可以通过操作系统的同步机制或编程语言提供的锁机制来完成。然而，在分布式系统中，多个进程或线程可能运行在不同的机器上
在Spring Boot中集成分布式任务调度微赚淘客机器人开发者联盟@聚娃科技 spring boot 分布式后端
在SpringBoot中集成分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！1.引言分布式任务调度是现代企业应用中常见的需求，特别是在微服务架构中，不同服务可能需要定时执行任务、定时触发某些业务逻辑或者周期性地处理数据。SpringBoot提供了多种方式来实现分布式任务调度，包括使用Quartz、Spring自带的任务调度以及集成第三方调度中心等。2.使
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
深入解析 Redis 实现分布式锁的最佳实践煜bart 机器人 redis python
前言在分布式系统中，多个进程或线程可能会同时访问同一个共享资源，这就可能导致数据不一致的问题。为了保证数据的一致性，我们通常需要使用分布式锁。Redis作为高性能的内存数据库，提供了一种简单高效的方式来实现分布式锁。本文将深入探讨如何使用Redis来实现分布式锁，并介绍一些优化技巧和最佳实践。---一、为什么需要分布式锁？在单机环境下，我们可以使用synchronized、Lock等方式来控制并发
基于Spring Boot的分布式任务调度实践 Blossom.118 分布式系统与高性能计算领域 wpf spring boot java 后端分布式 spring 开发语言
在现代的分布式系统中，任务调度是一个常见的需求。无论是定时任务的执行，还是根据业务逻辑动态触发的任务，都需要一个高效、可靠的调度框架来管理。SpringBoot作为目前最流行的Java开发框架之一，提供了强大的依赖管理和快速开发的能力，结合分布式任务调度框架，可以极大地提升开发效率和系统的可维护性。本文将介绍如何基于SpringBoot实现一个分布式任务调度系统，主要涉及Elastic-Job框架
鸿蒙开发工程师简历项目撰写全攻略谢道韫689 鸿蒙随笔 harmonyos 华为
一、项目结构的黄金法则建议采用「4+1」结构：项目背景（业务价值）+技术架构（鸿蒙特性）+核心实现（技术难点）+个人贡献（量化成果）+附加价值（延伸影响）二、鸿蒙特色技术点提炼技巧鸿蒙核心技术技术维度具体实现案例量化成果示例分布式软总线自定义协议实现家电设备低功耗连接连接成功率从89%提升至97%ArkUI框架基于TS扩展实现动态UI模板引擎开发效率提升40%，代码量减少60%原子化服务实现天气服
分布式中间件：Redisson 入门和分布式锁顾北辰20 分布式中间件分布式中间件 redisson
分布式中间件：Redisson入门和分布式锁在分布式系统的开发中，处理并发问题是一个常见且具有挑战性的任务。为了确保数据的一致性和完整性，我们常常需要使用分布式锁。Redisson作为一个强大的分布式Java驻内存数据网格（In-MemoryDataGrid）中间件，为我们提供了简单且高效的分布式锁解决方案。本文将带你入门Redisson，并介绍如何使用它实现分布式锁。1.引入Redisson依赖
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析：分布式能力与跨设备协作实战一键难忘 harmonyos 分布式华为 HarmonyOS Next
鸿蒙技术分享：HarmonyOSNext深度解析：分布式能力与跨设备协作实战随着万物互联时代的到来，操作系统作为连接设备、应用与用户体验的核心，扮演着不可或缺的角色。华为最新发布的HarmonyOSNext（鸿蒙操作系统下一代版本）不仅在技术架构上实现了颠覆性升级，更在生态体验上迈向了一个新的高度。本文将从技术架构、生态优势和开发实践三个方面深入探讨HarmonyOSNext的技术特点，并通过一个
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
鸿蒙系统架构解析：深入理解分层设计与功能实现斯陀含 harmonyos 架构华为
鸿蒙系统架构解析：深入理解分层设计与功能实现鸿蒙操作系统(HarmonyOS)是华为推出的全新分布式操作系统，其独特的架构设计是其核心竞争力之一。本文将深入探讨鸿蒙系统的分层架构，从内核层到应用层，逐层剖析其功能和作用，并结合实例帮助读者更好地理解鸿蒙系统的设计理念。一、鸿蒙系统架构概览鸿蒙系统采用分层架构设计，将系统划分为四个层次：内核层、系统服务层、框架层和应用层。这种分层架构具有以下优势：模
分布式限流方案：基于 Redis 的令牌桶算法实现代码怪兽大作战后端分布式 redis 算法 java 令牌桶接口限流
分布式限流方案：基于Redis的令牌桶算法实现前言一、原理介绍：令牌桶算法二、分布式限流的设计思路三、代码实现四、方案优缺点五、适用场景总结前言在分布式场景下，接口限流变得更加复杂。传统的单机限流方式难以满足跨节点的限流需求，因此需要一种分布式限流方案。这里介绍一种基于Redis和Redisson实现的令牌桶算法分布式限流方案。一、原理介绍：令牌桶算法令牌桶算法是一种用于控制流量的经典算法，其基本
阿里云国际站代理商：为什么边缘计算需要分布式防护？聚搜云—服务器分享阿里云边缘计算分布式
1.边缘计算的分布式特性边缘计算将数据处理和存储从集中式的云中心迁移到了靠近数据源的边缘节点，这些节点通常分布广泛且数量众多。这种分布式架构虽然带来了低延迟、高带宽和高可靠性的优势，但也增加了安全防护的复杂性。因为每个边缘节点都可能成为潜在的攻击目标，且攻击面随着节点数量的增加而扩大。2.安全风险的增加数据泄露风险：边缘节点处理和存储用户数据，如果这些节点的安全措施不足，数据可能会被窃取或泄露。物
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http