心猿意码~~

六阶段大数据--day02--hadoop入门

一 Hadoop介绍

1 hadoop的定义

hadoop是一个分布式存储和分布式计算的框架。是围绕数据分析为核心的框架.

分布式存储即,数据库中一份数据复制多份存储(冗余存储)

2 hadoop的核心组件

HDFS：分布式存储组件
MapReduce：分布式计算组件
Yarn：资源调度管理器

3 hadoop的介绍及发展历史

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。 ——分布式文件系统（GFS），可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。
Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目(同年，cloudera公司成立)，迎来了它的快速发展期。狭义上来说，hadoop就是单独指代hadoop这个软件，广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件。

4 hadoop的历史版本介绍

0.x系列版本：hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本
1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等
2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性
3.x版本系列：基于2.x的版本进行多层优化（新特性），主要的是改变MapReduce的数据计算方式。

5 hadoop2.x架构模型

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种元数据
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配
NodeManager：负责执行主节点APPmaster分配的任务

6 Hadoop 的安装有三种方式

1) 单机模式：直接解压，只支持MapReduce的测试，不支持HDFS存储，一般不用。

2) 伪分布式模式：单机通过多进程模拟集群方式安装，支持Hadoop所有功能。

优点：功能完整。
缺点：性能低下。学习测试用。

3) 完全分布式模式：集群方式安装，生产级别。

HA：高可用。

7 伪分布式部署

需要环境：

JDK，JAVA_HOME，配置hosts，关闭防火墙，配置免密登录等。

注意：我们只将其安装在hadoop01节点上。

7.1 进入目录

cd /opt/servers

7.2 上传安装包并解压

tar -xvzf hadoop-2.7.7.tar.gz -C ../servers/

解压后查看hadoop内的文件目录:

bin目录里的内容:

sbin目录里的内容:

7.3 修改配置文件

位置：/opt/servers/hadoop-2.7.7/etc/hadoop

1.修改hadoop-env.sh

vim /opt/servers/hadoop-2.7.7/etc/hadoop/hadoop-env.sh

修改

export JAVA_HOME=/opt/servers/jdk1.8.0_65
export HADOOP_CONF_DIR=/opt/servers/hadoop-2.7.7/etc/hadoop

另连接hadoop01窗口,查找jdk和hadoop全路径

粘贴到hadoop-env.sh文件中保存并退出:

2.修改 core-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/core-site.xml

增加namenode配置、文件存储位置配置：粘贴代码部分到标签内


 

 
fs.default.name
 
hdfs://hadoop01:8020
 
 
 

 
  
 
hadoop.tmp.dir
 
/opt/servers/hadoop-2.7.7/tmp

3.修改 hdfs-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/hdfs-site.xml

配置包括自身在内的备份副本数量到标签内


 

 

 
dfs.replication
 
1
 

 

 

 
dfs.permissions
 
false

4.修改 mapred-site.xml

说明：在/opt/servers/hadoop-2.7.7/etc/hadoop的目录下，只有一个mapred-site.xml.template文件，复制一个。

cp mapred-site.xml.template mapred-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/mapred-site.xml

配置mapreduce运行在yarn上：粘贴高亮部分到标签内

 
 

 
mapreduce.framework.name
 
yarn

5.修改 yarn-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/yarn-site.xml

配置：粘贴高亮部分到标签内


 

 
yarn.resourcemanager.hostname
 
hadoop01
 

 

 

 
yarn.nodemanager.aux-services
 
mapreduce_shuffle

6.修改slaves

vim /opt/servers/hadoop-2.7.7/etc/hadoop/slaves

修改

hadoop01

7.配置hadoop的环境变量

vim /etc/profile

export HADOOP_HOME=/opt/servers/hadoop-2.7.7
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置完成之后生效

source /etc/profile

环境变量配置完成，测试环境变量是否生效

echo $HADOOP_HOME

7.4 启动

1.初始化

hdfs namenode -format

2.启动

start-all.sh

3.停止

stop-all.sh

4.测试

jps

5.停止服务

stop-all.sh

6.访问浏览器

windows的浏览器中访问hadoop01:50070

安装成功！

7.如果没有安装成功

如果没有成功（进程数不够）

1).stop-all.sh 停掉hadoop所有进程

2).删掉hadoop2.7.7下的tmp文件

3).hdfs namenode -format 重新初始化（出现successfully证明成功），如果配置文件报错，安装报错信息修改相应位置后重新执行第二步。

4).start-all.sh 启动hadoop

8 完全分布式部署

安装环境服务部署规划

服务器IP	192.168.65.101	192.168.65.102	192.168.65.103
	NameNode
HDFS	Secondary NameNode
	DataNode	DataNode	DataNode
YARN	ResourceManager
	NodeManager	NodeManager	NodeManager
MapReduce	JobHistoryServer

先在第一台机器hadoop01进行部署

注意：如果已安装伪分布模式，先删除格式化后生成的数据文件，其他请略过

rm -rf /opt/servers/hadoop-2.7.7/tmp

8.1 进入目录

cd /opt/servers

8.2 上传安装包并解压

tar -xvzf hadoop-2.7.7.tar.gz -C ../servers/

8.3 修改配置文件

位置：/opt/servers/hadoop-2.7.7/etc/hadoop

1.修改hadoop-env.sh

vim /opt/servers/hadoop-2.7.7/etc/hadoop/hadoop-env.sh

修改

export JAVA_HOME=/opt/servers/jdk1.8.0_65
export HADOOP_CONF_DIR=/opt/servers/hadoop-2.7.7/etc/hadoop

2.修改 core-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/core-site.xml

增加namenode配置、文件存储位置配置：粘贴代码部分到标签内


 

 
fs.default.name
 
hdfs://hadoop01:8020
 
 
 

 
  
 
hadoop.tmp.dir
 
/opt/servers/hadoop-2.7.7/tmp

3.修改 hdfs-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/hdfs-site.xml

配置包括自身在内的备份副本数量到标签内


 

 

 
dfs.replication
 
2
 

 

 

 
dfs.permissions
 
false

4.修改 mapred-site.xml

说明：在/opt/servers/hadoop-2.7.7/etc/hadoop的目录下，只有一个mapred-site.xml.template文件，复制一个。

cp mapred-site.xml.template mapred-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/mapred-site.xml

配置mapreduce运行在yarn上：粘贴高亮部分到标签内

 
 

 
mapreduce.framework.name
 
yarn

5.修改 yarn-site.xml

vim /opt/servers/hadoop-2.7.7/etc/hadoop/yarn-site.xml

配置：粘贴高亮部分到标签内


 

 
yarn.resourcemanager.hostname
 
hadoop01
 

 

 

 
yarn.nodemanager.aux-services
 
mapreduce_shuffle

6.修改slaves

vim /opt/servers/hadoop-2.7.7/etc/hadoop/slaves

修改

hadoop01
hadoop02
hadoop03

7.配置hadoop的环境变量

vim /etc/profile

配置:

export HADOOP_HOME=/opt/servers/hadoop-2.7.7
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置完成之后生效

source /etc/profile

环境变量配置完成，测试环境变量是否生效

echo $HADOOP_HOME

8.分发文件到hadoop02、hadoop03服务器

cd /opt/servers/
scp -r hadoop-2.7.7/ hadoop02:$PWD
scp -r hadoop-2.7.7/ hadoop03:$PWD

9.hadoop02、hadoop03服务器配置hadoop的环境变量

vim /etc/profile

配置:

export HADOOP_HOME=/opt/servers/hadoop-2.7.7
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置完成之后生效

source /etc/profile

环境变量配置完成，测试环境变量是否生效

echo $HADOOP_HOME

8.4 启动

1.初始化

hdfs namenode -format

2.启动

start-all.sh

3.停止

stop-all.sh

4.测试

jps

5.停止服务

stop-all.sh

6.访问浏览器

windows的浏览器中访问

hdfs集群访问地址:

http://hadoop01:50070/

yarn集群访问地址:

http://hadoop01:8088/

安装成功！

补充：可以按照组件启动服务

start-dfs.sh
start-yarn.sh

也可以单独启动一个服务

在主节点上使用以下命令启动 HDFS NameNode：
hadoop-daemon.sh start namenode 
在每个从节点上使用以下命令启动 HDFS DataNode： 
hadoop-daemon.sh start datanode 
在主节点上使用以下命令启动 YARN ResourceManager： 
yarn-daemon.sh  start resourcemanager 
在每个从节点上使用以下命令启动 YARN nodemanager： 
yarn-daemon.sh start nodemanager

9.hadoop集群初体验

9.1 HDFS 使用初体验

从Linux 本地上传一个文本文件到 hdfs 的/test/input 目录下

hadoop fs -mkdir -p /test/input

hadoop fs -put /root/install.log /test/input

9.2 mapreduce程序初体验

在 Hadoop 安装包的

hadoop2.7.7/share/hadoop/mapreduce 下有官方自带的mapreduce 程序。我们可以使用如下的命令进行运行测试。

示例程序jar:

 hadoop-mapreduce-examples-2.7.7.jar

计算圆周率:

hadoop jar /opt/servers/hadoop-2.7.7/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar pi 2 5

关于圆周率的估算，感兴趣的可以查询资料 Monte Carlo 方法来计算 Pi 值。

10 HDFS入门介绍

10.1 HDFS 介绍

HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。

分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

10.2 HDFS的特性

首先，它是一个文件系统，用于存储文件，通过统一的命名空间目录树来定位文件；

其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

1. master/slave 架构

HDFS 采用 master/slave 架构。一般一个 HDFS 集群是有一个 Namenode 和一定数目的Datanode 组成。Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。

2. 分块存储

HDFS 中的文件在物理上是分块存储（block）的，块的大小可以通过配置参数来规定，默认大小在 hadoop2.x 版本中是 128M。

3. 名字空间（NameSpace）

HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。

Namenode 负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。

HDFS 会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

4. namenode 元数据管理

我们把目录结构及文件分块位置信息叫做元数据。Namenode 负责维护整个hdfs文件系统的目录树结构，以及每一个文件所对应的 block 块信息（block 的id，及所在的datanode 服务器）。

5. Datanode 数据存储

文件的各个 block 的具体存储管理由 datanode 节点承担。每一个 block 都可以在多个datanode 上。Datanode 需要定时向 Namenode 汇报自己持有的 block信息。存储多个副本（副本数量也可以通过参数设置 dfs.replication，默认是 3）。

6. 副本机制

为了容错，文件的所有 block 都会有副本。每个文件的 block 大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。

7. 一次写入，多次读出

HDFS 是设计成适应一次写入，多次读出的场景，且不支持文件的修改。

正因为如此，HDFS 适合用来做大数据分析的底层存储服务，并不适合用来做.网盘等应用，因为，修改不方便，延迟大，网络开销大，成本太高。

你可能感兴趣的:(六阶段大数据,hadoop,分布式)

WebClient和RestTemplate的差异 master_chenchengg 能力提升面试宝典技术 IT信息化
WebClient和RestTemplate的差异引言RestTemplate的历史背景与适用场景WebClient的诞生背景及其优势编程模型对比错误处理机制的区别性能考量未来发展方向实际应用案例分享引言在当今互联网时代，服务间的通信是构建分布式系统不可或缺的一部分。Spring框架作为Java生态系统中最受欢迎的企业级开发框架之一，提供了多种工具来简化HTTP请求的处理。其中，WebClient
《守护数据隐私的堡垒：构建基于差分隐私的MySQL匿名化处理系统》墨夶数据库学习资料2 mysql android 数据库
在大数据时代，个人隐私保护的重要性日益凸显。随着全球范围内对用户信息保护意识的增强以及相关法律法规（如GDPR、CCPA等）的出台，企业面临着前所未有的挑战——如何在利用海量数据创造价值的同时，确保这些数据不会泄露用户的敏感信息。为了应对这一难题，差分隐私（DifferentialPrivacy,DP）作为一种强大的数学工具应运而生。它不仅能够有效地抵御各种形式的重识别攻击，而且还可以保持数据集统
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
单体架构、集群架构和分布式架构概述 JoyousHorse 软件工程架构分布式软考软件工程系统架构设计师
单体架构、集群架构和分布式架构概述在现代系统架构和开发过程中，单体架构、集群架构和分布式架构是三个常见且关键的概念。本文将详细介绍这些技术的相关概念，并探讨它们之间的联系与区别。一、单体架构单体架构，即单体技术，是一种软件设计模式，所有的功能和模块都集中在一个单一的应用程序中。比较常见的是学生时代开发的各类应用程序，应用包部署在一台服务器上，无需考虑系统性能、请求并发、服务连续性等问题。特点：单一
R语言的并发编程技术的探险家包罗万象 golang 开发语言后端
R语言的并发编程引言在现代计算中，如何有效地利用计算资源进行数据处理和分析已成为一个重要的研究方向。尤其在大数据时代，数据量的急剧增加让单线程处理方式显得力不从心。为了解决这一问题，各种编程语言都开展了并发编程的研究和应用。R语言作为一种广泛应用于统计分析和数据科学的语言，也为并发编程提供了强大的支持。本文将介绍R语言的并发编程，包括其基本概念、常用包、应用示例以及实用技巧。一、并发编程基础并发编
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
（九）ROS运行管理 PaLu-LvL ROS从入门到实践机器人 c++ubuntu 学习
前言1.ROS是多进程(节点)的分布式框架，一个完整的ROS系统实现：可能包含多台主机；每台主机上又有多个工作空间(workspace)；每个的工作空间中又包含多个功能包(package)；每个功能包又包含多个节点(Node)，不同的节点都有自己的节点名称；每个节点可能还会设置一个或多个话题(topic)...2.在多级层深的ROS系统中，其实现与维护可能会出现一些问题，比如，如何关联不同的功能包
Azure Synapse Dedicated SQL Pool通过配置选项和参数优化性能 weixin_30777913 云计算 azure
配置选项与参数分布键（DistributionKey）：•选择：在大数据量表中，选择经常用于JOIN、WHERE条件中的列作为分布键，如Date、ID等。•策略：对于范围查询，使用HASH分布避免数据倾斜；对于维度表，通常选择ROUND-ROBIN分布。索引：•类型：聚集列存储索引（CCI）针对大型数据扫描和聚合进行了优化。•策略：始终对大型事实表使用CCI，避免在大型表上使用传统的行存储索引。分
工业控制系统的8种类型 dotNET跨平台
工业控制系统（ICS）是指用于操作或自动化常见工业过程的任何设备、网络或系统及其相关仪表的统称。ICS几乎被所有工业领域和关键基础设施行业使用，包括但不限于能源、制造、运输和污水处理。工业控制系统有几种类型。它们在大小和复杂性上有所不同，并且是为不同的行业和不同的任务设计的。最常见的包括监督控制和数据采集（SCADA）系统、分布式控制系统（DCS）、可编程逻辑控制器（PLC）以及其他几种。继续阅读
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
Flink 常见面试题知否&知否 flink 大数据 kafka
1、Flink的四大特征（基石）checkpoint:基于Chandy-Lamport算法，实现了分布式一致性快照，提供了一致性的语义。State:丰富的StateAPI。ValueState,ListState,MapState,BroadcastState.Time:实现了Watemark机制，乱序数据处理，迟到数据容忍。Window：开箱即用的滚动、滑动、会话窗口。以及灵活的自定义窗口。2、
Hive中没有超级管理员，如何进行权限控制二进制_博客大数据 hive hadoop 数据仓库
Hive中没有超级管理员，任何用户都可以进行Grant/Revoke操作开发实现自己的权限控制类，确保某个用户为超级用户比如任何用户都可以grant权限给别的用户。grantselectontabletest2touserhadoop;如何开发一个超级管理员：创建一个项目，导入mavanjar包，然后开始编写hook类importcom.google.common.base.Joiner;impo
2.TIDB整体架构胡晗- tidb
与传统的单机数据库相比，TiDB具有以下优势：纯分布式架构，拥有良好的扩展性，支持弹性的扩缩容支持SQL，对外暴露MySQL的网络协议，并兼容大多数MySQL的语法，在大多数场景下可以直接替换MySQL默认支持高可用，在少数副本失效的情况下，数据库本身能够自动进行数据修复和故障转移，对业务透明支持ACID事务，对于一些有强一致需求的场景友好，例如：银行转账具有丰富的工具链生态，覆盖数据迁移、同步、
Git基本操作宠物与不尤编程 git
Git是一个分布式版本控制系统，它可以追踪文件的变化，并记录文件的历史版本。以下是Git的基本概念和使用方式：仓库（Repository）：Git仓库是存储代码和文件的地方，可以是本地仓库或远程仓库。本地仓库存储在本地计算机上，而远程仓库存储在远程服务器上。分支（Branch）：分支是Git中的重要概念。在创建仓库时，会自动创建一个默认的主分支（通常是master）。除了主分支外，可以创建其他分支
大数据最新医学图像分割 3D nnUNet全流程快速实现_医学图像分割步骤 2401_84182020 程序员大数据
第一步：选择一个你能找的路径位置（这很重要），在这个位置打开终端，输入gitclonehttps://github.com/MIC-DKFZ/nnUNet.git，将nnUNet的代码下载到这个位置第二步：终端内定位到下载的nnUNet文件夹cdnnUNet，或者直接在对应位置打开终端第三步：开始安装，pipinstall-e.2数据整理2.1数据存放形式首先，nnUNet有自己的一套数据文件夹的
调试Hadoop源代码一张假钞 hadoop eclipse 大数据
个人博客地址：调试Hadoop源代码|一张假钞的真实世界Hadoop版本Hadoop2.7.3调试模式下启动HadoopNameNode在${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中设置NameNode启动的JVM参数，如下：exportHADOOP_NAMENODE_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,addr
为什么要使用MQ？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
使用消息队列（MQ）的主要原因在于它能够提供解耦、异步通信、流量削峰等特性，这些特性对于构建稳定、高效、可扩展的分布式系统至关重要。下面是关于为什么使用MQ的详细解释，包括思维导图建议和Java代码示例。为什么要使用MQ思维导图建议解耦应用程序之间减少直接依赖灵活地添加或移除服务数据库与应用逻辑分离防止数据库过载异步处理提升响应速度用户无需等待长时间操作完成改善用户体验页面加载更快流量削峰处理突发
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
LabVIEW 蔬菜精密播种监测系统 LabVIEW开发 LabVIEW开发案例 LabVIEW开发案例
在当前蔬菜播种工作中，存在着诸多问题。一方面，播种精度难以达到现代农业的高标准要求，导致种子分布不均，影响作物的生长发育和最终产量；另一方面，对于小粒径种子，传统的监测手段难以实现有效监测，使得播种过程中的质量把控成为难题。为了攻克这些难题，设计了一套基于光纤传感器与LabVIEW的单粒精密播种监测系统。该系统充分发挥高精度传感器的感知能力以及先进软件的强大数据处理与控制能力，显著提高了播种作业的
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【大数据学习 | kafka】kafka的组件架构 Vez'nan的幸福生活大数据 mysql oracle json sql kafka
broker:每个kafka的机器节点都会运行一个进程，这个进程叫做broker，负责管理自身的topic和partition，以及数据的存储和处理，因为kafka是集群形式的，所以一个集群中会存在多个broker，但是kafka的整体又不是一个主从集群，需要选举出来一个broker节点为主节点，管理整个集群中所有的数据和操作，以及所有节点的协同工作。每个broker上面都存在一个controll
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
Rabbitmq源码分析，重复消费问题的redis或数据库代码实现 xweiran rabbitmq 分布式 java 架构 jvm 数据结构后端
目录底层源码解析自定义唯一id算法MessageProperties类的相关实现自定义消息ID生成器配置和使用Rabbitmq是怎么判断是不是重复消息的呢？通过Redis的幂等性处理消息消费者实现分布式锁实现的重复检测完整的消息处理流程基于数据库实现Mapper接口消息处理服务RabbitMQ消息消费者底层源码解析RabbitMQ判断重复消息主要通过消息的唯一标识（MessageId）和幂等性处理
产品解读 | 构建数智融合时代下的一站式大数据平台
随着智能化技术的飞速发展，尤其是以生成式AI为代表的技术快速应用，推动了数据与智能的深化融合，给数据基础设施带来了新的变革和挑战。如何简化日益复杂的系统架构，提高数据处理效率，降低开发运维成本，促进数据开放共享和创新应用，成为企业关注的核心问题。一站式大数据平台，旨在通过一个平台即可满足各类业务需求，成为数智融合时代下数据基础设施的发展趋势，并从四个维度向四个“一体化”方向演进：数据架构-湖仓集一
pyspark 中删除hdfs的文件夹 TDengine （老段）大数据 spark hadoop hdfs mapreduce
在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。后来通过查找hadoophdfs的源代码发现hdfs是通过java的包org.appache.had
Redis分布式锁-解锁操作 Ocean@上源码 Redis 分布式 redis java
本章重点讨论解锁操作问题。案例使用RedisTemplate完成redis操作。1.简单加解解锁@ResourceprivateRedisTemplateredisTemplate;publicvoidtestLock(){Stringkey="xx_lock";Stringuuid=UUID.randomUUID().toString();try{booleanlock=redisTemplat
详解 RabbitMQ 在 Go 中的实现：一个带重试机制和死信队列的消息消费者田猿笔记 Golang 从零到高级架构 rabbitmq golang ruby
RabbitMQ是一个功能强大的消息队列系统，广泛应用于分布式系统中。本文将详细解析一个使用Go语言编写的RabbitMQ消费者程序。该程序不仅能够消费消息，还实现了消息重试机制和死信队列（DeadLetterQueue,DLQ）功能，确保消息在多次处理失败后不会被丢失。代码结构概述代码的主要功能包括：加载环境变量：从.env文件中加载RabbitMQ的连接信息和其他配置。连接RabbitMQ：建
小北的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试（初级） Stitch . C语言 HUAWEI 算法人工智能华为大数据 HUAWEI AScend c语言 NPU
前言哈喽哈喽友友们，这里是zyll~（小北）智慧龙阁的创始人及核心技术开发者。在技术的广阔天地里，我专注于大数据与全栈开发，并致力于成为这一领域的新锐力量。通过智慧龙阁这个平台，我期望能与大家分享我的技术心得，共同探索技术的无限可能。AscendC编程：小北的技术之旅近期，我深入研究了AscendC编程，并整理了一系列关于AscendC算子开发能力认证考试（初级）的题目及其答案。我希望这些内容能为
redis 分布式重入锁 DREAM LINER SU redis 分布式数据库
文章目录前言一、分布式重入锁1、单机重入锁2、redis重入锁二、redisson实现重入锁1、添加依赖2、配置Redisson客户端3、使用Redisson实现重入锁4、验证5、运行项目三、redisson分布式锁分析1、获取锁对象2、加锁3、订阅4、锁续期5、释放锁6、流程图前言通过前篇文章redis分布式锁实现我们发现简单做一把分布式锁没啥问题，但是针对以往的锁来说，还存在一下两点需要考虑。
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {