Mr.King吧啦吧啦

02-hadoop的发展，架构模型，三种运行环境

离线课程第二天

课程回顾

1、三台虚拟机的联网创建

2、linux基础增强

查找命令： ps -ef | grep xxxx

find / -name hello.txt

用户与用户组：useradd hadoop passwd hadoop

su与sudo： su：切换用户

sudo：权限的借用 visudo

linux的权限管理：chmod -R 777 文件/文件夹

chown -R 777 文件/文件夹

chmod u+x o+w g+x 精确控制权限

系统服务管理：service 服务名称 status|start|stop

网络管理：

主机名的配置：vim /etc/sysconfig/network

IP地址的配置： vim /etc/sysconfig/network-scripts/ifcfg-eth0

域名映射：vim /etc/hosts

网络端口监听：netstat -nltp

crontab ： crontab -e crontab -l

linux的shell编程：除了变量不空格，其他到处都空格

变量的定义变量名=变量值

变量的引用： ${变量名} $变量名

流程控制语句： for循环 if elif while

函数的使用

大数据集群的环境准备：搞定

zookeeper：分布式的服务协调的框架

主从的架构 +主备的架构：

leader：主节点，处理事务性以及非事务性的请求

follower：从节点，处理非事务性的请求，以及转发事务性的请求给leader ,参与投票选举

zk的特性：全局数据一致性

zk的集群环境的搭建

zk的shell操作。添加节点，修改节点，删除节点，查询节点数据

节点的类型：

永久节点：普通永久节点，序列化的永久节点

临时节点：普通的临时节点，序列化的临时节点

客户端一旦断开连接，临时节点消失

zk的数据模型：树形结构，zk当中每一个节点称之为一个znode，znode兼具有文件和文件夹的特性

zk的watch机制：zk当中的监听器的机制，主要用于监听节点的变化

watch机制与临时节点搭配使用，效果非常好====》实现某些服务的监听

课程大纲：

hadoop的历史发展介绍

hadoop历史版本介绍

hadoop的三大发行公司

hadoop的架构模型

hadoop三种环境的安装

cdh版本的冲洗编译

cdh的zk环境的搭建

cdh伪分布式环境的搭建

hadoop集群使用体验

hadoop集群的基准测试

hadoop最早起源于nutch的项目

nutch：是一个爬虫的框架，通用的爬虫框架。Doug Cutting

爬的数据太多了。

第一个问题：数据的检索问题，Lucene，solr solrCloud Elasticsearch

第二个问题：数据的存储问题，如何解决海量数据的存储问题 TB ==》 PB ==》ZB

单台的服务器已经解决不了数据存储的问题了

2003 -2004年谷歌发表了两篇论文 ==》介绍了谷歌的分布式文件存储的概述 MapReduce(分布式文件计算系统) GFS(google FileSystem)

hadoop （hdfs(hadoop distributed FileSystem)+MapReduce）最早的版本是0.x版本

广义上来说：hadoop指代一个大数据框架的生态圈

狭义上来说：hadoop就是一个框架

重复的造轮子。学大数据成本大。大数据开发工程师比JAVAWeb薪资高

现在hadoop已经经历了三大版本 0.x == > 1.x ==》 2.x ==》3.x稳定版本已经发布

hadoop三大发行公司的介绍：

大数据的框架太多了==》造成框架版本的兼容性 ==》框架版本的升级型怎么做

框架太多了，如何统一的管理框架的版本号，如何做到统一的框架的升级？？？

免费开源的版本apache：版本更新迭代比较快，但是版本之间的兼容性，版本的升级，apache不管

实际生产线上环境，一般不要用apache的版本

免费开源的版本hortOnWorks ：在开源版本的基础上，做好了版本的兼容，做好了版本的升级，有一定的群众基础，有一定的人用

服务软件收费版本：Cloudera 致力于做大数据软件框架的生态圈。生产环境用的比较多的版本。版本的升级，版本的兼容都做好了

MapR ==>大数据软件的公司

hadoop的架构模型：

hadoop1.x架构模型：

hdfs分布式文件存储系统：典型的主从架构。没有主备

NameNode：主节点，维护管理集群当中的元数据信息，处理用户的读写数据的请求

SecondaryNameNode：辅助namenode管理元数据信息

DataNode：从节点，主要用于存储数据

元数据信息：描述数据的数据，叫做元数据信息

时间简史这本书：查询系统 == 》书名，作者，书在哪个科目，科目究竟在哪一层楼，哪一层楼的哪一个书架，书架的第几排，书架哪一格。这些信息都是描述了我们这本书放在哪里，有了这些信息，我就可以快速找到一本书

只要知道了这些描述性的信息，我就可以快速的找到这本书

第二个问题：你怎么认识你同桌的？？？？描述性的信息，什么样的样貌，环肥燕瘦，什么样的体型，长头发还是短头发，圆脸还是马脸，你已经记住了你同桌长什么样子。描述同桌的一些信息

第三个问题：文件系统改如何处理。计算机存储的文件，如何能够快速的找到呢？？？？

路径，文件的名字，文件类型，创建时间，修改时间，文件权限，文件路径，文件名字，所属者。这些都是一些描述性的信息。

描述性的信息===》叫做元数据信息 ==》描述数据的数据

如果文件系统当中没有描述性的信息会怎么样？？？？找不到文件了

文件的描述信息非常重要==》元数据==》与数据内容没有关系==》元数据都是用来确认数据究竟在哪里的==》只要抓住了元数据信息，就抓住了我们的数据

Mapreduce分布式文件计算系统：

JobTracker：主节点，主要职责用于接收客户端的计算任务，并且分配任务给TaskTracker去执行

TaskTracker：从节点。主要职责用于处理JobTracker分配的任务

hadoop2.x架构模型：每个节点的作用，背下来

hdfs分布式文件存储系统：

Namenode：主节点，维护管理集群当中的元数据信息，处理客户端的读写数据的请求

SecondaryNameNode：辅助namneode管理元数据信息

DataNode：从节点，主要职责用于存储数据

Yarn资源调度系统：hadoop2.x新增的模块，取代了原来的jobTaks以及TaskTracker

ResourceManager：主节点。接收客户端的计算任务，并且分配资源（CPU,内存）。不分配任务

NodeManager：从节点。主要职责用于计算分配的任务

为了解决主节点（namenode，resourceManager）的单点故障问题，引入了高可用，namenode最多可以有两个，一个主节点，一个是备份节点，resourceManager最多也可以有两个，一个是主节点，一个是备份节点

如果hdfs是高可用的时候：

Namenode：主节点，维护管理集群当中的元数据信息，处理客户端的读写数据的请求

journalNode：在两个namenode之间同步元数据，保证两个namenode之间的元数据信息一致

DataNode：从节点，主要职责用于存储数据

zkfc：namenode的守护进程，就是监看namenode的健康状况

如果namenode ha 那么就没有secondaryNamenode

hadoop运行的三种环境安装

1、standAlone环境：一般用不到。用一台机器来运行hadoop的环境

2、伪分布式环境：一般用于学习测试环境。主节点与从节点都运行在一台机器上面。从节点还运行在其他机器上面

3、完全分布式的环境：一般用于线上正式环境。主节点与从节点完全分开到不同的机器上面去，主节点完全分开，主节点一般都独立的占用一台机器

standAlone环境的安装

bin：存放执行脚本

sbin：存放执行脚本

etc/hadoop：配置文件存放路径

lib/native：hadoop的本地库，很重要。存放了一些C程序库。一定要支持本地库

share：hadoop运行需要的各种jar包

bin/hadoop checknative 检测hadoop的本地库是否支持的命令

hadoop: true /export/servers/hadoop-2.7.5/lib/native/libhadoop.so.1.0.0 本地C程序库的的支持。可以通过C程序来访问hadoop几群的数据

zlib: true /lib64/libz.so.1 压缩程序库
snappy: false 压缩程序库谷歌出品的一种压缩算法。谷歌出品，必属精品
lz4: true revision:99 压缩程序库
bzip2: false 压缩程序库
openssl: false Cannot load libcrypto.so 压缩程序库

apache的版本的hadoop软件天生默认不支持snappy压缩，如果需要使得其支持，需要重新编译hadoop

hadoop更改配置的6个核心配置文件

core-site.xml：核心配置文件，决定了我们hdfs的集群究竟是分布式的，还是单机版的

hdfs-site.xml：主要定义了我们hdfs相关模块的一些配置。

一般刀片服务器，都有6个硬盘插槽。最少可以插入6块硬盘。一般硬盘可以到12T或者24T左右

hadoop-env.sh：定义我们的jdk的路径即可

mapred-site.xml：定义我们mr相关的模块的配置

yarn-site.xml：主要定义我们yarn的运行的相关的配置

slaves：决定我们从节点运行在哪些机器上面，Datanode NodeManager

注意：hadoop集群格式化的操作，只在hadoop初次搭建的时候执行一次，以后都不要执行了，因为格式化会将hdfs所有的数据全部删掉。类似于我们买回来一块新的硬盘

浏览器查看端口：

http://node01:50070/dfshealth.html#tab-overview hdfs的概览

http://node01:8088/cluster yarn集群的概览

http://node01:19888/jobhistory 历史完成任务的概览

完全分布式高可用环境服务规划

	192.168.1.100	192.168.1.110	192.168.1.120
zookeeper	zk	zk	zk
HDFS	JournalNode	JournalNode	JournalNode
namenode	NameNode（active）	NameNode （standBy）
	ZKFC	ZKFC
	DataNode	DataNode	DataNode
YARN		ResourceManager standBy	ResourceManager active
	NodeManager	NodeManager	NodeManager
MapReduce			JobHistoryServer

重新编译CDH版本的hadoop以便于支持本地库以及支持snappy的压缩

hdfs的基本介绍：

hdfs是hadoop当中一个核心的组件

hdfs的特性：

master/slave架构：主从架构 namenode主节点，datanode从节点

分块存储：将大的文件化成了一个个的小的block块，进行分块存储

命名空间：对外提供统一的数据访问的格式 hdfs://

元数据信息管理：namenode统一管理元数据信息

datanode：数据存储。datanode就是出磁盘的

副本机制：所有的block块都会进行冗余存储，每个block块都会有三个副本

一次写入，多次读取：简单的相关模型，设计hdfs之初就是假设我们hdfs上面的数据都是一次写入，多次读取的。擅长处理数据的读取，不太擅长处理频繁的写入

hdfs借鉴了linux的文件管理思想，提供了大量的类似于linux的命令来操作hdfs上面的文件

hdfs上面的文件可以限额

可以通过文件数量的限额，限制你最多可以上传多少个文件到hdfs上面去

可以通过空间大小的限额，限制你最多传多少M的数据到hdfs上面去

普通用户百度网盘2T

360网盘：每个人移动端登录送你36T

网盘上面的东西没法快速盈利。国家监管太严了

检测视频合法性已经很难了 ==》鉴黄师

360网盘死了

城通网盘：唯一一个在盈利支持的网盘。卖广告

企业网盘的开发制作

hdfs的安全模式：hadoop当中提供的一种安全的模式。主要作用在我们集群刚启动的时候，需要进入安全模式进行自检。检测datanode状况，检测我们namenode的健康状况等等。默认30S之后会退出安全模式

安全模式打开的时候，对外不接受写数据请求，只提供读数据请求。有时候做一些集群健康的检测的时候，或者添加减少节点的时候，可以进入安全模式

hdfs集群管理命令

Usage: hdfs dfsadmin
Note: Administrative commands can only be run as the HDFS superuser.
        [-report [-live] [-dead] [-decommissioning]]
        [-safemode ]
        [-saveNamespace]
        [-rollEdits]
        [-restoreFailedStorage true|false|check]
        [-refreshNodes]
        [-setQuota  ...]
        [-clrQuota ...]
        [-setSpaceQuota  ...]
        [-clrSpaceQuota ...]
        [-finalizeUpgrade]
        [-rollingUpgrade []]
        [-refreshServiceAcl]
        [-refreshUserToGroupsMappings]
        [-refreshSuperUserGroupsConfiguration]
        [-refreshCallQueue]
        [-refresh   [arg1..argn]
        [-reconfig   ]
        [-printTopology]
        [-refreshNamenodes datanode_host:ipc_port]
        [-deleteBlockPool datanode_host:ipc_port blockpoolId [force]]
        [-setBalancerBandwidth ]
        [-fetchImage ]
        [-allowSnapshot ]
        [-disallowSnapshot ]
        [-shutdownDatanode  [upgrade]]
        [-getDatanodeInfo ]
        [-metasave filename]
        [-triggerBlockReport [-incremental] ]
        [-listOpenFiles]
        [-help [cmd]]

hadoop的基准测试：主要用于我们新的集群搭建成功之后，测试一下集群的容量，以及数据的读写速度

做基准测试就是向hdfs当中写入或者读取文件

实际工作的当中 5Gb ==> 50Gb ==> 200Gb ==>500Gb ==>1T

数据的写入速度：取决于我们机械磁盘的转速

实际工作当中写入速度大概在20-30M每秒

实际工作当中，读取数据需要涉及到跨越交换机，那么我们数据的传输速度就取决于我们的交换机够不够快

一般交换机都是使用万兆网卡，最次也要到千兆网卡

传输速度一般在50-100M

课程总结：

1、hadoop的发展历史介绍了解

2、历史版本了解

3、hadoop的三大发行公司

4、hadoop的架构模型：

1.x架构模型：

hdfs：分布式文件存储系统

namenode：主节点，管理元数据信息，接收客户端的请求

元数据信息：描述数据的数据

datanode：从节点存储数据

mapreduce：分布式的文件计算系统

JobTracker：主节点，接收客户端的计算任务请求，分配任务

taskTracker：从节点，执行jobtracker分配的任务

2.x架构模型：背下来

hdfs：分布式的文件存储系统

namenode：管理元数据信息，接收客户端的请求

datanode：存储数据

snn：辅助namenode管理元数据信息

如果namenodeHA

journalNode：两个namenode之间同步元数据信息

zkfc：namenode的守护进程，监看namenode的健康状况

yarn：资源调度系统

resourceManager：主节点，主要用于接收客户端的计算任务请求，并且分配资源

nodemanager：从节点，主要负责执行任务

hadoop三种运行环境：apache版本的三中运行环境不强求

standAlone：所有的服务都运行在一台机器上面

伪分布式：主节点都在同一台机器上面，从节点分不到不同的机器

完全分布式：所有的主节点与从节点完全分开，所有的主节点，独立占用一台机器

cdh版本的hadoop的重新编译：

重新编译以支持本地库lib/native

cdh版本的zk环境搭建

伪分布式hadoop的环境的搭建一定要搞定

hadoop 集群的使用体验： hadoop的shell操作 ls lsr mkdir 操作命令熟练的掌握

hadoop的高级命令的使用了解知道

hadoop的基准测试：得要知道如何做基准测试

测试的正常值

写入正常值：20-30M每秒

读取正常值：50-100M每秒

Java 大视界 -- 基于 Java 的大数据可视化交互设计与实现技巧（105）青云交大数据新视界 Java 大视界 java 信息可视化可视化交互 ECharts Three.js 实时渲染 AR 可视化
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据中的时间序列数据异常检测算法对比与实践（103）青云交大数据新视界 Java 大视界 java 大数据算法时间序列分析异常检测孤立森林 LSTM
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
实施一套先进的智能摄像头服务系统。合方圆～小文 4G低功耗模块 A-I智能人工智能硬件工程大数据
一、项目背景随着物联网、人工智能和大数据技术的飞速发展，智能摄像头已成为家庭、企业以及公共安全领域的重要设备。其便捷、高效、智能的特点，使得市场需求日益增长。为了满足用户对智能监控的多样化需求，提供更加全面、可靠的监控服务，本方案旨在设计并实施一套先进的智能摄像头服务系统。二、项目目标提高监控效率：通过智能摄像头，实现实时视频监控，减少人力成本，提高监控响应速度。提升安全性：集成实时报警功能，及时
记一次多线程导入问题排查过程程序辕日记 java MySql java spring boot
记一次多线程导入问题排查过程1.需求2.遇到问题3.排查解决问题1.需求大数据量的核对：现在有1000个excel文件，每个excel文件内有21个sheet页，现在要对这些数据进行核对，需要先将这些数据导入到库中，再进行核对。2.遇到问题库使用的是MySql，程序是Java，springcloud生态，在串行导入的时候，导入一次大概需要60分钟，现在对其进行改造，使用多线程导入，其思路为：创建线
【大数据】大数据处理-Lambda架构-Kappa架构 weixin_33884611 大数据系统架构
大数据处理-Lambda架构-Kappa架构elasticsearch-headElasticsearch-sqlclientNLPchina/elasticsearch-sql:UseSQLtoqueryElasticsearch360企业安全V5.6SP1,杨军01,您好!lamda架构_百度搜索Lambda架构vsKappa架构-数据源博客-CSDN博客数据系统架构——Lambdaarchi
2024年大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别，2024年最新你花了多久弄明白架构设计 2401_84182146 程序员大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取虽然Lambda架构使用起来十分灵活，并且可以适用于很多的应用场景，但在实际应用的时候，Lambda架构也
大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别(3) 2301_76348014 程序员大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Lambda架构总共由三层系统组成：批处理层（Batc
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
【时间序列聚类】从数据中发现隐藏的模式 T-I-M 机器学习人工智能时间序列
在大数据时代，时间序列数据无处不在。无论是股票市场的价格波动、天气的变化趋势，还是用户的点击行为，这些数据都随着时间推移而产生。然而，面对海量的时间序列数据，我们如何从中提取有价值的信息？答案之一就是时间序列聚类。本文将以通俗易懂的方式，带你了解时间序列聚类的基本概念、应用场景以及实现思路，并希望能为你提供一些启发。什么是时间序列聚类？简单来说，时间序列聚类是一种将相似的时间序列归为一类的技术。它
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
斐波拉契数列 RichardK. c++学习
题目描述给定正整数n，求斐波那契数列的第n项F(n)。令F(n)表示斐波那契数列的第n项，它的定义是：当n=1时，F(n)=1；当n=2时，F(n)=1；当n>2时，F(n)=F(n−1)+F(n−2)。大数据版：斐波拉契数列-大数据版输入描述一个正整数n（1≤n≤104）。输出描述斐波那契数列的第n项F(n)。由于结果可能很大，因此将结果对10007取模后输出。样例1输入1输出1解释边界定义：F
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[[email protected]]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
架构生命周期（演进史）技术应服务于业务 Limbo1213 java架构生命周期演进史
架构生命周期简介本篇幅主要讲述架构的各阶段出现的需求问题、业务问题、性能问题以及相应的解决方案。1、web1.0时代（1996年左右）2、web2.0时代（2006年左右）3、互联网时代（2012年左右）–》互联网±-》智慧城市。滴滴打车。饿了么（工商局）4、大数据+云计算5、AI未来以来时代…第一时期单一应用架构allinone。所有的模块和代码都在一起。技术也不分层。(2000年左右)网站的初
MySQL-关于如何保存“大数据” 赵师的工作日 mysql 大数据数据库
作者：赵师的工作日（赵明中）现役OracleACE、MySQL8.0ocp、TiDBPCTA\PCTP、ElasticsearchCertifiedEngineer微信号：mzzhao23微信公众号：赵师的工作日墨天轮社区：赵师的工作日CSND：赵师的工作日数据库的种类有很多，各类数据库充分发挥各自的优势从而保证业务稳定运行，mysql轻量级、关键数据，redis缓存、快，ES搜索，Mongodb
PIPCA个人信息保护合规审计师认证介绍！熙丫 13381482386 大数据
个人信息保护合规审计师"（PersonalInformationProtectionComplianceAuditor-CCRC）是中国网络安全审查认证中心与市场监管大数据中心为深入贯彻实施《个人信息保护法》，推动个人信息处理者切实履行合规审计职责，针对企事业单位及第三方机构中从事个人信息保护合规审计（简称“个保审计”）的专业人员，依据《个人信息保护法》、《网络安全从业人员能力基本要求》
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
ClickHouse Keeper 源码解析阿里云云栖号云栖号技术分享 java 开发语言后端
简介：ClickHouse社区在21.8版本中引入了ClickHouseKeeper。ClickHouseKeeper是完全兼容Zookeeper协议的分布式协调服务。本文对开源版本ClickHousev21.8.10.19-lts源码进行了解析。作者简介：范振（花名辰繁），阿里云开源大数据-OLAP方向负责人。内容框架背景架构图核心流程图梳理内部代码流程梳理Nuraft关键配置排坑结论关于我们R
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S