Xxianglei

重温大数据---HA架构部署

说完这一讲，Hadoop四个核心模块的内容基本上就结束了。前面讲过了基础的部署，包括单机、伪分布式，虽然完全分布式其实也挺简单的，但是既然是知识的梳理，在本节我也做个讲解吧。本节最重要的内容是对HDFS的HA架构的搭建。一年前看得我头大，其实嘛没有那么难，只是被高端大气的名字给吓着了。?

先谈完全分布式架构

完全分布式的概念很好理解，就是把Namenode，ResourceManager，Datanode等，分开放置到不同的机器运行，分担主节点的压力，以达到提升集群的处理能力。百度的一张架构图，基本上就这意思。

重点我们看看如何着手搭建一个分布式集群。在Hadoop初窥里面我提过一嘴（多搞几台机器修改DataNode个数配置slave（指定DataNode）文件配置hosts文件 ssh OK OK不？反正我不想打字写分布式配置了。）别看我说的倒是轻松，理清了思路，按着路子搭其实的确也轻松。后面我会用Cloudera Manager在我屋三台服务器上搭建一个企业级?的集群。那个可比手动搭建舒服太多了。具体细节我后面也会做个介绍。

硬件配置

192.168.1.205	192.168.1.206	192.168.1.207
master	slave1	slave2
1.5G	1G	1G
1 CPU	1 CPU	1 CPU

集群规划
HDFS:

192.168.1.205	192.168.1.206	192.168.1.207
master	slave1	slave2
NameNode	DataNode	DataNode
DataNode		SecondaryNameNode

Yarn:

192.168.1.205	192.168.1.206	192.168.1.207
master	slave1	slave2
NodeManager	NodeManager	NodeManager
		ResourceManager

搭建思路：

第一步：机器准备
- 克隆机器
- 修改ip
- 修改主机名
- 设置好映射
第二步：文件配置
- HDFS
  - hadoop-env.sh 配置：java_home 就干这事
  - core-site.xml 伪分布式基础上不做什么改变
  - hdfs-site.xml
    （默认就是三个可以删掉）
  - slaves
- YARN
  - yarn-env.sh 配置：java_home 就干这事
  - yarn-site.xml
- MapReduce
  - mapred-env.sh 配置：java_home 就干这事
  - mapred-site.xml 伪分布式基础上不做什么改变
第三步：SSH无密码登录
- ssh-keygen -t rsa
- ssh-copy-id 节点
- 测试
- ssh 节点
- exit
第四步：文件同步
scp -r xxx slave1:xxx/xxx
第五步:配置时间同步
- ntp的配置我没配，我学习环境就没弄这个，如果真实的开发一定要配置。

集群测试

基本测试

  1. 服务启动，是否可用，简单的应用
  2. HDFS创建和删除是否能够成功
  3. yarn run jar
  4. mapreduce

基准测试

  	1. 测试集群的性能
  	2. hdfs:写数据、读数据

监控集群

  	1.Cloudera Manager
  		部署安装集群
  		监控集群
  		配置同步集群
  		预警

再谈实现HA

先引出一个分布式服务框架Zookeeper。

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 -----百度百科

Zookeeper架构图

为什么使用ZK实现HA呢?因为官方就是这样建议的。?实际上也很好理解。ZooKeeper提供了一个Leader Election机制，利用这个机制能够保证尽管集群存在多个Master可是唯独一个是Active的，其它的都是Standby，当Active的Master出现问题时。另外的一个Standby Master会被选举出来。因为集群的信息，包含Worker， Driver和Application的信息都已经持久化到文件系统，因此在切换的过程中只会影响新Job的提交。对于正在进行的Job没有什么影响。懂了吧!高可用就这样来的。

Zookeeper 安装配置

复制配置文件：

在Zookeeper的主目录的conf文件夹下，有一个实例的配置文件zoo_sample.cfg，我们复制一份出来：

$ cd /opt/modules/zookeeper-3.4.5/conf
$ cp -a zoo_sample.cfg zoo.cfg
$ vi zoo.cfg
$ mkdir data

按照开发规范，我们通常在zookeeper的安装目录下，新建一个目录data，将这个目录作为zookeeper的数据存储目录。

dataDir=/opt/modules/zookeeper-3.4.5/data
zoo.cfg重要参数介绍：
tickTime：zookeeper服务器与服务器之间，或者服务器与客户端之间维持心跳的时间间隔。单位：毫秒。
clientPort：客户端连接zookeeper服务器的端口。默认2181
dataDir：Zookeeper保存数据的目录。

在zoo.cfg中添加服务器信息：

格式： server.A=B:C:D 。在zoo.cfg中添加如下内容：
server.1=192.168.1.205:2888:3888
server.2=192.168.1.206:2888:3888
server.3=192.168.1.207:2888:3888

在每台服务器的$ZOOKEEPER_HOME/data/目录创建myid文件。

在master服务器（192.168.1.205）上，cd 到$ZOOKEEPER_HOME/data/目录，创建myid文件，myid文件的内容是1
在slave1服务器（192.168.1.206）上，cd 到$ZOOKEEPER_HOME/data/目录，创建myid文件，myid文件的内容是2
在slave2服务器（192.168.1.207）上，cd 到$ZOOKEEPER_HOME/data/目录，创建myid文件，myid文件的内容是3
在一台机器上配置好，拷贝到其他服务器：
$ scp -r zookeeper-3.4.5/ slave1:/opt/modules/

启动Zookeeper：

$ bin/zkServer.sh start
查看状态
bin/zkServer.sh status

注意：启动操作需要在三台服务器上都执行。

HDFS HA的背景

HDFS集群中NameNode 存在单点故障（SPOF）。对于只有一个NameNode的集群，如果NameNode机器出现意外情况，将导致整个集群无法使用，直到NameNode 重新启动。
影响HDFS集群不可用主要包括以下两种情况：一是NameNode机器宕机，将导致集群不可用，重启NameNode之后才可使用；二是计划内的NameNode节点软件或硬件升级，导致集群在短时间内不可用。
为了解决上述问题，Hadoop给出了HDFS的高可用HA方案：HDFS通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，比如处理来自客户端的RPC请求，而Standby NameNode则不对外提供服务，仅同步Active NameNode的状态，以便能够在它失败时快速进行切换。

HDFS HA的架构

对这张图做个说明：

ZKFC控制着两个Namenode，当其中一个挂掉后Zk通过选举，迅速的开启另一个Namenode进入active状态。
两个NN时刻保持文件系统元数据的同步和一致。
Datanode时刻向两个NN发送report。

HDFS HA设计

HDFS HA配置

配置HA要点

share edits
JournalNode （日志节点）至少三个
NameNode
Active，Standby
Client
Proxy

fence

  同一时刻仅仅有一个NameNode对外提供服务
  使用的方式sshfence
  	两个NameNode之间能够ssh无密码登录
  	205(NameNode) ssh -> 206
  	206(NameNode) ssh -> 205

规划集群

192.168.1.205	192.168.1.206	192.168.1.207
master	slave1	slave2
NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode

配置HA后不需要secondarynamenode了，为什么呢？配置HA后备份的Namenode基本上替代了它。

配置细节都是官网上的东西

   hdfs-site.xml

	<property>
	  <name>dfs.nameservicesname>
	  <value>myclustervalue>
	property>

      // 命名空间

	<property>
	  <name>dfs.ha.namenodes.myclustername>
	  <value>nn1,nn2value>
	property>

    // 管理哪两个nn

	<property>
	  <name>dfs.namenode.rpc-address.mycluster.nn1name>
	  <value>machine1.example.com:8020value>
	property>
	<property>
	  <name>dfs.namenode.rpc-address.mycluster.nn2name>
	  <value>machine2.example.com:8020value>
	property>


    // nn在哪台机器

     // 配置两个nn访问端口Web
		<property>
		  <name>dfs.namenode.http-address.mycluster.nn1name>
		  <value>machine1.example.com:50070value>
		property>
		<property>
		  <name>dfs.namenode.http-address.mycluster.nn2name>
		  <value>machine2.example.com:50070value>
		property>


       // 共享日志的目录
		<property>
		  <name>dfs.namenode.shared.edits.dirname>
		  <value>qjournal://node1.example.com:8485;node2.example.com:8485;node3.example.com:8485/myclustervalue>
		property> 

       // 配置客户端访问
		<property>
		  <name>dfs.client.failover.proxy.provider.myclustername>
		  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
		property>

       //配置隔离方式 ssh隔离

	    <property>
	      <name>dfs.ha.fencing.methodsname>
	      <value>sshfencevalue>
	    property>
	
	    <property>
	      <name>dfs.ha.fencing.ssh.private-key-filesname>
	      <value>/home/exampleuser/.ssh/id_rsavalue>
	    property> 

    使用的方式sshfence
	两个NameNode之间能够ssh无密码登录
	131(NameNode) ssh -> 132
	132(NameNode) ssh -> 131 

     // 配置日志文件写在本地那个目录
		<property>
		  <name>dfs.journalnode.edits.dirname>
		  <value>
             /opt/app/hadoop-2.7.3/data/dfs/jn
           value>
		property>

		//配置 core-site.xml
		
		 <property>
		  <name>fs.defaultFSname>
		  <value>hdfs://myclustervalue>
		property>

最后向其他两个节点同步文件

启动顺序

./hadoop-daemon.sh start journalnode（每个）
bin/hdfs namenode -format（nn1）
sbin/hadoop-daemon.sh start namenode
./hdfs namenode -bootstrapStandby（nn2）
./hadoop-daemon.sh start datanode
./hdfs haadmin -transitionToActive nn1

~~千万不要手贱乱格式化，贼烦！~~

ZK实现自动故障转换

HA 自动故障转移 Zookeeper

192.168.1.205	192.168.1.206	192.168.1.207
master	slave1	slave2
NameNode	NameNode
ZKFC	ZKFC
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode

启动后都是Standby，需要选举一个为Active。ZKFC实现对两个Namenode的实时监控。

配置细节：

hdfs-site.xml

          // 启动故障自动转移
		 <property>
		   <name>dfs.ha.automatic-failover.enabledname>
		   <value>truevalue>
		 property>

    // 依赖ZK  需要知道ZK在哪

core-site.xml

		<property>
		   <name>ha.zookeeper.quorumname>
		   <value>master:2181,slave1:2181,slave2:2181value>
		 property>

启动：

关闭所有的HDFS服务：stop-dfs.sh
启动zookeeper集群：zkServer.sh start
初始化ZK中的状态：hdfs zkfc -formatZK
启动HDFS服务：start-dfs.sh

这里的start-dfs.sh 启动一切包括zkFc。

值得一提的是zk挂掉不会影响集群，只是不能故障转移了，失去了对集群的选举。最后~~小声说一说HA太简单了！~~ ???

Federation联盟

NameNode

能不能有多个NameNode
NameNode 			NameNode 				NameNode
元数据				元数据					元数据
log				machine					电商数据/话单数据

三个模块把数据存在所有的DataNodes节点上，于是出现了下面的架构，提供解决方案。

集中式缓存管理

HDFS允许用户将一部分文件或目录缓存在HDFS中，Namenode会通知拥有对应快的DataNodes将其缓存在datanode的内存中。

分布式拷贝

数据迁移，如将测试集群的数据拷贝到生产集群详见官网点我

拷贝命令：

hadoop distcp -i hftp://sourceFS:50070/src hdfs://destFS:8020/dest

Yarn的HA

在熟练配置了HDFS的HA后，Yarn的HA配置也是十分简单的，它的架构基本上和HDFS的是一样的。也是通过zk选举RM来实现高可用。

详细配置都是官网上的东西

		<property>
		  <name>yarn.resourcemanager.ha.enabledname>
		  <value>truevalue>
		property>
		<property>
		  <name>yarn.resourcemanager.cluster-idname>
		  <value>cluster1value>
		property>
		<property>
		  <name>yarn.resourcemanager.ha.rm-idsname>
		  <value>rm1,rm2value>
		property>
		<property>
		  <name>yarn.resourcemanager.hostname.rm1name>
		  <value>master1value>
		property>
		<property>
		  <name>yarn.resourcemanager.hostname.rm2name>
		  <value>master2value>
		property>
		<property>
		  <name>yarn.resourcemanager.webapp.address.rm1name>
		  <value>master1:8088value>
		property>
		<property>
		  <name>yarn.resourcemanager.webapp.address.rm2name>
		  <value>master2:8088value>
		property>
		<property>
		  <name>yarn.resourcemanager.zk-addressname>
		  <value>zk1:2181,zk2:2181,zk3:2181value>
		property>

命令详见官网点我

	 $ yarn rmadmin -getServiceState rm1
	 active
	
	 $ yarn rmadmin -getServiceState rm2
	 standby



	 $ yarn rmadmin -transitionToStandby rm1
	 Automatic failover is enabled for org.apache.hadoop.yarn.client.RMHAServiceTarget@1d8299fd
	 Refusing to manually manage HA state, since it may cause
	 a split-brain scenario or other incorrect state.
	 If you are very sure you know what you are doing, please
	 specify the forcemanual flag.

总结

HA这一块，你要是照着官方文档配置其实还是挺简单的，一年前的我直接跳过了HA，只知道是高可用。想想还是太年轻了。在应用这一块，配置好能放到生产环境基本上就可以了吧！到此呢Hadoop的四个核心模块的内容就告一段落了，花了四天时间边学边练。从早做到晚的学习我尽然不困?。可能这就是知识的力量吧！又看书又看视频还看官方文档，尽然不脱发？少年你渴望力量吗？?下面的就是Hive的温习了，Hive不论对谁来说应该都比MR简单吧，我应该能很快的过过去，加紧时间学习！后面还有一大片呢！

大数据开发之Kubernetes篇----安装部署Kubernetes&dashboard 豆豆总 kubernetes
Kubernetes简介由于公司有需要，需要将外后的服务外加Tensorflow模型部署加训练全部集成到k8s上，所以特意记录下这次简单部署的过程。k8s安装部署首先，我们在部署任何大型的组件前都必须要做的事情就是关闭防火墙和设置hostname了vi/etc/hostsk8s001xxx.xxx.xxx.xxk8s002xxx.xxx.xxx.xx...systemctlstopfirewall
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化晴天彩虹雨大数据 spark big data
1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。如何优化Spark作业的性能，是大数据开发者必须掌握的关键技能。本文将深入探讨SparkSQL、DataFrame和RDD的性能优化方法，并结合实际案例进行分析。2.SparkSQL性能优化(1)使用P
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
大数据、云计算系统高级架构师课程学习路线图 juan188 大数据大数据开发程序员 spark Linux 大数据学习人工智能数据分析 hadoop 大数据学习大数据开发大数据入门大数据技术大数据
大数据之Linux+大数据开发篇大数据的前景和意义也就不言而喻了，未来，大数据能够对大量、动态、能持续的数据，通过运用新系统、新工具、新模型的挖掘，从而获得具有洞察力和新价值的东西。源于互联网的发展，收集数据的门槛越来越低，收集数据变成一件简单的事情，这些海量的数据中是含有无穷的信息和价值的，如何更好的提炼出有价值的信息，这就体现大数据的用途了。大数据是未来的发展方向，正在挑战我们的分析能力及对世
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目 flink大数据实时计算
摘要：本文整理自鹰角大数据开发工程师，ApacheHudiContributor朱正军老师在FlinkForwardAsia2024生产实践（二）专场中的分享。主要分为以下四个部分：一、鹰角数据平台架构二、数据湖选型三、湖仓一体建设四、未来展望一、鹰角数据平台架构首先给大家介绍一下鹰角目前的数据平台架构。在介绍之前，关于鹰角我先给大家做简单的介绍。1.1关于鹰角鹰角网络，也称为HYPERGRYPH
大数据开发语言Scala入门编程小郭 scala 开发语言
大数据开发语言Scala的详解一、引言在大数据和云计算时代，数据的处理和分析变得尤为重要。为了有效地处理和分析这些数据，需要一种强大的编程语言。Scala作为一种多范式的编程语言，结合了面向对象编程和函数式编程的优点，为大数据开发提供了强大的支持。本文将详细介绍Scala及其优缺点、应用场景等。二、Scala概述Scala是由MartinOdersky教授于2003年开发的编程语言，旨在集成面向对
关于阿里云DataWorks的20道面试题编织幻境的妖阿里云云计算
1.请简要介绍阿里云DataWorks的基本概念和主要功能。阿里云DataWorks是一个全链路的大数据开发治理平台，其主要功能包括数据集成、数据建模与开发、数据地图、数据质量和数据服务等。DataWorks的基本概念围绕其作为一个大数据开发和治理的平台，它整合了多种大数据引擎如MaxCompute、Hologres、EMR、AnalyticDB、CDP等，旨在为数据仓库、数据湖及湖仓一体化解决方
计算机专业毕业 m0_73641845 python 爬虫 flask django beautifulsoup
接java开发，小程序开发，Python开发，大数据开发，网站设计，文档编写，原型设计可接大学生作业，各种项目给要求就行，可附赠报告~可针对小白辅导，诚信服务，咨询问题免费。（可入主页浏览）根据需求不同定价不同，欢迎咨询!!!
顺丰大数据开发面试题及参考答案大模型大数据攻城狮大数据大厂面试大数据面试牛客网手撕离线数仓 leetcode
Flink的提交过程是怎样的？Flink的提交过程通常包含以下步骤：代码编写与打包：开发人员首先使用Flink提供的API编写数据处理逻辑，包括定义数据源、转换操作和数据sink等。完成代码编写后，将项目打包成可执行的JAR文件，其中包含了所有依赖的库和资源。选择提交方式：Flink支持多种提交方式，如命令行提交、WebUI提交和通过客户端API提交。命令行提交适用于在终端中进行快速部署，用户可以
2024年最全Doris：读取Doris数据的N种方法_访问 doris，阿里大牛教你自己写大数据开发第三方库 2401_84181108 程序员大数据
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！arrow-memory-netty${arrow.v
猫眼大数据开发面试题及参考答案大模型大数据攻城狮数据仓库大数据数据开发窗口函数 hive外部表维度建模数仓分层
Java基本数据类型有哪些？包装类型又是什么？Java的基本数据类型是Java语言中最基础的数据类型，它们用于存储简单的值。Java的基本数据类型主要分为以下几类：整型byte：占1个字节，取值范围是-128到127，通常用于节省内存的场景，比如处理文件或网络数据时，存储一些小的整数值。short：占2个字节，取值范围是-32768到32767，使用场景相对较少，但在某些需要节省内存且数值范围不大
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
JavaSE笔记总结火车驶向云外.11 java 开发语言
一、Java简介1、三大平台JavaSE：Java标准版，用于桌面应用开发，为今后从事JavaEE开发打基础（C语言和C++语言占有优势）。JavaME：小型版的Java语言，用于嵌入式电子设备或者小型移动设备。JavaEE：企业版，web方向的网站开发和服务器开发，这个领域Java第一。2、Java能做什么？桌面应用开发企业级应用开发移动应用开发科学计算大数据开发游戏开发3、Java的特性面向对
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Transwarp Data Studio 4.0 ：适应AI新时代实现三大能力提升人工智能
企业数据资产管理能力建设需要经历资源化、资产化和资本化三个阶段，对应数据底座建设、资产管理平台建设、流通运营平台建设三大任务。星环科技大数据开发工具TranswarpDataStudio，在此过程中发挥着承上启下的关键作用。近日，星环科技重磅发布大数据开发工具TranswarpDataStudio4.0版本，新版针对数据资产运营和语料管理的过程实现了三大能力提升。第一，提升了数据管理的广度：为应对
案例分享｜某港口集团企业级数据管理及分析应用体系构建数据分析
平台工具体系｜数据治理某港口集团已建成多个信息化系统，充分满足集团职能管理方面的需求，但垂直化的职能管理使各职能领域的指标体系、业务流程和业务系统呈现出条状划分的鲜明特点，数据共享存在“壁垒”，缺少横向的业务流程梳理和贯通，导致港口数据标准不统一、各业务系统数据“孤岛化”明显，特别是随着对数据增值利用和精细化管理要求的逐步提高，已难以应对日趋复杂的业务需求。通过运用大数据基础平台TDH、大数据开发
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
最新【JAVA问题解决方案】02，字节跳动大数据开发高级工程师 2401_84586779 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！publicvoidexcelTest(){Lists
HiveSQL一本通 - 案例实操，2024年最新大数据开发编程基础班疯狂的石头。程序员大数据
count(stu_id)stu_countfromscore_infogroupbycourse_idhavingstu_count>=15;（3）查询结果。course_idstu_count0119021903196.3.4查询结果排序和分组指定条件1.查询学生的总成绩并按照总成绩降序排序（1）思路分析。本题主要考查分组聚合和orderby关键字的使用。（2）查询语句。hive>select
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划 2401_84185145 大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取frompyspark.ml.evaluationimportBinaryClassificationEv
Java 快速入门知识精简（1） Tangy范 Java java 开发语言
语言特点特点一：面向对象俩个基本概念：类，对象三大特性：封装，继承，多态特点二：健壮性去掉了指针，内存的申请与释放提供了相对安全的内存管理和访问机制特点三：跨平台性由JVM负责Java程序在系统中的运行JVMforUNIXJVMforWindowsJVMforMac应用领域：JavaWeb开发后台开发大数据开发Android应用程序开发：客户端开发知识结构编程语言核心结构：主要知识点：变量、基本语
大数据开发技术HBase优化与特点分析 at小白在线中大数据
高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群（如果没有开启则跳过此步）[atguigu@hadoop102hbase]$bin/stop-hbase.sh在con
小白？转型？毕业生？外行学习快速入行大数据开发指南 weixin_45732643 Hadoop 大数据开发编程语言大数据大数据开发大数据学习 Hadoop 编程语言
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段，处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。大数据是什么？投资者眼里是金光闪闪的两个字：资产。比如，Facebook上市时，评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n