asd315861547

Spark on Yarn集群高可用搭建

软件环境:

linux系统: CentOS6.7
Hadoop版本: 2.6.5
zookeeper版本: 3.4.8

主机配置:

一共m1, m2, m3这五部机, 每部主机的用户名都为centos

192.168.179.201: m1 
192.168.179.202: m2 
192.168.179.203: m3 

m1: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Master m2: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Worker m3: Zookeeper, DataNode, NodeManager, Worker

一.编译Spark源码

参考资料:

spark源码编译教程
    http://blog.csdn.net/yanran1991326/article/details/46506595

1.安装Maven: (Linux下,若使用Spark自带的编译器可跳过此步)

Maven教程:
    http://wiki.jikexueyuan.com/project/maven/

1.1. 下载Maven安装包

1.2. 解压Maven到指定位置

1.3. 编辑/etc/profile文件

export M2_HOME=/home/centos/soft/maven
PATH=$PATH:$M2_HOME/bin

1.4. 刷新一下/etc/profile文件

source /etc/profile

1.5. 检验是否安装成功,输入以下指令

mvn -v

1.6. 设置maven内存大小

(1)Linux下:
配置环境变量,编辑/etc/profile文件

export MAVEN_OPTS=-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m

(2)Windows下:
配置环境变量:
新建变量:MAVEN_OPTS, 并将变量MAVEN_OPTS的值设置成:
-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m

2.编译spark源码:

spark源码下载官方地址:
    http://spark.apache.org/downloads.html
spark源码编译官方指南:
    http://spark.apache.org/docs/1.5.0/building-spark.html
spark源码编译教程:
    http://blog.csdn.net/yanran1991326/article/details/46506595

2.1.下载spark源码

2.2.使用spark源码编译: (推荐使用第一种方案, 因为第二种方案亲测编译成功后各种缺包)

2.2.1.方案一:使用maven编译: Linux下 (推荐使用这种方法)

(1)编译指令:
如果想生成一个用scala2.1.2编译的spark 部署包，则要先执行change-scala-version.sh文件: ./dev/change-scala-version.sh 2.10(若要指定scala的编译版本时, 必须先执行该指令)

mvn -Phadoop-2.6 -Pyarn -Dhadoop.version=2.6.5 -Dyarn.version=2.6.5 -Dscala-2.10 -DskipTests clean package

指令参数使用介绍:

–Phadoop-$系列：                    打包时所用的Hadoop系列号，不加此参数时hadoop为pom.xml的默认系列。 
-Dhadoop.version=$版本号: 打包时所用的Hadoop版本号，不加此参数时不可从HDFS上读取数据。 –Pyarn:                           是否支持Hadoop YARN，不加参数时为不支持yarn。 
-Dyarn.version=$版本号: 是否支持Hadoop YARN，不加参数时为不支持yarn调度。 –Phive:                              是否在Spark SQL中支持hive，不加此参数时为不支持hive。(若要使用Hive on Spark功能时, 不能添加次参数)
-Dscala-$版本号: 打包时所用的Scala系列号，不加此参数时Scala版本为pom.xml的默认版本, 在使用此函数之前必须先执行./dev/change-scala-version.sh 2.10指令,否则无效 -DskipTests: 是否在编译的过程中略过测试，加此参数时为略过。

(2)编译成功:
编译成功后的Spark引用包的存放位置:

$Spark源码目录/assembly/target/scala-2.10/spark-assembly-1.6.3-hadoop2.6.5.jar

该包的只是一个引用包, 应把tgz解压安装的$SPARK_HOME/lib目录下的assembly删除, 然后将该包放入到$SPARK_HOME/lib目录下

2.2.2.方案二:使用spark源码包中自带的`make-distribution`编译工具

(1)编译指令:
先编译Spark源码(若需要用到parquet功能,则带上parquet-provided参数)
Spark2.0版本之前(hadoop版本可随实际情况修改)

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

Spark2.0版本之后(hadoop版本可随实际情况修改)

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

(2)编译成功
编译成功后的Spark安装包的存放位置:

$Spark源码目录/spark-1.6.0-bin-hadoop2-without-hive-src.tgz

该包是一个安装包, 用tar解压出安装即可, 不推荐使用

二.搭建Spark集群

0.安装准备

1.下载Scala

http://www.scala-lang.org/download/

2.下载Spark

http://spark.apache.org/downloads.html

1.集群规划(在m1上操作,然后在分发到其他主机)

Master  m1
Slaves  m1, m2, m3

2.解压Scala,Spark安装包

tar -zxvf scala-2.10.6/ -C /home/centos/soft/scala
tar -zxvf spark-1.6.0-bin-hadoop2.6/ -C /home/centos/soft/spark

3.配置环境变量

vi /etc/profile

## Spark
export SCALA_HOME=/home/centos/soft/scala
export SPARK_HOME=/home/centos/soft/spark
export CLASSPATH=$CLASSPATH:$SPARK_HOME/lib
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/sbin:$SPARK_HOME/bin

source /etc/profile

4.拷贝hdfs-site.xml, yarn-site.xml, hive-site.xml文件拷贝到spark的配置目录下

cp /home/centos/soft/hadoop/etc/hadoop/hdfs-site.xml    /home/centos/soft/spark/conf
cp /home/centos/soft/hadoop/etc/hadoop/yarn-site.xml    /home/centos/soft/spark/conf
cp /home/centos/soft/hive/conf/hive-site.xml            /home/centos/soft/spark/conf

5.编辑$/SPARK_HOME/conf/spark-env.sh文件

Spark官方配置参考:
    https://spark.apache.org/docs/1.2.0/configuration.html
Hive On Spark配置参考:
    https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties-Spark

vi  $SPARK_HOME/conf/spark-env.sh

export JAVA_HOME=/home/centos/soft/jdk1.7.0_67
export HADOOP_HOME=/home/centos/soft/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SCALA_HOME=/home/centos/soft/scala
export SPARK_HOME=/home/centos/soft/spark
export SPARK_LOCAL_DIRS=$SPARK_HOME/tmp                 ## spark相关的临时文件
export SPARK_DIST_CLASSPATH=$(/home/centos/soft/hadoop/bin/hadoop classpath)
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$HADOOP_HOME/lib:$SCALA_HOME/lib:$SPARK_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

export SPARK_MASTER_IP=m1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8080
export SPARK_WORKER_CORES=3                                     ## 允许Spark应用程序在每台机器上使用的内核总数
export SPARK_WORKER_MEMORY=512m                                 ## 允许Spark应用程序在每台机器上使用的总内存量，例如1000m，2g（默认值：总内存为1 GB）;请注意，每个应用程序的单独内存都使用其spark.executor.memory属性配置
export SPARK_WORKER_INSTANCES=1                                 ## 在每台计算机上运行的工作程序实例数（默认值：1）。如果你有非常大的机器，并且想要多个Spark工作进程，你可以使它超过1。如果你这样设置，确保显式地设置SPARK_WORKER_CORES以限制每个工人的核心，否则每个工人将尝试使用所有核心。
export SPARK_DAEMON_MEMORY=512m                                 ## 要分配给Spark主服务器和工作程序守护程序本身的内存（默认值：512m）。
export SPARK_EXECUTOR_CORES=1                                   ## 每个Executor使用的CPU核数,每个Exector使用的总核心spark.max.cores在spark-default.conf中设置
export SPARK_EXECUTOR_MEMORY=512m                               ## 每个Executor使用多大的内存
export SPARK_DRIVER_MEMORY=512m
export SPARK_YARN_AM_CORES=1
export SPARK_YARN_AM_MEMORY=512m
export SPARK_YARN_AM_WAITTIME=200ms
export SPARK_YARN_APP_NAME=Spark_On_Yarn
export SPARK_YARN_EXECUTOR_MEMORYOVERHEAD=75
export SPARK_TESTING_MEMORY=536870912

export SPARK_WORKER_DIR=$SPARK_HOME/logs/workerDir
export SPARK_LOG_DIR=$SPARK_HOME/logs/logDir
export SPARK_PID_DIR=$SPARK_HOME/logs/pidDir

export HIVE_SERVER2_THRIFT_PORT=10000
export HIVE_SERVER2_THRIFT_BIND_HOST=0.0.0.0

6.编辑$SPARK_HOME/conf/spark-default.conf文件

vi   $SPARK_HOME/conf/spark-default.conf

spark.master                          spark://master:7077
spark.shuffle.service.port            7337   
spark.eventLog.enabled                true
spark.eventLog.compress               true
spark.eventlog.dir                    /home/centos/soft/spark/logs/spark.log
spark.serializer                      org.apache.spark.serializer.KryoSerializer
spark.driver.memory                   5g
spark.executor.extraJavaOptions      -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

spark.sql.parquet.binaryAsString              true
spark.sql.parquet.mergeSchema                 true
spark.sql.parquet.cacheMetadata               false
spark.sql.hive.convertMetastoreParquet        false

spark.dynamicAllocation.enabled                                 true    # 开启动态资源分配
spark.dynamicAllocation.minExecutors                            1       # 每个Application最小分配的executor数
spark.dynamicAllocation.maxExecutors                            30      # 每个Application最大并发分配的executor数
spark.dynamicAllocation.schedulerBacklogTimeout                 1s
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout        5s

spark.scheduler.mode                    FAIR      # 调度模式
spark.executor.instances                1         # standalone模式下限制每个Executor最大核心数
spark.cores.max                         3         # Yarn模式下限制每个Executor最大核心数

7.实现Spark动态分配资源功能

将$SPARK_HOME/conf/spark-default.conf配置文件中将spark.dynamicAllocation.enabled配置项改为true
将$SPARK_HOME/lib/spark-1.6.0-yarn-shuffle.jar拷贝到每台NodeManager节点的${HADOOP_HOME}/share/hadoop/yarn/lib/下

8.编辑$SPARK_HOME/conf/slaves文件

m1
m2
m3

9.将安装文件分发到其他主机上

scp -r   /home/centos/soft/scala   m1:/home/centos/soft/
scp -r   /home/centos/soft/scala   m2:/home/centos/soft/
scp -r   /home/centos/soft/scala   m3:/home/centos/soft/

10.启动spark集群(注意: 启动spark集群之前,需先启动YARN)

(1)在m1, m2上分别启动YARN集群

start-yarn.sh

(2)在WebUI上查看启动情况

m1:8088

(3)在m1主机上启动主从节点:

start-master.sh      ## 启动主节点: 
start-slaves.sh      ## 启动从节点:

(4)在WebUI上查看启动情况

m1:8080

11.测试实例

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 1g --executor-cores 1 --queue thequeue lib/spark-assembly-1.6.0-hadoop2.6.0.jar 10

你可能感兴趣的:(spark,高可用,大数据,云计算,yarn)

大数据分析服务器硬件配置如何选择 elva428204358 服务器服务器
大数据，现如今已被人工智能替代。我们先不讨论人工智能，就大数据而言，我们都是在强调他的技术，而我们在用大数据时候，经常用它的来神话它的影响。例如，广告投放精准化，社会安全管理有序，医药行业智能化等。一、建立大数据分析服务器的五个基本方面1、可视化分析：大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，
《DeepSeek+Langchain落地实操:RAG知识增强检索和智能体实战开发》 AI周红伟 langchain
大数据与人工智能实战专家—周红伟老师法国科学院数据算法博士/曾任阿里人工智能专家/曾任马上消费金融风控负责人课程背景LangChain是一项旨在赋能开发人员利用语言模型构建端到端应用程序的强大框架。它的设计理念在于简化和加速利用大型语言模型（LLM）和对话模型构建应用程序的过程。这个框架提供了一套全面的工具、组件和接口，旨在简化基于大型语言模型和对话模型的应用程序开发过程。LangChain本质上
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
SpringBoot与Sentinel整合，解决异常爬虫请求问题奔向理想的星辰大海 Java研发实用技巧云原生 spring boot sentinel 爬虫
Sentinel是阿里巴巴开源的一款面向分布式服务架构的轻量级高可用流量控制组件，主要用于流量控制、熔断降级和系统负载保护。虽然Sentinel主要用于微服务场景下的流量管理和故障隔离，但也可以通过一些策略和配置来辅助防御DDoS攻击和异常爬虫请求。DDoS攻击DDoS（DistributedDenialofService）是一种恶意攻击手段，攻击者通过控制大量计算机设备（如僵尸网络），向目标服务
数据安全策略与实践：从理论到落地 Echo_Wish 大数据高阶实战秘籍大数据
数据安全策略与实践：从理论到落地在大数据时代，数据早已成为企业和机构的核心资产，但随之而来的数据泄露、非法访问和滥用问题也屡见不鲜。从用户隐私到企业机密，再到国家级信息安全，无一不受到数据安全的影响。那么，如何构建高效的数据安全策略并在实际中落地实施？这是我们今天要探讨的核心话题。一、数据安全为何重要？数据泄露的影响在2021年某著名社交平台数据泄露事件中，超过5亿用户的个人信息被曝光，直接导致了
分布式计算入门（PySpark处理NASA服务器日志）闲人编程 Python数据分析实战精要服务器运维统计分析日志 NASA服务器分布式计算 PySpark
目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2数据格式与挑战4.PySpark基础与分布式日志处理4.1PySpark基本架构4.2日志数据加载与解析4.3数据清洗与内存优化4.4GPU加速与SparkRAPIDS5.实验环境与依赖库6.数
Dask vs. Apache Spark: 大数据处理的利器对比与应用实例步入烟尘 Python超入门指南全册 apache spark 大数据
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
spark yum配置 Amu_Yalo spark
yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你
MySQL集群：高可用架构的利与弊异常驯兽师 mysql 架构数据库
在互联网应用快速发展的今天，数据库的高可用性和扩展性成为许多团队关注的焦点。MySQL集群作为一种常见的解决方案，被广泛用于解决单点故障和性能瓶颈的问题。但它是否适合所有场景？本文将从实际应用的角度，分析MySQL集群的核心特点、优势与不足。1.什么是MySQL集群？MySQL集群（MySQLCluster）并不是指简单的“多个MySQL服务器”，而是一种基于分布式架构的数据库解决方案。它通过将数
宽带,带宽,光纤,光猫,WiFi,路由器,令人傻傻搞不清?这篇文章讲明白他们之间的关系. *星之卡比* 智能路由器网络
宽带,带宽,光纤,光猫,WiFi,路由器,令人傻傻搞不清?这篇文章讲明白他们之间的关系.想要家里能上网,就得找运营商办理宽带上网服务(如:电信,联通等),这样能上网的信号就会通过光纤传输到你家里.问题来了,啥叫宽带?宽带和带宽是什么呢?带宽(bandwidth),简单理解为频带宽度单位时间内通过网络通信信道传输的最大数据量,一般单位是mps(兆比特每秒),家里一般办的是百兆光纤但是一百兆比特每秒下
老罗带大家聊聊后台服务间使用Tbuspp通信细节你一身傲骨怎能输服务器架构设计后台架构设计
Tbuspp是一种高性能的RPC（远程过程调用）框架，主要用于微服务架构中服务间的通信。它的设计目标是提供高效、低延迟的服务间调用，适合于需要高并发和高可用性的场景。以下是关于Tbuspp在后台服务间通信的一些细节和要点：1.基本概念RPC（远程过程调用）：允许程序调用远程计算机上的程序，就像调用本地程序一样。Tbuspp实现了这一概念，使得服务间的调用更加简单和高效。服务注册与发现：Tbuspp
监听 RabbitMQ 延时交换机的消息数、OpenFeign 路径参数传入斜杠无法正确转义 s:103 后端进阶实践 rabbitmq 分布式 openfeign
背景【MQ】一套为海量消息和高并发热点消息，提供高可用精准延时服务的解决方案我现在有一个需求，就是监听RabbitMQ一个延时交换机的消息数，而RabbitTemplate是不存在对应的方法来获取的。而我们在RabbitMQ的控制台却可以发现延时交换机的消息数，所以其开放的http-api里存在我们需要的数据，通过抓包可得：而我们查看这个包，构造请求（抓包+分析的技巧这里不做介绍）当然你完全可以去
8.版本控制svn和git majorty Android基础 svn git 版本控制
1、常见的版本控制软件[1]cvs已过时[2]svn(需要服务器)集中式[3]ClearCaseibm公司开发(只有自己公司用)[4]vss微软公司开发(没人用)[5]git(不需要服务器)分布式云计算由好多台电脑组成了一个整体github.com2、SVN简介Svn（Subversion）是近年来崛起的版本管理工具，在当前的开源项目里(J2EE)，几乎95%以上的项目都用到了SVN。Subver
【开题报告】基于Springboot+vue智能停车场管理系统（程序+源码+论文) 计算机毕业设计计算机程序_设计 spring boot vue.js 课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着城市化进程的加速，车辆数量急剧增加，停车难问题已成为各大城市面临的严峻挑战。传统的停车场管理方式存在效率低下、资源浪费、用户体验差等问题，无法满足现代城市对高效、便捷停车服务的需求。智能停车场管理系统作为一种创新的解决方案，通过集成先进的物联网技术、云计算技术和大数据分析技
DeepSeek smallpond搅动大数据风云彭铖洋 javascript reactjs
DuckDB走向分布式？DeepSeek的smallpond涉足大数据DuckDB！降维打击传统大数据领域，搅动中台数据工程风云！DeepSeek正在利用smallpond（一种新的、简单的分布式计算方法）推动DuckDB超越其单节点根源。但它是否解决了可扩展性挑战——还是带来了新的权衡？DeepSeek最近搞了个大新闻。他们的R1模型在2025年1月发布时，就直接干翻了OpenAI的O1等竞争对
Hadoop、Spark、Flink Shuffle对比逆袭的小学生 hadoop spark flink
一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认
Scala_Spark_RDD_parttwo Gadaite Spark基础 scala spark big data
只做记录不展示结果(部分结果放在了代码的注释中)：packagespark_rddimportorg.apache.spark.sql.SparkSessionobjectrdd_fiveextendsApp{overridedefmain(args:Array[String]):Unit={/***key-valueRDD*pairRDD*2021-10-31*/valp="-----"*20v
OpenStack（一）——OpenStack的相关概念假面生 OpenStack linux
(1).OpenStack概述OpenStack是一个由NASA（美国国家航空航天局）和Rackspace合作研发并发起的，以Apache许可证授权的自由软件和开放源代码项目。OpenStack是一个旨在为公共及私有云的建设与管理提供软件的开源项目，支持几乎所有类型的云环境，项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。OpenStack能够将诸如计算能力、存储、网络和软件
Spark scala api（一）RDD编程 weixin_42521881 spark学习
基础初始化sparkvalconf=newSparkConf().setAppName("wordcount")valsc=newSparkContext(conf)转化操作和行动操作的区别在于spark计算rdd的方式不同，只有在第一次在一个行动操作中用到转化操作中的rdd时，才会真正计算这些rdd。创建rdd//驱动器程序对一个集合进行并行化vallines=sc.parallelize(Li
Scala 中生成一个RDD的方法闯闯桑 scala 开发语言大数据
在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。以下是生成RDD的常见方法：1.从本地集合创建RDD使用parallelize方法将本地集合（如Seq、List、Array等）转换为RDD。valspark=SparkSession.builder.appName("RDDExample").getOrCreate(
MySQL性能监控与调优工具详解杨胜增数据库 mysql 性能优化
MySQL性能监控与调优工具详解亲爱的亦菲彦祖，欢迎来到第十三篇关于MySQL的博客！在前几篇文章中，我们深入探讨了MySQL的基础知识、数据库设计、性能优化、索引、事务管理、安全管理、数据备份与恢复、与PHP的集成、高可用性架构设计、存储过程和触发器的应用以及数据可视化。今天，我们将重点介绍MySQL性能监控与调优工具，帮助你实时监控数据库性能，识别瓶颈，并进行有效的优化，确保你的数据库系统高效
大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件 2401_84181942 程序员大数据 flink 架构
于是人们提出了“不共享任何东西”（share-nothing）的分布式架构。从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构，都是以分布式作为系统架构的基本形态的。我们已经知道，Flink就是一个分布式的并行流处理系统。简单来说，它会由多个进
OenMessage——信息共享平台 IT源码大师竞赛项目研究实战汇集人工智能大数据
引言在信息化时代，数据与知识的共享变得尤为重要。OenMessage作为一款创新的信息共享平台，致力于提供一个高效、安全的环境，促进用户之间的信息交流与协作。无论是在企业内部的团队合作，还是在跨行业的知识传播，OenMessage都能够提供可靠的解决方案。一、OenMessage平台概述OenMessage是一个基于云计算和互联网技术的信息共享平台，旨在通过高效的信息管理和沟通机制，打破信息孤岛，
大数据运维实战指南：零基础入门与核心技术解析（第一篇） emmm形成中大数据运维
大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark运维指南第六篇：大数据监控体系与自动化运维第七篇：云原生时代的大数据运维实践第八篇：数据安全与合规性管理第九篇：性能调优与故障排查案例集第
antv x6自定义节点(使用vue渲染节点） m0_55070913 前端 html linux 面试服务器
1、安装@antv/x6-vue-shape#npmnpminstall@antv/x6-vue-shape#yarnyarnadd@antv/x6-vue-shape#在vue2下还需要安装@vue/composition-apiyarnadd@vue/composition-api--dev主文件引入@antv/x6-vue-shapeimport"@antv/x6-vue-shape";安装
AI大模型报告 | 《中国数字人发展报告(2024)》（完整版PDF免费附下载） AI大模型_学习君人工智能 pdf AI大模型 RAG 大模型技术中国数字人发展报告2024 数字人
世界上的相遇都是久别重逢~数字人是通过多种数字智能技术创建，具备人类外观形象、声音语言、肢体动作与思维功能等特征的数字智能体。在技术层面，数字人通过数字建模手段实现，涵盖计算机图形学、动作捕捉、图形渲染、语音合成、深度学习等多项技术。当前，数字人正成为人工智能活跃的应用落地入口，对大数据、智能终端、具身智能等产业链接度、嵌入度、融合度较强，或将成为下一代互联网活跃的交互界面之一。公开数据显示，目前
论分布式存储系统架构设计一休哥助手架构软考系统架构师分布式
一、引言随着大数据、人工智能和物联网等技术的快速发展，数据存储需求呈现爆发式增长。传统集中式的存储系统架构逐渐暴露出性能瓶颈、可靠性差、扩展性不足等问题，无法满足日益增长的数据存储需求。在这种背景下，分布式存储系统（DistributedStorageSystem）应运而生。分布式存储系统通过将数据分散在多台设备上，实现了负载均衡、可靠性提升以及高效的数据访问，成为现代大规模数据存储的主流方案。本
什么是数据库中的宽表？見贤思齊数据分析数据库
数据库中的宽表（WideTable）是指一种包含大量列的表结构设计，通常通过将多个业务相关的数据字段（甚至来自不同表的字段）合并到一张表中，以减少多表关联查询的需求。宽表常见于数据仓库、OLAP（联机分析处理）系统或大数据场景，其核心目标是优化查询性能，尤其是在需要频繁进行复杂分析或生成报表的场景中。一、宽表的核心特点1.列数多宽表可能包含数十甚至数百列，涵盖多个维度和指标（例如订单信息、客户信息
数字孪生对于新基建的价值浅析，算是抛砖引玉。大千UI工场人工智能 UI设计 ui 小程序
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
面试基础---高并发高可用架构下读写分离与数据分片如何设计 WeiLai1112 后端面试架构职场和发展 java 后端分布式
高并发高可用架构深度实践：读写分离与数据分片设计及ShardingSphere源码解析引言：应对双十一洪峰的架构挑战在2023年阿里双十一购物节中，核心交易系统成功支撑了每秒58.3万笔的订单创建峰值。在这背后，读写分离与数据分片技术发挥了关键作用。本文将深入探讨这两种核心架构设计模式，结合ShardingSphere5.x源码解析，揭示高并发场景下的架构实现细节。一、读写分离架构设计与实现1.1
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY NODEXY@2014.8.12 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他