gaog2zh

0301yarn&mapredude入门-hadoop-大数据学习

文章目录

- 1 MapReduce概述
- 2 YARN
- - 2.1 yarn概述
  - 2.2 yarn与MapReduce关系
  - 2.3 yarn架构
  - 2.4 辅助角色
- 3 MapReduce & YARN部署
- - 3.1 集群规划
  - 3.2 配置文件
  - 3.3 分发配置文件
- 4 体验
- - 4.1 集群启动命令介绍
  - 4.2 提交MapReduce任务到YARN执行
- 结语

1 MapReduce概述

分布式计算是一种计算模型，它涉及将计算任务分解成多个子任务，并将这些子任务分配给多台计算机或节点以并行处理。这种计算模型的主要目标是提高计算性能、可伸缩性和可靠性，以处理大规模的数据和复杂的计算任务。分布式计算通常用于处理大数据、高性能计算（HPC）、网络服务和云计算等领域。

以下是分布式计算的一些关键概念和特点：

并行计算： 在分布式计算中，任务可以并行执行，因为它们被分配给多个计算节点。这可以显著提高计算速度，特别是对于需要大量计算资源的任务。
节点通信： 分布式计算系统中的不同节点需要进行通信，以协调任务的执行和数据的传输。通信协议和机制对于系统的性能和可靠性至关重要。
负载均衡： 为了充分利用所有计算节点，分布式系统通常需要有效地分配任务，以确保负载均衡。这可以通过动态调整任务分配来实现，以应对不同节点的性能差异。
容错性： 分布式系统需要具备容错机制，以应对计算节点的故障或通信问题。数据冗余、故障检测和恢复机制是确保系统可靠性的重要组成部分。
数据分布和复制： 在分布式计算中，数据通常分布在不同的节点上，这可以提高数据访问速度和可用性。数据的复制和分片技术可确保数据的安全性和可靠性。
资源管理： 有效管理计算资源（例如，CPU、内存和存储）是分布式计算的关键任务。资源管理器用于分配和监视资源的使用。
编程模型： 分布式计算通常涉及使用特定的编程模型，例如MapReduce、Spark、MPI（消息传递界面）等，以编写分布式应用程序。
云计算： 云计算是一种分布式计算的变体，它提供了虚拟化资源（如虚拟机和存储）的访问，使用户能够根据需要动态扩展或缩减计算资源。

分布式计算在众多领域中都有应用，包括大数据处理、科学研究、人工智能、金融建模、Web服务和网络应用。各种技术和工具，如Hadoop、Spark、Kubernetes和容器技术，已经涌现出来，用于支持分布式计算任务的管理和执行。这些技术使分布式计算更容易实现和操作，从而推动了分布式计算在现代计算中的重要性。

MapReduce是一种编程模型和处理框架，用于处理和生成大规模数据集的计算。它最初由Google开发用于内部数据处理，并在后来的论文中公开介绍，启发了Hadoop等开源实现。MapReduce模型非常适用于并行化和分布式处理大数据集，它简化了并行计算的任务，使开发人员能够专注于问题的本质而不必担心底层的分布式细节。

以下是MapReduce的基本概述：

Map阶段： 在MapReduce中，输入数据集被划分成许多小的数据块。每个数据块由一个Map任务处理。Map任务的目标是将输入数据块转换为一系列键值对（key-value pairs）。这些键值对通常代表数据中的某种特征或属性，例如单词计数中的单词和出现次数。
Shuffle和Sort阶段： 在Map阶段之后，MapReduce框架会将所有Map任务的输出按照键进行分组（shuffling），并将每个键值组合进行排序（sorting）。这确保了所有相同键的值都被传递给同一个Reduce任务。
Reduce阶段： Reduce任务的目标是对相同键的值进行汇总或聚合。每个Reduce任务处理一个或多个键的值，并生成最终的输出结果。通常，Reduce任务执行某种数据聚合操作，如求和、求平均值、查找最大值等。

MapReduce的关键特点和优势包括：

可扩展性： MapReduce模型能够轻松适应大规模数据集，只需增加更多的计算资源（例如，更多的计算节点）即可提高性能。
容错性： MapReduce框架具有内置的容错机制，能够处理计算节点故障，并重新分配任务以确保计算的正确性。
编程模型简单： 使用MapReduce模型，开发人员只需实现Map和Reduce函数，无需处理并发编程或分布式系统的复杂性。
适用于各种任务： MapReduce不仅适用于大规模数据处理，还可以用于分布式计算的各种任务，包括日志分析、数据挖掘、文本处理和机器学习等。

尽管MapReduce是一个强大的分布式计算框架，但在处理某些类型的任务时，如迭代算法（例如图算法）和复杂数据处理流水线时，可能不是最高效的选择。因此，一些新的分布式计算框架，如Apache Spark，已经涌现出来，以提供更灵活和高性能的替代方案。不过，MapReduce仍然在许多大规模数据处理任务中广泛使用。

2 YARN

2.1 yarn概述

Apache Hadoop YARN（Yet Another Resource Negotiator）是Hadoop生态系统的一个关键组件，用于集群资源的管理和作业调度。它被设计用于提高Hadoop集群的资源利用率，支持多种数据处理工作负载，并允许多个应用程序在共享的Hadoop集群上运行而不互相干扰。以下是YARN的主要概述：

资源管理： YARN的一个主要功能是集群资源的管理。它负责跟踪和监控集群中的所有可用资源，包括计算节点上的CPU、内存和存储等。这使YARN能够有效地分配资源给正在运行的应用程序，以满足它们的需求。
多租户支持： YARN允许多个应用程序共享同一集群，每个应用程序都可以使用集群资源的一部分。这种多租户支持允许不同团队或用户在同一Hadoop集群上运行自己的作业，而不会相互干扰。
作业调度： YARN包括一个调度器，负责决定哪个应用程序可以在集群上运行，以及它们可以使用的资源量。YARN支持不同的调度策略，例如先进先出（FIFO）、容量调度和公平调度，以满足不同类型工作负载的需求。
容错性： YARN具有一定程度的容错性，可以处理计算节点的故障。如果某个节点发生故障，YARN可以重新分配任务给其他节点，以确保应用程序的继续运行。
灵活性： YARN不仅限于Hadoop MapReduce作业。它还支持其他分布式计算框架，如Apache Spark、Apache Flink和Apache Tez等。这使得YARN成为一个通用的资源管理和作业调度平台。
可扩展性： YARN是一个高度可扩展的系统，可以管理大规模的集群，适应不断增长的工作负载需求。

总之，YARN是Hadoop生态系统的关键组件之一，它提供了一个强大的资源管理和作业调度平台，使Hadoop集群更加灵活、高效和多用途。它有助于最大化集群资源的利用率，并允许不同类型的应用程序在共享的集群上同时运行，从而促进了大数据处理和分布式计算的发展。

2.2 yarn与MapReduce关系

MapReduce在YARN上运行： 在Hadoop集群上运行MapReduce作业时，YARN扮演着关键角色。当用户提交MapReduce作业时，YARN负责分配计算资源给Map和Reduce任务，并监控它们的执行。YARN还负责容错处理，如果某个节点上的任务失败，它会将任务重新分配到其他节点上。因此，YARN为MapReduce作业提供了必要的资源管理和调度支持。

2.3 yarn架构

ResourceManager (RM)： ResourceManager是YARN架构的中央组件，负责整个集群的资源管理。它有两个主要子组件：
- ResourceScheduler： ResourceScheduler负责集群中可用资源的调度。它接受应用程序的资源请求，并决定将资源分配给哪个应用程序。YARN支持不同的调度策略，包括FIFO（先进先出）、容量调度和公平调度等。
- ApplicationManager： ApplicationManager负责应用程序的生命周期管理。每个正在运行的应用程序都有一个对应的ApplicationManager，负责与ResourceManager交互以获取所需的资源、跟踪任务的状态，并处理应用程序的完成和失败。
NodeManager (NM)： NodeManager是每个计算节点上的代理，负责监控该节点上的资源使用情况，并与ResourceManager通信。NodeManager的主要功能包括：
- 跟踪节点上可用的CPU、内存和其他资源。
- 启动和监视容器（Container），容器是运行应用程序任务的隔离环境。
- 报告节点的资源利用情况和容器状态给ResourceManager。
容器（Containers）： 容器是YARN中的基本执行单元，用于隔离和运行应用程序任务。容器封装了任务的执行环境，包括所需的CPU、内存和其他资源。NodeManager负责启动和监视容器的执行，ResourceManager负责管理容器的资源分配。
应用程序（Applications）： 应用程序是用户提交到YARN集群上运行的工作负载。每个应用程序由一个或多个任务组成，这些任务以容器的形式运行在集群上。ResourceManager为每个应用程序分配资源，并跟踪应用程序的状态。
资源（Resources）： 资源是计算节点上的计算能力、内存、存储等资源。YARN负责管理和分配这些资源，以满足应用程序的需求。
通信机制： 在YARN架构中，各个组件之间通过RPC（远程过程调用）和心跳机制进行通信。ResourceManager和NodeManager之间以及ResourceManager和ApplicationManager之间都有通信通道，用于协调资源分配和应用程序管理。

2.4 辅助角色

HistoryServer： HistoryServer是一个可选的组件，用于存储和提供已完成应用程序的历史信息。它允许用户查看先前运行的应用程序的日志、计数器和任务信息。这对于调试和性能分析非常有用。
ResourceManager High Availability (RM HA)： ResourceManager高可用性是一种配置选项，用于确保ResourceManager的高可用性。在启用RM HA时，有多个ResourceManager节点（通常是主备模式），如果一个ResourceManager节点出现故障，系统可以切换到备份节点，以确保集群的连续性。
NodeManager启动器（NodeManager Launcher）： NodeManager启动器是一个辅助进程，负责启动NodeManager。它在集群启动时启动NodeManager，以确保节点的正常运行。
日志聚合器（Log Aggregator）： YARN的日志聚合器用于将应用程序和任务的日志从各个计算节点收集到一个中心位置，以便进行集中管理和检索。这有助于日志的持久性存储和方便的日志查看。
跨集群复制（Cross-Cluster Replication）： 这个角色允许将应用程序和数据从一个YARN集群复制到另一个YARN集群，通常用于跨数据中心或多云环境中的数据复制和备份。
应用程序代理（Application Proxy）： 应用程序代理是一个可选的组件，用于代理应用程序的状态和信息，以支持外部监控和管理工具与YARN的集成。

3 MapReduce & YARN部署

运用之前配置好的3台服务器及hdfs集群配置，可以参考下面连接或者自行百度

3.1 集群规划

有3台服务器，其中node1配置较高

集群规划如下：

主机	角色
node1	ResourceManager NodeManager ProxyServer JobHistoryServer
node2	NodeManager
node3	NodeManager

3.2 配置文件

在node1机器 $HADOOP_HOME/etc/hadoop路径下配置如下内容，

MapReduce配置文件如下：

mapred-env.sh

# 设置jdk
export JAVA_HOME=/export/server/jdk
# 设置JobHistoryServer进程内存512M
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=512
## 设置日志级别INFO
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA

mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.namename>
    <value>yarnvalue>
    <description>MepReduce的运行框架设置为yarndescription>
  property>
  <property>
    <name>mapreduce.jobhistory.addressname>
    <value>node1:10020value>
    <description>历史服务器通讯端口node1:10020description>
  property>
  <property>
    <name>mapreduce.jobhistory.wabapp.addressname>
    <value>node1:19888value>
    <description>历史服务器web端口node1:19888description>
  property>
  <property>
    <name>mapreduce.jobhistory.intermediate-done-dirname>
    <value>/data/mr-history/tmpvalue>
    <description>历史信息在HDFS的记录临时路径description>
  property>
  <property>
    <name>mapreduce.jobhistory.done-dirname>
    <value>/data/mr-history/donevalue>
    <description>历史信息在HDFS中的记录路径description>
  property>
  <property>
    <name>yarn.app.mapreduce.am.envname>
    <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    <description>MapReduce HOME 设置为HADOOOP_HOMEdescription>
  property>
  <property>
    <name>mapreduce.map.envname>
    <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
  property>
  <property>
    <name>mapreduce.reduce.envname>
    <value>HADOOP_MAPRED_HOME=$HADOOP_HOMEvalue>
    <description>MapReduce HOME 设置为HADOOP_HOMEdescription>
  property>
configuration>

yarn-env.sh

# 设置jdk
export JAVA_HOME=/export/server/jdk
# 设置HADOOP_HOME
export HADOOP_HOME=/export/server/hadoop
# 设置配置文件路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
# 设置日志路径
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

yarn-site.xml

<configuration>
  <property>
    <name>yarn.resourcemanager.hostnamename>
    <value>node1value>
    <description>ResourceManager 设置在node1description>
  property>
  <property>
    <name>yarn.nodemanager.local-dirsname>
    <value>/data/nm-localvalue>
    <description>NodeManager中间数据本地存储路径description>
  property>
  <property>
    <name>yarn.nodemanager.log-dirsname>
    <value>/data/nm-logvalue>
    <description>NodeManager数据日志本地存储路径description>
  property>
  <property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
    <description>为MapReduce开启shuffle服务description>
  property>
  <property>
    <name>yarn.log.server.urlname>
    <value>http://node1:19888/jobhistory/logsvalue>
    <description>历史服务器URLdescription>
  property>
  <property>
    <name>yarn.web-proxy.addressname>
    <value>node1:8089value>
    <description>代理服务器主机和端口description>
  property>
  <property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
    <description>开启日志聚合description>
  property>
  <property>
    <name>yarn.nodemanager.remote-app-log-dirname>
    <value>/tmp/logsvalue>
    <description>程序日志HDFS的存储路径description>
  property>
  <property>
    <name>yarn.resourcemanager.scheduler.classname>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedulervalue>
    <description>选择公平调度器description>
  property>
configuration>

3.3 分发配置文件

MapReduce和YARN的配置文件修改好后，需要分发到其它的服务器节点中。

cd $HADOOP_HOME/etc/hadoop
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node2:`pwd`
scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml node3:`pwd`

分发完成配置文件，就可以启动YARN的相关进程啦。

4 体验

4.1 集群启动命令介绍

常用的进程启动命令如下：

•一键启动YARN集群：

$HADOOP_HOME/sbin/start-yarn.sh

•会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager

•会基于workers文件配置的主机启动NodeManager

•一键停止YARN集群：

$HADOOP_HOME/sbin/stop-yarn.sh

•在当前机器，单独启动或停止进程

$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager|nodemanager|proxyserver

•start和stop决定启动和停止

•可控制resourcemanager、nodemanager、proxyserver三种进程

•历史服务器启动和停止

$HADOOP_HOME/bin/mapred --daemon start|stop historyserver

现在我们来启动hdfs和yarn，node1节点hadoop用户

start-dfs.sh
start-yarn.sh
mapred --daemon start historyserver

jps查看node1节点运行java进程

# node1
2288 WebAppProxyServer
1973 ResourceManager
1416 DataNode
1705 SecondaryNameNode
2090 NodeManager
1290 NameNode
2605 JobHistoryServer
# node2
1267 NodeManager
1141 DataNode
# node3
1266 NodeManager
1140 DataNode

4.2 提交MapReduce任务到YARN执行

提交自带的MapReduce程序到yarn执行

在部署并成功启动YARN集群后，我们就可以在YARN上运行各类应用程序了。

YARN作为资源调度管控框架，其本身提供资源供许多程序运行，常见的有：

•MapReduce程序

•Spark程序

•Flink程序

Spark和Flink是大数据后续的学习内容，我们目前先来体验一下在YARN上执行MapReduce程序的过程。

•可以通过 hadoop jar 命令来运行它，提交MapReduce程序到YARN中。

语法： hadoop jar 程序文件 java类名 [程序参数] ... [程序参数]

执行自带示例jar包 $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar 这个文件内统计单词的程序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar workcount hdfs://node1:8020/gaogzhen/bigdata hdfs://node1:8020/output/wc1

查看执行结果：

[hadoop@node1 software]$ hdfs dfs -ls /output/wc1
Found 2 items
-rw-r--r--   3 hadoop supergroup          0 2023-09-04 19:37 /output/wc1/_SUCCESS

[hadoop@node1 software]$ hdfs dfs -cat /output/wc1/*
13413	1
32323`	1
fsl1	1
gaogzhen	2
goagzhen	1
node1	3
node2	2
node3	1
sdfasf	1

结语

如果小伙伴什么问题或者指教，欢迎交流。

❓QQ:806797785

参考链接:

[1]大数据视频[CP/OL].2020-04-16.

[2]0102阿里云配置3台ECS服务器-大数据学习[CP/OL].

[3]0201hdfs集群部署-hadoop-大数据学习[CP/OL].

Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
使用CRACO自定义 Webpack 配置黄毛火烧雪下 React webpack 前端 node.js
1、为什么要用CRACO？默认情况下，CRA的Webpack配置是隐藏的，如果你需要修改Webpack，比如：✅CDN配置✅配置alias（路径别名）✅修改Less/Sass变量✅添加Babel插件✅优化Webpack构建（如SplitChunks、CDN加载）✅支持TailwindCSS✅移动端适配启用PostCSS+px转rem如果不用CRACO，你必须运行yarneject/npmrunej
`fetch` 和 `axios`的前端使用区别 Studying_swz blog 前端
欢迎访问的个人博客：https://swzbk.site/，加好友，拉你入福利群fetch和axios`是前端常用的两种HTTP客户端，以下是它们的核心区别及适用场景：一、本质区别特性fetchaxios类型浏览器原生API（部分环境需polyfill）第三方库（需通过npm/yarn安装）底层实现基于Promise基于Promise，封装了XMLHttpRequest二、核心功能对比1.请求与响
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
vue3当中使用Pinia的store的组件化开发模式堕落年代 vue vue.js
一、安装与初始化安装Pinianpminstallpinia#或yarnaddpinia目的：引入Pinia核心库，为状态管理提供基础支持。挂载Pinia实例在main.js中初始化并注入Vue应用：import{createApp}from'vue'import{createPinia}from'pinia'importAppfrom'./App.vue'constapp=createApp(A
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l