ckqqqqq

配置伪分布式hadoop集群（附常见配置问题）

配置伪分布式hadoop并运行wordcount程序

ps：本教程在虚拟机和阿里云服务器上都配置成功，建议使用虚拟机（容易成功）。本实验最后将运行hadoop自带的wordcount程序用以检验配置是否成功。

实验目的

安装单机伪分布式Hadoop并运行程序，熟悉hadoop集群的部署操作。

目录见右边

实验内容

每人在自己本地电脑上正确安装和运行伪分布式Hadoop系统。
安装完成后,自己寻找一组英文网页数据,在本机上
运行Hadoop系统自带的WordCount可执行程序文件 ,并产生输出结果
实验结果提交：要求书写一个实验报告，其中包括：

系统安装运行的情况
实验数据说明（下载的什么网页数据，多少个HTML或text文件)
程序运行后在Hadoop Web作业状态，查看界面上的作业运行状态屏幕拷贝
实验输出结果开头部分的屏幕拷贝
实验体会

实验环境

硬件环境

x86笔记本电脑，Intel Core i5，NVIDIA GeForce MX150，50GB RAM

网络环境

校园网WiFi环境

软件环境

hdoop版本2.10.1

jdk版本1.8

阿里云服务器Ubuntu20.04 server ESC服务器

Ubuntu20.04 Desktop 虚拟机

VMware

XShell XFTP Xmanager等远程ssh工具\

实验方案

总体方案设计

实验结果

一共尝试以下实验

实验名称实验平台结果

部署并运行haoop伪分布式配置阿里云ESC服务器成功
部署并运行haoop伪分布式配置虚拟机部署成功成功

系统安装运行的情况

见6.1-6.8

实验数据说明

名称数据类型运行情况统计结果

实验数据一 XML 成功见5.3
实验数据二 TXT 成功见5.3

数据一

数据二

程序运行后在HadoopWeb作业界面查看作业运行状态截图

程序运行后在8088端口，启用yarn后的web截图

查看其具体信息

image-20220404124442482

img

实验输出结果开头部分的屏幕拷贝

wordcount运行界面截图（开头部分）

image-20220404232629721

Wordcount运行界面（长截图）

image-20220404232441056

wordcount的结果（开头部分）

image-20220404233632769

实验收获

见7.1-8.1

wordcount的结果（长截图）

image-20220404232411987

实验过程

环境准备：配置虚拟机

可以选择在VMware中的虚拟机中安装，也可以选择阿里云服务器安装，两种安装方式笔者都尝试过，

但是值得注意以下几点：

由于hadoop消耗较多内存和CPU资源，,阿里云虚拟机请选择较多资源的虚拟机，笔者选择的ESC虚拟机（双核
2G-40G）运行hadoop时经常崩溃，建议选择内存较多CPU性能较强的云服务器
运行阿里云ESC虚拟机请在防火墙处请开放如下端口
image-20220405191434409

开放上述端口后，才可以通过本机浏览器远程访问hadoop webUI地址为

http://阿里云IP:50070/

http://阿里云IP:8088/

http://阿里云IP:特定端口/

本实验针对Ubuntu虚拟机，如果用的是 CentOS/RedHat
系统，请查看相应的CentOS安装Hadoop教程_单机伪分布式配置

环境准备：配置ssh免密登录

集群、单节点模式都需要用到 SSH 登陆（类似于远程登陆，你可以登录某台
Linux 主机，并且在上面运行命令），Ubuntu 默认已安装了 SSH
client，此外还需要安装 SSH server：

sudo apt-get install openssh-server

Shell 命令

安装后，可以使用如下命令登陆本机：

ssh localhost

Shell
命令，如果登陆时需要每次输入密码，我们需要配置成SSH无密码登陆比较方便，便于hapoop操作。

首先退出刚才的 ssh，就回到了我们原先的终端窗口，然后利用 ssh-keygen
生成密钥，并将密钥加入到授权中：

exit                           # 
ssh localhostssh-keygen -t rsa              # 都按回车
cat ./id_rsa.pub >> ./authorized_keys       # 加入授权
ssh localhost #如果不需要密码就算成功

ssh localhost免密登录成功界面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9pBGIPa5-1649387444127)(http://ckqqqq.gitee.io/csdn/csdn_hadoop_install/image13.png)]

image-20220325133444614

步骤一：安装java环境

下载jdk1.8安装包

https://mirrors.tuna.tsinghua.edu.cn/AdoptOpenJDK/8/jdk/arm/linux/

wget https://mirrors.tuna.tsinghua.edu.cn/AdoptOpenJDK/8/jdk/arm/linux/OpenJDK8U-jdk_arm_linux_hotspot_8u322b06.tar.gz

image-20220325124049087

解压

tar -zxvf 安装包名

image-20220325124102287

移动并重命名JDK包。

下载java1.8 可以选择ARM或者X64

wget XXX .tar.gz
tar -zxvf hadoop-2.10.1.tar.gz -C /java-se-8u41-ri/
mv java-se-8u41-ri/ /usr/java8

image-20220325124140202

配置Java环境变量。

echo 'export JAVA_HOME=/usr/java8' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
source /etc/profile

image-20220325124201558

5.执行以下命令，查看Java是否成功安装。

java -version #注意不是java --version （离大谱了）

此处碰到问题

步骤二：下载hadoop

下载Hadoop安装包（2.10.1）

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NYr0bH9L-1649387444131)(http://ckqqqq.gitee.io/csdn/csdn_hadoop_install/image18.png)]

image-20220325125509168

解压Hadoop安装包

解压Hadoop安装包至/opt/hadoop （记住该地址）

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/current2/

tar -zxvf hadoop-2.10.1.tar.gz -C /opt/
mv /opt/hadoop-2.10.1 /opt/hadoop

配置Hadoop环境变量。

echo 'export HADOOP_HOME=/opt/hadoop/' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profile
source /etc/profile

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OgaHAtzY-1649387444132)(http://ckqqqq.gitee.io/csdn/csdn_hadoop_install/image19.png)]

image-20220325130209802

添加Java路径

（如果已将java加入环境变量可以跳过这一步）

执行以下命令，修改配置文件yarn-env.sh和hadoop-env.sh。

echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/yarn-env.sh
echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/hadoop-env.sh

image-20220325132726184

测试Hadoop是否安装成功。

hadoop version

如果返回以下信息，则表示安装成功。

image-20220325132750229

各xml配置文件含义

一般来说配置文件夹路径为

所安装的路径/etc/hadoop/

下文中操作的所有xml文件皆是在该文件夹中的，下文主要有以下几个配置文件要修改：
hadoop-env.sh:Hadoop环境变量设置
core-site.Xml:主要完成NameNode的iP和端口设置
hdfs-site.Xml:主要完成HDFS的数据块副本等参数设置
mapred-site.Xml:主要完成JobTracker IP和端口设置，能够设置yarn的WebUI
conf/slaves:完成Slaves节点IP设置
注：这个过程仅需在主节点上进行，然后将随着主机上安装
好的Hadoop目录一起复制到所有从节点

可以通过下列命令查看XML配置文件

cd  所安装的路径/etc/hadoop/
#本例中为 /opt/hadoop/etc/hadoop/
ls #可查看xml配置文件

步骤三：运行伪分布式hadoop

.修改Hadoop配置文件core-site.xml。

执行以下命令开始进入编辑页面。

sudo apt-get install vim
vim /opt/hadoop/etc/hadoop/core-site.xml

节点内插入如下内容。
分别指定临时文件路径和core-site端口
Core-site.xml


    
        hadoop.tmp.dir
        file:/usr/local/hadoop/tmp
        Abase for other temporary directories.
    
    
        fs.defaultFS
        hdfs://localhost:9000

按i进入编辑模式，按Esc键退出编辑模式，输入:wq保存退出。

image-20220325133219759

修改Hadoop配置文件hdfs-site.xml

修改Hadoop配置文件hdfs-site.xml，执行以下命令开始进入编辑页面。

vim /opt/hadoop/etc/hadoop/hdfs-site.xml

hdfs-site.xml


    
        dfs.replication
        1
    
    
        dfs.namenode.name.dir
        file:/usr/local/hadoop/tmp/dfs/name
    
    
        dfs.datanode.data.dir
        file:/usr/local/hadoop/tmp/dfs/data

常见端口介绍

端口作用

9000 fs.defaultFS，如：hdfs://172.25.40.171:9000
9001 dfs.namenode.rpc-address，DataNode会连接这个端口
50070 dfs.namenode.http-address
50090 dfs.namenode.secondary.http-address，如：172.25.39.166:50090
50020 dfs.datanode.ipc.address
50475 dfs.datanode.https.address
50010 dfs.datanode.address，DataNode的数据传输端口
8088 yarn.resourcemanager.webapp.address，YARN的http端口

步骤四：启动Hadoop伪分布式

格式化HDFS文件系统

警告：该命令不可重复执行，否则执行后可能导致出现start-yarn卡死问题

hadoop namenode -format

image-20220325141140357

启动Hadoop

遇到问题上面的命令执行得特别慢，环境：阿里云

解决方法：重启阿里云系统，阿里云ESC服务器空间太小导致

碰到两个问题一是要输入密码

依次执行以下命令，启动Hadoop。
start-dfs.sh

image-20220326194537142

正常运行截图如上

如果此处出现错误请看文末的错误与调试模块

查看已启动进程

启动成功后，执行以下命令，查看已成功启动的进程。

启动完成后，可以通过命令 jps
来判断是否成功启动，若成功启动则会列出如下进程:

NameNode
DataNode
SecondaryNameNode`
jps

jps

image-20220404123340592

问题：为什么启动 Hadoop 后，见不到书上所说的 JobTracker 和 TaskTracker。

答案：这是因为新版的 Hadoop 使用了新的 MapReduce 框架（ YARN，Yet
Another Resource Negotiator）。

问题：如果未出现上述进程怎么办？

答案：见后文错误与调试模块

浏览器访问（50070）

https://阿里云公网IP:50070 #如果用阿里云服务器，请确保内存足够&防火墙开放
https://localhost:50070 #如果在 本机访问

显示如下界面则表示Hadoop伪分布式环境搭建完成。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cPv6NR2A-1649387444136)(http://ckqqqq.gitee.io/csdn/csdn_hadoop_install/image26.png)]

步骤五：配置并且启动Yarn

这里是mapreduce的yarn配置

什么是yarn

YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于
MapReduce 之上，提供了高可用性、高扩展性，YARN
的更多介绍在此不展开，有兴趣的可查阅相关资料。

上述通过 start-dfs.sh 启动 Hadoop，仅仅是启动了 MapReduce
环境，我们可以启动 YARN ，让 YARN 来负责资源管理与任务调度。

修改mapred-site.xml

首先修改配置文件 mapred-site.xml，这边需要先进行重命名：

cd /opt/hadoop/etc/hadoop/
mv mapreduce.xml.template mapreduce.xml
vim mapreduce.xml

mapreduce.xml
指定yarn为mapreduce的框架


    
        mapreduce.framework.name
        yarn

修改yarn-site.xml

进入配置文件夹

vim yarn-site.xml

    
        yarn.nodemanager.aux-services
        mapreduce_shuffle

启动yarn

start-yarn.sh      # 启动YARN
mr-jobhistory-daemon.sh start historyserver  # 开启历史服务器，才能在Web中查看任务运行情况

查看已成功启动的进程

上面是出现的错误一3.启动成功后，执行以下命令，查看已成功启动的进程。

jps

image-20220326194654626

服务器访问（8088）

https://阿里云公网IP:8088 #如果用阿里云服务器，请确保内存足够&防火墙开放
https://localhost:8088 #如果在 本机访问

image-20220404124442482

成功界面如上（没有Wordcount任务）

停止hadoop运行

 stop-all.sh

或者

 stop-dfs.sh
 stop-yarn.sh

步骤六：运行wordcount程序

问题：hadoop fs 和hdfs dfs区别

(41条消息) hadoop fs、hadoop dfs与hdfs dfs命令的区别及hadoop
fs命令说明_Shyllin的博客-CSDN博客_fs是什么意思

#在hadoop中建立input文件夹

hdfs dfs -mkdir input

将hadoop本地文件夹放入input文件夹中

hdfs dfs -ls input

查看input文件夹

hdfs dfs -put ./etc/hadoop/*.xml input #此时结果应该是一堆xml文件

image-20220326203641933

寻找example文件

如果版本为hadoop2.X，则一般来说该路径下会存在
hadoop-mapreduce-examples-2.10.1.jar 文件，如下图

安装文件夹/share/hadoop/mapreduce
我的如下 /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar

image-20220405200345628

运行wordcount

命令为

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount input /xml_output/

解释

hadoop jar example所在路径/hadoop-mapreduce-examples-2.10.1.jar workcount  输入文件名 输出文件夹位置

image-20220404232441056

查看wordcount的结果

web端可看运行状态

image-20220404124442482

hdfs dfs -get xml_output ./xml_output 
#解释hdfs dfs -get HDFS上输出文件夹 ./本地文件夹
cat ./xml_output/* 
#查看结果

image-20220404232411987

实验收获

问题与调试

本次大数据实验笔者遇到了无数是问题T_T，下面是笔者遇到的问题与解决方法，可供大家参考

问题一：启动伪分布式时缺少 datanode/namenode/secondary/

image-20220403155931602

启动完成后，可以通过命令 jps
来判断是否成功启动，若成功启动则会列出如下进程:

NameNode
如果不存在请检查xml文件配置
DataNode
如果不存在可
[https://www.cnblogs.com/zephyr-1/p/6414081.html]
SecondaryNameNode
如果不存在请重启

stop-all.sh
start-dfs.sh

image-20220404123340592

问题二：报错如下

There are 0 datanode(s) running and no node(s) are excluded in this
operation.、

解决方法：https://blog.csdn.net/weixin_41374755/article/details/107146445

问题三：启动yarn时卡死（这个卡了我半天）

start-yarn.sh

image-20220326194619108

解决方法：

出现上述问题可能是格式化两次hadoop，导致没有datanode
解决方法1：重启linux,再使用start-dfs.sh和start-yarn.sh 重启一下hadoop
解决办法2：找到hadoop安装目录下
hadoop-2.4.1/data/dfs/data里面的current文件夹删除

问题四：启动dfs时出现以下错误

image-20220325134233714

解决方法：hdfs-site.xml配置错误，检查配置

问题五：connect错误

image-20220403211453780

解决方式：.

检查ssh

启动yarn

image-20220403211536586

问题六：hdfs dfs -mkdir错误

解决方法：

image-20220403210304944

问题七：Connect Refuse

bug

mkdir: Call From iZ8vbhsfhga8yj95cx1410Z/172.19.51.155 to localhost:9000
failed on connection exception: java.net.ConnectException: Connection
refused; For more details see:
http://wiki.apache.org/hadoop/ConnectionRefused

image-20220403160727744

解决方法：检查yarn配置，

问题八：服务器卡死

原因：阿里云内存和CPU资源不足，阿里云差评！

解决方法：

使用top命令kill掉占用大量资源的进程，重新启动阿里云服务器&服务器升级扩容，换服务器。

问题九

解决方法：检查yarn配置，

实验心得

本次实验过程将在4月10日前上传到我的CSDN 博客上(用户名:
ckqqqqq)。连接还没有出来，因为博客图床还在审核中。

本次大数据实验中我大约碰到了10个问题，这些问题的原因和解决方法我总结如上（见问题与调试模块），在解决问题的过程中我加深了对linux和hadoop的理解，提升了我的实践能力。

此外除了在阿里云上配置hadoop伪分布式外，我还在自己的**虚拟机上尝试过配置hadoop伪分布式。**总的来说，后者比前者容易，因为前者要考虑防火墙和服务器资源等问题。

~~~ 如果觉得有用的话，点个赞吧[(￣▽￣)*]

你可能感兴趣的:(大数据,hadoop,阿里云,分布式)

学习使用 Git 和 GitHub 开发项目的教程推荐 vortex5 学习 git github
Git和GitHub是现代软件开发中不可或缺的工具，无论你是个人开发者还是团队成员，掌握它们都能极大提升效率。本文精选了一系列优质教程资源，涵盖从基本Git命令到进阶多人协作的内容。这些教程既有文字形式，也有视频或交互式资源，适合不同学习风格的人。一、为何要学习Git和GitHub？Git是一个分布式版本控制系统，让你追踪代码变更、回滚错误并与他人协作；GitHub则将其扩展为一个云端平台，支持代
Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
腾讯云与阿里云，哪个更好些？云计算开发者小李阿里云腾讯云
借用一部电视剧的名字：都挺好！根据IDC最新的数据统计显示，国内前二的云计算平台分别是阿里云、腾讯云，分别背靠阿里、腾讯两大互联网集团，接下来我们就简单的介绍下两大平台。阿里云：国内最早成立的云计算平台，并且一开始就是独立运营，马爸爸宣称每年投入10亿，连续投入10年，最终阿里云的发展没有让阿里人失望，目前已成长为超千亿美元的独角兽，阿里云也由最早的带有明显淘系特色的云平台成长为综合性的云计算平台
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
火山云服务器在市场中的用户占有量苹果企业签名分发服务器火山引擎
火山云服务器（即字节跳动旗下的火山引擎云服务）作为云计算市场的新兴参与者，其用户占有量目前尚未进入行业前列，但凭借字节跳动的技术背景和资源支持，正在逐步扩大市场渗透。以下是综合市场现状的分析：---###**1.整体市场格局**-**中国云计算市场前三**：阿里云、华为云、腾讯云占据主导地位（合计超60%份额）。-**第二梯队**：天翼云、AWS中国、百度智能云、京东云等。-**火山引擎**：属于
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
Java面试八股之Redis集群Cluster 天哥不爱学习 Java面试八股文 java 面试 redis
Redis集群ClusterRedisCluster是一种基于数据分片（Sharding）的分布式缓存和存储系统，它实现了数据的水平扩展、高可用性和自动故障转移。以下是对RedisCluster模式详细实现流程的描述：1.初始化与配置部署节点：在不同的服务器上部署多个Redis节点，每个节点既可以作为主节点也可以作为从节点。配置集群模式：为每个节点启用Cluster模式，指定Cluster所需的端
鸿蒙API14开发【@ohos.account.distributedAccount (分布式账号管理)】短距通信服务移动开发技术栈鸿蒙开发 harmonyos 分布式华为鸿蒙系统鸿蒙通信
本模块提供管理分布式账号的一些基础功能，主要包括查询和更新账号登录状态。说明本模块首批接口从APIversion7开始支持。后续版本的新增接口，采用上角标单独标记接口的起始版本。导入模块import{distributedAccount}from'@kit.BasicServicesKit';distributedAccount.getDistributedAccountAbilitygetDis
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
【阿里百炼大模型-使用】 y_dd 深度学习语言模型人工智能
参照阿里云百炼网址服务配置开通服务如果没有注册阿里云账号，先注册一个https://www.aliyun.com/?spm=5176.account-console-pc.console-base_top-nav.dlogo.10d24bab70FmIm，注册完毕用它登录阿里云百炼，然后开通服务（即使是免费的开元模型也需要开通）获取API-key在账户这里选择API-KEY，进入这个页面，创建一个
Fastdfs-V5.11使用docker部署集群(X86) 礁之 Linux系列 dfs java docker
文章目录一、Fastdfs介绍二、部署信息三、步骤tracker/storage机器的compose内容storage机器的composetracker与storage启动目录层级与配置文件client.confstorage.conf查看集群信息测试测试集群扩容与缩减nginx配置一、Fastdfs介绍FastDFS是一款高性能的分布式文件系统，特别适合用于存储和管理大量的文件二、部署信息使用d
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
policy_does_not_allow_file_overwrite 前端uniapp云存储
uniapp云开发阿里云上传文件uniapp的出现，让前端人员和后端人员实现了“全栈”的小梦想，当然，真正跨端开发的时候，还是会遇到不少的问题，比如今天我们的主角，uniCloud.uploadFile,一般来说，这个api文件名动态生成，云端返回文件存储的链接即可，但是，假如我们的产品是针对用户存储的，即用户的头像、私有文件、图片等具有唯一性，要单独开个目录存放的时候，同样的文件名上传会存在无法
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
2025实战指南：基于VMware 17与Linux的Dify私有化部署——从零构建企业级AI开发平台 Tec_Bit 人工智能 centos linux 人工智能 chatgpt
一、环境准备与系统配置1.1VMware17虚拟机创建‌新建虚拟机‌：选择“典型”安装模式，指定CentOS7镜像文件（建议使用阿里云镜像源获取最新稳定版）‌1‌硬件资源配置‌：内存：≥4GB（推荐8GB）处理器：2核以上磁盘空间：≥40GB（选择“将虚拟磁盘存储为单个文件”）安装完系统使用远程工具连接centos，我这里使用的是华为的远程工具codearts,纯属个人习惯！！！其他工具也可以使用
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
大模型相关网站整理 gorgor在码农 AI实战 python java 人工智能
目录一：大模型开发网站1.开源模型平台2.私有化部署大模型3.LangChain中文网4.LangChain4j5.通过标准的OpenAIAPI格式访问所有的大模型二：国内AI大模型应用盘点聊天1、阿里云--通义千问2、科大讯飞--星火大模型园3、百度--文心一言4、字节跳动豆包5、智谱华章--智谱清言6、华为云园--盘古7、百川智能--百小应8、腾讯--腾讯元宝9、商汤--商量10、MiniMa
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
【Apache Storm】茉菇 apache storm 大数据
一、Storm简介1、概述官网地址：https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。2、核心功能分布
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
【C#语言】C#中的同步与异步编程：原理、示例与最佳实践 JosieBook #C#语言 c#开发语言同步异步
文章目录⭐前言⭐一、同步编程：简单但低效的线性执行代码示例执行流程示意图同步编程特点⭐二、异步编程：非阻塞的高效执行代码示例执行流程示意图异步编程核心机制适用场景⭐三、并行异步编程：最大化性能代码示例执行流程示意图并行异步优势⭐四、同步vs异步vs并行异步：对比总结⭐五、实际开发中的选择建议何时用同步？何时用异步？何时用并行异步？⭐总结标题详情作者JosieBook头衔CSDN博客专家资格、阿里云
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

配置伪分布式hadoop集群（附常见配置问题）

配置伪分布式hadoop并运行wordcount程序

实验目的

实验内容

实验环境

硬件环境

网络环境

软件环境

实验方案

总体方案设计

实验结果

系统安装运行的情况

实验数据说明

程序运行后在HadoopWeb作业界面查看作业运行状态截图

实验输出结果开头部分的屏幕拷贝

wordcount运行界面截图（开头部分）

Wordcount运行界面（长截图）

wordcount的结果（开头部分）

实验收获

wordcount的结果（长截图）

实验过程

环境准备：配置虚拟机

环境准备：配置ssh免密登录

步骤一：安装java环境

下载jdk1.8安装包

解压

移动并重命名JDK包。

配置Java环境变量。

步骤二：下载hadoop

下载Hadoop安装包（2.10.1）

解压Hadoop安装包

配置Hadoop环境变量。

添加Java路径

测试Hadoop是否安装成功。

各xml配置文件含义

步骤三：运行伪分布式hadoop

.修改Hadoop配置文件core-site.xml。

修改Hadoop配置文件hdfs-site.xml

步骤四：启动Hadoop伪分布式

格式化HDFS文件系统

启动Hadoop

查看已启动进程

浏览器访问（50070）

步骤五：配置并且启动Yarn

什么是yarn

修改mapred-site.xml

启动yarn

查看已成功启动的进程

服务器访问（8088）

停止hadoop运行

步骤六：运行wordcount程序

#在hadoop中建立input文件夹

将hadoop本地文件夹放入input文件夹中

查看input文件夹

寻找example文件

运行wordcount

查看wordcount的结果

实验收获

问题与调试

问题一：启动伪分布式时缺少 datanode/namenode/secondary/

问题二：报错如下

问题三：启动yarn时卡死（这个卡了我半天）

问题四：启动dfs时出现以下错误

问题五：connect错误

问题六：hdfs dfs -mkdir错误

问题七：Connect Refuse

问题八 ：服务器卡死

问题九

实验心得

~~~ 如果觉得有用的话，点个赞吧[(￣▽￣)*]

你可能感兴趣的:(大数据,hadoop,阿里云,分布式)

问题八：服务器卡死