涤生手记

超详细版企业离线部署CDH6.10集群与配置使用

进入大数据行业数载，也从一个开发小白走到了今天，期间也历经过一摸番着石头过河的探索，到如今的胸有点墨；玩过demo,使用过负责过上千节点的大数据集群开发与使用；被人面虐过，也面跪过一些人。如今，趁着自己心中有火，眼里有光的年纪，把自己的一点心得与经验分享大数据行业的爱好者。也希望有助于后面的童鞋少走弯路，欢迎大家私信交流。持续每周更新。

死磕大数据系列

1.死磕大数据系列将从企业上千节点集群的搭建（包括cdh集群，以及升级后apache hadoop3集群），性能优化，牵扯到的组件包括HDFS,MapReduce,YARN,Hive,Spark,Zookeeper,Hbase,Kafka,Flink,Flume等搭配使用与优化，这次不搞demo，只展示大规模集群的生产应用与实施方案；
2.深入组件内部死磕HDFS内部原理，NameNode性能优化，datanode数据存储设计，深入HDFS的存储架构，知其然又知其所以然，实时分享大规模集群存储相关设计，优化以及实战运维经验；
3.死磕MR/Hive,Spark等计算引擎，实时案例展示企业开发中遇到的性能瓶颈，异常分析与性能优化，解决方案；我一直觉得只有碰到过性能瓶颈才能谈优化，脱离此都是纸上谈兵。
4.死磕YARN三大组件，RM,NM,APPmaster，展示上千节点集群资源调度设计，优化改造的方案与实施；让你明白集群优化前后的巨大差别，合理优化的重要性；
5.死磕Kafka/Flume，SparkStreaming等流式组件，展示日均500Tb流式数据组件设计与使用，分享遇到的性能瓶颈与组件优化；
6.死磕大数据架构，案例分析让你见识企业中数仓建模的来龙去脉，上百PB数据的处理，你会发现实战其实与书本相差甚远。大规模集群组件的选型与设计；大厂实际中大数据开发与管理的规范，如何提高效率；

1.生产CDH集群搭建前准备

对于大数据初学者，强烈建议使用cdh版本，使用cm搭建管理集群进行测试，学习。因为更加好用，方便，直观，见识下啥叫成熟的架构。学习要先见森林，再见树木，最后再见森林。不要一头扎进去linux黑窗口，那不是酷，那是傻。可以说80%的大数据开发者在大厂里是不允许直接操作linux跳板机的，而是成型的，成熟的，稳定的大数据web开发环境。

中小型的公司，使用CDH集群的还是很多，因为实在很方便，免费的且强大的功能。一般中小型公司节点个数从几十台到几百台不等，可以考虑使用CDH。但是现在CDH和HDP合并了，从今年2月以后CDH不支持在线下载安装了（收费），且免费的版本不超过100台节点了，很多功能还用不了。像我们公司上千节点，现在都在迁移开源的 Apache Hadoop3了，组件的二次开发，监控平台开发等成本很高。

但是学会CDH的生产部署，在小公司还是有市场的。安装部署集群前，最重要的是先把集群的主要服务架构部署清楚，一般生产上稍微规模大点的集群，核心服务都会使用单独的服务器，不会在上面开启计算和存储节点的。考虑成本的话，也会在不影响集群核心服务的同时存储计算等混合使用。

下面以十几台服务器为例，全流程展示生产CDH集群的安装与使用,展示使用的系统centos6.9，linux命令比较简单，centos7的话对应命令直接百度。关于CDH集群组件与介绍等可以百度，也可以参考CDH官网手册，可以这里下载

链接：https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取码：abcD

1.1 安装前服务器核心配置与检查

1.1.1.关闭防火墙

参考命令：service iptables status/ stop

1.1.2.关闭 Selinux

参考命令：vim /etc/selinux/config --> SELINUX=disable

1.1.3.所有主机hosts-ip映射到每个hosts

参考命令：vi/cat /etc/hosts

实际上大规模集群，规范化集群都不用这种hosts方式，低效，一般都用dns解析。

1.1.4.配置主机账号密码一致

参考命令： passwd

配置所有主机的root或者具有root权限账号的密码一致，方便后面操作。

1.1.5 JDK配置

所有主机的jdk环境可以不部署，下面安装的时候使用自带的通过自定义yum源安装

1.1.6 磁盘格式化，挂载等

一般一台服务器至少8T*12盘，磁盘需要格式化成某种特定格式，然后挂载到服务器上。可以使用脚本一键格式化，一键命名挂载所有磁盘。如果是虚拟机搭建可以不考虑。网上搜下很多成熟的脚本。

1.1.7 NTP时间同步服务器搭建

各个服务器之间时间要同步，一般所有服务器的时间以某台节点为准。

1.所有节点安装ntp服务

参考命令：yum install -y ntp ntpdate

chkconfig ntpd on 设置开机自启动

2 修改配置文件：

修改主服务器 vim /etc/ntp.conf 一下是主服务的配置,安装时可以粘贴替换使用

driftfile /var/lib/ntp/drift
restrict default kod nomodify notrap nopeer noquery
restrict -6 default kod nomodify notrap nopeer noquery
restrict 127.0.0.1
restrict -6 ::1
server 127.127.1.0     # local clock
fudge  127.127.1.0 stratum 10
restrict 10.0.0.0 mask 255.0.0.0 nomodify

修改其他从服务器的配置文件，可以使用一键分发脚本，ansible等工具

修改所有从服务器 vim  /etc/ntp.conf

注释掉所有server打头的配置项，添加如下配置项：

server 10-90-50-52-jhdxyjd.mob.local 这个是主服务器的主机名

3.先重启主服务器，再重启从服务器，命令一样

参考命令：service ntpd start

查看同步状态ntpq -p，其他从服务器是否从主服务器同步时间

这些基础配置，如果是大厂的话，一般会有专门的基础运维处理；

2. CDH 6.1.0的CM安装

注意CDH集群的安装与开源的Apache Hadoop不同，非常方便。只需要单节点安装一个cm server 管理即可，后面所有服务的安装部署，参数优化等都可以通过部署的cm节点的web界面去操作了。

2.1为啥需要配置yum源？

现在cdh也不支持在线安装了，除非你有cm的账号，否则免费版只支持离线安装。 CDH集群的安装简单就简单在他只需要配置yum源。不需要每个节点都分发cm的安装包，只需要配置一个web的网络yum即可，其他节点安装使用时，直接从这个节点下载分发使用即可。所有配置yum源就是配置网络yum源。

cdh6.1生产需要的所有离线包，直接下载即可。

链接：https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取码：abcD

2.2 配置主节点yum源

选一个装cm的主节点，后面的操作都基于这个节点即可。比如我这里选择的是10.90.50.52这台服务器，在这台节点配置yum源和安装cm管理。

2.2.1 安装httpd 服务&启动httpd

参考命令：yum -y install httpd

chkconfig httpd on 添加开机自启动

service httpd start 启动httpd服务

这个安装好了可以10.90.50.52:80 web打开界面

2.22 配置yum 仓库

下载所有CDH6.1.0离线安装需要的包与依赖。

链接：https://pan.baidu.com/s/1MRbwWSgyvo9vQMuI5Xq8OQ
提取码：abcD

1.上传 cm6.1.0.tar.gz 到/var/www/html目录下（目录没有话，直接创建，注意这个目录不要改，是cm默认安装目录，可以改，但是你要熟悉）并解压

参考命令：cd /var/www/html/;tar -zxvf cm6.1.0.tar.gz

2.配置yum 源文件：

参考命令：cd /etc/yum.repos.d/

vim  cloudera-manager.repo 添加如下内容：

#当前ip就是你配置cm主节点与网络yum源的节点

[cloudera-manager]

name = Cloudera Manager, Version

baseurl = http://10.90.50.52/cm6.1.0/

gpgcheck = 1

3.检查配置是否成功

参考命令：yum list | grep cloudera 有如下输出即可

或者直接在浏览器中访问 http://10.90.50.52/cm6.1.0/

2.3 安装mysql

mysql主要作用是存储cm，各个组件等相关元数据信息，比如hive的元数据，可以共用一个mysql数据，也可以分开mysql，比如我们之前生产hive元数据的存储用的就是pg，高可用。小集群一般不分开没啥事，但为了元数据的安全要配置mysql的高可用，或者定时同步mysql元数据进行备份。

1.上传上面下载的mysql安装包到服务器，将其解压到指定路径，随便都可以。这里使用的是 /data/centos6为例

参考命令： tar -xvf mysql-5.7.33-1.el6.x86_64.rpm-bundle.tar -C /data/centos6

2.进入解压目录，执行yum 安装

cd /data/centos6;

yum install -y  mysql-community-{server,client,common,libs}-*;

可以参考mysql配置你文件，修改mysql数据存储路径等，大规模生产有必要。

more /etc/my.cnf

3.等待安装完成，初始化数据目录

mysqld --defaults-file=/etc/my.cnf --initialize-insecure --user=mysql

4.初始化完成，启动mysql服务

service  mysqld  start;

chkconfig mysqld on 设置开机自动

5.执行mysql客户端命令mysql，进入mysql，修改root密码；

这里密码以123456为例
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';

mysql> grant all privileges on *.* to 'root' @'%' identified by '123456';  ##修改远程可访问

注意后面还需要创建一些数据库，等使用时在创建吧，这样你知道为啥创建

2.5 主节点安装CM-server

2.5.1 jdk的安装

yum -y install oracle-j2sdk1.8.x86_64

yum -y install     oracle-j2sdk1.8-1.8.0+update141-1.x86_64.rpm

2.5.2 安装依赖（如果上面报依赖的错误）

yum -y install cyrus-sasl-gssapi fuse-libs MySQL-python openssl-devel fuse lsb portmap mod_ssl python-psycopg2 libxslt

2.5.3 安装主服务

yum install -y cloudera-manager-server.x86_64 cloudera-manager-daemons.x86_64  cloudera-manager-agent.x86_64

1.安装后修改 cm_server 的配置文件

vim /etc/cloudera-scm-server/db.properties

注释掉此行 #com.cloudera.cmf.db.setupType=INIT

添加如下内如：

com.cloudera.cmf.db.type=mysql
com.cloudera.cmf.db.host=localhost
com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=scm
com.cloudera.cmf.db.setupType=EXTERNAL
com.cloudera.cmf.db.password=scm

2.登入mysql 创建上面配置的用户和数据库

mysql> create database scm DEFAULT CHARACTER SET utf8; 
mysql> grant all on scm.* TO 'scm'@'%' IDENTIFIED BY 'scm';

3.上传添加安装包里的mysql-connector-java.jar包到指定位置

cd /opt/cloudera/cm/lib; 添加进到这个目录

上传完以后检查一下ll /opt/cloudera/cm/lib/mysql-connector-java.jar

2.5.4 配置本地的parcel 文件

cd /opt/cloudera/parcel-repo ，需要将上面百度网盘下载parces文件copy到这个目录下。此目录下有以下三个文件（注意此目录的权限，应该是用户cloudera-scm所属权限），总共三个文件，如下图所示。

2.5.5 启动cm server

1.启动 cm_server

service cloudera-scm-server start 如果显示【ok】

2.也进入日志目录，查看日志详情

cd /var/log/cloudera-scm-server/; tail -f cloudera-scm-server.log

出现一下内容表示启动成功：

3.端口检验，cm 默认使用7180端口（也可以改），所以要在本地能通服务器10.90.50.52:7180。否则打不开cm界面，无法进行下一步。

netstat -anptl | grep 7180

2.5.6 登录wed页面进行相关服务组件添加

http://10.90.50.52:7180/

初始用户名密码：admin/admin

cdh集群的默认的超级用户是hdfs

到此结束，cm server已经安装好了，后面所有的zookeeper,hdfs,yarn,hbase,hive,spark,flume,kafka等组件的安装配置，配置优化，节点添加，退役等等都可以通过这个界面进行操作了。

3. 基于CM安装配置大数据组件与应用

3.1 cm的监控与配置等安装

上面安装好10.90.50.52的cm后，admin/admin登录进去，如下界面，配置cm的基础信息，

注意，这里要选择免费版本

下面直接继续，默认完成即可。然后选择集群安装

注意，默认端口22不用更改，我这里更改是因为公司修改了默认端口。

这一步要注意：yum源地址就是上面配置的，注意版本，是否跟提供的安装包一致，一般一样的。

jdK使用cdh自带的即可，cdh要求orace-jdk.

下面直接输入主机密码，建议所有主机刚开始统一设置密码，方便后面操作。

安装过程也可以后端查看进度

等待继续，直到安装完成，可以看到cm6自带了哪些版本的大数据组件，非常丰富。

cm安装好了，添加cm的监控服务.

cm自带很多服务，比如分发，监控等，可以将这些服务分开安装不同机器，也可以放到一台机器。这里是放到一台机器，规模不大，这些服务也不怎么消耗性能。下面的安装直到下一步即可，安装完成可以在cm界面查看。

注意这里需要在10.90.50.52的mysql中创建一个元数据库给active_monitor存放元数据

mysql> create database Active_Monitor DEFAULT CHARACTER SET utf8;
mysql> grant all on Active_Monitor.* TO 'Active_Monitor'@'%' IDENTIFIED BY 'Active_Monitor';

点击完成后：各图标开始有监控指标

3.2 添加主机，进行大数据组件安装

上面讲cm的所有服务都安装10.90.50.52上，生产上也可以分开，小规模集群也无所谓。这个节点只装服务即可。然后安装集群，需要先添加主机，添加一定数量的主机，完成大数据主服务的安装，其他就是扩容DN,NM节点而已，很简单。比如，一般大数据集群，至少有6台用来安装主服务，且配置相对要好，尤其namenode节点，都是ssd固态硬盘等，内存条也贼好。集群的安装，要先设计好组件架构

3.2.1添加主机

直接将需要添加的主机，全部粘贴到这个文本框里然后检索

注意这里是给添加到集群的主机，配置yun源的，然后继续

配置密码，cdh的安装不需要ssh，直接配置密码即可

下一步直到安装完成，主机检查可以跳过，直接点回主页即可，查看添加成功的主机

3.3 大数据组件Zookeeper的安装

cdh组件的安装是分开的，不想apache，一个hadoop包，可以安装好yarn，hdfs等，cdh把不同组件拆分安装，方便单独配置。集群安装的第一步zookeeper.

1.首页，添加服务，选中zookeeper.

这里zookeeper装3台，选择三个节点，装5台就选5个节点即可

后面全部可以默认安装完成即可，当然也可以修改部分安装存储目录。新手不建议修改。

3.4 安装HDFS组件,配置HA,JN

1.首页，添加服务，选中hdfs

注意这里配置的secondarynaenode节点后面是为了ha的，备namenode。

这里需要注意，一般cdh6很智能了，会自动检索你主机挂载的盘符，根据盘符的数量进行自动分组。你也可以修改一些参数，当然也可以安装后在统一修改。后面直接默认，下一步安装完成即可。

然后点击启动namenode ha,配置JN,完成即可

这里配置对应namenode本地存储目录，然后继续下一步，后面的主机检查可以忽略跳过。然后hdfs就安装完成了。

3.5安装YARN组件,配置HA

1.首页，添加服务，选中YARN

然后直接下一步安装跟上面hdfs安装一样，最后完成即可，启动 ResourceManager HA,添加ha两台主机，下一步即可，装好以后这些服务会自动重启。这里NM,RM安装在同一个节点，实际生产可以分开，配置不同主机即可。

3.6安装Hive组件

1.首页，添加服务，选中Hive

注意 hive gateway其实就是hive客户端，根据需求配置，我这里都分发了，也可以后面配置。

注意，这里需要在10.90.50.52上创建mysql里数据库，库名这里以hive_metastore为例，存储hive元数据。

mysql> create database hive_metastore DEFAULT CHARACTER SET utf8;
mysql> grant all on hive_metastore.* TO 'hive_metastore'@'%' IDENTIFIED BY 'hive_metastore';

注意，这里直接安装会报错，需要把mysql的jdbc连接放到hive/lib目录下，这个跟apache一致

cp /opt/cloudera/cm/lib/mysql-connector-java.jar /opt/cloudera/parcels/CDH/lib/hive/lib/

安装完后，可以创建hive数据库，要用hdfs超级管理员操作

export HADOOP_USER_NAME=hdfs ，hive

3.7 Spark的安装与配置

1.首页，添加服务，选中Spark

2.注意安装完后，spark history需要手动重启

4. 生成集群监控指标

上面所有的图标支持拖拉，生成指标，如下，命令可以去cdh官网查询，或者可以打开图标查看命令格式。

5.集群优化，参数配置

可以进去不同组件，配置里，修改默认的参数。比如NodeManager的资源分配等，这些是不能使用默认值的。

MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
Spring Cloud Bus 服务总线，实现全局广播/定点通知扛麻袋的少年 #Spring Cloud spring cloud java spring boot
本文目录：写在开头环境说明1.了解SpringCloudBus1.1Bus何方神圣(Bus是什么)1.2Bus原理2.Bus的两种设计思想2.1触发客户端2.2触发服务端2.3如何选型3.环境搭建4.Bus动态刷新全局广播配置4.1集群版客户端组建4.2服务端配置中心/客户端pom引入Bus总线依赖4.3服务端配置中心application.yml修改(添加rabbitmq相关配置)4.4客户端a
知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
大数据项目-Django基于大数据技术实现的农产品销售系统 IT实战课堂-玲琳娜计算机毕业设计大数据 java spark 爬虫
《[含文档+PPT+源码等]Django基于大数据技术实现的农产品销售系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScrip
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
VPS云服务器自动化运维：Ansible+Puppet实现批量配置管理与监控 cpsvps_net 运维服务器自动化
在云计算时代，VPS云服务器的自动化运维已成为企业提升效率的关键技术。本文将深入解析如何通过Ansible和Puppet两大主流工具实现批量配置管理，构建完整的监控体系，帮助运维团队从重复劳动中解放，确保服务器集群的高可用性。我们将从基础架构设计到实战案例，系统讲解自动化运维的最佳实践路径。VPS云服务器自动化运维：Ansible+Puppet实现批量配置管理与监控一、VPS云服务器自动化运维的核
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Redis 集群与分布式实现：从原理到实战一切皆有迹可循 redis redis 分布式数据库后端缓存
前言在大数据与高并发场景下，单节点Redis的容量与可用性已无法满足需求。Redis通过集群与分布式技术，实现了数据的分片存储与高可用部署，成为分布式系统的核心组件。本文将深入解析Redis集群的底层原理、架构模式与实战经验，结合代码示例与最佳实践，帮助开发者构建高性能、高可用的分布式缓存系统。一、集群基础架构与核心原理1.数据分片机制Redis集群采用哈希槽（HashSlot）实现数据分片，共有
使用 TCollector 写入 TDengine TDengine （老段） TDengine 生态接入 tdengine 大数据时序数据库运维涛思数据物联网数据库
TCollector是openTSDB的一部分，它用来采集客户端日志发送给数据库。只需要将TCollector的配置修改指向运行taosAdapter的服务器域名（或IP地址）和相应端口即可将TCollector采集的数据存在到TDengine中，可以充分利用TDengine对时序数据的高效存储查询性能和集群处理能力。前置条件要将TCollector数据写入TDengine需要以下几方面的准备工作
输入hadoop version时，解决Cannot execute /home/hadoop/libexec/hadoop-config.sh.的方法有奇妙能力吗 ubuntu hadoop hdfs linux 大数据分布式
在ubuntu用hadoopversion遇到了一个错误：Cannotexecute/home/hadoop/hadoop2.8/libexec/hadoop-config.sh.解决方法：在/etc/profile中找到了这个HADOOP_HOME全局变量，将其删除运行source/etc/profile输入vim.bashrc命令，在最后一行输入unsetHADOOP_HOMEsource.b
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
无需多卡集群，单卡运行扩散模型的技术突破与实践源客z stablediffusion
近年来，扩散模型（DiffusionModels）在图像、视频、3D生成等领域取得巨大进展。然而，传统扩散模型往往依赖多卡集群（如8×A100）进行高效训练与推理，这使得个人开发者和中小团队的应用受限。幸运的是，随着模型架构优化、量化技术、推理加速方案的发展，越来越多的开源扩散模型可以在单张消费级显卡（如RTX4090、T4、A6000）上运行，并且性能接近或超越原生大规模模型。本文整理了当前可在
Java分布式任务调度交响乐：用代码指挥千台服务器跳起精准的华尔兹墨夶 Java学习资料1 java 分布式服务器
一、架构设计：分布式任务调度的指挥系统1.1架构图（用文字构建你的想象）[调度中心]→[任务路由]→[执行器集群]↑↓││├─数据库存储─┤││└─监控告警─┘关键组件：调度中心：任务的"总指挥"，负责任务注册、调度、状态监控执行器集群：任务的"舞团"，每个节点都是潜在的表演者任务路由：动态分配任务的"交通调度系统"数据库存储：任务元数据的"记分牌"二、核心技术实现：分布式调度的魔法阵2.1XXL
【redis】介绍和安装火龙谷 redis redis 数据库缓存
介绍Redis是一款高性能的开源内存数据库，核心采用键值对（Key-Value）存储模型。其最大优势在于数据完全基于内存操作，读写速度远超传统磁盘数据库（内存访问速度可达磁盘的数千倍，固态硬盘仍有显著差距）。支持丰富的数据结构（字符串、哈希、列表、集合等），并非简单存储单一值。提供持久化机制（RDB快照/AOF日志），确保重启后数据可恢复。具备主从复制、哨兵高可用、集群分片等分布式能力，扩展性强。
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
Docker：快速搭建 RabbitMQ 集群的技术指南拾荒的小海螺 DevOps docker rabbitmq 容器
1、简述RabbitMQ是目前最流行的开源消息中间件之一，广泛应用于解耦、异步通信、削峰填谷等场景。本篇博客将带你通过Docker快速搭建RabbitMQ集群，并展示SpringBoot集成的实践案例，助你高效入门RabbitMQ分布式消息系统。样例代码：https://gitee.com/lhdxhl/springboot-example.git2、搭建2.1准备工作首先安装Docker和Doc
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
大数据量下高并发同步的解决方案大师兄啊 sql 大数据量下高并发同步的解决方案
大数据量下高并发同步的讲解（不看，保证你后悔）对于我们开发的网站，如果网站的访问量非常大的话，那么我们就需要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题，但话又说回来了，既然逃避不掉，那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧。为了更好的理解并发和同步，我们需要先明白两个重要的概念:同步和异步1、同步和异步的区别和联系所谓同步，可以理解为在执行完一个函数或
33、探索云计算与安全：基础与挑战
探索云计算与安全：基础与挑战1.云计算简介云计算已经成为现代信息技术的重要组成部分，为企业和个人提供了灵活、高效、低成本的计算资源和服务。本文将深入探讨云计算的基本概念、发展历程、服务模型、部署模型以及面临的主要挑战。1.1云计算的历史与发展云计算的发展可以追溯到多个阶段，包括主机计算、集群计算、网格计算、分布式和并行计算、虚拟化、Web2.0、面向服务的计算（SOC）和实用计算。每个阶段都为云计
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
Kafka日常运维命令总结我科绝伦（Huanhuan Zhou） kafka 运维分布式
一、集群管理前台启动Brokerbin/kafka-server-start.sh/server.properties关闭方式：Ctrl+C后台启动Brokerbin/kafka-server-start.sh-daemon/server.properties关闭Brokerbin/kafka-server-stop.sh二、Topic管理操作命令创建Topicbin/kafka-topics.s
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Ubuntu18.04/Mysql 5.7 建立主备模式Mysql集群武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
一、数据库的安装详见https://www.jianshu.com/p/5073177eedf2本文实验环境为阿里云的两台ubuntu18.04服务器：masterip:172.26.138.7slaveip:172.26.0.209二、修改Master的配置(#的行是我后增加的部分)：编辑/etc/mysql/mysql.conf.d/mysqld.cnf[mysqld]user=mysqlpi
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

超详细版企业离线部署CDH6.10集群与配置使用

1.生产CDH集群搭建前准备

1.1 安装前服务器核心配置与检查

1.1.1.关闭防火墙

1.1.2.关闭 Selinux

1.1.3.所有主机hosts-ip映射到每个hosts

1.1.4.配置主机账号密码一致

1.1.5 JDK配置

1.1.6 磁盘格式化，挂载等

1.1.7 NTP时间同步服务器搭建

2. CDH 6.1.0的CM安装

2.1为啥需要配置yum源？

2.2 配置主节点yum源

2.2.1 安装httpd 服务&启动httpd

2.22 配置yum 仓库

2.3 安装mysql

2.5 主节点安装CM-server

2.5.1 jdk的安装

2.5.2 安装依赖（如果上面报依赖的错误）

2.5.3 安装主服务

2.5.4 配置本地的parcel 文件

2.5.5 启动cm server

2.5.6 登录wed页面进行相关服务组件添加

3. 基于CM安装配置大数据组件与应用

3.1 cm的监控与配置等安装

3.2 添加主机，进行大数据组件安装

3.2.1添加主机

3.3 大数据组件Zookeeper的安装

3.4 安装HDFS组件,配置HA,JN

3.5安装YARN组件,配置HA

3.6安装Hive组件

3.7 Spark的安装与配置

4. 生成集群监控指标

5.集群优化，参数配置

你可能感兴趣的:(大数据,数据挖掘,集群搭建,cdh集群,hadoop)