HAHAJustin

CentOS7环境下搭建Hadoop集群教程

文章目录

系统环境
所需软件
搭建步骤

1.虚拟机环境搭建

1.1虚拟机安装
1.2克隆虚拟机
1.3修改虚拟机静态IP
1.4修改主机名
1.5关闭防火墙及绑定IP

2.JDK的安装与配置
3.MYSQL的安装与配置

3.1下载与安装
3.2启动及配置

4.SSH免密钥登录
5.Hadoop的安装与配置

5.1下载与解压安装
5.2目录规划
5.3环境配置
5.4集群测试

6.Zookeeper的安装与配置

6.1下载安装与配置
6.2从机配置
6.3集群测试

7.Scala的安装与配置
8.HBase的安装与配置

8.1下载及安装
8.2环境配置
8.3集群测试

9.Hive的安装与配置

9.1Hive安装及配置
9.2MySQL配置
9.3Hive初始化及启动

系统环境

CentOS7-64位:
master: 192.168.10.100 hadoop100
worker1: 192.168.10.101 hadoop101
worker2: 192.168.10.102 hadoop102

所需软件

VMware Workstation Pro 12
CentOS-7-x86_64-Minimal-1810.iso
PuTTY
WinSCP
JDK-1.8
MySQL-8.0
Scala-2.13.1
Hadoop-3.2.1
zookeeper-3.4.14
Hbase-2.2.2
Hive-3.1.2

搭建步骤

1.虚拟机环境搭建

1.1虚拟机安装

从CentOS官方网站下载系统的镜像文件(.iso)，在VMware中进行虚拟机安装。首先应该将CentOS7系统安装好，配置虚拟机硬件时需要注意合理配置内存以及硬盘大小。配置完成后则可以进行安装，基本步骤为配置系统的时间，选择打开网络开关，选择系统文件安装的位置，设置root用户的密码以及创建新用户。配置完成后，等待安装完成后重启即可。安装过程即创建用户过程（简述）如下：

注意：网络适配器选择为NAT模式。

打开网络开关：

创建用户：

注意：勾选给予用户管理员权限。（也可以安装完成后为用户添加sudo权限。usermod -aG wheel 用户名）

1.2克隆虚拟机

(也可以将主机所有配置配置完成后再克隆从机，这样更简单)

以master为模板克隆两台虚拟机作为集群中worker1，worker2。

1.3修改虚拟机静态IP

进入网卡配置文件所在目录，使用ls命令查看配置文件名，再利用vi编辑器对文件进行修改。重点注意BOOTPROTO、ONBOOT、IP地址和网关。（vi编辑器使用命令略）

cd /etc/sysconfig/network-scripts
ls
vi ifcfg-ens33

修改前：

修改后：

注意：可以使用service network restart 命令使修改生效，也可以重启。

1.4修改主机名

进入主机名所在目录，使用vi编辑器对主机名进行修改。

vi /etc/hostname

注意：重启生效。

1.5关闭防火墙及绑定IP

CentOS 7默认使用的是firewall作为防火墙,首先查看防火墙状态，使用命令关闭防火墙，再禁止firewall开机启动。

firewall-cmd --state
systemctl stop firewalld.service
systemctl disable firewalld.service

进入hosts所在目录，使用vi编辑器对各台机进行IP与主机名的绑定。

vi /etc/hosts

注意：修改完成后利用ping命令检测各台虚拟机之间的连通性。

连通性效果检测：

2.JDK的安装与配置

使用Putty连接虚拟机，用justin账户登录开始进行集群搭建。为系统更简洁明了，在~（/home/justin）路径下创建java文件夹，用于存放JDK文件。

cd ~
mkdir java

使用WinSCP登录虚拟机，将JDK文件复制到/home/justin/java路径下。

进入文件所在目录，进行解压安装并重命名。

cd /home/justin/java
tar -zxvf jdk-8u181-linux-x64.tar.gz
mv /home/justin/java/jdk1.8.0_181 /home/justin/java/jdk1.8.0_181-amd64

接着需要配置JAVA环境变量。利用vi编辑器对/etc/profile进行修改。（修改系统配置文件需要使用sudo权限）

sudo vi /etc/profile

注意：重启生效也可使用命令（source /etc/profile）立即生效。

最后输入命令（java -version）查看配置是否成功。若出现如下图所示版本号等则表示配置成功。集群中其他机器的配置也与此相同。

3.MYSQL的安装与配置

3.1下载与安装

首先创建mysql文件夹，然后在网上找到对应版本软件包的下载地址，利用curl命令进行下载，最后用yum命令进行安装（这里需要sudo权限）。

cd ~
mkdir mysql
cd mysql
curl -O http://repo.mysql.com/mysql80-community-release-el7-1.noarch.rpm
sudo yum -y localinstall mysql80-community-release-el7-1.noarch.rpm
sudo yum -y update
sudo yum -y install mysql-community-server

3.2启动及配置

首先启动mysql。

systemctl start mysqld

查看root临时密码。（这里需要sudo权限）

sudo grep ‘temporary password’ /var/log/mysqld.log

注意：如图所示可知root临时密码为 &he!af*(3veL 。如果没有返回任何结果，表示密码为“空”。

登录mysql，设置新密码（Hadoop@123），接着创建新账户（hadoop）。

mysql -u root -p
ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘Hadoop@123’;
CREATE USER ‘hadoop’@‘localhost’ IDENTIFIED BY ‘Hadoop@123’;
CREATE USER ‘hadoop’@’%’ IDENTIFIED BY ‘Hadoop@123’;

注意：mysql中操作语句需要“ ；”。

注意：使用SELECT user FROM mysql.user; 查看添加用户是否成功。

授予新账户权限。并使用（FLUSH PRIVILEGES;）命令刷新权限。

GRANT ALL ON . TO ‘hadoop’@‘localhost’;
GRANT ALL ON . TO ‘hadoop’@’%’;

4.SSH免密钥登录

主机master创建密钥并传送给其他的从机（worker1、worker2）。

ssh-keygen -t rsa
ssh-copy-id justin@hadoop101
ssh-copy-id root@hadoop101
ssh-copy-id justin@hadoop102
ssh-copy-id root@hadoop102

注意：需要输入从机账户的密码。

测试SSH免密钥登录是否成功。（以hadoop102为例）

ssh justin@hadoop102
ssh root@hadoop102

5.Hadoop的安装与配置

5.1下载与解压安装

在网上找到hadoop-3.2.1的下载地址，利用curl命令进行下载并解压安装。(也可以直接下载安装包，用WinSCP传送到指定目录)。为节约磁盘空间，使用rm命令将安装包删除。

cd ~
curl -O https://www-us.apache.org/dist/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
tar -zvxf hadoop-3.2.1.tar.gz
rm -f hadoop-3.2.1.tar.gz

5.2目录规划

为方便操作，先将文件夹（hadoop-3.2.1）重命名，再进入该文件夹，按照主程序，集群数据，文件系统元数据，真正的数据，日志信息，临时文件的顺序依次创建相应的文件夹。

mv hadoop-3.2.1 /home/justin/hadoop3.2
cd /home/justin/hadoop3.2
mkdir /home/justin/hadoop3.2/hdfs
mkdir /home/justin/hadoop3.2/hdfs/name
mkdir /home/justin/hadoop3.2/hdfs/data
mkdir /home/justin/hadoop3.2/logs
mkdir /home/justin/hadoop3.2/yarnLogs
mkdir /home/justin/hadoop3.2/tmp

5.3环境配置

（1）进入系统目录配置环境变量。（需要sudo权限）

sudo vi /etc/profile

注意：重启生效也可使用命令（source /etc/profile）立即生效。

测试hadoop是否配置成功：

（2）修改Hadoop配置文件，修改hadoop-env.sh, yarn-env.sh, mapred-env.sh，分别插入下列代码。

cd $HADOOP_HOME/etc/hadoop
vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh

vi $HADOOP_HOME/etc/hadoop/yarn-env.sh

vi $HADOOP_HOME/etc/hadoop/mapred-env.sh

（3）修改workers
vi $HADOOP_HOME/etc/hadoop/workers

（4）配置core-site.xml
vi $HADOOP_HOME/etc/hadoop/core-site.xml

（5）配置hdfs-site.xml
vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml

（6）配置mapred-site.xml
vi $HADOOP_HOME/etc/hadoop/mapred-site.xml

（7）配置yarn-site.xml
vi $HADOOP_HOME/etc/hadoop/yarn-site.xml

5.4集群测试

由于之前已经完成了SSH免密登录，所以可以将主机（hadoop100）的hadoop利用scp命令传送到各台从机上（hadoop101、hadoop102）。

scp -r /home/justin/hadoop3.2 hadoop101:~/
scp -r /home/justin/hadoop3.2 hadoop102:~/

传送完毕，登录hadoop102查看目录下是否产生文件。

注意：第一次运行hadoop需要用命令对hdfs进行初始化。

hdfs namenode -format
start-all.sh

注意：若不成功检查具体出错原因。1.是环境变量配置有误，2.免密没有做好需要重新做免密（主机自己也可以和自己做免密）。3.修改文件夹权限（chmod 777 -R /home/justin/hadoop3.2/logs）。
集群运行成功如图所示：

6.Zookeeper的安装与配置

6.1下载安装与配置

注意：zookeeper集群有个特点,半数以上节点存活整个集群就能正常提供服务。通常集群数量设置为奇数个。

在网上找到zookeeper-3.4.14的下载地址，利用curl命令进行下载并解压安装。(也可以直接下载安装包，用WinSCP传送到指定目录)。为节约磁盘空间，使用rm命令将安装包删除。最后在文件夹中创建相应的文件夹。

cd ~
curl -O https://www-us.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz
tar -xzvf zookeeper-3.4.14.tar.gz
rm -rf zookeeper-3.4.14.tar.gz
cd zookeeper-3.4.14
mkdir data
mkdir logs

（1）进入系统目录配置环境变量。（需要sudo权限）

sudo vi /etc/profile

注意：重启生效也可使用命令（source /etc/profile）立即生效。

（2）配置zookeeper相关环境文件：

vi conf/zoo.cfg

注意：各台机对应的服务器id号要记好，之后配置时需要声明。

（3）利用scp命令将zookeeper传送的其他从机上。

scp -r $ZOOKEEPER justin@hadoop101:/home/justin/zookeeper-3.4.14
scp -r $ZOOKEEPER justin@hadoop102:/home/justin/zookeeper-3.4.14

（4）配置主机id
进入zookeeper中data文件夹，声明自己的主机id。

注意：id号要与配置文件中的相同。
注意：配置完成后可用命令（cat myid）查看是否会返回自己的id号。

cd ~/zookeeper-3.4.14/data
echo “1” > myid

6.2从机配置

注意：从机也需要配置/etc/profile中的环境变量（也可以用scp命令从主机传送过来，传送后同样需要source /etc/profile）。

scp -r /etc/profile root@hadoop101:/etc/profile
scp -r /etc/profile root@hadoop102:/etc/profile

各台从机设置在配置文件中声明的相应id号。

cd ~/zookeeper-3.4.14/data

hadoop101（worker1）：

echo “2” > myid*

hadoop102（worker2）：

echo “3” > myid

6.3集群测试

注意：zookeeper选择leader的模式简单概括为“少数服从多数”，具体可网上查阅资料。

基本命令：

zkServer.sh start #启动
zkServer.sh stop #停止
zkServer.sh status #查询节点状态

7.Scala的安装与配置

在网上找到scala-2.13.1的下载地址，利用curl命令进行下载并解压安装。(也可以直接下载安装包，用WinSCP传送到指定目录)。为节约磁盘空间，使用rm命令将安装包删除。

cd ~
curl -O https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz
tar -zxvf scala-2.13.1.tgz
rm -f scala-2.13.1.tgz

进入系统目录配置环境变量。（需要sudo权限）

sudo vi /etc/profile

注意：重启生效也可使用命令（source /etc/profile）立即生效。

执行scala命令，输出以下信息，表示安装成功：

利用scp命令将scala传送的其他从机上。

scp -r ~/scala-2.13.1 justin@hadoop101:~/scala-2.13.1
scp -r ~/scala-2.13.1 justin@hadoop102:~/scala-2.13.1

注意：从机也需要配置/etc/profile中的环境变量（也可以用scp命令从主机传送过来，传送后同样需要source /etc/profile）。

scp -r /etc/profile root@hadoop101:/etc/profile
scp -r /etc/profile root@hadoop102:/etc/profile

从机成功运行：

8.HBase的安装与配置

8.1下载及安装

在网上找到HBase-2.2.2的下载地址，利用curl命令进行下载并解压安装。(也可以直接下载安装包，用WinSCP传送到指定目录)。为节约磁盘空间，使用rm命令将安装包删除。

cd ~
curl -O https://www-eu.apache.org/dist/hbase/2.2.2/hbase-2.2.2-bin.tar.gz
tar -zxvf hbase-2.2.2-bin.tar.gz
rm -rf hbase-2.2.2-bin.tar.gz

8.2环境配置

（1）进入系统目录配置环境变量。（需要sudo权限）

sudo vi /etc/profile

注意：重启生效也可使用命令（source /etc/profile）立即生效。

（2）配置hbase-env.sh

vi $HBASE_HOME/conf/hbase-env.sh

注意：其实HBase里面自带了一个zookeeper，而HBASE_MANAGES_ZK的值就是是否使用这个自带的zookeeper，很显然这里要使用自己的zookeeper，所以修改为false。

（3）配置hbase-site.xml

vi $HBASE_HOME/conf/hbase-site.xml

（4）配置regionservers
删除locahost，添加所有hbase从节点的主机名。

vi $HBASE_HOME/conf/regionservers

（5）利用scp命令将HBase传送的其他从机上。

scp -r $HBASE_HOME justin@hadoop101:/home/justin/hbase-2.2.2
scp -r $HBASE_HOME justin@hadoop102:/home/justin/hbase-2.2.2

8.3集群测试

注意：从机也需要配置/etc/profile中的环境变量（也可以用scp命令从主机传送过来，传送后同样需要source /etc/profile）。

scp -r /etc/profile root@hadoop101:/etc/profile
scp -r /etc/profile root@hadoop102:/etc/profile

注意：确保hadoop，zookeeper已经正常启动的情况下才能启动HBase。

启动hbase：

start-hbase.sh

其他参考命令

start-all.sh #启动hadoop
zkServer.sh start #启动zookeeper
zkServer.sh status #查看zookeeper状态
hbase-daemon.sh start regionserver # start HBase Region Serve
hbase-daemon.sh stop regionserver # stop HBase Region Serve

9.Hive的安装与配置

9.1Hive安装及配置

在网上找到Hive-3.1.2的下载地址，利用curl命令进行下载并解压安装。(也可以直接下载安装包，用WinSCP传送到指定目录)。为节约磁盘空间，使用rm命令将安装包删除。

cd ~
curl -O https://www-eu.apache.org/dist/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
tar -zxvf apache-hive-3.1.2-bin.tar.gz
rm -f apache-hive-3.1.2-bin.tar.gz

（1）为方便操作，先将文件夹（apache-hive-3.1.2-bin）重命名。

mv apache-hive-3.1.2-bin hive3.1

（2）进入系统目录配置环境变量。（需要sudo权限）

sudo vi /etc/profile

注意：重启生效也可使用命令（source /etc/profile）立即生效。

（3）配置hive-env.sh
进入conf目录，配置hive-env.sh。

cd $HIVE_HOME/conf
vi hive-env.sh

（4）配置hive-site.xml
首先创建tmp文件夹，然后配置hive-site.xml。

mkdir $HIVE_HOME/tmp
vi hive-site.xml

（5）配置hive-log4j2.properties。
首先创建logs文件夹，然后配置hive-log4j2.properties（由hive-log4j2.properties.template复制而来）。

mkdir $HIVE_HOME/logs
cd $HIVE_HOME/conf
cp hive-log4j2.properties.template hive-log4j2.properties
vi hive-log4j2.properties

注意：修改一处。（property.hive.log.dir = $HIVE_HOME/logs）

9.2MySQL配置

（1）下载MySQL驱动到lib目录下

cd $HIVE_HOME/lib
curl -O -L http://central.maven.org/maven2/mysql/mysql-connector-java/8.0.17/mysql-connector-java-8.0.17.jar

注意：curl -L参数会让HTTP请求跟随服务器的重定向。curl默认不跟随重定向。

（2）登录MySQL（root账号），创建Hive账户并授予权限，最后刷新权限。

mysql -u root -p
CREATE USER ‘hive’@‘localhost’ IDENTIFIED BY ‘Hive@123’;
CREATE USER ‘hive’@’%’ IDENTIFIED BY ‘Hive@123’;
GRANT ALL ON . TO ‘hive’@‘localhost’;
GRANT ALL ON . TO ‘hive’@’%’;
FLUSH PRIVILEGES;

注意：mysql中操作语句需要“ ；”。

（3）登录Hive账户

mysql -u hive --password=Hive@123
create database hiveDB;
SHOW DATABASES;

9.3Hive初始化及启动

初始化，执行下面命令：

schematool -dbType mysql -initSchema

注意：Hive只要在一台hadoop集群的服务器上安装即可。
注意：启动Hive之前要保证hadoop已经正常启动

注意：运行出现上图问题，是因为找到了两处jar包，分别是在Hadoop和Hive的安装目录。错误原因是guava.jar包在两个位置版本不同。解决办法为对比两个目录下的jar包，删除版本较低的jar包，用高版本的替代。（可以使用WinSCP可视化操作更简单）

Hive成功运行：

注意：mysql服务器需要启动。
注意：hdfs需要初始化。
注意：hive需要初拟化。

Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
python卡方检验计算pvalue值_Python数据科学：卡方检验 CodeWhiz
之前已经介绍的变量分析：①相关分析：一个连续变量与一个连续变量间的关系。②双样本t检验：一个二分分类变量与一个连续变量间的关系。③方差分析：一个多分类分类变量与一个连续变量间的关系。本次介绍：卡方检验：一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。如果其中一个变量的分布随着另一个变量的水平不同而发生变化时，那么两个分类变量就有关系。卡方检验并不能展现出两个分类变量相关性的强弱，只能展
Pandas教程：详解Pandas数据清洗旦莫 Python Pandas python pandas 数据分析
目录1.引言2.Pandas基础2.1安装与导入2.2创建一个复杂的DataFrame3.数据清洗流程3.1处理缺失值3.1.1删除缺失值3.1.2填充缺失值3.2数据去重3.3数据类型转换4.数据处理与变换4.1添加与删除列4.2数据排序5.数据分组与聚合6.其他数据清洗方法6.1字符串处理6.2时间序列处理6.3数据类型转换1.引言数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
AI学习者的Python快速入门指南 AI科研视界人工智能 python chatgpt
Python已成为AI和数据科学的事实标准编程语言。尽管存在无需编码的解决方案，但学习编程仍然是构建完全定制化AI项目或产品的必要途径。在本文中，我将分享一个Python入门快速指南，帮助初学者进行AI开发。我会先介绍基础知识，然后分享一个带有示例代码的具体实例。图片来自Canva。Python是一种编程语言，也就是说，它是给计算机下达我们无法或不愿亲自执行的精确指令的一种方式[1]。这在自动化特
python基础学习 agente python python 学习开发语言
第一章标识符1、python被称为胶水语言，可以跟各个代码能一块儿使用爬虫、数据分析web全栈开发、数据科学方向、人工智能的机械学习和深度学习、自动化运维、爬虫、办公自动化python是跨平台的，python是解释型语言，不需要编译，python是面向对象的语言1、print()#print()可以输出数字、字符串、含有运算符的表达式#print()可以将内容输出到显示器、文件#print()输出
Holoviews 创建复杂的可视化布局步入烟尘 Python超入门指南全册 Holoviews python
如何使用Holoviews创建复杂的可视化布局在数据科学和数据可视化领域，Holoviews是一个非常强大的Python库，它可以帮助我们轻松地创建各种复杂的可视化布局。Holoviews提供了一个高层次的接口，使得创建交互式和静态可视化变得简单而直观。本文将介绍如何使用Holoviews来创建复杂的可视化布局，让你的数据以最直观的方式展现出来。安装Holoviews首先，确保你已经安装了Holo
程式语言区分白总Server html python java c++开发语言
程序语言有很多种，每种都有其特定的用途和特点。以下是一些广泛使用的编程语言：1.Python：易于学习，广泛用于数据科学、机器学习、网络开发、自动化等领域。2.Java：广泛应用于企业级应用、安卓开发、大型系统开发等。3.C：一种基础语言，广泛用于系统编程、嵌入式开发、操作系统等领域。4.C++：C语言的扩展，支持面向对象编程，用于游戏开发、高性能应用等。5.JavaScript：主要用于网页前端
双峰高斯分布蒙特卡洛模并画pdf和cdf图 tpHRlIi pdf
双峰高斯分布蒙特卡洛模并画pdf和cdf图可设置双峰组合分布中不同正态参数的分布比例，也可以对多个组合进行计算matlab代码，备注清楚，更改为自己需要的分布比例与参数即可双峰高斯分布蒙特卡洛模并画pdf和cdf图在现代数据科学中，探究数据的分布状态是非常重要的。而在实际应用场景中，数据不一定总是符合单一的分布模型。双峰高斯分布是一种较为常见的数据分布模型，它适用于许多实际场景，比如人口年龄分布、
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
Python中的matplotlib库安装教程：多种方法详解代码前哨站 python matplotlib 开发语言
在数据可视化的世界里，matplotlib是一个非常重要的工具库。它提供了一整套绘图功能，帮助我们将数据可视化为图表。无论你是数据科学家、工程师，还是只是在数据处理领域有所涉猎，掌握matplotlib的安装方法都能让你的工作更加高效。本文将详细介绍几种在Python中安装matplotlib的方法。方法一：使用pip安装pip是Python包管理工具，使用它安装matplotlib非常简单。以下
【conda】完整指南：如何配置 Conda 环境与镜像源丶2136 conda conda
目录1.Conda配置概述2.配置镜像源2.1查找合适的镜像源2.2配置镜像源2.3优先级设置3.环境管理3.1设置默认环境路径3.2默认环境3.3环境清理3.4自定义命令4.其他常用配置选项4.1配置日志级别4.2缓存设置4.3自动更新总结conda是一个功能强大的包和环境管理工具，广泛用于数据科学、机器学习和科学计算领域。为了最大化利用conda，了解其配置选项至关重要。本文将深入探讨cond
顶级的python入门教程！小白到大师，从这篇教程开始！马大哈（Python） python pycharm 开发语言学习青少年编程
1.为什么要学习Python？学习Python的原因有很多，以下是几个主要的原因：广泛应用：Python被广泛应用于Web开发、数据科学、人工智能、机器学习、自动化运维、网络爬虫、科学计算、游戏开发等多个领域。掌握Python意味着你可以在这些领域中找到丰富的职业机会。入门简单：Python的语法简洁明了，易于学习和理解，对于编程初学者来说非常友好。它的代码风格一致，可读性强，有助于培养良好的编程
python指南之Pandas和Matplotlib进行数据清洗步入烟尘 Python超入门指南全册 Matplotlib matplotlib 开发语言 python
使用Pandas和Matplotlib进行数据清洗与可视化在数据科学领域，数据清洗和可视化是构建数据驱动解决方案的重要步骤。本文将详细介绍如何使用Pandas进行数据清洗，并结合Matplotlib进行可视化。通过实际代码示例，我们将处理一个包含缺失值、不一致格式和噪声数据的示例数据集，最终将其转换为可视化友好的形式。1.准备工作在开始之前，我们需要安装必要的Python库。如果尚未安装，可以使用
【Rust光年纪】从心理学计算到机器学习：Rust语言数据科学库全方位解读！ friklogff Rust光年纪机器学习 rust 人工智能
Rust语言的数据科学和机器学习库大揭秘：核心功能、使用指南一网打尽！前言随着数据科学和机器学习在各个领域的广泛应用，使用高效、稳定的编程语言来实现这些功能变得尤为重要。Rust语言作为一种安全且高性能的系统编程语言，正逐渐成为数据科学和机器学习领域的热门选择。本文将介绍几个优秀的Rust库，它们分别用于心理学计算、统计分析、数据科学和机器学习，让我们一同探索它们的核心功能、使用场景和API概览。
Python大数据：深入探索Hadoop库的使用 t0_54coder Python基础入门教程大数据 python hadoop
在大数据的世界中，Python和Hadoop结合使用，为处理庞大数据集提供了强大的工具。本文将详细探讨如何在Python中使用Hadoop，特别是通过实例来展示这一过程。1.简介Hadoop是一个用于分布式处理大量数据的开源框架。尽管Hadoop主要用Java编写，但通过HadoopStreaming，Python程序员也可以利用其强大的数据处理能力。Python在数据科学中的流行，加上Hadoo
Python与R的完美协作：深入解析subprocess模块调用R脚本的参数传递机制十步杀一人_千里不留行 python r语言 microsoft
在数据科学和机器学习领域，Python和R经常需要协同工作。作为一名数据科学家，掌握这两种语言的交互技巧至关重要。今天，我们将深入探讨使用Python的subprocess模块调用R脚本时的参数传递机制，揭示其中的细节和潜在陷阱。两种参数传递方式的解析方法一：直接传递参数这种方法直接在subprocess.run()函数中传递参数：result1=subprocess.run([rscript_p
企业大规模部署机器学习模型的困境 AI前线
作者|JustinGage译者|Sambodhi编辑|VincentAI前线出品｜ID：ai-frontAI前线导语：“尽管人工智能正在被广泛应用，但大规模部署基于AI的产品如此之难，不过，一些新技术正被寄以厚望改变这一现状。基石风投合伙公司研究人工智能、机器学习的分析师、美国纽约大学的前数据科学家JustinGage不久前写了一篇文章[1]，为我们讲述了机器学习的部署和建模的不同之处，以及在公司
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
数据科学简讯 2023-03-24 数科每日
头条GitHubCopilotXCopilot即将推出新的对话界面、GPT-4升级、错误修复建议、文档编写和自动拉取请求。这些发布是GitHub成为开发者工具包强国目标的下一步。谷歌和微软的聊天机器人在错误信息的对决中相互引用根据TheVerge上的一篇评论文章，微软、谷歌和OpenAI等大型科技公司仓促推出AI聊天机器人有可能破坏网络的信息生态系统。作者举了一个例子，微软的Bing聊天机器人错误
Python读取Excel数据 shiming8879 python excel 开发语言
在处理Excel数据时，Python提供了多种强大的库来读取、处理以及分析这些数据。最常用的库之一是pandas，它建立在numpy、matplotlib和scipy等库之上，为数据分析和操作提供了高级的、易于使用的数据结构和数据分析工具。另一个流行的库是openpyxl，它专门用于读写Excel2010xlsx/xlsm/xltx/xltm文件。一、引言在数据科学、机器学习、财务分析等多个领域，
看demo学算法之 k-means 小琳ai 算法 kmeans 机器学习
大家好，这里是小琳AI课堂！今天我们要继续深入探讨k-means算法，这是一种在数据科学和机器学习中非常流行的聚类方法。✨k-means的四大步骤随机启动：先随便挑k个数据点当老大（簇中心）。分配小弟：每个数据点看看离哪个老大最近，然后加入那个团队。老大换人：每个团队重新算算中心位置，换个新老大。重复搞事：一直重复分配小弟和换老大的步骤，直到老大们换得差不多了或者到了预定的次数。k-means的闪
布隆过滤器 guangzhi0633 面试职场和发展
揭秘数据筛选的神秘利器在浩瀚的数据海洋中，如何快速、准确地找到我们需要的信息？这不仅是数据科学家的难题，也是每一个与数据打交道的人面临的挑战。今天，让我们一起走进布隆过滤器（BloomFilter）的世界，看看这个被誉为“筛选神器”的技术如何帮助我们在海量数据中淘金。布隆过滤器的奥秘想象一下，你手中有一个巨大的筛子，它不仅能过滤掉无用的沙子，还能智能地保留下珍贵的金粒。布隆过滤器就是这样的“智慧筛
《R数据科学》第十一章练习题 sizhishizi R r语言开发语言数据分析
美国民主党、共和党和中间派的人数比例是如何随时间而变化的？>gss_cat%>%mutate(partyid=fct_collapse(partyid,#利用fct_collapse函数对因子水平进行同党派类别合并。other=c('NOanswer',"Don'tknow","Otherparty"),rep=c("Strongrepublican","Notstrrepublican"),in
Python：解锁高效编程与数据分析的钥匙我的运维人生 python 数据分析开发语言运维开发技术共享
Python：解锁高效编程与数据分析的钥匙在当今快速发展的信息技术时代，Python作为一种高级编程语言，凭借其简洁的语法、强大的库支持和广泛的应用场景，在数据科学、机器学习、Web开发等多个领域大放异彩。本文将深入探讨Python的核心优势，并通过实际代码案例展示其在数据处理和分析方面的强大能力。Python的核心优势简洁易读：Python以其简洁明了的语法著称，这使得初学者能够快速上手，同时也
Azure和Transformers的详细解释漫天飞舞的雪花 azure microsoft python
AzureAI是微软提供的人工智能(AI)解决方案的集合，旨在帮助开发人员、数据科学家和企业轻松构建和部署智能应用程序。以下是对AzureAI各个方面的详细解释：AzureAI主要组件AzureCognitiveServices（认知服务）：计算视觉：包括图像识别、物体检测、人脸识别以及图像标注等。语音服务：包括语音识别、语音合成、说话人识别和语音翻译等。语言理解服务：包括文本分析、语言翻译、情感
Streamlit来开发一个趣味应用 WangLinXX 学习服务器前端 linux
Streamlit来开发一个趣味应用。Streamlit是一个用于构建数据科学应用的Python库，它可以帮助你通过简单的代码快速构建交互式应用程序。下面是一个简单的示例，展示如何使用Streamlit开发一个“猜数字”的游戏应用：importstreamlitasstimportrandomdefguess_number():number=random.randint(1,100)st.writ
【conda 】完美掌控 Conda 配置：高级设置与实用技巧丶2136 conda conda
目录一、`conda`配置文件详细设置1.基本设置2.高级配置3.其他配置选项二、实用命令1.更新`conda`配置2.显示当前配置3.添加和删除频道三、解决常见问题1.包冲突2.网络问题3.包缓存问题总结在数据科学和开发工作中，conda已成为不可或缺的工具。它不仅简化了包和环境的管理，还提供了多种高级配置选项，帮助用户更好地控制其工作环境。本文将深入探讨conda的高级配置选项，并提供实用的命
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

CentOS7环境下搭建Hadoop集群教程

文章目录

系统环境

所需软件

搭建步骤

1.虚拟机环境搭建

1.1虚拟机安装

1.2克隆虚拟机

1.3修改虚拟机静态IP

1.4修改主机名

1.5关闭防火墙及绑定IP

2.JDK的安装与配置

3.MYSQL的安装与配置

3.1下载与安装

3.2启动及配置

4.SSH免密钥登录

5.Hadoop的安装与配置

5.1下载与解压安装

5.2目录规划

5.3环境配置

5.4集群测试

6.Zookeeper的安装与配置

6.1下载安装与配置

6.2从机配置

6.3集群测试

7.Scala的安装与配置

8.HBase的安装与配置

8.1下载及安装

8.2环境配置

8.3集群测试

9.Hive的安装与配置

9.1Hive安装及配置

9.2MySQL配置

9.3Hive初始化及启动

你可能感兴趣的:(数据科学)