韭菜盖饭

Hadoop分布式集群搭建教程

前言

大数据课程需要搭建Hadoop分布式集群，在这里记录一下搭建过程

环境准备

搭建Haoop分布式集群所需环境：

VMware：VMware-workstation-full-17.0.2-21581411
CentOS：CentOS-7-x86_64-DVD-2003，
Hadoop：hadoop-3.1.3.tar
JDK：jdk-8u212-linux-x64.tar.gz

一、创建虚拟机

新建虚拟机

设置用户

命名虚拟机

自定义硬件，完成虚拟机创建

开始启动虚拟机，并安装CentOS

二、虚拟机网络配置

NAT网络模式：

宿主机可以看做一个路由器，虚拟机通过宿主机的网络来访问 Internet；
可以安装多台虚拟机，组成一个小型局域网，例如：搭建 hadoop 集群、分布式服务。

VMnet8 设置静态 IP

Centos 网络设配器为 NAT 模式

VMware 虚拟网络设置

验证结果

因为网络这里一块，老早之前就配置过了，如果觉得不详细，可以参看以下文章：https://blog.csdn.net/ruiqu1650914788/article/details/124973841

三、克隆虚拟机

集群搭建需要至少三台服务器，这里我们再克隆两台虚拟机克HadoopSlave1与HadoopSlave2，

直接无脑下一步，记得修改名称

四、Linux系统配置

1、配置时钟同步
三台虚拟机都需要配置

yum install ntpdate
ntpdate ntp5.aliyun.com

2、关闭防火墙

systemctl stop firewalld.service
systemctl disable firewalld.service

3、配置主机名

三台虚拟机都需要配置
以root用户身份登录HadoopMaster节点，直接使用vim编辑器打开network网络配置文件，命令如下：

vim /etc/sysconfig/network

打开network文件，配置信息如下，将HadoopMaster节点的主机名修改为master，即下面第二行代码所示：

NETWORKING=yes   #启动网络
 
HOSTNAME=master   #主机名

两个子节点分别为：

NETWORKING=yes   #启动网络
 
HOSTNAME=slave1  #主机名

NETWORKING=yes   #启动网络
 
HOSTNAME=slave2  #主机名

测试

4、配置Hosts列表

主机列表的作用是让集群中的每台服务器彼此之间都知道对方的主机名和IP地址。因为在Hadoop分布式集群中，各服务器之间会频繁通信，做数据的同步和负载均衡。

以root用户身份登录三个节点，将下面3行代码添加到主机列表/etc/hosts 文件中。

192.168.17.130 master
 
192.168.17.131 slave1
 
192.168.17.132 slave2

ip地址可以使用命令：ip addr查看

验证主机hosts是否配置成功

ping master
 
ping slave1
 
ping slave2

5、关闭selinux

vim /etc/selinux/config
修改为 SELINUX=disabled

6、免密钥登录配置
免密钥登录是指从一台节点通过SSH方式登录另外一台节点时，不用输入该节点的用户名和密码，就可以直接登录进去，对其中的文件内容直接进行操作。没有任何校验和拦截。
从root用户切换到hadoop用户，输入su hadoop，在终端生成密钥，输入以下命令：

ssh-keygen –t rsa

一直回车即可

复制公钥文件到authorized_keys文件中，命令如下：

cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys

修改authorized_keys文件的权限，只有当前用户hadoop有权限操作authorized_keys文件，命令如下：

chmod 600 /home/hadoop/.ssh/authorized_keys

将HadoopMaster主节点生成的authorized_keys公钥文件复制到HadoopSlave1和HadoopSlave2从节点，命令如下：

scp /home/hadoop/.ssh/authorized_keys hadoop@slave1:/home/hadoop/.ssh/
 
scp /home/hadoop/.ssh/authorized_keys hadoop@slave2:/home/hadoop/.ssh/

如果出现提示，则输入yes并按回车键，输入密码

以hadoop用户身份登录HadoopSlave1、HadoopSlave2节点，进入到/home/hadoop/.ssh目录，修改authorized_keys文件的权限为当前用户可读可写，输入以下命令：

chmod 600 /home/hadoop/.ssh/authorized_keys

在HadoopMaster节点的Terminal终端上输入以下命令验证免密钥登录

 ssh slave1

五、Hadoop的部署配置

1、安装JDK
三台虚拟机都需要配置
卸载现有JDK

rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

将JDK文件复制到新建的/usr/java 目录下解压，修改用户的系统环境变量文件/etc/profile

tar –zxvf    xxx

vi /etc/profile

写入以下配置：

export JAVA_HOME=/usr/java/jdk1.8.0_212

export JRE_HOME=/usr/java/jdk1.8.0_212/jre

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

export PATH=$JRE_HOME/bin:$JAVA_HOME/bin:$PATH

使配置生效

source /etc/profile

测试

java -version

2、安装Hadoop
将Hadoop安装文件通过SSH工具上传到HadoopMaster节点hadoop用户的主目录下。进入hadoop用户主目录，输入以下命令进行解压：

tar –zxvf hadoop-3.1.3.tar.gz

3、配置环境变量hadoop-env.sh

vim /home/hadoop/hadoop-3.1.3/etc/hadoop/hadoop-env.sh

在文件靠前的部分找到以下代码(没有就自己添加)：

export JAVA_HOME=${JAVA_HOME}

将这行代码修改为：

export JAVA_HOME=/usr/java/jdk1.8.0_212

保存文件，此时Hadoop具备了运行时的环境。

4、配置环境变量yarn-env.sh
YARN主要负责管理Hadoop集群的资源。这个模块也是用Java语言开发出来的，所以也要配置其运行时的环境变量JDK。

打开Hadoop的YARN模块的环境变量文件yarn-env.sh，只需要配置JDK的路径。

  vim /home/hadoop/hadoop-3.1.3/etc/hadoop/yarn-env.sh

#export JAVA_HOME

将这行代码修改为：

export JAVA_HOME=/usr/java/jdk1.8.0_212

5、配置核心组件core-site.xml

Hadoop集群的核心配置，是关于集群中分布式文件系统的入口地址和分布式文件系统中数据落地到服务器本地磁盘位置的配置。

分布式文件系统（Hadoop Distributed FileSystem，HDFS）是集群中分布式存储文件的核心系统，将在后面章节详细介绍，其入口地址决定了Hadoop集群架构的主节点，其值为hdfs://master:9000，协议为hdfs，主机为master，即HadoopMaster节点，端口号为9000。

vim /home/hadoop/hadoop-3.1.3/etc/hadoop/core-site.xml

在下方，输入：

<configuration>
 
      <property>
 
             <name>fs.defaultFS</name>
 
             <value>hdfs://master:9000</value>
 
      </property>
 
      <property>
 
             <name>hadoop.tmp.dir</name>
 
             <value>/home/hadoop/hadoopdata</value>
 
      </property>
 
</configuration>

HDFS文件系统数据落地到本地磁盘的路径信息/home/hadoop/hadoopdata，该目录需要单独创建。

在三个虚拟机上的目录/home/hadoop下创建目录hadoopdata

mkdir hadoopdata

6、配置文件系统hdfs-site.xml

在分布式的文件系统中，由于集群规模很大，所以集群中会频繁出现节点宕机的问题。分布式的文件系统中，可通过数据块副本冗余的方式来保证数据的安全性，即对于同一块数据，会在HadoopSlave1和HadoopSlave2节点上各保存一份。这样，即使HadoopSlave1节点宕机导致数据块副本丢失，HadoopSlave2节点上的数据块副本还在，就不会造成数据的丢失。

配置文件hdfs-site.xml有一个属性，就是用来配置数据块副本个数的。在生产环境中，配置数是3，也就是同一份数据会在分布式文件系统中保存3份，即它的冗余度为3。也就是说，至少需要3台从节点来存储这3份数据块副本。在Hadoop集群中，主节点是不存储数据副本的，数据的副本都存储在从节点上，由于现在集群的规模是3台服务器，其中从节点只有两台，所以这里只能配置成1或者2。

vim /home/hadoop/hadoop-3.1.3/etc/hadoop/hdfs-site.xml

在下方，输入：

<configuration>
 
    <property>
 
        <!--配置数据块的副因子（即副本数）为2-->
 
        <name>dfs.replication</name>
 
        <value>2</value>
 
    </property>
 
</configuration>

7、配置YARN资源系统yarn-site.xml

YARN的全称是Yet Another Resource Negotiator，即另一种资源协调者，运行在主节点上的守护进程是ResourceManager，负责整个集群资源的管理协调；运行在从节点上的守护进程是NodeManager，负责从节点本地的资源管理协调。

YARN的基本工作原理：每隔3秒，NodeManager就会把它自己管理的本地服务器上的资源使用情况以数据包的形式发送给主节点上的守护进程ResourceManager，这样，ResourceManager就可以随时知道所有从节点上的资源使用情况，这个机制叫“心跳”。当“心跳”回来的时候，ResourceManager就会根据各个从节点资源的使用情况，把相应的任务分配下去。“心跳”回来时，携带了ResourceManager分配给各个从节点的任务信息，从节点NodeManager就会处理主节点ResourceManager分配下来的任务。客户端向整个集群发起具体的计算任务，ResourceManager是接受和处理客户端请求的入口。

vim /home/hadoop/hadoop-3.1.3/etc/hadoop/yarn-site.xml

在下方，输入：

<property>
 
       <name>yarn.nodemanager.aux-services</name>
 
       <value>mapreduce_shuffle</value>
 
</property>
 
<property>
 
       <name>yarn.resourcemanager.address</name>
 
       <value>master:18040</value>
 
</property>
 
<property>
 
       <name>yarn.resourcemanager.scheduler.address</name>
 
       <value>master:18030</value>
 
</property>
 
<property>
 
       <name>yarn.resourcemanager.resource-tracker.address</name>
 
       <value>master:18025</value>
 
</property>
 
<property>
 
       <name>yarn.resourcemanager.admin.address</name>
 
       <value>master:18141</value>

</property>
 
<property>
 
       <name>yarn.resourcemanager.webapp.address</name>
 
       <value>master:18088</value>
</property>

8、配置计算框架mapred-site.xml
YARN主要负责分布式集群的资源管理，将Hadoop MapReduce分布式并行计算框架在运行中所需要的内存、CPU等资源交给YARN来协调和分配，通过对mapred-site.xml配置文件的修改来完成这个配置。

vim /home/hadoop/hadoop-3.1.3/etc/hadoop/mapred-site.xml

在下方，输入：

<configuration>
 
    <!—MapReduce计算框架的资源交给YARN来管理-->
 
    <property>
 
        <name>mapreduce.framework.name</name>
 
        <value>yarn</value>
 
    </property>
 
</configuration>

在这里可能出现以下Bug
处理方式：
先运行shell命令：hadoop classpath

在mapred-site.xml添加以下配置

<property>
        <name>yarn.application.classpath</name>
        <value>hadoop classpath返回的信息</value>
</property>

9、复制hadoop到从节点

主节点的角色HadoopMaster已在配置HDFS分布式文件系统的入口地址时进行了配置说明，从节点的角色也需要配置，此时，workers文件就是用来配置Hadoop集群中各个从节点角色。

打开workers配置文件。

vim /home/hadoop/hadoop-3.1.3/etc/hadoop/workers

用下面的内容替换workers文件中的内容：

slave1
 
slave2

在Hadoop集群中，每个节点上的配置和安装的应用都是一样的，这是分布式集群的特性，所以，此时已经在HadoopMaster节点上安装了Hadoop-3.1.3的应用，只需要将此应用复制到各个从节点（即HadoopSlave1节点和HadoopSlave2节点）即可将主节点的hadoop复制到从节点上。

scp –r /home/hadoop/hadoop-3.1.3 hadoop@slave1:~/
 
scp –r /home/hadoop/hadoop-3.1.3 hadoop@slave2:~/

10、配置Hadoop启动的系统环境变量
和JDK的配置环境变量一样，也要配置一个Hadoop集群的启动环境变量PATH。
此配置需要同时在三台虚拟机上进行操作，操作命令如下：

vi /etc/profile

将下面的代码追加到文件的末尾：

#Hadoop Path configuration
 
export HADOOP_HOME=/home/hadoop/hadoop-2.5.2
 
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

输入:wq保存退出，并执行生效命令：

source /etc/profile

这里存在一个问题：CentOS 7 每次进入要重新加载环境变量
解决方式：
进入系统配置文件

vim ~/.bashrc

末尾添加如下代码

source /etc/profile

保存即可

六、Hadoop集群的启动

启动集群时，首先要做的就是在HadoopMaster节点上格式化分布式文件系统HDFS：

hadoop  namenode -format

启动Hadoop

cd /home/hadoop/hadoop-3.1.3
sbin/start-all.sh

查看进程是否启动
在HadoopMaster的Terminal终端执行jps命令，在打印结果中会看到4个进程，分别是ResourceManager、Jps、NameNode和SecondaryNameNode。

在HadoopSlave的终端执行jps命令，在打印结果中会看到3个进程，分别是NodeManager、DataNode和Jps。
注意：jps是JDK的命令，如果没有该命令，请检查JDK是否配置正确

如果子节点不存在DataNode，参考以下文章：https://blog.csdn.net/m0_61232019/article/details/129324464
也可以删除hadoopdata目录里面的内容重新启动Hadoop来解决

检查NameNode和DataNode是否正常

检查YARN是否正常

运行PI实例检查集群是否启动成功

你可能感兴趣的:(大数据,分布式,hadoop,大数据)

分布式应用集成框架 cissyring Application Integration 分布式应用框架
http://blog.csdn.net/cissyring/gallery/image/44775.aspx
web3.0入门及学习路径吗喽一只 web3 学习
Web3是指下一代互联网的演进形式，它涉及一系列技术和理念，旨在实现去中心化、开放、透明和用户主导的互联网体验。Web3的目标是赋予用户更多的控制权和数据所有权，并通过区块链、加密货币和分布式技术来实现。一、特点去中心化：Web3建立在区块链技术之上，通过使用分布式网络去除传统互联网中的中心化权威机构，实现数据和应用的去中心化。这种结构提高了安全性，减少了单点故障的风险，并增加了抗审查性。加密货币
简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
22章2节：如何在 R Markdown 和 R Notebook 中创建使用 DAT｜R科学用R探索医药数据科学 r语言开发语言
RMarkdown是一种广泛使用的工具，可以帮助数据科学家、统计学家和研究人员创建动态和交互式的报告。它结合了R语言的强大数据处理和分析能力，以及Markdown的简洁易用的文本格式，使得创建专业和美观的报告变得更加简单和高效。同时，RNotebook是一种交互式文档格式，它将叙述性文本、数据可视化以及其他多媒体组件与用R语言编写的代码结合在一起。RNotebook使用户能够创建和分享包含数据分析
Java与Kafka：消息队列使用指南墨瑾轩一起学学Java【一】java kafka linq
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好呀！今天我们要来聊聊如何使用Java语言与ApacheKafka搭建消息队列系统。Kafka是一款分布式流处理平台，它能够高效地处理大量实时数据。无论是构建实时数据分析系统还是简单的消息队列应用，Kafka都能胜任。那么，我们就开始吧！什么是Kafka？
JavaSE笔记总结火车驶向云外.11 java 开发语言
一、Java简介1、三大平台JavaSE：Java标准版，用于桌面应用开发，为今后从事JavaEE开发打基础（C语言和C++语言占有优势）。JavaME：小型版的Java语言，用于嵌入式电子设备或者小型移动设备。JavaEE：企业版，web方向的网站开发和服务器开发，这个领域Java第一。2、Java能做什么？桌面应用开发企业级应用开发移动应用开发科学计算大数据开发游戏开发3、Java的特性面向对
5G承载网中的前传、中传与回传杂化轨道VSEPR 5G通信技术 5g
从4G到5G，承载网的成分也发生了变化4G的承载网主要由BBU、RRU、馈线与天线系统共同组成，到了5G这里接入网被重新分为三个实体，分别是CU、DU，与AAU。CU：集成式的处理单元DU：分布式的处理单元AAU：ActiveAntennaUnit有源天线单元AAU属于前传的部分，分散在各地的AAU通过离自己最近的DU,然后许多个DU再将自己的数据发送给自己区域的CU，通过CU将数据注入核心网里面
hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
Kafka 监控及使用 JMX 进行远程监控的安全注意事项流华追梦 Kafka kafka Kafka监控 kafkamonitoring kafka使用jmx jmx远程监控 messageinrate requestrate
目录一.前言二.Kafka监控（KafkaMonitoring）2.1.概览2.2.使用JMX进行远程监控的安全注意事项一.前言众所周知，Kafka的集中式设计具有很强的耐用性和容错性。此外，由于Kafka是一个分布式系统，因此Topic在多个节点之间进行分区和复制。此外，Kafka可以成为数据集成的极具吸引力的选择，具有有意义的性能监控和对问题的及时警报。基本上，当对Kafka问题进行故障排除时
分布式数据库应用实践：架构设计与性能优化一ge科研小菜鸡大数据数据库数据库
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言在当今数据驱动的世界中，分布式数据库因其高可用性、可扩展性和强大的容错能力，已成为现代企业存储和管理数据的首选方案。它能够在多台服务器之间分散数据存储和处理任务，从而解决传统集中式数据库在处理大规模数据和高并发访问时的瓶颈问题。本教程旨在详细探讨分布式数据库的核心概念、架构设计以及在实际项目中的应用，并通过具体的案例与代码，帮助开发者掌握分布
面试之Solr&Elasticsearch 字节全栈_vBr 面试 solr elasticsearch
优点：1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做”Pushreplication”。2.Elasticsearch完全支持ApacheLucene的接近实时的搜索。3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。4.Elasticsearch采用Gateway的概念，使得完备份更加简单。5.各节点组成对等的网络结构，某些
我的名字叫大数据：第1~4章大数据张老师我的名字叫大数据大数据大数据认知大数据启蒙什么是大数据数据库 python
第1章大家好，我叫大数据1.1我的家族传统：从我小小的祖先到壮大的我1.1.1最初的我：原始部落里的计数石头大家好，我是你们人类文明的“老朋友”——大数据。你们知道吗？在我还没有变成你们手机、电脑里飞速跑动的那些数字前，我最初的模样可是一块块“计数石头”。没错，就是普通的小石头！想象一下，很久很久以前，当原始部落里的人们想要知道他的羊群有多少只时，他就会找一块石头代表一只羊。如果他有三只羊，他就会
深度学习基因组学+机器学习单细胞分析，当下最火热研究方向！ qwmb919 人工智能深度学习机器学习 python
深度学习已经被广泛应用于基因组学研究中，利用已知的训练集对数据的类型和应答结果进行预测，深度学习，可以进行预测和降维分析。深度学习模型的能力更强且更灵活，在适当的训练数据下，深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学，变异检测，致病性评分成功应用。深度学习可以提高基因组数据的可解释性，并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动
向量语义（Vector Semantics）与表征学习（Representation Learning）详解苏西月学习人工智能
1.向量语义（VectorSemantics）与词嵌入（WordEmbeddings）向量语义的核心思想是用数学向量来表示单词的意义。传统的NLP方法（如基于规则的语言模型）需要人为定义单词的语义规则，而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。关键词：词向量（WordRepresentations）：单词被表示为一个多维向量，每个维度对应于该单词的某种语义特征。分布式表示（D
Java 大视界 -- Java 大数据中的数据脱敏技术与合规实践（60）青云交大数据新视界 Java 大视界大数据数据脱敏替换法加密法掩码法 Spark SQL Flink
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据实时数仓的构建与运维实践（55）青云交大数据新视界 Java 大视界大数据实时数仓 Flume Flink HBase ClickHouse Lambda架构
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
Java 大视界 -- Java 大数据中的强化学习算法实践与优化（57）青云交大数据新视界 Java 大视界大数据强化学习算法 Q-learning 经验回放探索利用平衡智能能源管理算法优化
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大数据自动化数据管道构建：工具与最佳实践（47）青云交大数据新视界 Java 大视界大数据自动化数据管道 Sqoop Flume NiFi 数据质量性能优化 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大数据与区块链的融合：数据可信共享与溯源（45）青云交大数据新视界 Java 大视界大数据区块链数据可信共享数据溯源智能合约区块链存储金融应用 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 大数据高性能计算：利用多线程与并行计算框架（39）青云交大数据新视界 Java 大视界大数据高性能计算多线程并行计算框架 Apache Spark 线程安全数据一致性 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
Java 与量子计算在大数据中的潜在融合：原理与展望（33）青云交大数据新视界 Java 大视界大数据量子计算融合原理技术路径未来展望跨学科人才量子云计算 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、本博客的精华专栏：
大数据新视界 -- Hive 事务管理的应用与限制（2 - 16 - 8）青云交大数据新视界 #Hive 之道 Hive 事务管理应用场景优化策略数据一致性并发处理大数据爱好者们大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
HDFS分布式文件系统3-2 shell定期采集数据到HDFS 诺特兰德 hdfs hadoop 大数据
1、准备工作创建目录：/export/data/logs/log/export/data/logs/toupload2、在/export/data/logs目录下创建upload2HDFS.sh内容如下：#!/bin/bashexportJAVA_HOME=/export/servers/jdkexportJRE_HOME=$JAVA_HOME/jreexportCLASSPATH=.:JAVA_
Kafka 之详解(Detailed Explanation of Kafka） Linux运维老纪奋力拼搏让企业网站更好 kafka 分布式
一、Kafka简介ApacheKafka是一款分布式发布-订阅消息系统，由LinkedIn公司在2010年贡献给Apache基金会，并成为顶级开源项目。它有着独特的定位与特点，是一种快速、可扩展，且内在设计就是分布式、分区的以及可复制的提交日志服务。需要注意的是，Kafka并未遵循JMS规范，仅提供发布和订阅这一通讯方式。其官方中文网站为http://kafka.apachecn.org/quic
深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
集群部署时的分布式 Session 如何实现？码农小旋风后端
面试题集群部署时的分布式Session如何实现？面试官心理分析面试官问了你一堆Dubbo是怎么玩儿的，你会玩儿Dubbo就可以把单块系统弄成分布式系统，然后分布式之后接踵而来的就是一堆问题，最大的问题就是分布式事务、接口幂等性、分布式锁，还有最后一个就是分布式Session。当然了，分布式系统中的问题何止这么一点，非常之多，复杂度很高，这里只是说一下常见的几个问题，也是面试的时候常问的几个。面试题
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
分布式微服务系统架构第89集：kafka消费者掘金-我是哪吒分布式微服务系统架构 kafka 架构
那么消费者是如何提交偏移量的呢？消费者往一个叫作_consumer_offset的特殊主题发送消息，消息里包含每个分区的偏移量。如果消费者一直处于运行状态，那么偏移量就没有什么用处。不过，如果消费者发生崩溃或者有新的消费者加入群组，就会触发再均衡，完成再均衡之后，每个消费者可能分配到新的分区，而不是之前处理的那个。为了能够继续之前的工作，消费者需要读取每个分区最后一次提交的偏移量，然后从偏移量指定
什么是SpringCloud框架?Spring Boot框架和传统Spring框架相比有哪些优势? 是一只萨摩耶 Java spring cloud spring spring boot java 后端
SpringCloud是一系列框架的有序集合，它利用SpringBoot的开发便利性简化了分布式系统的开发，比如服务发现.服务网关.服务路由.链路追踪等。其设计目的是为了简化Spring应用的搭建和开发过程。该框架遵循“约定大于配置”原则，采用特定的方式进行配置，从而使开发者无需定义大量的XML配置。通过这种方式，SpringBoot致力于在蓬勃发展的快速应用开发领域成为领导者。SpringClo
微服务02：如何解决或者说降低架构复杂度？爆炸糖_Alex 微服务架构微服务云原生
1.什么是CAPCAP定理，也被称为Brewer定理，是分布式计算中的一个重要概念。它由计算机科学家EricBrewer于2000年提出，并由SethGilbert和NancyLynch于2002年正式证明。CAP定理强调了分布式系统中三个关键属性之间的固有权衡，这三个属性分别是：一致性（Consistency）可用性（Availability）分区容忍性（PartitionTolerance）以
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>