wangzhongxing93

HBASE2.2.2+hadoop3.1.3分布式集群搭建

以下安装基于已经安装了JDK的前提，如果还没有安装JDK需要自行安装。

安装zookeeper集群

备注：zookeeper集群每台服务器必须绑定hadoop集群和HBASE集群的hosts，不然会找不到对应的服务器

到官网上下载对应版本的zookeeper，笔者用的版本是：zookeeper-3.4.14
zookeeper官方下载地址
将下载好的压缩包分发到服务器上的/usr/local/目录下，并解压：
-> tar -zxvf zookeeper-3.4.14.tar.gz
解压后重命名文件文件名为zookeeper：
-> cp zookeeper-3.4.14 zookeeper
进入/usr/local/zookeeper/conf/，从zoo_sample.cfg文件复制一份zoo.cfg文件，因为zookeeper默认会读取安装目录下的conf/zoo.cfg 作为启动配置文件；
-> cp zoo_sample.cfg zoo.cfg
修改zoo.cfg文件，配置dataDir, dataLogDir, 和集群服务器列表

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
# 修改数据存放的目录
dataDir=/usr/local/zookeeper/data
# 修改日志存放的目录
dataLogDir=/usr/local/zookeeper/logs
# the port at which the clients will connect
clientPort=2181
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1

# 集群服务器列表
server.1=10.0.27.132:2888:3888
server.2=10.0.27.133:2888:3888
server.3=10.0.27.134:2888:3888

手动创建dataDir=/usr/local/zookeeper/data， dataLogDir=/usr/local/zookeeper/logs这两个文件夹，并创建myid文件（myid文件的内容为zoo.cfg里面配置的集群服务器唯一标识，例如：server.1=10.0.27.132:2888:3888对应的10.0.27.132这台服务器的myid就是1）
-> mkdir /usr/local/zookeeper/data
-> mkdir /usr/local/zookeeper/logs
-> echo 1 > myid (不同服务器的标识不同，以zoo.cfg配置的为准)
把配置好的zookeeper文件夹分发到其他的服务器上，并把对应服务器上的myid文件修改为该服务器的唯一标识。在其他服务器上也手动创建dataDir=/usr/local/zookeeper/data， dataLogDir=/usr/local/zookeeper/logs这两个文件夹；
-> scp -r /usr/local/zookeeper 10.0.27.133:/usr/local/zookeeper
-> scp -r /usr/local/zookeeper 10.0.27.134:/usr/local/zookeeper
在每台zookeeper服务器上，进入/usr/local/zookeeper/bin/ 目录，启动zookeeper集群
-> ./zkServer.sh start
注意：在所有的zookeeper服务器都运行完启动命令后，再根据 ./zkServer.sh status 命令查看zookeeper服务器启动情况，如果只启动了一部分服务器，运行 ./zkServer.sh status 查看命令可能无法查看启动状态
完成zookeeper集群安装

安装说明

注意HBASE和Hadoop之间不是所有版本都互相兼容的，需要上官网查询版本之间的兼容关系！
HBASE与Hadoop版本对应查询官网

官网查询版本对比如下：

Hadoop安装包下载地址
HBASE安装包下载地址

本教程安装使用的Hadoop版本是：hadoop-3.1.3，HBASE版本是：hbase-2.2.2

安装Hadoop集群

有问题多阅读官方文档！有问题多阅读官方文档！有问题多阅读官方文档！
Hadoop官方文档

配置集群之间的免密登录

免密登录原理
每台主机authorized_keys文件里面包含想要免密登录主机的ssh公钥，就能实现免密登录，所以只要每台主机的authorized_keys文件里面都放入其他主机（需要无密码登录的主机）的ssh公钥就行了。

配置服务器集群的hosts文件，方便标识
-> vim /etc/hosts

10.0.27.132 hadoop.master01
10.0.27.133 hadoop.slave01
10.0.27.134 hadoop.slave02

在主节点上生成ssh密钥：
-> ssh-keygen -t rsa
-> cd ~/.ssh/
在主节点上将公钥拷到一个特定文件authorized_keys中
-> cp id_rsa.pub authorized_keys
使用scp命令把主节点上的authorized_keys分发到其它节点，按照第一步的命名生成其它节点的ssh密钥，并把公钥追加到authorized_keys文件中：
-> scp authorized_keys [email protected]:/root/.ssh/
-> cat id_rsa.pub >> authorized_keys
最后将所有服务器的公钥都添加好authorized_keys文件通过scp命令重新分发到集群中的所有服务器，完成后就可以使用ssh username 的命令互相免密登录。
-> ssh hadoop.slave01

安装并修改Hadoop配置文件

安装前注意事项：
本文配置的IP全部用hosts文件映射的服务器名代替，这种方式配置，hbase client所在的业务服务器想要连接hbase集群都需要配置对应的hosts文件！或者也可以把hadoop和hbase配置文件中的服务器全部显示用ip就无须在业务服务器配置hosts文件

下载Hadoop安装包，并上传到服务器上解压
Hadoop安装包下载地址
下载完后Windows系统可以通过FileZilla工具把安装包传到Linux服务器上，Mac系统可以直接使用scp名称上传。我上传到 /opt/ 目录下面，然后解压
-> tar -zxvf hadoop-3.1.3.tar.gz

配置Hadoop环境变量
-> vim /etc/profile

# Hadoop
# 该目录为解压安装目录
export HADOOP_HOME=/opt/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

生效环境变量配置
-> source /etc/profile

修改配置文件
hadoop的配置文件在HADOOP_HOME/etc/hadoop/下，需要修改的配置文件有：hadoop-env.sh，core-site.xml

修改hadoop-env.sh文件，在文件结尾添加如下内容：

# JAVA_HOME路径，可用echo $JAVA_HOME获得
export JAVA_HOME=/usr/local/jdk1.8
# 为hadoop配置不同角色的用户，最好都配置上，不然就可能会有缺失用户配置而有问题
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

配置core-site.xml文件：

<configuration>
	
    <property>
        <name>fs.defaultFSname>
        
        <value>hdfs://hbaseclustervalue>
        
        
    property>
    
    <property>
        <name>hadoop.tmp.dirname>
        <value>/home/hadoop/tempdatavalue>
    property>
    
    <property>
     	<name>io.file.buffer.sizename>
     	<value>131072value>
	property>
	<property>
    	<name>ha.zookeeper.quorumname>
    	<value>hadoop.master01:2181,hadoop.slave01:2181,10.0.27.129:2181value>
	property>
configuration>

配置hdfs-site.xml文件：
引入JQM机制官方文档

<configuration>
	
    <property>
        <name>dfs.namenode.name.dirname>
        <value>/home/hadoop/hadoopdatavalue>
    property>
    
    <property>
        <name>dfs.datanode.data.dirname>
        <value>/home/hadoop/datavalue>
    property>
    
    <property>
		<name>dfs.blocksizename>
		<value>134217728value>
	property>
	
    <property>
        <name>dfs.replicationname>
        <value>3value>
    property>
    
    
    
    
	
	<property>
	    <name>dfs.nameservicesname>
	    <value>hbaseclustervalue>
	property>
	
	<property>
	    <name>dfs.ha.namenodes.hbaseclustername>
	    <value>nn1,nn2value>
	property>
	
	<property>
	    <name>dfs.namenode.rpc-address.hbasecluster.nn1name>
	    <value>hadoop.master01:8020value>
	property>
	<property>
	    <name>dfs.namenode.rpc-address.hbasecluster.nn2name>
	    <value>hadoop.slave01:8020value>
	property>
	
	<property>
	    <name>dfs.namenode.http-address.hbasecluster.nn1name>
	    <value>hadoop.master01:9870value>
	property>
	<property>
	    <name>dfs.namenode.http-address.hbasecluster.nn2name>
	    <value>hadoop.slave01:9870value>
	property>
	
	<property>
	    <name>dfs.namenode.shared.edits.dirname>
	    <value>qjournal://hadoop.master01:8485;hadoop.slave01:8485;hadoop.slave02:8485/hbaseclustervalue>
	property>
	
	<property>
		<name>dfs.client.failover.proxy.provider.hbaseclustername>
		<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
	property>
	
    <property>
        <name>dfs.ha.fencing.methodsname>
        <value>
        	sshfence
        	shell(/bin/true)
        value>
    property>
    
    <property>
        <name>dfs.ha.fencing.ssh.private-key-filesname>
        <value>/root/.ssh/id_rsavalue>
    property>
    
    <property>
    	<name>dfs.journalnode.edits.dirname>
    	<value>/home/hadoop/jnodedata/jnode_edits_dirvalue>
	property>
    
    <property>
    	<name>dfs.ha.automatic-failover.enabledname>
    	<value>truevalue>
	property>
configuration>

配置yarn-site.xml文件：

<configuration>

	<property>
        <name>yarn.resourcemanager.hostnamename>
        <value>hadoop.master01value>
	property>
	
	<property>
        <name>yarn.resourcemanager.webapp.addressname>
        <value>hadoop.master01:8088value>
	property>
	
	<property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
	property>
configuration>

修改mapred-site.xml文件：

<configuration>
	
	<property>
    	<name>mapreduce.framework.namename>
    	<value>yarnvalue>
	property>
configuration>

配置从节点workers文件,添加从节点服务器：

hadoop.slave01
hadoop.slave02

把Hadoop安装包分发到其他节点，并给每个节点配置环境变量
-> scp -r /opt/hadoop-3.1.3 hadoop.slave01:/opt/hadoop-3.1.3/

启动Hadoop

启动注意事项：
启动前必须要关闭服务器的防火墙，不然会导致节点之间无法连接而报错：No Route to Host from hadoop.master01/10.0.27.132 to hadoop.slave01:8485 failed on socket timeout exception : java.net.NoRouteToHostException: No route to host.
不关闭防火墙web界面也会无法访问。
查看防火墙状态
-> firewall-cmd --state
关闭防火墙
-> systemctl stop firewalld.service

首次启动Hadoop集群需要格式化和初始化一些信息，必须要按顺序执行以下命令用于初始化集群，命令位于$HADOOP_HOME/bin目录下，配置过环境变量就无须指定命令的目录

# 1.首先在配置了JournalNode服务的每台服务器上都执行命令，必须至少有3个JournalNode守护进程，
# 当使用N个JournalNodes运行时，系统最多可以容忍(N - 1) / 2个故障，并继续正常运行。
# 执行命令后可通过jps看到JournalNode进程
hdfs --daemon start journalnode

# 2.在配置的一台master服务器上（nn1=hadoop.master01）执行格式化nameNode命令（否则会导致HDFS文件系统连接不上）
# 格式化命令要求dfs.journalnode.edits.dir参数配置的文件存储目录是空文件夹，否则无法格式化
hdfs namenode -format

# 3.在格式化后的master服务器上运行HDFS启动命令（不先启动namenode节点，备用namenode服务器运行
# hdfs namenode -bootstrapStandby时会无法连接已格式化的namenode节点同步元数据）：
$HADOOP_HOME/sbin/start-dfs.sh

# 4.在其余的备用master服务器上（nn2=hadoop.slave01）执行命令（执行该命令是为了将已格式化的NameNode元数据目录内容
# 复制到其他未格式化的NameNode，同时确保JournalNode（由dfs.namenode.shared.edits.dir配置）包含足够的编辑事务
# 以能够启动两个NameNode，否则会导致备用namenode节点无法启动）：
hdfs namenode -bootstrapStandby

# 5.停止所有的hadoop进程，然后格式化zookeeper，在任意一台master服务器上执行命令
./stop-all.sh
hdfs zkfc -formatZK

# 6.到master节点的sbin目录下执行stop-all.sh停止所有hadoop进程，再依次到每台JournalNode服务器上启动journalnode守护进程，最后在master节点的服务器上执行start-all.sh启动命令，就可以访问namenode的web界面查看所有namenode的状态：
hdfs --daemon start journalnode
./start-all.sh

首次安装成功之后再次启动hadoop集群：
1)先在每台JournalNode服务器上执行命令（必须先启动JournalNode进程，不然namenode节点无法正常启动）：
hdfs --daemon start journalnode

2)JournalNode进程启动之后再执行命令（$HADOOP_HOME/sbin/ 目录下）：
./start-all.sh

使用jps命令查看Hadoop进程
master节点和备用master节点启动了JournalNode，NameNode，NodeManager，ResourceManager，DataNode，DFSZKFailoverController 六个进程

从节点启动了JournalNode，DataNode，NodeManager三个进程

输入ip:port，Hadoop不同版本的web界面的端口号会不大一样，具体参考官方文档：
Hadoop官方文档
Hadoop3.1.3分布式部署官方文档

Hadoop3.1.3版本web界面的端口号如下图所示：

访问hadoop.master01:9870，hadoop.slave01:9870，查看已激活的nameNode和备用namenode信息如下图（已激活的namenode状态是active，备用namenode的状态是standby）：

访问ip:8088，查看resourceManager信息如下图：

安装HBASE集群

HBASE分布式部署官方文档

下载HBASE安装包

HBASE安装包下载地址
本教程下载的是2.2.2的版本
Windows使用Filezilla工具，Mac使用scp命令把安装包上传到服务器上，解压
-> tar -zxvf hbase-2.2.2-bin.tar.gz

安装前注意事项：

检查HBASE集群每台服务器的时间是否是一致的，不然会导致集群启动异常，检查服务器时间用命令：date -R

安装并修改HBASE配置文件

hbase的配置文件在 HBASE_HOME/conf 下，需要修改的配置文件有：hbase-env.sh，hbase-site.xml，regionservers，backup-masters（改文件需要手动创建）

配置hbase-env.sh文件，该文件用于设置HBase的工作环境，包括 JAVA和其他环境变量的配置，该文件的改动需要重启HBase才能生效（默认配置文件中有详细的配置都注释掉了，可以）：

# JAVA_HOME路径，可用echo $JAVA_HOME获得
export JAVA_HOME=/usr/local/jdk1.8
# 关闭Hbase自带的zookeeper集群
export HBASE_MANAGES_ZK=false

配置hbase-site.xml文件，HBase主要的配置文件，该文件可覆盖HBase的默认配置，可以在HBase Web UI的HBase配置选项中查看整个集群的有效配置，包括默认和覆盖的：

<configuration>
    
    <property>
        <name>hbase.rootdirname>
        
        <value>hdfs://hbasecluster/hbasevalue>
        
        
    property>
    
    
    <property>
        <name>hbase.cluster.distributedname>
        <value>truevalue>
    property>
    
    
    <property>
        <name>hbase.zookeeper.quorumname>
        <value>hadoop.master01:2181,hadoop.slave01:2181,10.0.27.129:2181value>
    property>
    
    <property>
        <name>hbase.zookeeper.property.dataDirname>
        <value>/usr/local/zookeeper/datavalue>
    property>
    
    <property>
        <name>hbase.master.info.portname>
        <value>16010value>
    property>
    
	<property>
		<name>hbase.regionserver.info.portname>
		<value>16030value>
	property>
    
    <property>
        <name>hbase.unsafe.stream.capability.enforcename>
        <value>falsevalue>
    property>
configuration>

新建 backup-masters文件，添加备份HMaster机器名，该文件不能写注释，启动时会把注释的那行当成服务器列表而导致启动失败：

hadoop.slave01

修改regionservers配置文件，添加HBase集群中运行RegionSever的主机名或IP列表，每行一个（分布式部署可以把默认的一行localhost删除掉），该文件不能写注释，启动时会把注释的那行当成服务器列表而导致启动失败：

hadoop.slave01
hadoop.slave02

Hadoop引入JQM负载均衡机制需要把Hadoop的core-site.xml和hdfs-site.xml两个配置文件拷贝到HBASE的配置文件目录中，不然会导致HBASE集群无法启动。不引入JQM就无须拷贝。
把hbase安装目录分发给其他节点，按照官方文档的提示，所有节点的配置文件信息要保持完全一样
-> scp -r /opt/hbase-2.2.2 hadoop.slave01:/opt/hbase-2.2.2/

启动HBASE服务

在master节点运行启动命令，会同步启动master的备份节点和regionServer节点：
-> ./start-hbase.sh

master服务器和备用master服务器会启动HMaster，HRegionServer两个进程

slave服务器会启动HRegionServer一个进程

输入：hadoop.master01:16010，hadoop.slave01:16010，访问web界面如下（hadoop.master01显示是 Master节点，hadoop.slave01显示是backup节点）：

hbase常用命令

重启HMaster节点：
当active HMaster节点挂掉之后，backup HMaster会自动称为active状态，可以进入到宕机的HMaster服务器上运行命令重启HMaster节点，重启后的HMaster就会变成backup HMaster，重启命令如下：
-> ./hbase-daemon.sh start master

重启regionServer节点：

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc