聆听的幻树

Hadoop HA（高可用）环境的搭建

Hadoop HA（高可用）环境的搭建：

集群布局：

集群描述：

集群中有两个NameNode,两个ResourceManager。实现了NameNode的HA方案以及ResourceManager单点故障的解决。

Hadoop的HA介绍：

hadoop2中的NameNode有两个。每一个都有相同的职能。一个是active状态的，一个是standby状态的。当集群运行时，只有active状态的NameNode是正常工作的，standby状态的NameNode是处于待命状态的，时刻同步active状态NameNode的数据。一旦active状态的NameNode不能工作，通过手工或者自动切换，standby状态的NameNode就可以转变为active状态的，就可以继续工作了。这就是高可靠。

Linux环境准备：

CentOS 7 x64 mini安装

http://blog.csdn.net/u011204847/article/details/50926065

网络配置：使用桥接方式

1.设置固定IP地址和关闭防火墙

虚拟机中必须添加如下配置： (必须和宿主机在同一网段)

在vmware的【编辑】-->【虚拟网络编辑器】设置：将网络连接方式设置为“桥接”,并桥接到宿主机器的网卡（可以是有线或者无线网络)。

设置静态IP地址：

vi /etc/sysconfig/network-scripts/ifcfg-eno16777736  
("eno16777736"这部分名字在不同版本中可能不一样)

修改（添加）如下内容:

BOOTPROTO="static"#dhcp改为static   
ONBOOT="yes"#开机启用本配置  
IPADDR=192.168.1.181#静态IP  
GATEWAY=192.168.1.1   #默认网关  
NETMASK=255.255.255.0  #子网掩码  
DNS1=192.168.1.1#DNS 配置

总体示例:

cat /etc/sysconfig/network-scripts/ifcfg-eno16777736 
HWADDR="00:15:5D:07:F1:02"  
TYPE="Ethernet"  
BOOTPROTO="static" #dhcp改为static   
DEFROUTE="yes"  
PEERDNS="yes"  
PEERROUTES="yes"  
IPV4_FAILURE_FATAL="no"  
IPV6INIT="yes"  
IPV6_AUTOCONF="yes"  
IPV6_DEFROUTE="yes"  
IPV6_PEERDNS="yes"  
IPV6_PEERROUTES="yes"  
IPV6_FAILURE_FATAL="no"  
NAME="eth0"  
UUID="bb3a302d-dc46-461a-881e-d46cafd0eb71"  
ONBOOT="yes"  #开机启用本配置  
IPADDR=192.168.1.181    #静态IP  
GATEWAY=192.168.1.1     #默认网关  
NETMASK=255.255.255.0   #子网掩码  
DNS1=192.168.1.1        #DNS 配置

修改每台主机的主机名：

vi /etc/sysconfig/network

添加如下内容：

HOSTNAME=master01   //master02,master03........

设置IP绑定：

vi  /etc/hosts
master01  192.168.1.181 
master02  192.168.1.182 
master03  192.168.1.186 
master04  192.168.1.187 
slave01   192.168.1.183 
slave02   192.168.1.184  
slave03   192.168.1.185

重启网卡：

service network restart

centos7中mini安装的防火墙默认为firewalld：

systemctl stop firewalld
systemctl mask firewalld

安装iptables-services并关闭防火墙：

yum install iptables-services
service iptables stop
chkconfig iptables off   #关闭防火墙开机启动
service ip6tables stop
chkconfig ip6tables off

关闭selinux：

vi /etc/sysconfig/selinux
SELINUX=enforcing -> SELINUX=disabled
setenforce 0
getenforce

2. 添加hadoop用户

添加用户组：

root登录条件下： groupadd hadoop

添加用户并分配用户组：

useradd -g hadoop hadoop

修改密码：

passwd hadoop

3. SSH开机免密码登录：

安装ssh:

yum intsall openssh-server

首先是root用户免密码登录：

root用户登陆后在每台主机上面使用命令：

 ssh-keygen -t rsa
 cd /root/.ssh/

里面有两个文件：

id_rsa.pub    id_rsa

在master01主机上面：

mv id_rsa.pub authorized_keys
然后把所有主机里面的id_rsa.pub内容全部保存到这个authorized_keys后把authorized_keys复制到各个节点上。

hadoop用户ssh免密码登录同root用户:

注意：这时id_rsa.pub id_rsa的目录为你hadoop用户下的.ssh目录

4. 安装所需的软件

所用的软件环境配置示例：

export JAVA_HOME=/usr/local/software/jdk1.8.0_66
export HADOOP_HOME=/usr/local/software/hadoop-2.7.0
export ZOOKEEPER_HOME=/usr/local/software/zookeeper-3.4.6/bin
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin

然后使环境配置生效：

source /etc/profile

5. Hadoop HA实现

Hadoop HA配置文件： // 总共5个：

hadoop-env.sh 
core-site.xml 
hdfs-site.xml 
mapred-site.xml 
yarn-site.xml

hadoop-env.sh:

export JAVA_HOME=/usr/local/software/jdk1.8.0_66

core-site.xml:


  fs.defaultFS
  hdfs://cluster


  hadoop.tmp.dir
  /usr/local/software/hadoop-2.7.0/tmp


  ha.zookeeper.quorumslave01:2181,slave02:2181,slave03:2181

hdfs-site.xml

    
            dfs.nameservices
            cluster
    
    
            dfs.ha.namenodes.cluster
            nn1,nn2
    
    
            dfs.namenode.rpc-address.cluster.nn1
            master01:9000
    
    
            dfs.namenode.http-address.cluster.nn1
            master01:50070
    
    
            dfs.namenode.rpc-address.cluster.nn2
            master02:9000
    
    
            dfs.namenode.http-address.cluster.nn2
            master02:50070
    
    
            dfs.namenode.shared.edits.dir
            qjournal://slave01:8485;slave02:8485;slave03:8485/cluster
    
    
            dfs.journalnode.edits.dir
            /usr/local/software/hadoop-2.7.0/journal
    
    
            dfs.ha.automatic-failover.enabled
            true
    
    
            dfs.client.failover.proxy.provider.cluster
            org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
    
    
            dfs.ha.fencing.methods
            
                    sshfence
                    shell(/bin/true)
            
    
    
            dfs.ha.fencing.ssh.connect-timeout
            30000
    
    
            dfs.ha.fencing.ssh.private-key-files
            /home/hadoop/.ssh/id_rsa
    
    
            dfs.replication
            2

mapred-site.xml

    
            mapreduce.framework.name
            yarn

 
  
 yarn-site.xml 
   
       
           yarn.resourcemanager.ha.enabled
            true
    
    
            yarn.resourcemanager.cluster-id
            rm-cluster
    
    
            yarn.resourcemanager.ha.rm-ids
            rm1,rm2
    
    
            yarn.resourcemanager.hostname.rm1
            master01
    
    
            yarn.resourcemanager.hostname.rm2
            master02
    
    
            yarn.resourcemanager.recovery.enabled
            true
    
    
            yarn.resourcemanager.store.class
            org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
    
     
            yarn.resourcemanager.zk-address
            slave01:2181,slave02:2181,slave03:2181
    
    
            yarn.nodemanager.aux-services
            mapreduce_shuffle
    
 
   
  
 
  6. Zookeeper集群配置 // slave01 slave02 slave0 
   
   vi /usr/local/software/zookeeper-3.4.6/conf/zoo.cfg
 
   
  
 修改dataDir=/usr/local/zk/data 
 在文件最后新增： 
   
   server.1=slave01:2888:3888
server.2=slave02:2888:3888
server.3=slave03:2888:3888
 
   
  
 创建文件夹 
   
   mkdir /usr/local/software/zookeeper-3.4.6/zk/data
 
   在data目录下，创建文件myid，值为1;相应的在slave02和slave03上面创建文件myid,值为2、3 
   
  
 
  7.开始启动 
  启动zookeeper 
   
      bin/zkServer.sh start
   bin/zkServer.sh status   查看状态(至少两个zookeeper实例开启后才可以查看状态)
 
   
  
 首次启动顺序 (zookeeper集群先启动) 
 启动journalnode： 
   
   hadoop-daemon.sh start journalnode //slave01,slave02,slave03
 
   
  
 格式化NameNode: 
   
   hdfs namenode -format
 
   
  
 拷贝格式化后的namenode状态： 
   
   scp -r tmp/   hadoop@master02:/usr/local/hadoop-2.6.0/  //从master01拷贝tmp到master02 
 
   
  
 格式化zookeeper: 
   
   hdfs zkfc -formatZK
 
   
  
 启动HDFS: 
   
   sbin/start-dfs.sh
 
   
  
 启动Yarn: 
   
   sbin/start-yarn.sh   //master01
 
   
  
 启动master02主机上的ResourceManager: 
   
   yarn-daemon.sh start resourcemanager//master02
 
   
  
 
   
   sbin/start-dfs.sh
sbin/start-yarn.sh   //master01
yarn-daemon.sh start resourcemanager//master02
 
   
  
 
  8. 启动后效果： 
  启动后master02是active状态 
   
  
 master01是standby状态。 
   
  
 当kill掉master02进程后，master01会自动变成active状态，从而保证集群的高可用性。 
   
  
 同时master03上面的ResourceManager为active状态： 
   
  
 当浏览master04上面ResourceManager时显示信息为： 
   
   “This is standby RM,Redirecting to the current active RM:http://master03:8088/”
 
   
   
  
 
  9. 为了方便集群管理，编写脚本控制： 
  启动脚本： 
   
   for i in slave01 slave02 slave03
do
ssh $i "/usr/local/software/zookeeper-3.4.6/bin/zkServer.sh start"
done
start-dfs.sh
ssh master03 "/usr/local/software/hadoop-2.7.0/sbin/start-yarn.sh"
ssh master04 "/usr/local/software/hadoop-2.7.0/sbin/yarn-daemon.sh start resourcemanager"
 
   
  
 启动时日志： 
   
  
 查看集群是否正常启动的脚本： 
   
   for i in master01 master02 master03 master04 slave01 slave02 slave03
do
ssh $i "hostname;source /etc/profile;jps"
done
 
   
   
  
 停止脚本： 
 [hadoop@master01 ~]$ cat stop 
   
   ssh master03 "/usr/local/software/hadoop-2.7.0/sbin/stop-yarn.sh"
stop-dfs.sh
for i in slave01 slave02 slave03
do
ssh $i "/usr/local/software/zookeeper-3.4.6/bin/zkServer.sh stop"
done
 
   
   
  
 
  10. 安装过程中一些其他的操作： 
  shell 操作：主机间文件传输示例 
   
   for i in master02 slave01 slave02 slave03
do
 scp -rq software hadoop@$i:/usr/local/software/
done

for i in master02 slave01 slave02 slave03
do
 ssh $i  "source /etc/profile"
done
 
   
  
 
  11. 注意事项： 
   
   1. hadoop用户生成的秘钥在/home/hadoop/.ssh目录中，其他用户以此类推。
 
   
  
 
   
   2.问题：zookeeper在linux服务器上，通过java代码来控制启动与停止。
发现能控制停止，不能控制启动。
 
   
  解决： 
   
   JAVA_HOME=/usr/local/java/jdk1.7.0_76
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME
export PATH
export CLASSPATH
 
   
  
 3：采用shell脚本启动zookeeper，首先新建文件start.sh 
 写入内容（rh1 rh2 rh3 分别是主机名。此处需要ssh）： 
   
   #!/bin/sh
echo “start zkServer…”
for i in rh1 rh2 rh3
do
ssh $i “/usr/local/zookeeper3.4/bin/zkServer.sh start”
done
 
   写好后保存，加上执行权限：chmod u+x start.sh 
 运行：./start.sh看见启动成功了，有输出。但是输入jps查看的时候，会发现没有QuorumPeerMain 进程。说明没有启动成功。 
   
  
 原因： 
   
   首先知道交互式shell和非交互式shell、登录shell和非登录shell是有区别的 
 在登录shell里，环境信息需要读取/etc/profile和~ /.bash_profile, ~/.bash_login, and ~/.profile按顺序最先的一个，并执行其中的命令。除非被 —noprofile选项禁止了；在非登录shell里，环境信息只读取 /etc/bash.bashrc和~/.bashrc 
 手工执行是属于登陆shell，脚本执行数据非登陆shell，而我的linux环境配置中只对/etc/profile进行了jdk1.6等环境的配 
 置，所以脚本执行/usr/local/zookeeper3.4/bin/zkServer.sh start 启动zookeeper失败了 
   
  
 解决方法： 
   
   把profile的配置信息echo到.bashrc中 echo ‘source /etc/profile’ >~/.bashrc 
 在/zookeeper/bin/zkEnv.sh的中开始位置添加 export JAVA_HOME=/usr/local/jdk1.6（就像hadoop中对hadoop-env.sh的配置一样） 
 采用shell脚本启动zookeeper，首先新建文件start.sh 
 写入内容（rh1 rh2 rh3 分别是主机名。此处需要ssh）：#!/bin/sh 
 echo “start zkServer就可以了。 
   
  总结的解决方法（下面3个方法任选1）： 
   
   1、脚本代码中添加“source /etc/profile;” 改为：ssh crxy$i “source /etc/profile;/usr/local/zookeeper/bin/zkServer.sh start” 
   2、把profile的配置信息echo到.bashrc中 echo ‘source /etc/profile’ >~/.bashrc 
   3、在/zookeeper/bin/zkEnv.sh的中开始位置添加 export JAVA_HOME=/usr/local/jdk1.7.0_45（就像hadoop中对hadoop-env.sh的配置一样）


    
        你可能感兴趣的:(Hadoop)
        
            
                
                    不同hive集群中基于表的数据一致性比对
                        AA赵师傅
hadoop数据管理hive数据验证数据迁移hadoop
                        前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoopdistcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是数据的导入导出了，把原集群
                    
                    Hadoop、Hive、Hbase集群间的数据迁移
                        这个操蛋的人生！！！

                        一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
                    
                    Hive面试题汇总
                        大数据侠客
hive相关问题汇总及解决hivehadoop数据仓库面试
                        Hive定义Hive是建立在Hadoop上的数据仓库基础构架。可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种
                    
                    CDH大数据平台
                        梦龙zmc
大数据大数据
                        CDH概念CDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码，是唯一
                    
                    【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据
                        forest_long
大数据技术入门到21天通关大数据hivehadoop开发语言后端数据仓库
                        一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
                    
                    cascading 入门 （一）
                        zhumin726

                        1cascading是什么cascading是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。Cascading目前依赖于Hadoop提供存储和执行架构，但是CascadingAPI为开发者隔离了Hadoop的技术细节，提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。
                    
                    搭建单机伪分布式Hadoop+spark+scala
                        啥也不会0-0
分布式hadoopspark
                        目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
                    
                    Hadoop 与 Spark：大数据处理的比较
                        王子良.
大数据经验分享hadoopspark大数据
                        欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
                    
                    虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala
                        落枫兮
hadoopsparkscala
                        参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
                    
                    Hadoop分布式文件系统-HDFS架构
                        Fancs2024
hadoophadoophdfs
                        一、HDFS的简介HDFS全称HadoopDistributedFileSystem，是分布式文件管理系统。主要是为了解决大数据如何存储的问题，跟一般文件系统不同的是，它可以通过扩展服务器结点来扩充存储量，可以用低成本的硬件构建出支持高吞吐量的文件系统。二、HDFS的特点高容错性：一个HDFS集群会包含非常多的结点，HDFS将文件分块存储，并且会保存多个副本到不同的机器节点上以保证数据的安全，而且
                    
                    TiDB 对 Hadoop 的影响：大数据时代的新选择
                        狮歌~资深攻城狮
tidb数据仓库数据分析数据库分布式
                        TiDB对Hadoop的影响：大数据时代的新选择随着大数据时代的到来，各种处理和存储海量数据的技术应运而生。Hadoop和TiDB都是这个时代的代表性技术，但它们的设计初衷、使用场景和应用方式却有所不同。那么，TiDB作为一个分布式数据库，它对传统的Hadoop生态系统产生了哪些影响呢？今天，我们就来聊聊这个话题。Hadoop简介：大数据的“老牌劲旅”首先，我们需要了解一下Hadoop的背景。Ha
                    
                    Apache DolphinScheduler 限制秒级别的定时调度
                        
数据库
                        背景ApacheDolphinScheduler定时任务配置采用的7位Crontab表达式，分别对应秒、分、时、月天、月、周天、年。在团队日常开发工作中，工作流的定时调度一般不会细化到秒级别。但历史上出现过因配置的疏忽大意而产生故障时间，如应该配置每分钟执行的工作流被配置长了每秒执行，造成短时间内产生大量工作流实例，对ApacheDolphinScheduler服务可用性和提交任务的Hadoop集
                    
                    有了TiDB，是否还需要“散装”大数据组件？
                        狮歌~资深攻城狮
tidb数据仓库数据分析数据库分布式
                        有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
                    
                    Hadoop是什么，怎么部署安装？
                        狮歌~资深攻城狮
hadoop大数据分布式
                        Hadoop是什么？Hadoop是一个由Apache基金会开发的开源分布式系统基础架构，主要用于处理和存储大规模数据集。它包括两个核心组件：Hadoop分布式文件系统（HDFS）和HadoopYARN（YetAnotherResourceNegotiator）。HDFS提供了一个高吞吐量的数据访问接口，允许用户在集群中存储大量数据。它通过将文件分割成多个块并分布在集群的不同节点上来实现高可靠性和可
                    
                    azkaban的概况
                        北京小峻
大数据azkabanmysql数据库
                        Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
                    
                    基于hadoop的协同过滤算法电影推荐系统的设计与实现
                        AI天才研究院
大数据AI人工智能AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型AIAGILLMJavaPython架构设计AgentRPA
                        基于hadoop的协同过滤算法电影推荐系统的设计与实现文章目录基于hadoop的协同过滤算法电影推荐系统的设计与实现1.背景介绍1.1电影推荐系统的重要性1.2传统推荐系统的缺陷1.3Hadoop在大数据处理中的作用2.核心概念与联系2.1协同过滤算法2.2基于用户的协同过滤2.3基于项目的协同过滤2.4Hadoop在协同过滤算法中的应用3.核心算法原理具体操作步骤3.1基于用户的协同过滤算法流程
                    
                    hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统 爬虫2万+数据 大屏数据展示 + [手把手视频教程 和 开发文档]
                        QQ-1305637939
毕业设计大数据毕设计算机毕业设计hivespringboot爬虫
                        hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
                    
                    hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统 爬虫2万+数据 大屏数据展示 + [手把手视频教程 和 开发文档]
                        QQ-1305637939
计算机毕业设计毕业设计大数据毕设hadoopspringboot爬虫
                        全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
                    
                    spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统 爬虫2万+数据 大屏数据展示 + [手把手视频教程 和 开发文档]
                        QQ-1305637939
毕业设计大数据毕设计算机毕业设计sparkspringboot爬虫大数据电影推荐电影分析
                        spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
                    
                    hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统 爬虫1万+数据 大屏数据展示 + [手把手视频教程 和 开发文档]
                        QQ-1305637939
毕业设计大数据毕设图书数据分析hadoopspringboot爬虫
                        hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
                    
                    2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全
                        2401_84586689
程序员大数据hadoop架构
                        网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
                    
                    大数据分析专业毕业设计最新最全选题精华汇总--持续更新中⑤
                        源码空间站11
pythondjango大数据分析数据可视化hadoophive大数据分析毕设
                        目录前言开题指导建议更多精选选题选题帮助最后前言大家好,这里是源码空间站学长大数据分析专业毕业设计毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据分析专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!以下是学长精心整理的一些选题:21.基于Hadoop和Spa
                    
                    Hadoop 常用命令
                        ZenPower
hadoop大数据分布式
                        查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
                    
                    hadoop常用命令汇总
                        m0_67402026
javajava后端
                        1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
                    
                    hadoop常用命令
                        我要用代码向我喜欢的女孩表白
hadoopnpm大数据
                        Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
                    
                    Kylin入门教程
                        -龙川-
介绍学习笔记kylin
                        引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
                    
                    flume系列之：flume落cos
                        快乐骑行^_^
日常分享专栏flume系列
                        flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
                    
                    Hadoop 和 Spark 的内存管理机制分析
                        王子良.
经验分享hadoopspark大数据
                        欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
                    
                    SS00023.PBpositions——|Hadoop&PB级离线数仓.v02|——|Griffin.v02|Griffin部署|
                        yanqi_vip
数据库hadoophive大数据hdfs
                        一、Griffin编译准备###---软件解压缩[root@hadoop02~]#ls/opt/yanqi/software/griffin-griffin-0.5.0.zip/opt/yanqi/software/griffin-griffin-0.5.0.zip[root@hadoop02~]#cd/opt/yanqi/software/[root@hadoop02software]#unzi
                    
                    解决 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...警告
                        克里斯蒂亚诺罗纳尔多阿维罗
hadoop
                        这个警告意味着Hadoop在加载本地本机库时遇到了问题。通常情况下，Hadoop会尝试加载本地的本机库以提高性能，但是如果找不到适合你的操作系统和架构的本地库，它会退而使用内置的Java类来模拟所需的功能。虽然这个警告会影响Hadoop的性能，但它并不会导致Hadoop无法正常工作。你仍然可以使用Hadoop，但可能会遇到性能上的损失。解决方法：在Hadoop中，配置'java.library.p
                    
                                mysql主从数据同步
                                    林鹤霄
mysql主从数据同步
                                    配置mysql5.5主从服务器(转)   
教程开始：一、安装MySQL 
说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 
 二、配置MySQL主服务器（192.168.21.169）mysql  -uroot  -p   &nb
                                
                                oracle学习笔记
                                    caoyong
oracle
                                    1、ORACLE的安装 
   a>、ORACLE的版本 
   8i,9i :   i是internet 
   10g,11g : grid (网格) 
   12c : cloud (云计算) 
   
   b>、10g不支持win7 
&
                                
                                数据库，SQL零基础入门
                                    天子之骄
sql数据库入门基本术语
                                    数据库，SQL零基础入门 
       做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。 
  
       数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
                                
                                pom.xml
                                    一炮送你回车库
pom.xml
                                    1、一级元素dependencies是可以被子项目继承的 
2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 
3、父项目里的一级元素<modules> 
<module>lcas-admin-war</module> 
<
                                
                                sql查地区省市县
                                    3213213333332132
sqlmysql
                                    
-- db_yhm_city   
SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35   
  
SELECT * FROM db_yhm_city WHERE class_parent_id =169   
  
SELECT d1.cla
                                
                                关于监听器那些让人头疼的事
                                    宝剑锋梅花香
画图板监听器鼠标监听器
                                           本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。 
      
                                
                                JAVA的遍历MAP
                                    darkranger
map
                                    Java Map遍历方式的选择 
1. 阐述 
　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？ 
　　为了解遍历性能的真实差距，包括在遍历ke
                                
                                POJ 2312 Battle City 优先多列+bfs
                                    aijuans
搜索
                                    来源：http://poj.org/problem?id=2312 
题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。 
思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
                                
                                Hibernate与Jpa的关系，终于弄懂
                                    avords
javaHibernate数据库jpa
                                    我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。 
在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
                                
                                酸爽的console.log
                                    bee1314
console
                                    在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 
/**
 * log.js hufeng
 * The safe wrapper for `console.xxx` functions
 *  
                                
                                哈佛教授：穷人和过于忙碌的人有一个共同思维特质
                                    bijian1013
时间管理励志人生穷人过于忙碌
                                            一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。 
　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
                                
                                other operate
                                    征客丶
OSosx
                                    一、Mac Finder 设置排序方式，预览栏 在显示－》查看显示选项中 
二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] 
 
-------------------------------------------------------------------- 
若有其他凝问或文中有错误，请及时向我指出， 
我好及时改正，同时也让我们一
                                
                                【Scala五】分析Spark源代码总结的Scala语法三
                                    bit1129
scala
                                    1. If语句作为表达式 
    val properties = if (jobIdToActiveJob.contains(jobId)) {
      jobIdToActiveJob(stage.jobId).properties
    } else {
      // this stage will be assigned to "default" po
                                
                                ZooKeeper 入门
                                    BlueSkator
中间件zk
                                    ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。 
值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
                                
                                MySQL取得当前时间的函数是什么 格式化日期的函数是什么
                                    BreakingBad
mysqlDate
                                    取得当前时间用 now() 就行。
在数据库中格式化时间 用DATE_FORMA T(date, format) .
根据格式串format 格式化日期或日期和时间值date，返回结果串。

  可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值:

  %S, %s 两位数字形式的秒（ 00,01,
                                
                                读《研磨设计模式》-代码笔记-组合模式
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 



import java.util.ArrayList;
import java.util.List;

abstract class Component {
	
	public abstract void printStruct(Str
                                
                                4_JAVA+Oracle面试题(有答案)
                                    chenke
oracle
                                    基础测试题 
 卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。 
选择题 
1、 What will happen when you attempt to compile and run the following code? （3） 
public class Static { 
 static { 
 int x = 5; // 在static内有效 
 } 
 st
                                
                                新一代工作流系统设计目标
                                    comsci
工作算法脚本
                                     
  用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。 
 
 在这个设计中，最难的地方是系统根据什么来生成流
                                
                                oracle 行链接与行迁移
                                    daizj
oracle行迁移
                                    表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 
 
第一种情况: 
INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
                                
                                [JShop]开源电子商务系统jshop的系统缓存实现
                                    dinguangx
jshop电子商务
                                    前言 
jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
                                
                                初三全学年难记忆单词
                                    dcj3sjt126com
englishword
                                    several 儿子；若干 
shelf 架子 
knowledge 知识；学问 
librarian 图书管理员 
abroad 到国外，在国外 
surf 冲浪 
wave 浪；波浪 
twice 两次；两倍 
describe 描写；叙述 
especially 特别；尤其 
attract 吸引 
prize 奖品；奖赏 
competition 比赛；竞争 
event 大事；事件 
O
                                
                                sphinx实践
                                    dcj3sjt126com
sphinx
                                      
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server 
  
yum install sphinx 
如果失败的话使用下面的方式安装 
wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm 
yum loca
                                
                                JPA之JPQL（三）
                                    frank1234
ormjpaJPQL
                                    1 什么是JPQL 
JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 
 
2 检索单个对象 
@Test 
public  void querySingleObject1() { 
    Query query = em.createQuery("sele
                                
                                Remove Duplicates from Sorted Array II
                                    hcx2013
remove
                                    Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? 
For example,Given sorted array nums = [1,1,1,2,2,3], 
Your function should return length 
                                
                                Spring4新特性——Groovy Bean定义DSL
                                    jinnianshilongnian
spring 4
                                    Spring4新特性——泛型限定式依赖注入 
Spring4新特性——核心容器的其他改进 
Spring4新特性——Web开发的增强 
Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC  
Spring4新特性——Groovy Bean定义DSL 
Spring4新特性——更好的Java泛型操作API  
Spring4新
                                
                                CentOS安装Mysql5.5
                                    liuxingguome
centos
                                    CentOS下以RPM方式安装MySQL5.5 
 
首先卸载系统自带Mysql： 
yum remove mysql mysql-server mysql-libs compat-mysql51 
rm -rf /var/lib/mysql 
rm /etc/my.cnf 
查看是否还有mysql软件： 
rpm -qa|grep mysql 
 
 
 
去http://dev.mysql.c
                                
                                第14章 工具函数（下）
                                    onestopweb
函数
                                    index.html 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/
                                
                                POJ 1050
                                    SaraWon
二维数组子矩阵最大和
                                    POJ ACM第1050题的详细描述，请参照 
http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 
 
题目意思： 
给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。 
如二维数组 
0 -2 -7 0 
9 2 -6 2 
-4 1 -4 1 
-1 8 0 -2 
中和最大的子矩阵是 
9 2 
-4 1 
-1 8 
且最大和是15
                                
                                [5]设计模式——单例模式
                                    tsface
java单例设计模式虚拟机
                                    单例模式：保证一个类仅有一个实例，并提供一个访问它的全局访问点 
  
安全的单例模式： 
  
  
/*
 * @(#)Singleton.java  2014-8-1
 *
 * Copyright 2014 XXXX, Inc. All rights reserved.
 */
package com.fiberhome.singleton;


                                
                                Java8全新打造，英语学习supertool
                                    yangshangchuan
javasuperword闭包java8函数式编程
                                    superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。 
  
升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.