2019最新某象数据分析 数据挖掘与分布式爬虫全套合集

一、配置JanusGraph01、02、03的java环境

mv /usr/bin/java /usr/bin/java.bak
将jdk8上传至home
tar -zxvf ./jdk-8u191-linux-x64.tar.gz -C /usr/local/
vi /etc/profile(=不需要空格,否则会报错 command not found)
JAVA_HOME=/usr/local/jdk1.8.0_191
PATH=PATH: PATH:PATH:JAVA_HOME/bin:
source /etc/profile

使用JG的国内公司:360、58、同盾

二、搭建hadoop单机版
将文件解压到/usr/local
tar -zxvf /home/hadoop-2.7.6.tar.gz -C /usr/local/
配置环境变量
vi /etc/profile/
HADOOP_HOME=/usr/local/hadoop-2.7.6/
PATH=PATH: PATH:PATH:JAVA_HOME/bin:HADOOPHOME/bin: HADOOP_HOME/bin:HADOOP 
H
​    
 OME/bin:HADOOP_HOME/sbin:
source /etc/profile
测试 hadoop version报错:Error: JAVA_HOME is not set and could not be found.
由于hadoop是由java写到,所以需要告诉hadoop,java在哪里。通过vi ./etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_191/
hadoop version验证
例子
mkdir /home/testHadoopInput
cp ./etc/hadoop/*.xml /home/testHadoopInput
ll /home/testHadoopInput/(统计8个xml文件内到词频)
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /home/testHadoopInput/ /home/testHadoopOutput 统计词频
三、hadoop分布式部署
分布
(主机名:Janusgraph01):(IP地址:10.5.17.174):(功能NameNode、SecondNameNOde、DataNode、resourcemanager、nodemanager)
(主机名:Janusgraph02):(IP地址:10.5.18.189):(功能DataNode、nodemanager)
(主机名:Janusgraph03):(IP地址:10.5.16.189):(功能DataNode、nodemanager)
vim /etc/sysconfig/network 改hostname为Janusgraph0X    vim /etc/hosts/ 。 改127.0.0.1 为Janusgraph0X;    reboot
配置Janusgraph01
vi ./etc/hadoop/hadoop-env.sh 为hadoop配置jdk。之前单机版本已经配置过
export JAVA_HOME=/usr/local/jdk1.8.0_191/
vi ./etc/hadoop/core-site.xml 核心配置文件
配置hdfs文件系统的命名空间;Janusgraph01是主机名,也可以用ip地址,9000为端口号
配置操作hdfs的缓存大小
配置临时数据存储目录
见core-site.xml配置
vi ./etc/hadoop/hdfs-site.xml
副本数
块大小,hadoop1时64M,hadoop2是128M,hadoop3时256M
hdfs元数据存储位置
hdfs数据存放位置
hdfs的检测目录,可以不用配置,这里就不进行配置了,如果需要,自行百度
hdfs的namenode的web ui地址,也就是从web默认看到的页面
hdfs的secondady namenode的web ui地址
是否开启web操作hdfs
是否启用hdfs的权限,acl控制列表
vi ./etc/hadoop/mapred-site.xml (注意要将mapred-site.xml.template重命名为 .xml的文件)
指定mapreduce的运行框架
历史服务的通信地址
历史服务的web ui 地址
vi ./etc/hadoop/yarn-site.xml
指定rm所启动的服务器名
指定mapreduce的shuffle
指定rm的内部通信地址
指定rm的scheduler的内部通信地址
指定rm的resource-tracker的内部通信地址
指定rm的admin的内部通信地址
指定rm的web ui 监控地址
vi ./etc/hadoop/slaves
Janusgraph01
Janusgraph02
Janusgraph03
远程分发到别的服务器
scp -r ./hadoop-2.7.6/ Janusgraph02:/usr/local/ 报错ssh: Could not resolve hostname Janusgraph02: Name or service not known
因为映射关系没搞定 vi /etc/hosts
10.5.17.174 Janusgraph01 www.Janusgraph01.com
10.5.18.189 Janusgraph02 www.Janusgraph02.com
10.5.16.189 Janusgraph03 www.Janusgraph03.com
继续scp -r ./hadoop-2.7.6/ Janusgraph02:/usr/local/
继续scp -r ./hadoop-2.7.6/ Janusgraph03:/usr/local/
分别在02、03上which hadoop、hadoop version 可以测试看是分发过去
启动之前需要格式化,在NAmenode上格式化;在JanusGraph上执行之后会在home目录下创建hadoopdata文件夹。
hadoop namenode -format(各种报错是因为配置文件里面各种格式不正确)执行之后
启动各个节点,有三种方式
全启动:start-all.sh
模块启动:start-dfs.sh start-yarn.sh
单个进程启动:sbin目录下:hadoop-dameon.sh start /stopnamenode hadoop-daemons.sh start/stop datanode yarn-dameon.sh start /stop namenode yarn-daemons.sh start/stop datanode mr-jobhistory-daemon.sh start/stop historyserver
DFS模块测试
./sbin/start-dfs.sh    
跟着视频尝试的时候,发现JanusGraph02、03 的datanode都没有启动起来,查看logo是因为 2018-12-29 01:39:38,207 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: Janusgraph01:9000
解决办法:在02、03中将映射关系配进去就可以解决。
查看进程是否按照规划启动起来: jps(01:Namenode、SenondaryNamenode、Datanode;02:Datanode;03:Datanode)
查看对应模块的web ui监控是否正常:10.5.17.174:50070(网页打不开的原因?防火墙没关)
上传和下载文件,(测试hdfs)、跑一个MapReduce的作业,测试yarn
hdfs dfs -ls / 查看根目录是否有东西
上传hadoop2.7.6文件夹下面的readme到根目录: hdfs dfs -put ./README.text /
hdfs dfs -ls / 查看根目录是否有东西
hdfs dfs -cat /README.txt 读出文件

YARN模块测试
start-yarn.sh
jps:(01:ResourceManager、NodeManager;02:NodeManager;03:NodeManager)
web ui监控:10.5.17.174:8088
yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /README.txt /out/00
hdfs dfs -ls /out/00

四、配置ssh免密码登录
ssh-keygen -t rsa
ll ~/.ssh/ 查看秘钥列表
ssh-copy-id Janusgraph01 将秘钥拷贝到JanusGraph01 z这样 ssh JanusGraph01不要密码
ssh-copy-id Janusgraph02 将秘钥拷贝到JanusGraph02 这样 ssh JanusGraph02不要密码
ssh-copy-id Janusgraph03 将秘钥拷贝到JanusGraph03 这样 ssh JanusGraph03不要密码

五、Zookeeper配置
需要奇数台服务器:1,3,5,7(太多也没必要)
解压
配置环境变量vi /etc/profile
测试:zkServer.sh
配置 conf下面的zoo_sample.cfg
mv zoo_samples.conf zoo.cfg
快照存储目录修改一下,最好不放在tmp,直接自行创建好目录
端口为2181
集群配置:其中2888是为交流端口,3888是选举端口
server1=Janusgraph01:2888:3888
server1=Janusgraph02:2888:3888
server1=Janusgraph03:2888:3888
分发给Janusgraph02,03
配置各个服务器环境变量
快照存储目录修改一下,最好不放在tmp,直接自行创建好目录
mkdir /home/zkdata
vi /home/zkdata/myid
3台服务器分别写入1,2,3
zkServer.sh start
集群的一半服务启动才可以用,所以最起码启动两台服务器的zk
zkCli.sh 启动 shell
六、Hbase配置
解压
配置hbase-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_191/
export HBASE_CLASSPATH=/usr/local/hadoop-2.7.6/etc/hadoop/
export HBASE_MANAGES_ZK=false
配置hbase-site.xml(http://www.sohu.com/a/228927351_99978040)
分布式
hbase文件集群存储:位置和hadoop中配置一样
zookeeper连接目录
zookeeper文件保存目录(使用自带的配?那不自带的应该可以不用配置)
配置Regionservers
将localhost删除改为
JanusGraph01
JanusGraph02
JanusGraph03
vi backup-masters 增加备用master
Janusgraph02
分发,增加各个服务器的hbase环境变量
测试
hbase version
启动:启动hadoop、zookeeper之后、start-hbase.sh
JanusGraph01、JanusGraph02均多了HRegionServer、Hmaster
Janusgraph03多了HRegionServer
连接hbase服务:hbase shell
七、配置Janusgraph
下载Janusgraph zip包
解压到/usr/local/
运行hadoop、zookeeper、hbase
再运行elasticsearch
需要非root用户运行,所以给admin root权限
运行gremlin.sh,进行实例操作
graph=JanusGraphFactory.open(‘conf/janusgraph-hbase-es.properties’)
GraphOfTheGodsFactory.load(graph) 加载诸神图
g = graph.traversal()
g.V().has(‘name’, ‘saturn’).valueMap()
g.addV(‘person’).property(‘name’,‘Dennis’)
g.V().has(‘name’, ‘Dennis’).valueMap()

八、分布式配置Janusgraph
在janusgarph-hbase-es-properties 里面配置storage.hostname=10.5.17.174,10.5.18.189    10.5.16.189。zookeeper的地址,目前hbase和zookeeper地址一样,但是hbase多了之后,zookeeper不多,只需要配zookeeper就行()
将janusgrap分发到各个服务器上去。


--------------------- 
作者:UP_2017 
来源:CSDN 
原文:https://blog.csdn.net/UP_2017/article/details/85988408 
版权声明:本文为博主原创文章,转载请附上博文链接!

你可能感兴趣的:(2019最新某象数据分析 数据挖掘与分布式爬虫全套合集)