hadoop 小问题环境设置


title: hadoop 小问题环境设置
tags: 大数据,环境配置, 小问题
grammar_cjkRuby: true


1 linux修改系统日期与时间

 date -s  "2012-11-03 10:25:25"

2 windows下 hadoop 8088 端口不能看log的问题

进入C:\Windows\System32\drivers\etc 目录下编辑hosts目录
同一个地址可以起两个别名,但是不能写两个同样的IP地址
配置成功后可以在cmd中直接ping master...

192.168.137.121 master master
192.168.137.122 slaver1 slaver1
192.168.137.123 slaver2 slaver2
192.168.137.127 slaver3  slaver3

3 windows下 hadoop 8088 端口不能看history日志文件的问题

[root@master sbin]# pwd
/usr/hadoop-2.6.4/sbin
[root@master sbin]# mr-jobhistory-daemon.sh  start historyserver
[root@master sbin]# jps
3849 NameNode
4172 ResourceManager
4029 SecondaryNameNode
5427 Jps
5357 JobHistoryServer

4 windows下 ping命令不是内部命令,系统环境变量Path需添加

C:\windows\system32\

5 开机自启动或者关闭服务(开机关闭防火墙)

chkconfig iptables off

6 查看系统服务命令

 ls -a /etc/init.d/ 

7 杀掉进程,hiveserver2 启动两次会导致beenline

jps
kill -9 6829
kill -l

8 hive2.1.1版本或者之上需要使用jdk1.8或之上的版本进行兼容,否则会造成运行hql是经常报outofmemory错误

9 hbase 查操作命令

启动hbase:hbase shell

help 'create'
help 'put'
help 'get'
help 'alter'

10 安装phoneix 运行sqlline.py master,slaver1,slave2:2181 报错 : No module named argparse

Traceback (most recent call last):
  File "/usr/tools/apache-phoenix-4.11.0-HBase-1.2-bin/bin/sqlline.py", line 27, in 
    import argparse
ImportError: No module named argparse

这是因为安装新版本的phoenix自带sqlline需要argparse模块,我们centos6.5 中的python不包括这个模块。需要额外安装,我们使用easy_install 工具安装argparse模块比较简洁,类似npm

#wget --no-check-certificate https://bootstrap.pypa.io/ez_setup.py
#python ez_setup.py
#easy_install argparse

11 scala project with maven

Creating Your First scala Project with maven
如下图 add aracheType Choose net.alchim31.maven:scala-archetype-simple version:1.5
填好gav自动下载

enter description here

修改scala版本号

 
    1.6
    1.6
    UTF-8
    2.11
    2.11.11
  

删除不用的单元测试依赖

    
      org.specs2
      specs2_${scala.tools.version}
      1.13
      test
    
    
      org.scalatest
      scalatest_${scala.tools.version}
      2.0.M6-SNAP8
      test
    

删除插件编译参数

-make:transitive
enter description here

12 spark-shell 的使用

spark-shell 是一个命令行交互工具(需要安装好spark环境),在里面可以快速查看处理结果,下面有一个需求就查询ID为10的同学的信息

  
[root@master Desktop]# cat student.txt 
01      赵小六  1990-09-01 03:18:03.0   男
02      钱钟书  1916-12-21 00:00:00.0   男
03      孙菲菲  1990-05-20 00:00:00.0   男
04      李彦伟  1990-08-06 00:00:00.0   男
05      周佛海  1900-12-01 00:00:00.0   女
06      吴天    1992-03-01 00:00:00.0   女
07      郑板桥  1989-07-01 00:00:00.0   女
08      王菊    1990-01-20 00:00:00.0   女
09      张凯    1983-08-01 20:10:21.0   男
10      李云    1989-05-19 11:07:30.0   男
11      张凯    1997-06-12 11:47:23.0   男
12      张凯    1997-06-16 11:47:23.0   女
13      张海洋  1989-05-14 11:07:30.0   男

进入环境

[root@master ~]# spark-shell

生成rdd

scala> val sturdd =sc.textFile("file:///root/Desktop/student.txt")

过滤

scala> sturdd.filter(x=>x.split("\t")(0).toString.equals("10")).foreach(println)
10      李云    1989-05-19 11:07:30.0   男

你可能感兴趣的:(hadoop 小问题环境设置)