Hadoop学习笔记

1、倒排索引什么意思?


2、“HBase的数据行拥有一个可选择的键和任意数量的列”

   这样的话,每行的列都有标签信息(列名),如果像关系型数据库一样规范没行,速度会不会更快?


3、HBase本来就可以查询,为什么还要solr这些东西?


4、Ubuntu安装jdk1.7


5、聚类算法什么意思?


6、hadoop fs 和hadoop dfs的区别?(注意还有一个hadoop dfsadmin)

  粗略的讲,fs是个比较抽象的层面,在分布式环境中,fs就是dfs;但在本地环境中,fs是local file system,这个时候dfs就不能用。


7、Hadoop宿主系统重启需要重新格式化HDFS的问题可以参考这里。


8、将hadoop的jar包添加到classpath,举例walker在/etc/profile中添加了:

export CLASSPATH=.:/home/walker/hadoop-1.2.1/*:/home/walker/hadoop-1.2.1/lib/*


9、HBase中为什么要有Column Family?


10、HDFS查看目录大小。

单位Byte:
bin/hadoop fs -du / | sort -n
单位MB:
bin/hadoop fs -du / | awk -F ' '  '{printf "%.2fMB\t\t%s\n", $1/1024/1024,$2}' | sort -n
单位GB,大于1G:
bin/hadoop fs -du / | awk -F ' '  '{num=$1/1024/1024/1024; if(num>1){printf "%.2fGB\t\t%s\n", num, $2} }' | sort -n


11、从python角度理解map/reduce:Python内建函数之――filter,map,reduce 。


12、MapReduce Job(摘自《Hadoop实战(第2版)――3.2 MapReduce 计算模型》)

  在Hadoop中,每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段:Map阶段和Reduce阶段。这个两个阶段分别用两个函数来表示,即Map函数和Reduce函数。Map函数接收一个<key, value>形式的输入,然后产生同样为<key, value>形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合到一起传递给Reduce函数,Reduce函数接收一个如<key, (list of values)>形式的输入,然后对这个value集合进行处理并输出结果,Reduce的输出也是<key, value>形式的。


13、如果copyFromLocalFile过程中出现下面类似错误,可能是local文件系统上crc文件原因。abc.txt文件的crc文件为.abc.txt.crc,注意最前面有个点。参考:HADOOP中的CRC数据校验文件

2015-11-25 14:21:14,743 INFO org.apache.hadoop.fs.FSInputChecker: Found checksum error: b[0, 16384]=53514c69746520666f726d61742
org.apache.hadoop.fs.ChecksumException: Checksum error: /usr/local/.../xxx.txt at 0
	at org.apache.hadoop.fs.FSInputChecker.verifySum(FSInputChecker.java:350)
	at org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:294)
	at org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java:228)
	at org.apache.hadoop.fs.FSInputChecker.read(FSInputChecker.java:195)
	at java.io.DataInputStream.read(DataInputStream.java:83)
	at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:56)
	at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:110)
	at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:263)
	at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1632)
	at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1610)
	at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1582)


*** walker ***


你可能感兴趣的:(hadoop)