1、倒排索引什么意思?
2、“HBase的数据行拥有一个可选择的键和任意数量的列”
这样的话,每行的列都有标签信息(列名),如果像关系型数据库一样规范没行,速度会不会更快?
3、HBase本来就可以查询,为什么还要solr这些东西?
4、Ubuntu安装jdk1.7
5、聚类算法什么意思?
6、hadoop fs 和hadoop dfs的区别?(注意还有一个hadoop dfsadmin)
粗略的讲,fs是个比较抽象的层面,在分布式环境中,fs就是dfs;但在本地环境中,fs是local file system,这个时候dfs就不能用。
7、Hadoop宿主系统重启需要重新格式化HDFS的问题可以参考这里。
8、将hadoop的jar包添加到classpath,举例walker在/etc/profile中添加了:
export CLASSPATH=.:/home/walker/hadoop-1.2.1/*:/home/walker/hadoop-1.2.1/lib/*
9、HBase中为什么要有Column Family?
10、HDFS查看目录大小。
单位Byte: bin/hadoop fs -du / | sort -n 单位MB: bin/hadoop fs -du / | awk -F ' ' '{printf "%.2fMB\t\t%s\n", $1/1024/1024,$2}' | sort -n 单位GB,大于1G: bin/hadoop fs -du / | awk -F ' ' '{num=$1/1024/1024/1024; if(num>1){printf "%.2fGB\t\t%s\n", num, $2} }' | sort -n
11、从python角度理解map/reduce:Python内建函数之――filter,map,reduce 。
12、MapReduce Job(摘自《Hadoop实战(第2版)――3.2 MapReduce 计算模型》)
在Hadoop中,每个MapReduce任务都被初始化为一个Job。每个Job又可以分为两个阶段:Map阶段和Reduce阶段。这个两个阶段分别用两个函数来表示,即Map函数和Reduce函数。Map函数接收一个<key, value>形式的输入,然后产生同样为<key, value>形式的中间输出,Hadoop会负责将所有具有相同中间key值的value集合到一起传递给Reduce函数,Reduce函数接收一个如<key, (list of values)>形式的输入,然后对这个value集合进行处理并输出结果,Reduce的输出也是<key, value>形式的。
13、如果copyFromLocalFile过程中出现下面类似错误,可能是local文件系统上crc文件原因。abc.txt文件的crc文件为.abc.txt.crc,注意最前面有个点。参考:HADOOP中的CRC数据校验文件
2015-11-25 14:21:14,743 INFO org.apache.hadoop.fs.FSInputChecker: Found checksum error: b[0, 16384]=53514c69746520666f726d61742 org.apache.hadoop.fs.ChecksumException: Checksum error: /usr/local/.../xxx.txt at 0 at org.apache.hadoop.fs.FSInputChecker.verifySum(FSInputChecker.java:350) at org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:294) at org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java:228) at org.apache.hadoop.fs.FSInputChecker.read(FSInputChecker.java:195) at java.io.DataInputStream.read(DataInputStream.java:83) at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:56) at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:110) at org.apache.hadoop.fs.FileUtil.copy(FileUtil.java:263) at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1632) at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1610) at org.apache.hadoop.fs.FileSystem.copyFromLocalFile(FileSystem.java:1582)
*** walker ***