大数据学习——Day01(基础常识和数仓基础)

大数据定义

现有技术无法处理的数据。

主要特点

  • 体量大
  • 要求处理速度快
  • 数据种类多

发展历程

数据–>存储、计算数据–>分布式计算

大数据处理技术的发展历程

  1. 谷歌提供了理论支撑:GFS、MapReduce和BigTable。
  2. hadoop:大数据处理平台,将分布式计算打包,降低了分布式编程的难度。

数据仓库

Hive

数据仓库中的一个非常重要的技术,是数据仓库与hadoop紧密结合的标志。

学习硬件需求

服务器集群(vmware,购买云服务器集群,购买服务器)

技术软件需求
  1. 存储 :HDFS
  2. 计算:Mapreduce
hadoop基础
  1. 创建目录
    hadoop dfs -mkdir /home
  2. 上传文件或目录到hdfs
    hadoop dfs -put hello /
    hadoop dfs -put hellodir/ /
  3. 查看目录
    hadoop dfs -ls /
  4. 创建一个空文件
    hadoop dfs -touchz /wahaha
  5. 删除一个文件
    hadoop dfs -rm /wahaha
  6. 删除一个目录
    hadoop dfs -rmr /home
  7. 重命名
    hadoop dfs -mv /hello /hello2
  8. 查看文件
    hadoop dfs -cat /hello
  9. 将指定目录下的所有内容merge成一个文件,下载到本地
    hadoop dfs -getmerge /hellodir wa
  10. 使用du文件和目录大小
    hadoop dfs -du /
  11. 将目录拷贝到本地
    hadoop dfs -copyToLocal /home localdir
  12. 查看dfs的情况
    hadoop dfsadmin -report
  13. 查看正在跑的Java程序
    jps

你可能感兴趣的:(大数据)