Hadoop综合大作业

 

1.用Hive对英文长篇小说进行词频统计。

  •  利用WinSCP  英语长篇小说文本文件放于 /home/hadoop/wc 目录下:

Hadoop综合大作业_第1张图片

  • 启动hadoop:

  • 上传到hdfs/data文件中

 

  • 启动Hive 

Hadoop综合大作业_第2张图片

  • 在hive数据库创建表 world:

Hadoop综合大作业_第3张图片

  • 导入文本world.txt并查看:

Hadoop综合大作业_第4张图片

  • 用HQL进行词频统计并保持到表 word_count

Hadoop综合大作业_第5张图片

2.用Hive对爬虫大作业产生的csv文件进行数据分析

  • 同上,将爬虫大作业产生的csv文件放入bdlab数据库表bigdata_count中:

Hadoop综合大作业_第6张图片

  •  创建用于存放csv数据目录:

  • 把文件放入文件夹中

  • 查看文件中的数据:

Hadoop综合大作业_第7张图片

  • 导入数据库表中

Hadoop综合大作业_第8张图片

 

  • 查看数据:

Hadoop综合大作业_第9张图片

  • 分析数据,取得数据表中count计数前30位数据:

 Hadoop综合大作业_第10张图片

Hadoop综合大作业_第11张图片

可以看出大多数字眼都是围绕C# JAVA 数据库 net 等!

你可能感兴趣的:(Hadoop综合大作业)