SQL人的优势:实战大数据开发10分钟入门

金色的九月,即将开启收获的篇章。

一早醒来,魔都湛蓝的天空,暑气未消的阳光,一扫前几日狂风暴雨的阴霾。品着自己煮的咖啡,吃上一口朱家角寄来的苏荷月饼,人生真赞!

这个礼拜将32G内存和M.2 SSD都买好了,虽有些小波折,但硬件基本到位,安装好,可以干点活了。很多朋友也已经看到我在B站UP的视频了,学习必须要舍得投资!

SQL人是大数据时代最得便宜的优势群体,因为10分钟内,我们就可以体验一把 Hadoop 实战。

不信?你瞧好!

首先,再强调一次,硬件必须过关:

SQL人的优势:实战大数据开发10分钟入门_第1张图片

大内存,SSD 上齐!

接着,第一步,我们到 Cloudera 下载一个 CDH 镜像虚拟机:

https://downloads.cloudera.com/demo_vm/vmware/cloudera-quickstart-vm-5.13.0-0-vmware.zip

使用迅雷下载,大概不到5分钟即可。

配置虚拟机的内存和CPU:

SQL人的优势:实战大数据开发10分钟入门_第2张图片

启动虚拟机!

第二步:将MySQL中的数据,导入 Hive:


	

	
[cloudera@quickstart Desktop]$ sqoop import-all-tables \	
> -m 1 \	
> --connect jdbc:mysql://quickstart:3306/retail_db \	
> --username =retail_dba \	
> --password=cloudera \	
> --compression-codec=snappy \	
> --as-parquetfile \	
> --warehouse-dir=/usr/hive/warehouse \	
> --hive-import	

SQL人的优势:实战大数据开发10分钟入门_第3张图片

Hive名义上是个数据仓库,但后台存储还是靠 Hadoop HDFS.

通过HDFS命令可以看到,一个HDFS目录就是一张Hive的表:

[cloudera@quickstart lib]$ hadoop fs -ls /user/hive/warehouse/orders	
Found 3 items	
drwxr-xr-x   - cloudera supergroup          0 2019-09-06 23:32 /user/hive/warehouse/orders/.metadata	
drwxr-xr-x   - cloudera supergroup          0 2019-09-06 23:33 /user/hive/warehouse/orders/.signals	
-rw-r--r--   1 cloudera supergroup     488257 2019-09-06 23:33 /user/hive/warehouse/orders/b8af7a93-c493-4a41-a8ef-8254360ac632.parquet	

最后一步,我们SQL人会大吼一声的事情来了:

打开 Hue 服务地址:

http://192.168.159.129:8888

登录之后,写上一条我们常用的分组求解订单量排名前10的 SQL:

select c.category_name, count(order_item_quantity) as count	
from order_items oi	
inner join products p on oi.order_item_product_id = p.product_id	
inner join categories c on c.category_id = p.product_category_id	
group by c.category_name	
order by count desc	
limit 10;

分分钟,所见即所得,且根据维度任意切片,变着图形供你使唤

SQL人的优势:实战大数据开发10分钟入门_第4张图片

10分钟,恭喜你,成功入门大数据开发

640

猜你喜欢:

2019 MySQL8 24小时快速入门(1)

看亿级用户电商如何玩转SQL大数据

你可能感兴趣的:(SQL人的优势:实战大数据开发10分钟入门)