databricks使用教程

Databricks

databricks是使用Apache Spark™的原始创建者提供的Databricks统一分析平台
它集成了Spark环境支持ScalapythonR语言进行开发。

databricks分商业版本社区版本,学生以及个人可以使用社区版本。社区版本只需要注册一下账号,则就会拥有一台配置为6G内存Spark集群环境
Spark初学者则不再为配置开发环境而烦恼·~~~~

接下来就展示一下注册&使用教程

databricks使用教程_第1张图片databricks使用教程_第2张图片然后就是邮件验证 以及手机号验证。这里就不截图了。

如何使用

databricks使用教程_第3张图片
databricks使用教程_第4张图片
databricks使用教程_第5张图片设置集群名称RoneDemo,Scala版本为2.10Spark版本为2.2.1,其它参数无伤大雅默认就好,最后就是直接点击上方的CreateCluster创建集群

稍等片刻集群便会搭建起来
databricks使用教程_第6张图片

接下来我们导入文件数据并进行一些数据操作

导入准备好的数据文件
databricks使用教程_第7张图片databricks使用教程_第8张图片databricks使用教程_第9张图片databricks使用教程_第10张图片表的默认指定的字段类型为String,我们可以更改其类型
databricks使用教程_第11张图片databricks使用教程_第12张图片databricks使用教程_第13张图片
最后就是编写Spark代码了
databricks使用教程_第14张图片这里的Notebook和JPuterNoteBook、以及Zeppelin大同小异

val productsDF = spark.sql("select * from products_datasetss")
productsDF.show()

databricks使用教程_第15张图片执行sparkSQL进行查询,(Ctrl + Enter 进行快速执行)其它的快捷键上面都有。
这种编辑器支持联想关键词,Tab键可以给你提示信息。

import org.apache.spark.sql.functions._
productsDF.groupBy("product_category_name").count().orderBy(desc("count")).show()

databricks使用教程_第16张图片如果想进行其它语句直接编写执行就完事了,比如说统计共多少条数据etc

That’s All of This 谢谢观看

你可能感兴趣的:(Spark,Spark,databricks,大数据)