如何在jupyter notebook裡運行Spark及Scala

如何在jupyter notebook裡運行Spark及Scala

  • 前言
  • 安裝套件
  • 創建Kernel spec
  • 啟動jupyter notebook
  • 測試Scala
  • 參考連結

前言

本篇譯自:How to run Scala and Spark in the Jupyter notebook,文中介紹了從安裝套件、創建Kernel spec,到啟動jupyter notebook及測試Scala程式的完整流程。

安裝套件

pip install spylon-kernel

創建Kernel spec

原文中並沒有說明Kernel spec是什麼,到Making kernels for Jupyter - kernel-specs查詢後,個人將之理解為每個kernel的id。

python -m spylon_kernel install

經過這一步以後,我們就可以在notebook中選擇scala當作kernel。

啟動jupyter notebook

ipython notebook 
#or jupyter notebook

接著在jupyter notebook起始畫面中選擇New -> spylon-kernel,如何在jupyter notebook裡運行Spark及Scala_第1张图片

測試Scala

如何在jupyter notebook裡運行Spark及Scala_第2张图片我們可以看到它啟動了SparkContext跟SparkSession。

如果執行失敗,請使用以下指令檢查SPARK_HOME這個環境變量是否存在。
在这里插入图片描述
接著可以來創建一個dataset:如何在jupyter notebook裡運行Spark及Scala_第3张图片

如果想要執行python也是辦得到的,只要在當前cell最前面加上%%python即可:
如何在jupyter notebook裡運行Spark及Scala_第4张图片

如果想要更了解spylon-kernel可以拜訪他們的Github網頁:Valassis-Digital-Media/spylon-kernel。
文章中用到的notebook則可以在BogdanCojocar/medium-articles找到。

參考連結

How to run Scala and Spark in the Jupyter notebook
Making kernels for Jupyter - kernel-specs
Valassis-Digital-Media/spylon-kernel
BogdanCojocar/medium-articles

你可能感兴趣的:(Python學習筆記,Spark,大數據)