【pySpark教程】Introduction & 预备工作(一)

windows 下安装 Python Spark 虚拟环境

本博客是【pySpark教程】系列的文章。

是 Berkeley 的Python Spark公开课的学习笔记(see 原课程)。

由于个人能力有限,不免有些错误,还望各位批评指正。

更多相关博客请猛戳:http://blog.csdn.net/cyh24/article/category/6092916

如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/article/details/50644959


在本系列课程中,我们会学习如下内容:

  1. Apache Spark 介绍
    • Big Data, Hardware trends, and Spark
    • Spark 要点
    • 实验一:Spark 基础学习
  2. Data Management
    • Semi-Structed Data
    • Structured Data
    • 实验二:使用 Spark 分析网络服务器日志
  3. 数据分析与机器学习
    • 数据处理
    • 数据分析
    • 机器学习
    • 实验三:文本分析与实体解析
    • 实验四:Spark 机器学习介绍

为了满足大家的需求,我们的软件开发环境是使用Virtual Machine(VM虚拟机)。你只需要按照两个软件包: VirtualBox and Vagrant,然后再下载安装制定的VM镜像就可了。本文将手把手指导你下载安装这些软件。

Note: 你所需要下载的所有东西不会超过1GB.

Hardware and Software Prerequisites

运行这些软件,你 的机器需要达到最低配置。

MINIMUM HARDWARE REQUIREMENTS

  • Free disk space: 3.5 GB
  • RAM memory: 2.5 GB (4+ GB preferred)
  • Processor: Any recent Intel or AMD multicore processor should be sufficient.

SUPPORTED OPERATING SYSTEMS

  • 64-bit (preferred) Windows 7 or later
  • 64-bit (preferred) Mac OS X 10.9.5 or later
  • 64-bit (preferred) Linux (CentOS 6 or later, or Ubuntu 14.04 or later)
  • 32-bit Windows 7 or later
  • 32-bit Linux (CentOS 6 or later, or Ubuntu 14.04 or later)

Installing the Required Software Packages

你需要安装以下两个软件包:

  • Oracle’s Virtual Box
  • Vagrant automatic VM configuration

这两个安装都是傻瓜式的,一般不会出问题。万一在安装Vagrant的时候出现了错误提示: Installation Directory must be on a local hard drive. 这其实是权限的问题,你只要用管理员权限去安装就行了。

镜像安装

  1. 首先创建一个文件夹(例如: c:\users\marco\myvagrant)
  2. 下载这个文件 到刚刚的文件夹下,并解压。
  3. 从解压文件夹中,拷贝Vagrantfile到你创建的文件夹中。
  4. 打开命令行cmd,切换目录到你创建的文件夹下,执行命令:
    vagrant up –provider=virtualbox

使用虚拟机的一些基本指令

  1. 启动一个VM,通过DOS 命令行指令:vagrant up
  2. 停止一个VM,通过如下命令:vagrant halt
  3. 如果你要删除VM,使用:vagrant destroy
  4. 一旦一个VM处于运行中,那么可以通过浏览器:”http://localhost:8001/” 来访问IPython notebook。

Running Your First Notebook

通过运行你的第一个notebook,来测试你的环境是否安装完整。

  1. 如果你还没有运行VM,那么先开一个,通过上述的命令
  2. 通过访问”http://localhost:8001” or “http://127.0.0.1:8001/” 来进入IPython notebook
  3. 在Jupyter网页中,选择上传按钮,上传之前下载的文件中的 “lab0_student.ipynb”,这是Spark iPython notebook file
  4. 点击查看即可。

到此,预备工作就完成了!

你可能感兴趣的:(【pySpark,教程】,PySpark-机器学习)