ODPS结合Python进行大数据分析环境搭建

一、简介
PyODPS即利用Python进行ODPS大数据分析。其架构如下图所示。底层是基础API,可以利用其操作MaxCompute上的表、函数或者资源。

ODPS结合Python进行大数据分析环境搭建_第1张图片

再上面是DataFrame框架,DataFrame包括两部分,一部分是前端,定义了一套表达式的操作,用户写的代码会转化成表达式树,这与普通的语言是一样的。用户可以自定义函数,也可以进行可视化,与第三方库进行交互。后端最下面是Optimizer,其作用是对表达式树进行优化。

ODPS和pandas都是通过compiler和analyzer提交到Engine来执行。具体内容参见:https://yq.aliyun.com/articles/63499?spm=5176.100240.searchblog.7.tLIVTh#

本篇主要介绍安装过程~~

二、安装过程
1、下载Python并安装
路径:C:\Python27
版本:2.7

2、下载setuptool并安装
文件:下载setuptools-25.1.4.zip,解压
命令:cd到解压后的目录下,python setup.py install

3、下载easy-install并安装
文件:下载ez_setup-0.9.tar.gz,解压
命令:cd到解压后的目录下,python setup.py install

4、下载pip并安装
文件:下载pip-8.1.2.tar.gz,解压
命令:cd到解压后的目录下,python setup.py install

5、安装PyODPS
命令:pip install pyodps

ODPS结合Python进行大数据分析环境搭建_第2张图片

6、检测安装完成
命令:cmd中执行:python -c "from odps import ODPS"

7、基础功能验证

from odps import ODPS
o = ODPS('your-access-id', 'your-secret-access-key',
... project='your-project', endpoint='your-end-point')
dual = o.get_table('test_table_name')
dual.name
dual.schema

ODPS结合Python进行大数据分析环境搭建_第3张图片

输出表明和表结构信息,至此安装完成~

附录
安装参考:安装指南:http://pyodps.readthedocs.io/zh_CN/latest/installation-pub-zh.html
使用参考:Python+大数据计算平台:https://yq.aliyun.com/articles/63499?spm=5176.100240.searchblog.7.tLIVTh#
使用参考:PyOdps 0.4版本发布:https://yq.aliyun.com/articles/20366?spm=5176.100240.searchblog.125.tLIVTh
使用参考:什么是PyODPS DataFrame:https://yq.aliyun.com/articles/60670?spm=5176.100240.searchblog.45.tLIVTh
使用参考:Github上aliyun/aliyun-odps-python-sdk:https://github.com/aliyun/aliyun-odps-python-sdk

此文结束~

你可能感兴趣的:(ODPS结合Python进行大数据分析环境搭建)