阅读干货-大数据和Python

一位用javaScript的进行了前端,服务器端,MongoDB,实现了整个应用;

  • 云基础设施—Python,java,Go
  • DevOps —Python,Shell,Ruby,GO
  • 网络爬虫 —Python,PHP,C++
  • 数据处理 —Python,R,Scala

1.云基础设施

  • 私有云 —OpenStack—Python
  • 公有云 —AWS,GCE,Azure,阿里云,青云—提供Python SDK
  • Hadoop—MapReduce数据处理不够快,不再作为首选
  • Hadoop两个组件—HDFS,Yarn受欢迎
  • Hadoop开发语言Java
  • 官方无Python支持,第三方库封装了Hadoop的API接口—pydoop,hadoopy

2.DevOps

开发自运维

3.网络爬虫

除了企业有能力产生大量的数据,大部分时候靠爬虫抓取互联网数据来做分析,还有高并发的支持。

并发库

  • Gevent,Eventlet,Celery

爬虫框架

  • Scrapy
  • HTTP工具包urlib2
  • HTML解析工具beautifulsoup
  • XML解析器lxml

分词处理

  • 自然语言处理包—NLTK
  • 中文分词—jieba

4.数据处理

数据处理算法:
- 数据挖掘
- 机器学习
- 深度学习理论

R语言—原型实验
Python数据处理相关类库

  • 科学计算类库—NumPy,SciPy
  • 画图PK Matlab —matploglib
  • 机器学习算法 —Scikit-learn,Milk
  • Pylearn2 深度学习领域重要成员
  • 高性能数学符号计算和多维矩阵计算 — Theano
  • Pandas —工程领域广泛使用的大数据类库
  • iPython

OpenStack —>200万行代码

大数据全栈式开发语言 – Python

你可能感兴趣的:(大数据)