大数据时代的数据采集、处理与应用

作者:禅与计算机程序设计艺术

1.简介

随着互联网信息飞速增长和社会生产力提升,传统行业已经遇到了新的挑战。以前简单的收发短信、电话、打车等小型互联网业务,现在已经不再受到单一服务商支撑。而企业面临的最大挑战,则是如何处理海量数据和高速增长的实时需求。因此,基于数据的分析和决策,新一代信息技术开始崛起,例如“智慧城市”、“大数据分析”等。

今天,我们主要关注基于大数据及机器学习的决策支持系统,探讨如何通过大数据时代的方法、工具、方法论、技术来实现决策支持系统的建设。所谓“大数据”,指的是海量、多样化、实时、动态的信息,是一种通过计算机和网络技术进行处理、存储、分析、挖掘的一类数据的总称;所谓“决策支持系统”,是指用数字技术或机器学习方法从海量数据中提炼出有价值的信息、制定数据驱动的决策策略、优化运营管理流程的一种软件产品。

本文将从以下六个方面,对“大数据时代的数据采集、处理与应用”进行阐述。

第一,介绍大数据产生背景,说明大数据的定义及其特征。 第二,介绍基本概念术语——“数据采集、清洗、转换、加载”(Data Collection, Cleaning, Transformation and Loading),以及“数据仓库”(Data Warehouse)。 第三,介绍分布式计算框架之“MapReduce”,并提供相应的操作方法和案

你可能感兴趣的:(Python实战,自然语言处理,人工智能,语言模型,编程实践,开发语言,架构设计)