漫话大数据

关于大数据,通常和云计算成对出现。
大数据的产生,一部分依赖于用户操作后的历史数据,另一部分则依赖于数据挖掘。如果仅就数据挖掘而言,目前最热门的职位就是爬虫开发工程师(根据编程语言划分,又分Python,java,Scala,ruby),单机版的框架有webmagic,crawl4j;分布式的则有nutch,scrapy等。挖掘到数据后,根据不同的业务场景,就要对数据结构,数据形式进行处理,这个过程就是数据的清洗过程,包括去重、正则匹配、结构转换等等;清洗之后才是我们的数据处理过程,通过分布式计算引擎(map/reduce,hive,spark,storm,terz等)对数据进行处理,处理之后产生的结果我们可以存储在hdfs之上,通过kafka等实时消费系统将处理的数据显示在web端。这里面涉及到的中间调度框架yarn,分布式集群管理框架zookeeper、dubbo,流式处理引擎flume,数据库存储hbase,构成了一条完整的大数据生态链。
云计算其实就是分布式计算,由于现在的数据不同于以前的数据,它的大,使得他们存储在很多台服务器上,数据量的庞大,不可能让所有的数据都拉取到一台机器上做计算,因此,master将计算shuffle到所有的slaves上,再将每台机器上的计算结果reduce,这个过程就是所谓的云计算,它是随着大数据的产生应运而生的一个概念,没啥太多的实际意义。
当然,弄清楚这些并且会运用之后,就可以实际操作了。要说以后的发展前景,还得是人工智能,机器学习和虚拟现实,追随时代的发展浪潮才能做时代的弄潮儿。

你可能感兴趣的:(大数据,云计算)