随着社会的进步,大数据的高需求,高薪资,高待遇,促使很多人都来学习和转行到大数据这个行业。学习大数据是为了什么?成为一名大数据高级工程师。而大数据工程师能得到高薪、高待遇的能力在哪?自然是项目经验。下面给大家大概介绍一下在阿里的"双11"、“双12”、"双旦"即将到来的"618"与腾讯大数据都用上的十二个大数据项目:
一个大数据分析项目关键构成如下:
信息采集组、数据清洗组、数据融合组、数据挖掘组、数据可视化组。
根据每组的名称很好理解。
信息采集组主要是通过网络爬虫来采集数据,当然还可以根据业务需求,通过不同的方式来采集数据;
数据清洗组主要就是把一些无效的脏数据找出来剔除或者替换,任务量其实很大,因为爬来的数据脏数据量很大,这个组的工作周期一般很长,任务也很重;
数据融合组主要就是把爬来的课程信息把相似的归类,有上下级关系的就按照子类父类的关系列好,这一组的工作非常不好完成,目前我们做的融合效果不算好,想融合好算是一个难点。
数据挖掘组就是拿到可用的数据之后通过数据挖掘算法,去研究之前设定好的影响因子之间的因果关系,主要的分类算法有决策树、贝叶斯分类、基于规则的分类、神经网络、持向量机、懒惰学习算法中的K-最近邻分类和基于案例的推理等算法;
数据可视化组顾名思义就是把数据挖掘组的成果可视化展示,这样可以直观的看到数据之间的关系,并利用数据分析和开发工具发现其中未知信息的处理过程
了解大数据的项目构成,那么怎么成功的做成一个项目呢?该怎么去做呢?
成功项目的标志
成功很多时候跟失败是反过来的:
一是项目用例(目标/实用价值)清晰。
从上到下,大家都明白这个大数据要做什么,包括企业的财务主管和具体业务部门,比方说营销部门,这个大数据项目是用在营销部门的,他们也很清楚,负责执行的技术部门也很清楚,这个搞清楚了以后,对大家上下一心做好项目是非常重要的。
二是项目规划完善+快速迭代研发试错稳步推进。
一个项目规划的时候,不要做成规划三个月、六个月,你用传统的老办法去做,最后发现实际上第一阶段结束了以后,你去做测试完全没有达到你想要的效果。我们做一个大项目要用快速迭代的方法来做,每个星期可以推出一个功能,进行快速测试,内部市场、外部市场都测试成功,下一个星期就可以进行下一个功能的研发、扩展、推广。这样的话,可以通过迅速的试错,比方说第二个星期做的方向不对,或者有些功能没有办法实现,或者跟我设计的不一样,这样的试错代价会比较低,不会等到6个月才发现有重大的错误,调整了以后第三个星期可以接着来,可以换一个方向,可以调整开发的内容,或者是功能,三个月以后,已经经过了四、五个星期的测试和研发了,基本上犯错的可能性就比较低了。
三是所选技术符合大数据项目功能要求。
很多人都听说过要上一个大数据项目必须要用一些特殊的技术,大数据项目最重要的不是选高大上的平台,或者是特殊的技术,最重要的是选一款符合最初设计的业务功能的技术,这个技术可能相对来说比较简单,可能是SAS软件,或者是JAVA程序,没必要上高大上的技术,最重要的是符合你的要求。很多企业选了高大上,最后发现,实际上钱花了很多,但是没有达到预期的要求,因为你选了高大上的东西以后,会影响到各个方面的整合和所需要的数据量,预算会很大,成本也会比较高,很难实现盈利的目标。所以最重要的是选一款适合你这个项目目标的技术,这个非常重要。
四是项目团队拥有各方面专业知识技能。
大数据技术就像企业做的任何一款创新产品和项目一样,需要雇佣所有的对这个项目有贡献的,可能会受影响的资源,可能包括人力资源,包括技术资源,包括市场资源,包括运营资源等等各个方面的资源调动,形成这么一个团队,上面有领导的支持,中间有大家的共识,最下面的一线执行人员也很清楚自己要做什么,这方面要协调好,要有专门的技术,这个很重要。
五是项目成果获得业务用例期望成果。 这个项目做了三个月、六个月,做出来了,是不是获得了业务用例期望的结果,是一个非常重要的标志。很多时候,很难是百分之百,一般80%的项目达不到完全预期的结果,可能是80%的预期达到了,那已经很好了,可能达到50%,也不错,因为是一个创新的项目,可以根据达到的预期项目进行不停地调整,最差的是只达到了20%,很多企业做的项目结果,这是一个统计的结果,是大家能看得见的。根据业界的标准,到了50%基本上算比较成功了,到了80%就是相当好了。 成功大数据项目的衡量标准
成功的项目横向标准是五点:
一是项目在预定的时间里可以实现或者接近预定的目标;
二是这个项目或者产品实现了传统数据方法没有办法带来的特殊的内部和外部的商业价值;
三是在有限的大数据投资的条件下,给特定的业务带来的好处可以轻松复制到其它的业务领域,比如说营销部门获得的成功会推广到产品的研发部门,或者是推广到业务运营部门,这样会花很小的代价,但是做了更多的事儿。
四是受益的业务部门可以运用大数据工具进行高效便捷的工作,这其实是最直接了当的,因为本来我们要做一款大数据的产品,或者是服务项目就是为了提高运营效率和工作效率。
五是通过这个项目实施企业获得了新的商业模式和成长点,这个是最重要的,从战略的角度讲,这个大数据产品和项目成功实现了企业转型和升级。
成功大数据项目的路线图
成功大数据的路线图分为六步:
第一步:确定对企业业务有重大影响的大数据用例和创新方向。
第二步:我们要制定基于大数据项目的详尽的产品服务创新规划。
第三步:要详细了解大数据项目所需要的业务功能要求和选择与之相匹配的技术。
第四步:就大数据项目带来的商业利益在企业内部达成共识。
第五步:我们要选择容易实现的目标入手,快速迭代研发、试错、稳步推进。也就是说不要刚开始就要搞高大上、大而全的项目,因为失败的几率几乎是百分之百,非常容易失败,因为预算太大,选的工具太复杂,调动的资源很多,很难一下子实现所有的目标,所以通常我们从一个晓得目标,容易实现的目标开始,这样可以鼓励士气,错误犯在研发的初期,而不是在中期和最后,这个最重要。
第六步:做大数据项目和产品一定要挖掘和实现大数据能给我们带来的特殊价值,这是其它的方法或者是其它类的数据做不到的,只有实现了这种特殊的价值,我们才能实现业务所需要的具体功能,不管是扩展市场的份额,或者是更精准的了解你的客户需求,还是说你要增加边际利润率,或者是提高产品上市的速度,缩短研发周期,这些都是大数据可以做的。另外就是跨界创新,传统企业可以通过大数据这个纽带跟其他企业的业务结合起来。
下面我就给大家介绍一下十二个各个领域都包含的项目案列
1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。
2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网站交易情况监控的时效性,降低网站运行的风险。 通过此项目,回顾并串联前面讲述的实时数据处理相关技术,如:kafka、Spark、Streaning和HBase等,了解和掌握实时数据处理的一般过程和架构。
3,推荐系统:项目内容,基于公开数据库的商品推荐,某大型互金公司产品推荐系统剖析, 通过对公司实际推荐项目的剖析和根据真实数据搭建推荐系统的实操演练,了解推荐系统的一般架构和常用算法。
4,搜索系统:项目内容,通过网站爬虫爬取网站数据,然后基于KlastlcSeard和Klbana搭建一个完整的搜索系统。
5,系统运行情况仪表盘: 通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV,UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如Flume,Sqoop,Hive,Spark等,掌握PB级数据离线处理的一般过程和架构。
6, 实时交易监控系统 : 过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网站交易情况监控的时效性,降低网站运行的风险。通过此项目,回顾并串联前面讲述的实时数据处理相关技术,如Kafka,Spark Streaming和HBase等,掌握实时数据处理的一般过程和架构。
7,推荐系统理论与实战: 讲解推荐系统的相关背景,常用算法及通用架构;基于公开数据集从零构建一个电影推荐系统。通过对公司实际推荐项目的剖析和根据真实数据搭建推荐系统的实操演练,了解推荐系统的一般架构和常用算法
8,数据仓库搭建理论与实战: 讲解数据仓库搭建的方法论,常用建模理论;以互金公司数据仓库搭建场景作为切入,实例演示数据仓库搭建过程及技术架构。
9,分布式业务监控系统: 讲解业务监控系统需求背景,基于大数据的技术方案;通过实例代码搭建完整的业务监控系统
10,基于ES的日志系统 : 基于Flume,ElasticSearch等技术搭建系统日志收集与查询系统。
11,信贷需求预测系统: 以京东信贷需求预测竞赛为背景,实例讲解数据挖掘项目中如何设计特征,模型基础,建模以及调参等。
12,用户画像系统 : 讲解用户画像系统的需求背景,基于大数据技术的解决方案;通过实例代码演示用户画像系统的搭建。