大数据简历(项目部分)

数据的产生:(我们需要了解的)
1.网站的日志,游戏的日志,APP的日志。
2.电商订单。
3.保险,银行的数据。
4.网络报文。
5.运营商的项目,网络信息,通话记录,上网记录。
数据采集:
1.flume采集,flume可以监控一个目录,一个端口。
2.sqoop数据迁移工具,从RDBM迁移到Hadoop集群。
3.前期的测试时直接从甲方拿的硬盘,系统开发完成后,专门派人过去做实施。
4.ftp传输,慢。实时性强的需求做不了。

flume+kafka +storm/sparkstreaming
kafka+flume +sparkstreaming
比如说,日活10w,需要1w台服务器来支撑。
一般情况下,我们需要部署3W台服务器。

数据采集:Flume NG Logstash sqoop
数据存储:HDFS HBase Hive Kafka
数据分析:Hive MR Spark streaming SQL Storm
数据展示:Echarts Excel表格

网站点击流项目:

项目名称:可以写一些电商网站,旅游网站,APP的名称。名称尽量高大点!!不要带网站的名字。但是我们需要了解这家网站的主营业务,网站不能是淘宝,京东,亚马逊这些大网站,尽量找一些中小型的网站。
找一些不是很出名,但是网站看着还是很正规的电商平台。
ASS(B2B电商网站用户行为智能分析系统)
用户Session智能分析平台
项目所用技术:Flume/logstash,HDFS,MapReduce/Spark,Hive/SparkSQL/impala(交互式查询,速度快,基于内存),
Mysql,Sqoop,Zookeeper,SSH。
每一个框架的版本。
CDH还是HDP,不可能用Apache的。
CDH,版本5.3~5.12,选一个记住。5.8
HDP,版本2.4~2.8,选一个记住。2.6
项目周期:写好日期,2018.12018.8。时间是68个月。

项目分析:讨论项目的需求,以及架构的选择,不只是选择框架,还要选择版本,因为版本的更迭,导致功能的不断完善,我们的项目中可能会用到某些功能。
搭建集群:1~2周。7台机器,搭建完成,下午开会,需求改了, 集群版本不一样了,rm -rf /opt/*
项目开发:5个月。一部分时间是你自己做开发的,一部分时间是修改自己写下的bug,一部分时间是打滑的。项目进行到一半,项目经理百分之百会给你改个需求,或者加需求,或者要求优化你的程序。

代码审核:我们写好的代码,要讲。一周或者两周进行一次代码审核。

项目架构:flume+HDFS+MR+HDFS+Hive+sqoop+mysql

项目描述:
主要就是指标:

      Hive表(模型):
	  主表,可以是一张,可以是两三张,字段就是脱敏原数据。MD5加密。
	        可以以天为单位创建分区表,一天一张。
	  临时表可以有很多张,可以包括游客表,会员表,
      时间维度表
	  地域维度表   北京  上海  广州 。。。   其他
	  终端类型维度表   安卓  苹果   firefox  猎狐  。。。。
	  网站栏目维度表   


1.PV:page view 页面浏览量         时/日/周/月
2.UV:User view 用户访问量         时/日/周/月
3.留存率:次日留存率,前一天登录的用户今天也登录的用户量/前一天用户总量
          7日留存率。。。
		  15日留存率。。。
4.来源url分布:自己输入网址,根据其他链接跳转过来。
             论坛,微博,贴吧
5.转化率:页面跳转的转化率,流量的转化(衡量流量的质量)

职责描述:
集群搭建+集群维护+需求分析+hive优化+架构选型
1.将Nginx中的网站原始日志使用flume采集到HDFS中,通过shell脚本定时监控。
2.通过MRjob清洗脏数据,并对Session进行局部聚合,解决聚合中发生的数据倾斜问题。
3.用hive进行网站的pv,uv,用户注册数,用户留存率进行多维度分析统计

集群规模:
数据量50G,4 5千万条数据
服务器配置1:5/7个,CPU 8/16核,内存 48G/64G
服务器配置2:12台,CPU8核,内存24G

建模就是指的创建表,为了后期写hql脚本分析数据。一个好的模型,能让你事半功倍。

首先整理表:几张表,表的名字,18_log_user_viesit_sys_…_logtable,内容,也就是字段大概其有些什么。
别人可能会问你,为什么这样建立这个模型,为了方便我们后期写sql进行分析。具体的举一个例子

XX网站指标:至少十五个稍微复杂点的指标,不算常见的这些PV,UV,转化率这些指标。
要求是,知道怎么算出来的,并且sql的关键字要记住。
框架的版本。

1)基础分析(PV,IP,UV)
 趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。
 对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。
 当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。
 访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

来源分析
 来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。
 搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。
 搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。
 最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。
 来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。
 来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。
 来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

3)受访分析
 受访域名:提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。
 受访页面:提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。
 受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动,从而及时排查相应问题。
 热点图:记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持将一组页面设置为”关注范围”,并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。
 用户视点:提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不仅仅是拥有鼠标点击行为。
 访问轨迹:提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。

4)访客分析
 地区运营商:提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。
 终端详情:提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。
 新老访客:当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。
 忠诚度:从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。

 活跃度:从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。

5)转化路径分析
转化定义
·访客在您的网站完成了某项您期望的活动,记为一次转化,如注册或下载。
目标示例
·获得用户目标:在线注册、创建账号等。
·咨询目标:咨询、留言、电话等。
·互动目标:视频播放、加入购物车、分享等。
·收入目标:在线订单、付款等。
转化数据的应用
·在报告的自定义指标中勾选转化指标,实时掌握网站的推广及运营情况。
·结合“全部来源”、“转化路径”、“页面上下游”等报告分析访问漏斗,提高转化率。
·对“转化目标”设置价值,预估转化收益,衡量ROI。

路径分析:根据设置的特定路线,监测某一流程的完成转化情况,算出每步的转换率和流失率数据,如注册流程,购买流程等。

Hive分析电商指标:

第一步(筛选Session):
1.搜索过某些关键词的用户
2.访问时间在某个时间段内的用户
3.年龄在某个范围内的用户
4.职业在某个范围内的用户
5.所在某个城市的用户

第二步:
1.统计出符合条件的session中,访问时长在1s3s、4s6s、7s9s、10s30s、30s60s、1m3m、3m10m、10m30m、30m以上各个范围内的session占比;访问步长在13、46、79、1030、30~60、60以上各个范围内的session占比

session访问时长,也就是说一个session对应的开始的action,到结束的action,之间的时间范围;还有,就是访问步长,指的是,一个session执行期间内,依次点击过多少个页面,比如说,一次session,维持了1分钟,那么访问时长就是1m,然后在这1分钟内,点击了10个页面,那么session的访问步长,就是10.

2.获取点击、下单和支付数量排名前10的品类
计算出所有这些session对各个品类的点击、下单和支付的次数,然后按照这三个属性进行排序,获取前10个品类。

3.获取排名前十的商品品类中点击量最多的三个session。

你可能感兴趣的:(大数据,大数据,简历)