活动说明:挨踢部落是为核心开发者提供深度技术交流,解决开发需求,资源共享的服务社群。基于此社群,我们邀请了业界技术大咖对开发需求进行一对一突破,解除开发过程中的绊脚石。以最专业、最高效的答复为开发者解决开发难题。

挨踢部落第一期:Spark离线分析维度_第1张图片

话题关键词: 大数据  spark  数据分析  数据画像

部落阵容徐韬,龙珠直播大数据主管;王劲,数果科技 联合创始人;

面向对象:初级开发工程师,数据分析师,运维工程师

参与方式:加入51CTO开发者QQ交流群 370892523 ,有任何技术问题,在群里提问,或发给群主小官。

活动详情:


南京-史国俊-Java:有没有Spark学习的相关资料?

徐韬:建议学习Spark官方文档,其他的Spark书籍可能会跟不上Spark技术的更新。

北京-robingao –Java:用Spark做离线分析,Nginx 日志一般从那些维度怎么分析,具体都看什么维度?

徐韬:建议离线分析用Hive + map/reduce 比Spark 更稳定。Nginx日志一般用作流量监控,运维报警,有很强的时效性,可以使用Spark-Streaming。指标:在线人数,用户访问数量,流量使用情况,接口错误情况,慢查询数量,服务器状态。维度:按站点,按模块拆分。还可以做一些轻量级的用户行为分析,如用户访问路径。

北京-robingao –Java:有做客户画像方面的分享吗?具体点的。

徐韬:用户画像就是给用户“打标签”。用户画像可以分为静态标签,动态标签。静态标签是很少更新的指标或者是几乎不变的指标,比如用户的个人信息。动态标签是用户的行为标签,比如直播站的喜好类目。通过用户行为日志和交易流水数据打上的标签 ,一些网站/APP 只有少量的用户个人信息,但是通过打点可以获得海量的用户行为日志,我们可以通过聚类分析预测用户的性别,年龄段,所在城市类型,工作类型等。直播站的一些比较有特点标签有:喜爱主播,习惯上线时段,签到型用户等等。

南京-史国俊-Java:假如要同时向Spark集群提交多条SQL,能否不采用Spark-submit方式来实现?

徐韬:建议在Spark-SQL客户端里提交。

重庆-小包-Android:流媒体方面的,想了解下Android方面有关于流媒体的案例,比如视频语音流这类的?

徐韬:这个题目太大了,和直播相关的案例有直播回放,连麦,H5直播播放器。

广州-赵辉-大数据:大数据的多源数据融合的价值?

王劲:如果大数据不做跨界多源融合,数据的价值很有限,也体现不出大数据的真正核心价值。其中在金融,电商,保险等行业会更能体现多源数据融合的价值。

珠海-小源-Java:51CTO有没有做大数据相关的专题?

51CTO:有的,可以订阅大数据期刊,订阅的方法:在家园里面,个人主页——我的订阅这里。例如:大数据新动向;一切尽在大数据;大数据世界之旅高端访谈;小团队如何玩转大数据。

珠海-小源-Java:安全相关的专题有提供吗?

51CTO:安全专题例如:HPE安全——“功夫熊猫”背后的数据保镖;聚焦美网络瘫痪事件,物联网安全发人深省;2016国家网络安全宣传周专题报道;第十一届(ISC)2亚太信息安全峰会专题报道;避免勒索软件*** 仍需预防为上。

北京-杨凯-网络工程师:想了解云计算方面的知识

51CTO:可以参考这篇来学习re:Invent 2016----AWS的五大云计算超能力。

南京-小胖- Android:云计算与大数据之间的关系

51CTO: 云计算的特点:通过对计算、网络和存储资源的动态调度及应用的快速部署,通过虚拟技术提高信息化设备的利用率,实现节约资源、提高效率、集中管理、信息共享和节约财政支出等目的。云计算平台主要部署各类应用系统、存储海量数据,为电子政务、社会管理、公众服务等提供服务。大数据的特点:通过Hadoop等分布式计算架构,通过ETL等工具,从云计算平台中抽取海量数据,根据设定的目标进行跨部门、跨行业等大数据分析、建模及验证等工作。大数据分析的结果通过云计算平台进行发布,并给相关单位提供服务、为领导决策提供支撑。

您对这些解答方案是否仍有疑问?欢迎加51CTO开发者QQ交流群 370892523 讨论。

下期活动预告:12月26日

关键词:移动  android 物联网  前端