第四期：有关大数据相关问答汇总，持续更新中~

NO.1 大数据为什么这么“火”？为什么那么多人转型学大数据？

回答一：身为数据极客，在2017年应该能感觉很幸福。

去年，我们曾经问过大家“大数据还是个值得关注的大事吗？”，并注意到由于大数据更像是一种“系统化工程”，因此在企业的接受速度方面要落后于整个业界的炒作。大数据技术用了多年时间进行演化，才从一种看起来很酷的新技术变成企业在生产环境中实际部署的核心企业级系统。

2017年，我们已经很适应这样的部署阶段。“大数据”这个词正在逐渐淡出我们的视野，但这种技术本身还在飞速扩张。各行各业的各种轶事和证据证明相关产品越来越成熟，在越来越多的财富1000强企业内开始投入实用，很多初创公司借助这些技术快速实现了收入增长。

与此同时，宣传炒作的泡沫开始毋庸置疑地转向了这个生态系统中机器学习和人工智能等领域。过去几个月来，人工智能领域涌现出一种“大爆炸”式的集体意识，这一情况与几年前大数据技术的“遭遇”相差无几，不过发展速度更快。

从另一个角度来看，2017年也是激动人心的一年：望穿秋水的IPO。今年头几个月，大数据领域的初创公司在这方面活动频频，并得到了公开市场的热切欢迎。

总的来说，数据生态系统在2017年终于实现了火力全开。

从上层趋势来说：

大数据 + 人工智能 = 全新技术栈

企业的预算：逐利

企业数据正在陆续上云

大数据与人工智能强强联合，我们即将进入“收获”的季节。忽略各种炒作，我们迎来了数量众多的可能性。

随着核心基础架构以及应用程序端日渐成熟，人工智能技术驱动的应用将迎来井喷期，2017年，大数据（以及人工智能）生态几将火力全开。

大数据不仅会越来越火，还会一直火下去！

回答二：根据数据显示，目前全国的大数据人才只有46万，未来3-5年内大数据人才的缺口将高达150万多，大数据行业将面临全球性的人才荒。领英发布的《2016年中国最热职位人才报告》基于领英平台上约50万的中国各个行业人才大数据的分析，报告表明，数据分析人才最为稀缺。

[大数据工程师发展空间巨大]

在互联网时代，每天都有海量的数据信息产生，数据的处理变得越来越复杂，很多大公司已经在寻求拥有实战经验的高手来填充自己实力。全国大数据人才主要分布在经济发达的大城市及大数据行业发展优先的城市，各区域想要吸引更多的大数据人才不仅要制定相关的政策，同时也要大力发展与大数据相关的企业。

大数据行业平均月薪高达21.2K，高居互联网行业榜首，远高于排名二三位的物联网和智能硬件行业。大数据行业的火爆，带动了数据分析师薪资的水涨船高，过去一年相关职位薪资涨幅达到19%。

回答三：站在营销的角度说这件事。近年来，随着房地产热，电商冲击等因素，实体经济越来越低迷。面对房租不断上涨的实体销售渠道，单纯的依靠进店人数已经难以支撑，必须改变被动的营销模式。抓住用户，吸引用户到店是所有商家面临的难题。必须采取精准化的营销手段改变现状，这时候大数据就是实现这个目的的手段，越来越多的企业也提供大数据方面的支撑替代原有传统媒体的这方面职能。

NO.2 怎样自学大数据？

回答一：一、数据分析师有哪些要求？

1、理论要求及对数字的敏感性，包括统计知识、市场研究、模型原理等。

2、工具使用，包括挖掘工具、数据库、常用办公软件（excel、PPT、word、脑图）等。

3、业务理解能力和对商业的敏感性。对商业及产品要有深刻的理解，因为数据分析的出发点就是要解决商业的问题，只有理解了商业问题，才能转换成数据分析的问题，从而满足部门的要求。

4、汇报和图表展现能力。这是临门一脚，做得再好的分析模型，如果不能很好地展示给领导和客户，成效就大打折扣，也会影响到数据分析师的职业晋升。

二、请把数据分析作为一种能力来培养

从广义来说，现在大多数的工作都需要用到分析能力，特别是数据化运营理念深入的今天，像BAT这样的公司强调全员参与数据化运营，所以，把它作为一种能力培训，将会让你终生受益。

三、从数据分析的四个步骤来看清数据分析师需具备的能力和知识：

数据分析的四个步骤（这有别于数据挖掘流程：商业理解、数据理解、数据准备、模型搭建、模型评估、模型部署），是从更宏观地展示数据分析的过程：获取数据、处理数据、分析数据、呈现数据。

（一）获取数据

获取数据的前提是对商业问题的理解，把商业问题转化成数据问题，要通过现象发现本质，确定从哪些纬度来分析问题，界定问题后，进行数据的采集。此环节，需要数据分析师具备结构化的思维和对商业问题的理解能力。

推荐书籍：《金字塔原理》、麦肯锡三部曲：《麦肯锡意识》、《麦肯锡工具》、《麦肯锡方法》

工具：思维导图、mindmanager软件

（二）处理数据

一个数据分析项目，通常数据处理时间占70%以上，使用先进的工具有利于提升效率，所以尽量学习最新最有效的处理工具，以下介绍的是最传统的，但却很有效率的工具：

Excel：日常在做通报、报告和抽样分析中经常用到，其图表功能很强大，处理10万级别的数据很轻松。

UltraEdit：文本工具，比TXT工具好用，打开和运行速度都比较快。

ACCESS：桌面数据库，主要是用于日常的抽样分析（做全量统计分析，消耗资源和时间较多，通常分析师会随机抽取部分数据进行分析），使用SQL语言，处理100万级别的数据还是很快捷。

Orcle、SQL sever：处理千万级别的数据需要用到这两类数据库。

当然，在自己能力和时间允许的情况下，学习新流行的分布式数据库及提升自身的编程能力，对未来的职业发展也有很大帮助。

分析软件主要推荐：

SPSS系列：老牌的统计分析软件，SPSS Statistics（偏统计功能、市场研究）、SPSS Modeler（偏数据挖掘），不用编程，易学。

SAS：老牌经典挖掘软件，需要编程。

R：开源软件，新流行，对非结构化数据处理效率上更高，需编程。

随着文本挖掘技术进一步发展，对非结构化数据的分析需求也越来越大，需要进一步关注文本挖掘工具的使用。

（三）分析数据

分析数据，需要用到各类的模型，包括关联规则、聚类、分类、预测模型等，其中一个最重要的思想是对比，任何的数据需要在参照系下进行对比，结论才有意义。

推荐的书籍：

1、《数据挖掘与数据化运营实战，思路、方法、技巧与应用》，卢辉着，机械出版社。这本书是近年国内写得最好的，务必把它当作圣经一样来读。

2、《谁说菜鸟不会数据分析（入门篇）》和《谁说菜鸟不会数据分析（工具篇）》，张文霖等编着。属于入门级的书，适合初学者。

3、《统计学》第五版，贾俊平等编着，中国人民大学出版社。比较好的一本统计学的书。

4、《数据挖掘导论》完整版，[美]Pang-Ning Tan等着，范明等翻译，人民邮电出版社。

5、《数据挖掘概念与技术》，Jiawei Han等着，范明等翻译，机械工业出版社。这本书相对难一些。

6、《市场研究定量分析方法与应用》，简明等编着，中国人民大学出版社。

7、《问卷统计分析实务—SPSS操作与应用》，吴明隆着，重庆大学出版社。在市场调查领域比较出名的一本书，对问卷调查数据分析讲解比较详细。

（四）呈现数据

该部分需要把数据结果进行有效的呈现和演讲汇报，需要用到金字塔原理、图表及PPT、word的呈现，培养良好的演讲能力

回答二：这朋友首先要明白一个道理，大数据是一个泛化的概念。就像互联网，计算机这样的专有名词，比如一个人问你我如何去学习互联网，你一定会告诉他，互联网一个泛指的概念，它包括方方面面很多细分的项目，你想自学的大数据也是非常泛化的概念，就拿你擅长的Java这个工具。她也能在大数据上的拥有广泛的应用。包括数据库集群技术，分布式技术，还有网站性能优化，包括CDn镜像技术虚拟化，云计算共享，存储海量数据等。我个人的建议，你如果擅长Java的话，您完全没有必要自学。因为任何一个语言任何一个工具都要在一个大的使用场景的人来实现，那么我的建议是你参加一个针对性的项目培训，以后去应聘到相关的公司参加项目小组。因为云计算是个泛指的概念有很多门类，你的这个专业可以通过你的小组参加具体的实践项目。进而达到提升的目的。通过参与具体的项目，你可以接触到云计算的方方面面，最起码是概念上的方方面面，然后具体可以从你擅长的专业角度有所突破。你想在大数据企业就业的话，获得一个大企业的认证非常重要。目前国内最火的云计算，应该属于阿里云。那么你首先应该取得阿里云的企业级的认证。包括阿里云的数据处理和分析。报表场景的实现，企业自主平台阿里云的企业认证，包括ACp11003模块等等。以上说了一大堆废话，给你的最终的建议就是:参加一个团队，上手一个项目，获取商业应用的经验后，以一个有经验的大数据平台工作人员的身份，跳槽到更高层级的企业。你们职业发展薪资待遇就会有一个更大的提升。

NO.3 大数据到底有没有前途，培训选择大数据值吗？

回答：如今，任何大数据平台的搭建和维护都需要成建制的数据工程师和数据科学家。过去两年间每年有数十个大数据平台在启动和搭建，这就在短时间内形成了对数据工程师和数据科学家的巨大需求，而在大数据人才的供应特别是高端人才供应方面则受到人才保有量不足和人才培养周期长的制约。如果我们从大学入学开始计算，加上软件开发和数据算法建模等方面工作经验的形成，培养一个合格的数据工程师和数据科学家至少需要五到十年的时间。

当前一个明显的事实是，大数据人才培养速度明显低于大数据发展和应用的速度。据调查，尽管全国50%的大数据人才集中在北京，但是北京的互联网公司仍然普遍遇到了合格的大数据人才“招聘难”和“留人难”的问题。

在中国，目前出现在各类招聘平台上与数据分析相关的招聘需求比去年同期相比，增长率高达67%；大数据相关高级职位的薪酬与其他同类技术职位相比平均高出43%以上。各行各业对大数据人才的需求，以及技术从业者希望跻身大数据高级人才的需求变得越来越强烈。

可以预见，在未来世界，国家之间、区域之间甚至是公司之间的大数据人才的争夺战，将是愈演愈烈的。有鉴于此，建立中国的大数据人才平台，对大数据人才问题进行超前研究，并且未雨绸缪，加大人才培养和引进的力度，应该引起领导者与人才规划部门更多的重视。

大数据的发展史一个全球化的趋势，大数据时代已经到来。不少已经在工作或者大学刚毕业的朋友都想投身到大数据行业。

NO.4 大数据是如何展示的?

回答：将数据转化成可视化图表/形，其实一个工具就能完成，碍于工具太多，按照使用场景，暂且将已成熟应用的分为三个层次：

第一层：数据报告、信息图

这里统称信息图。信息图是把数据、信息或知识可视化，必须要有一个清楚准确的解释或表达甚为复杂且大量的信息。

代表人物是新闻界的David McCandless（大卫. 麦克坎德雷斯），曾为《英国卫报》、《连线》、《独立报》等刊物撰稿。常以简洁精美的图像展现复杂抽象资讯，并将不同的数据组合，展现其中的联系。他在TED上曾讲过：

可视化并不局限于数字，概念也同样适用，比如政治倾向图谱。我试图将各种政治倾向融入到图表中，并展示其如何从政府渗透到社会、文化中，对家庭和个人产生影响，继而又反过来影响政治。

第二层：实际数据应用

应用类的可视化正如上面所说的，将一堆几百到即使几百万不等的数据展示、分析。对于企业，因为这些数据本身是自己生产经营过程中产生的，能反映历史的状况，总结发展之道，对目前的问题或者未来下一步的决策起到辅助作用。

这样的工具excel能解决，报表工具能解决，BI也能解决，具体细化到什么样的场景不是这里的重点，大家可以在下面评论交流。

通常的制作流程是：导入数据（excel）/连接数据库（本地/服务器）——选择图表（组合）——设定分析维度——美化展示。比如像这种浓浓的带有商业味道的可视化报表（由FineReport制作）：

第三层：据挖掘、数据连接、关系传递

这个可以理解为从海量数据中挖掘关系。

大致思路：原始数据经过一连串收集、提取、清洗、整理等预处理过程，形成高质量的数据。然后按照需要对数据贴标签分类或者预测，如果要从大量复杂的数据中提取有价值且不易发现的信息还要数据建模。（细节可能各有不同）

比较适用的是一写高级的数据分析挖掘工具以及开源图表控件，如R，如D3。

用R做可视化，比较容易做出漂亮的可视化图表，推荐书籍R Graphics Cookbook，书中有150多个recipes，足够应付大多类型的数据。

D3做图可以定制，美观图图表的丰富性秒杀大多图表控件，但要求的水平有一丢丢高。

NO.5 什么是征信大数据？

回答：这个文章不仅能让你明白什么是大数据征信，更能让你明白其中问题所在。

声明：本文仅为大数据应用的探讨性交流，非对所提及企业之评价，如有问题，请联系扯蛋家，扯蛋家将在第一时间删除。

先从芝麻信用说起，对，就是支付宝里的那个芝麻信用。

芝麻信用应该是目前私营企业里，在个人征信上做的最好的了。从扯蛋家平时使用情况看，它的模型是比较容易猜出来的，应该是基于以下数据的分析运用：淘宝天猫数据、其它平台使用支付宝购物数据（如各类电商网站、12306等）、支付宝上的金融数据（余额、余额宝、转入/转出等）、支付宝的应用（如还信用卡、水电等缴费），以及可能涉及到一些三方数据（快递、银行工资流水等），等等。

芝麻信用为消费者带来了一些便利，如共享单车评芝麻信用可以免押金。

但扯蛋家认为问题也在这里。

作为消费者，使用一个企业的服务，企业掌握了消费者的数据，在内部分析使用是否恰当，尚须注意度的问题。如果把数据打包成一个产品，某种程度上是超越了企业对消费者数据的使用权限，如果把千千万万消费者的数据聚集起来，成为芝麻信用这样的产品，且不断的商业化使用，扯蛋家认为，这显然已经大大的有滥用消费者隐私数据的嫌疑。

何况，支付宝中，大量的信息，在消费者端出发点仅是方便自己缴费（支付宝在宣传上也在一直在“便利”上引导），他们完全不知道生活缴费代表的意义：如果你的支付宝账号、激电费的户头是一样的，那么可以判断你是有房的，根据你水电费的水平，也可以估算出你的消费能力；如果你经常换着账户交水电费，那说明你不断的换房子租住…。这样的分析，还算是相对来说较简单的。

所以，芝麻信用，这个产品，从根本上来说，它的诞生、使用，不能说非法，但至少在灰色地带。

如果说掌握了数据，就可以打包产品，扯蛋家就认为中国移动应该是在征信上更有优势，更应该推出这样的产品。

因为作为市场份额70%的运营商，它掌握了消费者所有银行端、网端的消费情况、信用卡刷卡情况、还款情况等，中国移动也能分析出来你网购的频率及水平，打个比方，怎么掌握你的网购频率：简单点的作法是通过算法计算你跟快递员联系频次、快递员给你联系频次等等。

所以，其它企业不是做不出芝麻信用这样的产品，而是因为这样做本身就有太多需要确定的地方。有报道说，当年腾讯也提出了这样的产品，但让马化腾以“倒买倒卖个人数据”为由给枪毙了，芝麻信用这个产品，其实就是在这么干。

进一步，如果这样做都可以，那我选择去做私家侦探，因为通过运营商的数据，太容易确定一个人的位置、分析出一个人有几个情人、偿债能力、三角债的实际情况等。

之前曾有人指出芝麻信用的数据应用问题，但阿里的回复是芝麻信用的数据源自杭州某公司，等等，意思是法律上是合规的。怎么说呢，依赖于强大的公司实力，请牛逼的法律顾问，设计一个完全合法合规的架构，当然是非常简单的了。但从另一个角度来说，阿里也给自己留足了空间随时切割，说明自己也意识到了这些产品的问题。

前段时间，运营商界著名大嘴，曾经的中国移动著名的工号70员工宁宇发表了一篇文章《请不要把你家的钥匙交给陌生人保管》，在摘要中直接给出结论：互联网公司正在诱导用户主动提供隐私。

宁宇在文中还详细说明了支付宝授权查询话费账单的问题所在：消费者授权支付宝后，支付宝可以随时查询通话详单，什么是详单，就是记录了你给谁打电话、打了多少、你上了什么网、上了多久的数据表。宁宇在文中比喻说这就像把房间钥匙交给了别人，别人想翻你房间就翻，你怕不怕。

扯蛋家衷心希望大数据能走到实际应用中来，但也衷心希望政府能在数据应用的范围、尺度上尽早明确法律要求。

NO.6 如何成为大数据架构师？回答：首先一个大数据架构师，最起码要熟悉H adoop Spark Storm等等主流大数据平台的核心框架，而且要深入掌握如何编写MapReducYarn HBase Hive pig 等等重要组件，能够实现对平台的监控。辅助运维护系统的开发。

另外，需要对面向过程，面向对象，面向服务等设计理念要有深刻的理解，可以做到快速的察觉出现实中的问题并提出相应的改进方案。

在技术能力上架构师需要掌握包括进程内通信对象访问高数调用数据交换线程同步等等，以及进程外技术，如RMI DCOM WebSevice

总之一个架构师是一直在不断创新，完善自己，而且表现的更为突出，我只清楚这么多，

今天就分享到这里，希望大家多多关注我的公众号

加微信还有大数据视频免费观看

第四期：有关大数据相关问答汇总，持续更新中~

你可能感兴趣的:(第四期：有关大数据相关问答汇总，持续更新中~)