导读
对于互联网产品而言,产品经理日常工作中离不开两件法宝,一个是产品的数据,另一个就是用户反馈。产品数据一般以结构化数据为主,分析方法论成熟。而用户反馈的形式多样化(文本、图片、视像等),属于非结构化数据。
如何针对非结构化数据进行监控、分析、挖掘,网易金融大数据实验室将通过系列分享,提供方法、技巧与案例。
1. 突围非结构化数据分析与挖掘
众所周知,数据可以分结构化数据和非结构化数据两大类。目前互联网企业内专职的数据分析师,更多做的是结构化数据的抽取、清晰、转化、分析、挖掘。而对于非结构数据的处理成熟度远远低于结构化数据,甚至直接过滤掉这部分宝贵的信息。
互联网的蓬勃发展,交互的方式越来越多样化,大量的语音、文字、图片、视频信息充斥了人们交流的空间,要对这些信息作分析、提取出有价值的东西,是一项值得正视的系统化工程。
2. 非结构化数据的来源和类型
本系列要重点阐述的是,不同渠道来源不同性质类型的非结构化用户反馈数据,同样包含语音、文字、图片甚至视频,其中文字类的信息居多。
非结构化数据的来源来区分,广义的用户反馈来源可分为两类:一是不同平台用户自发反馈信息,二是用户研究项目中的用户反馈信息。
A. 不同平台用户自发反馈的信息
对于互联网产品而言,产品经理日常工作中离不开两件东西,一个是产品的数据,另一个就是用户反馈。甚至网易内部某知名产品总监,每天上班开机的第一件事,先看产品后台的用户反馈,再以关键词微博、新闻搜索。重要的反馈,逐一发到工作群。“重视用户的声音,也是重视产品体验的表现之一”。
常规的用户自发反馈信息来自于:微博、贴吧、其他第三方论坛和社区、APP Store、安卓应用商店、产品内部用户意见反馈功能等等。当然,不同的反馈源的其性质也是不同的。
用户反馈承担的核心任务为产品收集用户舆情,其价值不言而喻。用户反馈的主要信息性质包括:
A. 收集用户对于产品的关注点、问题讨论和信息传播;
B. 收集产品建议、提交功能BUG、接收用户投诉;
C. 获知产品的舆论极性导向,用户情绪表达。
针对不同平台用户自发反馈的信息,金融大数据实验室有专门的小分队,进行定期的用户反馈舆情爬取、监控、分析与挖掘。本系列中针对文本挖掘将有两大专题,一是文本爬取的工具及技巧,二是文本挖掘技术与案例。
B. 用户研究项目中的反馈信息
用户研究项目通过各种研究方法(如访谈、观察、测试、日记等),回收了各种文本资料、图片和视像资料。一般业内的处理方式大多是根据研究人员的个人经验,进行定性资料的归纳、演绎、推论,从而形成分析过程、结论和建议。
当定性资料量较大,或者资料类型多样化时,如果借助分析方法论和分析工具,将质性数据进行更加客观、科学、量化的处理。
3. 非结构化数据研究系列内容
非结构化数据包含文本、图片、音视频等多种形式,本系列内容则主要集中于文本类数据。鉴于前述两类主要的文本类非结构化数据的差异,本系列将分5期进行详细介绍。
第一期将围绕用户研究项目中的用户反馈信息的分析展开,这类文本数据通常篇幅较大,单条数据记录中便包含着大量的信息。其分析与应用往往带有质性研究属性,同时也非常考验数据分析者的功力。
本期将详细介绍相关的理论、一般过程,以及分析结果的应用等,旨在带大家了解相关的背景,更好地理解非结构数据的价值与应用。
第二期承接第一期,以网易一款APP的可用性测试为背景,为大家带来一篇基于atlas.ti软件的非结构化(文本)数据分析案例。
本案例中将详细地介绍如何借助分析工具,将质性数据进行更加客观、科学、量化的处理,而这无疑是每一位数据分析师孜孜追求的东西
与前两期不同的是,第三期将针对用户自发反馈的文本数据的分析与挖掘展开,这类数据“篇幅短小”但却“数据量巨大”,因而需要采取不同的数据处理手段。
本期将向大家介绍对这类非结构化文本数据分析与挖掘的一般原理、基本方法与过程,带大家一窥非结构数据分析与挖掘的神奇!
非结构化数据不仅形式多样、蕴含极大的商业价值,同时也杂乱地分布在各种来源上,并因为“价值密度低”的原因而让数据分析师焦头烂额。
基于此,本系列的最后一期,将向大家介绍如何通过爬虫技术获取所需要的非结构化数据资料。更重要的是,将向大家介绍如何将这一过程系统化、规范化,及其带来的长远价值!