数据挖掘岗位分析与应用

目录

1.数据挖掘简介

1.1概念

1.2基本方法

2.分类分析

2.1概念

2.2基本方法

2.3分类方法的对比

3.聚类分析

3.1概念

3.2基本方法

3.3聚类分析方法的对比

4.神经网络

4.1概念

4.2基本方法

5.数据挖掘岗位分析

5.1企业分析

5.2人员分析

6.数据挖掘应用

3.1用户画像——talkingdata

3.1.1概述

3.1.2用户画像

3.2文本挖掘——智慧星光

3.2.1概述

3.2.2舆情秘书产品简介



1.数据挖掘简介

1.1概念

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,分预测-描述-建模三个阶段。

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

1.2基本方法

它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

数据预处理方式:聚集、抽样、维归约、特征子集、特征创建、离散二元化、变量变换

2.分类分析

2.1概念

通过学习算法,确定分类模型,拟合输入数据与属性的关系,进行未知样本的预测。

2.2基本方法

分类的基本方法,包括决策树、基于规则的分类、神经网络、支持向量机、朴素贝叶斯分类法。

2.3分类方法的对比

3.聚类分析

3.1概念

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,其核心为:确立簇、簇评估。

3.2基本方法

基本的聚类分析及评估方法,包括K均值算法、凝聚层次聚类、DBSCAN。

3.3聚类分析方法的对比


4.神经网络

4.1概念

工神经网络(artificial neural network,缩写ANN),简称神经网络(neural network,缩写NN)或类神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络主要由:输入层隐藏层输出层构成。



4.2基本方法

1.卷积神经网络CNN


2.循环神经网络RNN



5.数据挖掘岗位分析

5.1企业分析

1.企业分布

招聘数据挖掘工程师最多的为京东、滴滴、小米、腾讯、百度、阿里、美团、360等大型互联网科技公司。


源数据来源:拉勾网


2.公司融资轮次

公司融资轮次集中在上市公司、D轮及以上中大型公司,此类公司资金较为雄厚,技术储备较强。


源数据来源:拉勾网

5.2人员分析

1.学历分布

本科学历为岗位招聘标配。


2.薪资水平

数据挖掘工程师整体薪资水平高,50%薪资集中在20-30K间,25%薪资为30-40K。


3.工作经验

数据挖掘工程师为高薪职位,同时要求也很高,有一定入门门槛,经验在3-5年间的工程师招聘需求更多。




4.能力要求

数据挖掘工程师能力要求集中在用户画像、用户行为分析、风控、个性化推荐、知识图谱、反作弊、精细化运营,注重运用技术能力解决实际业务问题。



6.数据挖掘应用

3.1用户画像——talkingdata

3.1.1概述

1.简介

talkingdata移动大数据服务平台,根据企业业务特点建立360度用户画像,帮助企业量身定制营销方案,为企业赢得更多的客户,精细营销,将用户转化为消费生产力,实现数据价值变现。

2.产品矩阵


3.1.2用户画像

1.概念

用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。

2.价值

用户画像可以使产品的服务对象更加聚焦,更加精细化。

3.组成

静态数据和动态数据。

4.构建方法

1)构建用户静态/动态数据

分类描述类型内容

静态数据用户相对稳定的信息人口属性性别、年龄、姓名、地域

  商业属性收入、职业、所属行业

  消费意向汽车购买、快消购买、美妆购买

  生活形态生活习性、娱乐爱好、社交方式

  CRM客户状态、会员状态、生命价值

动态数据用户不断变化的行为信息场景访问设备、访问时段

  媒体访问媒体、访问页面、访问时长、访问频次

  路径流量来源、流量去向

2)标签与权重:通过用户行为分析,为用户打上标签以及其权重

分类描述

标签表征了内容,用户对该内容有兴趣、偏好、需求等

权重表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。

3)数据建模:标签=用户标示+时间+行为类型+接触内容的聚合,如“爱好阅读”标签,该用户在一天内进入头条内容页面停留了30分钟以上

事件模型:通过手机用户行为,结合上下文构建时间模型,5W(who、when、where、what、which)

·who通过唯一的用户标识来锁定某个人(用户名、手机号、qq、微信、cookie等)

·when:主要收集时间因素

·where:主要收集地理位置因素

·what:主要收集交互的商品/内容的标识,最终标签基本出自于对what的具象或者抽象

·which:标识用户什么行为,比如点击、浏览、购买、观看

整体思考建模:用户标签权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:标签权重=衰减因子×行为权重

3.2文本挖掘——智慧星光

3.2.1概述

1.简介

智慧星光是一家文本大数据服务商,提供大数据价值挖掘和精准化信息服务。

2.产品矩阵

3.2.2舆情秘书产品简介

1. 简介

舆情秘书是国内顶尖的互联网舆情监测智能云平台,监测覆盖新闻、论坛、博客、微博、微信、视频、APP、平媒等众多网络媒体及电视频道

2. 产品价值

帮助政府机构、企事业单位精准、及时、全面的掌握关于自身的互联网舆情信息,提高舆情应对能力,及时化解矛盾,处理好政府和民众、企业和客户的关系。

3.产品特点

覆盖面广:覆盖新闻、论坛、微博、微信、贴吧、博客、视频、手机APP、平媒、各大网站…

实时监测:7X24X365小时实时监测

关键字提取:地域、人名、语义识别准确率99%、自动预警准确率95%

用户分析:多维度分析舆情传播路径、关键词云、发展态势、网民观点

4.技术实现

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程,是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

分词:将句子分段

词性标注:名词、动词、形容词、时间词、方位词、数词、代词、处所词、区别词、状态词、量词、副词、语气词、拟声词、字符串、介词、连词、助词、叹词、标点符号、前缀、后缀

去掉停用词

特征选择:分为有监督和无监督,计算文本集的熵、计算特征的条件熵、得到所有特征的信息增益。







                                                                    全文完

你可能感兴趣的:(数据挖掘岗位分析与应用)