社会媒体挖掘之引言

一、 社会媒体挖掘是什么
1. 社会媒体挖掘
社会媒体挖掘是从社会媒体数据中表示、分析和抽取可操作模式(即知识)的过程。
2. 社会媒体数据
社会化媒体数据指人们在社会媒体中产生或分享的各类信息,包括评论、视频、照片、地理位置、个人资料、社交关系等。
3. 社会媒体
a) 定义:社会媒体指互联网上基于用户关系的内容生产与交换平台,用户利用这些平台上分享意见、见解等信息。
b) 分类:目前,主要的社会媒体分类如下:
•博客:如新浪博客,与论坛相比,其主要特点在于博文与回复的主从关系
•视频共享平台:如YouTube,与其他相比,其主要特点在于处理对象(视频)的复杂性
•社会网络:如QQ,其主要特点在于好友关系的对称性
•维基:如百度百科,其主要特点在于多用户协同
•在线购物平台:淘宝、京东,其主要特点在于商品与用户的关系
•论坛:如天涯论坛、百度贴吧
•微博:新浪微博、网易微博,与社会关系相比,其特点在于订阅、关注的有向性
•社会化书签:歌德书签
概括起来说就是,用户在使用社会媒体(如微博)的同时会产生一系列社会媒体数据(如产生的关注关系、发布的状态信息等),而社会媒体挖掘就是从这些媒体数据中挖掘出人类行为模式,进而对人类个体进行全面的剖析和理解。
实际应用举例:
a) 分析社会网络中个人的影响力,典型的问题:微博中哪个大V最有号召力?
b) 在线为用户推荐个人和好友,典型的问题:微博是如何为你推荐好友的?
c) 分析用户个人行为,典型的问题:你今天会不会玩三国杀,玩完还会干什么?
二、 为什么要进行社会媒体挖掘
(一) 社会媒体数据的特性
1. 社会媒体挖掘需要处理极大的数据规模
2. 社会媒体用户创建的数据噪声很大且完全无结构化
3. 社会媒体用户之间的社会关系众多,如好友关系、关注与被关注关系等
这些海量社交数据有着巨大的研究价值,同时也在广告、推荐系统等方面具有广阔的应用前景。与此同时,这些新型数据迫使我们去探索新的计算数据分析方法,将社会理论与统计和数据挖掘技术相结合。而社会媒体挖掘正迎合了这些需求。
(二) 社会媒体挖掘的意义
1. 社会媒体挖掘研究将是推动社会学与信息科学交叉发展的着力点
2. 社会媒体数据研究已经成为提高国家信息产业科学化水平和舆情态势感知能力的支撑点
3. 社会媒体挖掘是引领新型互联网经济发展的制高点
(三) 社会媒体挖掘的挑战
1. 可扩展性:社会媒体网络规模庞大(常常有数百万的参与者和数十亿的邻接),但是传统的社会网络分析通常只能处理数百个对象或更少
2. 混杂性:个体之间的关系有多种;个体的类型也会有很多;混杂实体和混杂关系的组合使得社会媒体网络变得复杂
3. 演化:社会媒体网络的动态变化,而社会媒体分析结果强调实时性;如何获取网络的动力学特征?
4. 集体智慧:集体智慧通过标签、注释、评论和排名的方式体现,然而如何社会连接信息和集体智慧构建社会计算程序?
5. 评价:传统挖掘通常是监督学习具有其本身的缺陷;在挖掘的过程中会涉及到用户隐私;很多社会计算任务缺乏真实的应用背景
三、 怎么做
(一) 社会媒体网络的表示
社会媒体挖掘处理的对象是社会媒体数据,所以首先讨论就是描述、存储社会媒体数据。
社会媒体数据与通常的属性-值类型的数据不同,它具有自己独特的性质:网络型数据结构,也被称作社会媒体网络,所以可以使用图(Graph)对其进行描述、存储。
社会媒体网络通常规模巨大,包含成千上万个节点和连边。现实世界中,这样大规模网络往往具有一些共同的性质:
1. 无标度分布:大规模网络中的度分布通常会服从幂律分布
2. 小世界效应:社会媒体网络的规模很大,但是两个节点间的最短路径并不是很大
3. 社区结构:人们更倾向于与一个团体内的人进行互动社交,而与团体外的人的交往相对较少,由此可以进行划分社区结构
这些性质也是日后分析社会媒体网络的重要依据。
(二) 社会媒体挖掘的任务
1. 社区发现与演化分析
社会媒体会自发形成多个社区,每个社区内部都会存在频繁的交互。社区发现的意义在于:用户常常基于兴趣构成社区;通过社区观察用户交互是清晰的和全局化得;很多行为只有在社区中才能发现。
其中主要研究的问题有:
a) 如何发现社区
b) 社区结构是如何演化的?
c) 怎样评价发现的社区?
2. 信息传播与影响建模
社会媒体上的一个重要特性是信息可以在用户间通过连接关系进行级联扩散,因此社会媒体成为信息发布、市场营销、舆情监控的重要载体。
主要研究的问题有:
a) 如何建模社会媒体上的信息扩散?
b) 如何挖掘社会媒体上的关键节点?
c) 用户间是如何相互影响的?
d) 如何求解影响最大化问题?
e) 如何对网络传播进行追踪溯源?
f) 如何预测信息热度?
3. 兴趣发现与推荐系统
社会媒体上用户经常面对许多选择,这些不同的选择、最求最优性以及用户有限的知识使得每个用户亟需外界的帮助,用户兴趣发现与推荐系统便有了用武之地
主要研究的问题有:
a) 经典的推荐算法有哪些?
b) 基于社会媒体的推荐系统如何构建?
c) 如何评价推荐系统的性能?
4. 话题发现与演化追踪
社会媒体上信息种类丰富、内容繁杂,其中充满着大量用户会关注的话题,如何在海量、动态、多源的社会媒体数据中抽取出用户感谢兴趣的话题并进行推荐,追踪话题的发展变化,挖掘事件的舆论态势走向,对于快速信息决策是至关重要的。
主要研究的问题有:
a) 话题发现的模型和算法有哪些?
b) 话题演化的模型和算法有哪些?
c) 如何应对大规模、动态、多源数据的挑战?
5. 链接预测与网络推断
链接预测的功能是根据网络的结构信息,去发现网络中丢失的链接信息、识别虚假的链接以及预测未来可能会出现的链接。最常见的链接预测的应用是社交网络中的好友推荐
主要研究的问题有:
a) 链接预测的基本方法有哪些?
b) 异质社会媒体上链接预测如何实现?
c) 网络推断的效果如何评价?
6. 行为分析与建模预测
我们阅读在线新闻,对帖子、博客和视频发表评论,为产品撰写评价,听音乐和观看视频,发帖、点赞、分享等等都算是我们在社会媒体上行为,也都留下来了数据烙印。用户行为分析与建模预测就是要透过这些数据,挖掘其中有价值的模式
主要研究的问题有:
a) 如何刻画用户的采纳和忠诚程度?
b) 如何建模用户个体的使用行为?
c) 如何建模用户群体的互动行为?

你可能感兴趣的:(社会媒体挖掘)