数据分析学习总结笔记10:网络分析
- 1 网络分析概述
- 2 网络的基本概念与特征量
- 2.1 网络的发展
- 2.2 网络的表达形式
- 2.3 网络基本概念与特征量
- 2.3.1 网络整体指标
- 2.3.2 网络节点指标
- 3 社会网络分析
- 3.1 社会网络分析法概述
- 3.2 微博传播简介
- 3.3 社会网络分析工具——Cytoscape简介
- 3.4 社会网络分析的应用
- 4 社交网络
- 4.1 社交网络传播
- 4.2 社交网络营销
- 4.2.1 社交网络营销概述
- 4.2.2 个性化推荐系统
- 4.3 网络传播结构
- 4.3.1 网络传播结构的构建
- 4.3.2 网络传播结构的度量
1 网络分析概述
1.1 三大社会科学理论
- 突变理论(Catastrophe Theory)
为人们理解微小作用导致社会突然变化的机理开拓了道路。
- 混沌理论(Chaos Theory)
复杂而不断变化的系统,即使其初始状态是详尽了解的,也会迅速进入无法精确预知的状态。
- 复杂性理论(Complexity Theory)
在大量元体(agent)各自按照不多的几条简单规则相互作用时,如何从中产生出秩序与稳定。
1.2 网络分析内容
网络无处不在,Internet、电力网络、交通网络等。网络分析主要包括以下内容:
- 网络科学
- 社会网络
- 网络信息传播
- 网络分析技术与工具

2 网络的基本概念与特征量
2.1 网络的发展
1. 社会计量图

2. 社会网络分析

2.2 网络的表达形式

1. 图

2. 邻接矩阵或邻接表

2.3 网络基本概念与特征量

2.3.1 网络整体指标
1. 网络连通性

2. 网络密度
- 网络密度指网络中实际存在的边数与最大可能的边数之比。

3. 网络直径、平均路径长度
- 网络直径:网络中任意两个节点之间距离的最大值。
- 平均路径长度:任意两个节点之间距离的平均值。
小世界现象:尽管许多实际复杂网络的节点数巨大,但是网络的平均路径却小得惊人。
2.3.2 网络节点指标
1. 度、度分布

2. 聚集系数

三种网络类型:

3. 度中心性

4. 介数中心性

5. 接近中心性

6. HITS算法、PageRank

3 社会网络分析
3.1 社会网络分析法概述
**社会网络分析法(Social Network Analysis, SNA)**是对社会关系结构及其属性加以分析的一套规范和方法。
主要分析的是不同社会单位(个体、群体或社会)所构成的关系的结构及其属性。
- 点:社会行动者,可以是任何一个社会单位或社会实体。
- 关系:行动者之间的联系,常常代表关系的具体内容或者实质性的现实发生的关系。
- 强关系:带来社会网络的信任
- 弱关系:带来网络信息的传递
社会网络分析(Social Network Analysis)是最近非常流行的一种社会科学研究方法,当然,这种分析思想不仅仅是社会科学领域,其实很多自然科学领域也在研究网络。
常规统计分析处理的都是属性数据,社会网络分析处理的则是关系数据,其分析单位是“关系”,是从“关系”角度出发研究社会现象和社会结构,从而扑捉由社会结构形成的态度和行为。
通过案例深入理解社会关系网络。
社会网络的类型:

3.2 微博传播简介
- 微博反映社会现象,是一种社会网络,要考察社会结构应该从关系的视角去思考。
- 微博是一种传播现象,一种新媒体,需要考察传播机理和互动机制。
- 社交媒体更具有媒介和传播属性。
- 基于社会网络分析方法使我们能有效描述微博信息传播过程、相互作用和影响,洞察传播模式的动态演化。
3.3 社会网络分析工具——Cytoscape简介

3.4 社会网络分析的应用
1. 社区发现
网络社区结构是指将网络中的节点划分为一组集合,集合内的节点连接较为紧密,集合之间的节点连接较为稀疏。
表示如下图,子图内个体之间关系紧密,子图间个体关系稀疏。

常用算法:
- 图分割:谱二分、K-L算法、最大流等;
- 聚类算法:层次聚类、谱聚类和局部聚类。
2. 权力、声望和社会资本的直观表示
通过在网络中定义节点的度数、介数(betweeness)和接近度(closeness)等概念,可以揭示个人在社会中拥有权力和声望的情况。
- 节点度数:个人有关系的人数;
- 介数:个人在网络中是否占据中间地位,隐含着沟通不同群体的能力;
- 接近度:个人与其他所有人的平均距离。
3. 追踪流行病的扩散/病毒式营销

4 社交网络
4.1 社交网络传播
1. 无标度网络——幂律分布(power-law)
- 传播中的节点是不平等的
- 存在少数重要的节点
- 这些点起着重要作用

幂律分布的典例:演员合作网络、地震强度、机场航班、战争规模、语言单词频率、姓氏分布、微博粉丝数、个人收入、GDP大小……
2. 社会关系图——幂律分布:
3. 社交网络的传播结构——幂律分布
- 聚集群体
- 等级差异
- 细分群体
- 自组织性
- 鲁棒性(健壮性)
- 脆弱性
4. 结构主义思想:

4.2 社交网络营销
4.2.1 社交网络营销概述
社交网络营销:经由社会网络,在明确的目标群体规模和结构的基础上,通过关键成员(KOL)传递信息,以影响舆论和购买决策的形成。
- 社会化媒体是一种重要的营销工具,它是企业发布信息和影响消费者,并收集反馈信息与之互动的重要渠道。
- 如何从海量的关系数据中发现有价值的信息、建立精准营销的目标客户、分析客户价值模型是很多企业关注的问题。
4.2.2 个性化推荐系统
推荐系统与算法:消费者更喜欢来自朋友而非系统的推荐,如何利用微博社会网络,从目标用户的朋友中挖掘可推荐的对象,或引导目标用户向其朋友推荐。
局部推荐算法:将信任评价机制和社会推荐有机结合。
个性化自适应算法:针对不同消费者行为模式,可采用不同的算法,且可随用户行为模式的变换自适应地改变并优化,实现更有效的个性化推荐。
- 需要考虑到稳健性、精确性、多样性、新颖性的平衡。

4.3 网络传播结构
4.3.1 网络传播结构的构建
1. 来自平台
媒介平台本身记录了信息的扩散路径,因此可以通过平台提供的接口直接获取传播结构。如微博、论坛、贴吧等。
2. 来自标注
虽然平台没有直接记录,但是可以通过用户传播时的一些标注间接的找出传播结构。如微博里的//@, via XXX, 来自XXX等。

3. 来自文本
在前两种都无法获取的情况下,通过计算文本相似性,再结合时间上的先后顺序,可以近似推出传播的结构。
(1)TF-IDF算法提取关键词;
(2)计算余弦距离;
(3)设定阈值判断(如,80%)。
4.3.2 网络传播结构的度量
1. 网络传播结构的空间度量

(1) 网络传播结构的类型

(2)结构性扩散度

(3)微博传播结构类型
- 广播式传播
- 病毒式传播
- 阵列式传播
- 明星效应
- ……
2. 传播结构的时间度量

不同话题的传播趋势特征:

相关笔记:
- Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
- Python相关实用技巧02:Python2和Python3的区别
- Python相关实用技巧03:14个对数据科学最有用的Python库
- Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
- Python相关实用技巧05:yield关键字的使用
- Scrapy爬虫小技巧01:轻松获取cookies
- Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
- 数据分析学习总结笔记01:情感分析
- 数据分析学习总结笔记02:聚类分析及其R语言实现
- 数据分析学习总结笔记03:数据降维经典方法
- 数据分析学习总结笔记04:异常值处理
- 数据分析学习总结笔记05:缺失值分析及处理
- 数据分析学习总结笔记06:T检验的原理和步骤
- 数据分析学习总结笔记07:方差分析
- 数据分析学习总结笔记07:回归分析概述
- 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
- 数据分析学习总结笔记09:文本分析
- 数据分析学习总结笔记10:网络分析
本文主要根据个人学习(媒体大数据挖掘与案例实战MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!